Comment supprimer les balises HTML du texte (JavaScript, Python, Regex)

4 min de lecture

Supprimer les balises HTML est l'une des tâches de traitement de texte les plus courantes, que ce soit pour nettoyer les sorties CMS, faire du scraping web ou préparer du texte pour l'analyse.

JavaScript

// Méthode DOM (la plus sûre)
function stripHtml(html) {
  const doc = new DOMParser().parseFromString(html, 'text/html');
  return doc.body.textContent || '';
}

// Méthode regex (simple)
const text = html.replace(/<[^>]*>/g, '');

Python

from html.parser import HTMLParser
from io import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ''.join(self.fed)

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

# Ou simplement :
import re
re.sub(r'<[^>]*>', '', html)

Outil en ligne

Utilisez notre convertisseur en texte brut pour supprimer le HTML instantanément.