テキストクリーニングのための正規表現:必須15パターン
5 分で読了
正規表現はテキストクリーニングの万能ツールです。すべての開発者が知っておくべき15のパターンを紹介します。
必須パターン
| タスク | 正規表現 |
|---|---|
| HTMLタグの除去 | <[^>]*> |
| 空白の圧縮 | \s+ → |
| URLの除去 | https?://\S+ |
| メールアドレスの除去 | [\w.+-]+@[\w-]+\.[\w.-]+ |
| 数字の除去 | \d+ |
| 非ASCIIの除去 | [^\x00-\x7F] |
| 句読点の除去 | [^\w\s] |
| 各行のトリム | ^\s+|\s+$(multiline) |
| 空行の除去 | ^\s*$\n(multiline) |
| 重複スペースの除去 | {2,} → |
オンラインツール
プレーンテキストコンバーターなら、正規表現の知識がなくても、これらのパターンをトグルオプションで適用できます。