UTF-8エンコーディングとは?開発者ガイド
4 分で読了
UTF-8はすべてのUnicode文字を表現できる可変長文字エンコーディングです。全Webサイトの98%以上で使用されています。
UTF-8の仕組み
| 文字範囲 | バイト数 | 例 |
|---|---|---|
| U+0000〜U+007F(ASCII) | 1バイト | A = 0x41 |
| U+0080〜U+07FF | 2バイト | é = 0xC3 0xA9 |
| U+0800〜U+FFFF | 3バイト | 中 = 0xE4 0xB8 0xAD |
| U+10000〜U+10FFFF | 4バイト | 絵文字 |
よくある問題
- 「文字化け」 — エンコーディングの誤検出による文字の乱れ
- データベースのエンコーディング不一致
- ファイル内のBOM(バイトオーダーマーク)
エンコーディング問題をクリーンに
問題のある文字を除去するにはプレーンテキストコンバーターをご利用ください。