UTF-8エンコーディングとは?開発者ガイド

4 分で読了

UTF-8はすべてのUnicode文字を表現できる可変長文字エンコーディングです。全Webサイトの98%以上で使用されています。

UTF-8の仕組み

文字範囲バイト数
U+0000〜U+007F(ASCII)1バイトA = 0x41
U+0080〜U+07FF2バイトé = 0xC3 0xA9
U+0800〜U+FFFF3バイト中 = 0xE4 0xB8 0xAD
U+10000〜U+10FFFF4バイト絵文字

よくある問題

  • 「文字化け」 — エンコーディングの誤検出による文字の乱れ
  • データベースのエンコーディング不一致
  • ファイル内のBOM(バイトオーダーマーク)

エンコーディング問題をクリーンに

問題のある文字を除去するにはプレーンテキストコンバーターをご利用ください。