O que é codificação UTF-8? Guia para desenvolvedores

4 min de leitura

UTF-8 é uma codificação de caracteres de comprimento variável que pode representar todos os caracteres Unicode. É usada por mais de 98% de todos os sites.

Como UTF-8 funciona

Faixa de caracteresBytesExemplo
U+0000 a U+007F (ASCII)1 byteA = 0x41
U+0080 a U+07FF2 bytesé = 0xC3 0xA9
U+0800 a U+FFFF3 bytes中 = 0xE4 0xB8 0xAD
U+10000 a U+10FFFF4 bytesemoji

Problemas comuns

  • "Mojibake" — texto ilegível por detecção incorreta de codificação
  • Incompatibilidade de codificação no banco de dados
  • BOM (Byte Order Mark) em arquivos

Limpe problemas de codificação

Use nosso conversor para texto simples para remover caracteres problemáticos.