HTML UTF-8-Referenzhandbuch
Das Unicode Consortium (Unicode Consortium)
Das Unicode Consortium (Unicode Consortium) entwickelt, um den Unicode-Standard (Unicode Standard). Ihr Ziel ist es, den Standard Unicode Transformation Format zu verwenden (dh UTF steht für Unicode Transformation Format), die bestehenden Zeichensätze zu ersetzen.
Der Unicode-Standard ist eine erfolgreiche Initiative, in HTML, XML, Java, JavaScript, E-Mail, ASP, PHP erreicht werden. Unicode-Standard auch viele Betriebssysteme und alle modernen Browser unterstützen.
Unicode-Allianz mit den führenden Standardisierungsorganisationen, die ISO, W3C und ECMA haben.
Unicode-Zeichensatz
Unicode kann durch verschiedene Zeichensätze implementiert werden. Die am häufigsten verwendete Codierung ist UTF-8 und UTF-16:
字符集 | 描述 |
---|---|
UTF-8 | UTF8 中的字符可以是 1 到 4 字节长。UTF-8 可以代表 Unicode 标准中的任何字符。UTF-8 向后兼容 ASCII。UTF-8 是电子邮件和网页的首选编码。 |
UTF-16 | 16 位 Unicode 转换格式是一种可变长度的 Unicode 字符编码,能够编码整个 Unicode 指令表。UTF-16 主要用于操作系统和环境,如 Microsoft Windows、Java 和 .NET。 |
Tipp: Unicode ersten 128 Zeichen (ASCII-zu-Eins - Entsprechung) verwenden , um eine ASCII - Wert des gleichen binären Oktett codiert wird , so dass gültige ASCII - Text UTF-8 - Codierung auch leitend ist wirksam.
Tipp: Alle HTML - 4 - Prozessoren unterstützen UTF-8, die alle HTML 5 und XML - Prozessoren unterstützen UTF-8 und UTF-16!
HTML5-Standards: Unicode UTF-8
Da die ISO-8859-Zeichensatzgröße begrenzt ist und nicht kompatibel in einer mehrsprachigen Umgebung entwickelt, das Unicode-Konsortium den Unicode-Standard.
Unicode-Standard deckt (fast) alle Zeichen, Satzzeichen und Symbole.
Unicode ermöglicht die Verarbeitung, Lagerung und Transport des Textes und plattformunabhängige Sprache.
HTML-5 in der Standard - Zeichenkodierung UTF-8 ist .
Hier sind einige HTML5-Unterstützung UTF-8-Zeichensatz:
字符集 | 十进制 | 十六进制 |
---|---|---|
C0 控制与基本的 Latin(C0 Controls and Basic Latin) | 0-127 | 0000-007F |
C1 控制与 Latin-1 的补充(C1 Controls and Latin-1 Supplement) | 128-255 | 0080-00FF |
Latin 扩展 A(Latin Extended-A) | 256-383 | 0100-017F |
Latin 扩展 B(Latin Extended-B) | 384-591 | 0180-024F |
Wenn HTML5 Seite UTF-8-Zeichen verwendet unterscheidet sich von, müssen Sie in der <meta> -Tag angeben, wie folgt: