Son todos los caracteres Kanji en UTF-8 3 bytes de largo?

Por favor alguien puede confirmar que todos los caracteres Kanji en China son 3 bytes en formato UTF-8?

InformationsquelleAutor TopCoder | 2010-09-09

2 Kommentare

  1. 27

    Los comúnmente utilizados Hanzi/caracteres Kanji son en el «CJK Unificado de Ideogramas de» bloque de entre U+4E00 y U+9FFF, y tomar 3 bytes en formato UTF-8. (Los Japoneses Hiragana y Katakana tomar 3 bytes).

    Sin embargo, también hay algunos muy rara vez-los caracteres utilizados en la «CJK Unificado de Ideogramas Extensión B» y «CJK Compatibility Ideogramas Suplemento de» bloques», que tienen 4 bytes en formato UTF-8.

    También ser consciente de que el texto en Chino a menudo contiene los caracteres ASCII como los dígitos 0-9.

    • +1 Wow, al parecer tenemos los hablantes de Chino en stackoverflow. Bueno :-).
    • Texto en japonés proviene de Shift-JIS, es probable también contienen otros no los Kanji, los caracteres no ASCII de la asignación de dos secuencias de bytes. Y entonces veremos en breve de la emoji para contender con, que también están fuera del Plano Multilingüe Básico y por lo tanto 4 bytes…
    • No, yo no hablar el Chino. Me acabo de hacer demasiado trabajo con la codificación de caracteres.
    • y también… este es el internet. LO más probable es que las personas que hablan idiomas que ni siquiera han oído hablar.
    • Véase también la pregunta sobre el Japonés de intercambio de la pila: japanese.stackexchange.com/q/6872/16273 – al parecer, algunos de los «muy rara», los personajes no son tan raras.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Pruebas en línea