Спрощені та традиційні китайські ієрогліфи відрізняються своєю закодованою послідовністю байтів. Для спрощених символів зазвичай використовується кодування GB2312 або GBK, тоді як для традиційних символів використовується кодування Big5. Unicode охоплює обидва набори, призначаючи унікальні кодові точки для кожної версії символу.
UTF-8 це система кодування символів. Це дозволяє представляти символи як текст ASCII, але все ще допускає міжнародні символи, наприклад китайські ієрогліфи.
Так, ви можете представити їх кожен 4 байтами в UTF-8. Однак це дуже неефективно, якщо текст повністю або переважно складається з Ханзі. Ось чому ви зазвичай використовуєте UTF-16 якщо ви хочете написати такий текст: там кожен символ – це 2 байти, тому він займає приблизно в 2 рази менше місця.
У материковому Китаї такі методи піньінь, як Sogou Pinyin і Google Pinyin є найпопулярнішими. У Тайвані переважають використання Cangjie, Dayi, Boshiamy та bopomofo; а в Гонконгу та Макао в школах найчастіше вивчають цанцзе, тоді як у кількох школах вивчають китайську систему введення CKC.
У Unicode 15.0 існує багатомовний набір символів із 149 813 символів, серед яких 98 682 (приблизно 2/3) є китайськими ієрогліфами, відсортованими за радикалами Kangxi. Доступні навіть дуже рідко використовувані символи. Усі 5009 символів Гонконгського додаткового набору символів (HKSCS) включені в Unicode.
Структура китайського ієрогліфа — це шаблон або правило, за яким ієрогліф формується його компонентами (першого рівня).. Структури китайських символів включають однокомпонентну структуру, структуру зліва направо, структуру вгору-вниз і структуру навколо.