Яке стандартне кодування UTF-8 у Python?

Стандартним кодуванням вихідних файлів Python є UTF-8. JSON, TOML, YAML використовують UTF-8. Більшість текстових редакторів, включаючи Visual Studio Code та Windows Notepad, використовують UTF-8 за замовчуванням. Більшість веб-сайтів і текстових даних в Інтернеті використовують UTF-8.18 березня 2022 р

UTF-8 тепер може бути стандартним кодуванням тексту — і це все ще є, і було деякий час — але так було не завжди. Фіксоване 16-бітне представлення широко використовувалося на початку Unicode, до Unicode 2.0 (середина 1980-х до приблизно 1996).

UTF-8 є домінуючим кодуванням для Всесвітньої павутини (та Інтернет-технологій), на нього припадає 98,2% усіх веб-сторінок, 99,1% із 100 000 найпопулярніших сторінок і до 100% для багатьох мов станом на 2024 рік. Практично всі країни та мови мають 95% або більше використання кодування UTF-8 в Інтернеті.

UTF-8: остання частина головоломки

характерКодовий пунктДвійкове кодування UTF-8
0U+003000110000
9U+003900111001
!U+002100100001
ØU+00D811000011 10011000

Типовим значенням для помилок є 'строгий', що означає, що помилки кодування викликають UnicodeError. Інші можливі значення: «ignore», «replace», «xmlcharrefreplace», «backslashreplace» та будь-яке інше ім’я, зареєстроване за допомогою кодеків.

UTF-8 — це стандартне та ефективне кодування рядків Unicode, яке представляє символи в одиницях, що складаються з одного, двох, трьох або чотирьох байтів. Python за замовчуванням використовує UTF-8, що означає, що його не потрібно вказувати в кожному файлі Python.