Стандартним кодуванням вихідних файлів Python є UTF-8. JSON, TOML, YAML використовують UTF-8. Більшість текстових редакторів, включаючи Visual Studio Code та Windows Notepad, використовують UTF-8 за замовчуванням. Більшість веб-сайтів і текстових даних в Інтернеті використовують UTF-8.18 березня 2022 р
UTF-8 тепер може бути стандартним кодуванням тексту — і це все ще є, і було деякий час — але так було не завжди. Фіксоване 16-бітне представлення широко використовувалося на початку Unicode, до Unicode 2.0 (середина 1980-х до приблизно 1996).
UTF-8 є домінуючим кодуванням для Всесвітньої павутини (та Інтернет-технологій), на нього припадає 98,2% усіх веб-сторінок, 99,1% із 100 000 найпопулярніших сторінок і до 100% для багатьох мов станом на 2024 рік. Практично всі країни та мови мають 95% або більше використання кодування UTF-8 в Інтернеті.
UTF-8: остання частина головоломки
характер | Кодовий пункт | Двійкове кодування UTF-8 |
---|---|---|
0 | U+0030 | 00110000 |
9 | U+0039 | 00111001 |
! | U+0021 | 00100001 |
Ø | U+00D8 | 11000011 10011000 |
Типовим значенням для помилок є 'строгий', що означає, що помилки кодування викликають UnicodeError. Інші можливі значення: «ignore», «replace», «xmlcharrefreplace», «backslashreplace» та будь-яке інше ім’я, зареєстроване за допомогою кодеків.
UTF-8 — це стандартне та ефективне кодування рядків Unicode, яке представляє символи в одиницях, що складаються з одного, двох, трьох або чотирьох байтів. Python за замовчуванням використовує UTF-8, що означає, що його не потрібно вказувати в кожному файлі Python.