§11. Кодирование текстов | Кодировки UNICODE

Планирование уроков на учебный год (по учебнику К.Ю. Полякова, Е.А. Еремина, базовый уровень)


Урок 8
§11. Кодирование текстов





Содержание урока

Как кодируют символы?

Шрифты

Кодировка ASCII

Однобайтные кодировки

Кодировки UNICODE

Информационный объём текста

Выводы. Интеллект-карта

Вопросы и задания


Кодировки UNICODE


Любая 8-битная кодовая страница имеет серьезное ограничение — она может включать только 256 символов. Поэтому не получится набрать в одном документе часть текста на русском языке, а часть — на китайском.

Для решения этих проблем в 1991 году был принят новый стандарт UNICODE, который позволяет хранить в одной таблице коды символов любых существующих (и даже некоторых мёртвых) языков, математические и музыкальные символы и др.

Если мы хотим хранить в кодовой таблице больше разных символов, нужно увеличивать место, которое отводится под код каждого символа. Например, если на каждый символ выделить два байта, то можно закодировать 216 = 65 536 символов. В современной версии UNICODE можно использовать до 1112 064 различных символов. Символы из таблицы ASCII имеют в UNICODE те же самые коды, т. е. эти стандарты совместимы между собой.

В системе Windows используется кодировка UNICODE, называемая UTF-16 (от англ. UNICODE Transformation Format — формат преобразования UNICODE). В ней все наиболее важные символы кодируются с помощью 16 бит (2 байт), а редко используемые — с помощью 4 байт.

В Uniх-подобных системах, например в Linux, чаще применяют кодировку UTF-8. В ней все символы, входящие в таблицу ASCII, кодируются с помощью 1 байта, а другие символы могут занимать от 2 до 6 байт. Текст, состоящий только из символов таблицы ASCII, кодируется точно так же, как и в кодировке ASCII, и его размер получается в два раза меньше, чем при использовании UTF-16. По данным поисковой системы Google, на конец 2014 года более 80% сайтов в Интернете использовали кодировку UTF-8.

Главное достоинство кодировок UNICODE в том, что они позволяют использовать символы разных языков в одном документе. За это приходится расплачиваться увеличением объёма файлов.

Используя дополнительные источники, найдите ответы на вопросы.

— Сколько символов сейчас добавлено в таблицы UNICODE?
— Сколько байт отводится на каждую русскую букву в кодировке UTF-8?
— Как будет выглядеть фраза «Здравствуй, мир!», если набрать её в кодировке UTF-8, а просматривать — в кодировке Windows-1251?



Следующая страница Информационный объём текста



Cкачать материалы урока








Наверх