§ 11. Кодирование текстов | UNICODE

Планирование уроков на учебный год (по учебнику К.Ю. Полякова, Е.А. Еремина, углубленный уровень)


Урок 18
§11. Кодирование текстов





Содержание урока

Как кодируют символы?

Шрифты

Кодировка ASCII

Однобайтные кодировки

Кодировки UNICODE

Информационный объём текста

Выводы. Интеллект-карта

Вопросы и задания


Кодировки UNICODE


Любая 8-битная кодовая страница имеет серьезное ограничение — она может включать только 256 символов. Поэтому не получится набрать в одном документе часть текста на русском языке, а часть — на китайском.

Для решения этих проблем в 1991 году был принят новый стандарт UNICODE, который позволяет хранить в одной таблице коды символов любых существующих (и даже некоторых мёртвых) языков, математические и музыкальные символы и др.

Если мы хотим хранить в кодовой таблице больше разных символов, нужно увеличивать место, которое отводится под код каждого символа. Например, если на каждый символ выделить два байта, то можно закодировать 216 = 65 536 символов. В современной версии UNICODE можно использовать до 1112 064 различных символов. Символы из таблицы ASCII имеют в UNICODE те же самые коды, т. е. эти стандарты совместимы между собой.

В системе Windows используется кодировка UNICODE, называемая UTF-16 (от англ. UNICODE Transformation Format — формат преобразования UNICODE). В ней все наиболее важные символы кодируются с помощью 16 бит (2 байт), а редко используемые — с помощью 4 байт.

В Uniх-подобных системах, например в Linux, чаще применяют кодировку UTF-8. В ней все символы, входящие в таблицу ASCII, кодируются с помощью 1 байта, а другие символы могут занимать от 2 до 6 байт. Текст, состоящий только из символов таблицы ASCII, кодируется точно так же, как и в кодировке ASCII, и его размер получается в два раза меньше, чем при использовании UTF-16. По данным поисковой системы Google, на конец 2014 года более 80% сайтов в Интернете использовали кодировку UTF-8.

Главное достоинство кодировок UNICODE в том, что они позволяют использовать символы разных языков в одном документе. За это приходится расплачиваться увеличением объёма файлов.

Используя дополнительные источники, найдите ответы на вопросы.

— Сколько символов сейчас добавлено в таблицы UNICODE?
— Сколько байт отводится на каждую русскую букву в кодировке UTF-8?
— Как будет выглядеть фраза «Здравствуй, мир!», если набрать её в кодировке UTF-8, а просматривать — в кодировке Windows-1251?



Следующая страница Информационный объём текста



Cкачать материалы урока








Наверх