Кодировки UNICODE
Любая 8-битная кодовая страница имеет серьезное ограничение — она может включать только 256 символов. Поэтому не получится набрать в одном документе часть текста на русском языке, а часть — на китайском.
Для решения этих проблем в 1991 году был принят новый стандарт UNICODE, который позволяет хранить в одной таблице коды символов любых существующих (и даже некоторых мёртвых) языков, математические и музыкальные символы и др.
Если мы хотим хранить в кодовой таблице больше разных символов, нужно увеличивать место, которое отводится под код каждого символа. Например, если на каждый символ выделить два байта, то можно закодировать 216 = 65 536 символов. В современной версии UNICODE можно использовать до 1112 064 различных символов. Символы из таблицы ASCII имеют в UNICODE те же самые коды, т. е. эти стандарты совместимы между собой.
В системе Windows используется кодировка UNICODE, называемая UTF-16 (от англ. UNICODE Transformation Format — формат преобразования UNICODE). В ней все наиболее важные символы кодируются с помощью 16 бит (2 байт), а редко используемые — с помощью 4 байт.
В Uniх-подобных системах, например в Linux, чаще применяют кодировку UTF-8. В ней все символы, входящие в таблицу ASCII, кодируются с помощью 1 байта, а другие символы могут занимать от 2 до 6 байт. Текст, состоящий только из символов таблицы ASCII, кодируется точно так же, как и в кодировке ASCII, и его размер получается в два раза меньше, чем при использовании UTF-16. По данным поисковой системы Google, на конец 2014 года более 80% сайтов в Интернете использовали кодировку UTF-8.
Главное достоинство кодировок UNICODE в том, что они позволяют использовать символы разных языков в одном документе. За это приходится расплачиваться увеличением объёма файлов.
Используя дополнительные источники, найдите ответы на вопросы.
— Сколько символов сейчас добавлено в таблицы UNICODE?
— Сколько байт отводится на каждую русскую букву в кодировке UTF-8?
— Как будет выглядеть фраза «Здравствуй, мир!», если набрать её в кодировке UTF-8, а просматривать — в кодировке Windows-1251?
Следующая страница Информационный объём текста