Кодирование и декодирование текстовой информации
Кодировки русского алфавита
Практическая работа 2.1. Кодировки русских букв
Важно, что присваивание символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) этой таблицы соответствуют не символам, а операциям (перевод строки, ввод пробела и т. д.).
Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
Коды с 128 по 255 являются национальными, т. е. в национальных кодировках одному и тому же коду соответствуют различные символы. Для кодирования текстов на русском языке (букв кириллицы) применяются следующие кодовые страницы:
• СР1251, или Windows-1251 — в системах Windows;
• семейство кодовых страниц KOI8 — основная русская кодировка в Unix-совместимых ОС и в почтовых клиентах;
• СР866 (IBM code page 866), или Альтернативная кодировка — в системах DOS, а также в ней записываются имена файлов в системе FAT;
• MacCyrillic — на компьютерах Macintosh;
• ISO 8859-5 — восьмибитовая таблица ASCII.
Поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
В настоящее время широкое распространение получил международный стандарт Unicode, который поддерживает одно-, двух- и четырёхбайтовые кодировки UTF-8, UTF-16 и UTF-32 соответственно. С помощью UTF-16 можно закодировать не 256 символов, а N = 216 = 65 536 различных символов. Формы записи в UTF-32 позволяют кодировать до 231 (2 147 483 648) кодовых позиций. Такого количества символов достаточно, чтобы закодировать не только русский и латинский алфавиты, цифры, знаки и математические символы, но и греческий, арабский, иврит и другие алфавиты.
Следующая страница Вопросы и задания