Кодировка ASCII и её расширения
Для того чтобы упростить передачу текстовой информации, разработаны стандарты, которые закрепляют определённые коды за общеупотребительными символами. Основным международным стандартом является 7-битная кодировка ASCII (англ. American Standard Code for Information Interchange — американский стандартный код для обмена информацией), в которую входят 27 = 128 символов с кодами от 0 до 127:
• служебные (управляющие) символы с кодами от 0 до 31;
• символ «пробел» с кодом 32;
• цифры от «0» до «9» с кодами от 48 до 57;
• латинские буквы: заглавные, от «А» до «Z» (с кодами от 65 до 90) и строчные, от «а» до «z» (с кодами от 97 до 122);
• знаки препинания: . , : ; ! ?
• скобки: [] {} ()
• математические символы: + - * / = < >
• некоторые другие знаки: ” ' # $ % & ^ | @ \ _ -
В современных компьютерах минимальная единица памяти, имеющая собственный адрес, — это байт (8 битов). Поэтому для хранения кодов ASCII в памяти можно добавить к ним ещё один (старший) нулевой бит, таким образом, получая 8-битную кодировку. Кроме того, дополнительный бит можно использовать: он даёт возможность добавить в таблицу еще 128 символов с кодами от 128 до 255. Такое расширение ASCII часто называют кодовой страницей. Первую половину кодовой страницы (коды от 0 до 127) занимает стандартная таблица ASCII, а вторую — символы национальных алфавитов (например, русские буквы):
Для русского языка существуют несколько кодовых страниц, которые были разработаны для разных операционных систем. Наиболее известны:
• кодовая страница Windows-1251 (СР-1251) — в системе Windows;
• кодовая страница KOI8-R — в системе Unix; альтернативная кодировка (СР-866) — в системе MS DOS;
• кодовая страница MacCyrillic — на компьютерах фирмы Apple (Макинтош и др.).
Проблема состоит в том, что, если набрать русский текст в одной кодировке (например, в Windows-1251), а просматривать в другой (например, в KOI8-R), текст будет невозможно прочитать:
Для веб-страниц в Интернете часто используют кодировки Windows-1251 и KOI8-R. Браузер после загрузки страницы пытается автоматически определить ее кодировку. Если ему это не удаётся, вы видите странный набор букв вместо понятного русского текста. В этом случае нужно сменить кодировку вручную с помощью меню Вид браузера.
Следующая страница Стандарт UNICODE