Алфавитный подход к измерению количества информации
Представьте себе, что вы много раз бросаете монету и записываете результат очередного броска как 1 (если монета упала гербом) или 0 (если она упала «решкой»). В результате получится некоторое сообщение — цепочка нулей и единиц, например 0101001101001110. Вы наверняка поняли, что здесь используется двоичное кодирование — это сообщение написано на языке, алфавит которого состоит из двух знаков (символов): 0 и 1. Как вы знаете из § 3, каждая двоичная цифра несёт 1 бит информации, поэтому полная информация в сообщении 0101001101001110 равна 16 битов.
Теперь представим себе, что нужно закодировать программу для робота, который умеет выполнять команды «вперёд», «назад», «влево» и «вправо». Для этого можно использовать алфавит, состоящий из 4 символов: ↑ ↓ → ←. Сколько информации содержится в сообщении ↑ ← ↑ ↑ → ↓ ↓ ↓ ↓ → ←?
Каждый полученный символ может быть любым из 4 символов алфавита, а для кодирования одного из 4 вариантов требуется уже два бита. Поэтому полное сообщение из 11 символов содержит 22 бита информации.
Алфавитный подход к измерению количества информации состоит в следующем:
1) определяем мощность алфавита N (количество символов в алфавите);
2) по таблице степеней числа 2 определяем количество битов информации i, приходящихся на каждый символ сообщения, — информационную ёмкость (объём) символа:
3) умножаем i на число символов в сообщении L, это и есть полное количество информации: I = L • i.
Обратим внимание на две важные особенности алфавитного подхода.
При использовании алфавитного подхода не учитывается, что некоторые символы могут встречаться в сообщении чаще других. Считается, что каждый символ несёт одинаковое количество информации.
Алфавитный подход не учитывает также частоты появления сочетаний символов (например, после гласных букв никогда не встречается мягкий знак).
Кроме того, никак не учитывается смысл сообщения, оно представляет собой просто набор знаков, которые приёмник, возможно, даже не понимает.
При использовании алфавитного подхода смысл сообщения не учитывается. Количество информации определяется только длиной сообщения и мощностью алфавита.
Во многих задачах такой подход очень удобен. Например, для устройств, передающих информацию по сети, её содержание не имеет никакого значения, важен только объём. Почтальону всё равно, что написано в письмах, важно только их количество, которое влияет на вес сумки. Для компьютера все данные — это последовательности нулей и единиц, смысла данных он не понимает.
Для вычисления информационного объёма текста чаще всего применяют именно алфавитный подход. Например, пусть требуется оценить количество информации в 10 страницах текста (на каждой странице 32 строки по 64 символа) при использовании алфавита из 256 символов. Задача решается так:
1) определяем информационную ёмкость одного символа: так как 256 = 28, один символ несёт i = 8 битов, или 1 байт информации;
2) считаем количество символов на одной странице, в данном случае удобно использовать степени числа 2 (32 = 25, 64 = 26): 25 • 26 = 211 символов на странице;
3) находим общее количество символов на 10 страницах: N = 10 • 211 символов;
4) определяем информационный объём всего текста: I — N • i = 10 • 211 • 1 байтов = 10 • 211 байтов = 10 • 211 • (1/210 Кбайт) = 20 Кбайт.
Следующая страница Вопросы и задания