Вопрос об измерении количества информации является очень важным как для науки, так и для практики. В самом деле, если информация является предметом нашей деятельности, мы ее храним, передаем, принимаем, обрабатываем. Поэтому важно договориться о способе ее измерения, позволяющем, например, ответить на вопросы: достаточно ли места на носителе, чтобы разместить нужную нам информацию, или сколько времени потребуется, чтобы передать ее по имеющемуся каналу связи. Величина, которая нас в этих ситуациях интересует, называется объемом информации. В таком случае говорят об алфавитном, или объемном, подходе к измерению информации.
Алфавитный подход к измерению информации применяется в цифровых (компьютерных) системах хранения и передачи информации. В этих системах используется двоичный способ кодирования информации. При алфавитном подходе для определения количества информации имеет значение лишь размер (объем) хранимого и передаваемого кода. Алфавитный подход еще называют объемным подходом. Из курса информатики 7-9 классов вы знаете, что если с помощью i-разрядного двоичного кода можно закодировать алфавит, состоящий из N символов (где N — целая степень двойки), то эти величины связаны между собой по формуле:
2i = N.
Число N называется мощностью алфавита.
Если, например, i = 2, то можно построить 4 двухразрядные комбинации из нулей и единиц, т. е. закодировать 4 символа. При i = 3 существует 8 трехразрядных комбинаций нулей и единиц (кодируется 8 символов):
Английский алфавит содержит 26 букв. Для записи текста нужны еще как минимум шесть символов: пробел, точка, запятая, вопросительный знак, восклицательный знак, тире. В сумме получается расширенный алфавит мощностью в 32 символа.
Поскольку 32 = 25, все символы можно закодировать всевозможными пятиразрядными двоичными кодами от 00000 до 11111. Именно пятиразрядный код использовался в телеграфных аппаратах, появившихся еще в XIX веке. Телеграфный аппарат при вводе переводил английский текст в двоичный код, длина которого в 5 раз больше, чем длина исходного текста.
В двоичном коде каждая двоичная цифра несет одну единицу информации, которая называется 1 бит.
Бит является основной единицей измерения информации.
Длина двоичного кода, с помощью которого кодируется символ алфавита, называется информационным весом символа. В рассмотренном выше примере информационный вес символа расширенного английского алфавита оказался равным 5 битам.
Информационный объем текста складывается из информационных весов всех составляющих текст символов. Например, английский текст из 1000 символов в телеграфном сообщении будет иметь информационный объем 5000 битов.
Алфавит русского языка включает 33 буквы. Если к нему добавить еще пробел и пять знаков препинания, то получится набор из 39 символов. Для двоичного кодирования символов такого алфавита пятиразрядного кода уже недостаточно. Нужен как минимум 6-разрядный код. Поскольку 26 = 64, остается еще резерв для 25 символов (64 - 39 = 25). Его можно использовать для кодирования цифр, всевозможных скобок, знаков математических операций и других символов, встречающихся в русском тексте. Следовательно, информационный вес символа в расширенном русском алфавите будет равен 6 битам. А текст из 1000 символов будет иметь объем 6000 битов.
Итак, если i — информационный вес символа алфавита, а К — количество символов в тексте, записанном с помощью этого алфавита, то информационный объем I текста выражается формулой:
I = К x i (битов).
Идея измерения количества информации в сообщении через длину двоичного кода этого сообщения принадлежит выдающемуся российскому математику Андрею Николаевичу Колмогорову. Согласно Колмогорову, количество информации, содержащееся в тексте, определяется минимально возможной длиной двоичного кода, необходимого для представления этого текста.
Для определения информационного веса символа полезно знать ряд целых степеней двойки. Вот как он выглядит в диапазоне от 21 до 210:
Поскольку мощность N алфавита может не являться целой степенью двойки, информационный вес символа алфавита мощности N определяется следующим образом. Находится ближайшее к N значение во второй строке таблицы, не меньшее чем N.
Соответствующее значение i в первой строке будет равно информационному весу символа.
Пример. Определим информационный вес символа алфавита, включающего в себя все строчные и прописные русские буквы (66); цифры (10); знаки препинания, скобки, кавычки (10). Всего получается 86 символов.
Поскольку 26 < 86 < 27, информационный вес символов данного алфавита равен 7 битам. Это означает, что все 86 символов можно закодировать семиразрядными двоичными кодами.
Для двоичного представления текстов в компьютере чаще всего применяется восьмиразрядный код. С помощью восьмиразрядного кода можно закодировать алфавит из 256 символов, поскольку 256 = 28. В стандартную кодовую таблицу (например, используемую в ОС Windows таблицу ANSI) помещаются все необходимые символы: английские и русские буквы — прописные и строчные, цифры, знаки препинания, знаки арифметических операций, всевозможные скобки и пр.
Более крупной, чем бит, единицей измерения информации является байт: 1 байт = 8 битов.
Информационный объем текста в памяти компьютера измеряется в байтах. Он равен количеству символов в записи текста.
Одна страница текста на листе формата А4 кегля 12 с одинарным интервалом между строками в компьютерном представлении будет иметь объем 4000 байтов, так как на ней помещается примерно 4000 знаков.
Помимо бита и байта, для измерения информации используются и более крупные единицы:
1 Кб (килобайт) = 210 байтов = 1024 байта; 1 Мб (мегабайт) = 210 Кб = 1024 Кб; 1 Гб (гигабайт) = 210 Мб = 1024 Мб; 1 Тб (терабайт) = 210 Гб = 1024 Гб.
Объем той же страницы текста будет равен приблизительно 3,9 Кб. А книга из 500 таких страниц займет в памяти компьютера примерно 1,9 Мб.
В компьютере любые виды информации: тексты, числа, изображения, звуки — представляются в форме двоичного кода.
Объем информации любого вида, выраженный в битах, равен длине двоичного кода, в котором эта информация представлена.
Вопросы и задания
1. Есть ли связь между алфавитным подходом к измерению информации и содержанием информации?
2. В чем можно измерить объем письменного или печатного текста?
3. Оцените объем одной страницы данного учебника в байтах.
4. Что такое бит с позиции алфавитного подхода к измерению информации?
5. Как определяется информационный объем текста по А. Н. Колмогорову?
6. Какой информационный вес имеет каждая буква русского алфавита?
7. Какие единицы используются для измерения объема информации на компьютерных носителях?
8. Сообщение, записанное буквами из 64-символьного алфавита, содержит 100 символов. Какой объем информации оно несет?
9. Сколько символов содержит сообщение, записанное с помощью 16-символьного алфавита, если его объем составляет 1/16 Мб?
10. Сообщение занимает 2 страницы и содержит 1/16 Кб информации. На каждой странице 256 символов. Какова мощность используемого алфавита?
11. Возьмите страницу текста из данного учебника и подсчитайте информационные объемы текста, получаемые при кодировании его семиразрядным и восьмиразрядным кодами. Результаты выразите в
килобайтах и мегабайтах.
Содержательный подход к измерению информации отталкивается от определения информации как содержания сообщения, получаемого человеком. Сущность содержательного подхода заключается в следующем: сообщение, информирующее об исходе какого-то события, снимает неопределенность знания человека об этом событии.
Чем больше первоначальная неопределенность знания, тем больше информации несет сообщение, снимающее эту неопределенность.
Приведем примеры, иллюстрирующие данное утверждение.
Ситуация 1. В ваш класс назначен новый учитель информатики; на вопрос «Это мужчина или женщина?» вам ответили: «Мужчина».
Ситуация 2. На чемпионате страны по футболу играли команды «Динамо» и «Зенит». Из спортивных новостей по радио вы узнаете, что игра закончилась победой «Зенита».
Ситуация 3. На выборах мэра города было представлено четыре кандидата. После подведения итогов голосования вы узнали, что избран Н. Н. Никитин.
Вопрос: в какой из трех ситуаций полученное сообщение несет больше информации?
Неопределенность знания — это количество возможных вариантов ответа на интересовавший вас вопрос. Еще можно сказать: возможных исходов события. Здесь событие — например, выборы мэра; исход — выбор, например, Н. Н. Никитина.
В первой ситуации 2 варианта ответа: мужчина, женщина; во второй ситуации 3 варианта: выиграл «Зенит», ничья, выиграло «Динамо»; в третьей ситуации — 4 варианта: 4 кандидата на пост мэра.
Согласно данному выше определению, наибольшее количество информации несет сообщение в третьей ситуации, поскольку неопределенность знания об исходе события в этом случае была наибольшей.
В 40-х годах XX века проблема измерения информации была решена американским ученым Клодом Шенноном — основателем теории информации. Согласно Шеннону, информация — это снятая неопределенность знания человека об исходе какого-то события.
В теории информации единица измерения информации определяется следующим образом.
Сообщение, уменьшающее неопределенность знания об исходе некоторого события в два раза, несет 1 бит информации.
Согласно этому определению, сообщение в первой из описанных ситуаций несет 1 бит информации, поскольку из двух возможных вариантов ответа был выбран один.
Следовательно, количество информации, полученное во второй и в третьей ситуациях, больше, чем один бит. Но как измерить это количество?
Рассмотрим еще один пример.
Ученик написал контрольную по информатике и спрашивает учителя о полученной оценке. Оценка может оказаться любой: от 2 до 5. На что учитель отвечает: «Угадай оценку за два вопроса, ответом на которые может быть только "да" или "нет"». Подумав, ученик задал первый вопрос: «Оценка выше тройки?». «Да», — ответил учитель. Второй вопрос: «Это пятерка?». «Нет», — ответил учитель. Ученик понял, что он получил четверку. Какая бы ни была оценка, таким способом она будет угадана!
Первоначально неопределенность знания (количество возможных оценок) была равна четырем. С ответом на каждый вопрос неопределенность знания уменьшалась в 2 раза и, следовательно, согласно данному выше определению, передавался 1 бит информации.
Узнав оценку (одну из четырех возможных), ученик получил 2 бита информации.
Рассмотрим еще один частный пример, а затем выведем общее правило.
Вы едете на электропоезде, в котором 8 вагонов, а на вокзале вас встречает товарищ. Товарищ позвонил вам по мобильному телефону и спросил, в каком вагоне вы едете. Вы предлагаете угадать номер вагона, задав наименьшее количество вопросов, ответами на которые могут быть только слова «да» или «нет».
Немного подумав, товарищ стал спрашивать:
— Номер вагона больше четырех? — Да. — Номер вагона больше шести? — Нет. — Это шестой вагон? — Нет. — Ну теперь все ясно! Ты едешь в пятом вагоне!
Схематически поиск номера вагона выглядит так:
Каждый ответ уменьшал неопределенность знания в два раза. Всего было задано три вопроса. Значит, в сумме набрано 3 бита информации. То есть сообщение о том, что вы едете в пятом вагоне, несет 3 бита информации.
Способ решения проблемы, примененный в примерах с оценками и вагонами, называется методом половинного деления: ответ на каждый вопрос уменьшает неопределенность знания, имеющуюся перед ответом на этот вопрос, наполовину. Каждый такой ответ несет 1 бит информации.
Заметим, что решение подобных проблем методом половинного деления наиболее рационально. Таким способом всегда можно угадать, например, любой из восьми вариантов за 3 вопроса. Если бы поиск производился последовательным перебором: «Ты едешь в первом вагоне?» «Нет», «Во втором вагоне?» «Нет» и т. д., то про пятый вагон вы смогли бы узнать после пяти вопросов, а про восьмой — после восьми.
Сформулируем одно очень важное условие, относящееся к рассмотренным примерам. Во всех ситуациях предполагается, что все возможные исходы события равновероятны. Равновероятно, что учитель может быть мужчиной или женщиной; равновероятен любой исход футбольного матча, равновероятен выбор одного из четырех кандидатов в мэры города. То же относится и к примерам с оценками и вагонами.
Тогда полученные нами результаты описываются следующими формулировками:
• сообщение об одном из двух равновероятных исходов некоторого события несет 1 бит информации;
• сообщение об одном из четырех равновероятных исходов некоторого события несет 2 бита информации;
• сообщение об одном из восьми равновероятных исходов некоторого события несет 3 бита информации.
Обозначим буквой N количество возможных исходов события, или, как мы это еще называли, — неопределенность знания. Буквой i будем обозначать количество информации в сообщении об одном из N результатов.
В примере с учителем: N = 2, i = 1 бит; в примере с оценками: N = 4, i = 2 бита; в примере с вагонами: N = 8, i = 3 бита.
Нетрудно заметить, что связь между этими величинами выражается следующей формулой:
2i = N.
Действительно: 21 = 2 ; 22 = 4 ; 23 = 8.
С полученной формулой вы уже знакомы из курса информатики для 7 класса и еще не однажды с ней встретитесь. Значение этой формулы столь велико, что мы назвали ее главной формулой информатики. Если величина N известна, a i неизвестно, то данная формула становится уравнением для определения i. В математике такое уравнение называется показательным уравнением.
Пример. Вернемся к рассмотренному выше примеру с вагонами. Пусть в поезде не 8, а 16 вагонов. Чтобы ответить на вопрос, какое количество информации содержится в сообщении о номере искомого вагона, нужно решить уравнение:
2i = 16.
Поскольку 16 = 24 , то i = 4 бита.
Количество информации i, содержащееся в сообщении об одном из N равновероятных исходов некоторого события, определяется из решения показательного уравнения:
2i = N.
Пример. В кинозале 16 рядов, в каждом ряду 32 места. Какое количество информации несет сообщение о том, что вам купили билет на 12-й ряд, 10-е место?
Решение задачи: в кинозале всего 16 • 32 = 512 мест. Сообщение о купленном билете однозначно определяет выбор одного из этих мест. Из уравнения 2i = 512 = 29 получаем: i - 9 битов.
Но эту же задачу можно решать иначе. Сообщение о номере ряда несет 4 бита информации, так как 24 = 16. Сообщение о номере места несет 5 битов информации, так как 25 = 32. В целом сообщение про ряд и место несет: 4 + 5 = 9 битов информации.
Данный пример иллюстрирует выполнение закона аддитивности количества информации (правило сложения): количество информации в сообщении одновременно о нескольких результатах независимых друг от друга событий равно сумме количеств информации о каждом событии отдельно.
Сделаем одно важное замечание. С формулой 2i = N мы уже встречались, обсуждая алфавитный подход к измерению информации (см. § 3. Измерение информации. Алфавитный подход). В этом случае N рассматривалось как мощность алфавита, а i — как информационный вес каждого символа алфавита. Если допустить, что все символы алфавита появляются в тексте с одинаковой частотой, т. е. равновероятно, то информационный вес символа i тождественен количеству информации в сообщении о появлении любого символа в тексте. При этом N — неопределенность знания о том, какой именно символ алфавита должен стоять в данной позиции текста. Данный факт демонстрирует связь между алфавитным и содержательным подходами к измерению информации.
Если значение N равно целой степени двойки (4, 8, 16, 32, 64 и т. д.), то показательное уравнение легко решить в уме, поскольку i будет целым числом. А чему равно количество информации в сообщении о результате матча «Динамо»-«Зенит»? В этой ситуации N = 3. Можно догадаться, что решение уравнения
2i = 3.
будет дробным числом, лежащим между 1 и 2, поскольку 21 = 2 < 3, а 22 = 4 > 3. А как точнее узнать это число?
В математике существует функция, с помощью которой решается показательное уравнение. Эта функция называется логарифмом, и решение нашего уравнения записывается следующим образом:
i = log2 N.
Читается это так: «логарифм от N по основанию 2». Смысл очень простой: логарифм по основанию 2 от А — это степень, в которую нужно возвести 2, чтобы получить N. Например, вычисление уже известных вам значений можно представить так:
log2 2 = 1, log2 4 = 2, log2 8 = 3.
Значения логарифмов находятся с помощью специальных логарифмических таблиц. Также можно использовать инженерный калькулятор или табличный процессор. Определим количество информации, полученной из сообщения об одном исходе события из трех равновероятных, с помощью электронной таблицы. На рисунке 1.4 представлены два режима электронной таблицы: режим отображения формул и режим отображения значений.
В табличном процессоре Microsoft Excel функция логарифма имеет следующий вид: LOG(apryмент; основание). Аргумент — значение N находится в ячейке А2, а основание логарифма равно 2. В результате получаем с точностью до девяти знаков после запятой: i = log23 = 1,584962501 (бита).
Формула для измерения количества информации: i = log2N была предложена американским ученым Ральфом Хартли — одним из основоположников теории информации.
Формула Хартли: i = log2 N
Здесь i — количество информации, содержащееся в сообщении об одном из N равновероятных исходов события.
Данный пример показал, что количество информации, определяемое с использованием содержательного подхода, может быть дробной величиной, в то время как информационный объем, вычисляемый путем применения алфавитного подхода, может иметь только целочисленное значение.
Вопросы и задания
1. Что такое неопределенность знания об исходе некоторого события?
2. Как определяется единица измерения количества информации в рамках содержательного подхода?
3. Придумайте несколько ситуаций, при которых сообщение несет 1 бит информации.
4. В каких случаях и по какой формуле можно вычислить количество информации, содержащейся в сообщении, используя содержательный подход?
5. Сколько битов информации несет сообщение о том, что из колоды в 32 карты достали «даму пик»?
6. При угадывании методом половинного деления целого числа из диапазона от 1 до N был получен 1 байт информации. Чему равно N?
7. Проводятся две лотереи: «4 из 32» и «5 из 64». Сообщение о результатах какой из лотерей несет больше информации?
8. Используя формулу Хартли и электронные таблицы, определите количество информации в сообщениях о равновероятных событиях:
а) на шестигранном игральном кубике выпала цифра 3;
б) в следующем году ремонт в школе начнется в феврале;
в) я приобрел абонемент в бассейн на среду;
г) из 30 учеников класса дежурить в школьной столовой назначили Дениса Скворцова.
9. Используя закон аддитивности количества информации, решите задачу о билете в кинотеатр со следующим дополнительным условием: в кинотеатре 4 зала. В билете указан номер зала, номер ряда и номер места. Какое количество информации заключено в билете?
Цель работы: практическое закрепление знаний о способах измерения информации при использовании содержательного и объемного подходов.
Используемое программное обеспечение: Microsot Word.
Определить (с помощью утилиты «Установка и удаление программ»), сколько приложений установлено на вашем компьютере, и вычислить, какое количество информации содержит сообщение о том, что было запущено одно из них.
Врач-стоматолог принимает пациентов с 8 утра до 2 часов дня. На каждого пациента отводится по 30 минут. Какое количество информации содержит сообщение о том, что Петя записался на прием в 11.30?
Известно, что сообщение учителя о том, что к доске пойдет Саша Орлов, содержит 5 битов информации. Сколько учеников в классе?
В корзине лежат 4 груши и 12 яблок. Какое количество информации содержит сообщение о том, что из корзины достали грушу?
В школьную команду по волейболу было отобрано некоторое количество учеников из 64 претендентов. Сколько учеников было отобрано, если сообщение о том, кто был выбран, содержит 72 бита информации?
Из папки Документы было удалено 13 файлов, и сообщение об этом содержит 91 бит информации. Сколько файлов осталось в папке?
В детской магнитной азбуке 32 буквы. Какое количество информации содержит сообщение о том, что из них было собрано слово «муравей»?
Какое количество информации получит второй игрок при игре в крестики-нолики на поле размером 8x8 клеток, после первого хода первого игрока, играющего крестиками?
Необходимо отгадать слово, состоящее из 5 букв и записанное с помощью алфавита из 3 2 букв. Можно задавать вопросы, ответом на которые будет «Да» или «Нет». С помощью какого числа вопросовь можно отгадать слово при оптимальной стратегии игры?
Открыть в редакторе Microsoft Word произвольный текстовый файл (без графических элементов), определить количество символов в этом файле, включая пробелы (команда Файл —» Свойства), и вычислить количество информации в этом файле.
Алфавит некоторого языка состоит из 64 символов. За сколько секунд можно передать текст из 2000 символов, если скорость передачи — 50 байтов в секунду?
В некотором алфавите записан текст из 300 символов, количество информации в тексте — 150 байтов. Сколько символов в алфавите?
Приведенное ниже сообщение содержит все буквы алфавита. Какое количество информации оно содержит?
Имеется файл с текстом из 20000 символов. При наборе текста использовался компьютерный алфавит. Текст необходимо скопировать на дискету, на которой имеется свободная область памяти 20 Кбайт. Поместится ли текст на дискету?
В течение 10 секунд было передано сообщение, количество информации в котором равон 5000 байтов. Каков размер алфавита, если скорость передачи — 800 символов в секунду?
Два сообщения содержат одинаковое количество символов. Количество информации в первом тексте в 2,5 раза больше, чем во втором. Сколько символов содержат алфавиты, если известно, что число символов в каждом алфавите не превышает 32 и на каждый символ приходится целое число битов?
Сколько битов информации содержит любое трехзначное восьмеричное число?
Создайте с помощью табличного процессора Excel таблицу для автоматического перевода чисел из битов в байты, килобайты, мегабайты и гигабайты. Переведите во все предложенные единицы измерения 1000 битов, 8192 бита, 20 500 битов, 16 394 бита, 100 200 битов.
Найти неизвестные x и y, если верны соотношения 16y Мбайт = 8x бит и 2x Кбайт = 2y Мбайт.
Создать с помощью табличного процессора Excel таблицу следующего вида:
Из какой единицы измерения переводить? | Количество информации | Биты | Байты | Килобайты | Мегабайты | Гигабайты | Терабайты |
В первом столбце единица измерения должна выбираться из списка (список создается с помощью команды Данные → Проверка). Далее, в зависимости от выбранной единицы измерения, заданное количество информации должно переводиться во все указанные единицы измерения (использовать условную функцию).
Протестировать работоспособность созданной таблицы и доказать правильность ее работы.