Измерение информации (алфавитный подход). Единицы измерения информации. Страница 1

Планирование уроков на учебный год (учебник И.Г. Семакина и др.)


Урок 5
Измерение информации (алфавитный подход). Единицы измерения информации




§4. Измерение информации


Основные темы параграфа:

- алфавитный подход к измерению информации;
- алфавит, мощность алфавита;
- информационный вес символа;
- информационный объем текста;
- единицы информации.

Изучаемые вопросы:

- Алфавит, мощность алфавита.
- 1 бит – информационный вес символа двоичного алфавита.
- N=2b – формула для определения информационного веса символа.
- Информационный объём текста
- Единицы измерения информации: байт, килобайт, мегабайт, гигабайт.

Материал для углубленного изучения темы «Измерение информации»

Изучаемые вопросы:

- Содержательный подход к измерению информации
- Неопределенность знаний
- Формула Хартли


Алфавитный подход к измерению информации


А теперь обсудим вопрос о том, как можно измерять информацию. Существует несколько подходов к измерению информации. Здесь мы рассмотрим только один, который называется алфавитным подходом *.

Алфавитный подход позволяет измерять информационный объем текста на некотором языке (естественном или формальном), не связанный с содержанием этого текста.

Вам хорошо известно, что существуют единицы измерения таких величин, как, например, расстояние, масса, время. Для расстояния — это метр, для массы — грамм, для времени — секунда. Измерение происходит путем сопоставления измеряемой величины с единицей измерения.

*О другом подходе к измерению информации см. в разделе 1.1 материала для углубленного изучения «Дополнение к главе I».

Сколько раз единица измерения укладывается в измеряемой величине, таков и результат измерения. Следовательно, и для измерения информации должна быть введена своя единица измерения.

Алфавит. Мощность алфавита


Под алфавитом некоторого языка мы будем понимать набор букв, знаков препинания, цифр, скобок и других символов, используемых в тексте. В алфавит также следует включить и пробел, т. е. пропуск между словами.

Полное число символов алфавита принято называть мощностью алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54: 33 буквы + 10 цифр + 11 знаков препинания, скобки, пробел.

Информационный вес символа


При алфавитном подходе считается, что каждый символ текста имеет определенный информационный вес. Информационный вес символа зависит от мощности алфавита. А каким может быть наименьшее число символов в алфавите? Оно равно двум! Скоро вы узнаете, что такой алфавит используется в компьютере. Он содержит всего 2 символа, которые обозначаются цифрами 0 и 1. Его называют двоичным алфавитом. Изучая устройство и работу компьютера, вы узнаете, как с помощью всего двух символов можно представить любую информацию.

Информационный вес символа двоичного алфавита принят за единицу информации и называется 1 бит.

С увеличением мощности алфавита увеличивается информационный вес символов этого алфавита. Так один символ из четырехсимвольного алфавита (N = 4) «весит» 2 бита. Объяснение этому можно дать следующее: все символы такого алфавита можно закодировать всеми возможными комбинациями из двух цифр двоичного алфавита. Комбинацию из нескольких (двух, трех и т. д.) знаков двоичного алфавита назовем двоичным кодом.

Используя три двоичные цифры, можно составить 8 различных комбинаций.

Следовательно, если мощность алфавита равна 8, то информационный вес одного символа равен 3 битам.

Четырехзначными двоичными кодами могут быть закодированы все символы 16-символьного алфавита, и т. д.

Найдем зависимость между мощностью алфавита (N) и количеством знаков в коде (b) — разрядностью двоичного кода.

Заметим, что 2 = 21, 4 = 22, 8 = 23, 16 = 24.

В общем виде это записывается следующим образом:

N = 2b.

Разрядность двоичного кода — это и есть информационный вес символа.

Если число N не равно целой степени двойки, то для определения информационного веса символа поступают следующим образом: берется ближайшее к N, большее N значение М, равное двойке в целой степени: N < М = 2b. Получаемое отсюда значение b принимается за информационный вес символа. Например, если N = 12, то М = 16 = 24. Отсюда информационный вес символа из алфавита мощностью 12 равен 4 битам. Иначе говоря, 12 символов алфавита кодируются 4-разрядными двоичными кодами.

Информационный объем текста. Единицы информации


Информационный объем текста складывается из информационных весов составляющих его символов. Например, следующий текст, записанный с помощью двоичного алфавита:

1101001011000101110010101101000111010010

содержит 40 символов, следовательно, его информационный объем равен 40 битам.

Сегодня для подготовки текстовых документов чаще всего применяются компьютеры. Алфавит, из которого составляется такой «компьютерный текст», содержит 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: строчные и прописные латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания и пр.

Поскольку 256 = 28, то один символ компьютерного алфавита «весит» 8 битов. Величина, равная восьми битам, называется байтом.

1 байт = 8 битов.

Легко подсчитать информационный объем текста, если известно, что информационный вес одного символа равен 1 байту. Надо просто сосчитать число символов в тексте. Полученное значение и будет информационным объемом текста, выраженным в байтах.

Например, небольшая книжка, подготовленная с помощью компьютера, содержит 150 страниц. На каждой странице 40 строк, в каждой строке 60 символов (включая пробелы между словами). Значит, страница содержит 40 х 60 = 2400 байтов информации. Для вычисления информационного объема всей книги нужно полученную величину умножить на число страниц:

2400 байтов * 150 = 360 000 байтов.

Уже на таком примере видно, что байт — «мелкая» единица. А представьте, что нужно, например, измерить информационный объем целой библиотеки. В байтах это окажется громадным числом!

Для измерения больших информационных объемов используются более крупные единицы:

1 килобайт = 1 Кб = 210 байтов = 1024 байта

1 мегабайт = 1 Мб = 210 Кб = 1024 Кб

1 гигабайт = 1 Гб = 210 Мб = 1024 Мб

1 терабайт = 1 Тб = 210 Гб = 1024 Гб

Следовательно, информационный объем вышеупомянутой книги равен приблизительно 360 килобайтам. А если посчитать точнее, то получится:

360 000 : 1024 = 351,5625 Кб.

351,5625 : 1024 = 0,34332275 Мб.

В заключение еще раз обратим внимание на важное свойство рассмотренного здесь алфавитного подхода. При его использовании содержательная сторона текста в учет не берется. Текст, состоящий из бессмысленного сочетания символов, будет иметь ненулевой информационный объем.

Коротко о главном


Алфавитный подход — это способ измерения информационного объема текста, не связанного с его содержанием.

Алфавит — это вся совокупность символов, используемых в некотором языке для представления информации. Мощность алфавита — это число символов в нем.

1 бит — информационный вес одного символа двухсимвольного алфавита (N = 2).

Информационный вес символа (разрядность двоичного кода) (b) и мощность алфавита (N) связаны формулой: N = 2b.

Если N не равно двойке в целой степени, то находится большее N, ближайшее к N целое число М = 2b (b — целое), и из этого равенства определяется b — информационный вес символа.

Информационный объем текста равен сумме информационных весов всех символов, составляющих текст.

1 байт — информационный вес символа из алфавита мощностью 28 = 256 символов. 1 байт = 8 битов.

Байт, килобайт, мегабайт, гигабайт, терабайт — единицы измерения информации. Каждая следующая единица больше предыдущей в 1024 (210) раза.

Вопросы и задания


1. Что такое алфавит?

2. Что такое мощность алфавита?

3. Как определяется информационный объем текста при использовании алфавитного подхода?

4. Текст составлен с использованием алфавита мощностью 64 символа и содержит 100 символов. Каков информационный объем текста?

5. Что такое байт, килобайт, мегабайт, гигабайт, терабайт?

6. Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст?

7. Два текста содержат одинаковое количество символов. Первый текст составлен в алфавите мощностью 32 символа, второй — мощностью 64 символа. Во сколько раз различаются информационные объемы этих текстов?

Электронное приложение к уроку


liniya

Вернуться к материалам урока
Презентации, плакаты, текстовые файлы Ресурсы ЕК ЦОР
Видео к уроку

liniya

Cкачать материалы урока








Наверх