§ 29. Работа с текстом | Распознавание текста (68 часов в уч. год)

Планирование уроков на учебный год (по учебнику К.Ю. Полякова, Е.А. Еремина, углубленный уровень)


Уроки 55 - 56
§29. Работа с текстом



Содержание урока

Проверка правописания

Компьютерные словари и переводчики

Распознавание текстов

Голосовой ввод текста

Гиперссылки

Выводы. Интеллект-карта

Вопросы и задания

Практическая работа № 32 «Работа с текстом»

Практическая работа № 33 «Распознавание текстов»


Распознавание текстов


Несколько сотен лет человечество накапливало информацию в бумажном виде: в форме книг, газет, журналов. Сейчас возникла необходимость ввести эти данные в компьютер. Это тяжёлая работа, отнимающая очень много времени. Представьте, сколько времени потребуется вам, чтобы набрать текст книги размером в 500 страниц.

Существует другой способ — вводить страницы с помощью сканера (выполнять их оцифровку). Но, как вы знаете, сканер вводит изображение как точечный рисунок, т. е. набор пикселей. Для того чтобы значительно уменьшить объём файлов и сделать возможным поиск по тексту, нужно закодировать документ как текст. Это позволит легко редактировать его, например заменять и удалять фрагменты.

Итак, сканер вводит рисунок, а нам нужен текст. Это значит, что необходима какая-то программа, которая умеет распознавать буквы и цифры в комбинациях пикселей разного цвета. Такая задача называется задачей оптического распознавания символов. Она тоже относится к области искусственного интеллекта, как и задача машинного перевода. Существуют программы, которые в некоторых случаях могут распознать даже рукописный текст, но они работают не очень надёжно (подумайте, почему).

Используя дополнительные источники, выясните, от каких английских слов произошло сокращение OCR. Что оно обозначает?

Вспомните, в каких единицах измеряется качество сканирования? Как связано качество сканирования и качество распознавания документа?

Самая известная программа для распознавания текста — FineReader компании ABBYY. Это коммерческая программа, но часто одна из её версий поставляется на диске при покупке сканера.


Бесплатная программа распознавания текста — CuneiForm, которая относится к свободному программному обеспечению. Она работает под управлением Windows, Linux, macOS и других операционных систем.

Следующая страница Голосовой ввод текста



Cкачать материалы урока







Наверх