Компьютерные словари и переводчики
Распознавание текстов
Практическая работа № 32 «Работа с текстом»
Практическая работа № 33 «Распознавание текстов»
Несколько сотен лет человечество накапливало информацию в бумажном виде: в форме книг, газет, журналов. Сейчас возникла необходимость ввести эти данные в компьютер. Это тяжёлая работа, отнимающая очень много времени. Представьте, сколько времени потребуется вам, чтобы набрать текст книги размером в 500 страниц.
Существует другой способ — вводить страницы с помощью сканера (выполнять их оцифровку). Но, как вы знаете, сканер вводит изображение как точечный рисунок, т. е. набор пикселей. Для того чтобы значительно уменьшить объём файлов и сделать возможным поиск по тексту, нужно закодировать документ как текст. Это позволит легко редактировать его, например заменять и удалять фрагменты.
Итак, сканер вводит рисунок, а нам нужен текст. Это значит, что необходима какая-то программа, которая умеет распознавать буквы и цифры в комбинациях пикселей разного цвета. Такая задача называется задачей оптического распознавания символов. Она тоже относится к области искусственного интеллекта, как и задача машинного перевода. Существуют программы, которые в некоторых случаях могут распознать даже рукописный текст, но они работают не очень надёжно (подумайте, почему).
Используя дополнительные источники, выясните, от каких английских слов произошло сокращение OCR. Что оно обозначает?
Вспомните, в каких единицах измеряется качество сканирования? Как связано качество сканирования и качество распознавания документа?
Самая известная программа для распознавания текста — FineReader компании ABBYY. Это коммерческая программа, но часто одна из её версий поставляется на диске при покупке сканера.
Бесплатная программа распознавания текста — CuneiForm, которая относится к свободному программному обеспечению. Она работает под управлением Windows, Linux, macOS и других операционных систем.
Следующая страница Голосовой ввод текста