Оптическое распознавание символов
Алгоритмы оптического распознавания
Оптическое распознавание документов
Оптическое распознавание изображений
Мультиязычность систем оптического распознавания
Системы оптического распознавания форм
Системы распознавания рукописного текста
Практическая работа 2.7 Оптическое распознавание документов в формате изображений
При создании электронных библиотек и архивов путем перевода книг и документов в цифровой формат, при переходе предприятий от бумажного документооборота к электронному, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов.
Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Текст, преобразованный из графической формы в символьную (текстовую), можно далее обрабатывать любыми текстовыми редакторами. Системы оптического распознавания символов экспортируют результаты распознавания в популярные офисные приложения (Microsoft Office, OpenOffice.org и др.), причем распознанный текст можно сохранить в различных текстовых форматах: DOCX, DOC, ODT, RTF, TXT, HTML и др.
Оптическое распознавание символов (англ. Optical Character Recognition, OCR) — электронное конвертирование изображений символов и букв в текст, редактируемый на компьютере. Перевод осуществляется программным путем, после получения изображения со сканера или фото.
Следующая страница Алгоритмы оптического распознавания