Уроки 48 - 49
§2.3. Системы оптического распознавания символов

Содержание урока

Оптическое распознавание символов

Алгоритмы оптического распознавания

Оптическое распознавание документов

Оптическое распознавание изображений

Мультиязычность систем оптического распознавания

Системы оптического распознавания форм

Системы распознавания рукописного текста

Контрольные вопросы

Практическая работа 2.7 Оптическое распознавание документов в формате изображений

Оптическое распознавание символов

При создании электронных библиотек и архивов путем перевода книг и документов в цифровой формат, при переходе предприятий от бумажного документооборота к электронному, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов.

Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Текст, преобразованный из графической формы в символьную (текстовую), можно далее обрабатывать любыми текстовыми редакторами. Системы оптического распознавания символов экспортируют результаты распознавания в популярные офисные приложения (Microsoft Office, OpenOffice.org и др.), причем распознанный текст можно сохранить в различных текстовых форматах: DOCX, DOC, ODT, RTF, TXT, HTML и др.

Оптическое распознавание символов (англ. Optical Character Recognition, OCR) — электронное конвертирование изображений символов и букв в текст, редактируемый на компьютере. Перевод осуществляется программным путем, после получения изображения со сканера или фото.

Следующая страница Алгоритмы оптического распознавания

Cкачать материалы урока

Уроки 48 - 49§2.3. Системы оптического распознавания символов

Содержание урока

Оптическое распознавание символов

Уроки 48 - 49
§2.3. Системы оптического распознавания символов