
Сегодня нет необходимости заново набирать имеющийся текст, тратя на это драгоценное время. С этой работой помогают справиться многофункциональные устройства, которые выполняют ее в несколько этапов, освобождая человека от этой нудной процедуры.
Во-первых, нужно
ввести отсканированный документ в компьютер. Страница в этом случае выглядит как изображение, еще не готовое для дальнейшей работы с ним.
Во-вторых, нужно
произвести анализ макета, чтобы определить, где на странице находится текст, а где – таблицы и рисунки. Этот процесс выполняется при помощи OCR-приложения, которое позволяет разить текст на небольшие фрагменты, последовательно дробя их на предложения, слова и, наконец, самые мелкие – символы. Таким образом, конечным результатом данного этапа работы будет совокупность отдельных символов, каждый из которых находится в определенном месте страницы.
Далее
программа начинает распознавать символы, т.е. идентифицировать их. От того, насколько правильно пройдет этот процесс, зависит весь результат распознавания. Главная проблема состоит в том, что существуют похожие по своему начертанию символы, которые несут различную смысловую нагрузку. Для идентификации символов используются такие методы, как
сопоставление признаков и
сопоставление с имеющимся образцом. Один из них (сопоставления признаков) основан на таком принципе, что программа ориентируется на то, что каждый символ имеет свои отличительные признаки, которые остаются неизменными независимо от начертания шрифтов.
В соответствии со вторым методом программа сравнивает распознаваемый символ с тем шаблоном, который хранится в базе данных ее памяти. Этот метод называется
методом сопоставления, но не очень удобен, поскольку на распознавание текста уходит много времени. Причиной низкой эффективности является также и то, что при использовании этого метода должно быть стопроцентное соответствие между символом и шаблоном, чтобы программа смогла распознать текст.
После распознавания текста начинается
реконструкция документа. Программа имеет встроенный словарь, с помощью которого происходит процесс объединения символов в значимые слова, далее – в предложения и абзацы. Одна из функций программы позволяет реконструировать текст с учетом грамматических особенностей отсканированного текста, чтобы предложения получились грамотно построенными с точки зрения стилистики, грамматики и пунктуации.
И, наконец,
реконструированный текст нужно сохранить. Пользователь сам определяет, в каком формате нужен полученный документ. Это может быть текст в формате TXT или макет страницы в формате PDF либо Microsoft Word.
Одним из лидеров в области разработки программного обеспечения для распознавания текстов является
компания ABBYY со своим программным продуктом
ABBYY Fine Reader.