О компанииНовостиПоддержкаСпецпредложенияКонтактыРаспродажа
 
 
КОНТАКТЫ
Телефон: +7 (495) 306-01-10
E-mail: net@administrator-pro.ru
Адрес: Москва, ул.Перовская, д.21
Поиск по сайту
Главная » Статьи » Как происходит распознавание текстов

Как происходит распознавание текстов

Сегодня нет необходимости заново набирать имеющийся текст, тратя на это драгоценное время. С этой работой помогают справиться многофункциональные устройства, которые выполняют ее в несколько этапов, освобождая человека от этой нудной процедуры.

Во-первых, нужно ввести отсканированный документ в компьютер. Страница в этом случае выглядит как изображение, еще не готовое для дальнейшей работы с ним.

Во-вторых, нужно произвести анализ макета, чтобы определить, где на странице находится текст, а где – таблицы и рисунки. Этот процесс выполняется при помощи OCR-приложения, которое позволяет разить текст на небольшие фрагменты, последовательно дробя их на предложения, слова и, наконец, самые мелкие – символы. Таким образом, конечным результатом данного этапа работы будет совокупность отдельных символов, каждый из которых находится в определенном месте страницы.

Далее программа начинает распознавать символы, т.е. идентифицировать их. От того, насколько правильно пройдет этот процесс, зависит весь результат распознавания. Главная проблема состоит в том, что существуют похожие по своему начертанию символы, которые несут различную смысловую нагрузку. Для идентификации символов используются такие  методы, как сопоставление признаков и сопоставление с имеющимся образцом.  Один из них (сопоставления признаков) основан на таком принципе, что программа ориентируется на то, что каждый символ имеет свои отличительные признаки, которые остаются неизменными независимо от начертания шрифтов.

В соответствии со вторым методом программа сравнивает распознаваемый символ с тем шаблоном, который хранится в базе данных ее памяти. Этот метод называется методом сопоставления, но не очень удобен, поскольку на распознавание текста уходит много времени. Причиной низкой эффективности является также и то, что при использовании этого метода должно быть стопроцентное соответствие между символом и шаблоном, чтобы программа смогла распознать текст.

После распознавания текста начинается реконструкция документа. Программа имеет встроенный словарь, с помощью которого происходит процесс объединения символов в значимые слова, далее – в предложения и абзацы. Одна из функций программы позволяет реконструировать текст с учетом грамматических особенностей отсканированного текста, чтобы предложения получились грамотно построенными  с точки зрения стилистики, грамматики и пунктуации.

И, наконец, реконструированный текст нужно сохранить. Пользователь сам определяет, в каком формате нужен полученный документ. Это может быть текст  в формате TXT  или макет страницы в формате PDF либо Microsoft Word.

Одним из лидеров в области разработки программного обеспечения для распознавания текстов является компания ABBYY со своим программным продуктом ABBYY Fine Reader.


 
 
 
ГлавнаяО компанииНовостиПоддержкаСпецпредложенияКонтактыРаспродажа
© 2005–2012 "Администратор ПРО"