Проверяемый текст
Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)
[стр. 21]

1.
Извлечение изображения распознаваемой зоны из полного изображения страницы.
2.
Предварительная очистка и предобработка изображения.
3.
Выделение на изображении распознаваемой зоны строк.
4.
Разбивка строк на слова.
5.
Рассмотрение различных вариантов линейного деления (разбивки) слова на символы.
6.
Разделение слов на символы.
7.
Распознавание символов с помощью классификатора.
8.
Коррекция результатов распознавания с учетом доступной контекстной информации и словарей.
Так как любой из описанных выше этапов является потенциальным источником ошибок, важно понимать относительный вклад каждого этапа в общее число ошибок.
При
подготовке машиночитаемых форм большое внимание уделяется расположению элементов на листе.
Например, на форме печатаются специальные знаки для привязки шаблона к изображению.
Весь несущественный для распознавания текст печатается другим цветом, чтобы его можно было автоматически фильтровать при сканировании.
Вокруг распознаваемых зон оставляются белые поля, чтобы в изображение распознаваемой зоны не попадали посторонние элементы.
Вводимые поля обычно содержат
специальное разграфление на символы и состоят ровно из одной строки.
В
результате этого задачи по извлечению изображения, предобработке, выделению строк и делению на символы значительно упрощаются, что отражается в малом числе ошибок, вносимых на этих этапах.
Этап распознавания символов является основным источником ошибок, причем эти ошибки могут приводить к возникновению наведенных ошибок
на других этапах обработки.
Например, проверка по словарю способна исправить один, максимум два
21
[стр. 8]

4.
Строки разбиваются на слова.
5.
Слова разбиваются на символы.
6.
Символы распознаются с помощью классификатора.
7.
Результаты распознавания корректируются с учетом доступной контекстной информации и словарей.
Так как любой из описанных выше этапов является потенциальным источником ошибок, важно понимать относительный вклад каждого этапа в общее число ошибок.
При
разработке машиночитаемых форм большое внимание уделяется расположению элементов на листе.! 1апример, на форме печатаются специальные знаки для привязки шаблона к изображению.
Весь несущественный для распознавания текст печатается другим цветом, чтобы его можно было автоматически фильтровать при сканировании.
Вокруг распознаваемых зон оставляются белые поля, чтобы в изображение распознаваемой зоны не попадали посторонние элементы.
Вводимые поля обычно содержат
специальную разграфку на символы и состоят ровно из одной строки.
В
результанте этого задачи по извлечению изображения, предобработке, выделению строк и делению на символы значительно упрощаются, что отражается в малом числе ошибок, вносимых на этих этапах.
Этап распознавания символов является основным источником ошибок, причем эти ошибки могут приводить к возникновению наведенных ошибок
в других этапах обработки.
Например, проверка по словарю способна исправить один, максимум два
ошибочных символа на слово.
Поэтому при низкой точности распознавания отдельных символов эффективность этапа контекстной обработки значительно снижается.
Таким образом, точность распознавания одиночных символов это основной фактор, определяющий число ошибок распознавания всей системы.
Подытоживая вышесказанное, можно заключить, что центральной задачей проблемы ввода рукописных документов является создание высокоточного классификатора одиночных символов.
Это делает актуальной постановку задачи создания высокоточного "интеллектуального" классификатора рукописных символов на основе использования современных достижений научно-технического прогресса и формирования ряда новых принципов контекстного распознавания.
8

[Back]