Проверяемый текст

Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)

[стр. 20]
расшивка и ручная сортировка (что для систем массового ввода практически всегда верно), временные затраты на один лист не превышают нескольких секунд.
Время, затрачиваемое на ручную проверку результатов, определяется размером документа, допустимым числом ошибок в выходных данных; количеством ошибок, возникших на этапе анализа и распознавания документа; эргономичностью интерфейса программы, с которой работает оператор.
Типичное время проверки одного документа, если это небольшая статистическая анкета с невысокими требованиями к достоверности данных, составляет несколько секунд.
Если это сложная форма с высокими требованиями к достоверности данных, то время проверки может достигать нескольких минут.
Таким образом, эффективность автоматизированного ввода определяется, в первую очередь, затратами ручного труда на этапе проверки результатов распознавания.
Объем этих затрат обычно является определяющим фактором в принятии решения о целесообразности автоматизации процесса ввода документов в компьютер.
Как было сказано выше, время, затрачиваемое на ручную проверку, определяется количеством ошибок, порожденных автором документа и процедурой распознавания, характером входных данных и требованиями к количеству ошибок в выходных данных.
Единственный фактор, на который в общем случае могут влиять разработчики системы автоматизированного ввода документов, это количество ошибок, порожденных процедурой распознавания.
Таким образом, чтобы уменьшить затраты ручного труда, нужно минимизировать число ошибок распознавания.
Следует заметить, что скорость работы распознавателя не имеет смысл делать больше, чем скорость работы сканера, поскольку процесс распознавания идет параллельно процессу сканирования.
1.2 Роль распознавания одиночного символа в задаче ввода рукописных документов Чтобы понять, чем определяется количество ошибок распознавания, рассмотрим упрощенную схему процедуры распознавания текста: 20

[стр. 7]
Сканирование документов требует присутствия оператора.
Время, затрачиваемое на обработку одного документа, зависит от качества сканерного механизма протяжки (определяющего частоту сбоев в подаче бумаги), необходимости ручной предобработки документов (расшивки, сортировки), а также от скорости сканирования и емкости подающего лотка сканера.
Типичный современный промышленный сканер имеет лоток емкостью 300-600 страниц, сканирует 60-100 страниц в минутуи без проблем обрабатывает листы имеющие заломы, рваные края и даже скрепки.
Таким образом, если не требуется расшивка и ручная сортировка (что для систем массового ввода практически всегда верно) временные затраты на один лист не превышают нескольких секунд.
Время, затрачиваемое на ручную проверкурезультатов, определяется размером документа, допустимым числом ошибок в выходных данных; количеством ошибок, возникших на этапе анализа документа и распознавания; эргономичностью интерфейса программы, с которой работает оператор.
Типичное время проверки одного документа колеблется от нескольких секунд (если это небольшая статистическая анкета с невысокими требованиями к достоверности данных) до нескольких минут (сложная форма с высокими требованиями к достоверности данных).
Таким образом, эффективность автоматизированного ввода определяется в первую очередь затратами ручного труда на этапе проверки результатов распознавания.
Объем этих затрат обычно является определяющим фактором в принятии решения о целесообразности автоматизации процесса ввода доку ментов в компьютер.
Как было сказано выше, время затрачиваемое на ручную проверку, определяется количеством ошибок, порожденных автором документа и процедурой распознавания, характером входных данных и требованиями к количеству ошибок в выходных данных.
Единственный фактор, на который в общем случае могут влиять разработчики системы автоматизированного ввода документов это количество ошибок, порожденных процедурой распознавания.
Таким образом, чтобы уменьшить затраты ручного груда, нужно минимизировать число ошибок распознавания.
Чтобы понять, чем определяется количество ошибок распознавания, рассмотрим упрошенную схему процедуры распознавания текста: 1.
Изображение распознаваемой зоны извлекается из полного изображения страницы.
2.
Делается предварительная очистка и предобработка изображения.
3.
На изображении распознаваемой зоны выделяются строки.
7

[Back]