Проверяемый текст
Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)
[стр. 144]

6.6 Выводы 1.
Как следует из приведенных экспериментальных данных, свойства классификаторов полностью соответствуют ранее приведенным качественным характеристикам.
Особо следует отметить повышение точности,
достигаемое структурным уровнем.
Хотя оно наблюдается на всех множествах, участвовавших в измерениях, ярче всего это явное улучшение точности проявилось при распознавании цифр, где растровый классификатор имеет точность 96.85%, признаковый на растре 90.59%, признаковый на векторе 97.67%, а добавление в полную процедуру распознавания структурного классификатора позволяет поднять точность до 99.84%.
2.
Более низкая точность на русском и английском алфавитах объясняется как большим набором символов, участвующих в распознавании, так и наличием пар символов, которые в рукописном виде могут быть достаточно похожи.
Например: «Н» и «И», «Ш» и «Т», «Г» и «Ч» и т.
д.
Для различения подобных букв-«близнецов» в словах рукописного текста используется контекстная информация: словари и «регулярные выражения».
3.
Важной характеристикой классификатора является точность по первым трем вариантам
распознавания, т.
е.
процент символов, для которых правильная гипотеза оказалась не ниже
третьего места в списке гипотез.
Это обусловлено тем, что контекстная информация, т.
е.
словарь и языковые модели, могут существенно исправить ошибку распознавания только в том случае, если правильный вариант располагается не очень глубоко.
Как видно из приведенных таблиц, разработанная система распознавания имеет высокую точность по первым трем вариантам.
Например, применительно к английским заглавным буквам точность первого варианта равна всего лишь
98.93%, по первым двум вариантам она возросла до 99.83%, а по первым трем вариантам достигла 99,9%.
Включение всех остальных вариантов, улучшает точность незначительно (на 0.037%.) (Таблица 6.17.).
144
[стр. 89]

КЁдЬЪ Vа^^ап^ 8 3 дтадез ( 0.002%).
N0 г1дЬЪ уагдапЪ 710 1гпадез ( 0.373%) .
4.4 Сравнение результатов с аналогичными системами В Таблице 4.1 приведены сравнительные данные по точности классификаторов, разработанных двумя ведущими исследовательскими центрами США и Канады.
КхдЬЪ Vа^^ап^: 7 8 ттадез ( 0.004%).
Классификатор Точность распознавания цифр Разработанная автором система 99.6 08С (центр СЕРАЯ, 1)$А) (74] 98.09 СНашсоск (центр СЕРАЯ, Ц$А) [74] 97,97 Комбинация шести классификаторов, включая С5С и СЬатохк (центр СЕРАЯ, Ц5А) (74] 98,43 Ро1упот»а1 (центр СЕЫРАКМ1, Салака) (75] 98.3 Комбинация трех классификаторов, включая Рокпопма! и СопЮиг (центр СЕ^РАЯМ!, Сала<1а) (76] 98,5 Таблица 4.1.
Список наиболее крупных реализованных проектов.
4.5 Анализ результатов Как следует из приведенных экспериментальных данных, свойства классификаторов полностью соответствуют ранее приведенным качественным характеристикам.
Особо следует отметить повышение точности,
даваемое структурным уровнем.
Хотя оно проявляется во всех множествах, участвовавших в измерениях, ярче всею это явное улучшение проявилось при распознавании цифр, где растровый классификатор имеет точность 96.6%, признаковый 99.0%, а добавление структурного классификатора позволяет поднять точность до 99.
6%.
Ьолее низкая точность на русском и английском алфавитах объясняется как большим набором символов, участвующих в распознавании, так и наличием патологических "близнецов", т.
с.
пар символов, между которыми нет четкой границы.
Например, казалось бы достаточно непохожие буквы "Н" и "И" у разных людей могут выглядеть совершенно одинаково, т.
е.
букву "Н", написанную одним человеком, другой человек с уверенностью может принять за "И".
Важной характеристикой классификатора является точность по первым трем вариантам,
т.
е.
процент символов, для которых правильная гипотеза оказалась не ниже
89

[стр.,90]

третьего места.
Это обусловлено тем, что информация о контексте, т.
с.
словарь и языковые модели, могут исправить ошибку распознавания только в том случае, если правильный вариант располагается не очень глубоко.
Например, применительно к английским заглавным буквам точность первого варианта равна всего лишь
98.13%, тогда как по первым трем вариантам она возросла до 99.78%.
После контекстной обработки точность повышается более чем в 8 раз.
Для русских заглавных букв ситуация аналогичная достигается повышение точности распознавания с 98.57% до 99.75%, т.
е.
в 6 раз.
Таким образом, при наличии полноценной контекстной обработки символов распознаваемого текста можно сократить число ошибок до уровня 0.25% и ниже.
5 Практическое применение 5.1 Обзор реализованных программных систем Описываемая система распознавания одиночных символов используется в семействе программных средств КтеКеабег, разработанном компанией «АВВУ V».
Это ПО предназначено для автоматического ввода в компьютер текста, таблиц, форм, опросных листов, бланков и других документов, содержащих как печатные, так и рукописные символы.
Основным продуктом для ввода рукописных документов является программный комплекс РтсКсадег Рукопись.
Он продается во всех странах Западной и Восточной Европы, Северной Америки и Австралии.
Ко времени написания диссертационной работы было продано более 550 копий продукта РшеКеадег Рукопись.
Полная линия РтеКеабег включает в себя: РтеКеаёег 4.0 5(апс1агс1 система распознавания печатных документов на 53 языках.
Имеет пакетный режим работы, сохраняет оформление документа, включая таблицы, поддерживает фоновое распознавание, многопроцессорную работу, содержит модуль обучения новым символам.
Система экспортирует результаты напрямую в М$ \Уогс1, М3 Ехсе11, \№огб РегГесЕ \Уогб Рго или сохраняет в форматах КТР, ТХТ, ООС, СЗУ, ХЬЗ, ЭВР, НТМЬ.
РтеКеайег 4.0 РгоГе$§юпа1 система распознавания печатных документов на 53 языках.
Обеспечивает автоматизированный ввод таблиц и форм в базы данных, 90

[Back]