Проверяемый текст
Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)
[стр. 167]

Например, казалось бы достаточно непохожие буквы «Н» и «И» у разных людей могут выглядеть совершенно одинаково, т.
е.
букву «Н», написанную одним человеком, другой человек с уверенностью может принять за «И».

Для различения подобных «букв-близнецов» в словах используется контекстная информация: словари, «регулярные выражения».
Важной характеристикой классификатора является точность по первым трем вариантам, т.
е.
процент символов, для которых правильная гипотеза оказалась не ниже
третьего места.
Это обусловлено тем, что информация о контексте, т.

е.
словарь и языковые модели, могут исправить ошибку распознавания только в том случае, если правильный вариант располагается не очень глубоко.
Например, применительно к английским заглавным буквам точность первого варианта равна всего лишь
98.93%, тогда как по первым трем вариантам она возросла до 99,9%.
После контекстной обработки, точность
распознавания английских заглавных букв повышается более чем в 10 раз.
Для русских заглавных букв ситуация аналогичная достигается повышение точности распознавания с
99.09% до 99.9%, т.
е.
в 9 раз.
Таким образом, при наличии полноценной контекстной обработки символов распознаваемого текста можно сократить число ошибок до уровня
0.1% и ниже.
Предложенные подходы к построению классификатора были реализованы в виде программной системы
АВВУУ РогшКеабег и доведены до уровня промышленного использования.
Разработанный модуль распознавания одного символа вошел в состав полной системы ввода документов, который был внедрен в эксплуатацию в нескольких десятках организаций.

За данный цикл работ по исследованию, разработке и внедрению в отрасли экономики компьютерных технологий постановлением Правительства Российской Федерации от 21 марта 2002 г.
N 175 автору была присуждена премия Правительства Российской Федерации 2001 года в области науки и техники.
Дальнейшие направления исследований возможны в области
развития методов построения дифференциальных классификаторов, поиска наиболее эффективных средств описания структурных эталонов, разработке процедур автоматического 167
[стр. 89]

КЁдЬЪ Vа^^ап^ 8 3 дтадез ( 0.002%).
N0 г1дЬЪ уагдапЪ 710 1гпадез ( 0.373%) .
4.4 Сравнение результатов с аналогичными системами В Таблице 4.1 приведены сравнительные данные по точности классификаторов, разработанных двумя ведущими исследовательскими центрами США и Канады.
КхдЬЪ Vа^^ап^: 7 8 ттадез ( 0.004%).
Классификатор Точность распознавания цифр Разработанная автором система 99.6 08С (центр СЕРАЯ, 1)$А) (74] 98.09 СНашсоск (центр СЕРАЯ, Ц$А) [74] 97,97 Комбинация шести классификаторов, включая С5С и СЬатохк (центр СЕРАЯ, Ц5А) (74] 98,43 Ро1упот»а1 (центр СЕЫРАКМ1, Салака) (75] 98.3 Комбинация трех классификаторов, включая Рокпопма! и СопЮиг (центр СЕ^РАЯМ!, Сала<1а) (76] 98,5 Таблица 4.1.
Список наиболее крупных реализованных проектов.
4.5 Анализ результатов Как следует из приведенных экспериментальных данных, свойства классификаторов полностью соответствуют ранее приведенным качественным характеристикам.
Особо следует отметить повышение точности, даваемое структурным уровнем.
Хотя оно проявляется во всех множествах, участвовавших в измерениях, ярче всею это явное улучшение проявилось при распознавании цифр, где растровый классификатор имеет точность 96.6%, признаковый 99.0%, а добавление структурного классификатора позволяет поднять точность до 99.
6%.
Ьолее низкая точность на русском и английском алфавитах объясняется как большим набором символов, участвующих в распознавании, так и наличием патологических "близнецов", т.
с.
пар символов, между которыми нет четкой границы.
Например, казалось бы достаточно непохожие буквы "Н" и "И" у разных людей могут выглядеть совершенно одинаково, т.
е.
букву "Н", написанную одним человеком, другой человек с уверенностью может принять за "И".

Важной характеристикой классификатора является точность по первым трем вариантам, т.
е.
процент символов, для которых правильная гипотеза оказалась не ниже
89

[стр.,90]

третьего места.
Это обусловлено тем, что информация о контексте, т.

с.
словарь и языковые модели, могут исправить ошибку распознавания только в том случае, если правильный вариант располагается не очень глубоко.
Например, применительно к английским заглавным буквам точность первого варианта равна всего лишь
98.13%, тогда как по первым трем вариантам она возросла до 99.78%.
После контекстной обработки точность
повышается более чем в 8 раз.
Для русских заглавных букв ситуация аналогичная достигается повышение точности распознавания с
98.57% до 99.75%, т.
е.
в 6 раз.
Таким образом, при наличии полноценной контекстной обработки символов распознаваемого текста можно сократить число ошибок до уровня
0.25% и ниже.
5 Практическое применение 5.1 Обзор реализованных программных систем Описываемая система распознавания одиночных символов используется в семействе программных средств КтеКеабег, разработанном компанией «АВВУ V».
Это ПО предназначено для автоматического ввода в компьютер текста, таблиц, форм, опросных листов, бланков и других документов, содержащих как печатные, так и рукописные символы.
Основным продуктом для ввода рукописных документов является программный комплекс РтсКсадег Рукопись.
Он продается во всех странах Западной и Восточной Европы, Северной Америки и Австралии.
Ко времени написания диссертационной работы было продано более 550 копий продукта РшеКеадег Рукопись.
Полная линия РтеКеабег включает в себя: РтеКеаёег 4.0 5(апс1агс1 система распознавания печатных документов на 53 языках.
Имеет пакетный режим работы, сохраняет оформление документа, включая таблицы, поддерживает фоновое распознавание, многопроцессорную работу, содержит модуль обучения новым символам.
Система экспортирует результаты напрямую в М$ \Уогс1, М3 Ехсе11, \№огб РегГесЕ \Уогб Рго или сохраняет в форматах КТР, ТХТ, ООС, СЗУ, ХЬЗ, ЭВР, НТМЬ.
РтеКеайег 4.0 РгоГе$§юпа1 система распознавания печатных документов на 53 языках.
Обеспечивает автоматизированный ввод таблиц и форм в базы данных, 90

[стр.,98]

Для создания парных дифференциальных классификаторов были разработаны и реализованы язык описания парных классификаторов, который позволяет программировать индивидуальные признаки для каждой пары путаемых символов, и программная система, позволяющая создавать большое количество парных классификаторов за приемлемое время.
Выла разработана новая схема комбинирования классификаторов, которая уточняет результаты основных классификаторов, использую результаты работы массовых парных дифференциальных классификаторов.
Предложенные подходы к построению классификатора были реализованы в виде программной системы
"ИпеК.еас1ег Рукопись" и доведены до уровня промышленного использования.
Разработанный модуль распознавания одного символа вошел в состав полной системы ввода документов, который был внедрен в эксплуатацию в нескольких десятках организаций.

Дальнейшие направления исследований возможны в области
поиска наиболее эффективных средств описания структурных эталонов, развитии методов построения дифференциальных классификаторов, разработке процедур автоматического создания структурных эталонов.
Остается актуальной и задача сбора репрезентативных баз символов в различных предметных областях.
Список литературы [1] КакезЬ А§га\\га1, Оа!а Мтт§: Сгоззт§ гНе СЬазт, 1пуИес1 1а1к а* 1Ье 5//? АСЫ81СКОО 1п1'1 Соп/егепсе оп КгижШ^е Отсо\егу апс! Баш Мтт% (КйО-99), $ап Эте^о, СаПГогта, Аи^из! 1999.
[2] У.Соутйага), А.ЗЬекЬаша*, апс! З.Ы.ЗпЬап, 1тегрге1абоп оГЬапсЫ'пПеп асМгезз т 11$ таИ 51геат, Ргос.
о/ЗЫПУРНК, 1993, рр.
197-206.
[3] Т.Рацие* апс! У.ЬесоиПтег, Напс^гИтп^ гесо^пШоп: АррПсаиоп оп Ьапк сКеяиез, Ргос.
о/ 1з1 Ш1.
Соп/.
оп ОоситеШ Апа1у518 апс1 Ресо%пШоп, $1.
Ма1о, Ргапсе, Зерк 1991,749-750.
[4] Т.
РауПсИз, Кесо^пШоп оГрптес! 1ех1 ипдег геаПз^с сопсПсюпз, РаИет Кесо^пШоп Ье(1ег5 14(1993) 317-326.
98

[Back]