Глава 6. Результаты испытаний В качестве исходного материала для обучения и тестирования созданного классификатора была собрана база нестилизованных рукописных символов, составленная из реальных бланков ответов Единого Государственного Экзамена, проводимого Министерством образования РФ. Кроме этого, в базу было добавлено около полумиллиона символов, собранных СЕБАК (Сеп1ег оГ ЕхсеИепсе Гог Посигпет Апа1у$1$ апб Кесо&пШоп, США). Совокупный объем базы составил в результате приблизительно 1,5 миллиона символов. Полученная база была разделена на две части в пропорции десять к одному. На большей части базы проводилось обучение, на оставшейся тестирование. Всем символам базы был приписан правильный класс. Правильность класса тщательно проверялась с помощью автоматических и полуавтоматических процедур. Точность распознавания контролировалась на следующих целевых множествах: • Цифры. • Английские заглавные буквы. • Английские заглавные и строчные буквы. • Русские заглавные буквы. • Русские заглавные и строчные буквы. Для каждого целевого множества измерялись следующие параметры: • Процент правильно распознанных символов. • Процент символов, для которых правильный вариант оказался на втором (третьем,...восьмом) месте в списке гипотез. • Процент символов, для которых правильного варианта не оказалось среди первых восьми вариантов распознавания. Измерения проводились для каждого классификатора в отдельности и для полной процедуры распознавания, включающей комбинацию всех классификаторов. Результаты измерений приведены в последующих разделах. 125 |
Методика разработки дифференциальных структурных описаний Дифференциальные структурные описания (ДСО) разрабатываются для пар похожих символов, распознаваемых эталонами обоих классов и являющихся источниками замен. Последовательность разработки ДСО состоит в выборе и конструировании дифференциальных структурных признаков с использованием выделенных структурных элементов и экспериментальной проверке и отладке описания. Отладка ДСО предусматривает выполнение следующих действий: 1. Скомпилировать описание, ограничиваясь тремя основными признаками, в качестве которых принимаются разность весов структурного, признакового и растрового уровней. 2. Обучить дифференциальное описание на обучающей базе и зафиксировать число ошибок. 3. Вводить но одному выбранные структурные признаки, обучать описание и оставлять только те признаки, которые уменьшают число ошибок 4. 11роверить работуструктурного уровня на контрольной базе. Если при использовании дифференциального уровня на контрольной базе количество замен не уменьшается, делается вывод о неудовлетворительности работы дифференциального классификатора. В этом случае можно пробовать другие структурные признаки, а также изменять обучающую базу чистить и пополнять. 4 Экспериментальные результаты Для обучения и тестирования созданного автором классификатора была собрана база нестилизованных рукописных символов. В качестве исходного материала выступали реальные анкеты пенсионного фонда, заполненные в различных регионах России. Кроме этого, в базу было добавлено около полумиллиона символов, собранных Национальным Институтом Стандартизации США. В результате совокупный объем базы превысил 1,2 миллиона символов. Всем символам базы был приписан правильный класс, правильность которого тщательно проверялась с использованием автоматических и полуавтоматических процедур. Точность распознавания контролировалась наследующих целевых множествах: 1. Цифры. 82 2. Русские заглавные буквы. 3. Русские заглавные и строчные буквы. 4. Английские заглавные буквы. 5. Английские заглавные и арочные буквы. Для каждого целевого множества измерялись следующие параметры: 1. Процент правильно распознанных символов. 2. Процент символов, для которых правильный вариант оказался на втором (третьем,...восьмом) месте. 3. Процент символов, для которых правильного варианта не было в первых восьми вариантах распознавания. Измерения проводились для каждого классификатора в отдельности и для полной процедуры распознавания, в рамках которой комбинируются все классификаторы. Результаты измерений приведены в последующих разделах. 4.1 Результаты испытаний признакового классификатора Цифры ТоТа1 гесодпдгес!: 69048 хшадез. К1дЫ: уагтап*: 1 68394 Д-пладез (99.053%). ШдМ: уаг1ап1: 2 334 1гпадез { 0.484%) . ШдЫ: уагдапс 3 120 дтадез ( 0.174%) . Я1дЫ: уаггапи 4 73 1шадез ( 0.106%). КхдЫ: уагдапЬ 5 32 д.гаадез ( 0.046%). КхдЬС уагдапЪ 6 11 дпласез ( 0.016%). Ш дпЪуаг1ап1: 7 7 Д-тадез ( 0.010%). РПдЫ: уагтапЪ 8 2 дтадез ( 0.002%) . Мо гддЬЪ уагхапЛ: 75 тшадез ( 0.108%). Английские заглавные буквы ТоЪа1 гесодптгес!: 143008 :1пладез. К1дЫ уагдапГ: 1 136857 Д-Пладез (95.699%). К л дЬТуаг1апЪ 2 3175 дтадез ( 2.220%). РтдЪ*: уагтап! 3 1338 дтадез ( 0.936%). 83 |