Проверяемый текст

Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)

[стр. 125]
Глава 6.
Результаты испытаний В качестве исходного материала для обучения и тестирования созданного классификатора была собрана база нестилизованных рукописных символов, составленная из реальных бланков ответов Единого Государственного Экзамена, проводимого Министерством образования РФ.
Кроме этого, в базу было добавлено около полумиллиона символов, собранных СЕБАК (Сеп1ег оГ ЕхсеИепсе Гог Посигпет Апа1у$1$ апб Кесо&пШоп, США).
Совокупный объем базы составил в результате приблизительно 1,5 миллиона символов.
Полученная база была разделена на две части в пропорции десять к одному.
На большей части базы проводилось обучение, на оставшейся тестирование.
Всем символам базы был приписан правильный класс.
Правильность класса тщательно проверялась с помощью автоматических и полуавтоматических процедур.
Точность распознавания контролировалась на следующих целевых множествах: • Цифры.
• Английские заглавные буквы.
• Английские заглавные и строчные буквы.
• Русские заглавные буквы.
• Русские заглавные и строчные буквы.
Для каждого целевого множества измерялись следующие параметры: • Процент правильно распознанных символов.
• Процент символов, для которых правильный вариант оказался на втором (третьем,...восьмом) месте в списке гипотез.
• Процент символов, для которых правильного варианта не оказалось среди первых восьми вариантов распознавания.
Измерения проводились для каждого классификатора в отдельности и для полной процедуры распознавания, включающей комбинацию всех классификаторов.
Результаты измерений приведены в последующих разделах.
125

[стр. 82]
Методика разработки дифференциальных структурных описаний Дифференциальные структурные описания (ДСО) разрабатываются для пар похожих символов, распознаваемых эталонами обоих классов и являющихся источниками замен.
Последовательность разработки ДСО состоит в выборе и конструировании дифференциальных структурных признаков с использованием выделенных структурных элементов и экспериментальной проверке и отладке описания.
Отладка ДСО предусматривает выполнение следующих действий: 1.
Скомпилировать описание, ограничиваясь тремя основными признаками, в качестве которых принимаются разность весов структурного, признакового и растрового уровней.
2.
Обучить дифференциальное описание на обучающей базе и зафиксировать число ошибок.
3.
Вводить но одному выбранные структурные признаки, обучать описание и оставлять только те признаки, которые уменьшают число ошибок 4.
11роверить работуструктурного уровня на контрольной базе.
Если при использовании дифференциального уровня на контрольной базе количество замен не уменьшается, делается вывод о неудовлетворительности работы дифференциального классификатора.
В этом случае можно пробовать другие структурные признаки, а также изменять обучающую базу чистить и пополнять.
4 Экспериментальные результаты Для обучения и тестирования созданного автором классификатора была собрана база нестилизованных рукописных символов.
В качестве исходного материала выступали реальные анкеты пенсионного фонда, заполненные в различных регионах России.
Кроме этого, в базу было добавлено около полумиллиона символов, собранных Национальным Институтом Стандартизации США.
В результате совокупный объем базы превысил 1,2 миллиона символов.
Всем символам базы был приписан правильный класс, правильность которого тщательно проверялась с использованием автоматических и полуавтоматических процедур.
Точность распознавания контролировалась наследующих целевых множествах: 1.
Цифры.
82

[стр.,83]
2.
Русские заглавные буквы.
3.
Русские заглавные и строчные буквы.
4.
Английские заглавные буквы.
5.
Английские заглавные и арочные буквы.
Для каждого целевого множества измерялись следующие параметры: 1.
Процент правильно распознанных символов.
2.
Процент символов, для которых правильный вариант оказался на втором (третьем,...восьмом) месте.
3.
Процент символов, для которых правильного варианта не было в первых восьми вариантах распознавания.
Измерения проводились для каждого классификатора в отдельности и для полной процедуры распознавания, в рамках которой комбинируются все классификаторы.
Результаты измерений приведены в последующих разделах.
4.1 Результаты испытаний признакового классификатора Цифры ТоТа1 гесодпдгес!: 69048 хшадез.
К1дЫ: уагтап*: 1 68394 Д-пладез (99.053%).
ШдМ: уаг1ап1: 2 334 1гпадез { 0.484%) .
ШдЫ: уагдапс 3 120 дтадез ( 0.174%) .
Я1дЫ: уаггапи 4 73 1шадез ( 0.106%).
КхдЫ: уагдапЬ 5 32 д.гаадез ( 0.046%).
КхдЬС уагдапЪ 6 11 дпласез ( 0.016%).
Ш дпЪуаг1ап1: 7 7 Д-тадез ( 0.010%).
РПдЫ: уагтапЪ 8 2 дтадез ( 0.002%) .
Мо гддЬЪ уагхапЛ: 75 тшадез ( 0.108%).
Английские заглавные буквы ТоЪа1 гесодптгес!: 143008 :1пладез.
К1дЫ уагдапГ: 1 136857 Д-Пладез (95.699%).
К л дЬТуаг1апЪ 2 3175 дтадез ( 2.220%).
РтдЪ*: уагтап! 3 1338 дтадез ( 0.936%).
83

[Back]