Проверяемый текст

Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)

[стр. 60]
линейного деления), гораздо большего эффекта можно достичь, корректируя результаты распознавания по словарю.
А для этого классификатор должен выдавать не одного кандидата, а упорядоченный список кандидатов, желательно с численными оценками вероятности.
Характеристики используемых классификаторов Описываемый метод многоуровневого поэтапного применения растрового, признаковых и структурного классификаторов использует следующие классификаторы: Растровый классификатор.
Использует 196 бинарных признаков, являющихся точками растрового изображения размера 14 на 14 точек.
Решающее правило основано на функции расстояния.
При обучении производится кластеризация.
Дифференциальный растровый классификатор.
Представляет собой набор линейных классификаторов, обучаемых для каждой пары схожих символов.
Для всех пар используется один набор из признаков растрового классификатора.
Признаковый классификатор с признаками на растре.
Использует 43 бинарных признака.
Решающее правило основано на функции расстояния.
При обучении производится кластеризация.
Признаковый классификатор с признаками на векторе.
Использует 232 бинарных признака.
Решающее правило основано на функции расстояния.
При обучении производится кластеризация.
Дифференциальный признаковый классификатор.
Представляет собой набор линейных классификаторов, обучаемых для каждой пары схожих символов.
Для всех пар используется один набор из признаков соответствующего признакового классификатора.
Структурный классификатор.
Основной классификатор системы, определяющий качество ее работы.
Использует построенные человеком структурные модели символов, которые сопоставляются с распознаваемым изображением.
Обладает очень высокой обобщающей способностью, не нуждается в кластеризации.
60

[стр. 36]
распознавания текста, когда текст сначала разделяется на строки, потом строки разделяются на символы, а результат распознавания символа является окончательным результатом работы системы.
Линейная схема обработки подразумевает, что предыдущий этап полностью завершается до начала следующего.
Она обладает одним принципиальным недостатком: решение на каждом этапе принимается в условиях отсутствия информации от последующих этапов.
Тем не менее, если есть несколько возможных вариантов деления слова на символы, то для выбора правильного варианта полезно использовать результаты распознавания символов, так как при неверном делении на символы классификатор обычно выдает результат с малой степенью достоверности.
Также очень полезными для выбора варианта деления на символы являются результаты проверки распознанного слова по словарю.
Преимущественная тенденция, используемая при разработке современных схем распознавания, состоит в том, чтобы откладывать окончательное решение на максимально поздний этап.
Это реааизуется путем разнообразных схем перебора и обработки с возвратами [73].
Отход от линейной схемы обработки определил выдвижение повышенных требований к классификатеру выдавать помимо класса еще и общую оценку степени достоверности полученного результата.
Эта оценка используется, в первую очередь, для принятия решения о выборе линейного деления на символы.
Вторым фактором, определяющим требования к выходным данным классификатора, является словарная обработка.
Если классификатор порождает единственную гипотезу, словарь можно использовать только в режиме ее подтверждения.
Хотя это и дает положительные результаты (например, при выборе линейного деления), гораздо большего эффекта можно достичь, корректируя результаты распознавания по словарю.
А для этого классификатор должен выдавать не одного кандидата, а упорядоченный список кандидатов, желательно с численными оценками вероятности.
Характеристики используемых классификаторов Описываемая система распознавания рукописных символов использует следующие классификаторы: • Признаковый классификатор.
Использует 224 бинарных признака.
Решающее правило основано на функции расстояния.
При обучении производится кластеризация.
36

[стр.,37]
• Растровый классификатор.
Использует 196 бинарных признаков, являющихся точками растрового изображения размера 14 на 14 точек.
Решающее правило основано на функции расстояния.
При обучении производится кластеризация.
• Дифференциальный признаковый классификатор.
Представляет собой набор линейных классификаторов, обучаемых для каждой пары путающихся символов.
Для всех пар используегся один набор из 224 признаков признаковый классификатора плюс два дополнительных признака.
• Структурный классификатор.
Основной классификатор системы, определяющий качество сс работы.
Использует построенные человеком структурные модели символов, которые сопоставляются с распознаваемым изображением.
Обладает очень высокой обобщающей способностью, не нуждается в кластеризации.
Автоматическое обучение отсутствует, вместо этого используется интерактивный процесс написания, тестирования и отладки эталона на образцах рукописных символов.
• Дифференциальный структурный классификатор.
Представляет собой набор линейных классификаторов, обучаемых для каждой пары путающихся классов.
Для каждой пары используется индивидуальный набор признаков, подбираемый человеком.
Структурный классификатор Структурный классификатор был разработан в соответствии с принципами целостности, целенаправленности и использования контекста, которые применительно к общей задаче распознавания образов впервые были сформулированы в [65], и применительно к задаче распознавания рукописных символов описаны в [66, 67, 68, 69, 70,71].
В рамках структурного классификатора символ описывается как набор структурных элементов (отрезок, дуга, кольцо, точка), а допустимое взаимное расположение элементов определяется с помощью декларативных метрических отношений.
В качестве переменных в отношениях используются атрибуты и координаты характерных точек элементов, например, концов и экстремумов.
Отношения задаются в форме нечетких логических высказываний.
Структурные элементы на изображении не выделяются заранее.
Вместо этого поиск элементов делается целенаправленно, прямо в процессе сопоставления эталона с 37

[Back]