Проверяемый текст

Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)

[стр. 89]
Описанный выше алгоритм хорошо работает тогда, когда масштабы всех признаков совпадают.
Нели же один или несколько признаков имеют характерный масштаб, существенно превышающий масштаб остальных, может произойти перекос классификатора в их сторону, так как только эти признаки будут вносить вклад в расстояние до плоскости.
В этом случае оценивается дисперсия каждого признака, сравниваются полученные результаты и масштабируются признаки с отличной дисперсией с помощью добавочных коэффициентов, таким образом, чтобы в итоге дисперсии всех признаков были равны.
4.5 Выводы 1.
В данной главе описан способ улучшения эффективности системы распознавания методом приведения изображения для простого растрового и признаковых классификаторов.
Использование алгоритма приведения для структурного изображения приводит к потере информации о дефектах исходного изображения, и поэтому не используется.
2.
Приведено описание новой признаковой модели из 232 признаков, вычисляемых, в отличие от известных подходов, не на растровом, а на векторном изображении символа, которая показала улучшенные результаты по сравнению с другими системами признаков.
3.
Установлено, что применение нелинейного преобразования ослабляет влияние шумов при обучении эталонов.
4.
Разработана новая схема решающего правила, которая уточняет результаты основного классификатора с помощью специализированных дифференциальных классификаторов, 5.
Установлено, что в том случае, если один или несколько признаков имеют характерный масштаб, существенно превышающий масштаб остальных, необходимо вначале оценить дисперсию каждого признака, сравнить полученные результаты и масштабировать признаки с отличной дисперсией с 89

[стр. 60]
№]"•»=№<;> -и— 1 ’ ЗУ, д/(1> я — у > о (3.8) Ж.
/= Л^О —=^ 1я^'>)) ^ X я-о^» /«1 ^<2> м Процедура повторяегся, пока процесс не сойдется, или не более некоторого максимального количества раз.
В процессе итераций поддерживается инвариант = 1 Шаг изменятся динамически, увеличиваясь при сходимости и уменьшаясь при расходимости.
Поскольку алгоритм градиентный, важно выбрать начальное положение плоскости недалеко от предполагаемого оптимума, иначе алгоритм может не сойтись или будет сходиться слишком медленно.
Таким приемлемым начальным приближением является плоскость, которая перпендикулярна линии, соединяющей центры кластеров, и пересекает ее в точке, расстояние от которой до центров кластеров одинаково.
Функция Г в приведенном выше алгоритме описывает штраф в зависимости от расстояния от точки до плоскости.
Штрафование производится за отрицательное расстояние (неправильная классификация) и недостаточно большие положительные (точка близко к плоскости; классификация ненадёжна).
Функция штрафов имеет вид: 1 -*/*0 • рМ лг < О /(*) = 1 -х! х» рЦх> 0 (3.9) Важную роль в этой функции играет выбор параметра д:0, который задает скорость убывания вклада образа в зависимости от расстояния до разделяющей плоскости.
Обычно он выбирается пропорционально расстоянию между кластерами, но иногда настраивается вручную.
Описанный выше алгоритм хорошо работает тогда, когда масштабы всех признаков совпадают.
Если же один или несколько признаков имеют характерный масштаб, существенно превышающий масштаб остальных, происходит перекос классификатора в их сторону, так как только эти признаки будут вносить вклад в расстояние до плоскости.
60

[Back]