Проверяемый текст

Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)

[стр. 31]
Для оценки различающей способности можно использовать и более простые критерии, например, отношение средней дисперсии признака по классам к дисперсии этого признака по всей обучающей выборке.
Большинство критериев оценки различающей способности не может заменить прямого эксперимента, показывающего, как влияет исключение того или иного признака на результат работы классификатора.
Тем не менее, возможность быстрого получения грубой оценки различающей способности часто оказывается очень важной для оперативного принятия решений.
А для многих классификаторов с длительной процедурой обучения грубое ранжирование признаков является единственным практически приемлемым инструментом их отбора.
2.3 Построение классификатора Классификация это процедура соотнесения вектора признаков с эталонными значениями признаков, вычисленными во время обучения и настройки системы.
Результат сопоставления может быть представлен либо в виде простого выбора класса, либо в виде упорядоченного по убыванию вероятностей списка классов, возможно, с численной оценкой достоверности каждого кандидата.
Различные приемы построения классификаторов сводятся фактически к аппроксимации неизвестной апостериорной вероятности.
В качестве исходной информации для аппроксимации обычно используется обучающая выборка множество изображений, для которых известен правильный класс.
«Обучением» классификатора называется процедура выбора параметров классификатора па основании обучающей выборки таким образом, чтобы впоследствии минимизировать риск неправильного решения.
«Тестированием» классификатора называется проверка работы классификатора на «тестовой» выборке изображений.
Необходимость в раздельных обучающей и тестовой выборках связана с эффектом, который называется в литературе «переобученностыо» [22].
Задача классификатора состоит в аппроксимации апостериорной вероятности с минимальной погрешностью.
При заданной модели классификатора имеется два параметра, влияющие на погрешность аппроксимации: число параметров классификатора М и 31

[стр. 15]
Нормализация значений признаков существенна для классификаторов, которые полагаются на соразмерность масштаба осей пространства признаков, например, если в классификаторе используется евклидово расстояние [18].
Простейший способ такой нормализации это линейное преобразование, после которого среднее значение признака оказывается равным нулю, а дисперсия единице.
Ус транение зависимостей между признаками важно для многих типов классификаторов, так как они в той или иной степени опираются на предположения о независимости признаков.
Наиболее распространенным способом устранения этой зависимости является преобразование Карунена-Лоева [19], которое заменяет набор признаков их линейными комбинациями, полученными как собственные вектора дисперсионной матрицы.
Преобразование Карунена Лоева дает также и способ оценки различающей способности трансформированных признаков: чем больше собственное значение матрицы дисперсии, тем большей различающей способностью обладает признак.
Для оценки различающей способности можно использовать и более простые критерии, например, отношение средней дисперсии признака по классам к дисперсии этого признака по всей обучающей выборке.
Большинство критериев оценки различающей способности не может заменить прямого эксперимента, показывающего, как влияет исключение того или иного признака на результат работы классификатора.
Тем нс менее, возможность быстрого получения грубой оценки различающей способности часто оказывается очень важной для оперативного принятия решений.
А для многих классификаторов с длительной процедурой обучения грубое ранжирование признаков являегся единственным практически приемлемым инструментом их отбора.
Построение классификатора Классификация это процедура соотнесения вектора признаков с эталонными значениями признаков, вычисленными во время обучения и настройки системы.
Результат сопоставления может быть представлен либо в виде простого выбора класса, либо в виде упорядоченного по убыванию вероятности списка классов, возможно, с численной оценкой достоверности каждого кандидата.
Различные приемы построения классификаторов сводятся фактически к аппроксимации неизвестной апостериорной вероятности.
В качестве исходной 15

[стр.,16]
информации для аппроксимации обычно используется обучающая выборка множество изображений, для которых известен правильный класс.
«Обучением» классификатора называется процедура выбора параметров классификатора на основании обучающей выборки таким образом, чтобы впоследствии минимизировать риск неправильного решения.
«Тестированием» классификатора называется проверка работы классификатора на «тестовой» выборке изображений.
Необходимость в раздельных обучающей и тестовой выборках связана с эффектом, который называется в литературе «переобученностью» [20].
Задача классификатора состоит в аппроксимации апостериорной вероятности с минимальной погрешностью.
При заданной модели классификатора имеется два параметра, влияющие на погрешность аппроксимации: число параметров классификатора М и длина обучающей выборки Ь.
Совокупную погрешность Е можно (по крайней мере, гсоретически) разбить на две составляющие: ошибку выборки (Евыборки), вызванную ее конечным размером, и ошибку оценки (Еоцснки) из-за конечного числа параметров классификатора.
Погрешность классификатора Еоцснки зависит, как и следует ожидать, от аппроксимируемой функции и модели классификатора.
При достаточно общих предположениях было доказано [21], что погрешность аппроксимации убывает как (М 5,4*), где 5 это «степень гладкости» аппроксимируемой функции, а б размерность вектора признаков.
Феномен замедления убывания погрешности при увеличении числа параметров при больших размерностях пространства признаков получил название «проклятия размерности» («сипе о/сИтегиюпаНгу»).
Погрешность выборки Евыборки уменьшается при увеличении размеров выборки, но увеличивается с ростом сложности аппроксимируемой функции [22, 23].
Таким образом, при решении задачи распознавания приходится иметь дело с двумя противодействующими факторами погрешностью выборки и погрешностью классификатора; правильный их банане необходим для достижения минимальной погрешности аппроксимации при заданном размере обучающей выборки.
Численные оценки этой проблемы показали [24], что в большинстве реальных ситуаций, когда размерность пространства признаков достаточно велика, имеет место ситуация существенной нехватки обучающих данных, т.
е.
приходится искать решение в условиях 16

[Back]