Проверяемый текст
Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)
[стр. 41]

<1и,«(у)=Еи'«-о1'’-г.Г)> (2.13) где Г это эталонные вектора, а р, функции локальной аппроксимации.
Аналогично
случаям полиномиального классификатора и многоуровневого персептрона, сеть радиальных функций также предполагает наличие большого количества параметров, правильный выбор которых весьма важен для создания хорошего классификатора.
Сюда относится: выбор эталонных векторов, функций локальной аппроксимации, коэффициентов в математических выражениях линейных комбинаций.
Доказано, что при достаточно большом количестве эталонных векторов сеть радиальных функций обладает свойствами универсального аппроксиматора
[41].
На практике, однако, число эталонных векторов приходится ограничивать из-за конечных ресурсов компьютера по памяти и скорости.
В то же время для подавления эффекта переобученности необходима обучающая выборка большого объема.
Разрешить это
противоречие можно путем отбора из обучающей выборки подмножества «представителей», которые в совокупности хорошо передают статистические свойства вероятностного распределения обучающей выборки.
Для этой цели используются различные подходы, кластеризующие обучающую выборку целиком или на уровне классов
[42,43,44,45].
Подмножество эталонных векторов, получающееся в результате применения подобных процедур, может быть уточнено путем градиентного подбора параметров с использованием всей обучающей выборки.
Еще один важный фактор, влияющий на работу сети радиальных функций, это выбор функций затухания
Р*, которые преобразуют расстояния у-г[2 в скрытые переменные сети.
В простейшем случае используется гауссова функция
рДг) = е“2/с' с общим для всех классов коэффициентом затухания.
Следующим шагом является индивидуальный подбор коэффициентов затухания для каждого вектора.
В качестве начального приближения можно использовать, например, расстояние до ближайшего
41
[стр. 23]

Радиальные функции Сеть радиальных функций состоит из двух слоев, напоминающих полиномиальный классификатор.
Однако в данном случае первый слой вычисляет евклидово (или какое-нибудь другое) расстояние т между входным вектором V и заданным набором эталонных векторов г„ называемых прототипами.
Каждое расстояние потом преобразуется затухающей функцией, например экспоненциальной функцией о(2)=е~:'с' Гаусса: ' .
Во втором слое вычисляется линейная комбинация этих радиальных функций.
Для к-го выхода сети можно записать уравнение в следу ющем виде: (У)=ХИ’« •а(У-';Г), (2.13) где г, это эталонные вектора, а р функции локальной аппроксимации.
Аналогично
случаю полиномиального классификатора и многоуровневого персептрона, существует большое количество параметров, правильный выбор которых жизненно важен для создания хорошего классификатора.
Сюда относится выбор эталонных векторов, функций локальной аппроксимации, коэффициентов в математических выражениях линейных комбинаций.
Доказано, что при достаточно большом количестве эталонных векторов сеть радиальных функций обладает свойствами универсального аппроксиматора
[40].
На практике, однако, число эталонных векторов приходится ограничивать из-за конечных ресурсов компьютера по памяти и скорости.
В то же время для подавления эффекта переобученности необходима обучающая выборка большого объема.
Разрешить это
кажущееся противоречие можно путем отбора из обучающей выборки подмножества «представителей», которые в совокупности хорошо передают статистические свойства вероятностного распределения.
Для этой цели используются различные подходы, кластеризующие обучающую выборку целиком или на уровне классов
[41,42,43, 44].
Подмножество эталонных векторов, получающееся в результате применения подобных процедур, может быть уточнено путем градиентного подбора параметров с использованием всей обучающей выборки.
Еще один важный фактор, влияющий на работу сети радиальных функций, это выбор функций затухания
А, которые преобразуют расстояния у г,2 в скрытые переменные сети.
В простейшем случае используется гауссова функциярх{г)-е~:1с'
с 23

[стр.,24]

общим для всех классов коэффициентом затухания.
Следующим шагом является индивидуальный подбор коэффициентов затухания для каждого вектора.
В качестве начального приближения можно использовать, например, расстояние до ближайшего
вектора.
Далее коэффициенты затухания совместно оптимизируются градиентным поиском.
Другой возможный путь дальнейших действий состоит в замене евклидова расстояния специальной метрикой.
Наиболее часто для этого используется обратная матрица ковариации, которая дает расстояние Махаланобиса.
Это расстояние соответствует гипотезе о многомерном нормальном распределении вероятностей отказа от каждого из эталонных векгоров.
Матрица может быть одной для всех эталонных векторов или индивиду'альной для каждого вектора.
Понятно, что индивидуальные матрицы существенно увеличивают общее число параметров; поэтому часто матрицу преобразуют к диагональной форме.
В заключение необходимо отметить хорошо известный способ интерпретации сети радиальных функций.
В данном случае задача классификатора обычно формулируется как оценка апостериорной вероятности по входному вектору Р(\у<у).
Сеть радиальных функций аппроксимирует эту функцию суммированием большого количества гауссовых функций, соответствующих эталонным векторам.
Для получения хорошего приближения необходимо выбирать большое количество опорных точек, так как Р(\Уау) обычно имеет вид плато с довольно резкими обрывами на границах области класса.
Идея состоит в том, чтобы оценивать априорную вероятность Р(у\у^), которая, в отличие от апостериорной, обычно хорошо моделируется гауссовыми функциями [45].
Необходимую для этого связь дает Теорема Байеса : Приведенное выше уравнение показывает, что можно выбрать коэффициенты сети радиальных функций, просто вычислив центры и матрицы ковариации эталонных векторов с использованием кластерного анализа независимо для каждого класса.
Знаменатель уравнения (2.14) может трактоваться как нормализующий фактор, не влияющий на выбор результата, что позволяет перейти от смеси гауссовых функций, аппроксимирующих априорную вероятность, к оценке апостериорной вероятности.
Далее вся сеть целиком может быть подвергнута глобальной оптимизации методом градиентного спуска.
Аналогичный подход описан в [46].
24

[Back]