состоит в том, чтобы оценить влияние отдельных весов на конечный результат и использовать эту информацию в процессе обучения. Можно также контролировать изменение точности классификатора в процессе итерации обучения на независимой выборке, чтобы выбрать оптимальный момент останова, т. е. остановить обучение раньше, чем достигнута его сходимость [40]. Следует отметить, что многие из предложенных улучшений многоуровневого персептрона представляют скорее теоретический интерес или актуальны применительно только к специфическим проблемам (например, при работе в условиях острой нехватки обучающих данных). Практика применения многоуровневого персептрона к задаче распознавания символов показала, что многих проблем можно избежать путем простого расширения обучающего множества. Другой способ улучшения сходимости обучения это так называемое «пошаговое обучение». Суть этого метода состоит в том, чтобы обновлять веса сети не после прохода всей обучающей выборки, как предписывает формула (2.12), а после каждого изображения, или после каждых N изображений, где N много меньше размера обучающей выборки. Если к тому же упорядочить изображения так, чтобы в каждой группе из N изображений были представлены все классы, то результирующая процедура обучения будет сходиться с достаточной для практических целей скоростью. Радиальные функции Подобно полиномиальному классификатору, сеть радиальных функций состоит из двух слоев. Однако, в данном случае первый слой вычисляет евклидово (или какоенибудь другое) расстояние г между входным вектором V и заданным набором эталонных векторов г„ называемых прототипами. Каждое расстояние преобразуется затухающей функцией, например, экспоненциальной функцией Гаусса: р№~е Во втором слое вычисляется линейная комбинация этих радиальных функций. Для к-го выхода сети можно записать уравнение в следующем виде: 40 |
классификатор с наилучшей аппроксимирующей способностью при минимальном числе параметров, т. е. авторы пытаются бороться с эффектом переобученное™, уменьшая количество свободных параметров [31, 32]. Многочисленные предложения по модификации процедуры обучения неизбежно наталкиваются на хорошо известные проблемы метода обратного распространения ошибок: скорость обучения, локальные минимумы, переобученность. Поэтому существуег много методов [33, 34,35], в рамках которых делаются попытки ускорить сходимость путем использования статистики второго порядка или путем управления скоростью обучения (фактор а в уравнении (3.12). Риск переобучения может быть снижен путем использования обучения с затуханием признаков и с процедурой устранения весов [36, 37, 38]. Идея заключается в том, чтобы добавить к уравнению обучения поправку, "наказывающу ю" слишком большие веса. Другая идея состоит в том, чтобы измерять влияние отдельных весов на конечный результат и использовать эту информацию в процессе обучения. Можно также контролировать после каждой итерации обучения точность классификатора на независимой выборке, выбирая оптимальный момент останова, т. е. останавливая обучение раньше чем была достигнута его сходимость [39]. Следует отметить, что многие из предложенных улучшений многоуровневого персептрона, представляют скорее теоретический интерес или актуальны применительно к специфическим проблемам (например, при работе в условиях острой нехватки обучающих данных). Практика применения многоуровневого персептрона к задаче распознавания символов показала, что многих проблем можно избежать в результате простого расширения обучающего множества. Другой практически важной идеей является пошаг овое обучение. Суть этого метода состоит в том, что веса сети обновляются не после прохода всей обучающей выборки, как записано в формуле (2.12), а после каждого изображения, или после каждых N изображений, где N многю меньше размера обучающей выборки. Если еще упорядочить изображения так, чтобы в группуиз N экземпляров попадали равномерно представители всех классов, результирующая процедура обучения будет сходиться с достаточной для практических целей скоростью. 22 Радиальные функции Сеть радиальных функций состоит из двух слоев, напоминающих полиномиальный классификатор. Однако в данном случае первый слой вычисляет евклидово (или какое-нибудь другое) расстояние т между входным вектором V и заданным набором эталонных векторов г„ называемых прототипами. Каждое расстояние потом преобразуется затухающей функцией, например экспоненциальной функцией о(2)=е~:'с' Гаусса: ' . Во втором слое вычисляется линейная комбинация этих радиальных функций. Для к-го выхода сети можно записать уравнение в следу ющем виде: (У)=ХИ’« •а(У-';Г), (2.13) где г, это эталонные вектора, а р функции локальной аппроксимации. Аналогично случаю полиномиального классификатора и многоуровневого персептрона, существует большое количество параметров, правильный выбор которых жизненно важен для создания хорошего классификатора. Сюда относится выбор эталонных векторов, функций локальной аппроксимации, коэффициентов в математических выражениях линейных комбинаций. Доказано, что при достаточно большом количестве эталонных векторов сеть радиальных функций обладает свойствами универсального аппроксиматора [40]. На практике, однако, число эталонных векторов приходится ограничивать из-за конечных ресурсов компьютера по памяти и скорости. В то же время для подавления эффекта переобученности необходима обучающая выборка большого объема. Разрешить это кажущееся противоречие можно путем отбора из обучающей выборки подмножества «представителей», которые в совокупности хорошо передают статистические свойства вероятностного распределения. Для этой цели используются различные подходы, кластеризующие обучающую выборку целиком или на уровне классов [41,42,43, 44]. Подмножество эталонных векторов, получающееся в результате применения подобных процедур, может быть уточнено путем градиентного подбора параметров с использованием всей обучающей выборки. Еще один важный фактор, влияющий на работу сети радиальных функций, это выбор функций затухания А, которые преобразуют расстояния у г,2 в скрытые переменные сети. В простейшем случае используется гауссова функциярх{г)-е~:1с' с 23 |