Проверяемый текст

Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)

[стр. 40]
состоит в том, чтобы оценить влияние отдельных весов на конечный результат и использовать эту информацию в процессе обучения.
Можно также контролировать изменение точности классификатора в процессе итерации обучения на независимой выборке, чтобы выбрать оптимальный момент останова, т.
е.
остановить обучение раньше, чем достигнута его сходимость [40].
Следует отметить, что многие из предложенных улучшений многоуровневого персептрона представляют скорее теоретический интерес или актуальны применительно только к специфическим проблемам (например, при работе в условиях острой нехватки обучающих данных).
Практика применения многоуровневого персептрона к задаче распознавания символов показала, что многих проблем можно избежать путем простого расширения обучающего множества.
Другой способ улучшения сходимости обучения это так называемое «пошаговое обучение».
Суть этого метода состоит в том, чтобы обновлять веса сети не после прохода всей обучающей выборки, как предписывает формула (2.12), а после каждого изображения, или после каждых N изображений, где N много меньше размера обучающей выборки.
Если к тому же упорядочить изображения так, чтобы в каждой группе из N изображений были представлены все классы, то результирующая процедура обучения будет сходиться с достаточной для практических целей скоростью.
Радиальные функции Подобно полиномиальному классификатору, сеть радиальных функций состоит из двух слоев.
Однако, в данном случае первый слой вычисляет евклидово (или какоенибудь другое) расстояние г между входным вектором V и заданным набором эталонных векторов г„ называемых прототипами.
Каждое расстояние преобразуется затухающей функцией, например, экспоненциальной функцией Гаусса: р№~е Во втором слое вычисляется линейная комбинация этих радиальных функций.
Для к-го выхода сети можно записать уравнение в следующем виде: 40

[стр. 22]
классификатор с наилучшей аппроксимирующей способностью при минимальном числе параметров, т.
е.
авторы пытаются бороться с эффектом переобученное™, уменьшая количество свободных параметров [31, 32].
Многочисленные предложения по модификации процедуры обучения неизбежно наталкиваются на хорошо известные проблемы метода обратного распространения ошибок: скорость обучения, локальные минимумы, переобученность.
Поэтому существуег много методов [33, 34,35], в рамках которых делаются попытки ускорить сходимость путем использования статистики второго порядка или путем управления скоростью обучения (фактор а в уравнении (3.12).
Риск переобучения может быть снижен путем использования обучения с затуханием признаков и с процедурой устранения весов [36, 37, 38].
Идея заключается в том, чтобы добавить к уравнению обучения поправку, "наказывающу ю" слишком большие веса.
Другая идея состоит в том, чтобы измерять влияние отдельных весов на конечный результат и использовать эту информацию в процессе обучения.
Можно также контролировать после каждой итерации обучения точность классификатора на независимой выборке, выбирая оптимальный момент останова, т.
е.
останавливая обучение раньше чем была достигнута его сходимость [39].
Следует отметить, что многие из предложенных улучшений многоуровневого персептрона, представляют скорее теоретический интерес или актуальны применительно к специфическим проблемам (например, при работе в условиях острой нехватки обучающих данных).
Практика применения многоуровневого персептрона к задаче распознавания символов показала, что многих проблем можно избежать в результате простого расширения обучающего множества.
Другой практически важной идеей является пошаг овое обучение.
Суть этого метода состоит в том, что веса сети обновляются не после прохода всей обучающей выборки, как записано в формуле (2.12), а после каждого изображения, или после каждых N изображений, где N многю меньше размера обучающей выборки.
Если еще упорядочить изображения так, чтобы в группуиз N экземпляров попадали равномерно представители всех классов, результирующая процедура обучения будет сходиться с достаточной для практических целей скоростью.
22

[стр.,23]
Радиальные функции Сеть радиальных функций состоит из двух слоев, напоминающих полиномиальный классификатор.
Однако в данном случае первый слой вычисляет евклидово (или какое-нибудь другое) расстояние т между входным вектором V и заданным набором эталонных векторов г„ называемых прототипами.
Каждое расстояние потом преобразуется затухающей функцией, например экспоненциальной функцией о(2)=е~:'с' Гаусса: ' .
Во втором слое вычисляется линейная комбинация этих радиальных функций.
Для к-го выхода сети можно записать уравнение в следу ющем виде: (У)=ХИ’« •а(У-';Г), (2.13) где г, это эталонные вектора, а р функции локальной аппроксимации.
Аналогично случаю полиномиального классификатора и многоуровневого персептрона, существует большое количество параметров, правильный выбор которых жизненно важен для создания хорошего классификатора.
Сюда относится выбор эталонных векторов, функций локальной аппроксимации, коэффициентов в математических выражениях линейных комбинаций.
Доказано, что при достаточно большом количестве эталонных векторов сеть радиальных функций обладает свойствами универсального аппроксиматора [40].
На практике, однако, число эталонных векторов приходится ограничивать из-за конечных ресурсов компьютера по памяти и скорости.
В то же время для подавления эффекта переобученности необходима обучающая выборка большого объема.
Разрешить это кажущееся противоречие можно путем отбора из обучающей выборки подмножества «представителей», которые в совокупности хорошо передают статистические свойства вероятностного распределения.
Для этой цели используются различные подходы, кластеризующие обучающую выборку целиком или на уровне классов [41,42,43, 44].
Подмножество эталонных векторов, получающееся в результате применения подобных процедур, может быть уточнено путем градиентного подбора параметров с использованием всей обучающей выборки.
Еще один важный фактор, влияющий на работу сети радиальных функций, это выбор функций затухания А, которые преобразуют расстояния у г,2 в скрытые переменные сети.
В простейшем случае используется гауссова функциярх{г)-е~:1с' с 23

[Back]