Проверяемый текст
Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)
[стр. 39]

Уравнения (2.6), (2.8), (2.12) определяют классический многоуровневый персептрон.
Доказано
[30], что такая сеть с одним скрытым слоем является универсальным аппроксиматором, т.
е.
при достаточном количестве нейронов она способна аппроксимировать произвольную гладкую функцию.
Улучшения многоуровневого персептрона, предложенные в литературе, касаются структуры нейронной сети и процедуры обучения
[31].
Модификации структуры включают в себя, например, прямые связи от входного уровня к выходному, которые должны отражать линейную составляющую зависимости выхода от входа.
Если существуют сильные локальные зависимости между признаками, входной уровень разбивается на подсети, которые присоединены только к своей группе сильно связанных признаков.

Этот же прием можно применить и ко всем другим уровням, что приведет к пирамидальной структуре сети.
При этом на подсети одного уровня можно накладывать ограничения, например, требовать примерно равных сумм весов.
Преимущество подобного секционирования при незначительном ухудшении качества работы системы в целом состоит в уменьшении количества весовых коэффициентов, т.
е.
свободных параметров, которые подлежат настройке в процессе обучения.

Подытоживая сказанное, можно сделать вывод, что все предлагаемые структурные модификации направлены на то, чтобы получить классификатор с наилучшей аппроксимирующей способностью при минимальном числе параметров, т.
е.
авторы пытаются
избежать эффекта переобученности путем уменьшения количества свободных параметров [32, 33].
Многочисленные предложения по модификации процедуры обучения неизбежно наталкиваются на хорошо известные проблемы метода обратного распространения ошибок: скорость обучения, локальные минимумы, переобученность.
Поэтому
существует много методов [34, 35, 36], в рамках которых делаются попытки ускорить сходимость путем использования статистики второго порядка или путем управления скоростью обучения (фактор а в уравнении (2.12)).
Риск переобучения может быть снижен путем использования обучения с затуханием признаков и с процедурой устранения весов
[37, 38, 39].
Идея заключается в том, чтобы добавить к уравнению обучения поправку, «наказывающую» слишком большие веса.
Другая идея
39
[стр. 21]

(2.М) Хотя это уравнение выглядит достаточно сложным, существует эффективная процедура вычисления поправок к весам за один проход в обратном направлении, который делается после того как вычислены выходные значения всех нейронов на прямом проходе.
Из-за этой процедуры, собственно, и возникло название «метод обратного распространения ошибок».
Изменение весов за одну итерацию дается формулой Фактор 0 < а < 1 называется скоростью обучения, так как он управляет скоростью адаптации коэффициентов.
В разных схемах обучения он может зависеть от времени и, возможно, от веса.
Уравнения (2.6), (2.8) и (2.12) определяют классический многоуровневый персептрон.
Доказано
[28], что такая сеть с одним скры тым слоем является универсальным аппроксиматором, т.
е.
при достаточном количестве нейронов она способна аппроксимировать произвольную гладкую функцию.
Улучшения многоуровневого персептрона, предложенные в литературе, касаются структуры нейронной сети и процедуры обучения
[30].
Модификации структуры включают в себя, например, прямые связи от входного уровня к выходному, которые должны отражать линейную составляющую зависимости выхода от входа.
Если существуют сильные локальные зависимости между признаками, входной уровень разбивается на подсети, которые присоединены только к своей группе сильно связанных признаков.

Эта же идея может быть применена и ко всем уровням, что приводит к пирамидальной структуре сети.
Преимущество подобного секционирования состоит в уменьшении количества весовых коэффициентов, т.
е.
свободных параметров, которые подлежат настройке в процессе обучения,
при незначительном ухудшении качества работы системы в целом.
На подсети одного уровня можно накладывать ограничения: например, требовать примерно равных сумм весов.

Подытоживая, можно сделать вывод, что все предлагаемые структурные модификации направлены на то, чтобы получить (2.12) 21

[стр.,22]

классификатор с наилучшей аппроксимирующей способностью при минимальном числе параметров, т.
е.
авторы пытаются
бороться с эффектом переобученное™, уменьшая количество свободных параметров [31, 32].
Многочисленные предложения по модификации процедуры обучения неизбежно наталкиваются на хорошо известные проблемы метода обратного распространения ошибок: скорость обучения, локальные минимумы, переобученность.
Поэтому
существуег много методов [33, 34,35], в рамках которых делаются попытки ускорить сходимость путем использования статистики второго порядка или путем управления скоростью обучения (фактор а в уравнении (3.12).
Риск переобучения может быть снижен путем использования обучения с затуханием признаков и с процедурой устранения весов
[36, 37, 38].
Идея заключается в том, чтобы добавить к уравнению обучения поправку, "наказывающу ю" слишком большие веса.
Другая идея
состоит в том, чтобы измерять влияние отдельных весов на конечный результат и использовать эту информацию в процессе обучения.
Можно также контролировать после каждой итерации обучения точность классификатора на независимой выборке, выбирая оптимальный момент останова, т.
е.
останавливая обучение раньше чем была достигнута его сходимость [39].
Следует отметить, что многие из предложенных улучшений многоуровневого персептрона, представляют скорее теоретический интерес или актуальны применительно к специфическим проблемам (например, при работе в условиях острой нехватки обучающих данных).
Практика применения многоуровневого персептрона к задаче распознавания символов показала, что многих проблем можно избежать в результате простого расширения обучающего множества.
Другой практически важной идеей является пошаг овое обучение.
Суть этого метода состоит в том, что веса сети обновляются не после прохода всей обучающей выборки, как записано в формуле (2.12), а после каждого изображения, или после каждых N изображений, где N многю меньше размера обучающей выборки.
Если еще упорядочить изображения так, чтобы в группуиз N экземпляров попадали равномерно представители всех классов, результирующая процедура обучения будет сходиться с достаточной для практических целей скоростью.
22

[Back]