Уравнения (2.6), (2.8), (2.12) определяют классический многоуровневый персептрон. Доказано [30], что такая сеть с одним скрытым слоем является универсальным аппроксиматором, т. е. при достаточном количестве нейронов она способна аппроксимировать произвольную гладкую функцию. Улучшения многоуровневого персептрона, предложенные в литературе, касаются структуры нейронной сети и процедуры обучения [31]. Модификации структуры включают в себя, например, прямые связи от входного уровня к выходному, которые должны отражать линейную составляющую зависимости выхода от входа. Если существуют сильные локальные зависимости между признаками, входной уровень разбивается на подсети, которые присоединены только к своей группе сильно связанных признаков. Этот же прием можно применить и ко всем другим уровням, что приведет к пирамидальной структуре сети. При этом на подсети одного уровня можно накладывать ограничения, например, требовать примерно равных сумм весов. Преимущество подобного секционирования при незначительном ухудшении качества работы системы в целом состоит в уменьшении количества весовых коэффициентов, т. е. свободных параметров, которые подлежат настройке в процессе обучения. Подытоживая сказанное, можно сделать вывод, что все предлагаемые структурные модификации направлены на то, чтобы получить классификатор с наилучшей аппроксимирующей способностью при минимальном числе параметров, т. е. авторы пытаются избежать эффекта переобученности путем уменьшения количества свободных параметров [32, 33]. Многочисленные предложения по модификации процедуры обучения неизбежно наталкиваются на хорошо известные проблемы метода обратного распространения ошибок: скорость обучения, локальные минимумы, переобученность. Поэтому существует много методов [34, 35, 36], в рамках которых делаются попытки ускорить сходимость путем использования статистики второго порядка или путем управления скоростью обучения (фактор а в уравнении (2.12)). Риск переобучения может быть снижен путем использования обучения с затуханием признаков и с процедурой устранения весов [37, 38, 39]. Идея заключается в том, чтобы добавить к уравнению обучения поправку, «наказывающую» слишком большие веса. Другая идея 39 |
(2.М) Хотя это уравнение выглядит достаточно сложным, существует эффективная процедура вычисления поправок к весам за один проход в обратном направлении, который делается после того как вычислены выходные значения всех нейронов на прямом проходе. Из-за этой процедуры, собственно, и возникло название «метод обратного распространения ошибок». Изменение весов за одну итерацию дается формулой Фактор 0 < а < 1 называется скоростью обучения, так как он управляет скоростью адаптации коэффициентов. В разных схемах обучения он может зависеть от времени и, возможно, от веса. Уравнения (2.6), (2.8) и (2.12) определяют классический многоуровневый персептрон. Доказано [28], что такая сеть с одним скры тым слоем является универсальным аппроксиматором, т. е. при достаточном количестве нейронов она способна аппроксимировать произвольную гладкую функцию. Улучшения многоуровневого персептрона, предложенные в литературе, касаются структуры нейронной сети и процедуры обучения [30]. Модификации структуры включают в себя, например, прямые связи от входного уровня к выходному, которые должны отражать линейную составляющую зависимости выхода от входа. Если существуют сильные локальные зависимости между признаками, входной уровень разбивается на подсети, которые присоединены только к своей группе сильно связанных признаков. Эта же идея может быть применена и ко всем уровням, что приводит к пирамидальной структуре сети. Преимущество подобного секционирования состоит в уменьшении количества весовых коэффициентов, т. е. свободных параметров, которые подлежат настройке в процессе обучения, при незначительном ухудшении качества работы системы в целом. На подсети одного уровня можно накладывать ограничения: например, требовать примерно равных сумм весов. Подытоживая, можно сделать вывод, что все предлагаемые структурные модификации направлены на то, чтобы получить (2.12) 21 классификатор с наилучшей аппроксимирующей способностью при минимальном числе параметров, т. е. авторы пытаются бороться с эффектом переобученное™, уменьшая количество свободных параметров [31, 32]. Многочисленные предложения по модификации процедуры обучения неизбежно наталкиваются на хорошо известные проблемы метода обратного распространения ошибок: скорость обучения, локальные минимумы, переобученность. Поэтому существуег много методов [33, 34,35], в рамках которых делаются попытки ускорить сходимость путем использования статистики второго порядка или путем управления скоростью обучения (фактор а в уравнении (3.12). Риск переобучения может быть снижен путем использования обучения с затуханием признаков и с процедурой устранения весов [36, 37, 38]. Идея заключается в том, чтобы добавить к уравнению обучения поправку, "наказывающу ю" слишком большие веса. Другая идея состоит в том, чтобы измерять влияние отдельных весов на конечный результат и использовать эту информацию в процессе обучения. Можно также контролировать после каждой итерации обучения точность классификатора на независимой выборке, выбирая оптимальный момент останова, т. е. останавливая обучение раньше чем была достигнута его сходимость [39]. Следует отметить, что многие из предложенных улучшений многоуровневого персептрона, представляют скорее теоретический интерес или актуальны применительно к специфическим проблемам (например, при работе в условиях острой нехватки обучающих данных). Практика применения многоуровневого персептрона к задаче распознавания символов показала, что многих проблем можно избежать в результате простого расширения обучающего множества. Другой практически важной идеей является пошаг овое обучение. Суть этого метода состоит в том, что веса сети обновляются не после прохода всей обучающей выборки, как записано в формуле (2.12), а после каждого изображения, или после каждых N изображений, где N многю меньше размера обучающей выборки. Если еще упорядочить изображения так, чтобы в группуиз N экземпляров попадали равномерно представители всех классов, результирующая процедура обучения будет сходиться с достаточной для практических целей скоростью. 22 |