Проверяемый текст
Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных (Диссертация 2000)
[стр. 38]

(2.10) до?* аь?> <н> (1-о?) Первый множитель формулы (2.8) может быть легко вычислен в явном виде для выходного уровня сети, но вычисление его для других уровней сети требует рекурсивного применения процедуры: дР{А) до?* 817<Л) 2.
дРш до <Л+1> да<ЛИ> до,<Л+1> да<А+1> до) <А> (2.11) Хотя это уравнение выглядит достаточно сложным, существует эффективная процедура вычисления поправок к весам за один проход в обратном направлении, после того как на прямом проходе вычислены выходные значения всех нейронов.
Эта процедура и дала название методу: «метод обратного распространения ошибок».
Изменение весов за одну итерацию дается формулой:
дР{ Х ) (2.12) Фактор 0 < а < 1 называется скоростью обучения, так как он управляет скоростью адаптации коэффициентов.
В разных схемах обучения он может зависеть от времени и, возможно, от веса.

38
[стр. 21]

(2.М) Хотя это уравнение выглядит достаточно сложным, существует эффективная процедура вычисления поправок к весам за один проход в обратном направлении, который делается после того как вычислены выходные значения всех нейронов на прямом проходе.
Из-за этой процедуры, собственно, и возникло название «метод обратного распространения ошибок».
Изменение весов за одну итерацию дается формулой
Фактор 0 < а < 1 называется скоростью обучения, так как он управляет скоростью адаптации коэффициентов.
В разных схемах обучения он может зависеть от времени и, возможно, от веса.

Уравнения (2.6), (2.8) и (2.12) определяют классический многоуровневый персептрон.
Доказано [28], что такая сеть с одним скры тым слоем является универсальным аппроксиматором, т.
е.
при достаточном количестве нейронов она способна аппроксимировать произвольную гладкую функцию.
Улучшения многоуровневого персептрона, предложенные в литературе, касаются структуры нейронной сети и процедуры обучения [30].
Модификации структуры включают в себя, например, прямые связи от входного уровня к выходному, которые должны отражать линейную составляющую зависимости выхода от входа.
Если существуют сильные локальные зависимости между признаками, входной уровень разбивается на подсети, которые присоединены только к своей группе сильно связанных признаков.
Эта же идея может быть применена и ко всем уровням, что приводит к пирамидальной структуре сети.
Преимущество подобного секционирования состоит в уменьшении количества весовых коэффициентов, т.
е.
свободных параметров, которые подлежат настройке в процессе обучения, при незначительном ухудшении качества работы системы в целом.
На подсети одного уровня можно накладывать ограничения: например, требовать примерно равных сумм весов.
Подытоживая, можно сделать вывод, что все предлагаемые структурные модификации направлены на то, чтобы получить (2.12) 21

[Back]