уиадег ниже априорно заданного значения е (ошибки обучения), характеризующего точность процесса обучения. Количество входных узлов обозначим буквой Л', количество нейронов в скрытом слое К, а количество нейронов в выходном слое М. Будем использовать сигмоидальную функцию активации этих нейронов. Основу алгоритма составляет расчет значения целевой функции как квадратичной суммы разностей между фактическими и ожидаемыми значениями выходных сигналов сети. В случае единичной обучающей выборки (х, d) целевая функция задается формулой (3.4), а для множества обучающих выборок) (j = 1,2, z) формулой (3.5). Будем использовать целевую функцию вида (3.4), которая позволяет уточнять веса после предъявления каждой обучающей выборки. С учетом обозначений, введенных на рис. 3.8, эта функция определяется выражением 1 м -1 £ к = 1 f ( к Л > 2 1 М f ( К ( N Л > \ F 2Ч2Ч ~dk = 1 F ~dk V м=0 > )4 * = ! К ф=о w=° ) ) / • (3.8.) Конкретные компоненты градиента рассчитываются путем дифференцированием зависимости (3.8). В первую очередь подбираются веса нейронов выходного слоя. Для выходных весов имеем: ЪЕ , . М*?) Н2 ) иJ* (3.9) где v (2) _ К = ЕЧ2Ч J=о Введем обозначение 4(2> (у, d,) dF(И2)) ' dv{'2) , то соответствующий компонент градиента относительно весов ФЫ выходного слоя можно представить в виде: 112 |
вычислением частных производных (первого и второго порядка). Классическим алгоритмом обучения многослойной ИНС является алгоритм обратного распространения ошибки (его модификации), в котором распространение сигналов ошибки происходит от выходов нейронной сети к ее входам (в направлении, обратном прямому распространению сигналов в обычном режиме работы). Данный алгоритм имеет солидное математическое обоснование. Классический алгоритм обратного распространения это итерационный градиентный алгоритм обучения, который используется с целью минимизации среднеквадратичного отклонения текущих от требуемых выходов многослойных ИНС с последовательными связями. Алгоритм обратного распространения ошибки определяет стратегию подбора весов многослойной сети с применением градиентных методов оптимизации [47]. Его основу составляет целевая функция, формулируемая, как правило, в виде квадратичной суммы разностей между фактическими и ожидаемыми значениями выходных сигналов. В случае единичной обучающей выборки (х, d) целевая функция определяется в виде: (3-4) где Мколичество данных в обучающей выборке. При большем количестве обучающих выборок j (j~l,2, z) целевая функция превращается в сумму по всем выборкам: £Н = -1 Нл,--^)2. (3-5) Z J=\ А=I где z количество обучающих выборок. Уточнение весов может проводиться после предъявления каждой обучающей выборки, либо однократно после предъявления всех обучающих выборок составляющих цикл обучения. В последующем изложении используется целевая функция вида (3.4), которая соответствует актуализации весов после предъявления каждой выборки. 82 Количество входных узлов обозначим буквой N, количество нейронов в скрытом слое К, а количество нейронов в выходном слое М. Будем использовать сигмоидальную функцию активации этих нейронов. Основу алгоритма составляет расчет значения целевой функции как квадратичной суммы разностей между фактическими и ожидаемыми значениями выходных сигналов сети. В случае единичной обучающей выборки (х, d) целевая функция задается формулой (3.4), а для множества обучающих выборок j (j 1,2, ..., z) формулой (3.5). Будем использовать целевую функцию вида (3.4), которая позволяет уточнять веса после предъявления каждой обучающей выборки. С учетом обозначений, введенных на рисунке 3.8, целевая функция (3.5) определяется выражением: 1 м( (к \ 2ХЧ 4 А-IV \Ы0 ~d. 1 м ■I4 *=1 Г / F 2Х^ J=0 \\ \2 -d. (3.8.) Конкретные компоненты градиента рассчитываются путем дифференцированием зависимости (3.8). В первую очередь подбираются веса нейронов выходного слоя. Для выходных весов имеем: _аЁ_ж(у._*)£Й!) <Ц2) W J dv™ (3.9) где = X "i24 • >о g m _ f dF(vj2)) Введем обозначение ~ O'/ ~ “/ ) 777(2) , то соответствующий dv' компонент градиента относительно весов ФН выходного слоя можно представить в виде: dE= S(Z)u)-°i uj (3.10) 89 |