2. Из графиков на рис.3.12, 3.13 видно, что в случае классификации процессов с одинаковыми одномерными плотностями распределений и различными КФ (рисунки 3.6 и 3.7) наибольшей разделяющей способностью обладают те I опорные сигналы, плотность вероятности которых больше остальных перекрывается с плотностью вероятности входного сигнала, подлежащего классификации. Так, максимальное различие между МО признаков (рисунки 3.12.а, 3.13.а)ы обеспечивается опорным процессов с порядковым номером 3 (к=3), площадь под кривой плотности вероятности которого практически полностью перекрывается с площадью под кривой плотности вероятности входных сигналов I; при этом относительные значения среднеквадратических дисперсий признаков минимальны (рисунки 3.12.в, 3.13.в). Из представленных результатов можно сделать следующие выводы. I При классификации процессов, когда отсутствуют сведения не только о параметрах их распределений, но и об их виде, необходимо формировать опорные процессы с учетом следующих соображений: моды плотностей вероятности опорных процессов распределены равномерно по интервалу [а, Ь], что обеспечит хотя бы для одного из признаков максимальное перекрытие плотностей вероятности входных и опорных процессов; —для того, чтобы избежать генерирования "лишних" опорных сигналов, можно применять методы разведочного анализа данных (РАД) [2, 4], позво* ляющие быстро оценить вид и основные параметры распределения исследуеФ мых входных процессов (в данном случае низкая точность оценок при исполь-л зовании РАД не играет роли). Это позволит генерировать только опорные процессы, максимально перекрывающиеся своими распределениями с входными сигналами. Возвращаясь к вопросу о количестве используемых признаков, то есть о размерности признакового пространства, можно сказать следующее. Задача оптимизации размерности признакового пространства должна, очевидно, включать в себя как составную часть, рассмотренную в п. 1.4, задачу ♦ оптимизации суммарного объема p=(2m+n) (при количестве классов, равном 2) 117 |
На рис. 3.15-3.17 представлены графики зависимости значений МО, СКО и относительного среднеквадратического значения дисперсии сформированных признаков от номера опорного распределения к (к=0,...,5). Приведено по три графика упомянутых зависимостей, соответствующих трем видам входных процессов (см. рис. 3.7 3.12). На указанных рисунках цифрами от 0 до 3 обозначается принадлежность линии к одному из четырех классов входных процессов данного вида. Аналогично На рис. 3.20 3.22 представлены графики зависимости значений МО, СКО и относительного среднеквадратического значения дисперсии сформированных признаков от номера опорного распределения к (к =0,...,5) для второго набора признаков. В табл. 3.1 представлены значения радиусов собственных областей четырех классов для ля данного вида входных процессов. Аналогично в табл. 3.2 представлены значения радиусов собственных областей четырех классов для второго набора признаков. Такое компактное расположение графического материала, иллюстрирующего результаты моделирования, возможно несколько неудачно с точки зрения сложности восприятия, однако довольно удобно для сравнительного анализа эффективности сформированных признаков. Более наглядное представление о последовательности получения данных результатов можно получить из листинга программы моделирования, представленного в прил. 1. Анализируя полученные результаты, можно отметить следующее. / 1. Для каждого из видов сигналов существует опорное распределение, которое обеспечивает наибольшее различие признаков классифицируемых процес-• ■ ' сов. 2. В случае распознавания процессов в виде аддитивной смеси дискретного сигнала и нормального шума (рис. 3.7, 3.8) наилучшие результаты разделимости классов дают опорные процессы с некоррелированными отсчетами. Это видно из сравнения рис. 3.15.а и рис. 3.20.а, где в первом случае опорные процессы некоррелированные; во втором случае наименьшей дисперсией обладают признаки, полученные при использовании опорного процесса с минимальным интервалом корреляции (рис. 3.20.6). Кроме того, из сравнения данных табл. 3.1 и табл. 3.2 для I вида входного сигнала можно видеть, что при использовании некоррелированных опорных процессов радиусы собственных областей классов получаются примерно в 2 раза меньшими, чем в случае с опорными процессами, имеющими заданные функции корреляции. При этом пересечение собственных областей классов в признаковом пространстве будет меньше, что увеличивает достоверность распознавания. 3. Из графиков на рис. 3.16, 3.17 видно, что в случае классификации процессов с одинаковыми одномерными плотностями распределений и различными КФ (рис. 3.9, 3.11) наибольшей разделяющей способностью обладают те опорные сигналы, плотность вероятности которых больше остальных перекрывается с плотностью вероятности входного сигнала, подлежащего классификации. Так, максимальное различие между МО признаков (рис. 3.1б.а, 3.17.а) обеспечиваетсяI 101 опорным процессов с порядковым номером 3 (к = 3), площадь под кривой плотности вероятности которого практически полностью перекрывается с площадью под кривой плотности вероятности входных сигналов П; при этом относительные значения среднеквадратических дисперсий признаков минимальны (рис. 3.1б.в, 3.17.в). 4. Рассмотрев графики на рис. 3.21, 3.22, отображающие изменения МО и СКО признаков при различных опорных процессах с коррелированными отсчетами (рис. 3.19), можно сделать вывод, что использование опорных процессов с заданными функциями корреляции дает выигрыш в разделимости классов в признаковом пространстве порядка 30 % для "наилучшего" распределения (рис. 3.21.а, 3.22.а) по сравнению с "наилучшим" распределением некоррелированного опорного процесса (рис. 3.1б.а, 3.17.а). При этом дисперсии оценок признаков остаются примерно на одном и том же уровне, что подтверждается данными из рис. 3.16.6,3.17.6 (для опоры к = 3) ирис. 3.21.6, 3.22.6. Однако платой за данный выигрыш является более сложный алгоритм формирования отсчетов опорных случайных процессов, включающий помимо генерирования некоррелированных выборок дополнительные рекуррентные процедуры преобразования этих выборок в процессы с заданным видом КФ. 5. Рассматривая графики изменения МО признаков от номера опоры при коррелированных опорных процессах (рис. 3.21.а, 3.22.а) видим, что с увеличением интервала корреляции опорного процесса (рис. 3.19) "разбегание" между значениями МО увеличивается. В предельном случае, при бесконечном увеличении интервала корреляции опорного сигнала, вместо опорного процесса получаем постоянный уровень, и тогда метод стохастического кодирования сигналов как бы трансформируется в класс пороговых методов обработки процессов. Казалось бы, данный факт необходимо использовать, так как увеличение различия между признаками в данном случае повлияет на повышение достоверности распознавания.• s Однако, используя пороговые методы обработки, мы утеряем преимущество метода стохастического кодирования "выделять" общие свойства процессов, объективно принадлежащих к одному классу. Действительно, данный метод можно представить как метод формирования признаков путем сравнения с порогом, только при этом порог не один, а их некоторое количество. Оно равно числу уровней квантования процессов в заданной области определения; сравнение значений сигналов происходит с каждым из этих "порогов", которые изменяются случайным образом и распределены соответственно заданному виду плотности вероятности опорного процесса. Из представленных результатов можно сделать следующие выводы. При классификации процессов, когда отсутствуют сведения не только о параметрах их распределений, но и об их виде, необходимо формировать опорные. 1 . процессы с учетом следующих соображений: моды плотностей вероятности опорных процессов распределены равномерно по интервалу [а, Ь], что обеспечит хотя бы для одного из признаков максимальное перекрытие плотностей вероятности входных и опорных процессов; 102 i для того, чтобы избежать генерирования "лишних" опорных сигналов, можно применять методы разведочного анализа данных (РАД) [2], позволяющие быстро оценить вид и основные параметры распределения исследуемых входных процессов (в данном случае низкая точность оценок при использовании РАД не играет роли). Это позволит генерировать только опорные процессы, максимальноi перекрывающиеся своими распределениями с входными сигналами; для увеличения достоверности распознавания необходимо генерировать коррелированные опорные процессы. При этом пространство признаков формируется с использованием опорных процессов, значения интервалов корреляции (ИК) которых равномерно распределены в некоторой области. Граничные значения интервалов корреляции в этой области должны соответствовать слабо коррелированному СП и случайному процессу с ИК, близким по значению к оценке интервала корреляции исследуемого процесса. Другими словами, в набор опорных процессов должны входить процессы от высокочастотных до процессов с граничной частотой, близкой к граничной частоте исследуемого сигнала. Возвращаясь к вопросу о количестве используемых признаков, то есть о размерности признакового пространства, можно сказать следующее. Задача оптимизации размерности признакового пространства должна, очевидно, включать в себя как составную часть рассмотренную вп. 1.6 задачу оптимизации суммарного объема р = (2т + п) (при количестве классов, равном 2) обучающих и контрольной выборок, то есть представлять собой обобщение этой задачи на случай минимизации суммарного количества измерений по всем р признакам p = p(2m + n), обеспечивающего достоверность распознавания не хуже заданного значения а* = а ^ , р* = Ограниченные возможности реальных распознающих систем по обработке результатов измерений по каждому из р признаков позволяют всегда считать число признаков р ограниченным некоторой величиной Р (р < Р). Кроме того, максимально возможные значения объемов обучающих m и контрольной п выборок, как правило, ограничены некоторыми предельными значениями М и N (m < М, n < N), причем здесь помимо соображений, связанных с ограниченностью сил и средств на проведение необходимых обучающих и контрольных наблюдений (в общем, аналогичных тем, которые ограничивают размерность р признакового пространства), на первый план выступают жесткие требования по ограниченности времени обучения и принятия решения, которые часто с требуемой достоверностью распознавания являются определяющими факторами при построении распознающей системы. При фиксированном значении р с увеличением объема обучающих ш и контрольной п выборок вероятность ошибки распознавания а , (3, очевидно, уменьшается. Следовательно, с учетом ограничений ее минимально возможное• ' значение достигается при фиксированном значении р , когда т и п , увеличиваясь, оказываются равными своим предельным значениям m = М и п = N. Если 103 |