Проверяемый текст

Цымбал, Владимир Георгиевич; Разработка и исследование методов формирования признаковых пространств в медицинских диагностических системах (Диссертация 1999)

[стр. 117]
2.
Из графиков на рис.3.12, 3.13 видно, что в случае классификации процессов с одинаковыми одномерными плотностями распределений и различными КФ (рисунки 3.6 и 3.7) наибольшей разделяющей способностью обладают те I опорные сигналы, плотность вероятности которых больше остальных перекрывается с плотностью вероятности входного сигнала, подлежащего классификации.
Так, максимальное различие между МО признаков (рисунки 3.12.а, 3.13.а)ы обеспечивается опорным процессов с порядковым номером 3 (к=3), площадь под кривой плотности вероятности которого практически полностью перекрывается с площадью под кривой плотности вероятности входных сигналов I; при этом относительные значения среднеквадратических дисперсий признаков минимальны (рисунки 3.12.в, 3.13.в).
Из представленных результатов можно сделать следующие выводы.
I При классификации процессов, когда отсутствуют сведения не только о параметрах их распределений, но и об их виде, необходимо формировать опорные процессы с учетом следующих соображений: моды плотностей вероятности опорных процессов распределены равномерно по интервалу [а, Ь], что обеспечит хотя бы для одного из признаков максимальное перекрытие плотностей вероятности входных и опорных процессов; —для того, чтобы избежать генерирования "лишних" опорных сигналов, можно применять методы разведочного анализа данных (РАД) [2, 4], позво* ляющие быстро оценить вид и основные параметры распределения исследуеФ мых входных процессов (в данном случае низкая точность оценок при исполь-л зовании РАД не играет роли).
Это позволит генерировать только опорные процессы, максимально перекрывающиеся своими распределениями с входными сигналами.
Возвращаясь к вопросу о количестве используемых признаков, то есть о размерности признакового пространства, можно сказать следующее.
Задача оптимизации размерности признакового пространства должна, очевидно, включать в себя как составную часть, рассмотренную в п.
1.4, задачу ♦ оптимизации суммарного объема p=(2m+n) (при количестве классов, равном 2) 117

[стр. 101]
На рис.
3.15-3.17 представлены графики зависимости значений МО, СКО и относительного среднеквадратического значения дисперсии сформированных признаков от номера опорного распределения к (к=0,...,5).
Приведено по три графика упомянутых зависимостей, соответствующих трем видам входных процессов (см.
рис.
3.7 3.12).
На указанных рисунках цифрами от 0 до 3 обозначается принадлежность линии к одному из четырех классов входных процессов данного вида.
Аналогично На рис.
3.20 3.22 представлены графики зависимости значений МО, СКО и относительного среднеквадратического значения дисперсии сформированных признаков от номера опорного распределения к (к =0,...,5) для второго набора признаков.
В табл.
3.1 представлены значения радиусов собственных областей четырех классов для ля данного вида входных процессов.
Аналогично в табл.
3.2 представлены значения радиусов собственных областей четырех классов для второго набора признаков.
Такое компактное расположение графического материала, иллюстрирующего результаты моделирования, возможно несколько неудачно с точки зрения сложности восприятия, однако довольно удобно для сравнительного анализа эффективности сформированных признаков.
Более наглядное представление о последовательности получения данных результатов можно получить из листинга программы моделирования, представленного в прил.
1.
Анализируя полученные результаты, можно отметить следующее.
/ 1.
Для каждого из видов сигналов существует опорное распределение, которое обеспечивает наибольшее различие признаков классифицируемых процес-• ■ ' сов.
2.
В случае распознавания процессов в виде аддитивной смеси дискретного сигнала и нормального шума (рис.
3.7, 3.8) наилучшие результаты разделимости классов дают опорные процессы с некоррелированными отсчетами.
Это видно из сравнения рис.
3.15.а и рис.
3.20.а, где в первом случае опорные процессы некоррелированные; во втором случае наименьшей дисперсией обладают признаки, полученные при использовании опорного процесса с минимальным интервалом корреляции (рис.
3.20.6).
Кроме того, из сравнения данных табл.
3.1 и табл.
3.2 для I вида входного сигнала можно видеть, что при использовании некоррелированных опорных процессов радиусы собственных областей классов получаются примерно в 2 раза меньшими, чем в случае с опорными процессами, имеющими заданные функции корреляции.
При этом пересечение собственных областей классов в признаковом пространстве будет меньше, что увеличивает достоверность распознавания.
3.
Из графиков на рис.
3.16, 3.17 видно, что в случае классификации процессов с одинаковыми одномерными плотностями распределений и различными КФ (рис.
3.9, 3.11) наибольшей разделяющей способностью обладают те опорные сигналы, плотность вероятности которых больше остальных перекрывается с плотностью вероятности входного сигнала, подлежащего классификации.
Так, максимальное различие между МО признаков (рис.
3.1б.а, 3.17.а) обеспечиваетсяI 101

[стр.,102]
опорным процессов с порядковым номером 3 (к = 3), площадь под кривой плотности вероятности которого практически полностью перекрывается с площадью под кривой плотности вероятности входных сигналов П; при этом относительные значения среднеквадратических дисперсий признаков минимальны (рис.
3.1б.в, 3.17.в).
4.
Рассмотрев графики на рис.
3.21, 3.22, отображающие изменения МО и СКО признаков при различных опорных процессах с коррелированными отсчетами (рис.
3.19), можно сделать вывод, что использование опорных процессов с заданными функциями корреляции дает выигрыш в разделимости классов в признаковом пространстве порядка 30 % для "наилучшего" распределения (рис.
3.21.а, 3.22.а) по сравнению с "наилучшим" распределением некоррелированного опорного процесса (рис.
3.1б.а, 3.17.а).
При этом дисперсии оценок признаков остаются примерно на одном и том же уровне, что подтверждается данными из рис.
3.16.6,3.17.6 (для опоры к = 3) ирис.
3.21.6, 3.22.6.
Однако платой за данный выигрыш является более сложный алгоритм формирования отсчетов опорных случайных процессов, включающий помимо генерирования некоррелированных выборок дополнительные рекуррентные процедуры преобразования этих выборок в процессы с заданным видом КФ.
5.
Рассматривая графики изменения МО признаков от номера опоры при коррелированных опорных процессах (рис.
3.21.а, 3.22.а) видим, что с увеличением интервала корреляции опорного процесса (рис.
3.19) "разбегание" между значениями МО увеличивается.
В предельном случае, при бесконечном увеличении интервала корреляции опорного сигнала, вместо опорного процесса получаем постоянный уровень, и тогда метод стохастического кодирования сигналов как бы трансформируется в класс пороговых методов обработки процессов.
Казалось бы, данный факт необходимо использовать, так как увеличение различия между признаками в данном случае повлияет на повышение достоверности распознавания.• s Однако, используя пороговые методы обработки, мы утеряем преимущество метода стохастического кодирования "выделять" общие свойства процессов, объективно принадлежащих к одному классу.
Действительно, данный метод можно представить как метод формирования признаков путем сравнения с порогом, только при этом порог не один, а их некоторое количество.
Оно равно числу уровней квантования процессов в заданной области определения; сравнение значений сигналов происходит с каждым из этих "порогов", которые изменяются случайным образом и распределены соответственно заданному виду плотности вероятности опорного процесса.
Из представленных результатов можно сделать следующие выводы.
При классификации процессов, когда отсутствуют сведения не только о параметрах их распределений, но и об их виде, необходимо формировать опорные.
1 .
процессы с учетом следующих соображений: моды плотностей вероятности опорных процессов распределены равномерно по интервалу [а, Ь], что обеспечит хотя бы для одного из признаков максимальное перекрытие плотностей вероятности входных и опорных процессов; 102 i

[стр.,103]
для того, чтобы избежать генерирования "лишних" опорных сигналов, можно применять методы разведочного анализа данных (РАД) [2], позволяющие быстро оценить вид и основные параметры распределения исследуемых входных процессов (в данном случае низкая точность оценок при использовании РАД не играет роли).
Это позволит генерировать только опорные процессы, максимальноi перекрывающиеся своими распределениями с входными сигналами; для увеличения достоверности распознавания необходимо генерировать коррелированные опорные процессы.
При этом пространство признаков формируется с использованием опорных процессов, значения интервалов корреляции (ИК) которых равномерно распределены в некоторой области.
Граничные значения интервалов корреляции в этой области должны соответствовать слабо коррелированному СП и случайному процессу с ИК, близким по значению к оценке интервала корреляции исследуемого процесса.
Другими словами, в набор опорных процессов должны входить процессы от высокочастотных до процессов с граничной частотой, близкой к граничной частоте исследуемого сигнала.
Возвращаясь к вопросу о количестве используемых признаков, то есть о размерности признакового пространства, можно сказать следующее.
Задача оптимизации размерности признакового пространства должна, очевидно, включать в себя как составную часть рассмотренную вп.
1.6 задачу оптимизации суммарного объема р = (2т + п) (при количестве классов, равном 2) обучающих и контрольной выборок, то есть представлять собой обобщение этой задачи на случай минимизации суммарного количества измерений по всем р признакам p = p(2m + n), обеспечивающего достоверность распознавания не хуже заданного значения а* = а ^ , р* = Ограниченные возможности реальных распознающих систем по обработке результатов измерений по каждому из р признаков позволяют всегда считать число признаков р ограниченным некоторой величиной Р (р < Р).
Кроме того, максимально возможные значения объемов обучающих m и контрольной п выборок, как правило, ограничены некоторыми предельными значениями М и N (m < М, n < N), причем здесь помимо соображений, связанных с ограниченностью сил и средств на проведение необходимых обучающих и контрольных наблюдений (в общем, аналогичных тем, которые ограничивают размерность р признакового пространства), на первый план выступают жесткие требования по ограниченности времени обучения и принятия решения, которые часто с требуемой достоверностью распознавания являются определяющими факторами при построении распознающей системы.
При фиксированном значении р с увеличением объема обучающих ш и контрольной п выборок вероятность ошибки распознавания а , (3, очевидно, уменьшается.
Следовательно, с учетом ограничений ее минимально возможное• ' значение достигается при фиксированном значении р , когда т и п , увеличиваясь, оказываются равными своим предельным значениям m = М и п = N.
Если 103

[Back]