Проверяемый текст
Цымбал, Владимир Георгиевич; Разработка и исследование методов формирования признаковых пространств в медицинских диагностических системах (Диссертация 1999)
[стр. 42]

42 необходимо ставить, исходя из реальной обстановки, из требований к распознающей системе в целом [145].
В реальных условиях обычно требуется, чтобы принимаемые системой решения имели гарантированную достоверность, которая достигалась бы при минимуме стоимости используемого оборудования, энергетических затрат, времени обучения системы, времени принятия.решения и т.д.
В связи с этим характеристики достоверности неизбежно должны быть увязаны с количеством обучающих наблюдений, используемых для задания классов, объемом контрольных выборок, необходимых для принятия решений, а также со свойствами
выбираемых признаков, их количеством.
Каждое обучающее и контрольное наблюдение требует, очевидно, проведения р актов измерения значений признаков.
Поэтому задача формирования признакового пространства является составной частью проблемы минимизации общей размерности задачи распознавания
[147], а в общей формулировке задачи оптимизации распознающей системы (1.13) минимизации подлежит общее количество измерений [147, (5.3)] где mk объем обучающей выборки для определения характеристик класса sk, п объем контрольной выборки, b общее количество актов принятия решений в процессе распознавания, q число первоначальных признаков.
Рассмотрим решение задачи оптимизации размерности признакового пространства при произвольных объемах обучающих и контрольной выборок, которое представлено в
[147].
Задача оптимизации размерности признакового пространства
при К = 2, m, = т 2 = т , b = 1 должна включать в себя как составную часть рассмотренную в п.

1.5.3.
задачу оптимизации суммарного объема p = (2m + n) обучающих и контрольной выборок, то есть представлять собой обобщение этой задачи на случай минимизации суммарного количества измерений по всем р признакам требуемого для достижения заданного уровня достоверности распознавания а = р .
Во многих практических задачах оказывается возможным в первом
приближении положить общую ковариационную матрицу М распознаваемых совокупностей s, и s2 диагональной с дисперсиями на диагонали [147, 41].
В этом случае расстояние Махаланобиса
[147, (5.4)] Ограниченные возможности реальных распознающих систем по обработке результатов измерений по каждому из р признаков позволяют всегда считать число признаков р ограниченным некоторой величиной Р (р < Р), откуда следует, что существует некоторое общее значение 5 > 0, что 5j > 5 для всех i = 1,..., р .
В качестве 8, в частности, можно выбрать точность измерения признаков в
(1.34) (1.35)
[стр. 49]

ния dg=0,01 ...
1,0 и значениях коэффициента h = 1,01 ...
2,0.
Анализ результатов решения задачи оптимизации показывает, что с ростом h, при h близких к 1, преобладает тенденция, обуславливающая рост а и р , что вдет к увеличению m и п*, требуемых для достижения заданной достоверности 1-а*.
Однако при дальнейшем увеличении h до 2,0 оптимальные значения т и п уменьшаются.
Это объясняется тем, что с ростом h усиливается влияние тенденции, ведущей к уменьшению а и р, и начиная с некоторого значения п ее влияние становится $ Л доминирующим.
При этом h тем меньше, чем меньше dg и чем больше р .
ь Действительно, увеличение с ростом h дисперсий величин, составляющих обучающие и контрольные выборки из класса s2, должно приводить при постоянных m,n,dgи р к увеличению а и р , причем Р в большей степени.
С другой стороны, чем больше h, тем сильнее отличие распределений Np{a1,M 1} и Np{a2,M2} друг от друга и тем меньше, следовательно, должны быть а и р при неизменных m,n,dg и р.
Как известно из рассмотрения случая равных ковариационных матриц Mj и М2 (см.
выше и [82, 84]), увеличение с ростом р числа оцениваемых парамет-/ л ров akj, к = 1,2, j = 1, р приводит к росту а и р при неизменных m,n,de и h.
Этим объясняется рост ш и п при увеличении числа признаков от 2 до 10 для h, близких к 1 [82, табл.
3.2].
Однако с ростом h достаточно быстро проявляется преобладание другой тенденции, ведущей к уменьшению а и р и состоящей в том, что с ростом р при неизменных m,n,dg и h растет количество параметров, а именно дисперсий признаков, по которым имеет место отличие распределений Np{a1,M1} и Np{a2,M2} друг от друга.
1.7.4.
Оптимизация размерности признакового пространства Возможность повышения достоверности распознавания путем наращивания числа р признаков открывает дополнительный путь формирования признакового пространства без применения линейного преобразования пространства исходных признаков.
В общем виде задачу формирования признакового пространства необходимо ставить, исходя из реальной обстановки, из требований к распознающей системе в целом [80].
В реальных условиях обычно требуется, чтобы принимаемые системой решения имели гарантированную достоверность, которая достигалась бы при минимуме стоимости используемого оборудования, энергетических затрат, времени обучения системы, времени принятия решения и т.д.
В связи с этим характеристики достоверности неизбежно должны быть увязаны с количеством обучающих наблюдений, используемых для задания классов, объемом контрольных выборок, необходимых для принятия решений, а также со свойствами
выби49

[стр.,50]

Ц 50 равмых признаков, их количеством.
Каждое обучающее и контрольное наблюдение требует, очевидно, проведения р актов измерения значений признаков.
Поэтому задача формирования признакового пространства является составной частью проблемы минимизации общей размерности задачи распознавания
[82], а в общей формулировке задачи оптимизации распознающей системы (1.13) минимизации подлежит общее количество измерений [82, (5.3)] где mk объем обучающей выборки для определения характеристик класса sk, п объем контрольной выборки, b общее количество актов принятия решений в процессе распознавания, q число первоначальных признаков.
Рассмотрим решение задачи оптимизации размерности признакового пространства при произвольных объемах обучающих и контрольной выборок, которое представлено в
[82].
Задача оптимизации размерности признакового пространства при К = 2, m, = т 2 = т , b = 1 должна включать в себя как составную часть рассмотренную в п.

1.7.3.
задачу оптимизации суммарного объема р = (2 т + п) обучающих и контрольной выборок, то есть представлять собой обобщение этой задачи на случай минимизации суммарного количества измерений по всем р признакам требуемого для достижения заданного уровня достоверности распознавания ближении положить общую ковариационную матрицу М распознаваемых совокупностей s1и s2 диагональной с дисперсиями на диагонали [82, 41].
В этом случае расстояние Махаланобиса
[82, (5.4)] Ограниченные возможности реальных распознающих систем по обработке результатов измерении по каждому из р признаков позволяют всегда считать число признаков р ограниченным некоторой величиной Р (р < Р), откуда следует, что существует некоторое общее значение 5>0, что 54>8 для всех 1= 1,..., р.
В качестве 8 , в частности, можно выбрать точность измерения признаков в
реальных системах.
Для получения приближенного решения, обеспечивающего достоверность распознавания не хуже заданного значения а , можно заменить в (1.36) все 5j на 5 и использовать вместо расстояния Махаланобиса жение для вероятности ошибки распознавания, получающееся из (1.27) [82, (3.8)] (1.34) а* = Р*.
Во многих практических задачах оказывается возможным в первом
при(1.35) * О о его оценку снизу ан= ор [82], которую и следует подставить вместо d в выра

[стр.,103]

для того, чтобы избежать генерирования "лишних" опорных сигналов, можно применять методы разведочного анализа данных (РАД) [2], позволяющие быстро оценить вид и основные параметры распределения исследуемых входных процессов (в данном случае низкая точность оценок при использовании РАД не играет роли).
Это позволит генерировать только опорные процессы, максимальноi перекрывающиеся своими распределениями с входными сигналами; для увеличения достоверности распознавания необходимо генерировать коррелированные опорные процессы.
При этом пространство признаков формируется с использованием опорных процессов, значения интервалов корреляции (ИК) которых равномерно распределены в некоторой области.
Граничные значения интервалов корреляции в этой области должны соответствовать слабо коррелированному СП и случайному процессу с ИК, близким по значению к оценке интервала корреляции исследуемого процесса.
Другими словами, в набор опорных процессов должны входить процессы от высокочастотных до процессов с граничной частотой, близкой к граничной частоте исследуемого сигнала.
Возвращаясь к вопросу о количестве используемых признаков, то есть о размерности признакового пространства, можно сказать следующее.
Задача оптимизации размерности признакового пространства
должна, очевидно, включать в себя как составную часть рассмотренную вп.
1.6 задачу оптимизации суммарного объема р = (2т + п) (при количестве классов, равном 2) обучающих и контрольной выборок, то есть представлять собой обобщение этой задачи на случай минимизации суммарного количества измерений по всем р признакам p = p(2m + n), обеспечивающего достоверность распознавания не хуже заданного значения а* = а ^ , р* = Ограниченные возможности реальных распознающих систем по обработке результатов измерений по каждому из р признаков позволяют всегда считать число признаков р ограниченным некоторой величиной Р (р < Р).
Кроме того, максимально возможные значения объемов обучающих m и контрольной п выборок, как правило, ограничены некоторыми предельными значениями М и N (m < М, n < N), причем здесь помимо соображений, связанных с ограниченностью сил и средств на проведение необходимых обучающих и контрольных наблюдений (в общем, аналогичных тем, которые ограничивают размерность р признакового пространства), на первый план выступают жесткие требования по ограниченности времени обучения и принятия решения, которые часто с требуемой достоверностью распознавания являются определяющими факторами при построении распознающей системы.
При фиксированном значении р с увеличением объема обучающих ш и контрольной п выборок вероятность ошибки распознавания а , (3, очевидно, уменьшается.
Следовательно, с учетом ограничений ее минимально возможное• ' значение достигается при фиксированном значении р , когда т и п , увеличиваясь, оказываются равными своим предельным значениям m = М и п = N.
Если 103

[Back]