Проверяемый текст
Цымбал, Владимир Георгиевич; Разработка и исследование методов формирования признаковых пространств в медицинских диагностических системах (Диссертация 1999)
[стр. 56]

56 я/2 а = р =[е(р)/(р-з)м] J d p (БШф/ л/зУгп) х -тг/2 х F^sincp / л/27 ш + 4 / nV cosp 2cpdcp < а*.
(1.28) В [80] показано, что в силу свойств функции (1.27) с достаточной для практических приложений точностью в качестве решения (т*, п*) задачи (1.28) целесообразно принять m хо/(2de)] + 1> П* =[x0/d 2]+ l, (1.29) где [t] целая часть t, а х0 и у0 решение следующей задачи оптимизации в классе непрерывных функций, выполненное стандартными численными методами: х+у-> min; я/2 х,у) = [0(р) / (р —3)!! ] J d p•( л/ х •sinq>/ 2) х -я /2 (1.30) х f (sinф / 2д/1 / х +1 / уVcosp2ф Эф < а*.
Для решения задачи (1.30) используется итерационная процедура, описанная в
[80].
Анализ результатов расчетов значений оптимальных объемов обучающих и контрольной выборок,
приведенных в [85, 22] показывает, что при сравнительно невысоких требованиях к точности измерения расстояния между классами d2 = 0,01 и размерности признакового пространства р = 10 удовлетворительный уровень достоверности распознавания 0,9 достигается при значениях т* = 1917 и п* =2300.
Повышение уровня требуемой достоверности распознавания до значений 0,99; 0,999; 0,9999 при
тех же значениях d2 и р достигается путем достаточно умеренного увеличения оптимальных объемов обучающих и контрольной выборок.
Наблюдается эффект возрастания значений объемов
ш* и п*, требуемых для обеспечения заданной достоверности 4
[стр. 44]

I 44 Анализ результатов расчетов, приведенных в [85, табл.
5.1, рис.
5.1] показывает, что при сравнительно невысоких требованиях к точности измерения разности средних ае (а£= 0,1) совокупностей (и, следовательно, при минимально допустимом расстоянии между указанными средними, равном 0,1а ) и при необходимости обеспечения удовлетворительного уровня достоверности распознавания 0,9 оптимальные значения объемов указанных выборок составляют m = 886 и n = 1302.
Повышение уровня требуемой достоверности распознавания до значений 0,99; 0,999; 0,9999 при
том же значении ае достигается путем достаточно умеренного увеличения оптимальных объемов обучающих т* =2334; 4050 и 5868 и контрольных п =4140; 7860 и 11734 выборок.
Однако, дальнейшее повышение требований к точности измерения разности средних вплоть до 0,01 (и, следовательно, сокращение минимально допустимого расстояния между средними значениями совокупностей до 0,01от) при необходимости обеспечения высокой достоверности распознавания 1 -а = 1Р = 0,99; 0,999; 0,9999 приводит к значительному увеличению объемов обучающих и контрольной выборок вплоть до т* = 586800 и n* = 1173400 при 1а* = 0,9999 и аЕ= 0,01.
Это вполне согласуется с физическими представлениями, поскольку распознавание со столь высокой достоверностью нормальных совокупностей, средние значения которых могут быть так близко расположены друг от друга, требует достаточно большого времени обучения для составления хороших эталонных описаний совокупностей, то есть получения возможно более качественных оценок средних и а2, и достаточно большого времени для принятия решения для обеспечения его высокой достоверности.
Данная процедура оптимизации может быть обобщена на случай распознавания одномерных нормальных совокупностей, у которых неизвестны не только л средние а,, а2, но и общая дисперсия о [85].
При этом также минимизируется суммарный объем обучающих и контрольной выборок, необходимых для достижения заданного уровня достоверности, при том же ограничении: нормированная разность между средними значениями совокупностей (а2а1/ а) должна быть не меньше а8> 0.
Однако, при неизвестной дисперсии а 2 записать выражение вероятностей ошибок через параметр а8и объемы обучающих m и контрольной п выборок по типу (1.17) оказывается затруднительным, вследствие чего для нахождения требуемых значений т и п наряду со строгими целесообразно использовать приближенные методы, основанные на том, что при переходе от неизвестной дисперсии к известной вероятности ошибок распознавания изменяются незначительно [85].
Если вместо априорно известной дисперсии а 2 в процессе решения задачи оптимизации (1.18) (1.24) использовать ее оценку, формируемую в процессе обучения, то в результате получаются значения объемов выборок и nj, * * которые являются приближениями к истинным значениям ш и п Для случая оптимизации систем распознавания одномерных образов, раз

[стр.,46]

46 со скаляром, целесообразно выбирать точность измерения этого расстояния в реальных системах.
Найденное в [85, (3.32)] выражение вероятности ошибок распознавания че-ч рез объемы контрольной и обучающих выборок и расстояние Махаланобиса d между классами составляет основу для оптимизации характеристик распознающей системы, заключающейся в отыскании вектора параметров системы V, минимизирующего некоторый критерий H(V) и удовлетворяющего ограничениям hi(V, а, Р) > bj, i = 1, Q на допустимые значения параметров и вероятности ошибок.
Как и в рассмотренном одномерном случае, в качестве критерия оптимальности рассматриваемой системы распознавания целесообразно использовать минимальный суммарный объем р = р •(2т + п) обучающих и контрольных наблюдений (р = const), получающийся из (1.12) при К = 2, ггц = т2 = m, b = 1 [85]: р = р(2т + n) -> min; я/2 ос= [3= [0(р)/ (р —3)!!] jD p-fsHKp/ л/2 / т -я/2 (1.27) xF(sin(p /727 т + 4 / nVcosp2ф Эф< а*.
При заданном dg, учитывая инвариантность решения задачи (1.27) относительно умножения критерия на положительное число, задача переписывается в следующем виде [84] р = d2(2m + n) -» min; я/2 a = (3= [0(p) / (p —3)!!] j*Dp-fsin(p/V2/ m -я/2 (1.28) xF(sin9 /72 /m +4/nj-cosp2ф d9 < a*.
В [85] показано, что в силу свойств функции (1.27) с достаточной для практических приложений точностью в качестве решения (m*, n j задачи (1.28) целесообразно принять * m [x0/(2d2)]+ l, n =[x0/d 2]+ l, (1.29) где [t] целая часть t, а х0 и у0 решение следующей задачи оптимизации в классе непрерывных функций, выполненное стандартными численными методами: х + у —>mm; я/2 ф(х,у) = [е(р)/(р-3)!!] jDp-(7х-8тф/2)х -п/2 (1.30) xF(Бтф / 2«Jl / х +1 / уj •cosp 2ф 6ф ^ а*.
Для решения задачи (1.30) используется итерационная процедура, описанная в
[85].
Анализ результатов расчетов значений оптимальных объемов обучаю


[стр.,47]

щих и контрольной выборок, приведенных в [85, табл.
5.2] показывает, что при сравнительно невысоких требованиях к точности измерения расстояния между классами d2 = 0,01 и размерности признакового пространства р = 10 удовлетво-+ ригельный уровень достоверности распознавания 0,9 достигается при значениях т* =1917 и п* =2300.
Повышение уровня требуемой достоверности распознавания до значений 0,99; 0,999; 0,9999 при тех же значениях d2 и р достигается путем достаточно умеренного увеличения оптимальных объемов обучающих и контрольной выборок.
Наблюдается эффект возрастания значений объемов
т* и ф ф ф п , требуемых для обеспечения заданной достоверности 1 -а = 1р при неизменном значении расстояния d2 и при увеличении размерности признакового пространства р .
Физически он объясняется возрастанием с ростом р числа оцениваемых параметров, что увеличивает общую дисперсию их оценок и, следовательно, уменьшает результирующую достоверность распознавания [85].
Для доведения последней до требуемого по условиям задачи уровня 1-а* = 1Р* необходимо несколько увеличить значения оптимальных объемов выборок т* и п* [85, табл.
5.2].
Данная процедура оптимизации может быть обобщена и на случай распознавания многомерных нормальных совокупностей с неизвестными векторами средних а15а2 и с неизвестной общей ковариационной матрицей М [82].
При этом также минимизируется суммарный объем р = р •(2т + п) обучающих и контрольных наблюдений, необходимых для достижения заданного уровня достоверности при том же ограничении: расстояние Махаланобиса d2 между совокупностями s, и s2, определяемое формулой (1.26), должно быть не меньше некоторого минимального значения d2> 0, в качестве которого целесообразно выбирать точность измерения этого расстояния (являющегося скаляром) в реальных системах.
Однако в случае неизвестной ковариационной матрицы М выражение вероятностей ошибок а и Р через параметр de и объемы обучающих m и контрольной п выборок по типу (1.27) оказывается затруднительным [82], вследствие чего целесообразно использовать приближенные методы, основанные на использовании вместо неизвестных значений вероятностей ошибок а и (3 их асимптотических значений а 0 и Р0 [82, (3.15), (3.16)] а 0 = F (2 1 n c /( n T )a )/a , Р0 = F f(21nc/(nT )-a)/cl, (1*31) где а = d2/ (т р -1); т = 2 т 2; т р м х т р 2d4

[Back]