Проверяемый текст
Цымбал, Владимир Георгиевич; Разработка и исследование методов формирования признаковых пространств в медицинских диагностических системах (Диссертация 1999)
[стр. 114]

Остановимся на модификации оценки Парзена, которая гораздо проще с вычислительной точки зрения.
Такая простота вычислений достигается за счет того, что мы ищем не оценки плотностей вероятности сами по себе, а их локальную оценку, то есть нас интересует классификация объектов, порождаемых двумя распределениями, и нам достаточно решить лишь вопрос о том, какая из двух плотностей вероятности больше в данной точке.
В методе Парзена каждый объект является центром, вокруг которого строится некоторое фиксированное ядро.
Похожую оценку можно получить иначе, следующим образом.
Используя выборку, состоящую из N объектов, находят расстояние г от точки X до k-го ближайшего к X объекта
(к-го ближайшего соседа).
Для измерения "близости" можно воспользоваться любой подходящей метрикой.

Тогда в качестве оценки плотности вероятности в точке X можно принять [87] k-1 Pn(X) = (4.8) N A(k,N,X)’ где A(k,N,X)объем множества всех точек, расстояния которых до X меньше, чем г.
Когда в качестве расстояния используется евклидово расстояние, это множество представляет собой гипершар радиуса г, объем которого A(k,N,X) 2r"jtn/2 пГ(п/2) (4.9) Величина А является случайной величиной, зависящей от выбранного множества N объектов.
Оценка (4.8) может использоваться для классификации следующим образом.
Когда требуется классифицировать неизвестный объект X, среди имеющихся N объектов, из которых N, объектов принадлежит классу
со,, а N2 объектов классу со2, находят к ближайших к точке X объектов.
Пусть к, и к2 соответственно числа объектов из класса со, и со2 среди
этих к ближайших соседей.
Тогда оценка (4.8) принимает вид
pNi(X/Mi) = ^i 1 = 1,2.
(4.10) ' N А Так как к, и к2 объектов извлечены из одного и того же гипершара, то объем А один и тот же как для класса со,, так и для класса со2.

114
[стр. 123]

123 E2 = o ((2-NK + NK-Z2)-I2-JJ, (4.7) где NK длина контрольной выборки, предъявляемой для классификации.■ 1 Численные значения порядков сложности Еv и Е2 для исходных данных1 одного из экспериментов, представленного в прил.З будут иметь следующие значения: 1= 2, J = 4, N = 10% М =103, L = 10, NK = 10J, Z = 2, Ej =0,96-10°, S, = 0,096-106, E = 1,056-106.
4.4.
Сравнительный анализ показателей качества и сложности НКСП и а горитма непараметрической классификации по методу к ближайших соседей Целью данного подраздела является объективное сравнение характеристик предлагаемых алгоритмов и известными алгоритмами непараметрической классификации.
Оставляя за рамками данной работы анализ известных алгоритмов непараметрического распознавания, остановимся на методах непараметрическойI S оценки плотности вероятности, то есть методах, позволяющих аппроксимировать неизвестную функцию плотности вероятности с целью ее дальнейшего использования для построения оптимальных решающих правил [96].
В литературе [87] достаточно подробно описаны методы оценивания плотности вероятности и их использования для построения оптимальных решающих правил.
Среди них: методы оценки Парзена, метод к ближайших соседей, метод гистограмм, методы разложения по базисным функциям.
Часто предпочтение отдают методам ядерных оценок Парзена за их высокую точность восстановления функций плотности, однако вычисление ядра для каждого объекта требует значительного времени.
Остановимся на модификации оценки Парзена, которая гораздо проще с вычислительной точки зрения.
Такая простота вычислений достигается за счет того, что мы ищем не оценки плотностей вероятности сами по себе, а их локальную оценку, то есть нас интересует классификация объектов, порождаемых двумя распределениями, и нам достаточно решить лишь вопрос о том, какая из двух плотностей вероятности больше в данной точке.
В методе Парзена каждый объект является центром, вокруг которого строится некоторое фиксированное ядро.
Похожую оценку можно получить иначе, следующим образом.
Используя выборку, состоящую из N объектов, находят расстояние г от точки X до k-го ближайшего к X объекта
(k-го ближайшего соседа).
Для измерения "близости" можно воспользоваться любой подходящей метрикой.

оценки плотности вероятности в точке X можно принять
eN(X)=-k_1 1 N A(k,N,X) (4 t A(k,N,X)объем множества всех точек, расстояния которых до X меньше расстояния используется евклидово представляет собой гипершар радиуса

[стр.,124]

124 2г жn_n/2 A(k,N,X) = у (4.9) v ; пГ(п/ 2) Величина А является случайной величиной, зависящей от выбранного множества N объектов.
Оценка (4.8) может использоваться для классификации следующим образом.
Когда требуется классифицировать неизвестный объект X, среди имеющихся N объектов, из которых N, объектов принадлежит классу
ю,, а N2 объектов классу со2, находят к ближайших к точке X объектов.
/ Пусть к, и к2 соответственно числа объектов из класса со, и со2 среди
I • , этих к ближайших соседей.
Тогда оценка (4.8) принимает вид
pNl(X/ffi1) = ^ 2 2 > i = i,2.
(4.10) N А Так как к, и к2 объектов извлечены из одного и того же гипершара, то объем А один и тот же как для класса со,, так и для класса со2.

Следовательно, байесовский критерий, минимизирующий ошибку, будет иметь вид гсо (N1/N )pNi(X /® ,)i(N 2/N )pNi(X/co2)-4.X e \ (4.11) I®2 или, подставляя (4.9) в (4.10) получим k, X € со.
1ю2' (4.12) Таким образом, решение о принадлежности объекта X к тому или другому классу можно принять непосредственно после нахождения к ближайших соседей и сравнения к, и к2.
Данное решающее правило легко обобщается для задачи классификации Мs I классов.
Аналогично, как и для двух классов, выбираются из обучающих выборок к ближайших к точке X точек.
Пусть к,,к2,...,км число наблюдений из ®,,со2,...,сом соответственно.
Наблюдение X относится к тому классу i, из которого в числе к ближайших точек присутствует больше точек, чем из любого другого класса j Фi (j = 1,2,...,М).
Решающее правило для классификации М совокупностей имеет вид [96] к, = max{k,,k2,...,kM}-» X ею ,.
(4.13) Процедура классификации по правилу к ближайших соседей не требует знания плотностей вероятности и является достаточно простой.
Недостатком данного метода классификации является необходимость хранить в памяти машины все объекты и сравнивать каждый из них с неизвестным объектом.
В общем случае непараметрические методы классификации требуют большего объема вычислений при классификации новых наблюдений, чем параметрические методы при наличии обучения.
В упомянутой литературе приводятся алгоритмы работы непараметрических классификаторов по методу к ближайших соседей.
Однако производить I

[Back]