Проверяемый текст
Цымбал, Владимир Георгиевич; Разработка и исследование методов формирования признаковых пространств в медицинских диагностических системах (Диссертация 1999)
[стр. 27]

ЭВМ.
Взаимодействуя между собой, указанные возмущения приводят к тому, что наблюдения
неизбежно оказываются реализациями случайных величин, функция с^х^х^.-мХу^.^Хрп) становится случайной функцией, в результате номер к класса также оказывается случайной величиной.
Отсюда видно, что разработка
алгоритмов классификации изображений неизбежно связана с использованием статистических методов.
Из анализа работ, опубликованных за последние несколько десятков лет [13, 26, 27, 30, 45, 51, 54, 64, 78, 80, 87], можно сказать, что достигнуты значительные теоретические результаты в области как параметрического, так и непараметрического распознавания.
Однако, многие из методов распознавания образов, несмотря на хорошее теоретическое обоснование, дают неприемлемые результаты при решении практических задач.
Причиной этого являются те ограничения и допущения, которые выдвигаются исследователями при разработке методов классификации.
Так, зачастую, априорно принимается гипотеза о принадлежности функции плотности вероятности какому-либо параметрическому семейству
[45].
Многие из оптимальных теоретических методов предполагают, кроме того еще и статистическую независимость выбранной системы признаков [54].
Несмотря на то, что вопросы параметрического распознавания разработаны очень хорошо (разработаны процедуры обучения, принятия решения и понижения размерности признакового пространства), оценки вероятностей ошибок, получающихся при параметрическом распознавании, являются асимптотическими, т.е.
справедливыми лишь в редко встречающихся случаях неограниченного возрастания обучающих выборок
[30, 54, 51].
Непараметрические методы, например k-ближайших соседей, гистограммный, полигональный, Парзеновского ядра и др.
также являются асимптотическими, т.е.
обеспечивают достаточную точность оценивания только лишьI
при неограниченном увеличении объема обучающих выборок [30,64,92,61].
Из-за отсутствия оценок вероятностей ошибок или их асимптотического характера в существующей литературе оказалась не исследованной важная проблема построения систем статистического распознавания оптимизация
27
[стр. 28]

2В сопоставления апостериорной информации относительно каждого поступившего на вход системы объекта (или явления) с априорным описанием классов принимает решения о принадлежности этого объекта (явления) к одному из классов.
Примечательно, что подобный принцип распознавания был заимствован у человека, который обладает удивительной способностью к обучению и умением разделять предоставляемые объекты на классы по всевозможным признакам (таксономия) [41].
Приведем формальное определение процесса распознавания.
Распознавание представляет собой отнесение исследуемого объекта, задаваемого в виде совокупности наблюдений, к одному из взаимоисключающих классов [74].
Это означает, что существует однозначное отображение совокупности наблюдений, являющейся конечным числовым множеством {х} на множество классов = {sj, s2,..., sK}, количество которых задано, {s} <{х}.
Без потери общности классы можно заменить их номерами 1,2,...,К, и, рассматривая последние как натуральные числа, представлять себе распознавание как отображение наблюдений на конечное множество натуральных чисел, {1,2,..., К} <Х .
Ввиду числовой природы множеств последнее отображение отождествляется с обычной функцией k = d ({ХИ, принимающей целочисленные значения к = 1,2,..., К [85].
На практике множество наблюдений, как правило, может быть представлено в виде измеренных значении р характеристик (признаков) хj, Х2, ..., х , при этом количество наблюдений равно определенному числу п (см.
рис.
1.6).
Тогда распознавание к = сводится к рп-аргументнои функции вида хи,х 12,...,х и,...,х рп), где Xjj j-oe измеренное значение i-ro признака.
i = 1,2,...,р, j = l,2 ,...,п, причем указанная функция, называемая решающей функцией, существует и однозначна при заданных р и п.
Важной особенностью реальных задач диагностики и других задач распознавания является то, что наблюдения {х■■) неизбежно подвержены случай-1 / рхп ным возмущениям, непредсказуемый вероятностный характер которых сказывается на всех стадиях, начиная с процесса получения самих измерений и кончая вычислением значений функции d(x11,x 12,...,x ij,...,x pnj.
Дестабилизирующие факторы выступают в диагностике как погрешности измерительных приборов, как неточности регистрации, связанные с физиологическими особенностями измерения медико-биологических сигналов, как шумы в каналах передачи данных измерений, аппаратурные шумы, а также, как ошибки округления при вычислениях, связанные с ограниченностью разрядной сетки ЭВМ.
Взаимодействуя между собой, указанные возмущения приводят к тому, что наблюдения
х;, неизбежно оказываются реализациями случайных величин, функция■ n,x,2,...,x ij,...,x pnJ становится случайной функцией, в результате номер к класса также оказывается случайной величиной.
Отсюда видно, что разработка


[стр.,29]

29 алгоритмов классификации МБС неизбежно связана с использованием статистических методов.
Анализируя работы, опубликованные за последние несколько десятков лет [14, 28, 29, 35, 41, 50, 54, 65, 80, 85, 87], можно сказать, что достигнуты значительные теоретические результаты в области как параметрического, так и непараметрического распознавания.
Однако многие из методов распознавания образов, несмотря на хорошее теоретическое обоснование, дают неприемлемые результаты при решении практических задач.
Причиной этого являются те ограничения и допущения, которые выдвигаются исследователями при разработке методов классификации.
Так, зачастую, априорно принимается гипотеза о принадлежности функции плотности вероятности какому-либо параметрическому семейству
[87].
Многие из оптимальных теоретических методов предполагают кроме того еще и статистическую независимость выбранной системы признаков [54].
Не смотря на то, что вопросы параметрического распознавания разработаны очень хорошо (разработаны процедуры обучения, принятия решения и понижения размерности признакового пространства), оценки вероятностей ошибок, получающихся при параметрическом распознавании, являются асимптотическими, т.е.
справедливыми лишь в редко встречающихся случаях неограниченного возрастания обучающих выборок
[35,54,50].
Непараметрические методы, например k-ближайших соседей, гистограммный, полигональный, Парзеновского ядра и др.
также являются асимптотическими, т.е.
обеспечивают достаточную точность оценивания только лишь
при неограниченном увеличении объема обучающих выборок [35,65,96].
Из-за отсутствия оценок вероятностей ошибок или их асимптотического+ характера в существующей литературе оказалась не исследованной важная проблема построения систем статистического распознавания оптимизация
временных и пространственных параметров, базирующаяся на количественной увязке достоверности распознавания с требуемыми для ее достижения временем обучения и принятия решения и размерностью признакового пространства.
Последнее обстоятельство явилось, по всей вероятности, основной причиной малого уделения внимания авторами вопросам практических приложений статистического распознавания.
Только в некоторых работах эти вопросы были рассмотрены в постановочном плане [28,29, 50] и более подробно [85, 82].
В задачах применения теории распознавания образов в медицинской диагностики оптимизация временных и пространственных параметров диагностических систем имеет особенно важное значение, в следствие того, что эти параметры (вместе с заданной достоверностью распознавания) оказывают непосредственное и наибольшее влияние на качество и своевременность установления диагноза.
Настоящая работа ставит своей основной целью дополнение существующих исследований в направлении решения проблем непараметрического обучения и распознавания при малых объемах обучающих выборок, характерных для медицинских диагностических исследований, и оптимизации временных и пространственных параметров для медицинских диагностических систем.

[Back]