ЭВМ. Взаимодействуя между собой, указанные возмущения приводят к тому, что наблюдения неизбежно оказываются реализациями случайных величин, функция с^х^х^.-мХу^.^Хрп) становится случайной функцией, в результате номер к класса также оказывается случайной величиной. Отсюда видно, что разработка алгоритмов классификации изображений неизбежно связана с использованием статистических методов. Из анализа работ, опубликованных за последние несколько десятков лет [13, 26, 27, 30, 45, 51, 54, 64, 78, 80, 87], можно сказать, что достигнуты значительные теоретические результаты в области как параметрического, так и непараметрического распознавания. Однако, многие из методов распознавания образов, несмотря на хорошее теоретическое обоснование, дают неприемлемые результаты при решении практических задач. Причиной этого являются те ограничения и допущения, которые выдвигаются исследователями при разработке методов классификации. Так, зачастую, априорно принимается гипотеза о принадлежности функции плотности вероятности какому-либо параметрическому семейству [45]. Многие из оптимальных теоретических методов предполагают, кроме того еще и статистическую независимость выбранной системы признаков [54]. Несмотря на то, что вопросы параметрического распознавания разработаны очень хорошо (разработаны процедуры обучения, принятия решения и понижения размерности признакового пространства), оценки вероятностей ошибок, получающихся при параметрическом распознавании, являются асимптотическими, т.е. справедливыми лишь в редко встречающихся случаях неограниченного возрастания обучающих выборок [30, 54, 51]. Непараметрические методы, например k-ближайших соседей, гистограммный, полигональный, Парзеновского ядра и др. также являются асимптотическими, т.е. обеспечивают достаточную точность оценивания только лишьI ♦ при неограниченном увеличении объема обучающих выборок [30,64,92,61]. Из-за отсутствия оценок вероятностей ошибок или их асимптотического характера в существующей литературе оказалась не исследованной важная проблема построения систем статистического распознавания оптимизация 27 |
2В сопоставления апостериорной информации относительно каждого поступившего на вход системы объекта (или явления) с априорным описанием классов принимает решения о принадлежности этого объекта (явления) к одному из классов. Примечательно, что подобный принцип распознавания был заимствован у человека, который обладает удивительной способностью к обучению и умением разделять предоставляемые объекты на классы по всевозможным признакам (таксономия) [41]. Приведем формальное определение процесса распознавания. Распознавание представляет собой отнесение исследуемого объекта, задаваемого в виде совокупности наблюдений, к одному из взаимоисключающих классов [74]. Это означает, что существует однозначное отображение совокупности наблюдений, являющейся конечным числовым множеством {х} на множество классов = {sj, s2,..., sK}, количество которых задано, {s} <{х}. Без потери общности классы можно заменить их номерами 1,2,...,К, и, рассматривая последние как натуральные числа, представлять себе распознавание как отображение наблюдений на конечное множество натуральных чисел, {1,2,..., К} <Х . Ввиду числовой природы множеств последнее отображение отождествляется с обычной функцией k = d ({ХИ, принимающей целочисленные значения к = 1,2,..., К [85]. На практике множество наблюдений, как правило, может быть представлено в виде измеренных значении р характеристик (признаков) хj, Х2, ..., х , при этом количество наблюдений равно определенному числу п (см. рис. 1.6). Тогда распознавание к = сводится к рп-аргументнои функции вида хи,х 12,...,х и,...,х рп), где Xjj j-oe измеренное значение i-ro признака. i = 1,2,...,р, j = l,2 ,...,п, причем указанная функция, называемая решающей функцией, существует и однозначна при заданных р и п. Важной особенностью реальных задач диагностики и других задач распознавания является то, что наблюдения {х■■) неизбежно подвержены случай-1 / рхп ным возмущениям, непредсказуемый вероятностный характер которых сказывается на всех стадиях, начиная с процесса получения самих измерений и кончая вычислением значений функции d(x11,x 12,...,x ij,...,x pnj. Дестабилизирующие факторы выступают в диагностике как погрешности измерительных приборов, как неточности регистрации, связанные с физиологическими особенностями измерения медико-биологических сигналов, как шумы в каналах передачи данных измерений, аппаратурные шумы, а также, как ошибки округления при вычислениях, связанные с ограниченностью разрядной сетки ЭВМ. Взаимодействуя между собой, указанные возмущения приводят к тому, что наблюдения х;, неизбежно оказываются реализациями случайных величин, функция■ n,x,2,...,x ij,...,x pnJ становится случайной функцией, в результате номер к класса также оказывается случайной величиной. Отсюда видно, что разработка 29 алгоритмов классификации МБС неизбежно связана с использованием статистических методов. Анализируя работы, опубликованные за последние несколько десятков лет [14, 28, 29, 35, 41, 50, 54, 65, 80, 85, 87], можно сказать, что достигнуты значительные теоретические результаты в области как параметрического, так и непараметрического распознавания. Однако многие из методов распознавания образов, несмотря на хорошее теоретическое обоснование, дают неприемлемые результаты при решении практических задач. Причиной этого являются те ограничения и допущения, которые выдвигаются исследователями при разработке методов классификации. Так, зачастую, априорно принимается гипотеза о принадлежности функции плотности вероятности какому-либо параметрическому семейству [87]. Многие из оптимальных теоретических методов предполагают кроме того еще и статистическую независимость выбранной системы признаков [54]. Не смотря на то, что вопросы параметрического распознавания разработаны очень хорошо (разработаны процедуры обучения, принятия решения и понижения размерности признакового пространства), оценки вероятностей ошибок, получающихся при параметрическом распознавании, являются асимптотическими, т.е. справедливыми лишь в редко встречающихся случаях неограниченного возрастания обучающих выборок [35,54,50]. Непараметрические методы, например k-ближайших соседей, гистограммный, полигональный, Парзеновского ядра и др. также являются асимптотическими, т.е. обеспечивают достаточную точность оценивания только лишь при неограниченном увеличении объема обучающих выборок [35,65,96]. Из-за отсутствия оценок вероятностей ошибок или их асимптотического+ характера в существующей литературе оказалась не исследованной важная проблема построения систем статистического распознавания оптимизация временных и пространственных параметров, базирующаяся на количественной увязке достоверности распознавания с требуемыми для ее достижения временем обучения и принятия решения и размерностью признакового пространства. Последнее обстоятельство явилось, по всей вероятности, основной причиной малого уделения внимания авторами вопросам практических приложений статистического распознавания. Только в некоторых работах эти вопросы были рассмотрены в постановочном плане [28,29, 50] и более подробно [85, 82]. В задачах применения теории распознавания образов в медицинской диагностики оптимизация временных и пространственных параметров диагностических систем имеет особенно важное значение, в следствие того, что эти параметры (вместе с заданной достоверностью распознавания) оказывают непосредственное и наибольшее влияние на качество и своевременность установления диагноза. Настоящая работа ставит своей основной целью дополнение существующих исследований в направлении решения проблем непараметрического обучения и распознавания при малых объемах обучающих выборок, характерных для медицинских диагностических исследований, и оптимизации временных и пространственных параметров для медицинских диагностических систем. |