Выбор конкретного показателя качества кластеризации определяется целями выполняемой кластеризации. Так, например, показатель, называемый общий гиперобъем, обеспечивает поиск разбиения с минимальным суммарным гиперобъемом найденных кластеров: где R; ковариационная матрица у-го кластера; п} количество объектов кластеризации, отнесенных к j -му кластеру; v} —вектор координат центра j го кластера; xt —вектор координат (оценок по критериям или элементам мого кластера; п количество объектов; с — количество кластеров; / = !,« , Дискретный характер четкого разбиения приводит к трудностям нахождения оптимальной кластеризации из-за негладкости целевой функции (используемого показателя качества кластеризации). 1.6.6 Алгоритмы кластеризации на основе нечетких множеств Требование нахождения однозначной кластеризации элементов исходного множества объектов является достаточно грубым и жестким, особенно при решении плохо или слабо структурированных задач. Методы нечеткой кластеризации ослабляют это требование [104, 105, 130, 131]. Ослабление этого требования осуществляется за счет введения в рассмотрение нечетких кластеров и соответствующих им функций принадлежности, принимающих значения из интервала [0,1]. Концептуальная взаимосвязь между кластерным анализом и теорией нечетких множеств (ТНМ) основана на том обстоятельстве, что при решении задач структуризации сложных систем большинство формируемых классов объектов размыты по своей природе. Эта размытость состоС 1 —>min, ( 1.12) ниторипга) i -го объекта; det[li]) определитель ковариационной матрицы j 64 |
0 < I > j{xt)< n t j = \,c.(1.13) /= Для оценки качества разбиения используется целевая функция, представляющая критерий разброса. В случае использования Евклидовой метрики этот критерий записывается в виде [116, 202]: ж ,г)= У !,/;=<; V (i.w j=\х^Хj 7=1xteXj 1=1 где U = [iij {xi)]' с-разбиение множества объектов X на основе характеристических функций Uj(x.), определяющих принадлежность объекта xj = {х*,xf ,...,х? ) кластеру X } ; V = ( у , vc) прототипы кластеров; d ■) расстояние между объектом xi и центром кластера v.; vy.=(vy,vj,...,vj) вектор координат центра у-го кластера в некотором # -мерном нормированном пространстве, изоморфном R'! (v lje R " ); с количество кластеров X . (/б{2,...,с});и количество объектов кластеризации; j = \,с ; / = 1,/г. При этом координаты центра / -го кластера находятся как: v ' = 2>,'> ' (1.15) «у veXj где iij мощность у-го кластера (количество объектов, отнесенных к У-му кластеру). Кластеризацию объектов X можно сформулировать как задачу оптимизации: найти матрицу U = [iij (лг(.)], минимизирующую значение целевой функции (1.14). Оценка качества кластеризации может выполняться с использованием различных показателей качества кластеризации, которые либо минимизируются, либо максимизируются [328, 362]. Выбор конкретного показателя качества кластеризации определяется целями выполняемой кластеризации. Так, например, показатель, называемый общий гиперобъем, обеспечивает поиск разбиения с минимальным суммарным гиперобъемом найденных кластеров: 102 —» inin , (1-16) j=i ^ v j f e v j , (1.17) nj '=' где /? ковариационная матрица j -го кластера; количество объектов кластеризации, отнесенных к j -му кластеру; vy вектор координат денара j го кластера; х1 вектор координат (оценок по критериям) i -го объекта; det[Rj) определитель ковариационной матрицы у-го кластера; п количество объектов; с количество кластеров; / = !,« , j = 1,с. Дискретный характер четкого разбиения приводит к трудностям нахождения оптимальной кластеризации из-за негладкости целевой функции (используемого показателя качества кластеризации). 1.8.7 Алгоритмы кластеризации на основе нечетких множеств Требование нахождения однозначной кластеризации элементов исходного множества объектов является достаточно грубым и жестким, особенно при решении плохо или слабо структурированных задач. Методы нечеткой кластеризации ослабляют это требование [202, 365, 369]. Ослабление этого требования осуществляется за счет введения в рассмотрение нечетких кластеров и соответствующих им ФП, принимающих значения из интервала [0,1]. Концептуальная взаимосвязь между кластерным анализом и ТНМ основана на том обстоятельстве, что при решении задач структуризации сложных систем большинство формируемых классов объектов размыты по своей природе. Эта размытость состоит в том, что переход от принадлежности к непринадлежности элементов к данным классам постепенен, а не скачкообразен [116]. Актуальной является задача кластеризации множества объектов, содержащего кластеры существенно разной плотности или существенно разного объема и т.п. [76, 371]. 103 формации (неполной, неточной или нечеткой) о системе. Показано, что нечеткие модели при наличии обучающей выборки позволяют аппроксимировать функции или измеренные данные с любой требуемой точностью, что позволяет считать их универсальными аппроксиматорами. 7. Выполнен анализ этапов разработки систем нечеткого вывода. Даны определения нечеткого множества первого типа (НМТ1) и интервального нечеткого множества второго типа (ИНМТ2). Показано, что использование ИНМТ2 целесообразно только в том случае, когда ожидается существенное улучшение результатов (например, повышение точности прогнозирования, улучшение результатов аппроксимации и т.п.) ввиду значительного увеличения сложности вычислений. 8. Сформулированы принципы анализа многокритериальных задач принятия решений, в том числе в условиях неопределенности. Показана симметричность нечетких целей и ограничений относительно решения в схеме Беллмана Заде, так как решение представляется как слияние нечетких целей и ограничений. 9. Определены принципы упорядочения, классификации и кластеризации объектов в задачах многокритериального анализа. Показано, что в случае группового экспертного оценивания-объектов в качестве математической модели для представления многокритериальных объектов следует использовать мультимножество, позволяющее учесть все, в том числе и несовпадающие и противоречивые, оценки объектов по критериям. Ю.Выполнен анализ базового алгоритма кластеризации алгоритма четких с-средних, показавший, что дискретный характер четкого разбиения приводит к трудностям нахождения оптимальной кластеризации из-за негладкости целевой функции или используемого показателя качества кластеризации. Показано, что не существует универсального показателя качества кластеризации. Выполнен анализ целесообразности разработки и использования алгоритмов кластеризации на основе нечетких множеств. Выявлена 112 |