Нахождение или выявление кластеров в исходном множестве объектов должно удовлетворять следующим требованиям: каждый кластер должен представлять собой концептуально однородную категорию и содержать похожие объекты с близкими значениями характеристик (значениями признаков, оценок по критериям или элементам мониторинга); совокупность всех кластеров должна быть исчерпывающей, то есть охватывать все объекты исходного множества; кластеры должны быть взаимноисключающими, то есть ни один из объектов исходного множества не должен одновременно принадлежать двум различным кластерам. Проблема кластерного анализа приобретает самостоятельное значение в контексте интеллектуального анализа данных (Data Mining) [48]. Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но ее отличие состоит в том, что классы изучаемого множества объектов заранее не предопределены. Кластеризация является описательной процедурой, она не делает никаких статистичесюгх выводов, но дает возможность провести разведочный анализ и изучить «структуру данных» [39, 76]. Существуют некоторые негласные различия в терминах «кластеризация» и «поиск структур данных». Понятие «кластеризация» обозначает пространственное разделение таксономичных объектов, то есть учитывает их близость в координатных плоскостях. Понятие «поиск структур данных» несет в себе большую смысловую нагрузку, обозначая разделение статистических или учетных объектов на основе некоторого количественного или качественного критерия, семантической траектории или скрытого объединяющего начала, позволяя объединить в кластеры объекты на первый взгляд разнородные и пространственно далекие. Различают задачи кластерного анализа (и соответственно алгоритмы) с заданным количеством кластеров и задачи кластерного анализа с не задан59 |
Необходимость анализа больших объемов объективной и субъективной информации, связанных с неформализуемыми и плохо формализуемыми задачами различной физической природы, требует развития новых научных направлений, в том числе прикладной статистики и-методов анализа данных. Применение методов прикладной статистики основано на предположении-о вероятностной интерпретации анализируемой информации и получении с помощью этих методов закономерностей, имеющих стохастический характер [136, 202]. Методы анализа данных, в том-числе кластерный анализ, не используют априорных предположений о вероятностной природе исходной информации и применяют только эвристические соображения о характере и особенностях исследуемой совокупности объектов. В основе этой теории лежит нечетко-возможностная интерпретация неопределенности [219, 220, 288, 348]. Задача кластерного анализа заключается в нахождении некоторого теоретико-множественного-разбиения (покрытия) исходного множества; объектов на непересекающиеся подмножества кластеры таким образом, чтобы элементы, относимые к одному подмножеству, отличались между собой в значительно меньшей степени, чем элементы из разных подмножеств [136]. Нахождение или выявление кластеров в исходном множестве объектов должно-удовлетворять следующим требованиям: каждый кластер должен представлять собой концептуально однородную категорию и содержать похожие объекты с близкими значениями характеристик (значениями признаков, оценок по критериям); совокупность всех кластеров должна быть исчерпывающей, то есть охватывать все объекты исходного множества; кластеры должны быть взаимноисключающими, то есть ни один из объектов исходного множества не должен одновременно принадлежать двум различным кластерам. Возможность использования различных подходов к формальному определению кластеров послужила поводом для разработки большого числа 97 методов и алгоритмов,кластеризации. М етоды и алгоритмы кластерного анализа могут использоваться как инструмент предварительного или разведочного анализа данных при поисках.закономерностей в больш их наборах многомерных данных [202, 366]. Проблема кластерного анализа1приобретает самостоятельное значение в контексте интеллектуального анализа данны х (Data.M ining). Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но ее отличие состоит в том, что классы изучаемого множества объектов заранее не предопределены. Кластеризация-является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить «структуру данных» [150, 362]. Существуют некоторые негласные различия в терминах «кластеризация» и «поиск структур данных». Понятие «кластеризация» обозначает пространственное разделение таксономичных объектов, то есть учитывает их близость.в координатных плоскостях. П онятие «поиск структур данных» несет в себе большую смысловую нагрузку, обозначая разделение статистических или учетных объектов на основе некоторого количественного или качественного критерия, семантической траектории или скрытого объединяющ его начала, позволяя объединить в кластеры объекты на первый взгляд разнородные и пространственно далекие. Следует отметить, что различаю т задачи кластерного анализа (и соответственно алгоритмы) с заданным количеством кластеров и задачи кластерного анализа с не заданным количеством кластеров. В последнем случае оптимальная кластеризация и число кластеров находятся в результате решения единой задачи. В результате применения различных алгоритмов кластеризации могут быть получены кластеры различной формы. Например, возможны кластеры «цепочечного» типа, кластеры удлиненной формы и т.д. В результате применения различных алгоритмов кластеризации могут быть получены неодинаковые результаты, что является нормальным явлением и объясняется резуль98 |