ным количеством кластеров. В последнем случае оптимальная кластеризация и число кластеров находятся в результате решения единой задачи. В результате применения различных алгоритмов кластеризации могут быть получены неодинаковые результаты, что является нормальным явлением и объясняется результатами работы алгоритма кластеризации. Зная принципы, согласно которым объекты объединяются в один кластер, можно в определенных пределах интерпретировать результаты каждого конкретного алгоритма кластеризации. Решение задачи кластеризации принципиально неоднозначно, так как не существует однозначно наилучшего критерия качества кластеризации. Кластеризация может выполняться для объектов с количественными (числовыми), качественными или смешанными признаками. Классификация и распознавание, являясь наиболее простыми задачами Data Mining, относятся к стратегии «обучение с учителем» [50, 55]. Для решения такого рода задач обучающая выборка должна содержать значения как входных, так и выходных (целевых) переменных. Кластеризация является задачей Data Mining, относящейся к стратегии «обучение без учителя», то есть не требует наличия выходных (целевых) переменных в обучающей выборке. Наиболее известными классическими методами кластеризации являются иерархическая кластеризация и кластеризация с использованием базового алгоритма четких -средних [130, 138]. 1.6.4 Иерархическая кластеризация объектов Иерархические алгоритмы кластеризации, называемые также алгоритмами таксономии, строят не одно разбиение выборки на непересекающиеся классы, а систему вложенных разбиений. Результат таксономии обычно представляется в виде таксономического дерева —дендрограммы [45, 46]. Среди алгоритмов иерархической кластеризации различаются два основных типа: нисходящие (дивизимные) алгоритмы, в которых выборка объектов разбивается на всё более и более мелкие кластеры; восходящие (агло60 |
методов и алгоритмов,кластеризации. М етоды и алгоритмы кластерного анализа могут использоваться как инструмент предварительного или разведочного анализа данных при поисках.закономерностей в больш их наборах многомерных данных [202, 366]. Проблема кластерного анализа1приобретает самостоятельное значение в контексте интеллектуального анализа данны х (Data.M ining). Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но ее отличие состоит в том, что классы изучаемого множества объектов заранее не предопределены. Кластеризация-является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить «структуру данных» [150, 362]. Существуют некоторые негласные различия в терминах «кластеризация» и «поиск структур данных». Понятие «кластеризация» обозначает пространственное разделение таксономичных объектов, то есть учитывает их близость.в координатных плоскостях. П онятие «поиск структур данных» несет в себе большую смысловую нагрузку, обозначая разделение статистических или учетных объектов на основе некоторого количественного или качественного критерия, семантической траектории или скрытого объединяющ его начала, позволяя объединить в кластеры объекты на первый взгляд разнородные и пространственно далекие. Следует отметить, что различаю т задачи кластерного анализа (и соответственно алгоритмы) с заданным количеством кластеров и задачи кластерного анализа с не заданным количеством кластеров. В последнем случае оптимальная кластеризация и число кластеров находятся в результате решения единой задачи. В результате применения различных алгоритмов кластеризации могут быть получены кластеры различной формы. Например, возможны кластеры «цепочечного» типа, кластеры удлиненной формы и т.д. В результате применения различных алгоритмов кластеризации могут быть получены неодинаковые результаты, что является нормальным явлением и объясняется резуль98 татами работы алгоритмакластеризации. Принципы, согласно которым, объекты объединяютсяв один кластер,являются» обычно «внутреннимделом» конкретного алгоритма кластеризации. Зная эти принципы, можно в определенных пределах интерпретировать результаты каждого конкретного; алгоритма кластеризации. Решение задачи кластеризации принципиально неоднозначно, так как Не существует однозначно.'наилучшего критерия качества кластеризации: Известен целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно ргрумную кластеризацию «по построению»: Кластеризация может выполняться; для объектов, с количественными (числовыми), качественными или смешанными признаками:. Классификация-и распознавание, являясь наиболее простыми задачами Data Mining; относятся к стратегии «обучение-с учителем» [ 157]. .Для решения такого рода задач обучающая^ выборка должна содержать значения как входных, так и выходных (целевых) переменных:. Кластеризация является задачей Data Mining, относящейся к стратегии «обучение без-учителя», то^есть не требует наличия выходных (целевых) переменных в обучающей выборке. . . Наиболее известными классическими методами кластеризации являются иерархическая кластеризация и кластеризация с использованием базового алгоритма четких с-средних [136, 202]. 1.8.5 Иерархическая кластеризация Иерархические алгоритмы кластеризации, называемые также алгоритмами таксономии, строят не одно разбиение выборки на непересекающиеся классы, а систему вложенных разбиений. •Результат таксономии обычно представляется в виде таксономического дерева дендрограммы [153, 228]. ' Среди алгоритмов иерархической кластеризации различаются два основных типа::нисходящие (дивизимные) алгоритмы, в которых выборка объектов разбивается на всё более и более мелкие кластеры; восходящие (агло99 |