2) определение множества переменных, по которым будут оцениваться объекты в выборке; 3) вычисление значений меры сходства между объектами; 4) применение метода кластерного анализа для создания групп сходных объектов; 5) проверка достоверности результатов кластерного решения. Результаты кластерного анализа во многом определяются выбором переменных, характеризующих п-мерный вектор наблюдений. Основная проблема в том, чтобы найти ту совокупность переменных, которая наилучшим образом отражает понятие сходства. Здесь в первую очередь необходимо учитывать теоретические положения, лежащие в основе классификации. В отличие от регрессионного или факторного анализа, кластерные методы являются «объективными» в том смысле, что эти методы специально предназначены для выявления внутренней структуры данных при фиксированном наборе переменных и их взаимоотношениях (относительная весомость и т.п.). Поэтому «отбор» переменных подобно тому, как это осуществляется в регрессионном анализе, исключен. В большинстве видов статистического анализа исходные данные подвергают нормировке преобразованию к нулевому среднему и единичной дисперсии (г-преобразование). Но в кластерном анализе подобная нормировка может привести к уменьшению различия между группами по тем переменным, по которым наилучшим образом, вследствие большей дисперсии, обнаруживается групповые различия. Поскольку нормировка необходима, если используются метрические меры различия объектов, это обстоятельство следует иметь в виду. Возможны и другие виды преобразования исходных данных. Так, в случае коррелированных исходных переменных имеется возможность перехода к главным факторам, выделяемых методом главных компонент как одним из методов факторного анализа. При этом можно избежать усиления 55 |
в общем случае применение методов кластерного анализа предполагает следующие основные этапы статистических исследований: 1 ) отбор вы борки для кластеризации; 2 ) определение множества переменных, по которым будут оцениваться объекты в выборке; 3) вычисление значений той или иной меры сходства между объектами; 4) применение метода кластерного анализа для создания групп сходных объектов; 5) проверка достоверности результатов кластерного решения. Результаты кластерного анализа во многом определяются выбором переменных, характеризующ их и-мерный вектор наблюдений. Основная проблема в том, чтобы найти ту совокупность переменных, которая наилучш им образом отражает понятие сходства. Здесь в первую очередь необходимо учиты вать теоретические положения, лежащие в основе классификации. В отличие от регрессионного или факторного анализа, кластерные методы являются «объективными» в том смысле, что эти методы специально предназначены для выявления внутренней структуры данных при фиксированном наборе переменных и их взаимоотношениях (относительная весомость и т.п.). П оэтому «отбор» переменных, подобно тому, как это осуществляется в регрессионном анализе, принципиально исключен. В большинстве видов статистического анализа исходные данные подвергают нормировке преобразованию к нулевому среднему и единичной дисперсии. Однако в кластерном анализе подобная нормировка (zпреобразование) может привести к уменьш ению различия между группам и по тем переменным, по которым наилучш им образом, вследствие большей дисперсии, обнаруживается групповые различия. П оскольку нормировка не66 обходима, если используются метрические меры различия объектов (расстояния), то это обстоятельство следует иметь в виду. Возможны и другие виды преобразования исходны х данных. Так, в случае коррелированных исходных переменных можно перейти к главным факторам, выделяемых методом главных ком понент ка к одним из методов факторного анализа. П ри этом можно избежать естественного взвешивания сильно коррелированных переменных (если две компоненты вектора наблюдений сильно коррелируют, то и х совместное действие эквивалентно действию одной компоненты с удвоенным весом). Д ругим результатом такого преобразования может быть уменьшение размерности преобразованных данны х, что в случае двух или трех измерений обеспечивает наглядность представления состава ютастеров. Возможно также взвешивание переменных. Взвешивание применяют если для этого имеется хорошее теоретическое обоснование и известна процедура определения весов. В частности, определение весов можно проводить путем опросов экспертов; эффективным является применение для этой цели метода Саати (метода обратносимметрических матриц) с последующей математической обработкой матриц парны х сравнений, отражаюш;их суждения группы экспертов, Важнейш им этапом выбора кластерного решения является определение числа кластеров группы элементов, характеризуемых каким -то общим свойством. Д о настоящего времени не разработано математически обоснованного способа определения числа кластеров как важнейшей составляющей кластерной структуры , поэтому исследователь должен решать эту задачу исходя из априорньБС установок и собственных предположений. Тем не меиее, сущ ествуют некоторые рекомендации, помогающ ие установить разумное число кластеров. Среди них следующие эвристические процедуры; визуальный анализ дендрограммы; сравнение результатов кластеризации, выполнен67 |