Проверяемый текст
Подрезов, Павел Николаевич; Развитие методов оценки инвестиционной привлекательности промышленного предприятия на основе многофакторных эконометрических моделей (Диссертация, 30 мая 2008)
[стр. 54]

минах этих расстояний.
Мер близости и расстояний между объектами существует великое множество.
Их выбирают в зависимости от цели исследования.
В частности, простое или квадратичное евклидово расстояние лучше использовать для количественных переменных, имеется множество мер для бинарных переменных.

Кластерный анализ является описательной процедурой, он не позволяет сделать никаких статистических выводов, но дает возможность провести своеобразную разведку изучить «структуру совокупности».
Методов кластерного анализа много, но наиболее часто используют процедура иерархического кластерного анализа.
Этот метод реализует иерархический агломеративный
алгоритм.
Его смысл заключается в следующем.
Перед началом кластеризации все п объектов считаются отдельными кластерами, которые в ходе алгоритма объединяются.
Вначале выбирается пара ближайших кластеров, которые объединяются в один кластер.
В результате количество кластеров становится равным
л-1.
Процедура повторяется, пока все классы не объединятся.
На любом этапе объединение можно прервать, получив нужное число кластеров.
Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объектами и определения близости между кластерами.
Процесс агрегирования данных может быть представлен графически деревом объединения кластеров —дендрограммой.

Как правило, кластерный анализ используется для создания классификаций, но в большинстве случаев используется комбинация вышеназванных задач.
С другой стороны, кластерный анализ —многоэтапное исследование, причем каждый этап играет существенную роль в прикладном анализе данных.

В общем случае применение методов кластерного анализа предполагает следующие основные этапы статистических исследований: 1) отбор выборки для кластеризации;
54
[стр. 64]

читься первыми двумя или тремя скрытыми факторами (и х также часто называют главными факторами), а остальными пренебречь ка к малоинформитивными.
Тогда удается представить исходные признаки на плоскости или в трехмерном пространстве, образуемом найденными главными факторами; в этом же пространстве удается представить и статистические объекты, образующ ие исследуемую выборку.
К а к отмечалось выше, факторный анализ позволяет выявить структуру показателей, описываю щ их исследуемую выборку.
П оскольку факторный анализ предполагает различные операции с корреляционной или ковариационной матрицей, в нем, как и в регрессионном анализе, предъявляются жесткие требования к исходным показателям они должны быть количественными и распределены по закону, близкому к нормальному.
Менее жесткие требования к исходным показателям предъявляются в кластерном анализе.
В отличие от процедуры ф акторного анализа, «сжимающей» в малое число количественных переменных данные, описанные количественными переменными, кластерный анализ сжимает данные в классификацию объектов (синонимами термина «кластерный анализ» являются «автоматическая классификация объектов без учителя» и «таксономия»).
Если данные интерпретировать как точки в признаковом пространстве, то задача кластерного анализа формулируется ка к выделение «сгущ ений точек», разбиение совокупности на однородные подмножества объектов.
П ри проведении кластерного анализа обычно определяют расстояние на множестве объектов; алгоритмы кластерного анализа ф ормулируют в терминах этих расстояний.
М ер близости и расстояний между объектами существует великое множество.
И х выбирают в зависимости от цели исследования.
В частности, простое или квадратичное евклидово расстояние лучш е использовать для количественных переменных, имеется множество мер для бинарных переменных.

64

[стр.,65]

Кластерный анализ является описательной процедурой, он не позволяет сделать никаких статистических выводов, но дает возможность провести своеобразную разведку изучить «структуру совокупности».
М етодов кластерного анализа много, но наиболее часто используют процедура иерархического кластерного анализа.
Э тот метод реализует иерархический агломеративный
алгори™ .
Е го смысл заключается в следующем.
Перед началом кластеризации все п объектов считаю тся отдельными кластерами, которые в ходе алгоритма объединяются.
Вначале выбирается пара ближайших кластеров, которые объединяются в один кластер.
В результате количество кластеров становится равным
п \.
Процедура повторяется, пока все классы не объединятся.
Н а любом этапе объединение можно прервать, получив нужное число кластеров.
Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объектами и определения близости между кластерами.
Процесс агрегирования данных может быть представлен графически деревом объединения кластеров дендрограммой.

Различные приложения кластерного анализа м ожно свести к следующим основным задачам: 1 ) разработка типологии или классификации; 2 ) исследование полезных концептуальных схем группирования объектов; 3) разработка гипотез на основе исследования структуры данных; 4) проверка гипотез с целью определения, действительно ли априорно выделенные исследователем группы присутствую т в данной выборке.
К а к правило, кластерный анализ используется для создания классификаций, но в большинстве случаев используется комбинация вышеназванных задач.
С другой стороны, кластерный анализ — многоэтапное исследование, причем кажды й этап играет сущ ественную роль в прикладном анализе данных.

65

[стр.,66]

в общем случае применение методов кластерного анализа предполагает следующие основные этапы статистических исследований: 1 ) отбор вы борки для кластеризации; 2 ) определение множества переменных, по которым будут оцениваться объекты в выборке; 3) вычисление значений той или иной меры сходства между объектами; 4) применение метода кластерного анализа для создания групп сходных объектов; 5) проверка достоверности результатов кластерного решения.
Результаты кластерного анализа во многом определяются выбором переменных, характеризующ их и-мерный вектор наблюдений.
Основная проблема в том, чтобы найти ту совокупность переменных, которая наилучш им образом отражает понятие сходства.
Здесь в первую очередь необходимо учиты вать теоретические положения, лежащие в основе классификации.
В отличие от регрессионного или факторного анализа, кластерные методы являются «объективными» в том смысле, что эти методы специально предназначены для выявления внутренней структуры данных при фиксированном наборе переменных и их взаимоотношениях (относительная весомость и т.п.).
П оэтому «отбор» переменных, подобно тому, как это осуществляется в регрессионном анализе, принципиально исключен.
В большинстве видов статистического анализа исходные данные подвергают нормировке преобразованию к нулевому среднему и единичной дисперсии.
Однако в кластерном анализе подобная нормировка (zпреобразование) может привести к уменьш ению различия между группам и по тем переменным, по которым наилучш им образом, вследствие большей дисперсии, обнаруживается групповые различия.
П оскольку нормировка не66

[Back]