Один из наиболее распространенных методов поиска скрытых факторов метод главных компонент, состоящий в последовательном их поиске. Вначале ищется первый фактор, который объясняет наибольшую часть дисперсии, затем независимый от него второй фактор, объясняющий наибольшую часть оставшейся дисперсии, и т.д. Главных компонент столько же, сколько исходных признаков. Но практически бывает достаточно ограничиться первыми двумя или тремя скрытыми факторами (их также часто называют главными факторами), а остальными пренебречь как малоинформитивными. Тогда удается представить исходные признаки на плоскости или в трехмерном пространстве, образуемом найденными главными факторами; в этом же пространстве удается представить и статистические объекты, образующие исследуемую выборку. Таким образом, факторный анализ позволяет выявить структуру показателей, описывающих исследуемую выборку. Поскольку факторный анализ предполагает различные операции с корреляционной или ковариационной матрицей, в нем, как и в регрессионном анализе, предъявляются жесткие требования к исходным показателям —они должны быть количественными и распределены по закону, близкому к нормальному. Менее жесткие требования к исходным показателям предъявляются в кластерном анализе. В отличие от процедуры факторного анализа, «сжимающей» в малое число количественных переменных данные, описанные количественными переменными, кластерный анализ сжимает данные в классификацию объектов (синонимами термина «кластерный анализ» являются «автоматическая классификация объектов без учителя» и «таксономия»). Если данные интерпретировать как точки в признаковом пространстве, то задача кластерного анализа формулируется как выделение «сгущений точек», разбиение совокупности на однородные подмножества объектов. При проведении кластерного анализа обычно определяют расстояние на множестве объектов; алгоритмы кластерного анализа формулируют в тер53 |
от нормального необходимо подобрать симметризующее его преобразование. Так, в случае распределения переменных с правосторонней асимметрией, что характерно для м ногих социально-экономических показателей, часто применяется логарифмическое преобразование. В заключение раздела остановимся на факторном и кластерном анализах. Оба метода являются методами многомерного статистического анализа, т.е. позволяют на основе теории статистических выводов распространять результаты анализа, выполненного по ограниченному числу выборочных исследований, на более ш ирокий кр у г объектов (генеральную совокупность). В отличие от одномерного подхода, в основе многомерных статистических методов лежит принцип одновременного анализа всех факторов (независимых переменных), определяющих процесс или явление, в их взаимосвязи д руг с другом и с интересующ ей исследователя зависимой переменной. Ф акторны й анализ является мощ ным методом снижения размерности исходной информации и ш ироко применяется в тех случаях, когда сильны взаимосвязи между группам и факторов, описываю щ их явление или процесс. Идея ф акторного анализа состоит в сжатии матрицы признаков в матрицу с меньшим числом переменных, сохраняющ ую почти ту же самую информацию, что и исходная матрица. В основе моделей ф акторного анализа лежит гипотеза, что наблюдаемые переменные являются косвенными проявлениями небольшого числа скры ты х (латентных) факторов; обычно под моделью факторного анализа понимаю т представление исходны х переменных в виде линейной комбинации факторов. О дин из наиболее распространенных методов поиска скры ты х факторов метод главных компонент, состоящ ий в последовательном их поиске. Вначале ищется первый фактор, который объясняет наибольш ую часть дисперсии, затем независимый от него второй фактор, объясняющий наибольш ую часть оставшейся дисперсии, и т.д. Главны х компонент столько же, сколько исходных признаков. Но практически бывает достаточно ограни63 читься первыми двумя или тремя скрытыми факторами (и х также часто называют главными факторами), а остальными пренебречь ка к малоинформитивными. Тогда удается представить исходные признаки на плоскости или в трехмерном пространстве, образуемом найденными главными факторами; в этом же пространстве удается представить и статистические объекты, образующ ие исследуемую выборку. К а к отмечалось выше, факторный анализ позволяет выявить структуру показателей, описываю щ их исследуемую выборку. П оскольку факторный анализ предполагает различные операции с корреляционной или ковариационной матрицей, в нем, как и в регрессионном анализе, предъявляются жесткие требования к исходным показателям они должны быть количественными и распределены по закону, близкому к нормальному. Менее жесткие требования к исходным показателям предъявляются в кластерном анализе. В отличие от процедуры ф акторного анализа, «сжимающей» в малое число количественных переменных данные, описанные количественными переменными, кластерный анализ сжимает данные в классификацию объектов (синонимами термина «кластерный анализ» являются «автоматическая классификация объектов без учителя» и «таксономия»). Если данные интерпретировать как точки в признаковом пространстве, то задача кластерного анализа формулируется ка к выделение «сгущ ений точек», разбиение совокупности на однородные подмножества объектов. П ри проведении кластерного анализа обычно определяют расстояние на множестве объектов; алгоритмы кластерного анализа ф ормулируют в терминах этих расстояний. М ер близости и расстояний между объектами существует великое множество. И х выбирают в зависимости от цели исследования. В частности, простое или квадратичное евклидово расстояние лучш е использовать для количественных переменных, имеется множество мер для бинарных переменных. 64 |