(например, названия политических партий, к которым относятся члены парламента) известны. Задача методов классификации во-первых, найти характеристики, наиболее сильно связанные с принадлежностью к данному классу; во-вторых, анализируя данные характеристики для данного наблюдения, определить, к какому классу это наблюдение ближе всего [24]. Классическим методом классификации является линейный дискриминантный анализ (аналогом которого в эконометрической литературе является логитрегрессия), который разделяет пространство характеристик гиперплоскостью на два класса! Будут рассмотрены альтернативы, в т.ч. непараметрические, данному методу, которые позволяют получить границы более сложной конфигурации. Кластерный анализ. В отличие от классификации кластерный анализ обеспечивает выявление в данных групп точек (кластеров), явственно отличающихся друг от друга по структуре значений признаков с использованием критериев их близости («подобия»). Важность решения этой задачи связана с тем, что применение стандартных средств анализа данных (в т.ч. стандартных эконометрических процедур) при наличии кластеров в данных приведет к смещению как точечных оценок (коэффициентов регрессии), так и стандартных ошибок, а значит, и к неверным статистическим выводам. Кроме того, структура данных и схожесть наблюдений могут представлять и самостоятельный интерес. Имеются два основных подхода к поиску кластеров иерархический анализ, результатом которого является построение дендрограммы, описывающей близость отдельных точек и кластеров друг к другу, и неиерархический (композиционный) анализ, в котором число кластеров зафиксировано, и необходимо найти оптимальное разбиение точек по этим кластерам. Регрессионный анализ Занимает центральное место в математико-статистическом инструментарии решения задач прогнозирования состояния и развития 29 |
Основными методами анализа многомерных данных, используемых для НАД, являются следующие. Метод главных компонент и факторный анализ. Этот метод используется для наглядного представления (визуализации) исходных данных путем их проецирования на специально подобранное трехмерное пространство, плоскость и числовую прямую, чем одновременно достигается существенное снижение исходного признакового пространства [7]. Главные компоненты (ГК) служат для компактного описания коррелированных данных путем создания наиболее «эффективной», в определенном смысле, линейной комбинации переменных. ГК несут информацию о существенных свойствах исследуемого объекта, представляя собой своего рода его «резонансный» портрет, определяемый составом и структурой связей его элементов. Они позволяют визуализировать проекцию многомерных данных в пространстве меньшей размерности (например, на плоскости). К методу ГК примыкает факторный анализ, целью которого является получение более удачно интерпретируемых комбинаций переменных. Другие методы снижения размерности и графического анализа Многомерное шкалирование (нахождение пространства наименьшей размерности для многомерных дискретных данных), целенаправленное проецирование (нахождение направлений и проекций данных, отвечающих заданным требованиям и свойствам таким, как построение кривой регрессии с наименьшей среднеквадратической ошибкой или наиболее удачная кластеризация в пространстве проекции); анализ функциональных данных (в которых наблюдением является функция или изображение). Классификация и дискриминантный анализ. Классификация данных состоит в выработке правил отнесения точек выборки к одному из классов. При этом число классов и их «метки» (например, названия политических партий, к которым относятся члены парламента) известны. Задача методов классификации во-первых, найти характеристики, наиболее сильно связанные с принадлежностью к данному классу; во-вторых, анализируя данные характеристики для данного наблюдения, определить, к какому классу это наблюдение ближе всего [24]. Классическим методом классификации является линейный дискриминантный анализ (аналогом которого в эконометрической литературе является логит-регрессия), который разделяет пространство характеристик гиперплоскостью на два класса. Будут рассмотрены альтернативы, в т.ч. непараметрические, данному методу, которые позволяют получить границы более сложной конфигурации. Кластерный анализ. В отличие от классификации кластерный анализ обеспечивает выявление в данных групп точек (кластеров), явственно отличающихся друг от друга по структуре значений признаков с использованием критериев их близости («подобия»). Важность решения этой задачи связана с тем, что применение стандартных средств анализа данных (в т.ч. стандартных эконометрических процедур) при наличии кластеров в данных приведет к смещению как точечных оценок (коэффициентов регрессии), так и стандартных ошибок, а значит, и к неверным статистическим выводам. Кроме того, структура данных и схожесть наблюдений могут представлять и самостоятельный интерес. Имеются два основных подхода к поиску кластеров иерархический анализ, результатом которого является построение дендрограммы, описывающей близость отдельных точек и кластеров друг к другу, и неиерархический (композиционный) анализ, в котором число кластеров зафиксировано, и необходимо найти оптимальное разбиение точек по этим кластерам. Регрессионный анализ Занимает центральное место в математико-статистическом инструментарии решения задач прогнозирования состояния и развития сложных систем и процессов, описываемых многомерными данными [7]. Прогноз состояния сложной системы (точечное или интервальное), который получают как значение функции ДХ) регрессии (результирующей переменной у) в зависимости от значений объясняющих (предикторных) переменных X (х(), х(2),..., *(р))т (р размерность вектора данных) формально (математически) 27 |