Проверяемый текст
Ананьев Николай Сергеевич. Методы и средства анализа данных в системах поддержки принятия решений (Диссертация 2005)
[стр. 29]

(например, названия политических партий, к которым относятся члены парламента) известны.
Задача методов классификации во-первых, найти характеристики, наиболее сильно связанные с принадлежностью к данному классу; во-вторых,
анализируя данные характеристики для данного наблюдения, определить, к какому классу это наблюдение ближе всего [24].
Классическим методом классификации является линейный дискриминантный анализ (аналогом которого в эконометрической литературе является логитрегрессия), который разделяет пространство характеристик гиперплоскостью на два класса! Будут рассмотрены альтернативы, в т.ч.
непараметрические, данному методу, которые позволяют получить границы более сложной конфигурации.
Кластерный анализ.
В отличие от классификации кластерный анализ обеспечивает выявление в данных групп точек (кластеров), явственно отличающихся друг от друга по структуре значений признаков с использованием критериев их близости («подобия»).
Важность решения этой задачи связана с тем, что применение стандартных средств анализа данных (в т.ч.
стандартных эконометрических процедур) при наличии кластеров в данных приведет к смещению как точечных оценок (коэффициентов регрессии), так и стандартных ошибок, а значит, и к неверным статистическим выводам.
Кроме того, структура данных и схожесть наблюдений могут представлять и самостоятельный интерес.
Имеются два основных подхода к поиску кластеров иерархический анализ, результатом которого является построение дендрограммы, описывающей близость отдельных точек и кластеров друг к другу, и неиерархический (композиционный) анализ, в котором число кластеров зафиксировано, и необходимо найти оптимальное разбиение точек по этим кластерам.
Регрессионный анализ Занимает центральное место в математико-статистическом инструментарии решения задач прогнозирования состояния и развития
29
[стр. 26]

Основными методами анализа многомерных данных, используемых для НАД, являются следующие.
Метод главных компонент и факторный анализ.
Этот метод используется для наглядного представления (визуализации) исходных данных путем их проецирования на специально подобранное трехмерное пространство, плоскость и числовую прямую, чем одновременно достигается существенное снижение исходного признакового пространства [7].
Главные компоненты (ГК) служат для компактного описания коррелированных данных путем создания наиболее «эффективной», в определенном смысле, линейной комбинации переменных.
ГК несут информацию о существенных свойствах исследуемого объекта, представляя собой своего рода его «резонансный» портрет, определяемый составом и структурой связей его элементов.
Они позволяют визуализировать проекцию многомерных данных в пространстве меньшей размерности (например, на плоскости).
К методу ГК примыкает факторный анализ, целью которого является получение более удачно интерпретируемых комбинаций переменных.
Другие методы снижения размерности и графического анализа Многомерное шкалирование (нахождение пространства наименьшей размерности для многомерных дискретных данных), целенаправленное проецирование (нахождение направлений и проекций данных, отвечающих заданным требованиям и свойствам таким, как построение кривой регрессии с наименьшей среднеквадратической ошибкой или наиболее удачная кластеризация в пространстве проекции); анализ функциональных данных (в которых наблюдением является функция или изображение).
Классификация и дискриминантный анализ.
Классификация данных состоит в выработке правил отнесения точек выборки к одному из классов.
При этом число классов и их «метки» (например, названия политических партий, к которым относятся члены парламента) известны.
Задача методов классификации во-первых, найти характеристики, наиболее сильно связанные с принадлежностью к данному классу; во-вторых,


[стр.,27]

анализируя данные характеристики для данного наблюдения, определить, к какому классу это наблюдение ближе всего [24].
Классическим методом классификации является линейный дискриминантный анализ (аналогом которого в эконометрической литературе является логит-регрессия), который разделяет пространство характеристик гиперплоскостью на два класса.
Будут рассмотрены альтернативы, в т.ч.
непараметрические, данному методу, которые позволяют получить границы более сложной конфигурации.
Кластерный анализ.
В отличие от классификации кластерный анализ обеспечивает выявление в данных групп точек (кластеров), явственно отличающихся друг от друга по структуре значений признаков с использованием критериев их близости («подобия»).
Важность решения этой задачи связана с тем, что применение стандартных средств анализа данных (в т.ч.
стандартных эконометрических процедур) при наличии кластеров в данных приведет к смещению как точечных оценок (коэффициентов регрессии), так и стандартных ошибок, а значит, и к неверным статистическим выводам.
Кроме того, структура данных и схожесть наблюдений могут представлять и самостоятельный интерес.
Имеются два основных подхода к поиску кластеров иерархический анализ, результатом которого является построение дендрограммы, описывающей близость отдельных точек и кластеров друг к другу, и неиерархический (композиционный) анализ, в котором число кластеров зафиксировано, и необходимо найти оптимальное разбиение точек по этим кластерам.
Регрессионный анализ Занимает центральное место в математико-статистическом инструментарии решения задач прогнозирования состояния и развития
сложных систем и процессов, описываемых многомерными данными [7].
Прогноз состояния сложной системы (точечное или интервальное), который получают как значение функции ДХ) регрессии (результирующей переменной у) в зависимости от значений объясняющих (предикторных) переменных X (х(), х(2),..., *(р))т (р размерность вектора данных) формально (математически) 27

[Back]