Проверяемый текст
Ананьев Николай Сергеевич. Методы и средства анализа данных в системах поддержки принятия решений (Диссертация 2005)
[стр. 30]

сложных систем и процессов, описываемых многомерными данными [7].
Прогноз состояния сложной системы (точечное или интервальное), который получают как значение функции
ДX) регрессии (результирующей переменной у) в зависимости от значений объясняющих (предикторных) переменных Х~ х(2),..., х(р))т (р размерность вектора данных) формально (математически) записывается в виде ДХ*) = Е {у/ X = X*).
В большинстве случаев используется классическая линейная модель множественной регрессии, которая представляет собой наиболее простой вариант конкретизации требований к общему виду построения функции
ДА), природе объясняющих переменных (характеристик системы) X и статистических регрессионных остатков в общих уравнениях регрессионной связи у(Х) = ДХ)+е(Х), Ее(А) = 0 [7].
1.4.
Проблемные вопросы обработки и анализа многомерных данных в задачах
ИАД Задачи обработки и анализа многомерных данных при решении задач управления сложными объектами (процессами) в страховом деле, социальноэкономической и образовательной областях принципиально решаются в условиях неопределенности значительного объема исходных данных.
При этом необходимо различать неопределенность в данных, связанную с неполнотой характеристик об условиях жизнедеятельности, определяющих поведение объектов управления (неопределенность I типа), а также неопределенность в реализации мер управляющего воздействия на эти объекты, и условий их существования в перспективе (неопределенность II типа).
Неопределенность I типа снимается проведением исследований (социологических, специальных, направленных на выявление параметров поведения объектов и прогнозирование их развития) на различных (типовых) сценариях и выбором варианта, соответствующего наибольшей
зо
[стр. 27]

анализируя данные характеристики для данного наблюдения, определить, к какому классу это наблюдение ближе всего [24].
Классическим методом классификации является линейный дискриминантный анализ (аналогом которого в эконометрической литературе является логит-регрессия), который разделяет пространство характеристик гиперплоскостью на два класса.
Будут рассмотрены альтернативы, в т.ч.
непараметрические, данному методу, которые позволяют получить границы более сложной конфигурации.
Кластерный анализ.
В отличие от классификации кластерный анализ обеспечивает выявление в данных групп точек (кластеров), явственно отличающихся друг от друга по структуре значений признаков с использованием критериев их близости («подобия»).
Важность решения этой задачи связана с тем, что применение стандартных средств анализа данных (в т.ч.
стандартных эконометрических процедур) при наличии кластеров в данных приведет к смещению как точечных оценок (коэффициентов регрессии), так и стандартных ошибок, а значит, и к неверным статистическим выводам.
Кроме того, структура данных и схожесть наблюдений могут представлять и самостоятельный интерес.
Имеются два основных подхода к поиску кластеров иерархический анализ, результатом которого является построение дендрограммы, описывающей близость отдельных точек и кластеров друг к другу, и неиерархический (композиционный) анализ, в котором число кластеров зафиксировано, и необходимо найти оптимальное разбиение точек по этим кластерам.
Регрессионный анализ Занимает центральное место в математико-статистическом инструментарии решения задач прогнозирования состояния и развития сложных систем и процессов, описываемых многомерными данными [7].
Прогноз состояния сложной системы (точечное или интервальное), который получают как значение функции
ДХ) регрессии (результирующей переменной у) в зависимости от значений объясняющих (предикторных) переменных X (х(), х(2),..., *(р))т (р размерность вектора данных) формально (математически) 27

[стр.,28]

записывается в виде/(Х*) = Е (у/ Х = Х*).
В большинстве случаев используется классическая линейная модель множественной регрессии, которая представляет собой наиболее простой вариант конкретизации требований к общему виду построения функции
/(Л), природе объясняющих переменных (характеристик системы) X и статистических регрессионных остатков в общих уравнениях регрессионной связи у(Х) = /(Х)+е(Х), Ее{Х)в о [7].
1.4.
Проблемные вопросы обработки и анализа многомерных данных в задачах
НАД Задачи обработки и анализа многомерных данных при решении задач управления сложными объектами (процессами) в страховом деле, социальноэкономической и образовательной областях принципиально решаются в условиях неопределенности значительного объема исходных данных.
При этом необходимо различать неопределенность в данных, связанную с неполнотой характеристик об условиях жизнедеятельности, определяющих поведение объектов управления (неопределенность I типа), а также неопределенность в реализации мер управляющего воздействия на эти объекты, и условий их существования в перспективе (неопределенность II типа).
Неопределенность I типа снимается проведением исследований (социологических, специальных, направленных на выявление параметров поведения объектов и прогнозирование их развития) на различных (типовых) сценариях и выбором варианта, соответствующего наибольшей
эффективности управления объектами при различных предположениях о законах распределения параметров, описывающих стохастический характер их поведения.
Соответствующие законы распределения выбираются, как правило, на основе использования принципа максимальной энтропии [53].
Неопределенность II типа снимается заданием интервальных оценок, субъективных вероятностей, восстановлением отсутствующих данных, проведением прогнозных расчетов, результатами натурных экспериментов, моделированием, проведением экспертиз.
При проведении соответствующих 28

[Back]