сложных систем и процессов, описываемых многомерными данными [7]. Прогноз состояния сложной системы (точечное или интервальное), который получают как значение функции ДX) регрессии (результирующей переменной у) в зависимости от значений объясняющих (предикторных) переменных Х~ х(2),..., х(р))т (р размерность вектора данных) формально (математически) записывается в виде ДХ*) = Е {у/ X = X*). В большинстве случаев используется классическая линейная модель множественной регрессии, которая представляет собой наиболее простой вариант конкретизации требований к общему виду построения функции ДА), природе объясняющих переменных (характеристик системы) X и статистических регрессионных остатков в общих уравнениях регрессионной связи у(Х) = ДХ)+е(Х), Ее(А) = 0 [7]. 1.4. Проблемные вопросы обработки и анализа многомерных данных в задачах ИАД Задачи обработки и анализа многомерных данных при решении задач управления сложными объектами (процессами) в страховом деле, социальноэкономической и образовательной областях принципиально решаются в условиях неопределенности значительного объема исходных данных. При этом необходимо различать неопределенность в данных, связанную с неполнотой характеристик об условиях жизнедеятельности, определяющих поведение объектов управления (неопределенность I типа), а также неопределенность в реализации мер управляющего воздействия на эти объекты, и условий их существования в перспективе (неопределенность II типа). Неопределенность I типа снимается проведением исследований (социологических, специальных, направленных на выявление параметров поведения объектов и прогнозирование их развития) на различных (типовых) сценариях и выбором варианта, соответствующего наибольшей зо |
анализируя данные характеристики для данного наблюдения, определить, к какому классу это наблюдение ближе всего [24]. Классическим методом классификации является линейный дискриминантный анализ (аналогом которого в эконометрической литературе является логит-регрессия), который разделяет пространство характеристик гиперплоскостью на два класса. Будут рассмотрены альтернативы, в т.ч. непараметрические, данному методу, которые позволяют получить границы более сложной конфигурации. Кластерный анализ. В отличие от классификации кластерный анализ обеспечивает выявление в данных групп точек (кластеров), явственно отличающихся друг от друга по структуре значений признаков с использованием критериев их близости («подобия»). Важность решения этой задачи связана с тем, что применение стандартных средств анализа данных (в т.ч. стандартных эконометрических процедур) при наличии кластеров в данных приведет к смещению как точечных оценок (коэффициентов регрессии), так и стандартных ошибок, а значит, и к неверным статистическим выводам. Кроме того, структура данных и схожесть наблюдений могут представлять и самостоятельный интерес. Имеются два основных подхода к поиску кластеров иерархический анализ, результатом которого является построение дендрограммы, описывающей близость отдельных точек и кластеров друг к другу, и неиерархический (композиционный) анализ, в котором число кластеров зафиксировано, и необходимо найти оптимальное разбиение точек по этим кластерам. Регрессионный анализ Занимает центральное место в математико-статистическом инструментарии решения задач прогнозирования состояния и развития сложных систем и процессов, описываемых многомерными данными [7]. Прогноз состояния сложной системы (точечное или интервальное), который получают как значение функции ДХ) регрессии (результирующей переменной у) в зависимости от значений объясняющих (предикторных) переменных X (х(), х(2),..., *(р))т (р размерность вектора данных) формально (математически) 27 записывается в виде/(Х*) = Е (у/ Х = Х*). В большинстве случаев используется классическая линейная модель множественной регрессии, которая представляет собой наиболее простой вариант конкретизации требований к общему виду построения функции /(Л), природе объясняющих переменных (характеристик системы) X и статистических регрессионных остатков в общих уравнениях регрессионной связи у(Х) = /(Х)+е(Х), Ее{Х)в о [7]. 1.4. Проблемные вопросы обработки и анализа многомерных данных в задачах НАД Задачи обработки и анализа многомерных данных при решении задач управления сложными объектами (процессами) в страховом деле, социальноэкономической и образовательной областях принципиально решаются в условиях неопределенности значительного объема исходных данных. При этом необходимо различать неопределенность в данных, связанную с неполнотой характеристик об условиях жизнедеятельности, определяющих поведение объектов управления (неопределенность I типа), а также неопределенность в реализации мер управляющего воздействия на эти объекты, и условий их существования в перспективе (неопределенность II типа). Неопределенность I типа снимается проведением исследований (социологических, специальных, направленных на выявление параметров поведения объектов и прогнозирование их развития) на различных (типовых) сценариях и выбором варианта, соответствующего наибольшей эффективности управления объектами при различных предположениях о законах распределения параметров, описывающих стохастический характер их поведения. Соответствующие законы распределения выбираются, как правило, на основе использования принципа максимальной энтропии [53]. Неопределенность II типа снимается заданием интервальных оценок, субъективных вероятностей, восстановлением отсутствующих данных, проведением прогнозных расчетов, результатами натурных экспериментов, моделированием, проведением экспертиз. При проведении соответствующих 28 |