Важной разновидностью множественного линейного регрессионного анализа является дискриминантный анализ. Дискриминантный анализ используется, во-первых, для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы), во-вторых, для решения задачи классификации. Например, можно из выборки промышленных предприятий выделить совокупности более и менее интенсивно развивающиеся предприятия (эти выборки носят названия обучающими, а сам дискриминантный анализ —классификация «с учителем»). Основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему какой-либо переменной (или линейной комбинации переменных), и затем использовать эту переменную, чтобы предсказать для новых членов их принадлежность к той или иной группе. В случае двух групп модель дискриминантного анализа формально идентична модели множественного линейного регрессионного анализа (1.8). Отличие в том, что результирующая переменная принимает всего лишь два значения, например, 1 и 2. Такая модель может быть записана в виде уравнения Группа = Ро + р1*1 + 02*2 + ■ •■+ РяЛ» + Б(1 -9) Модель (1.9) носит название линейной дискриминантной функции Фишера; по ее величине можно определить, к какой совокупности принадлежит конкретное неклассифицированное ранее промышленное предприятие (в рассматриваемом нами случае) и с какой вероятностью. В регрессионном и дискриминантном анализах к переменным, включаемым в модели, предъявляются довольно жесткие требования они должны быть, во-первых, количественными, во-вторых, их распределения не должны сильно отличаться от нормального, описываемого законом Гаусса. Исключение составляют лишь так называемые «фиктивные» переменные, которые принимают лишь два значения; введение таких переменных позволяет 51 |
Коэффициенты интеркорреляции, т.е. корреляции между объясняющими переменными, позволяют исключать из модели дублирующ ие факторы. Считается, что две переменные явно коллинеарные (находятся между собой в линейной зависимости), если коэффициент интеркорреляции больше или равен 0,7. Если факторы явно коллинеарные, то они дублирую т д руг друга и один из них рекомендуется исклю чить из уравнения регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому, которы й при достаточно тесной связи с результатом имеет наименьш ую тесноту связи с другим и факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости д руг от друга. Отбор факторов, включаемых в регрессию, является одним из важнейш их этапов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции м огут быть разными. Они приводят построение уравнения множественной регрессии к разным методикам. В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм ее решения на Э ВМ . Наиболее ш ирокое применение получили следующие методы построения уравнения множественной регрессии: метод исклю чения; метод вклю чения; ш аговый регрессионный анализ. Каж ды й из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты отсев факторов из полного его набора (метод исклю чения), дополнительное введение факторов (метод вклю чения), исключение ранее введенного фактора (ш аговы й регрессионный анализ). Вал<ной разновидностью множественного линейного регрессионного анализа является дискриминантны й анализ. Д искрим инантны й анализ используется, во-первых, для принятия решения о том, какие переменные различают (дискриминирую т) две или более возникающ ие совокупности (группы ), во-вторых, для решения задачи классиф икации. Например, можно из 61 выборки промыш ленных предприятий выделить совокупности более и менее интенсивно развивающиеся предприятия (эти вы борки носят названия обучающими, а сам дискриминантный анализ классификация «с учителем»). Основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему какой-либо переменной (или линейной комбинации переменных), и затем использовать эту переменную, чтобы предсказать для новы х членов их принадлежность к той или иной группе. В случае двух групп модель дискриминантного анализа формально идентична модели множественного линейного регрессионного анализа (1.15). Отличие в том, что результирующая переменная принимает всего лиш ь два значения, например, 1 и 2. Такая модель может быть записана в виде уравнения Г р у п п а + PiX + + •••+ Рт^/« + е. (1-16) Модель (1.16) носит название линейной дискриминантной ф ункции Фишера; по ее величине можно определить, к какой совокупности принадлежит конкретное неклассифицированное ранее промышленное предприятие (в рассматриваемом нами слз^ае) и с какой вероятностью. В регрессионном и дискриминантном анализах к переменным, вклю чаемым в модели, предъявляются довольно жесткие требования —они должны быть, во-первых, количественными, во-вторы х, их распределения не должны сильно отличаться от нормального, описываемого законом Гаусса, Исключение составляют лиш ь так называемые «ф иктивные» переменные, ко торые принимаю т лиш ь два значения; введение таких переменных позволяет учитывать качественные признаки (пример —наличие или отсутствие лифта в модели стоимости квартир). В этой связи, неотъемлемым этапом построения эконометрической модели является проверка эм пирических распределений включаемых в нее переменных на отклонение от нормального закона. В случае сильного отклонения распределения входной или выходной переменной 62 |