а ) Х и У коррелированны б) X и Y не коррелированны в ) Х и У линейно зависим ы Рис. 2.4.1. Главные оси двумерных распределений Понятие главных осей относится не только к нормальным распределениям. В общем случае главная ось задается линией, для которой сумма квадратов расстояний до всевозможных точек минимальна. Сравнение метода главных компонент (МГК) с принципом наименьших квадратов [100] поможет объяснить это определение. При нахождении линии регрессии * Л Y =а + Ь-Х У методом наименьших квадратов минимизируется сумма квадратов расстояний между У и Y , т. е. минимизируется ( у г ), где расстояние измеряется по линии, параллельной оси У и перпендикулярной оси Х[100]. При нахождении главной оси минимизируется расстояние от точки до оси (т. е. расстояние по перпендикуляру к главной оси, а не к оси X). Это отличие показано на рис. 2.4.1а и 2.4.1в. Поскольку первая компонента определена таким образом, что основная доля информации содержится именно в ней (дисперсия в направлении этой компоненты максимальна), вторая компонента определяется аналогичным образом при условии, что ее ось перпендикулярна первой. Следовательно, в двумерном случае после фиксирования первой компоненты вторая становится известна автоматически. Если У не |
79 ложенных вдоль выбранной главной оси. Например, точка с единичными значениями X и Y будет иметь координату, большую 1 по оси П 1 и меньшую 1 по оси П2 . Если мы описываем каждую точку в терминах ГГ] и Пг (в новой системе координат), потери информации не произойдет. Тем не менее, можно сказать, что первая ось (и первая компонента) является более информативной в описании точек, так как связь между X и Y становится сильнее. В том случае, когда X и Y связаны линейной зависимостью (рис. 2.4.1в), первая главная компонента будет содержать всю информацию, необходимую для описания каждой точки. Если X и Y независимы (рис. 2.4.16), то главная ось отсутствует, и анализ главных компонент не способствует даже мииимальному сокращению (сжатию) результатов наблюдений [104]. Понятие главных осей относится не только к нормальным распределениям. В общем случае главная ось задается линией, для которой сумма квадратов расстояний до всевозможных точек мигшмалы-и. Сравнение метода главных компонент (МГК) с принципом наименьших квадратов [104]поможет объяснить это определение. При нахождении линии регрессии Y = a + b X ^ методом наименьших квадратов минимизируется сумма ( Л квадратов расстояний между Y и У , т. е. минимизируется \Y —Y , где расстояние измеряется по линии, параллельной оси Y и перпендикулярной оси X . При нахождении главной оси минимизируется расстояние от точки до оси (т. е. расстояние по перпендикуляру к главной оси, а не к оси X). Это отличие показано на рис.2.4.2а и 2.4.26. Поскольку первая компонента определена таким образом, что основная доля информации содержится именно в ней (дисперсия в направлении этой компоненты максимальна), вторая компонента определяется аналогичным образом при условии, что ее ось перпендикулярна первой. Следовательно, в |