89 где xj —значение 1-ого признака у /-ого объекта; х. вектор-столбец значений всех признаков на /-ом объекте; р0 общее число совпадающих значений свойств (нулевых и единичных, где 1 —наличие свойства, 0 —отсутствие); п" число совпадающих единичных свойств; п 'число единичных значений свойств; d9= 1, если j*/ £ еп и 0 в любом другом случае. Матрица расстояний или близости нередко задается непосредственно: либо как таблица экспертных оценок близости, либо как матрица прямых измерений сходства: межотраслевого баланса, степеней соседства географических регионов, взаимной цитируемости авторов и т. д. В таких случаях все поставленные выше проблемы адекватности расстояний и выбора мер сходства снимаются. В настоящее время существует огромное количество алгоритмов кластер-анализа. Они отражают разнообразие не только вычислительных приемов, но и концепций, стоящих за ними. Наиболее естественный путь нахождения образов заключается в том, что дается точное определение образа и отыскивается скопление точек, обладающее соответствующими свойствами. Например, образ (кластер) можно определить как такое скопление точек, в котором среднее межточечное расстояние меньше среднего расстояния от данных точек до остальных. Поэтому будем считать, что основой первого направления решения задачи структурной классификации является формулировка понятия кластера и разбиение совокупности на части, каждая из которых представляет собой кластер в данном смысле. Такой подход часто называется эвристическим. Однако многие свойства этих процедур изучены достаточно хорошо, а некоторые из алгоритмов находят локальный экстремум определенному функционалу. Поэтому назовем группу алгоритмов, ориентированных на выделение кластеров с заранее заданными свойствами, процедурами прямой классификации [34, 67]. |
92 где xj значение 1-ого признака у /-ого объекта; х, вектор-столбец значений всех признаков на /-ом объекте; р ч общее число совпадающих значений свойств (нулевых и единичных, где 1 наличие свойства. Оотсутствие); п" число совпадающих единичных свойств; я' число единичных значений свойств; dj = 1, если .v' х\\ <£,, и 0 в любом другом случае. Матрица расстояний или близости нередко задается непосредственно: либо как таблица экспертных оценок близости, либо как матрица прямых измерений сходства: межотраслевого баланса, степеней соседства географических регионов, взаимной цитируемости авторов и т. д. В таких случаях все поставленные выше проблемы адекватности расстояний и выбора мер сходства снимаются. В настоящее время существует oipoMHoe количество алгоритмов кластер-анализа. Они отражают разнообразие не только вычислительных приемов, но и концепций, стоящих за ними. Наиболее естественный путь нахождения образов'заключается в том, что дается точное определение образа и отыскивается скопление точек, обладающее соответствующими свойствами. Например, образ (кластер) можно определить как такое скопление точек, в котором среднее межточечное расстояние меньше среднего расстояния от данных точек до остальных. Поэтому будем считать, что основой первого направления решения задачи структурной классификации является формулировка понятия кластера и разбиение совокупности на части, каждая из которых представляет собой кластер в данном смысле. Такой подход часто называется эвристическим. Однако многие свойства этих процедур изучены достаточно хорошо, а некоторые из алгоритмов находят локальный экстремум определенному функционалу. Поэтому назовем группу алгоритмов, ориентированных на выделение кластеров с заранее заданными свойствами, процедурами прямой классификации [38, 66]. |