74 используемого способа выделения. Необходимо отметить, что в данном случае процедура идентификации класса заранее пе проводится. Под идентификацией в данном случае понимаем, определение решающих правил, на основании которых производится отнесение объекта к определенному классу, согласно определению данному А.В.Андрейчиковым, О.П.Андрейчиковой [5]. Границы классов будут определены в процессе проведения кластеризации. Согласно существующей в настоящий момент группировке по типу используемой информации, все задачи классификации можно подразделить на задачи классификации «с учителем» и «без учителя». А.В.Лапко [71] дополнительно в отдельный класс выделяет задачи с «неидеальным учителем», возникающие в случае, когда указания «учителя» неточны, иными словами классификация производится при нечетко заданных условиях. Подробный анализ существующих алгоритмов кластеризации приведен в работах [47, 79, 102, 111]. В силу необходимости снижения субъективности в процессе осуществления кластеризации, иа наш взгляд, представляется рациональным в качестве основы использовать один из существующих методов «классификации без учителя», использующий закономерности, содержащиеся в самих исходных данных. Пстественно, применение данного метода обосновано только при наличии достаточного объема данных, в противном случае, необходимо использование либо эвристических процедур корректировки результата кластеризации, так называемый метод «неидеального учителя», или использовать процедуры искусственного дополнения имеющихся данных «идеальными объектами». Необходимо отмстить, что в ряде случаев, как указывает Г.С.Лбов [73], для наилучшего описания групп объектов требуется свое подмножество признаков для каждой группы. Этот подход позволяет минимизировать затраты на получение необходимой для осуществления кластеризации информации, в то же время возникает проблема выбора методики отбора признаков, на основании которых осуществляется кластеризация для каждого конкретного класса. |
ной связи между группами, в предположении, что связь между параметрами одной группа велика, а параметрами из разных групп мала. Данный метод является, в большей мере эвристическим в силу необходимости задания внешнего, по o t h o u e нию к имеющимся данным, порогового уровня корреляционной связи для отнесения Л признаков в разные группы. Согласно определению, данному Л.В.Щавелевым [199], кластеризация является развитием задачи классификации в части того, что в данном случае границы классов не предопределены. Существенное отличие задач кластеризации от классификации, как указывают в своей работе И.И.Елисеева, В.О.Рукавишников [56], состоит в отсутствии в полученном разбиении пустых кластеров, в отличие от разбиения множества на классы при классификации. В свою очередь, Б.Дюран и П.Оделл [54] определяют задачу кластерного анализа, как разбиение множества п объектов на т непустых кластеров, где т < п , таким образом, чтобы ^объекты принадлежащие одному кластеру были сходными. Кластер, согласно определению данному И.И.Еписеевой и В.О.Рукавишниковым, это «некоторое подмножество объектов выделенное на основании некоторого правила» [56, с.26]. Согласно Б.Г.Миркину множество является кластером только в том случае, «если средняя связь между объектами множества превышает среднюю связь объектов с остальными» [110, с.233]. И.Д.Мандель [99], продолжая формализацию понятия кластера, выделяет различные типы в зависимости от используемого способа выделения. Необходимо отметить, что в данном случае процедура идентификации класса заранее не проводится. Под идентификацией в данном случае понимаем, определение решающих правил, на основании которых производится отнесение объекта к определенному классу, согласно определению данному А.В.Андрейчиковым, О.Н.Андрейчиковой [9]. Границы классов будут определены в процессе проведения кластеризации. Согласно существующей в настоящий момент группировке по типу используемой информации, все задачи классификации можно подразделить на задачи классификации «с учителем» и «без учителя». А.В.Лапко [87] дополнительно в отдельный класс выделяет задачи с «неидеальным учителем», возникающие в случае, кЪА 74 л гда указания «учителя» неточны, иными словами классификация производится при нечетко заданных условиях. Подробный анализ существующих алгоритмов кластеризации приведен в работах [56, 99, 136, 147]. В силу необходимости снижения субъективности в процессе осуществления кластеризации, на наш взгляд, представляется рациональным в качестве основы использовать один из существующих методов «классификации без учителя», использующий закономерности, содержащиеся в самих исходных данных. Естественно, применение данного метода обосновано только'при наличии достатснного объема данных, в противном случае, необходимо использование либо эвристических процедур корректировки результата кластеризации, так называемый метод «неидеального учителя», или использовать процедуры искусственного дополнения имеющихся данных «идеальными объектами». Необходимо отметить, что в ряде случаев, как указывает Г.С.Лбов [89], для наилучшего описания групп объектов требуется свое подмножество признаков для каждой группы. Этот подход позволяет минимизировать затраты на получение необходимой для осуществления кластеризации информации, в то же время всвникает проблема выбора методики отбора признаков, на основании которых осуществляется кластеризация для каждого конкретного класса. Дополнительную сложность, при отборе информативных признаков очень часто привносит наличие зависимости между признаками, так называемая мультиколлинеарность, часто присутствующая в экономических данных. Далее, рассмотрим возможность использования методов нейронных сетей, в частности сети Кохонена (самоорганизующиеся карты Кохонена) [55], которые представляют собой тип сетей относимых к категории «обучение без учителя». Таким образом, данный метод свободен от привносимых исследователем субъектгаА ных суждений и основывается на использовании закономерностей изначально содержащихся в самих исходных данных. Сети Кохонена выбраны среди других моделей нейронных сетей, вследствие их большей адекватности специфике решаемой нами задачи и наличии удобных средств визуализации полученного результата. 75 |