101 Особенности метода интеллектуального анализа данных (ИАД) ИАД, в отличие от OLAP-анализа, направлен, в первую очередь, на выявление новой, ранее недоступной информации на основании анализа больших объемов накопленных данных. В [8, 116] ИАД определен как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Большинство методов ИАД были разработаны в рамках теории искусственного интеллекта в 70-80-х годах, однако более широкое применения нашли гораздо позже, когда во многих крупных организациях и предприятиях стала актуальной проблема получения дополнительной выгоды от имеющихся огромных объемов корпоративной информации [100]. Задачи, решаемые в рамках ИАД, как правило, классифицируются по типам производимой информации. В [100, 106] выделяются следующие пять видов: 1. Классификация. При решении этой задачи происходит соотнесение рассматриваемых объектов на основе имеющихся признаков с теми или иными классами предопределенной иерархии. При решении данной задачи используются* алгоритмы типа Lazy-Learning, байесовские сети, индукция деревьев решений, индукция символьных правил, а также нейронные сети [86]. 2. Кластеризация. В рамках решения этой задачи на основе доступного множества объектов и анализа их признаков происходит построение иерархии классов, которая затем применяется в задаче классификации. Задача кластеризации решается с использованием метода объединения (древовидной кластеризации), нейронных сетей Кохонена [86], а также применением индукции правил [105]. 3. Выявление ассоциаций. Данная задача предполагает исследование нескольких одновременно наступающих события с целью выявления ситуаций, когда при наступлении одного события также наступает и другое с той или иной степенью вероятности. |
трудно реализовать. К недостаткам многомерных СУБД можно отнести невозможность работать с данными, объем которых превышает несколько десятков гигабайт, а также отсутствие единых стандартов описания, манипулирования многомерными данными и интерфейс с подобными системами. Следовательно, областью применения многомерных СУБД можно считать ХД небольшого объема со стабильным набором измерений в гиперкубах и высокими требованиями к скорости выполнения нерегламентированных запросов. Анализ методами ИАД. ИАД, в отличие от OLAP-анализа, направлен, в первую очередь, на выявление новой, ранее недоступной информации на основании анализа больших объемов накопленных данных. В [11, 81] ИАД определен как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Большинство методов ИАД были разработаны в рамках теории искусственного интеллекта в 70-80х годах , однако более широкое применения нашли гораздо позже, когда во многих крупных организациях и предприятиях стала актуальной проблема получения дополнительной выгоды от имеющихся огромных объемов корпоративной информации [80]. Задачи, решаемые в рамках ИАД, как правило, классифицируются по типам производимой информации. В [80, 50] выделяются следующие пять видов: 1. Классификация. При решении этой задачи происходит соотнесение рассматриваемых объектов на основе имеющихся признаков с теми или иными классами предопределенной иерархии. При решении данной задачи используются алгоритмы типа Lazy-Leaming [87], байесовские сети [68], индукция деревьев решений [50, 16, 2], индукция символьных правил [64, 57], а также нейронные сети [43]. 39 2. Кластеризация. В рамках решения этой задачи на основе доступного множества объектов и анализа их признаков происходит построение иерархии классов, которая затем применяется в задаче классификации. Задача кластеризации решается с использованием метода объединения (древовидной кластеризации), нейронных сетей Кохонена [43], а также применением индукции правил [64]. 3. Выявление ассоциаций. Данная задача предполагает исследование нескольких одновременно наступающих события с целью выявления ситуаций, когда при наступлении одного события также наступает и другое с той или иной степенью вероятности. 4. Выявление последовательностей, как более общий случай задачи выявления ассоциаций. Последовательности также имеют место между событиями, но наступающими не одновременно, а с некоторым промежутком во времени. 5. Прогнозирование. В этой задаче на основе накопленных исторических данных об изменениях значений тех или иных показателей, характеризующих исследуемый объект или процесс, делается попытка оценить их будущие значения. Задачи прогнозирования решаются, как правило, с применением традиционных методов математической статистики или нейронных сетей. Решение описанных выше задач происходит, как правило, в два этапа [80]: выявление закономерностей (свободный поиск) и использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование). Иногда в качестве третьего этапа ИАД к двум перечисленным добавляется еще и анализ исключений, предназначенный для объяснения противоречий в найденных закономерностях [11]. 40 |