Проверяемый текст
Матвейкин В.Г., Дмитриевский Б.С., Ляпин Н.Р. Информационные системы интеллектуального анализа. – М.: Машиностроение, 2008.
[стр. 77]

Множество транзакций, в которые входит набор F, обозначим следующим образом: DF = F с Tr l;г = l../wjcz D В данном примере: ' {{term3, term4, term6}, {term6, term3, term2, term3, term4}}.
Отношение количества транзакций, в которое входит набор F, к общему количеству транзакций называется поддержкой
(support) набора F и обозначается Supp(F) : Для набора {tei*m3, term4} поддержка будет равна 0,5, т.
к.
данный набор входит в две многоверсионные транзакции (с номерами 1 и 2), а всего многоверсионных транзакций 4.
При поиске аналитик может указать минимальное значение поддержки интересующих его наборов
Suppmin.
Набор называется частым (large itemset), если значение его поддержки больше минимального значения поддержки, заданного пользователем: Supp(F) > Suppmin.
Таким образом, при поиске ассоциативных правил требуется найти множество всех частых наборов:
G = {F Supp(F) > Suppmm}.
В данном примере частыми наборами при Suppmjn 0,5 являются следующие: {term2} Suppmin = 0,5; {term2, term4} Suppmin = 0,5; {term3} Suppmin = 0,75; {term3, term4} Suppmin = 0,5; {term3, term4, term6} Suppmin = 0,5; {term3, term6} Suppmin = 0,75; 77
[стр. 9]

− Проверка построенных моделей.
− Интерпретация моделей человеком.
На первом этапе выполняется осмысление поставленной задачи и уточнение целей, которые должны быть достигнуты методами ИА.
Важно правильно сформулировать цели и выбрать необходимые для их достижения методы, так как от этого зависит дальнейшая эффективность всего процесса.
Второй этап состоит в приведении данных к форме, пригодной для применения конкретных методов ИА.
Данный процесс ниже будет описан более подробно, здесь заметим только, что вид преобразований, совершаемых над данными, во многом зависит от используемых методов, выбранных на предыдущем этапе.
Третий этап – это собственно применение методов ИА.
Сценарии этого применения могут быть самыми различными и включать сложную комбинацию разных методов, особенно если используемые методы позволяют проанализировать данные с разных точек зрения.
Следующий этап – проверка построенных моделей.
Очень простой и часто используемый способ заключается в том, что все имеющиеся данные, которые необходимо анализировать, разбиваются на две группы.
Как правило, одна из них большего размера, другая – меньшего.
На большей группе, применяя те или иные методы ИА, получают модели, а на меньшей – проверяют их.
По разнице в точности между тестовой и обучающей группами можно судить об адекватности построенной модели.
Последний этап – интерпретация полученных моделей человеком в целях их использования для принятия решений, добавление получившихся правил и зависимостей в базы знаний и т.д.
Этот этап часто подразумевает использование методов, находящихся на стыке технологий ИА и технологии экспертных систем.
Оттого, насколько эффективным он будет, в значительной степени зависит успех решения поставленной задачи.
1.6.
ЗАДАЧА ПОИСКА АССОЦИАТИВНЫХ ПРАВИЛ Формальная постановка задачи.
Одной из наиболее распространенных задач анализа данных является определение часто встречающихся наборов объектов в большом множестве наборов.
Опишем эту задачу в обобщенном виде [10].
Для этого обозначим объекты, составляющие исследуемые наборы, следующим множеством: }...,,...,,,{ 21 nj iiiiI = , где ji – объекты, входящие в анализируемые наборы; n – общее количество объектов.
Наборы объектов из множества I , хранящиеся в БД и подвергаемые анализу, называются транзакциями.
Опишем транзакцию как подмножество множества I : }{ IiiT jj ∈= .
Такие транзакции в магазине соответствуют наборам товаров, покупаемых потребителем и сохраняемых в БД в виде товарного чека или накладной.
В них перечисляются приобретаемые покупателем товары, их цена, количество и др.
Набор транзакций, информация о которых доступна для анализа, обозначим следующим множеством: }...,,...,,,{ 21 mr TTTTD = , где m – количество доступных для анализа транзакций.
Множество транзакций, в которые входит объект ji , обозначим следующим образом: DmrnjTiTD rjri j ⊆==∈= }..1;..1;{ .
Некоторый произвольный набор объектов обозначим следующим образом: }..1;{ njIiiF jj =∈= .
Набор, состоящий из k объектов, называется k -элементным набором (в данном примере это 2-элементный набор).
Множество транзакций, в которые входит набор F , обозначим следующим образом:
DmrTFTD rrF ⊆=⊆= }..1;{ .
Отношение количества транзакций, в которое входит набор F , к общему количеству транзакций называется поддержкой
набора F и обозначается )(FSupp : )( D D FSupp F = .
При поиске аналитик может указать минимальное значение поддержки интересующих его наборов
minSupp .
Набор называется частым, если значение его поддержки больше минимального значения поддержки, заданного пользователем: min)( SuppFSupp > .
Таким образом, при поиске ассоциативных правил требуется найти множество всех частых наборов: })({
minSuppFSuppFL >= .
Сиквенциальный анализ.
При анализе часто вызывает интерес последовательность происходящих событий.
При обнаружении закономерностей в таких последовательностях можно с некоторой долей вероятности предсказывать появление событий в будущем, что позволяет принимать более правильные решения.

[Back]