Проверяемый текст

Матвейкин В.Г., Дмитриевский Б.С., Ляпин Н.Р. Информационные системы интеллектуального анализа. – М.: Машиностроение, 2008.

[стр. 79]
в множестве тк’ между объектами из последовательности S' могут находиться другие объекты.
Поддержкой последовательности S называется отношение количества многоверсионных транзакций, в которое входит последовательность S, к общему количеству транзакций.
Последовательность является частой, если ее поддержка превышает минимальную поддержку, заданную пользователем: SW (S) > Suppmin.
Задачей секвенциального анализа является поиск всех частых многоверсионных последовательностей: G = {S Supp(S) > Suppmin} Основным отличием задачи секвенциального анализа от поиска ассоциативных правил является установление отношения порядка между объектами множества I.
Данное отношение может быть определено разными способами.
При анализе последовательности событий, происходящих во времени, объектами множества I являются события, а отношение порядка соответствует хронологии их появления.
Например, при анализе последовательности запросов информации ЛПР наборами являются группы терминов, запрашиваемые в разное время одними и теми же ЛПР, а отношением порядка в них является хронология запросов: £)= {{(term4), (term5)}, {(term3, term4), (term5), (term.4, terml, term3)}, {(term5, term2, term4), (term5)}}.
Данное множество можно представить в виде табл.
15.
Таблица 15 группа терминов из запроса ЛПР.____________ ID ЛПР Последовательность запросов 0 (term5), (term4) 1 (term3, term4), (term5), (term4, terml, term3) 2 (term5, term2, term4), (term5) Интерпретировать такую последовательность можно следующим образом: Л11Р с идентификатором 1 вначале запросил информацию с 79

[стр. 5]
− для каждого класса в задаче классификации или каждого интервала области значений в задаче регрессии выборка должна содержать достаточное количество объектов.
На втором этапе построенную модель применяют к анализируемым объектам (к объектам с неопределенным значением зависимой переменной).
Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, – это неудовлетворительное качество исходных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, различные типы атрибутов – числовые и категоричные, разная значимость атрибутов, а также так называемые overfitting и underfitting.
Суть первой из них заключается в том, что классификационная функция при построении «слишком хорошо» адаптируется к данным, и встречающиеся в них ошибки и аномальные значения пытается интерпретировать как часть внутренней структуры данных.
Очевидно, что такая модель будет некорректно работать в дальнейшем с другими данными, где характер ошибок будет несколько иной.
Термином underfitting обозначают ситуацию, когда слишком велико количество ошибок при проверке классификатора на обучающем множестве.
Это означает, что особых закономерностей в данных не было обнаружено и либо их нет вообще, либо необходимо выбрать иной метод обнаружения.
Задача поиска ассоциативных правил.
Поиск ассоциативных правил является одним из самых популярных приложений ИА.
Суть задачи заключается в определении часто встречающихся наборов объектов в большом множестве таких наборов.
Данная задача является частным случаем задачи классификации [5].
Первоначально она решалась при анализе тенденций в поведении покупателей в супермаркетах.
Анализу подвергались данные о совершаемых ими покупках, которые покупатели складывают в корзину.
Это послужило причиной второго часто встречающегося названия – анализ рыночных корзин.
При анализе этих данных интерес прежде всего представляет информация о том, какие товары предпочитают, в какие периоды времени и т.п.
Такая информация позволяет более эффективно планировать закупку товаров, проведение рекламной кампании и т.д.
Задача поиска ассоциативных правил актуальна не только в сфере торговли.
Например, в сфере обслуживания интерес представляет, какими услугами клиенты предпочитают пользоваться в совокупности.
Для получения этой информации задача решается применительно к данным об услугах, которыми пользуется один клиент в течение определенного времени (месяца, года).
В медицине анализу могут подвергаться симптомы и болезни, наблюдаемые у пациентов.
В этом случае знания о том, какие сочетания болезней и симптомов встречаются наиболее часто, помогают в будущем правильно ставить диагноз.
При анализе часто вызывает интерес последовательность производящих событий.
При обнаружении закономерностей в таких последовательностях можно с некоторой долей вероятности предсказывать появление событий в будущем, что позволяет принимать более правильные решения.
Такая задача является разновидностью задачи поиска ассоциативных правил и называется сиквенциальным анализом.
Основным отличием задачи сиквенциального анализа от поиска ассоциативных правил является установление отношения порядка между исследуемыми наборами.
Данное отношение может быть определено разными способами.
При анализе последовательности событий, происходящих во времени, объектами таких наборов являются события, а отношение порядка соответствует хронологии их появления.
Сиквенциальный анализ широко используется, например в телекоммуникационных компаниях, для анализа данных об авариях на различных узлах сети.
Информация о последовательности совершения аварий может помочь в обнаружении неполадок и предупреждении новых аварий.
Например, если известна последовательность сбоев: { },...,,,,,, 1613725 eeeeee где ie – сбой с кодом i , то на основании факта появления сбоя 2e можно сделать вывод о скором появлении сбоя 7e .
Зная это, можно предпринять профилактические меры, устраняющие причины возникновения сбоя.
Если дополнительно обладать и знаниями о времени между сбоями, то можно предсказать не только факт его появления, но и время, что часто не менее важно.
Задача кластеризации.
Задача кластеризации состоит в разделении исследуемого множества объектов на группы «похожих» объектов, называемых кластерами.
Слово кластер английского происхождения (cluster), переводится как сгусток, пучок, группа.
Родственные понятия, используемые в литературе, – класс, таксон, сгущение.
Часто решение задачи разбиения множества элементов на кластеры называют кластерным анализом [5].
Кластеризация может применятся практически в любой области, где необходимо исследование экспериментальных или статистических данных.
Для научных исследований изучение результатов кластеризации, а именно вычисление причин, по которым объекты объединяются в группы, способно открыть новые перспективные направления.
Кластеризация отличается от классификации тем, что для проведения анализа не требуется иметь выделенную зависимую переменную.
С этой точки зрения она относится к классу обучения без учителя.
Задача решается на начальных этапах исследования, когда о данных мало что известно.
Ее решение помогает лучше понять данные, и с этой точки зрения задача кластеризации является описательной задачей.
Для задачи кластеризации характерно отсутствие каких-либо различий как между переменными, так и между объектами.
Напротив, ищутся группы наиболее близких, похожих объектов.
Методы автоматического разбиения на кластеры редко используются сами по себе, просто для получения групп схожих объектов.
После определения кластеров применяются другие методы ИА, для того чтобы попытаться установить, что означает такое разбиение, чем оно вызвано.
Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными и наглядными.
Отметим ряд особенностей, присущих задаче кластеризации.
Во-первых, решение сильно зависит от природы объектов данных (и их атрибутов).
Так, с одной стороны, это могут быть однозначно определенные, четко количественно очерченные объекты, а с другой – объекты, имеющие вероятностное или нечеткое описание.
Во-вторых, решение значительно зависит также и от представления кластеров и предполагаемых отношений объектов данных и кластеров.
Так, необходимо учитывать такие свойства, как возможность/невозможность принадлежности объектов

[стр.,10]
Последовательностью называется упорядоченное множество объектов.
Для этого на множестве должно быть задано отношение порядка.
Тогда последовательность объектов можно описать в следующем виде: ...},...,,{..., qp iiS = , где pq < .
Различают два вида последовательностей: с циклами и без циклов.
В первом случае допускается вхождение в последовательность одного и того же объекта на разных позициях: ...},...,,{..., qp iiS = , где pq < , а pq ii = .
Говорят, что транзакция T содержит последовательность S , если TS ⊆ и объекты, входящие в S входят и в множество T с сохранением отношения порядка.
При этом допускается, что в множестве T между объектами из последовательности S могут находиться другие объекты.
Поддержкой последовательности S называется отношение количества транзакций, в которое входит последовательность ,S к общему количеству транзакций.
Последовательность является частой, если ее поддержка превышает минимальную поддержку, заданную пользователем: min)( SuppSSupp > .
Задачей сиквенциального анализа является поиск всех частых последовательностей: })({ minSuppSSuppSL >= .
Основным отличием задачи сиквенциального анализа от поиска ассоциативных правил является установление отношения порядка между объектами множества .I Данное отношение может быть определено разными способами.
При анализе последовательности событий, происходящих во времени, объектами множества I являются события, а отношение порядка соответствует хронологии их появления.
Сиквенциальный анализ актуален и для телекоммуникационных компаний.
Основная проблема, для решения которой он используется, – это анализ данных об авариях на различных узлах телекоммуникационной сети.
Информация о последовательности совершения аварий может помочь в обнаружении неполадок и предупреждении новых аварий.
Разновидности задачи поиска ассоциативных правил.
Во многих прикладных областях объекты множества I естественным образом объединяются в группы, которые в свою очередь также могут объединяться в более общие группы, и т.д.
Наличие иерархии изменяет представление о том, когда объект i присутствует в транзакции .T Очевидно, что поддержка не отдельного объекта, а группы, в которую он входит, больше: )()( j g q iSuppISupp ≥ , где g qj Ii ∈ .
Это связано с тем, что при анализе групп подсчитываются не только транзакции, в которые входит отдельный объект, но и транзакции, содержащие все объекты анализируемой группы.
Использование иерархии позволяет определить связи, входящие в более высокие уровни иерархии, поскольку поддержка набора может увеличиваться, если подсчитывается вхождение группы, а не ее объекта.
Кроме поиска наборов, часто встречающихся в транзакциях, состоящих из объектов }{ IiiF ∈= или групп одного уровня иерархии }{ 1+ ∈= ggg IIIF , можно рассматривать также смешанные наборы объектов и групп },,{ 1+ ∈= ggg IIiIiF .
Это позволяет расширить анализ и получить дополнительные знания.
При иерархическом построении объектов можно варьировать характер поиска, изменяя анализируемый уровень.
Очевидно, что чем больше объектов в множестве I , тем больше объектов в транзакциях T и частых наборах.
Это в свою очередь увеличивает время поиска и усложняет анализ результатов.
Уменьшить или увеличить количество данных можно с помощью иерархического представления анализируемых объектов.
Перемещаясь вверх по иерархии, обобщаем данные и уменьшаем из количество, и наоборот.
Недостатком обобщения объектов является меньшая полезность полученных знаний, т.е.
в этом случае они относятся к группам товаров, что не всегда приемлемо.
Для достижения компромисса между анализом групп и анализом отдельных объектов часто поступают следующим образом: сначала анализируют группы, а затем в зависимости от полученных результатов исследуют объекты заинтересовавших аналитика групп.
В любом случае можно утверждать, что наличие иерархии в объектах и ее использование в задаче поиска ассоциативных правил позволяют выполнять более гибкий анализ и получать дополнительные знания.
В рассмотренной задаче поиска ассоциативных правил наличие объекта в транзакции определялось только его присутствием в ней ( Tij ∈ ) или отсутствием Tij ∉ .
Часто объекты имеют дополнительные атрибуты, как правило, численные.
Например, товары в транзакции имеют атрибуты: цена и количество.
При этом наличие объекта в наборе может определяться не просто фактом его присутствия, а выполнением условия по отношению к определенному атрибуту.
Например, при анализе транзакций, совершаемых покупателем, может интересовать не просто наличие покупаемого товара, а товара, покупаемого по некоторой цене.
Для расширения возможностей анализа с помощью поиска ассоциативных правил в исследуемые наборы можно добавлять дополнительные объекты.
В общем случае они могут иметь природу, отличную от основных объектов.
Например, для определения товаров, имеющих больший спрос в зависимости от месторасположения магазина, в транзакции можно добавить объект, характеризующий район.
Представление результатов.
Решение задачи поиска ассоциативных правил, как и любой задачи, сводится к обработке исходных данных и получению результатов.
Обработка исходных данных выполняется по некоторому алгоритму ИА.
Результаты, получаемые при решении этой задачи, принято представлять в виде ассоциативных правил.
В связи с этим при их поиске выделяют два основных этапа:

[Back]