оценки необходимости улучшения такого определения. Преобразования: выполнение преобразований либо в процессе ЕТЬ для загрузки и обновления хранилища данных, либо при ответе на запросы по множеству источников. Противоток очищенных данных: после исправления ошибок отдельного источника, очищенные данные должны заместить искаженные в исходных . источниках, чтобы улучшенные данные попали и в унаследованные приложения и в дальнейшем при извлечении не требовали дополнительной очистки. 1.2. Типовые задачи интеллектуального анализа данных Собственно сложный интеллектуальный анализ данных осуществляется с использованием средств ИАД, реализующих математические метода анализа многомерных данных, включая методы (приложения) искусственного интеллекта нейронных сети, нечеткую математику (логику, множества), семантический анализ и др. [2]. Информационные задачи, обеспечение решения которых возлагается на эти средства, сводятся к следующим [66]: выявление связей (нахождение ассоциаций) между разрозненными фактами; нахождение последовательностей; нахождение скрытых закономерностей по наборам данных; оценка важности (влияния или связи) параметров и событий и ситуаций, которые сопровождаются или которым предшествуют выявленные факты; классификация (распознавание) данных и ситуаций; кластеризация; составление прогнозов событий и ситуаций. Выявление связей (нахождение ассоциации) между разрозненными 23 |
П поолсмы качества данных /1роб.1с'.иы отдельных источников Уровень схемы (Нсдосч а гок о рапнчеинп 11СЛОС1НОС I II, плохой дизайн схемы) Уникальность ЦсУ«ОС1ПОСII. ССЫЛОК Уровень лечен/пн (Ошибки при □ иоле данных) Проблемы мгшжестпч источников Уровень схемы (Неоднородные модели данных и дизайн схем) Орфо! рафнчсскнс ошибки Избыточное!!*/ дубликаты Пропшорсчиныс значения Конфликты паимснопапнй Структурные конфликты Уровень Х1С.ЧСНПШ (Перекрывающиеся, промшорсчашие н песен ласоианныс данные) Несогласованная агрегация Несогласованная сппхромитания Рис. 1.3. Классификация проблем качества данных в источниках данных Нс вдаваясь в подробный анализ существа процедур очистки перечислим основные методы очистки данных [93]: Анализ данных: осуществляется для выявления подлежащих удалению видов ошибок и несоответствий. Наряду с ручной проверкой данных или их шаблонов, используются аналитические программы для получения метаданных о свойствах данных и выявления причин низкого качества данных. Определение порядка н правил преобразования данных: В зависимости от числа источников данных, степени их неоднородности и искажений данных, они могут требовать достаточно обширного преобразования и очистки. Для представления источников в общей модели данных используется трансляция схемы; при этом для хранилищ данных обычно используется реляционное представление. Подтверждение: эффективность процесса преобразования и правильность результата определения должны тестироваться и оцениваться, например, на тестовом образце или копии данных источника, с целью оценки необходимости улучшения такого определения. Преобразования: выполнение преобразований либо в процессе ЕТЬ для загрузки и обновления хранилища данных, либо при ответе на запросы по множеству источников. 20 Противоток очищенных данных: после исправления ошибок отдельного источника, очищенные данные должны заместить искаженные в исходных источниках, чтобы улучшенные данные попали и в унаследованные приложения и в дальнейшем при извлечении не требовали дополнительной очистки. 1.2. Типовые задачи интеллектуального анализа данных Собственно сложный интеллектуальный анализ данных осуществляется с использованием средств ИАД, реализующих математические метода анализа многомерных данных, включая методы (приложения) искусственного интеллекта нейронных сети, нечеткую математику (логику, множества), семантический анализ и др. [2]. Информационные задачи, обеспечение решения которых возлагается на эти средства, сводятся к следующим [66]: выявление связей (нахождение ассоциаций) между разрозненными фактами; нахождение последовательностей; нахождение скрытых закономерностей по наборам данных; оценка важности (влияния или связи) параметров и событий и ситуаций, которые сопровождаются или которым предшествуют выявленные факты; классификация (распознавание) данных и ситуаций; кластеризация; составление прогнозов событий и ситуаций. Выявление связей (нахождение ассоциаций) между разрозненными фактами. Связи выявляются как следствие поведения сложного объекта в типовых ситуациях. Например, при исследовании страховых рисков страхователей автомобилей может выясниться, что при отсутствии дополнительных 21 |