Рис. 1.3. Классификация проблем качества данных в источниках данных Не делая подробный анализ существа процедур очистки, перечислим основные методы очистки данных [93]: Анализ данных: осуществляется для выявления подлежащих удалению видов ошибок и несоответствий. Наряду с ручной проверкой данных или их шаблонов, используются аналитические программы для получения метаданных о свойствах данных и выявления причин низкого качества данных. Определение порядка и правил преобразования данных: В зависимости от числа источников данных, степени их неоднородности и искажений данных, они могут требовать достаточно обширного преобразования и очистки. Для представления источников в общей модели данных используется трансляция схемы; при этом для хранилищ данных обычно используется реляционное представление. Подтверждение: эффективность процесса преобразования и правильность результата определения должны тестироваться и оцениваться, например, на тестовом образце или копии данных источника, с целью 22 |
П поолсмы качества данных /1роб.1с'.иы отдельных источников Уровень схемы (Нсдосч а гок о рапнчеинп 11СЛОС1НОС I II, плохой дизайн схемы) Уникальность ЦсУ«ОС1ПОСII. ССЫЛОК Уровень лечен/пн (Ошибки при □ иоле данных) Проблемы мгшжестпч источников Уровень схемы (Неоднородные модели данных и дизайн схем) Орфо! рафнчсскнс ошибки Избыточное!!*/ дубликаты Пропшорсчиныс значения Конфликты паимснопапнй Структурные конфликты Уровень Х1С.ЧСНПШ (Перекрывающиеся, промшорсчашие н песен ласоианныс данные) Несогласованная агрегация Несогласованная сппхромитания Рис. 1.3. Классификация проблем качества данных в источниках данных Нс вдаваясь в подробный анализ существа процедур очистки перечислим основные методы очистки данных [93]: Анализ данных: осуществляется для выявления подлежащих удалению видов ошибок и несоответствий. Наряду с ручной проверкой данных или их шаблонов, используются аналитические программы для получения метаданных о свойствах данных и выявления причин низкого качества данных. Определение порядка н правил преобразования данных: В зависимости от числа источников данных, степени их неоднородности и искажений данных, они могут требовать достаточно обширного преобразования и очистки. Для представления источников в общей модели данных используется трансляция схемы; при этом для хранилищ данных обычно используется реляционное представление. Подтверждение: эффективность процесса преобразования и правильность результата определения должны тестироваться и оцениваться, например, на тестовом образце или копии данных источника, с целью оценки необходимости улучшения такого определения. Преобразования: выполнение преобразований либо в процессе ЕТЬ для загрузки и обновления хранилища данных, либо при ответе на запросы по множеству источников. 20 |