Проверяемый текст
Ананьев Николай Сергеевич. Методы и средства анализа данных в системах поддержки принятия решений (Диссертация 2005)
[стр. 22]

Рис.
1.3.
Классификация проблем качества данных в источниках данных
Не делая подробный анализ существа процедур очистки, перечислим основные методы очистки данных [93]: Анализ данных: осуществляется для выявления подлежащих удалению видов ошибок и несоответствий.
Наряду с ручной проверкой данных или их шаблонов, используются аналитические программы для получения метаданных о свойствах данных и выявления причин низкого качества данных.
Определение порядка
и правил преобразования данных: В зависимости от числа источников данных, степени их неоднородности и искажений данных, они могут требовать достаточно обширного преобразования и очистки.
Для представления источников в общей модели данных используется трансляция схемы; при этом для хранилищ данных обычно используется реляционное представление.
Подтверждение: эффективность процесса преобразования и правильность результата определения должны тестироваться и оцениваться, например, на тестовом образце или копии данных источника, с целью
22
[стр. 20]

П поолсмы качества данных /1роб.1с'.иы отдельных источников Уровень схемы (Нсдосч а гок о рапнчеинп 11СЛОС1НОС I II, плохой дизайн схемы) Уникальность ЦсУ«ОС1ПОСII.
ССЫЛОК Уровень лечен/пн (Ошибки при □ иоле данных) Проблемы мгшжестпч источников Уровень схемы (Неоднородные модели данных и дизайн схем) Орфо! рафнчсскнс ошибки Избыточное!!*/ дубликаты Пропшорсчиныс значения Конфликты паимснопапнй Структурные конфликты Уровень Х1С.ЧСНПШ (Перекрывающиеся, промшорсчашие н песен ласоианныс данные) Несогласованная агрегация Несогласованная сппхромитания Рис.
1.3.
Классификация проблем качества данных в источниках данных
Нс вдаваясь в подробный анализ существа процедур очистки перечислим основные методы очистки данных [93]: Анализ данных: осуществляется для выявления подлежащих удалению видов ошибок и несоответствий.
Наряду с ручной проверкой данных или их шаблонов, используются аналитические программы для получения метаданных о свойствах данных и выявления причин низкого качества данных.
Определение порядка
н правил преобразования данных: В зависимости от числа источников данных, степени их неоднородности и искажений данных, они могут требовать достаточно обширного преобразования и очистки.
Для представления источников в общей модели данных используется трансляция схемы; при этом для хранилищ данных обычно используется реляционное представление.
Подтверждение: эффективность процесса преобразования и правильность результата определения должны тестироваться и оцениваться, например, на тестовом образце или копии данных источника, с целью
оценки необходимости улучшения такого определения.
Преобразования: выполнение преобразований либо в процессе ЕТЬ для загрузки и обновления хранилища данных, либо при ответе на запросы по множеству источников.
20

[Back]