Проверяемый текст
Кахутин, Павел Викторович. Повышение качества системы поддержки принятия решений в технологической подготовке машиностроительного производства путем организации хранилищ данных (Диссертация 2004)
[стр. 146]

146 На этапе извлечения данных происходит выборка данных, предназначенных для помещения в хранилище, с помощью специальных средств извлечения данных.
Эти средства могут быть как поставляемыми вместе с используемой СУБД, так и разработанными самостоятельно
[73].
Учитывая, что стандартные средства ETL поддерживают широкий спектр методов доступа к данным и одновременно допускают использование процедур, определяемых пользователем
[14], представляется' разумным комбинированный подход, при котором стандартные возможности ETL-средств по импорту данных дополняются специально разработанным программным кодом, учитывающим специфику конкретных источников.
Преобразование данных предполагает подготовку их к перемещению в ХД.
В процессе подготовки данных происходит согласование типов полей, объединение разнородной информации об описываемых объектах в единое целое, вычисление необходимых данных, на основе загруженной из источников информации, очистка «грязных» данных.
На этапе загрузки извлеченные и преобразованные к необходимому формату данные перемещаются в ХД.
Загрузка данных в ХД носит обычно периодический характер и может осуществляться ежедневно, еженедельно, ежемесячно и т.д., в зависимости от потребности.
Наиболее критичным из рассмотренных процессов является преобразование данных, поскольку на данном этапе происходит так называемая очистка «грязных» данных
[ЮЗ] исключение нежелательных дубликатов, восстановление пропущенных данных, приведение данных к единому формату, удаление нежелательных символов и унификация типов данных, проверка на целостность.
Проблемы, порождающие «грязные» данные и требующие решения в ходе очистки, можно разделить на две большие группы:
проблемы в рамках одного источника данных и проблемы, порождаемые множественностью источников данных для ХД (рис.
46).
Внутри каждой из этих групп проблемы качества данных подразделяются на проблемы, порождаемые схемой данных источника, и
проблемы на уровне отдельных
[стр. 92]

На этапе извлечения данных происходит выборка данных, предназначенных для помещения в хранилище, с помощью специальных средств извлечения данных.
Эти средства могут быть как поставляемыми вместе с используемой СУБД, так и разработанными самостоятельно
[19].
Учитывая, что стандартные средства ETL поддерживают широкий спектр методов доступа к данным и одновременно допускают использование процедур, определяемых пользователем
[27], представляется разумным комбинированный подход, при котором стандартные возможности ETLсредств по импорту данных дополняются специально разработанным программным кодом, учитывающим специфику конкретных источников.
Преобразование данных предполагает подготовку их к перемещению в ХД.
В процессе подготовки данных происходит согласование типов полей, объединение разнородной информации об описываемых объектах в единое целое, вычисление необходимых данных, на основе загруженной из источников информации, очистка «грязных» данных.
На этапе загрузки извлеченные и преобразованные к необходимому формату данные перемещаются в ХД.
Загрузка данных в ХД носит обычно периодический характер и может осуществляться ежедневно, еженедельно, ежемесячно и т.д., в зависимости от потребности.
Наиболее критичным из рассмотренных процессов является преобразование данных, поскольку на данном этапе происходит так называемая очистка «грязных» данных
[78, 69] исключение нежелательных дубликатов, восстановление пропущенных данных, приведение данных к единому формату, удаление нежелательных символов и унификация типов данных, проверка на целостность.
Проблемы, порождающие «грязные» данные и требующие решения в ходе очистки, можно разделить на две большие группы
[83]: проблемы в рамках одного источника данных и проблемы, порождаемые множественностью источников данных для ХД (рис.
21).
Внутри каждой из этих групп проблемы качества данных подразделяются на проблемы, порождаемые схемой данных источника, и
92

[Back]