146 На этапе извлечения данных происходит выборка данных, предназначенных для помещения в хранилище, с помощью специальных средств извлечения данных. Эти средства могут быть как поставляемыми вместе с используемой СУБД, так и разработанными самостоятельно [73]. Учитывая, что стандартные средства ETL поддерживают широкий спектр методов доступа к данным и одновременно допускают использование процедур, определяемых пользователем [14], представляется' разумным комбинированный подход, при котором стандартные возможности ETL-средств по импорту данных дополняются специально разработанным программным кодом, учитывающим специфику конкретных источников. Преобразование данных предполагает подготовку их к перемещению в ХД. В процессе подготовки данных происходит согласование типов полей, объединение разнородной информации об описываемых объектах в единое целое, вычисление необходимых данных, на основе загруженной из источников информации, очистка «грязных» данных. На этапе загрузки извлеченные и преобразованные к необходимому формату данные перемещаются в ХД. Загрузка данных в ХД носит обычно периодический характер и может осуществляться ежедневно, еженедельно, ежемесячно и т.д., в зависимости от потребности. Наиболее критичным из рассмотренных процессов является преобразование данных, поскольку на данном этапе происходит так называемая очистка «грязных» данных [ЮЗ] исключение нежелательных дубликатов, восстановление пропущенных данных, приведение данных к единому формату, удаление нежелательных символов и унификация типов данных, проверка на целостность. Проблемы, порождающие «грязные» данные и требующие решения в ходе очистки, можно разделить на две большие группы: проблемы в рамках одного источника данных и проблемы, порождаемые множественностью источников данных для ХД (рис. 46). Внутри каждой из этих групп проблемы качества данных подразделяются на проблемы, порождаемые схемой данных источника, и проблемы на уровне отдельных |
На этапе извлечения данных происходит выборка данных, предназначенных для помещения в хранилище, с помощью специальных средств извлечения данных. Эти средства могут быть как поставляемыми вместе с используемой СУБД, так и разработанными самостоятельно [19]. Учитывая, что стандартные средства ETL поддерживают широкий спектр методов доступа к данным и одновременно допускают использование процедур, определяемых пользователем [27], представляется разумным комбинированный подход, при котором стандартные возможности ETLсредств по импорту данных дополняются специально разработанным программным кодом, учитывающим специфику конкретных источников. Преобразование данных предполагает подготовку их к перемещению в ХД. В процессе подготовки данных происходит согласование типов полей, объединение разнородной информации об описываемых объектах в единое целое, вычисление необходимых данных, на основе загруженной из источников информации, очистка «грязных» данных. На этапе загрузки извлеченные и преобразованные к необходимому формату данные перемещаются в ХД. Загрузка данных в ХД носит обычно периодический характер и может осуществляться ежедневно, еженедельно, ежемесячно и т.д., в зависимости от потребности. Наиболее критичным из рассмотренных процессов является преобразование данных, поскольку на данном этапе происходит так называемая очистка «грязных» данных [78, 69] исключение нежелательных дубликатов, восстановление пропущенных данных, приведение данных к единому формату, удаление нежелательных символов и унификация типов данных, проверка на целостность. Проблемы, порождающие «грязные» данные и требующие решения в ходе очистки, можно разделить на две большие группы [83]: проблемы в рамках одного источника данных и проблемы, порождаемые множественностью источников данных для ХД (рис. 21). Внутри каждой из этих групп проблемы качества данных подразделяются на проблемы, порождаемые схемой данных источника, и 92 |