улучшения их качества. Проблемы с качеством встречаются в отдельных наборах данных таких, как файлы и базы данных например, как результат ошибок при вводе, утери информации и других искажений данных. Когда интеграции подлежат данные множества источников данных, например в хранилищах, интегрированных системах баз данных необходимость в очистке данных существенно возрастает. Причиной этого является множественность источников, от которых зачастую поступают неполные разрозненные данные об объектах описания, отражающие различные их стороны. Для обеспечения доступа к точным и согласованным данным необходима консолидация различных представлений данных и исключение дублирующейся информации Основные задачи в области очистки данных, подлежащие решению при их обработке и преобразовании, тесно связаны и поэтому должны решаться в комплексе. Преобразование данных требуется для поддержки любых изменений в структуре, представлении или содержании данных. Эти преобразования становятся необходимы в разных ситуациях, например при изменении структуры данных, переходе на новую информационную систему или в случае, когда нужно интегрировать множественные источники данных. Как показано на рис. 1.3, задачи очистки можно разделить на две группы очистка данных отдельного и множества источников. В каждой из этих групп содержание задач очистки определяется качеством используемой в БД схемы представления данных и собственно содержанием самого элемента данных. Проблемы уровня схемы, разумеется, отражаются и в элементах данных; они решаются с помощью ее улучшения, трансляции и интеграции схемы данных. С другой стороны, проблемы уровня элемента данных связаны с ошибками и несоответствиями в содержимом текущих данных, незаметных на уровне схемы. Они-то и являются основной целью очистки. 21 |
Процедуры очистки данных, которые являются ключевыми с точки зрения обеспечения работоспособности сложных СППР, обеспечивают выявление и удаление ошибок и несоответствий в данных с целью улучшения их качества. Проблемы с качеством встречаются в отдельных наборах данных таких, как файлы и базы данных например, как результат ошибок при вводе, утери информации и других искажений данных. Когда интеграции подлежат данные множества источников данных, например в хранилищах, интегрированных системах баз данных необходимость в очистке данных существенно возрастает. Причиной этого является множественность источников, от которых зачастую поступают неполные разрозненные данные об объектах описания, отражающие различные их стороны. Для обеспечения доступа к точным и согласованным данным необходима консолидация гг. различных представлений данных и исключение дублирующейся информации Основные задачи в области очистки данных, подлежащие решению при их обработке .и преобразовании, тесно связаны и поэтому должны решаться в комплексе. Преобразование данных требуется для поддержки любых изменений в структуре, представлении или содержании данных. Эти преобразования становятся необходимы в разных ситуациях, например при изменении структуры данных, переходе на новую информационную систему или в случае, когда нужно интегрировать множественные источники данных. Как показано на рис. 1.3, задачи очистки можно разделить на две группы очистка данных отдельного и множества источников. В каждой из этих групп содержание задач очистки определяется качеством используемой в БД схемы представления данных и собственно содержанием самого элемента данных. Проблемы уровня схемы, разумеется, отражаются и в элементах данных; они решаются с помощью ее улучшения, трансляции и интеграции схемы данных. С другой стороны, проблемы уровня элемента данных связаны с ошибками и несоответствиями в содержимом текущих данных, незаметных на уровне схемы. Они-то и являются основной целью очистки. 19 |