149 Множество записей Различный способ записи mat name=’Kpyr 10/45’ mat пате=’круг 12/45’ Встречается в полях свободного формата Дублирующиеся записи Материал 1 =(id= 1231, name=’Kpyr 10/45’,...) Материал2=(1с1=1248, пате=’круг 10/45’,...) Ошибки вода приводят к появлению записей, описывающих один и тот же объект. Противоречивые записи пате=’Круг 10/45 ГОСТ 1050-74’ пате=’круг 12/45 ГОСТ 1050-78’ Также являются следствием ошибок ввода Источник Неправильные ссылки деталь = (id=l 212, obozn=’nC-00.00.06’, пате=’рукоять’, mat_code=l 19 Материал с кодом 119 существует, но не является материалом данной детали В случае интеграции данных из различных источников перечисленные проблемы еще более усугубляется. Это происходит в результате того, что в различных информационных подсистемах существуют перекрывающиеся описания одних и тех же объектов, которые могут дублировать друг друга, противоречить друг другу. Поля, описывающие в различных источниках одни и те же характеристики объекта, могут иметь разное наименование, несовпадающие типы и т.д. Для устранения проблем, описанных выше, требуется проведение ряда последовательных действий над извлеченными данными. Анализ данных является первым шагом по очистке данных. Суть его заключается в определении существующих проблем качества данных и их спецификации. Полученная спецификация должна стать своего рода техническим заданием для проведения процесса очистки данных. Следующим шагом является определение порядка и правил преобразования данных. В ходе этого этапа определяется последовательность устранения выявленных проблем и методы, используемые для этого. Как |
95 Множество записей Различный способ записи mat_name=’Круг 10/45’ mat_name=,Kpyr 12/45’ Встречается в полях свободного формата Дублирующиеся записи Материал1=(id= 1231, паше=’Круг 10/45’,...) Материал2=(1с1=1248, паше=’круг 10/45’,...) Ошибки вода приводят к появлению записей, описывающих один и тот же объект. Противоречивые записи паше=’Круг 10/45 ГОСТ 1050-74’ паше=’круг 12/45 ГОСТ 1050-78’ Также являются следствием ошибок ввода Источник Неправильные ссылки деталь = (id=1212, obozn=’nC-00.00.06’, паше=’рукоять’, mat_codc= 119 Материал с кодом 119 существует, но не является материалом данной детали В случае интеграции данных из различных источников перечисленные проблемы еще более усугубляется. Это происходит в результате того, что в различных информационных подсистемах существуют перекрывающиеся описания одних и тех же объектов, которые могут дублировать друг друга, противоречить друг другу. Поля, описывающие в различных источниках одни и те же характеристики объекта, могут иметь разное наименование, несовпадающие типы и т.д. Для устранения проблем, описанных выше, требуется проведение ряда последовательных действий над извлеченными данными [83]. Анализ данных является первым шагом по очистке данных. Суть его заключается в определении существующих проблем качества данных и их спецификации. Полученная спецификация должна стать своего рода техническим заданием для проведения процесса очистки данных. Следующим шагом является определение порядка и правил преобразования данных. В ходе этого этапа определяется последовательность устранения выявленных проблем и методы, используемые для этого. Как правило, сначала устраняются проблемы на |