Проверяемый текст
Кахутин, Павел Викторович. Повышение качества системы поддержки принятия решений в технологической подготовке машиностроительного производства путем организации хранилищ данных (Диссертация 2004)
[стр. 149]

149 Множество записей Различный способ записи mat name=’Kpyr 10/45’ mat пате=’круг 12/45’ Встречается в полях свободного формата Дублирующиеся записи Материал 1 =(id= 1231, name=’Kpyr 10/45’,...) Материал2=(1с1=1248, пате=’круг 10/45’,...) Ошибки вода приводят к появлению записей, описывающих один и тот же объект.
Противоречивые записи
пате=’Круг 10/45 ГОСТ 1050-74’ пате=’круг 12/45 ГОСТ 1050-78’ Также являются следствием ошибок ввода Источник Неправильные ссылки деталь = (id=l 212, obozn=’nC-00.00.06’, пате=’рукоять’, mat_code=l 19 Материал с кодом 119 существует, но не является материалом данной детали В случае интеграции данных из различных источников перечисленные проблемы еще более усугубляется.
Это происходит в результате того, что в различных информационных подсистемах существуют перекрывающиеся описания одних и тех же объектов, которые могут дублировать друг друга, противоречить друг другу.
Поля, описывающие в различных источниках одни и те же характеристики объекта, могут иметь разное наименование, несовпадающие типы и т.д.
Для устранения проблем, описанных выше, требуется проведение ряда последовательных действий над извлеченными данными.

Анализ данных является первым шагом по очистке данных.
Суть его заключается в определении существующих проблем качества данных и их спецификации.
Полученная спецификация должна стать своего рода техническим заданием для проведения процесса очистки данных.
Следующим шагом является определение порядка и правил преобразования данных.
В ходе этого этапа определяется последовательность устранения выявленных проблем и методы, используемые для этого.
Как
[стр. 95]

95 Множество записей Различный способ записи mat_name=’Круг 10/45’ mat_name=,Kpyr 12/45’ Встречается в полях свободного формата Дублирующиеся записи Материал1=(id= 1231, паше=’Круг 10/45’,...) Материал2=(1с1=1248, паше=’круг 10/45’,...) Ошибки вода приводят к появлению записей, описывающих один и тот же объект.
Противоречивые записи
паше=’Круг 10/45 ГОСТ 1050-74’ паше=’круг 12/45 ГОСТ 1050-78’ Также являются следствием ошибок ввода Источник Неправильные ссылки деталь = (id=1212, obozn=’nC-00.00.06’, паше=’рукоять’, mat_codc= 119 Материал с кодом 119 существует, но не является материалом данной детали В случае интеграции данных из различных источников перечисленные проблемы еще более усугубляется.
Это происходит в результате того, что в различных информационных подсистемах существуют перекрывающиеся описания одних и тех же объектов, которые могут дублировать друг друга, противоречить друг другу.
Поля, описывающие в различных источниках одни и те же характеристики объекта, могут иметь разное наименование, несовпадающие типы и т.д.
Для устранения проблем, описанных выше, требуется проведение ряда последовательных действий над извлеченными данными
[83].
Анализ данных является первым шагом по очистке данных.
Суть его заключается в определении существующих проблем качества данных и их спецификации.
Полученная спецификация должна стать своего рода техническим заданием для проведения процесса очистки данных.
Следующим шагом является определение порядка и правил преобразования данных.
В ходе этого этапа определяется последовательность устранения выявленных проблем и методы, используемые для этого.
Как
правило, сначала устраняются проблемы на

[Back]