Проверяемый текст
Мутин Денис Игоревич. Управление гетерогенными данными в корпоративной информационной системе на основе XML-технологий (Диссертация 2009)
[стр. 14]

14 1.2.
Обзор методов интеграции данных на основе ХМЬ-технологий В настоящий момент информационное пространство практически любого предприятия организовано из различных секторов, что усложняет доступ к информации в связи с различиями в способах ее хранения, вплоть до того, что каждая база данных, электронная таблица или \\^еЬ-сайт требуют специальных программ для извлечения данных [58].
Таким образом, «границы» между источниками данных не только сдерживают использование информации для анализа, но и увеличивают расходы, связанные с процессом создания запросов и транзакций, пересекающих «границы» данных.

Для создания единого информационного пространства, необходимо применение технологий, которые предоставляли бы возможность унифицированного доступа к этим данным, как если бы они имели единое логическое и физическое представление
[54].
Процесс интеграции данных включает в себя: • перемещение или копирование данных из многочисленных источников в хранилище объединенных данных; • обеспечение доступа к данным многочисленных источников; • обеспечение запросов данных из нескольких источников, объединения структурированных и неструктурированных данных и сохранение их (например, в хранилище промежуточного уровня) для последующего доступа.

Существует три основных метода интеграции данных
[108]: консолидация, федерализация, распространение.
Консолидация данных.
При использовании этого метода данные собираются из нескольких первичных систем и интегрируются в одно постоянное место хранения.
Такое место хранения может быть использовано для подготовки отчетности и проведения анализа или как источник данных для других приложений.

Консолидация данных это основной подход, который используется приложениями хранилищ данных для построения и поддержки оперативных
[стр. 19]

19 доступ к информации в связи с различиями в способах ее хранения, вплоть до того, что каждая база данных, электронная таблица или \УеЬ-сайт требуют специальных программ для извлечения данных [7].
Таким образом, «границы» между источниками данных не только сдерживают использование информации для анализа, но и увеличивают расходы, связанные с процессом создания запросов и транзакций, пересекающих «границы» данных.

Объединение данных становится высшим приоритетом для менеджеров компании, так как процесс принятия решений продолжает требовать доступ ко все большим объемам новых данных.
Большинство этих данных поступает в неудобной и слабоструктурированной форме: начиная с огромного количества страниц Ехсе1, кончая отчетамрг в файлах формата РЭР и 1УеЪ страницах.
Количество информации, которую необходимо собрать, растет постоянно, так как новые аспекты для анализа и новые данные о поступлениях на рынок в некоторых отраслях появляются каждую минуту.
Для создания единого информационного пространства, необходимо применение технологий, которые предоставляли бы возможность унифицированного доступа к этим данным, как если бы они имели единое логическое и физическое представление
[8].
Процесс интеграции данных включает в себя: • перемещение или копирование данных из многочисленных источников в хранилище объединенных данных; • обеспечение доступа к данным многочисленных источников; • обеспечение запросов данных из нескольких источников, объединения структурированных и неструктурированных данных и сохранение их (например, в хранилище промежуточного уровня) для последующего доступа.

1,2.2.
Методы интеграции данных Существует три основных метода интеграции данных [9]: • консолидация;

[стр.,20]

■> 20 Консолидация данных.
При использовании этого метода данные собираются из нескольких первичных систем и интегрируются в одно постоянное место хранения.
Такое место хранения может быть использовано для подготовки отчетности и проведения анализа или как источник данных для других приложений.

централизованные данные ' > !• 'V г: • 'Ж' • .4 :-‘к При использовании этого метода обычно существует некоторая в первичных системах и тяются в конечном месте хранения: Термин «режим, приближенный к реальному времени» часто используется ■ " г " ' ": *‘.................
• :'г" '' для описания конечных данных, обновление которых отстает от источника на несколько секунд, минут или часов.
■$.
места* хранения данных, содержащие данные с большими .................
' * 11 ......................................
отставания одного дня), создаются с помощью •ъ .
1 11т которые извлекают данные из с систем с определенными, заранее заданными интервалами.
Такой /Г-Г .
.
V : * *" юдхОд использует запросы к данным, которые получают периодические -------------------Хотя подобные запросы получают : ■' ? ;<;Щт ' г : " ’ ” ' «.V ■ { ±1

[стр.,21]

21 текущие данные, они не отражают тех изменений, которые произошли между двумя последовательными запросами.
А за это время данные могли обновляться несколько раз.
Конечные места хранения данных с небольшим отставанием обновляются с помощью оперативных приложений интеграции данных, которые постоянно отслеживают и передают изменения данных из первичных систем в конечные места хранения.
Такой подход требует от приложений консолидации данных, чтобы они могли идентифицировать те изменения данных, которые необходимо зафиксировать для консолидации.
Для этого обычно используются определенные формы метода захвата изменений данных.
В данном случае в результате выполнения задачи по захвату изменений будут получены все изменения, которые произошли в первичных данных.
Методы извлечения и передачи могут использоваться вместе.
Например, оперативное приложение передачи данных может накапливать изменения данных в какой-то области промежуточного хранения, а пакетное приложение извлечения данных может обращаться к нему через определенные интервалы.
При этом важно понимать, что метод передачи зависит от того, происходят ли определенные события, а метод извлечения работает по требованию.
Преимуществом консолидации данных является то, что этот подход позволяет осуществлять трансформацию значительных объемов данных (реструктуризацию, согласование, очистку и/или агрегирование) в процессе их передачи от первичных систем к конечным местам хранения.
Некоторые сложности, связанные с данным подходом, — это значительные вычислительные ресурсы, которые требуются для поддержки процесса консолидации данных, а также существенные ресурсы памяти, необходимые для поддержки конечного места хранения.
Консолидация данных это основной подход, который используется приложениями хранилищ данных для построения и поддержки оперативных

[Back]