Автор работы: Пользователь скрыл имя, 12 Декабря 2010 в 18:03, курсовая работа
Современная бизнес – среда характеризуется такими проблемами, как возрастающая глобализация, необходимость поддерживать устойчивый рост на уже сложившихся рынках и дальнейшее ужесточение законодательных требований; конфликт между стремлением сделать корпорацию более гибкой за счет упрощения бизнес-процессов и IT-систем; необходимостью обрабатывать значительные объемы информации (лавинообразный рост количества данных).
Решение этих проблем – оперативная, согласованная и легкодоступная информация.
Целью интеграции данных является получение единой и цельной картины корпоративных бизнес – данных, а также формирование знаний.
Без интеграции данных в единое целое информационное пространство сложно говорить о пространстве знаний предприятия и об инновационном развитии в целом.
Современная экономика требует архитектурного подхода к интеграции информации, который позволит работать с реальными данными, даже если они иногда являются непоследовательными или неполными.
Существуют три основных метода интеграции данных консолидация, федерализация и распространение данных. Также будет рассмотрена классификация технологий интеграции данных.
Введение 3
Цели и задачи интеграции данных 4
Основные проблемы в области интеграции данных 4
Причины неудач глобальных интеграционных проектов 5
Методы интеграции данных 9
Значение Хранилищ данных 14
Классификация технологий интеграции 18
Правительственный шлюз в интеграции информационных систем 20
Брокер сообщений 20
Основные стандарты XML и веб-служб 25
Базовые принципы применения XML и веб-служб для организации межведомственного взаимодействия 26
Платформа интеграции Microsoft .NET 28
Реализации архитектуры и инфраструктуры интеграции на примере Microsoft BizTalk Server 28
Заключение 29
Список литературы 30
Небольшое количество технически квалифицированного персонала, способного создать программное обеспечение для работы в этих непростых условиях, означает довольно высокий уровень риска. Ограниченное число представителей бизнеса, обладающих полномочиями для согласования приоритетов с основной массой организации, подверженной постоянным переменам, существенно сокращает выбор потенциальных кандидатов на роль управляющих глобальными интеграционными проектами.
Своевременное
осуществление глобального
Существует три основных метода интеграции данных.
При использовании этого метода данные собираются из нескольких первичных систем и интегрируются в одно постоянное место хранения. Такое место хранения может быть использовано для подготовки отчетности и проведения анализа, как в случае Хранилища данных, или как источник данных для других приложений, как в случае операционного склада данных.
При
использовании этого метода обычно
существует некоторая задержка между
моментом обновления информации в первичных
системах и временем, когда данные
изменения появляются в конечном
месте хранения. В зависимости
от потребностей бизнеса такое отставание
может оставлять несколько
Конечные места хранения данных, содержащие данные с большими временами отставания (например, более одного дня), создаются с помощью пакетных приложений интеграции данных, которые извлекают данные из первичных систем с определенными, заранее заданными интервалами. Такой подход использует запросы к данным, которые получают периодические "мгновенные снимки" первичных данных. Хотя подобные запросы получают текущие данные, они не отражают тех изменений, которые произошли между двумя последовательными запросами. А за это время данные могли обновляться несколько раз.
Конечные
места хранения данных с небольшим
отставанием обновляются с
Методы извлечения и передачи могут использоваться вместе. Например, оперативное приложение передачи данных может накапливать изменения данных в какой-то области промежуточного хранения, а пакетное приложение извлечения данных может обращаться к нему через определенные интервалы. При этом важно понимать, что метод передачи зависит от того, происходят ли определенные события, а метод извлечения работает по требованию.
Бизнес-приложения, которые обрабатывают консолидированный склад данных, могут генерировать запросы к этим данным, создавать отчеты на их основании и проводить анализ данных. Как правило, эти приложения не могут производить обновления консолидированных данных из-за проблем, связанных с синхронизацией подобных обновлений с первичными системами данных. Тем не менее, некоторые программные продукты для интеграции данных все же предлагают возможности записи, обеспечивая средства решения конфликтов данных, которые могут иметь место между обновленными данными в консолидированном складе и первичными системами.
Некоторые
приложения производят обновления консолидированного
склада данных и передают эти изменения
назад в первичные системы. Примером
такой системы является конечный
склад данных, который используется
для создания еженедельной модели ценообразования.
Модель может быть оптимизирована и
обновлена в течение недели, а
затем снова загружена в
Преимуществом консолидации данных является то, что этот подход позволяет осуществлять трансформацию значительных объемов данных (реструктуризацию, согласование, очистку и/или агрегирование) в процессе их передачи от первичных систем к конечным местам хранения. Некоторые сложности, связанные с данным подходом, - это значительные вычислительные ресурсы, которые требуются для поддержки процесса консолидации данных, а также существенные ресурсы памяти, необходимые для поддержки конечного места хранения. Но с учетом постоянно совершенствования аппаратных средств это не проблема.
Консолидация данных - это основной подход, который используется приложениями Хранилищ данных для построения и поддержки оперативных складов данных и корпоративных Хранилищ. Консолидация данных также может найти применение для создания зависимой витрины данных, но в этом случае в процессе консолидации используется только один источник данных (например, корпоративное Хранилище). В среде Хранилищ данных одной из самых распространенных технологий поддержки консолидации является технология ETL (извлечения, преобразования и загрузки - extract, transform, and load). Еще одна распространенная технология консолидации данных - управление содержанием корпорации (enterprise content management, сокр. ECM). Большинство решений ECM направлены на консолидацию и управление неструктурированными данными, такими как документы, отчеты и web-страницы.
Обеспечивает единую виртуальную картину одного или нескольких первичных файлов данных. Если бизнес-приложение генерирует запрос к этой виртуальной картине, то процессор федерализации данных извлекает данные из соответствующих первичных складов данных, интегрирует их таким образом, чтобы они отвечали виртуальной картине и требованиям запроса, и отправляет результаты бизнес-приложению, от которого пришел запрос. По определению, процесс федерализации данных всегда заключается в извлечении данных из первичных систем на основании внешних требований. Все необходимые преобразования данных осуществляются при их извлечении из первичных файлов. Интеграция корпоративной информации (Enterprise information integration, сокр. EII) - это пример технологии, которая поддерживает федеративный подход к интеграции данных.
Один
из ключевых элементов федеративной
системы - это метаданные, которые
используются процессором федерализации
данных для доступа к первичным
данным. В некоторых случаях эти
метаданные могут состоять исключительно
из определений виртуальной
Некоторые
федеративные решения могут обеспечивать
дополнительные бизнес-метаданные, которые
отражают семантические связи между
элементами данных в первичных системах.
Примером таких данных являются данные
о потребителях. Метаданные могут
содержать общий индикатор
Считается, что основное преимущество федеративного подхода - тот факт, что он обеспечивает доступ к текущим данным и избавляет от необходимости консолидировать первичные данные в новом складе данных. Но следует помнить, что федерализация данных не очень хорошо подходит для извлечения и согласования больших массивов данных или для тех приложений, где существуют серьезные проблемы с качеством данных в первичных системах. Еще один существенный фактор - потенциальное влияние на производительность и дополнительные затраты на доступ к многочисленным источникам данных во время выполнения программы.
Федерализацию данных можно использовать в тех случаях, когда стоимость консолидации данных перевешивает бизнес-преимущества, которые она предоставляет. Оперативная обработка запросов и подготовка отчетов могла бы служить примером подобной ситуации. Федерализация данных также, вероятно, оказалась бы полезной в тех случаях, когда политика безопасности данных и лицензионные ограничения запрещают копирование данных первичных систем. Обычно в эту категорию попадают синдикаты данных. Помимо этого, федерализация могла бы использоваться как кратковременное решение для интеграции данных после приобретения или слияния компаний. Но в целом, как показывает опыт, даже в названных выше ситуациях консолидация данных часто оказывается более приемлемым решением, чем федерализация.
Изучение и профилирование первичных данных, необходимые для федерализации, несильно отличаются от аналогичных процедур, требуемых для консолидации. Таким образом, организациям стоит использовать такие продукты для интеграции данных, которые поддерживают как федерализацию, так и консолидацию, или, по крайней мере, продукты, которые могут обеспечивать совместное использование метаданных, необходимых для обоих подходов.
Федеративная
архитектура очень полезна для
крупных транснациональных
Необходимо отметить, что в англоязычной литературе термин federated data warehouse сейчас используется в двух разных значениях. Часть специалистов подразумевает под федеративным Хранилищем создание виртуальной структуры, оперирующей с выборками данных. Другие называют федеративным Хранилищем единый физический репозиторий, работающий с копиями данных, который другими словами может быть назван распределенным Хранилищем.
Осуществляют копирование данных из одного места в другое. Эти приложения обычно работают в оперативном режиме и производят перемещение данных к местам назначения, т.е. зависят от определенных событий. Обновления в первичной системе могут передаваться в конечную систему синхронно или асинхронно. Синхронная передача требует, чтобы обновления в обеих системах происходили во время одной и той же физической транзакции. Независимо от используемого типа синхронизации, метод распространения гарантирует доставку данных в систему назначения. Такая гарантия - это ключевой отличительный признак распространения данных. Большинство технологий синхронного распространения данных поддерживают двусторонний обмен данными между первичными и конечными системами. Примерами технологий, поддерживающих распространение данных, являются интеграция корпоративных приложений (Enterprise application integration, сокр. EAI) и тиражирование корпоративных данных (Еnterprise data replication, сокр. EDR).
Большим преимуществом метода распространения данных является то, что он может быть использован для перемещения данных в режиме реального времени или близком к нему. Другие достоинства включают гарантированную доставку данных и двустороннее распространение данных. Доступность многих из этих удобств зависит от конкретного продукта. Метод распространения данных может также использоваться для уравновешивания рабочей нагрузки, создания резервных копий и восстановления данных, в том числе в случае чрезвычайных ситуаций.
Практическое применение этого метода отличается достаточно большим разнообразием, как в плане производительности, так и в отношении возможностей реструктуризации и очистки данных. Некоторые корпоративные продукты распространения данных могут поддерживать перемещение и реструктуризацию крупных массивов данных, тогда как продукты EAI часто имеют ограниченные возможности передвижения большого количества данных и их реструктуризации. Одна из причин подобного различия - тот факт, что в центре архитектуры тиражирования корпоративных данных лежат данные, а в центре технологии EAI - сообщения или транзакции.
Методы, используемые приложениями
интеграции данных, зависят как
от нужд бизнеса, так и от
технологических требований. Достаточно
часто приложение интеграции
данных использует так