Понятие GRID. DataGRID и вычислительный GRID. Виртуальная организация. Архитектура GRID, описание протоколов, сервисов, API и SDK. Уровни GRID

Автор работы: Пользователь скрыл имя, 21 Декабря 2011 в 23:21, реферат

Описание

В 1989 году сотрудник Европейского центра ядерных исследований (ЦЕРН, Женева) Тим Бернерс-Ли изобрел принципиально новый способ свободного доступа в Сеть - World Wide Web (WWW - Всемирная Паутина). Сегодня ЦЕРН вновь, фактически, становится инициатором дальнейшей эволюции интернета - создается система распределенных компьютерных вычислений GRID.

Работа состоит из  1 файл

Понятие GRID.doc

— 212.50 Кб (Скачать документ)

Другой общей  характеристикой grid-ресурсов, важной для  принятия архитектурного решения, является производительность вычислений. Требование к производительности еще больше усиливает эффект разделения по размерам, поскольку напрямую сталкивается с гетерогенностью ресурсов. Так, если производительность вычислений не критична, то для получения удаленных файлов можно воспользоваться HTTP (HyperText Transport Protocol). Однако, если производительность значима, необходимо предложить существенно отличные механизмы доступа, например параллельную передачу данных по широкополосной сети от удаленного параллельного компьютера к локальному параллельному компьютеру. Таким образом, глобальная высокопроизводительная вычислительная сеть требует новых решений относительно проблем доступа к данным.

Конечные  системы

Индивидуальные  конечные системы: - компьютеры, системы  хранения данных, сенсоры и прочие устройства характеризуются сравнительно малыми размерами и высокой степенью гомогенности и интегрированности. Обычно они содержат не более чем несколько десятков совместимых компонент оборудования (процессоры, диски, и т.п.), а также программное обеспечение, разработанное для достижения максимальной управляемости и обеспечения наилучшей производительности.

Конечная система: - это наиболее простая и хорошо изученная система в grid. Ее базовые  функции обеспечиваются операционной системой и предоставляют абсолютный контроль над ресурсами. Операционная система осуществляет аутентификацию пользователя, служит медиа-средой для работы с ресурсами, доступа к файлам, межпроцессного взаимодействия и т.п. Высокая интегрированность оборудования и операционной системы позволяет реализовать высокопроизводительные функции, такие как виртуальная память и функции быстрого ввода-вывода. С точки зрения разработчика приложений конечная система обладает большим количеством высокоуровневых языков и средств программирования и дает возможность быстро, просто, эффективно решать вычислительные задачи.

Главный недостаток большинства конечных систем это, - недостаток возможностей для эффективной  интеграции с большими кластерами, интранет и интернет. Основные направления  развития конечных систем, исходя из позиций grid-концепции, включают: развитие возможностей операционной системы по поддержке работы в кластерной среде, улучшение интеграции с сетью и реализация поддержки переносимого кода (последняя проблема значительно затрагивает вопросы безопасности).

Кластеры

Кластеры или  сети рабочих станций, - объединения  компьютеров, соединенных высокоскоростной локальной сетью и использующихся в качестве единого вычислительного  или информационного ресурса. Также  как и индивидуальная конечная система, кластер гомогенен, т.е. состоит из систем, имеющих одинаковую базовую структуру, отличающихся в основном своей конфигурацией. Единое административное управление кластера полностью контролирует каждую конечную систему. Ниже приведены два основных отличия кластера от индивидуальной конечной системы:

  1. Увеличение физических размеров (кластер может состоять из сотен или тысяч процессоров). В результате требуется использовать другие алгоритмы для реализации управления ресурсами и контролирующих функций;
  2. Ослабление интегрированности: сборка кластера производится из большого числа стандартных, серийных деталей, что приводит к меньшей интегрированности частей кластера по сравнению с конечной системой. Из-за этого, в частности, снижается производительность определенных функций кластера, например, его коммуникаций.

Возросшая размерность  и ослабленная интегрированность  усложняют реализацию базовых функций, а также приводят к необходимости  разработки новых функций, отсутствующих  в конечной системе ввиду их ненужности. Результат может привести либо к уменьшению производительности на уровне приложений, либо к необходимости создания программных архитектур, модифицирующих и расширяющих системные функции у конечных систем.

Например, для  выполнения параллельного приложения на одно- или многопроцессорной конечной системе обычно используются специализированные коммуникационные библиотеки, наподобие MPI, или создаются несколько нитей, читающих и записывающих данные через разделяемое адресное пространство. В кластере реализация MPI-приложений осложняется тем, что серийные части кластера, как правило, поддерживают исключительно коммуникационный протокол TCP. Разделяемая память подразумевает единое адресное пространство для всех нитей, однако в кластере очевидна множественность адресного пространства. Эти проблемы обходятся за счет реализации логического разделяемого пространства, переводящего локальные адреса в глобальные. Для обеспечения малых задержек и большей пропускной способности и, как следствие повышения производительности, создатели кластеров модифицируют сетевые протоколы, работу операционных систем с сетевыми интерфейсами, или непосредственно меняют коммуникационное оборудование. Аналогичная картина наблюдается и при реализации других функций, таких как создание процесса, управление процессом, реализация системы ввода-вывода и т.п.

Суммируя вышесказанное, заметим, что сложность реализации существующих функций и разработки новых увеличивается по мере повышения  требований к производительности системы.

В будущем развитие кластерной архитектуры будет определяться следующими тремя направлениями:

  1. Повышение производительности потребует улучшения интегрированности, как на аппаратном уровне, так и на уровне операционной системы
  2. Изменяющиеся параметры требуют создания новых пользовательских и системных функций;
  3. Экономические причины приводят к необходимости продолжения использования серийного оборудование, даже в ущерб производительности и интегрированности.

Кластеры должны работать с входящими в их состав конечными системами, так же свободно как архитектуры конечных систем производят операции с сетью и памятью.

Интранет

Интранет объединяет потенциально большое число ресурсов, принадлежащих одной организации. Как и кластер, интранет предполагает единый административный контроль, однако при более высоком уровне координации ресурсов. В целом интранет присущи три осложняющих фактора:

  1. Гетерогенность: т.е. конечные системы и сети, использующиеся в интранет, имеют различные типы и характеристики. Поддержание единого образа системы на всех компонентах интранет невозможно;
  2. Раздельное администрирование: индивидуальные системы администрируются разными администраторами и различными способами, что усиливает гетерогенность и приводит к необходимости согласовывать потенциально конфликтные политики;
  3. Недостаток общих сведений: наличие двух вышеописанных факторов и возросшего числа систем является невозможность четкого описания общего состояние систем в интранет на определенный момент времени.

Программные технологии, разрабатываемые для интранет, в первую очередь затрагивают проблемы физической и административной гетерогенности. Набор функций для интранет проще и значительно менее интегрирован, чем для кластера. В основном эти функции касаются проблем разделения данных (распределенные файловые системы, базы данных, web-сервисы) или обеспечения доступа к специфическим службам. Координация работы многочисленных ресурсов поддерживается слабо. Доступ к удаленным нелокальным ресурсам зачастую требует обращения к высокоуровневому интерфейсу с последующим подключением к среде, требующей полной аутентификации, согласования форматов и проверки ошибок. Тем не менее, централизованный административный контроль означает, что определенная доля единообразия механизмов и интерфейсов все-таки имеется: например, все системы работают в единой распределенной файловой системе или под управлением единого планировщика заданий, или все системы находятся за фаерволом, что увеличивает защищенность интранет.

Обычно в программной  инфраструктуре интранет используется DCE (Distributed Computing Environment), DCOM и CORBA. В подобных системах программы обычно обращаются к ресурсам неявно, посредством установленных сервисных служб. Модели, разработанные для отдельных случаев, обычно имеют слабое представление друг о друге. Коммуникации осуществляются через TCP/IP для обеспечения переносимости приложений, но в ущерб производительности системы. Иногда, для больших интранет, разрабатываются группы специальных коммуникационных протоколов, использующихся для обмена сообщениями о событиях, происходящих в системе, таких, например, как ISIS или Totem.

Ограниченный  централизованный контроль позволяет  использовать распределенные системы  очередей, такие как LSF (Local Sharing Facility), Codine и Condor, предоставляющие частично унифицированный доступ к компьютерным ресурсам. Подобные системы обеспечивают некоторую поддержку удаленного управления вычислениями, например, распределяя ограниченное число сигналов по процессам через локальные серверы. Однако требования защищенности, и политики безопасности препятствуют полноценному переносу этих решений на большие интранет.

Единый доступ к данным предоставляется посредством  технологий глобально распределенных файловых систем (таких как DFS), технологий распределенных баз данных или доступа  к удаленным базам данных (посредством, сервисов SQL). Высокопроизводительный параллельный доступ к данным может обеспечиваться и более специализированными системами, например, High Performance Storage System.

Гетерогенность, выросшие размеры и распределенность среды интранета приводит к необходимости создания новых функций и сервисов. Обеспечение открытости ресурсов требует поддержки доступных по сети механизмов оповещения об именах, местоположении и других характеристиках ресурсов. Понижение уровня доверия и увеличение числа внешних обращений к ресурсам обуславливают использование технологий защиты информации. Для обеспечения безопасности в интранет-сетях реализуются системы, наподобие Kerberos.

В будущем, помимо продолжения работ по проектированию моделей программирования и функций (процедурных вызовов, файловых систем и т.п.) интранет, потребуется, значительно увеличить усилия по адаптации легковесных моделей взаимодействия (изначально разработанных для кластеров) для интранет, а также разработать специальные интерфейсы функций, направленные на повышение производительности сетевых приложений.

Интернет

Последний тип  систем, является наиболее широким  из имеющих отношение к сетевым  вычислениям. Интернет-объединение  систем, охватывает множество разнообразных  и разнородных организаций. Так же, как и интранет, интернет склонен к расширению размеров и гетерогенности. Однако непосредственно в интернет добавляются три принципиальных фактора.

  1. Недостаток централизованного контроля: отсутствует централизованное управление организации политик и гарантия качества ресурсов, наоборот, и то, и другое отличается огромным разнообразием;
  2. Географическая распределенность: интернет связывает пространственно удаленные ресурсы. Распределенность приводит к тому, что на локальном и на кластерном уровнях сетевые характеристики существенно различаются;
  3. Международные проблемы: как только grid-сеть пересекает границы отдельной страны, она сталкивается с существованием иных, принципиально отличных политик управления и контроля над сетями.

Подходы, эффективные  для интранет, для интернет не подходят, как из-за выросшей размерности, так  и из-за отсутствия централизованного  управления. Предположение о том, что пользователь или ресурс может  что-либо сделать в отношении  другого ресурса, приводит к необходимости реализации принципов открытости (доступности) и согласования политик.

Интернет требует  новых подходов. Например, проблема защиты информации. При работе в  интернет пользователь должен обладать соответствующим уровнем доверительности  в отношении всех ресурсов, используемых в процессе вычисления. Решением подобной проблемы может быть введение механизма делегирования прав, что означает, что сайт В дает доступ к ресурсам пользователю С, если ему доверяет сайт А, с которым у сайта В существуют формальная договоренность о защите информации. Разработка подобных механизмов до сих пор остается на уровне исследования.

Другим примером является проблема совместного планирования. В интранете логично предположить, что все ресурсы работают с  одним единственным планировщиком (LSF, в коммерческом варианте, или Condor, в научной или в образовательной системе). В интернете помимо этого требуются средства планирования для распределения задач среди множества доступных распределенных ресурсов. Обычные системы планирования, здесь не подходят, поэтому необходимо создать специальное grid-приложение, получающее сведения о политиках планирования, применяемых к разным ресурсам, и косвенно или напрямую влияющее на локальное планирование.

В настоящее  время для интернет применяются  и используются три направления развития функций вычислительных сетей: - обычные технологии, Legion и Globus.

Обычные технологии в настоящее время активно  развиваются и успешно применятся в Internet и Web, в том числе для  коммерческого обмена и электронного информационного обеспечения. Эти технологии основываются на трехрядной архитектуре, в которой средняя часть - серверы приложений создают среду между точками сосредоточения ресурсов, отличаются сложностью, комплексностью, и потенциально простыми конечными системами пользователей. При этом grid приложения поддерживаются в данном случае, также как специализированные высокопроизводительные ресурсы и серверы приложений.

Информация о работе Понятие GRID. DataGRID и вычислительный GRID. Виртуальная организация. Архитектура GRID, описание протоколов, сервисов, API и SDK. Уровни GRID