UP: 4.7 Прикладные сети Интернет
Next: 4.7.2 Сеть для науки ESNet (США)

4.7.1 Сети GRID
Семенов Ю.А. (ГНЦ ИТЭФ)

(Обзор подготовлен по заказу ИАЭ им Курчатова)

Типы GRID	Важные стандарты GRID/Web-сервисов
Виртуализация	Вычислительные GRID
Информационные GRID	Коллаборационные GRID
Правительственные GRID	Прикладные GRID
Базовые стандарты GRID	Подход #1 - Открытые исходные тексты и общедоступные загружаемые модули
Подход #2 - Независимые поставщики ПО GRID	Подход #3 - Решения под ключ
Сравнение поставщиков	Два самых важных понятия
Пета каналы	Несоответствие переноса
Ограничения L3 и общедоступных сетей для e-Science с интенсивным обменом данными	e-Science (Зачем нужны GRID и Супер-ЭВМ?)
Три основные задачи	Сети, а не компьютеры - важны для приложений e-Science
Общий вид инфраструктуры e-Science	Оптическая передача быстрее дисковой
Ограничения пакетной коммутации для для приложений с большими потоками информации. Неэффективность решений переадресации	Оптические сети GRID
Транспортный протокол E2E для датаемких приложений	Сетевой подход к программированию GRID
Функциональный блок безопасности узлов	OGSA/OGSI. Практическая точка зрения
Стандарты, поддерживающие GRID-вычисления. OGSA	Основные функциональные требования
Переключение элементов в l- сети	Раздел оптических данных
Программное обеспечение инфраструктуры GRID	Программное решение GLOBUS
Система Gridge	GridFTP
Требования безопасности	Ссылки

Прогресс в области разаботки новых вычислительных устройств и сетевых технологий впечатляет. Только за последние 15 лет тактовая частота персональных машин выросла с 10 МГц до 5ГГц (500 раз), а пропускная способность сетей с 10 Мбит/с до 100 Гбит/с (10000 раз).

Но не за горами некоторые принципиальные ограничения, например, постоянная времени поляризации диэлектрика равна 10^-13сек, что устанавливает верхний предел на тактовую частоту любых операций на уровне ~10¹³ Гц. (ТГц).

Трудно себе представить, что человечество смирится с ограничениями вычислительных возможностей. Одним из путей решения проблемы – параллельное выполнение большого числа операций и распределенная структура вычислительной системы. Такие технологии уже используются, например, при построении Ethernet-интерфейса для скорости 10 Гбит/сек (смотри Fast Ethernet).

Связь между производительностью вычислителя и потребной пропускной способностью каналов обмена устанавливает эмпирический закон Amdahl, который утверждает, что каждому миллиону операций в секунду процессора должна соответствовать пропускная способность ввода/вывода, равная мегабиту в секунду.

В какой-то мере техника WWDM (Wide Wavelength Division Multiplexing) может быть отнесена к методике распараллеливания операций.

Технология GRID полностью укладывается в эти рамки. Она позволила существенно снизить стоимость выполнения вычислительных операций.

GRID позволяет выявить и использовать свободные вычислительные ресурсы. Эта система для передачи программ и данных использует стандартные каналы и протоколы (Ethernet, SDH, ATM, TCP/IP, MPLS и т.д.). Преимущества GRID особенно значимы для задач, где допускается распараллеливание расчетов. Пока не сложилось точное определение того, что следует считать GRID. К этому классу относят и системы со специализированными шинами или сетевыми сегментами (область супер-ЭВМ) и системы объединенные через Интернет (слабо связанные GRID). Технология GRID, решая свои проблемы, сама становится движущей силой при разработке новых сетевых технологий (напр. GRIDFTP и др.).

Широкое внедрение в телекоммуникации оптоволоконики (смотри оптоволокно) открывает дополнительные возможности, в том числе и для систем GRID. Так как для получения требуемой полосы пропускания достаточно 2нм в окне прозрачности волокна, открываются возможности мультиплексирования десятков потоков в пределах одного волокна.

При современных скоростях обмена (более 1 Гбит/с) транспортный протокол ТСР (L4) стал ограничивать эффективность обмена (см. модели реализации и модификации протокола в модели). Проблемы возникают при больших произведениях полосы пропускания B и RTT.

В последние годы в связи с мультимедиа разработаны методы и протоколы гарантии качества обслуживания QoS. Это, прежде всего, RSVP-TE (см. IntServ) и MPLS-TE (см. DiffServ). Для динамического формирования приоритетных потоков более привлекателен MPLS-TE (разделение потоков по флагам DSCP) особенно в случае единого сервис-провайдера. Но при соединениях точка-точка это не существенно.

Техника гарантии QoS позволяет разделить информационные потоки по приоритетам, а это в свою очередь позволяет оптимизировать вычислительный процесс в распределенной среде. Одной из проблем в этом случае оказывается отсутствие совместимой техники гарантии QoS в LAN и WAN.

Для обеспечения QoS может использоваться протокол IEEE 802.17 (RPR - Resilient Packet Ring, смотри 802.17).

Появление протокола (GMPLS) открывает дополнительные возможности в сфере передаче программ и данных. Поскольку протокол GMPLS практически работает на уровне L1, значение RTT оказывается минимизированным.

По своей природе GMPLS в некоторых случаях имеет проблемы с поддержкой динамической маршрутизации, да и время реконфигурации из-за механической перенастройки зеркал достаточно велико.

Здесь соединение происходит по схеме Е2Е и по этой причине не возникает необходимости в буферизации (отсюда следует минимизация RTT).

Первичная роль архитектуры GRID состоит в использовании незадействованных ресурсов.
SOA (Service Oriented Architecture – архитектура, ориентированная на сервис) - хотя GRID может работать без архитектуры, ориентированной на сервис, бизнес и руководители IT служб, должны понять, что построение SOA, крайне желательно. Веб-сервисы на основе SOA позволяют исключить межпрограммные и информационные обмены – что способствует рационализации операций, увеличению производительности, большей гибкости и низкой стоимости вычислений.
Business Process Flow (управление бизнес-процессами) - как только появляется архитектура, ориентированная на сервис, предприятие может начинать вести бизнес-процессы прозрачным способом, используя существующие информационные системы.

Сети на основе GRID могут быть использованы для:

Улучшения использования существующих вычислительных ресурсов, путем уменьшая административных издержек, связанных с управлением распределенными гетерогенными информационными системами.
Ускорения процесса пакетной обработки данных.
Управления рабочей загрузкой доступных ресурсов.
Для понижения стоимости выполнения больших и сложных рабочих заданий.
Обеспечения безопасного доступа к данным в больших распределенных системах.
Приобретения дополнительной вычислительной мощности и приложений на основе принципа запросов (называемого “utility computing”), чтобы удовлетворить запросы вычислительной мощности в случае пиковых потребностей и обеспечить доступ к приложениям на основе свободной подписки.
Более простого взаимодействия с внутренними или внешними организациями.
Уменьшения сложности и стоимости управления системами/памятью/сетью.

Некоторые из более ранних коммерческих версий нашли применение в следующих отраслях промышленности:

Космос и автомобилестроение (для совместного проектирования и моделирования).
Архитектура (разработка и строительство).
Электроника (проектирование и испытания).
Энергетика (для разведки месторождений нефти и газа).
Финансы/страхование/недвижимость (ценные бумаги и маклерство и особенно для управления портфелями ценных бумаг и анализа рисков).
Науки о жизни (особенно в фармацевтике)
В производстве (совместное проектирование и управление процессами для компактных и распределенных групп участников)
СМИ/развлечения (для производства цифровой анимации)
Сфера обслуживания (для улучшения эффективности, когда спрос варьируется в широких пределах)

Центр Развертывания и Поддержки Интеграции Исследования GRID, предлагает обширный список проектов GRID, www.grids-center.org/news/news_deployment.asp. Сопоставим плюсы и минусы технологии GRID.

Минусы

GRID до сих пор не идеален для диалоговой обработки запросов реального времени. OLTP - вертикально масштабируемые системы, являются более подходящими;
Средства разработки программных средств GRID нуждаются в усовершенствовании (необходимо улучшить интеграцию Веб-сервисов с инструментами их разработки).
В целом GRID не используются для поддержки деятельности экстра- предприятий сетевого типа.

Плюсы

GRID стал более совершенным и вышел на коммерческий рынок.
Стоимость и качество пакетов программ GRID улучшилось.
GRID утилиты стали приобретать рыночный вид.
На рынок GRID вышли новые производители (наиболее заметные из них: Oracle (Oracle Database и Oracle Application Server), Adobe и Tsunami Research).
Распределенное управление GRID, согласование, и обеспечение различными средствами существенно улучшилось.
GRID пробиваются в коммерческую среду через «черный ход», как и “GRID in a box” (конфигурация на основе Linux).
История разработки GRID известна - цели стандартизации GRID достаточно очевидны (смотри раздел “Базовые стандарты GRID”).
Ясны критерии, по которым можно оценивать и измерять продукты и услуги. Большинство поставщиков предоставляют загружаемые средства разработки GRID и инфраструктурные компоненты, которые могут быть использованы для формирования вычислительной/информационной/коллаборационной среды.. Независимые поставщики предлагают средства для разработки, промежуточное ПО и различные грид-приложения – разработанные для того, чтобы помочь предприятиям быстро развернуть все функции GRID. Разработчики оригинальных программных и аппаратных продуктов, сотрудничают с независимыми поставщиками и провайдерами, создавая решения, которые включают дизайн, развертывание, и услуги управления. Некоторые поставщики предлагают продукты, были особенно напористы в интеграции управления бизнес-процессами в рамках архитектуры SOA ("архитектура, ориентированная на услуги").

1.1. Типы GRID

В настоящее время существует три типа GRID:

Вычислительные GRID - ориентированы на то, чтобы объединять вычислительную мощность для ресурсоемких вычислительных проектов.
Информационные GRID - обеспечивают вычислительные ресурсы, для анализа крупномасштабных баз данных коллективного пользования.
Коллаборационные GRID нацелены на работу с большими сложными группами взаимодействующих пользователей (используются, например, для совместного моделирования и проектирования). Сюда можно отнести и технологию так называемых "виртуальных организаций".

Важные стандарты GRID/Web-сервисов

Технология GRID возникла в результате стандартизации оборудования и программного обеспечения. Одним из важных аспектов технологии явилась виртуализация систем и процессов, включая процессы управления. Наиболее важные стандарты, которые стоит рассмотреть, относятся к GRID/SOA и включают в себя:

Предложенный OASIS, стандарт "WS-Provisioning";
Ресурсы управления (WS-RF или структура ресурсов Веб-сервисов);
Установление безопасности (WS-Security, WS-SecureConversation, WS-Trust, WS-Federation, безопасные Web-сервисы, использующие Kerberos);
Обработка метаданных (WSDL, UDDI, WS-Policy);
Построение и интеграция архитектуры Веб-сервисов c использованием GRID (см. OGSA);
Гармоничное сочетание (стандарты, используемые для для абстрагирования бизнес-процессов от прикладной логики и источников данных и устанавливать правила, которые позволяют взаимодействовать бизнес-процессам).
Верхний программный слой управления бизнес-процессом (инженерный язык для Веб-сервисов - BPEL4WS).
Два других предложенных стандарта WS-Notification (поддерживаемый IBM/HP) и WS-Eventing (спонсируется Microsoft и другими) достойны более детального рассмотрения.
BPEL4WS – язык реализации бизнес-процессов Веб-сервисами, (BPEL4WS) - стандарт, для управления бизнес-процессами, который соответствует архитектуре, ориентированной на сервисы. BPEL4WS использует Веб-сервисы для того, чтобы пропускать информацию через программы и базы данных. а также для взаимодействия программа-программа, BPEL4WS способен взаимодействовать с другими бизнес-процессами, работающими на разных платформах.

Есть множества определений "вычислительной архитектуры GRID". Некоторые определения очень широки и рассматривают кластеры серверов, которые используют общий источник данных. Другие определения описывают GRID, как распределенную сетевую среду, которая использует тысячи информационных систем и других субсистем памяти. Остальные определения лежат где-то между этими двумя. С нашей точки зрения, GRID’ы состоят из:

Схемы интеллектуальной загрузки/балансировки для сетей высокого быстродействия.
Сетевой архитектуры, для подсоединения к вычислительным ресурсам и ресурсам памяти.
Стандарты, которые делают возможным построение неоднородных систем и приложений для совместного прозрачного использования этих ресурсов.

GRID – архитектура, позволяющая распределенным системам обмениваться ресурсами, совместно производить вычисления и хранить информацию.

Важным стимулом внедрения GRID явилось и то, что большинство информационных центров используют свои ресурсы не более чем на 30% (Forrester Research). Побочным стимулом к развитию данной технологии был и тот факт, что в существовавших центрах до 75% стоимости стало составлять питание, охлаждение и управление.

Виртуализация

Ресурсы, которые могут быть доступными, для выполнения вычислительных задач, называются виртуальными (нереальными до тех пор, пока они не понадобятся). На рис. 1 показана виртуализация в качестве уровня, относящегося к инфраструктуре SOA. Если требуются дополнительные ресурсы вычисления или хранения, SOA посылает этому слою запрос о необходимости увеличения вычислительной мощности, оперативной или дисковой памяти слою виртуализации, задачей которого является нахождение дополнительных ресурсов (локально или во внешней сети).

Рис. 1. Виртуализационный слой (см. Clabby_GRID_Report)

Вычислительные GRID

Многие из самых емких вычислительных приложений исследовались и разрабатывались различными научными сообществами, и не должно удивлять то, что эти сообщества были ранними создателями технологии GRID, которые могли использовать незадействованные вычислительные возможности. Вычислительные GRID’ы, использовались в течение более чем десятилетия в этих сообществах для того, чтобы соединить мощности тысяч PC и серверов для создания среды, которая может обеспечить супервычислительные возможности (по цене, которая много ниже стоимости суперкомпьютера).

Некоторые из самых известных научных проектов GRID:

Проект Seti@Home – используются тысячи интернет-PC, для поиска внеземной жизни).
Проект (GIMPS - Great Internet Mersenne Prime Search) - международная научно-исследовательская математическая система.
Информационный GRID NASA (IPG) GRIDобъединяет суперкомпьютеры и системы памяти, принадлежащие организациям-участникам, Этот проект помогает правительству, исследователям и промышленности в целом, накапливать вычислительную мощность и облегчать информационный обмен между учеными НАСА..
The Oxford e-Science GRID - Проект университета Оксфорда в области e-Science касается всемирных распределенных научных коллабораций, которые требуют доступа к большому объему данных и больших компьютерных ресурсов, и очень высокого качества визуализации для каждого отдельного ученого.
Проект Intel-United Devices для исследований рака - этот исследовательский проект, основанный на GRID, предназначен для создания новых лекарств от рака, К проекту привлекаются организации и отдельные лица, желающие внести вклад имеющимися процессорными мощностями (PC). Эти свободные мощности используются в GRID инфраструктуре путем загрузки специального программного обеспечения. Исследования фокусируются на протеинах, которые могут быть возможными мишенями раковой терапии.

Наибольшие усилия в области GRID прикладываются для развития научно-исследовательского проекта “TeraGRID”. TeraGRID был начат национальным научным фондом (NSF) США в августе 2001. Проект рассчитан на многие годы и предполагает создание крупнейшей в мире инфраструктуры GRID для научных вычислений. В 2004, TeraGRID будет включать в себя 20 терафлоп вычислительной мощности, почти один петабайт данных, и среду для визуализации с высоким разрешением для моделирования и симуляции. Поддерживающая GRID сеть будет работать со скоростью 40 гбит/c.

Информационные GRID

Информационные GRID являются GRID, которые обеспечивают компьютерные ресурсы для углубленного анализа используемых совместно больших баз данных (часто разнородных).

Коллаборационные GRID

Коллаборационные GRID используются для обработки и интерпретации данных. Эти данные могут иметь визуальную форму, размещены географически рассредоточено, например, это могут быть группы, работающие над проектами по дизайну и моделированию.

Правительственные GRID

Правительства используют распределенное программирование дольше, чем какой-либо бизнес. Использование правительствами распределенных сетей для обороны и разведки, началось задолго до прихода ученых в эту область. Сегодня правительства используют технологию GRID, чтобы понизить эксплуатационные расходы, улучшить использование ресурсов, и стимулирования научные исследований и открытий.

Прикладные GRID

Доклад, подготовленный в прошлом году (его можно найти по адресу www.saugatech.com) компанией Connecticut-based Saugatuck Technology из Коннектикута отмечает, что менеджеры информационных систем плохо понимают различие между вычислительными и прикладными GRID. Так же там сказано, что, хотя 48 % - рассмотренных менеджеров, знакомы со термином "utility computing ", только 2 % действительно понимают, что это такое, Так же там сказано что только 19 % менеджеров, знают и понимают, что такое "GRID computing".

Рис. 2. Различия между вычислительными и прикладными GRID (GRID Computing и Utility Computing) (см. Clabby_GRID_Report))

Базовые стандарты GRID

Существует несколько стандартов, используемых для построения архитектуры, ориентированной на сервисы, и нижележащей архитектуры GRID, которая может поддерживать управление бизнес-процессами. Эти стандарты образуют базовые блоки, которые позволяют посылать запросы приложениям и базам данных.Эти стандарты также позволяют развернуть программное обеспечение, позволяющее упростить управление бизнес-процессом.

К числу стандартов GRID и сопряженных с ними стандартов следует отнести:

Коммуникации «программа-программа» (SOAP, WSDL, и UDDI);.
Совместное использование данных (язык XML).
Передача сообщений(SOAP, WS-Addressing, MTOM (для приложений));
Надежная передача сообщений (WS-Reliable Messaging);
Управление рабочим процессом (WS-Management);
Управление трансакциями(WS-Coordination, WS-AtomicTransaction, WS-Business-Activity);
Распределение ресурсов (WS-RF или система ресурсных Web-сервисов;.
Обеспечение безопасности (WS-Security, WS-SecureConversation, WS-Trust, WS-Federation, Система безопасных связей Kerberos для Web-сервисов;
Обработка метаданных(WSDL, UDDI, WS-Policy).
Orchestration (стандарты, используемые для абстрагирования бизнес-процессов от логики приложений и источников данных и для установления правил, которые позволяют бизнес-процессам взаимодействовать между собой);
Верхний уровень управления бизнес-процессом (инженерный язык бизнес-процесса для Web сервисов - BPEL4WS)
События, запускающие бизнес-процессы (WS-Notification).

Горизонтальная и вертикальная инфраструктура программного обеспечения, которая необходима для обеспечения безопасности, почты, обмена сообщениями, рабочего потока, коллаборации, обменов программа-программа, а также среды совместного использования данных может быть найдена в инфраструктурных предложениях таких компаний как IBM (WebSphere), Microsoft (.NET), BEA (WebLogic) и Sun (ONE). Web-сервисы и XML реализации содержатся в предложениях других поставщиков.

Где найти компоненты SOA?

Пользователи GRID могут:

Подход #1 - загрузить общедоступное программное обеспечение для Web сервисов и для GRID;
Подход #2 - купить промежуточное программное обеспечение GRID у одного из дюжины поставщиков; и/или
Подход #3 - купить решение под ключ у соответствующих поставщиков, системных интеграторов или производителей базового оборудования.

Подход #1 - Открытые исходные тексты и общедоступные загружаемые модули

Для покупателей информационных систем, желающих строить GRID и GRID приложений самостоятельно, существует несколько бесплатных загрузочных модулей GRID, доступных по http://www.GRID-center.org/downloads/down_Home.asp, существует также много компонентов GRID, для которых имеются общедоступные тексты программ.

Программой с открытым кодом, используемой для построения GRID, является система Globus Toolkit, для которой в настоящее время имеется 3-я версия (называемая GT3). Эта система предоставляет реализацию GRID с открытыми кодами OGSI (Open GRID Services Infrastructure). OGSI - является разновидностью OGSA) - включая средства безопасности GRID, удаленную загрузку задач и управление, безопасную транспортировку данных и интерфейсы для метаданных.

Другим источником ПО GRID с открытым исходным кодом, является - набор инструментов Oscar (который можно найти на www.SourceForge.net ). Этот набор средств - разработка группы Oscar, используется для построения, формирования и управления вычислительными кластерами GRID. Oscar находится на стадии своего третьего обновления и, в настоящее время, осуществлено более чем 100 000 загрузок.

Есть также несколько открытых источников, где можно найти средства для разработки и развития Веб-служб. Они включают:

The Apache Software Foundation’s SOAP and XML implementations - включая Apache SOAP, Apache Axis, Apache XML-RPC;
gSOAP Toolkit - gSOAP платформа для создания среды для C и C++ SOAP, а также XML среды веб-сервисов.
The Lucin Soap Toolset - Lucin используется в среде Microsoft Windows.

Есть множества других инструментов для XML, WSDL, и сред UDDI, которые также доступны.

Подход #2 - Независимые поставщики ПО GRID

Есть множество независимых поставщиков ПО GRID, которые строили, собирали, и объединяли ресурс-менеджеров, промежуточное ПО, и компоненты синхронизации данных, описанные выше. Эти решения для GRID обеспечивают интегрированные инструменты развития GRID, управления GRID, промежуточного ПО GRID и средства обслуживания синхронизации данных. Среди этих компаний - разработчиков программного обеспечения грид: AVAKI, DataSynapse, Entropia, Platform и United Devices.

При более детальном рассмотрении продуктов независимых разработчиков видно, что:

Большое количество поставщиков GRID обеспечивают средства для разработки, которые позволяют приложениям работать на разных системах одновременно (примечание: не все приложения должны быть структурированы в этой манере);
Все продавцы GRID обеспечивают управление грид и ПО, которое может управлять сетевыми ресурсами (это программное обеспечение называют "распределенным управлением ресурсами" или "DRM”); ;
Большинство поставщиков грид использует, или планирует использовать промежуточное ПО Веб-сервисов для использования коммуникаций программа-программа.
Некоторые продавцы GRID используют уровень доступа к данным, который учитывает синхронизацию данных (синхронизация данных от большого числа разномасштабных источников такая, что поиск данных и функции поддержки решения могут работать с соответствующей базой данных).

Рис. 3. Что обычно предлагают независимые поставщики ПО GRID (см. Clabby_GRID_Report))

Подход #3 - Решения под ключ

Программное обеспечение независимых поставщиков GRID, описанное в предыдущем подразделе, может использоваться для обращения к требуемой прикладной программе в пределах отдела, или решить более широкие проблемы обеспечения предприятия вычислительными ресурсами. Для того, чтобы развернуть такую систему, предприятию не нужно выстраивать сложную архитектуру SOA. Но, для того чтобы желание предприятия использовать технологию GRID, для решения проблем обеспечения, реализовалось, необходимо дополнительное ПО.

Сравнение поставщиков

В долгосрочной перспективе, первичная цель предприятия должна состоять в том, чтобы найти способ эксплуатировать информационные системы и инфраструктуру и упростить управление бизнес-процессами. Если это будет достигнуто, предприятие будет в состоянии работать более эффективно, быстро отвечать на изменяющиеся условия, уменьшить риски, снизить затраты на ИТ, и открыть новые деловые возможности (приводящие к увеличению прибыли). Способ приспособить информационные системы к управлению бизнес-процессом состоит в том, чтобы построить архитектуру SOA

Если первичная цель предприятия состоит в том, чтобы найти способ строить сервисную архитектуру, которая облегчает интеграцию бизнес-процессов и их управление, то первичные критерии оценки выбора поставщика должны быть основанными на том, как хорошо поставщик может помочь организации достичь ее цели, используя SOA.

Рис. 4. Как работает GRID MP (см. Clabby_GRID_Report))

Два самых важных понятия:

Технология GRID используется, чтобы "предоставить" действительные ресурсы по требованию пользователей или приложений. Таким образом, предприятия могут эксплуатировать неиспользованную вычислительную мощность и направить ее на выполнение различных задач.
«Гармоничное сочетание» обращается к редактированию элементов технологического процесса, чтобы обеспечить высокий уровень управления бизнес-процессом.

Пета каналы

Вследствие высоких достижений в вычислении, хранении данных, и коммуникаций, мы на пороге достижения уровня Peta (1015) - объемов памяти, скорости связи и быстродействия вычислений. Несколько лабораторий Министерства (DOE), создали системы хранения, рассчитанные на петабайты и существуют некоторые научные базы данных, которые превысили размер в один петабайт.

Закон [3] Мура предсказывает удваивание плотности элементов на кристалле каждые 18 месяцев. Эндрю Одлизко и Керри Коффман [4] доказали, что это не так. Они продемонстрировали, что удваивание происходит каждые 12 месяцев. Закон [5] Джилдера предсказывает, что полная емкость оптических транспортных систем удваивается каждые шесть месяцев. Это различие между прогнозами Мура и Одлизко может показаться незначительным. Однако, если посмотреть на рис. 5, можно увидеть, что промежуток между вычислительной мощностью и трафиком - x4 через шесть лет, x16 через 12 лет, и x32 через 15 лет.

Рис. 5. Эволюция разрыва между вычислительной мощностью и ростом трафика за 15 лет. (см. Lambda Data Grid: Communications Architecture in Support of Grid Computing)

1.2. Несоответствие переноса.

Недавние достижения в оптических транспортных технологиях создали некое несоответствие между оптическим миром передачи и электрическим миром переадресации/маршрутизации. Сегодня, одно оптическоое волокно может передать больше трафика, чем все интернет-ядро. Однако оконечные системы с «приложеними интенсивной обработки данных» не имеют доступа к этой полосе пропускания. Кроме того, даже при том, что дисковые затраты относительно невелики, передача огромного количества данных ограничена. Связано это с ограниченной способностью слоя L3. В модели OSI [6], L3 обеспечивает технологию переключения и управления, главным образом в виде пакетной коммутации, создавая логические пути, известные как виртуальные схемы для передачи данных от узла к узлу. L3 не может эффективно передать петабайт или сотни Терабайт, и имеет ограничения в обеспечении обслуживания E-science (см. http://book/itep/ru/4/44/tcp.htm). Дисковая скорость передачи существенно медленнее, чем сеть. Для очень больших наборов данных, время доступа не является существенным, и удаленный доступ к памяти быстрее, чем местный дисковый доступ.

Существенные противоречия между требованиями приложений E-science и доступными ресурсами, мотивирует нас, на то, чтобы создать архитектуру гармонического сочетания ресурсов, объединяющую вычислительные grid и оптические сети.

1.3. Ограничения L3 и общедоступных сетей для e-Science с интенсивным обменом данными

Есть три фундаментальных технологий выбора, к которым можно обратиться, при поиске решения для «приложений с интенсивным обменом данными».

Пакетное переключение против канального переключения.
Общедоступный Интернет против частного подключения (совместное использование против выделенного канала).
Функциональность L3 против L1.

Очевидным решением будет использование таких существующих технологии как L3, механизмов маршрутизации и Интернет для больших объемов данных в исследованиях E-science. Однако, ограничения, в этих технологиях делают эти решения менее эффективными. В вопросе использования пакетной коммутации против коммутации каналов, исторически победила пакетная коммутация. В пределах контекста больших объемов данных, этот вопрос должен быть исследован снова [7]. В нашей области, канальная коммутация L1 при ограниченном адресном пим адресным пространством. Маршрутизайия и использование L3 удобно для маленьких пакетов и коротких продолжительностей, но для больших объемов данных и больших продолжительностей она теряет свою эффективность. В механизмах L3, просмотр маршрутных таблиц рассчитан для большие потоки данных. Когда получатель известен заранее, в этом больше нет необходимости, экономя миллиарды идентичных принимаемых решений для больших объемов данных. В Интернете, равнодоступность важна и поэтому продумана в организации сетевых протоколов. В частной сети, равнодоступность не проблема.

1.4. e-Science (Зачем нужны GRID и Супер-ЭВМ?)

Совет National Science Foundation (NSF) работает над “Исследованием киберинфраструктуры 21го века. [8]". На рис. 6 представлена выдержка из этого документа.

Как сворачивается белок? Что случается с пространством и временем, когда две черных дыры соприкасаются? Какое воздействие оказывает геннгенное многообразие на экологическое сообщество? Каковы ключевые факторы, влияющие на изменение климата? Может ли одно из триллионов столкновений в Большой адронном коллайдере привести к возникновению черной дыры? Можем ли мы создать систему контроля здоровья для каждого индивида? На какие вопросы, которые будут возникать при обработке больших объемов данных, поступающих от телескопов, сетей датчиков и т.д. в будущем, мы сможем найти ответы? Ответы на эти вопросы только сейчас можно начинать получать из-за существенных успехов в области информационных технологий..

Рис. 6. Выдержка из Исследования киберинфраструктуры 21-го века.

Для иллюстрации масштаба объемов данных рассмотрим некоторые проекты из области e-Science.

Физика высоких энергий (HEP)	1 петабайт/год - 1экзабайт/год.
Астрофизика	250-500 терабайт/год.
Наука об окружающей среде	от 330 терабайт до 1,5 петабайт.
Наука о жизни	Национальный институт здоровья (NIH) [21] помогает финансировать эксперименты, данные,полученные от которых, будет лежать в пределах от сотен терабайт к десяткам петабайт. Исследование в области биоинформатики требует интенсивных вычислений, приблизительно на уровне сотен петафлоп в секунду. Вычисления, необходимые в генной инженерии только для одного гена, требует приблизительно 800 компьютеров на протяжении года

1.5. Три основные задачи

Ограничения в пакетной коммутации для вычислительных и информационных приложений, требующих высокой вычислительной и пропускной мощности в распределенной сети типа WAN.
Ресурсы сети нуждаются в выявлении, дипетчеризации и управлении со стороны программного обеспечения, а не сетевого администратора.
Управление передачи данных мульти-терабайтами, в определенное время, между оговоренными точками.

Задача #1: Пакетное переключение - не подходящее решение для приложений интенсивной передачи данных

Пакеты предназначены для передачи ограниченного объема данных, таких как веб-страницы и электронная почта. Однако, они совсем не оптимальны для E-science, подобных Визуальным Обсерваториям, которые будут производить петабайты данных ежегодно в следующем десятилетии. Основной размер кадра Ethernet - 1.5KB или 9 КБ в случае кадров типа Jumbo. Передача 1.5TB данных L3 потребует просмотра заголовков 30 миллиарднов идентичных пакетов. Перемещение хранилища данных (100TB) потребует в один триллион раз больше ресурсов, чем перемещение веб-страницы (100 КБ). Это очень походило бы на аналогию CANARIE'S о перемещении стада слонов по сравнению с семьей мышей. Просто невозможно передать данные размером «со слона» в сегодняшнем Интернете, используя пакетную коммутацию L3. Такая попытка значительно дестабилизировала бы интернет-трафик. Необходимо подвергнуть сомнению полноценность текущих методологий. Развитие e-science и ее требования на массовую передачу данных бросают нам вызов. Необходимо исследовать масштаб передачи данных в ядре Интернета при увеличении на 9 порядков объема передаваемых данных.
Эволюция e-Science и ее требований на передачу больших объемов данных вынуждает нас рассмотреть масштабируемость передачи данных в ядре Internet. Эффективные методы передачи “на пролет” представляются достаточно перспективными. Неизменность оконечных систем и устройств рассматривается неприкосновенной. Инфраструктура пакетной коммутации L3 продолжает служить главным решением для ограниченных транспортных передач, в то время как оптический канал необходим для масштабируемой передачи. Один из существенных вызовов - способность к взаимодействию этих двух систем. Базовая оптическая инфраструктура основана на маршруте света (lightpath), что подобно коммутации каналов L0-L1, в то время как функциональность в L3 основаны на пакетной коммутации/маршрутизации. В модели OSI [6], слой 1 (или физический слой), передает поток двоичных сигналов через сеть на электрическом и механическом уровне. Нулевой слой представляет собой поток фотонов с одной и той же длиной волны. Мы построили систему, которая направляет основную часть трафика E-science методом “напролет” (cut-through) через выделенный оптический канал, а не через общедоступный Интернет.
Статистическое мультиплексирование может работать для транспортных схем "многие ко многим", их можно найти в сегодняшнем Интернете. Для схеммассовой передачи данных "немногие к немногим", как замечено в астрофизических исследованиях, статистическое мультиплексирование теряет свои преимущества. Распределение транспортного потока является эффективным для большого числа малых потоков. Предположение, что сеть всегда доступна для передачи малых потоков, по сравнению с ее полной емкостью, является вполне корректным. И превышение даже среднего уровня ставит сеть в опасность. В случае большого объема передаваемых данных, сеть требует 100 % пропускаемости. Для транспортной схемы с передачей большого объема данных, требующихся E-наукой, среднее использование полосы не может быть больше, чем несколько процентов. Для мультиплексирования информации масштаба "слона" за приемлемое время, требуется существенная дополнительная полоса.
В обычных условиях общедоступного Интернет пользователи предполагают постоянную доступность. В большинстве случаев, не существует никаких механизмов, подсказывающих, когда использовать сеть, при каких условиях, и сколько данных нужно передать. Обычно это не очень важно, так как "нормальный" объем передачи данных составляет ничтожную долю доступной полосы пропускания в ядре. Наоборот, для приложений HEP требуется 100 % полосы канала в определенное время, без совместного использования и без мультиплексирования. Это изменяет предположение о доступности сети, где сеть будет доступна после запроса, и передачи, одобренной только после предоставленного разрешения..
За прошлые 30 лет, исследования и промышленность придерживались фундаментального принципа – полоса ограничена. Существенные усилия по исследованию направлялись на поиск способа оптимизирования полосы пропускания и трафика, например, с помощью сжатия данных. Большая работа была посвящена приложениям и стеку протоколов, компенсирующим ограничения в полосе пропускания. Успехи в построении оптических сетей и сопряженных с ними низкими вероятностями ошибок поднимают ряд новых вопросов:: Почему мы нуждаемся в очень многих приложениях, оптимизированных для сохранения полосы пропускания? Можем ли мы строить приложения с интенсивной передачей данных по-другому, если полоса пропускания свободна? Оптимизация сети все еще необходима?
Было найдено почти универсальное решение - использование пакетной коммутации. Однако, в оптическом переключении, оптимизация полосы пропускания, сохранение и затраты на передачу, не первичные цели. Для больших объемов данных, Lightpath является оптимальным решением. Lightpath – это фактически преобразование коммутации каналов в коммутацию длин волн. Другой подход - Optical Burst Switching (OBS), который функционирует с чрезвычайно быстрой установкой и для коротких продолжительностей.

Задача #2: Вычислительный GRID с управлнием сетевыми ресурсами

Чтобы удовлетворить различным требованиям приложений, как замечено в Секции 1.3, необходимо резюмировать и заключать ресурсы сети в наборы сервисов GRID, которые могут обеспечивать планирование, контроль, и разделенное использование в пределах платформы обслуживания. Понимание этих прикладных требований и средств, для удовлетворения их потребностей - стандартные проблемы, к которым можно обратиться в пределах контекста Web Services Resource Framework (WSRF) и промежуточного ПО GRID. Обслуживание ресурсов сети - ключевой компонент, который мы осуществили, чтобы реализовать абстракцию и инкапсуляцию ресурсов сети.
Общая архитектура, которая лежит в основе традиционных сетей передачи данных, не включает в себя все, что требует GRID. Они вообще разрабатываются, чтобы оптимизировать относительно низкие требования к потоку данных сервиса потребителя. Многие приложения GRID требуют специализированных услуг и инфраструктур, для эффективного управления множественными, крупномасштабными потоками данных в терабайтах и даже петабайтах. Такие возможности нельзя реализовать в традиционных сетях..
Необходимо предоставить приложениям прямой, гибкий доступ к широкому диапазону услуг оптической инфраструктуры, включая те, которые обеспечивают динамическую маршрутизацию оптических каналов в быстродействующей оптической сети. Есть потребность проектировать архитектуру сети, которая может поддержать приложения GRID в сочитании с имеющимися оптическими сетями. Архитектура должна объединять сетевые требования с оптическим управлением, использующим новые методы оптической маршрутизации. Такие сети имеют потенциал, чтобы обеспечивать полосу пропускания высокой эффективности с большой емкостью.
Самое важное - создание технологии, которая разрешает виртуальным организациям VO (Virtual Organization) получать доступ к большой оптической полосе пропускания, используя “длина волны (l) по требованию” для приложений с высокими ресурсными требованиями

Задача #3: Управление большим трафиком данных для e-Science

Чтобы работа исследователей E-science была более эффективной, они должны получить удаленный доступ к большим объемам данных. Исследователи должны получить возможность фильтровать данные, поступающие отдаленных источников в реальном масштабе времени, или из огромного отдаленного хранилища, и отбирать лишь небольшую долю этих данных. Проблема здесь связана с получение доступа к нужной информации, размещенной в определенном месте, в нужное время.

Если бы коннективность сети обеспечивала доступ, к нужным данным, в нужном место, в нужное время, то не возникало бы проблем с управлением экспериментом с рабочего места исследователя. Это привело бы модификации экспериментальной установки, значительно сократив время обработки, и увеличив эффективность специализированных средств обслуживания.

Одно из основных способов оценки изображения и интеграции данных является визуализация с привлечением дисплея с высоким разрешением и возможности интерактивного управления в реальном масштабе времени . Эти дисплеи могут управляться несколькими специализированнвми компьютерами, функционирующими параллельно и посылающими свои данные на несколько дисплеев, работающих совместно для получения изображения большого размера (например, типа CAVE). Каковы скорости передачи данных необходимы для этого, даже в пределах одной лаборатории? Рассмотрим 100 мегапиксельный дисплей. Полоса пропускания для этого устройства составляет 72 Gbps для кластера из 8 узлов OptIPuter, или 576Gbps для кластера из 64 узлов. Это составляет более половины терабит в секунду.

2. Сети, а не компьютеры - важны для приложений e-Science

Физика высоких энергий (HEP) – главный направление исследований, спонсируемое Министерством энергетики Соединенных Штатов (DoE). Сообщество HEP поддерживает большое количество прикладных и фундаментальных исследований в физике, так же НИР и ОКР в смежных областях . Планирование, выполнение и анализ этих программ исследования требуют координации больших, распределенных команд людей и учреждений.

Таблица 1: Теоретические и экспериментальные области исследований спонсируемые DoE

Отрасль	Ожидаемая генерация данных в 2008
CEBAF (экспериментв по исследованию структуры адронов)	<10 PB/год
RHIC (Эксперименты с кварк-глюонной плазмой)	5 PB/ год
CERN LHC (поиск Хиггс-бозона)	10 PB/ год
SLAC (BaBar эксперименты)	1 PB/ год
Ядерная физика	3 PB/ год
Ядерный синтез с магнитным удержанием плазмы	1 PB/ год
Вычислительная гидродинамика	2 PB/ год

Таблица 2: Объем научных данных, полученных за 2008 год

Отрасль	Ожидаемая генерация данных в 2008
Изучение климата	>10 PB
Биоинформатика (Геномика, исследование протеинов, метаболизм)	>20 PB
Астрофизика	8 PB
Цифровой обзор неба	15 TB
Химия	4 PB
Материаловедение (нейтроны и фотоны)	0.35PB

2.1 Общий вид инфраструктуры e-Science

Рис. 7. Информационный лямбда-GRID, как часть киберинфраструктуры многослойной архитектуры (см. Lambda Data Grid: Communications Architecture in Support of Grid Computing)

Быстрое развитие оптической сетевой технологии значительно расширило количество пропускаемой информации. Теперь, всего одно оптическое волокно может обеспечить сотни 10 или 40 Гбит/с каналов данных (Лямбд), с емкостью более 6Tбит/c, что приблизительно соответствует трафику, циркулирующему в опорном канале Интернет.

Информационный трафик TCP по оптической сети через Атлантический океан составляет 20 Мбит/c. Новые транспортные протоколы были предложены, чтобы улучшить TCP. [51, 52, 66].

Обработка передачи 1 Мбит/c отличается от техники работы с одним из multi-10 Гбит/с. Это – на 4 порядка сложнее. Имея дело с маленькими трубами в диапазоне 1-100 МБ, мы можем сделать некоторую оптимизацию в стеке протоколов. Однако, имея дело с большими трубами в диапазоне multi-10 Гбит/с, стек протоколов и прикладная оптимизация могут препятствовать обработке данных. Радикальные изменения требований к полосе пропускания предполагают инновационные решения, которые будут различать маленькие потоки и большие.

Исторически, WAN-трафик был слабым местом сети и был относительно дорогим. Введение оптической передачи нейтрализует эти ограничения. Анализируя общую стоимость электрической маршрутизации, по сравнению с оптической, передача в рамках L3 в несколько раз дороже, чем в L0. Порты маршрутизатора являются более дорогостоящими, чем оптические порты и они же являются источником некоторых узких мест. Другими словами, передача фотонов по сравнению с передачей электронов относительно недорога.

Оптическая передача быстрее дисковой

Для быстрого доступа к большому набору данных была разработана передовая и эффективная архитектура памяти . Это система уникальна и очень дорога. В прошлом дисковая скорость передачи, предполагалась более высокой, чем WAN. В последнее время, оптическая передача стала намного быстрее, внутренней компьютерной шины или шины кластера. Копирование данных в локальное хранение может оказаться менее эффективным, чем запрос в отдаленную память через выделенный оптический канал с малой задержкой. Эти разработки проложили путь для удаленному прямому доступу к памяти (RDMA) вместо копирования на локальный диск. Это позволять получить удаленный доступ к данным.

2.2. Ограничения пакетной коммутации для для приложений с большими потоками информации

2.2.1. Неэффективность решений переадресации

Интернет-архитектура не может реалистично переместить десятки Терабайт или петабайт. Пакетная коммутация - эффективная технология для транспортировки коротких пакетов не была достаточно приспосаблена, чтобы стать адекватной для передачи больших объемов данных. Принятие решений о переадресации Ethernet-кадров каждые 1500 байтов достаточно для электронных писем или 10 КБ-100k веб-страниц.

Это не оптимальный механизм, если мы имеем дело с объемами информации в шесть или в девять раз больше. Например, при передаче 1.5TB файлов с помощью пакетнойю коммутации, те же самые решения переадресации должно быть принято миллиард раз, приводя к чрезвычайно неэффективному процессу.

2.2.2. Не ориентирована на большое количество информации

Существующая архитектура L3 не предназначена для перемещения мульти терабайтов данных по Лямбдам multi-10Гбит/c по каналам с большими значениями RTT. Медленный старт, управление перегрузкой, и механизмы исключения перегрузки работают для большого числа небольших потоков, но неоптимальны для выделенных каналов точка-точка большой длины. Новые, улучшенные, механизмы L4 позволят получить более быструю передачу. Они функционируют лучше для выделенных оптических каналов.

2.3. Оптические сети GRID

С недавними достижениями в Wavelength Division Multiplexing (WDM),и Ultra Long Haul (ULH), передача данных более чем на тысячи километров через оптические каналы может быть реализована без регенерации сигнала. Сравнивая передачу L1 с маршрутизацией L3, следует констатировать, что число точек переадресации значительно сокращается.. При передаче на очень длинные расстояния, нет необходимости принимать решение о переадресации в каждом IP-маршрутизаторе. Вместо этого оптическая передача может быть реализована за один или несколько шагов. Для большого числа коротких передач маршрутизация работает хорошо. Однако, дальняя транспортировка больших объемов данных по оптике гораздо эффективнее.

2.4. Транспортный протокол E2E для датаемких приложений

В случае ограниченной полосы пропускания, задержка сети не является критической; тогда как, в случае широкополосных каналов сеть не может функционировать эффективно. TCP-отклики работают хорошо при малых значениях (RTT) и узкополосных каналах. Это было разработано и оптимизировано для ЛВС или узкополосных WAN. Ограничения TCP в широкополосных каналах и большом RTT хорошо-описаны в [47] [66].

Реактивность характеризуется временем, которое необходимо для восстановления системы после потери одного пакета. Она определяет, насколько быстро канал сможет работать с прежней пропускной способностью, после того как произошла потеря пакета. Отбрасывание пакетов является механизмом обеспечения балансировке обменов с точки зрения QoS в сетях с коммутацией пакетов. Такой механизм встроен в протокол TCP для управления перегрузкой. Например, 15 лет назад, в LAN с RTT = 2ms и 10Мбит/c, реактивность была около 1.7ms. В настоящее время для 1Гбит/c LAN с RTT порядка 2ms, реактивность составляет около 96ms. В среде WAN, RTT очень велико, напр., RTT для канала CERN-Чикаго равно 120ms, а до Токио - 300ms. В этих случаях реактивность может достигать часа [66].

В экспериментах OptIPuter, использовавших канал между Чикаго и Амстердамом получена полоса пропускания 4.36Mbs, при использовании немодифицированного протокола TCP. Новый протокол, базирующийся на UDP, показал полосу пропускания 700Mbs-920Mbs. Выделенные каналы для немодифицированного протокола TCP дает 1% использования полосы по сравнению с 92% для нового UDP. В выделенных оптических каналах не возможно совместное использование, и следовательно, проблема справедливого использования полосы не встает. Здесь нет конкуренции за использование ресурсов сети, а справедливое распределение ресурсов возможно за счет предварительного резервирования и диспетчеризации. По этой причине реактивность не представляет никакой проблемы.

Новые Транспортные Протоколы. - Много новых протоколов было разработано, чтобы устранить проблему сетевых ограничений, среди них - GRIDFTP [41], FAST [69], XCP , Parallel TCP, и Tsunami, SABUL/UDT [47]. Эти исследовательские проекты, на ряду с другими подобными проектами обеспечили улучшение основных транспортных механизмов, гарантируя эффективное использование широкополосных каналов пропускания. Улучшения в этих протоколах достигнуты за счет трех механизмов: 1) настройки TCP и UDP-узлов; 2) передачи нескольких потоков параллельно; 3) посылки данных с помощью UDP, используя ТСР для управления.

При использовании дальнего 1Гбит/с канала показало, что GridFTP дает 512Мбит/c [66], Tsunami позволяет достичь 700Мбит/c [66]. SABUL - 910Мбит/c [66], а FAST дал 930Мбит/c для канала между CERN и SLAC. Новые эксперименты по мультиплексированию 1Гбит/c в рамках FAST и SABUL [47] показали, что l-коммутация для 10Gbs обеспечивает лучшее использование сети.

Справедливое распределение ресурсов. - В пакетной коммутации контроль перегрузки и механизм предотвращения перегрузки обеспечивает некоторый уровень справедливого распределения ресурса канала. В случае выделенного канала проблема справедливости не актуальна.

Выделенные каналы и каналы коллективного пользования - многие из новых протоколов ресурсоемки и представляют проблему для справедливого использования кнала несколькими потоками. При разработке протоколов для выделенных каналах справедливость распределения ресурсов не актуальна, так как полоса оптического канала целеком выделяется для одного потока. В выделенных каналах (Lightpath, circuit) нет никакого разделения, и канал предоставляется на определенный период времени.

В настоящее время, коммерческая система DWDM может обеспечить полосу до 6.2Tбит/с, в то время как в лабораториях получена полоса пропускания 26 Tбит/с.

Сетевой подход к программированию GRID

Рис. 8. История программирования и коммуникаций (см. A NETWORKING APPROACH TO GRID COMPUTING, DANIEL MINOLI)

Рис. 9. Временная эволюция GRID (см. A NETWORKING APPROACH TO GRID COMPUTING, DANIEL MINOLI)

Таблица 3. Список некоторых недостатков grid при вычислениях

Не всегда ясна бизнес-задача	Постановщики задачи должны разработать и грамотно сформулировать бизнес-проблему
Процессы должны быть определены	Поставщики должны показывать, возможно ли эффективно управлять процессами GRID, включая модель на случай убытков
Должна поддерживаться безопасность	Безопасность важна, особенно в случае Intergrids
Сообщение/формулировки должна быть четче	В промышленности до сих пор существует неразбериха между кластерным программированием, виртуализацией, GRID’ом на предприятии и Р2Р. Требуются более четкие пояснения от поставщиков
Должны быть устранены собственнические подходы	Ведущие поставщики (Hewlett-Packard, IBM, Microsoft, Platform Computing, Sun Microsystems, Oracle, VMWare/EMC*) до сих пор подходят к теме по-разному и несовместно. Существующие решения программирования GRID ограничены индивидуальными продуктами поставщиков (Платформа GRID от IBM работала на большом количестве открытых стандартов, сравниваемых, в настоящее время, со стандартами других поставщиков) [165].
Устранение узкого подхода разработчиков	К примеру, вычислительная платформа IBM ориентирована главным образом на виртуализации оборудования IBM и баз данных. Следовательно, если компания имеет однородный центр данных (IBM e-сервер, базы данных IBM DB2), то она может извлечь выгоду от использования решений GRID, в других случаях пользы не будет
Нормальное функционирование должно проверяться и мониторироваться	Вычислительные системы GRID требуют механизмов соответствующего разделения (зонирования) -, которые предотвращают подавление одних приложений другими при конкуренции за ресурсы (особенно в случае серверной виртуализации).

Рис. 10. Основные элементы GRID Со стороны пользователя (см. A NETWORKING APPROACH TO GRID COMPUTING, DANIEL MINOLI)

Рис. 11. Дополнительные элементы GRID – Пользовательский взгляд (см. A NETWORKING APPROACH TO GRID COMPUTING, DANIEL MINOLI)

Таблица 4. Функциональные возможности, поддерживаемые GRID

(Co-)резервирование, технология	Мониторинг
Процессы должны быть определены	Поставщики должны показывать, возможно ли эффективно управлять процессами GRID, включая модель на случай убытков
Учет и оплата	Гарантия функционирования
Адаптация	Удаленный доступ к данным
Авторизация и политика безопасности	Размещение ресурсов
Распределенные алгоритмы	Определение ресурсов
Управление ошибками	Обнаружение ресурсов
Высокоскоростная передача данных	Управление ресурсами
Идентификация и аутентификация	Развитие системы
Обнаружение несанкционированного вторжения

Функциональный блок безопасности узлов

Функциональный блок безопасности узлов всегда присутствует в среде GRID. Аутентификация и авторизация как «улица с двусторонним движением»; должен быть авторизован не только пользователь, но и вычислительный ресурс. Это является необходимым условием для безопасного (конфиденциального) взаимодействия между внутренними элементами вычислительного GRID’a, так как GRID состоит из устройств и программ, назначение которых не всегда понятно пользователю. Когда пользователь хочет запустить определенный процессор, ему необходимо убедиться, что процессор не взломан и его данные не подвергнутся опасности [72]. Если процессор используется динамически, то идентификация и аутентификация должна пройти до того, как процессор начнет работу в GRID, как это было описано ранее. Центр сертификации (CA) может быть использован для установления идентичности процессора «донора», так же как и пользователя или самого GRID. Некоторые системы GRID обеспечены своим логином (кодом доступа), тогда как другие системы зависят от аутентификации операционных систем пользователей.

Рис. 12. Пример стека протоколов и доступных сетевых сервисов (см. A NETWORKING APPROACH TO GRID COMPUTING, DANIEL MINOLI)

Некоторые понятия, которые необходимо знать:

Архитектуры, ориентированные на сервисы (SOA).
Простой протокол доступа к объектам (SOAP).
Стандарты Web-сервисов.
Язык описаний Web-сервисов (WSDL).
Язык проверки Web-сервисов (WSIL).
Универсальное описание, выявление и интеграция (UDDI).
.NET
Система ресурсов Web-сервисов (WSRF).

Фундаментальной концепцией OGSA является то, что сервисная архитектура состоит из компонентов служб GRID, которые работают как специальные Web-сервисы, что предоставляет ряд интерфейсов, отвечающих специальным требованиям [119]. SOA определяет, как взаимодействуют два вычислительных объекта, для того, чтобы один объект дал возможность второму выполнить определенную работы в пользу первого. Эта работа соотносится с сервисом, а действия сервиса определяются языком описаний. Каждое взаимодействие самостоятельно и практически не зависит от другого. Бизнес приложения создаются для автоматизации различных бизнес-процессов, но зачастую без осуществления в них возможности адаптироваться к изменяющимся потребностям; доработка бизнес процессов в данной среде, достаточно трудоемкая задача. Все потому, что бизнес приложения традиционно создаются как единичные, монолитные, включающие в себя все, инструменты. Поэтому любые изменения в них достаточно дороги и времяемки. В среде SOA, приложения создаются в виде набора сервисов, каждый из которых имеет свои задачи и свойства. По мере изменения нужд, некоторые сервисы могут добавляться, некоторые удаляться или дорабатываться.

Web-сервисы обладают следующими характеристиками [85]:

Это Интернет приложение, выполняющее специальные задачи и подчиняющееся стандартным спецификациям.
Сервис является исполнимым, он описывается на XML и доступ к нему может быть осуществлен с помощью XML- сообщений.
Он может быть анонсирован, выявлен и вызван в распределенной вычислительной среде.
Он не зависит от платформы или языка.

Web-сервис представляет собой систему ПО, идентифицируемую URI, чьи интерфейсы и связи определены и описаны с помощью XML. Он может быть обнаружен другими системами ПО. Эти системы, в свою очередь, могут взаимодействовать с Web-сервисом, используя XML сообщения, передаваемые Интернет протоколами. Язык описаний Web-сервисов (WSDL) фактически является, основанным на XML, стандартом для описания Web-сервисов. Простой протокол доступа к объектам (SOAP) является, основанным на XML, стандартным сетевым протоколом для обмена сообщениями между Web-сервисами (описания W3C).

Выше, кроме того, упоминалась и технология .NET. NET - интернет и Веб стратегия компании Майкрософт, запущенная в 2000 году. Интернет инфраструктура для создания Web-сервисов и других универсальных систем. Она является костяком операционных систем Windows 2000 и Windows XP. В дальнейшем предполагается интеграция .NET во все операционные системы приложения и серверные продукты (в планах создать на основе .NET новую операционную систему Windows, новую версию Office и новое программное обеспечение для разработчиков Интернет приложений). .NET основан на веб-стандартах, таких как: HTTP, протоколах связи между интернет приложениями, XML, формате обмена данными между приложениями; SOAP, стандартном формате для обращения к Web-сервисам; и UDDI, описанном выше, стандарте поиска и исследования Web-сервисов. Web-сервисы предоставляют данные и службы другим приложениям. Среда .NET предназначена для построения и использования Web-сервисов и Web-приложений. Среда .NET содержит библиотеки общих классов (ADO.NET, ASP.NET) и формы Windows, поэтому, она может быть интегрирована в различные компьютерные системы.

Среда .NET нейтральна к различным языкам. Она может поддерживать работу с такими языками как: C++, C#, Visual Basic, JScript (версия Microsoft JavaScript), и COBOL. Web-сервисы являются основными строительными блоками модели программирования .NET Microsoft [16].

Рис. 13. Сетевые роли (см. A NETWORKING APPROACH TO GRID COMPUTING, DANIEL MINOLI)

Рис. 14. Базовая функциональная модель для среды GRID (см. A NETWORKING APPROACH TO GRID COMPUTING, DANIEL MINOLI)

WSDL (язык описаний Web-сервисов) документ определяет Web-сервис, используя, приведенные ниже, основные элементы:

Элемент	Определяет
<portType>	Поставщики должны показывать, возможно ли эффективно управлять процессами GRID, включая модель на случай убытков
<Message>	Сообщения, используемые в Web-сервисе. Абстрактное определение передаваемых данных
<Types>	Типы данных, используемые в Web-сервисе. Предоставляет информацию о любых сложных типах данных, применяемых в документах WSDL. В случае использования простых типов данных этот элемент не нужен.
<Binding>	Протоколы соединения, используемые в Web-сервисе. Описывает, как вызывается операция, с помощью определения протокола и формата данных
<Port>	Определяет одиночную оконечную точку в виде адреса для соединения, т.е. оконечную точку соединения
<Service>	Определяет адреса портов соединения. Служба – совокупность сетевых оконечных точек или портов

WSDL документ содержит описания элементов, состоящих из блоков types, message, portType, binding, и service elements, что описано в таблице выше. Основная структура документа WSDL выглядит следующим образом:

<definitions>
<types>
описание типов. . .
</types>
<message>
описание сообщений . . .
</message>
<portType>
описание порта . . .
</portType>
<binding>
описание соединения . . .
</binding>
</definitions>

Web Services Inspection Language (WSIL). WSIL – простой механизм обнаружения Web-сервисов. WSIL – формат XML документа, созданный для облегчения сбора и обнаружения Web-сервисов. Созданный IBM и Microsoft и изданный в конце 2001 года, WSIL является привлекательным за счет своей простоты, по сравнению с UDDI, он прост и лучше «поднимает» существующие Web-сервисы. Модель WSIL децентрализована и «поднимает» существующие Web-сервисы прямо на месте [153].

Universal Description, Discovery, and Integration (UDDI). (UDDI) – стандартный протокол описания Web-сервисов и протокол их поиска. Реестр (UDDI) может содержать метаданные для любых видов сервисов, вместе с вариантами «наилучшей практики», уже определенными для сервисов, описанных с помощью WSDL. За счет разбиения Web-сервисов на группы, взаимодействующие с категориями и бизнес процессами, UDDI способен более эффективно искать Web-сервисы. Спецификация UDDI определяет иерархическую схему XML, что обеспечивает модель для анонсирования, проверки и вызова информации о Web-сервисах [85]. Выбор пал на XML, так как его формат представления данных не зависит от платформы и отражает иерархические взаимосвязи. В UDDI используются технологии, основанные на общих интернет протоколах TCP/IP, HTTP, XML и SOAP. Существует 2 вида UDDI реестров: публичные UDDI реестры – служащие точками сбора различных бизнесов, для уведомления об их сервисах, частные UDDI реестры, которые делают то же самое но для организаций.

UDDI регистр содержит следующие структурные типы данных:

businessEntity. XML-элемент верхнего уровня в бизнес записи UDDI. businessEntity собирает данные по запросу информации о бизнес обслуживании, категории продукта или производства, географическом положении, а также контактную информацию. Он поддерживает поиск по организациям, продуктам и географическому положению.
businessService. Логическое продолжение структуры данных businessEntity и родоначальник структуры bindingTemplate. businessService содержит описательную информацию бизнес услуг по группам родственных технических услуг, включая имя группы, краткую информацию о группе, описание технической услуги, информацию о категории.
bindingTemplate. Логическое продолжение структуры businessService. bindingTemplate содержит данные, относящиеся к приложениям, которые необходимо запустить или связать с Web-сервисом. Эта информация содержит URL Web-сервиса, ссылки на спецификации интерфейса и др.
tModel. Содержит описания спецификации Web-сервисов или систематики, которые формируют основу для технических идентификаторов. Роль tModel заключается в предоставлении технических спецификаций Web-сервисов, что позволяет облегчить поиск Web-сервисов, совместимых с определенной технической спецификацией. Пользователи Web-сервисов могут легко определить другие совместимые Web-сервисы, основываясь на описании спецификаций в структуре tModel. Например, для того, чтобы послать биснес-партнеру RFP, запрашивающая служба должна знать не только URL/местоположение службы, но и в каком формате должен быть послан RFP, какие протоколы использовать, учесть требования безопасности, какую форму отклика подразумевает отсылка RFP.

Протокол SOAP (Simple Object Access Protocol). SOAP – простой, основанный на XML, протокол, для обмена информацией в децентрализованной, распределенной среде. SOAP поддерживает различные стили обмена информацией, включая:

Обмен информацией, формируемой после удаленного вызова процедуры. Этот тип обмена делает доступным процесс запрос-ответ, в котором оконечный пользователь получает процедурное сообщение и дает ответ соответствующим сообщением.
Информационный обмен на основе механизма обмена сообщениями. Этот тип обмена используют организации и приложения, которым нужно обмениваться бизнес-документами, посланное сообщение не подразумевает немедленный отклик на него.

SOAP характеризуется:

Протокольной независимостью.
Языковой независимостью.
Независимостью от ОС и платформы.
Поддержкой SOAP XML сообщений взаимодействующих частей (используя многосоставную MIME структуру).

Сообщение SOAP состоит из (1) SOAP конверта, который содержит две структуры данных, (2) SOAP-заголовка и тела SOAP и (3) информации об именах, служащих для их описания. Заголовок является необязательной частью, он передает информацию о запросе, определенном в теле SOAP. Например, он может содержать информацию по безопасности, деловую информацию или профиль пользователя. Тело содержит запрос Web-сервиса или ответ на него.

Спецификация описывает структуру и тип данных при обмене сообщениями, используя XML – схему. Способ, в котором SOAP используется для посылки запросов и получения ответов от Web-сервиса:

Клиент SOAP использует документ XML, который согласуется со спецификацией SOAP и содержит запрос об услуге.
Клиент SOAP посылает документ серверу SOAP, а тот обрабатывает его посредством HTTP, HTTPS.
Web-сервис получает сообщение SOAP, направляет его, в виде служебного запроса, приложению, предоставляющему запрашиваемую услугу.
Отклик от сервиса возвращается SOAP серверу, используя SOAP протокол, а это сообщение возвращается SOAP-клиенту, пославшему запрос.

OGSA/OGSI. Практическая точка зрения

Теперь должно быть очевидно, что, OGSA направлен на стандартизацию адресации (для совместимости), при помощи определения основы структуры приложения GRID. Несколько механизмов, работающих в стандартных формулировках программирования GRID, было описано в предыдущем разделе. По существу стандарт OGSA определяет сервисы GRID, их возможности и то, на каких технологиях они основаны. Однако, OGSA не различает особенностей технической стороны спецификации; целью является определение – что является системой GRID [73]. OGSA называют архитектурой, так как она направлена на построение и установку интерфейсов, из которых могут быть построены, системы, основанные на открытых стандартах WSDL [143].

Таблица 5. Предлагаемый OGSA интерфейс служб GRID

Тип порта	Операция	Описание
GridService	FindServiceData	Запрос различной информации о сервисах GRID, включая основную диагностическую информацию, информацию о интерфейсах и об особенностях сервисов. Поддержка различных языков запросов
	SetTermination Time	Установка времени уничтожения сервиса GRID
	Destroy	Удаление службы
Notification- Source	SubscribeTo-NotificationTopic	Подписка на уведомления о событиях, относящихся к сервисам, и основанная на типе сообщения
Notification- Sink	Deliver Notification	Выполнение и асинхронная воставка уведомления
Registry	RegisterService UnregisterService	Регистрация приложений GRID. Аннулирование регистрации приложений GRID
Factory	CreateService	Создание нового сервиса GRID
Handle Map	FindByHandle	Возврат ссылки о службе GRID, ассоциированные с их дескрипторами

Стандарты, поддерживающие GRID-вычисления. OGSA

Для любых новых технологий, работники бизнеса ищут ответы на следующие вопросы: Есть ли жесткие стандарты поддержки технологий. Любой опытный планировщик осведомлен о финансовых последствиях использования технологии, которая не стандартизована. В предыдущее главе, в некоторых деталях, был освещен оригинальный стандарт OGSI, выпущенный Мировым Форумом GRID (OGSI определяет службы GRID и основные механизмы создания, управления и взаимодействия с ними). Второй стандарт появился год спустя (на данный момент остается в недоработанном состоянии) и носит название Открытой Архитектуры Служб GRID (OGSA). Как было отмечено ранее, стандарты играют важнейшую роль в коммерциализации Intergrid, так же как и интернет стандарты были решающими для коммерциализации интернета в 90х (см. [66-68]). Эти же самые стандарты могут в дальнейшем использоваться в «GRID предприятия», так же как браузеры, в данный момент использующиеся в интранет приложениях. Эти стандарты могут быть использованы для развития открытых сред аутсорсинга. OGSA определяет сферу важнейших служб, запрашиваемых для поддержки систем GRID в е-науке и е-бизнесе. OGSA определяет сервисы, которые являются составной частью большого количества систем и приложений и определяет функциональные требования и взаимодействие между их центральными службами. Эти же стандарты используются в производственных GRID. OGSA специальный Web-сервис, который предоставляет набор интерфейсов и следует специальным соглашениям. OGSA документ содержит технические стандарты и шаблоны стандартов GGF, OASIS, W3C, что говорит о высокой функциональности OGSA и определяет приоритеты для дальнейшей работы.

OGSI определяет необходимые блоки для построения распределенных систем, включая стандартные интерфейсы и связанные сценарии, для описания и поиска атрибутов сервисов, создания новых сервисов, управления их жизненным циклом и доставку уведомлений. Однако он не определяет все элементы, которые требуются для построения крупных и сложных систем. Но может пригодиться для решения других разнообразных проблем.

Основные функциональные требования

Управление ресурсами еще одно мультиуровневое требование, включающее SLA согласование, инициализацию, планирование для различных типов ресурсов и действий.

Инициализация. Вычислительные процессоры, приложения, лицензии, хранилища, сети и оборудование – все ресурсы GRID, которые необходимо предоставить. OGSA нужна основа для предоставления ресурсов в единой, согласованной манере.
Виртуализация ресурсов. Динамическое предоставление ресурсов включает в себя необходимость в механизмах виртуализации ресурсов, для того, чтобы подогнать ресурсы под конкретные требования и задачи. Например, для добавления Web-серверов, когда запросы превысили некоторый порог.
Оптимизация использования ресурсов. Механизмы управления несовместимыми требованиями от организаций, групп, проектов и пользователей и выполняющие справедливое распределение ресурсов и доступа к GRID.
Управление передачей данных. Для приложений, которые требуют некоторых форм планирования в реальном времени, очень важно иметь возможность динамически управлять полосой пропускания канала передачи или приложениями, совместно использующими данными поддерживающие передачу. Во многих коммерческих приложениях, надежное управление передачей, необходимо для обеспечения, требуемого приложением, QoS.
Доступ. Модели для предоставления обеим сторонам доступа к ресурсам.
Управление и мониторинг. Поддержка управления и мониторинга использования ресурсов, детектирования SLA и нарушений соглашений всеми заинтересованными сторонами. Необходимо так же управление конфликтами; для разрешения конфликтов между дисциплинами управления, которые могут не сойтись в вопросах оптимизации.
Чистка процессора. Инструмент, помогающий предприятию или виртуальной организации использовать свободные ресурсы процессора. Как OGSA реализует инфраструктуру, которая позволит использовать холостые циклы? Например, рассмотрим набор компьютеров, на которых работаю программы, поддерживающее интеграцию (Condor, Entropia, и United Devices).

Одной из первых архитектур была GARA (Globus Architecture for Reservation and Allocation), которая была создана в соответствие с принципами архитектуры Globus [15, 16]. Эта архитектура обеспечивает простой механизм обнаружения и сохранения разнородных ресурсов с допущением, что эти ресурсы могут независимо управляться. GARA была разработана таким образом, что может широко применяться с любыми ресурсами, включая сети, и была предназначена для одновременного использования разнородных ресурсов. GARA определяет механизмы прохождения требований, выдвигаемых приложениями к менеджерам ресурсов, чтобы те, могли обработать запросы, даже если ресурс недоступен или является частью уже запущенного приложения. GARA распространяется и на другие сети и не ориентирована под какой-то конкретный программный слой.

На ранних стадиях GARA использовалась в качестве интерфейса для управляемых сетевых сервисов GRID 3 слоя, основанных на RSVP и интегрированных сервисах QoS (IntServ). Дальнейшие эксперименты основывались на DiffServ. В этом исполнении, сообщения переходят от приложений к ресурс-менеджерам, где присоединя.тся к процессам, которые опрашивают маршрутизаторы DiffServ, выясняя уровень доступности сетевых ресурсов, проверяя соответствующий диапазон полосы пропускания и обеспечения QoS.

Переключение элементов в l- сети

В лямбда сетях в основном используются два переключающих элемента: (OADM optical adddrop multiplexer) и (OXC - optical cross-connect). Эти функции сходны с операциями, выполняемыми переключателями SDH-сетей, но в рамках одного оптического волокна. (OADM) используется для подключения терминального оборудования к лямбда сети, путем переключение одной длины волны (или нескольких соседних l) к выходному узлу (drop). Он также может ввести одновременно одну или несколько входных l одинаковой длины волны из узла, для поддержания количества l в главном волокне. Рис. 22 (a) показывает добавление и сброс лямбды 2 из волокна A

Рис. 15. (a) OADM, (b) OXC, (c) OXC с преобразованием длины волны (см. http://www.ringrid.eu/public/deliverables/RINGRID-WP3-D3_1-JKU-State_of_the_Art_in_Networks_final.pdf>RinGrid)

Разновидностью OADM является OADM с переменной конфигурацией или ROADM, в которой выбор какуюдобавляемой лямбды добавлять, осуществляется динамически. Это делает процесс построения лямбда сетей более гибким.

OXC это круговой переключатель каналов, имеющий два входных и два выходных волоконаных входа и выхода, лямбды с волокон на входе могут быть переключены на волокна любого из двух выходов, как показано на рисунке 1122 (b). Здесь нужно соблюдать осторожность, так как мы не можем направить две входных лямбды одного цвета на волокно одного и того же выхода. Одним из решений этой проблемы является использование преобразователя длин волн, который меняет длину волны лямбды, полученной на входе (см. рРисунок 1122 (с)).

Существуют различные альтернативы производству OADM и OXC. Они включают в себя мультиплексорные и демультиплексорные компоненты, сделанные из тонких пленочных светофильтров, волоконной сетки с оптическими циркуляторами, устройств со свободной пространственной решеткой и интегрированных плоских матричных волноводов. Известны различные технологии переключения, от ручной волоконной панели до разнообразных переключающих технологиий, таких как MEMS (Micro Electro-Mechanical Systems), жидкокристаллических и термооптических переключателей на плоских волноводныхнаправляющих схемах. Принцип использования устройств на основе MEMS (Микро электро-механических систем) показан на рис. 16, где тонкие зеркала подняты и опущены (а), или расположены под углом (b) [DOB02].

Рис. 16. Использование устройств MEMS для OADM (a), OXC (b) (см. http://www.ringrid.eu/public/deliverables/RINGRID-WP3-D3_1-JKU-State_of_the_Art_in_Networks_final.pdf>RinGrid)

Рис. 17. Система передачи WDM (см. http://www.ringrid.eu/public/deliverables/RINGRID-WP3-D3_1-JKU-State_of_the_Art_in_Networks_final.pdf>RinGrid)

G.709 Раздел оптических данных

Величина трафика данных относительно голосового трафика в оптических сетях и общего объема трафика, продолжает увеличиваться. Эти факторы стимулируют создание легкой в управлении, инфраструктуры передачи данных SONET/SDH, с возможностью передавать голос. На границе сети, где голос и другие данные объединяются в общую инфраструктуру, появились новые приложения для объединения данных. Характерным примером является комбинация виртуального соединения (VCAT), которая предоставляет гибкий механизм группирования для SONET/SDH, системы регулирования возможностей соединения (LCAS - Link Capacity Adjustment Scheme), предоставляющей динамическую настройку полосы пропускания, и общих фреймовых процедур (Generic Framing Procedures - GFP), предоставляющих протокольный кадровый «контейнер». В транспортном ядре, требования к полосе пропускания привели к созданию Оптической Транспортной Сети (Optical Transport Network (- OTN)), описанной в общем виде в ITU-T G.872. ITU-T G.709.

G.709 улучшает характеристики транспортных сетей и упрощает переход к более высоким скоростям передачи в опорных сетях. Фрэйм G.709 OTN включает в себя дополнительные транспортные функции, с возможностью использования, администрирования и поддержки, а так же функцию предотвращения и коррекции ошибок (Forward Error Correction (FEC)). FEC позволяет сократить число ошибок при передаче по каналам с шумами, что, в свою очередь, помогает создавать более длинные оптические диапазоны.

В сущности, OTN состоит из следующих частей, которые часто рассматриваются отдельно.

Секция оптической передачи (Optical Transport Section - OTS).
Секция оптического мультиплексирования (Optical Multiplex Section - OMS).
Оптический канал (Optical Channel - OCh).
Оптический канал (Optical Channel - OCh).
Раздел оптической передачи (Optical Transport Unit -OTU).
Блок оптических данных (Optical Transport Unit -OTU).
Блок данных оптического канала (Optical Channel Payload Unit - OPU).

Каждый из этих элементов и их функции распределены по сети и активируются, когда при достижении места назначения.

Программное обеспечение инфраструктуры GRID

Созданы различные интегрированные пакеты программ обслуживания GRID, часто называемые toolkit. Одной из них, является программа Globus, которая составляет часть инфраструктуры GRID, она предоставляет платформу для поддержки виртуальной организации и выполнения GRID приложений. В этом разделе рассказывается об этой программе и ее компонентах. Хотя каждый пакет программ инфраструктуры GRID - Globus [4], Condor [5], Legion [6], Unicore [7] или другие частные решения – имеют свои особенности и специализацию, компоненты программы Globus полностью соответствуют данной идеологии и ее основным тезисам.

Программное решение GLOBUS

Набор программ Globus Toolkit (GT) [4] – программный продукт с открытым исходным кодом и набором библиотек, разработанный в национальной лаборатории. Он содержит набор стандартных блоков и инструментов, которые могут быть использованы разработчиками и системными интеграторами. За несколько лет вышло четыре версии программы Globus: оригинальная – в конце девяностых, GT2 – в 2000, GT3 – в 2003, и GT4 – в 2005. Версия GT2 послужила базисом для множества GRID разработчиков по всему миру. GT3 – стала первой полноценной реализацией инфраструктуры GRID, построенной на технологии Web-сервисов, с использованием промежуточного звена GGF’s OGSI. GT4 – первая версия, полностью совместимая с основными Web-сервисами так же, как GRID- сервисы основанные на WSDL [9] и WSRF [10]. Большинство систем GRID используют ОС UNIX.

В последующих версиях программы Globus, ожидается дальнейшее совмещение с пакетом спецификаций OGSA, которые были определены в GGF. На протяжении всех этапов развития GT, разработчики Globus концентрировали свое внимание на создании инструментов, имеющих общий интерфейс для взаимодействия разнородными компонентами системы. В частности, в GT определены и реализованы протоколы, API, и другие средства, предоставляющие общие решение проблем использования и совместимости, таких как, идентификация, исследование ресурсов и доступ к ним. Решение этих проблем, достигается с помощью механизмов, которые обеспечивают безопасность, исследование информации, управление ресурсами и данными, связь, диагностику ошибок и портативность.

Ресурсные протоколы GT, используются для инициирования процесса расчета, выявления и мониторинга ресурсов, а также передачи данных. Пакет программ размещения и управления ресурсами GRID (GRAM - GRID Resource Allocation and Management), предназначен для безопасного управления процессами на удаленных ресурсах. Служба мониторинга и выявления свободных ресурсов предоставляет единый механизм обнаружения и доступа к информации по статусу и конфигурации GRID ресурсов, в частности, к конфигурации вычислительного сервера, сетевому статусу и возможностям различных сервисов. GridFTP - это расширенная версия FTP приложения и протокола [14]. Расширения включают в себя протоколы безопасного соединения, частичного доступа к файлам и управления распараллеливанием для более высокой скорости передачи данных. Безопасность в GT обеспечивается протоколами инфраструктуры безопасности Grid (GSI - GRID Security Infrastructure), которая используется для однопарольной аутентификации, защиты связи и для поддержки ограниченного делегирования.

Компоненты четвертой версии GT подразделяются на пять категорий: управление реализацией, служба безопасности, управление данными, информационная служба, работа в реальном масштабе времени. Категории показаны на рисунке 25.

Для управления исполнением пакет предоставляет возможность выявления и управления ресурсами GRID, управления рабочим пространством и средства планировщика сообщества пользователей.
Для обеспечения безопасности пакет предоставляет сервисы аутентификации и авторизации, предоставления удаленного доступа и авторизации сообществ пользователей.
Для управления данными в программе заложены функции надежной передачи файлов, интеграции и доступа к данным и их тиражирования.
Для обеспечения информационных служб, в программу заложены функции мониторинга и выявления различных сервисов системы.
Для поддержки совместной работы система содержит различные ядра Web – сервисов, библиотеки и расширенные функции поддержки ввода/вывода.

GT4 содержит набор стандартных служб. На данный момент они представляют собой девять Web-сервисных интерфейсов, но их число растет.

Управление заданиями: Пакет программ выявления и управления ресурсами (GRAM);.
Надежная файлопередача (RFT);.
Делегирование функций.
Система мониторинга и выявления свободных ресурсов – индекс (MDS-index);
Система мониторинга и выявления – MDS-trigge.
Система мониторинга и выявления – сбор данных (MDS-aggregate);
Авторизация сообщества (CAS);
Интеграция и доступ к данным (OGSA-DAI);
Протокол дистанционного контроля Grid (GTCP) для онлайнового контроля оборудования.

Система Gridge

Gridge - программный прдукт PSNC с открытым исходным кодом, призванный помочь пользователям в использовании промежуточного ПО GRID и в создании эффективных GRID инфраструктур. Все программные компоненты системы Gridge были соединены в единую распределенную систему, работающую по единым интерфейс-спецификациям, лицензиям и гарантиям качества.

Компоненты программы Gridge, так же как и другие представители промежуточного ПО GRID, прошли успешное тестирование различными версиями системы Globus. Компоненты программы Gridge распространяются бесплатно с полной коммерческой поддержкой. В добавок к уже описанным услугам, в следующем разделе PSNC предлагает:

техническую поддержку, консультирование, обучение и услуги разработчиков для программ Gridge и Globus.
содействие в разработке, использовании и настройке промежуточного ПО.
Установку и интеграцию компонентов Gridge и Globus.
семинары и тренинги по технологиям GRID.

Программный продукт Gridge содержит следующие инструменты и службы:

Служба авторизации GRID (GAS) – система авторизации, которая может служить единой точкой принятия решений для всех компонентов систем. Политика безопасности для всех компонентов системы заключена в GAS. Используя условия данной политики GAS способна аннулировать решение об авторизации по просьбе пользователя. Служба GAS разработана таким образом, что легко может интегрироваться с внешними компонентами и способна поддерживать безопасность комплексных систем. Способность взаимодействовать с различными компонентами Globus и операционных систем, делают GAS привлекательным решением для GRID приложений.

Система управления данными GRID - один из основных компонентов пакета управления данными Gridge (GDMSuite) – платформа промежуточного ПО, предоставляющая унифицированный интерфейс для соединения с разнородными хранилищами данных по всей сети. GDMSuite является основой всей среды Gridge, в рамках которой все вычислительные службы выполняют все свои операции. Пакет управления данными Gridge содержит набор блоков, разработанных для создания полной и добротной среды управления данными. Он разработан так, чтобы отвечать всем глобальным требованиям среды GRID, таким как, безопасность, совместимость и эффективность.

Мобильные службы GRID. Разработка программного обеспечения для мобильных устройств, по нашему мнению, должна фокусироваться на приложениях, которые способны установить взаимодействие между мобильными устройствами (мобильными телефонами, КПК, лэптопами) и службами GRID.

Журнальная система Toth. Этот компонент был разработан для решения проблемы сбора данных о событиях, генерируемых распределенными службами среды Gridge. Некоторые сервисы при решении общих задачах отдают предпочтение системе на основе библиотеки LOG4J, поэтому Toth полностью с ней совместим.

Система мониторинга GRID. Система мониторинга Mercury разработана в рамках проекта GridLab и предоставляет собой главную инфраструктуру мониторинга GRID. Она была специально разработана для того, чтобы отвечать специфическим требованиям мониторинга GRID: проведение мониторинга данных, представленных в виде метрик через модели pull/push семантики доступа к данным, а также предоставлять возможность мониторинга управления.

Порталы GRID разработаны специально для различных сценариев использования среды сообществами конечных пользователей. Порталы Gridge разработаны с помощью следующих инструментов и приложений: GridSphere, совместимой оболочки Java и провайдера GRID, которые позволяют быстро развертывать и использовать приложения, основанные на GRID, а также легко регулировать доступ к среде нескольких независимых порталов.

Система управления ресурсами GRID. Этот компонент является системой мета-планирования с открытым исходным кодом, он позволяет разработчикам создавать и использовать системы управления ресурсами для больших, трудно управляемых вычислительных инфраструктур.

В 2008 году сформировалась схема взаимодействия между GRID и базами данных Oracle (второе поколение технологии GRID-вычислений). Смотри конецформыначалоформыOracle Grid Computing Resources или Oracle Grid Computing Achieved.

GridFTP

Программное обеспечение для оконечных систем GridFTP – мощнейший инструмент для пользователей GRID и его приложений. В известном смысле, GridFTP устанавливает некую точку отсчета для сетевых решений GRID, для которых сеть это немодифицируемый, неизвестный ресурс, а стандартным протоколом является протокол TCP. GridFTP – основан на наборе команд и протоколов, стандартизованных IETF [14,28,29]. Аспекты программы GridFTP, реализующие независимую установку клиентского и серверного программного обеспечения GridFTP в сеть, стандартизованы совместно с GGF [30]. Globus GridFTP является решением, соответствующим [30]. Отличительными качествами программы GridFTP являются.

возобновляемые передачи
параллельные каналы данных
передача частей файлов
каналы данных многократного пользования
полосовой режим сервера
GSI безопасность для каналов данных и управления.

Из специфических особенностей, связанных с сетью, можно выделить полосовой сервер и параллельный канал данных, которые призваны увеличить пропускную способность. С выше перечисленными возможностями, многочисленные серверные реализации, при логических или физических трудностях, способны возобновить работу с одним и тем же файлом и функционировать как единичный FTP сервер. Использованиеуя параллельных каналов, позволяет распределить данные, которые должны быть переданы, по этим каналам, а также по независимым TCP потокам. Совместное использование полосовых и параллельных каналов данных GridFTP позволяет достичь примерно 90% использования полосы в 30 Гб/с, при передачи от память-память (27 Гб/с [31]). Когда происходит передача с диска на диск, пропускная способность достигает 17.5 Гб/с при тех же возможностях канала в 30 Гб/с.

Использование параллельных каналов данных, применительно к независимым TCP сессиям, отражается в более высокой средней величине пропускания за одну TCP сессию, чем в сетях со стандартным уровнем потерь (BER). Была сделана попытка количественно оценить разницу в полосе пропускания при трех простых предположениях: отправитель всегда имеет данные для отправки, издержки расщепления и объединения потоков для множественных сессий пренебрежимо малы, и оконечные системы имеют неограниченную полосу входа/выход.

GridFTP способен работать на большом количестве временных TCP портов. Однако, будет непрактично (и не безопасно) держать все эти порты открытыми для доступа при firewall’e априори. Решить все вопросы, связанные с функциями firewall призвана исследовательская группа проблем firewall [33] при GGF.

Требования безопасности

GRID предъявляет ряд требований по безопасности, некоторые из них приведены ниже.

Множественные инфраструктуры безопасности Для распределенных операций просто необходимо управление и взаимодействие с множественными инфраструктурами безопасности. Например, для коммерческого банка данных, изоляция клиентов внутри этого банка данных – основное требование; GRID должен осуществлять не только контроль доступа, но и предоставлять изоляцию. В качестве другого примера, можно привести системы онлайновых развлечений, где для предлагаемого контента должна быть гарантирована соответствующая изоляция, такой уровень изоляции должен осуществляться системой безопасности инфраструктуры.

Системы безопасности периметра. Многие задачи требуют, чтобы приложения могли использоваться и во вне собственного firewall’а. Коллпборпция Intergrid часто требует пересечения зон действия firewall’ов разных организаций. OGSA требуется стандартизировать безопасные механизмы взаимодействия firewall’ов.

Идентификация, авторизация и аккоунтинг. При создании и внедрении приложений в систему GRID требуется аутентификация/авторизация. В случае с коммерческим банком данных, банк данных опознает клиента и авторизует его запрос, когда клиент выставил запрос на загрузку задания. Банк данных так же определяет персональные настройки пользователей (безопасность, планирование и др.).

Шифрование. ИТ инфраструктура и ее управление требует шифрования коммуникаций, по крайней мере самых основных.

Firewall’ы сетевого уровня и приложения. Это давняя проблема. Особенно сложной ее делает огромное количество правил и условий, а также различные ограничения на международных сайтах.

Сертификация. Авторитетные организации сертифицируют работу отдельных сервисов. Например, компания может придерживаться правил, которые требуют, чтобы использовались сервисы электронной коммерции, сертифицированные Yahoo.

Возможности идентификации и авторизации в GT4 основаны на стандарте для сертифицирования X.509 [24]. Сертификаты используются для идентификации постоянных объектов, таких как пользователь или сервер. Proxy-сертификаты используются для поддержки временной передачи привилегий другим объектам. InGT4, WS-Security [25] включает в себя среду авторизации, набор механизмов безопасности передачи данных, а также ряд механизмов безопасности, касающихся сообщений. В частности:

Механизм защиты сообщений GT4 при передаче осуществляется стандартом WS-Security и спецификацией WS-SecureConversation.

Механизмы безопасности передачи данных используют протокол TLS (Transport Layer Security см. book.itep.ru/6/tls.htm).
Среда авторизации включает в себя различные схемы авторизации, включая базирующиеся на листе контроля доступа “GRID-mapfile”, серверном листе контроля и доступе к авторизационной службе посредством протокола SAML. Для компонентов отличных от Web-сервисов, GT4 предлагает сходные механизмы идентификации, авторизации и делегирования.

Обсуждение общих проблем сетевой безопасности смотри по адресу book.itep.ru/6/secur_6.htm и ~/6/intrusion.htm/.

Ссылки

1	Foster, C. Kesselman, and S. Tuecke, “The Anatomy of the GRID: Enabling Scalable Virtual Organizations,” International Journal of High Performance Computing Applications, 15 (3), 200–222, 2001
2	D. Awduche, J. Malcolm, J. Agogbua, M. O’Dell, and J. McManus, “RFC 2702, MPLS Traffic Engineering,” IETF, September 1999
3	Hudson, “Multilink Frame Relay: Expanding the Limits of T1,” Tiara Networks, FRF News, 4th Quarter 1999
4	D. Minoli, A Collection of Potential Network-Based Data Services, Bellcore/Telcordia Special Report, SR-NPL-000790, 1987, Piscataway, NJ
5	G. Buda, D. Choi, R. F. Graveman, and C. Kubic, “Security Standards for the Global Information GRID,” in Military Communications Conference, 2001. MILCOM 2001
6	R. Buyya, Economic-Based Distributed Resource Management and Scheduling for GRID Computing, Ph.D Thesis, Monash University, Melbourne, Australia, April 12, 2002
7	C. Semeria, “RSVP Signaling Extensions for MPLS Traffic Engineering,” White Paper, Juniper Networks, Inc., 2000
8	http://searchwebservices.techtarget.com
9	S. Hege, and J. E. Refsnes, “Glossary and Tutorials,” W3Schools, Web Developers Site On The Net, http://www.w3schools.com
10	ANSI INCITS, “Fibre Channel Arbitrated Loop (FC-AL-2),” revision 7.0, INCITS Project 1133D, April 1999
11	ANSI INCITS, “Fibre Channel Framing and Signaling (FC-FS),” Rev 1.70, INCITS Project 1331D, Draft Standard, Rev. 1.9, April, 2003
12	ANSI INCITS, “Fibre Channel Switch Fabric -2 (FC-SW2),” revision 5.2, INCITS Project 1305-D, May 2001
13	Frank Gens, “IDC Predictions 2004: Top 10 Trends for the IT Industry,” IDC Executive Telebriefing, IDC, Boston, Mass. December 4, 2003
14	OGSI Technology Preview Overview, The Globus Project™, Argonne National Laboratory, USC Information Sciences Institute, 2002; http://www.globus.org/toolkit/download/license.html
15	The Global GRID Forum, 9700 South Cass Avenue, Bldg. 221/A142, Lemont, IL, 60439, USA, http://www.ggf.org
16	The Globus Alliance, “The Globus Alliance is a research and development project focused on enabling the application of GRID concepts to scientific and engineering computing,” Press Releases, c/o Carl Kesselman, USC/Information Sciences Institute, 4676 Admiralty Way, Suite 1001, Marina del Rey, CA 90292-6695, Tel: 310 822-1511 x338, Fax: 310 823-6714, carl@isi.edu, http://www.globus.org, info@globus.org
17	P. Gralla, “What Is Service-Oriented Architecture?” The Web Services Advisor, 06 May 2003, http://searchwebservices.techtarget.com
18	The Global Alliance, “The Globus Toolkit,” The Globus Alliance Press Release, c/o Carl Kesselman, USC/Information Sciences Institute, 4676 Admiralty Way, Suite 1001, Marina del Rey, CA 90292-6695, Tel: 310 822-1511 x338, Fax: 310 823-6714, carl@isi.edu, http://www.globus.org, info@globus.org
19	IBM Press Releases. IBM Corporation, 1133 Westchester Avenue, White Plains, New York 10604, www.ibm.com
20	J. Shurtleff, “IP storage: A review of iSCSI, FCIP, and iFCP,” iSCSI Storage/IP network Storage Trend and News, iSCSI Storage Publications, P.O. Box 7317, Golden, CO, 80304-0100, info@iscsistorage.com, http://www.iscsistorage.com
21	J. Joseph, “A Developer’s Overview of OGSI and OGSI-Based GRID Computing Get an In-Depth Look at the Open GRID Service Infrastructure,” IBM Archives, April 7, 2003
22	J. Unger, and Matt Haynos, “A Visual Tour Of Open GRID Services Architecture: Examine The Component Structure of OGSA,” IBM Achives, August 2003, Updated October 2003
23	I. Foster, C. Kesselman, and S. Tuecke, “The Anatomy of the GRID: Enabling Scalable Virtual Organizations,” International Journal of Supercomputer Applications, 15 (3), 200–222. 2001
24	“Kansai EPC Chooses IBM for GRID Computing Development, RBC Insurance, Royal Dutch Shell and Kansai Electric Power Newest IBM GRID Customers,” IBM Press Release, 28 Apr 2003. IBM Corporation, 1133 Westchester Avenue, White Plains, New York 10604, www.ibm.com
25	L. J. Zhang, Q. Zhoum, and J.-Y. Chung, “Developing GRID Computing Applications, Part 2, Introduction to a GRID Architecture and Toolkit for Building GRID Solutions,” December 3, 2002, http://www-106.ibm.com/developerworks/views/GRID/articles.jsp
26	M. C. Brown, “GRID Computing—Moving to a Standardized Platform,” August 2003, IBM archives, IBM Corporation, 1133 Westchester Avenue, White Plains, New York 10604, www.ibm.com
27	A. Miller, M. Jefferson, and J. Rogers, “Global Information GRID Architecture,” Mitre White Papers, MITRE Corporation, 202 Burlington Road, Bedford, MA 01730-1420, (781) 271-2000, http://www.mitre.org
28	R. Pulley and P. Christensen, “A Comparison Of MPLS Traffic Engineering Initiatives,” A White Paper by NetPlane Systems, Inc., Southboro Office Park,120 Turnpike Road, Southborough, MA 01772
29	developerWorks staff, “Start Here to learn about GRID Computing,” IBM Corporation, 1133 Westchester Avenue, White Plains, New York 10604, August 2003
30	T. Myer, “GRID Computing: Conceptual Flyover for Developers,” IBM Corporation, 1133 Westchester Avenue, White Plains, New York 10604, May 2003
31	L.-J. Zhang, J.-Y. Chung, and Q. Zhou, “Developing GRID Computing Applications, Part 1: Introduction of a GRID Architecture and Toolkit for Building GRID Solutions,” Updated November 20, 2002, IBM Corporation, 1133 Westchester Avenue, White Plains, New York 10604, October 1, 2002
32	F. Berman, G. Fox, and A. J. Hey (Eds.), GRID Computing: Making the Global Infrastructure a Reality, Wiley, 2003
33	M. Chetty and R. Buyya, “Weaving Computational GRID: How Analogous Are They With Electrical GRID?” IEEE Computing in Science and Engineering, July/August 2002
34	I. Foster and C. Kesselman (Eds.), The GRID: Blueprint for a Future Computing Infrastructure, Morgan Kaufmann Publishers, 1999
35	GRID Computing Info Centre (GRID Infoware), “GRID Computing, Answers to the Enterprise Architect Magazine Query,” Enterprise Architect Magazine, http://www.cs. mu.oz.au/~raj/GRIDInfoware/GRIDfaq.html
36	I. Foster, “What Is the GRID? A Three Point Checklist,” Argonne National Laboratory and University of Chicago, July 20, 2002, Argonne National Laboratory, 9700 Cass Ave, Argonne, IL, 60439, Tel: 630 252-4619, Fax: 630 252-5986, foster@mcs.anl.gov
37	I. Foster, C. Kesselman, and S. Tuecke, “The Anatomy of the GRID: Enabling Scalable Virtual Organizations,” International Journal of High Performance Computer Applications, 15(3), 200 (2001).
38	http://www.GRIDcomputing.com/.
39	R. B. Cohen and E. Feser, GRID Computing, Projected Impact in North Carolina’s Economy and Broadband Use Through 2010, Rural Internet Access Authority, September 2003
40	I. Foster, “The GRID: A New Infrastructure for 21st Century Science,” Physics Today, 55 (2), 42–47, 2002
41	IDC, GRID Computing with Oracle Database 11g, March 2008
42	Cloud Computing and Grid Computing 360-Degree Compared (Всестороннее сравнение GRID и Cloud Computing)

UP: 4.7 Прикладные сети Интернет
Next: 4.7.2 Сеть для науки ESNet (США)