Previous: 4.7.1 Сети GRID
UP:
4.7 Прикладные сети Интернет |
4.7.2 Сеть для науки ESNet (США)
Семенов Ю.А. (ГНЦ ИТЭФ)
(Перевод выполнен по заказу ИАЭ им Курчатова)
ESnet (Energy Sciences Network) – сеть, обслуживающая тысячи ученых департамента энергетики США (см. www.es.net и www.es.net/ESnet4, оттуда же взяты все приведенные ниже рисунки).
Office of Science (SC) DOE (Department of Energy) является крупнейшей организацией, осуществляющей поддержку фундаментальных физических исследований в США. Эта структура непосредственно поддерживает около 15,000 ученых, докторов наук и выпускников университетов, и руководит основными научными центрами DOE, которые обслуживают университеты, другие федеральные агентства, промышленность, а также международные исследовательские и учебные объединения. Задача ESnet заключается в предоставлении сетевой инфраструктуры, которая служит целям Office of Science.
ESnet SC функционирует последние 20 лет, строя кольцевую IP сеть национального масштаба с ответвлениями, использующими коммерческие каналы для подключения отдельных сетевых узлов (рис. 1).
Рис. 1. Архитектура ESnet3 до 2005
Однако для сегодняшних научных целей данная модель оказалась не масштабируемой. Она недостаточно гибка с точки зрения сетевых конфигураций и новых сервисов, она уязвима для отказов. Следовательно, модель должна быть изменена, для того чтобы отвечать требованиям науки по полосе и надежности.
Следующее поколение ESnet – ESnet4 – состоит из двух национальных опорных сетей с многосвязной топологией, построенной на основе стандарта 10GE.
Одна из двух опорных сетей, построенная на основе каналов 10GE, соединяющих хабы, предназначена для IP-трафика, который поддерживает работу лабораторий, общие научные коммуникации, коллаборационные и научные проекты с относительно низкими требованиями к информационным потокам. Текущие тенденции для этого вида трафика показывают, что ESnet (если не учитывать крупномасштабные эксперименты) с пропускной способностью 10 Гбит/с будет адекватной стоящим задачам на протяжении нескольких лет. Вторая базовая сеть SDN (Science Data Network) состоит из каналов с полосой 10 Гбит/с, соединяющих хабы, но с добавлением одного такого канала каждый год на протяжении последующих 4-6 лет, что в национальном масштабе даст прирост пропускной способности до 40-60 Гбит/с. Предполагается, что этот рост удовлетворит потребность крупномасштабных научных проектов, таких как LHC, суперкомпьютерные центры SC, новых экспериментальных установок типа нейтронного источника SNS и т.д..
Рис. 2. Базовая архитектура ESnet4
Сегодняшняя инфраструктура ESnet4 базируется на сотрудничестве ESnet-Internet2, в котором Internet2 решает задачи на уровне L3 (см. рис. 3).
Оптическое оборудование будет обеспечивать до 80 10 гигабитных каналов (0.8 терабит/с) на всех соединениях хаб-хаб национальной оптической сети.
Рис. 3. Общий вид сети ESnet.
Эволюция ESnet прошла через три основных этапа: 45 Мбит/с; 155 Мбит/с (ATM) и 10/2,5 Гбит/c (SONET). Сегодня ядро сети ESnet представляет собой кольцо, состоящее из 10 гигабитной части на севере и 2.5 Гбит/c на юге (рис. 3).
Рис. 4. Состояние сети (середина-2006) с элементами сети ESnet4
После ряда обсуждений на конференциях и в рабочих группах были выработаны следующие требования к сети ESnet:
Стратегия ESnet нового поколения базируется на некотором наборе принципов, которые требуют наличия 4 базовых сетевых элементов и сетевого сервиса для управления большими информационными потоками. Среди используемых принципов:
Эти архитектурные принципы диктуют наличие четырех элементов при построении новой сети:
Соединение IP-сети с ESnet требует трех вещей:
Стратегия построения высоконадежной опорной IP сети содержит в себе четыре элемента.
Инфраструктура сети базируется на каналах точка-точка с быстродействием 10 Гбит/с, которые соединяют друг с другом IP маршрутизаторы базовой сети. Эта инфраструктура обеспечивается и поддерживается коммерческими провайдерами, для того чтобы гарантировать высокий уровень надежности и работоспособность 7×24 в национальном масштабе.
Соединения реализуются с помощью оптического мультиплексирования на базе оптоволоконных пар. Эта система будет использоваться совместно с R&E сообществом, но ESnet будет иметь каналы, которые ей нужны для IP и SDN сетей и которые будут использоваться только для этих целей. Каждый канал является электрически независимым соединением точка-точка, который может поддерживать различные протоколы уровня L2 (для ESnet это в основном Ethernet).
Использование каналов с кольцевой топологией позволяет построить экономную по цене и надежную опорную IP-сеть. Кольцевая архитектура устойчива в отношении одного отказа, такого как разрыв волокна или выход из строя интерфейса маршрутизатора – IP-трафик будет просто переадресован в противоположном направлении кольца. Эта возможность переадресации в случае однократного отказа позволяет использовать более дешевые, незащищенные каналы. В сети ESnet эта архитектура используется уже пять лет для получения доступности опорной сети на уровне 99.99%, при доступности сайтов 99.9%, или выше.
Хабы базовой сети ESnet размещаются в помещениях, соответствующих телекоммуникационным требованиям, гарантирующим высокий уровень безопасности, имеющим резервные источники питания и предоставляющим возможность удаленного технического обслуживания и ремонта. Оборудование узлов ESnet включает в себя высоконадежные IP-маршрутизаторы и переключатели. Это оборудование снабжено двумя процессорами, источниками и т.д., что позволяет автоматически восстанавливать работоспособность при отказах отдельных компонентов. Кроме того, маршрутизаторы имеют безопасный доступ по резервным каналам для инженерного обслуживания при чрезвычайных обстоятельствах.
Подход, использующий резервные маршрутизаторы в узлах опорной сети (например, по одному для каждого из каналов, входящих в хаб), был отвергнут, как излишне дорогой. Практика работы ESnet за последние пять лет с использованием одного узлового маршрутизатора с высоким уровнем внутренней избыточности показала, что это весьма надежно (с начала 2005 девять узловых маршрутизаторов продемонстрировали доступность на уровне 99.999%). Кроме того, в новой архитектуре внесены изменения в схему подключения к ESnet так, что выход из строя оборудования в любой отдельной точке не нарушает связности сети.
Предсказания трафика научного сообщества и экстраполяции, основанные на существующих тенденциях, указывают, что потребуются множественные соединения по 10 Гбит/с между экспериментальной установкой и сайтами участников коллаборации, а также между вычислительными и информационными системами. Большая часть генерируемых и анализируемых научных данных будет образовывать широкополосные потоки длительностью от часов до месяцев.
В число соображений, использованных при разработке стратегии, обеспечения требуемой функциональности входит:
Увеличение общей полосы пропускания сети, необходимое в ближайшие несколько лет, ожидается для канального трафика на участках эксперимент – вычислительная система. Учитывая высокую стоимость широкополосных маршрутизаторов и тот факт, что оконечные точки научного трафика обычно статичны (нет нужды динамически переадресовывать пакеты), планируется вместо маршрутизаторов использовать альтернативные решения.
Планируется, там, где это возможно, использовать переключатели уровня 2 (прежде всего Ethernet), которые в пять или более раз дешевле узловых маршрутизаторов. Стратегия построения базовой сети SDN заключается в том, чтобы изолироваться от IP-сети (при наличии большого числа связей) и сформировать множественные каналы по 10 Гбит/с, управляемые с помощью переключателей уровня L2 (Ethernet).
Подход, обеспечивающий ежегодное увеличение полосы пропускания, базируется на расширяемой инфраструктуре выделенного волокна. Расширяемость возникает при использовании оборудования с мультиплексированием DWDM. Это оборудование имеет вставные платы расширения, которые способны “активизировать” индивидуальные каналы по 10 Гбит/с каждый (называемые “лямдами” или “волнами”). Это подход для сетей, создаваемых в сотрудничестве с Internet2 (основной сетевой провайдер сетей R&E в США). Система Infinera DWDM, используемая для формирования инфраструктуры, позволяет иметь от 10 до 80 лябд одновременно (80×10 Гбит/с каналов).
Для доступа к сайту в ESnet используются хаб и звездообразная архитектура, поэтому канал точка-точка от сайта до ближайшего маршрутизатора хаба не удовлетворит требованиям по надежности, быстродействию и масштабируемой коннективности сайтов и ESnet: стоимость 10 гигабитного канала telecom до сайта запретительна, и такой канал уязвим по надежности. Чтобы удовлетворить нуждам коннективности, в сети ESnet была разработана новая стратегия соединения сайтов с опорной сетью. Стратегия имеет следующие составляющие:
Общая стратегия региональных сетей MAN (Metropolitan Area Networks) предполагает использование кольцевой топологии оптоволоконной структуры, которая предлагает резервный путь до сайта. Оптоволоконная система региональной сети содержит волновые мультиплексоры, способные работать с 16–64 10 Гбит/с каналами в пределах одного волокна.
Желательна многовариантная физическая прокладка для западного и восточного направлений волокон, хотя часто это условие не выполняется из соображений экономии. Это случается, когда частично западное и восточное волокна укладываются в общую трубу, что типично для “последней мили”, ведущей к сайту.
Сети MAN строятся с использованием более дешевых переключателей уровня L2 того же типа, что применены в опорной части сети SDN. Стратегия надежности заключается в использовании разных интерфейсных карт для восточного и западного направлений, а также для стороны, обращенной к сайту (смотри нижнюю часть рис. 5 слева). При этом интерфейсная карта перестает быть точкой отказа, которая приводит к потере связности сети. В случае сайтов, требующих повышенной надежности – таких как две лаборатории DOE, являющиеся центрами обработки данных LHC (Fermilab и Brookhaven) – будут использоваться сдвоенные переключатели вдоль всего пути между лабораториями и источником данных (USLHCnet). (Это проиллюстрировано на левой части рис. 5).
Рис. 5. MAN-архитектура для высоконадежных сайтов
Переключатели снабжены двойными картами CPU, двойными источниками питания. Питание имеет резервные вводы, чтобы обеспечить безотказную работу. Они размещаются в помещениях сайта и ответственность за их физическую безопасность и работоспособность лежит на сайтах.
Требования к полосе пропускания для MAN сопоставимы с аналогичными регламентациями для опорной сети SDN (или даже выше, когда сайт использует MAN для получения доступа к ESnet и к сети R&D через один и тот же хаб). Полоса пропускания MAN последовательно увеличивается путем увеличения числа каналов в кольце, что требует сравнительно скромных инвестиций в трансиверы DWDM и в интерфейсы переключателей уровня L2. Увеличение полосы пропускания сайтов, подключенных к MAN, обычно менее ресурсоемко. Если требования к полосе превышают уровень, который достижим простым увеличением числа каналов, приходится полагаться на интерфейсы следующего поколения. Ожидается, что интерфейс с полосой 100 Гбит/с станет доступным в течение ближайших пяти лет. В случае использования новых интерфейсов может оказаться необходимым обновление сетевых переключателей.
Сеть MAN является локальным расширением обеих национальных опорных сетей, IP и SDN. Исходная реализация MAN имеет два канала (два независимых 10 Гбит/с каналов, полученных за счет оптического мультиплексирования) в рамках оптоволоконного кольца. Один набор каналов конфигурируется как 10 Гбит/с IP-кольцо, а другой – конфигурируется в виде двух 10 Гбит/с SDN путей для каналов, базирующихся на SDN-трафике.
В идеале, два хаба кольца MAN подключаются независимо к IP и SDN опорным сетям (как показано на рис. 5). Это обеспечивает большую надежность за счет наличия двух отдельных и независимых путей от сайтов до обеих опорных сетей, и гарантирует перехват управления при отказе для IP SDN сервисов. Эта стратегия гарантирует то, что никакой отдельный отказ даже маршрутизатора/переключателя опорной сети, не нарушит коннективности любого сайта, подключенного через MAN ESnet.
Для лабораторий, которые размещены вне региональной зоны, предоставление двух независимых соединений к одному или обеим опорным сетям ESnet позволяет достичь тех же улучшений надежности. Смотри, например, узел PNNL в восточной части штата Вашингтон, как показано на рис. 3.
Окончательное состояние ESnet4 проиллюстрировано на рис. 3 и характеризуется топологическим разнообразием, которое обеспечивает вариабельность, гибкость и масштабируемость.
Вариабельность обеспечивается за счет наличия нескольких путей между любыми двумя узлами. Эта множественность гарантирует устойчивость при отказах. Эта особенность обеспечивает также гибкость для управления трафиком (балансировка нагрузки или исключение перегрузки за счет множественности соединений между узлами). Это также предоставляет определенную гибкость при возникновений чрезвычайных требований к полосе или при локальной вариации схемы связей. На рис. 3. проиллюстрировано планируемое распределение полосы пропускания, отображаемой на рисунке шириной линий. Увеличение полосы каналов от нынешних 10 Гбит/с до 100 Гбит/с ожидается в пределах 2010–2012 годов. Здесь будет использовано преимущество замены маршрутизаторов-переключателей на оборудование следующего поколения.
Необходимость виртуальных канальных сервисов (VC) для обеспечения качества обслуживания (QoS – например, гарантированную полосу) и изоляции трафика была признана одним из наиважнейших сетевых сервисов [1], [5]. Среди преимуществ виртуальных каналов следует отметить:
Среди функциональных требований для виртуальных каналов:
Эти требования направлены в ESnet On-demand Secure Circuits и Advance Reservation System (OSCARS) [7]. OSCARS рассматривает маршруты с доступными полосами пропускания в сетях между оконечными узлами VC и осуществляет резервирование. Полоса объявляется пользователем на основании идентификации характеристик трафика, специфицированных при резервировании (то есть, отправителем и получателем).
OSCARS гарантирует полосу каналов, поддерживая базу данных, охватывающую всю сеть и содержащую информацию о всех ресурсах и выполненных резервированиях полосы, и гарантирует, что ни полоса SDN, ни пределы на полосу каналов в сети IP не будут превышены. Маршрутизация, базирующаяся на политике в IP-сети используется для разделения составляющих трафика (канальная и IP часть во входном интерфейсе). Канальный трафик к или от специфицированных машин переадресуется в SDN сеть. Сайты обычно будут использовать отдельный переключатель или маршрутизатор для широкополосного VC трафика.
Кроссдоменная совместимость создает ряд сложных проблем. В частности, формирование кроссдоменного канала требует интерфейса управления сеть-сеть (NNI). Однако в настоящее время не существует стандартов для NNI, и это означает необходимость разработки сервисов виртуальных каналов для обеспечения совместимости для R&E сетей и организаций. Коллаборация включает в себя OSCARS [7], Internet2 [8], GEANT (европейский эквивалент Internet2/Abilene) и European regional networks (NREN) [9], Brookhaven National Laboratory [10], General Atomics [11], SLAC [12], DRAGON (тестовая система сети NSF) [14], и Ultra Science Network (исследовательская сеть DOE) [13].
Прототип сервиса был реализован в ESnet. Было создано более 20 тестовых аккаунтов, и обработано более 100 запросов резервирования.
Стратегия ESnet для сервисов научной коллаборации заключается в фокусировании внимания на сервисах, которые определены сообществом, как важные и для которых ESnet может обеспечить дополнительные возможности, из-за их национальной инфраструктуры и/или из-за их роли в сообществе DOE.
Инфраструктура ESnet обеспечивает отклик на любую проблему в режиме 7×24, физическую избыточность, и в высшей степени безопасное физическое размещение оборудования. 20-летняя история работы ESnets дает возможность управлять данными, которые должны быть надежно доступны в течение длительного периода времени. ESnet является точкой взаимодействия большой доли сообщества DOE (100,000 пользователей сайтов DOE обслуживаются ESnet).
Как отмечено в [1], сертификаты PKI (Public Key Infrastructure), сформированные проверенным центром сертификации, являются ключевым элементом в системе распределенных узлов. ESnet за счет иерархии безопасных сертификационных центров (CA) предоставляет гибкие, высококачественные сертификационные сервисы (смотри http://www.doegrids.org).
На вершине иерархии размещается корневой центр сертификации ESnet. Это исключительно безопасная система (необходима одновременная аутентификация двух человек для ее открытия). Единственной целью корневого CA является подпись сертификатов нижерасположенных CA, которые в свою очередь подписывают идентификаторы пользователей. (В модели PKI, CA имеет PKI идентификатор, как люди имеют имена). Обладание сертификатом идентификации CA, подписанной вышестоящим сертификационным центром, обеспечивает важный уровень безопасности в рамках PKI (например, восстановление и аннулирование ниже расположенного CA). Подпись сертификата CA используется, в свою очередь, в качестве основы обеспечения пользователей, серверов и машин верифицируемым идентификатором. Эти CA находятся в активном состоянии постоянно, так что запрос сертификата нового пользователя может быть обслужен немедленно.
Другим использованием корневого CA является работа с подчиненными CA, каждый со своей политикой, которая определяет типы обслуживаемых пользователей, и условия обслуживания. Это важно, так как разные научные сообщества имеют разные модели управления доверием. Например, ESnet сегодня управляет тремя CA: DOEGrids CA, the Fusion Grid CA, и SSL-сервер (идентификация машин и сервисов) CA.
Прежде чем обсуждать отличия CA, следует вспомнить, что кибер идентичность PKI состоит из двух частей. Одна часть – публично рассылаемый сертификат, который является электронным документом, содержащим идентичность пользователя (общее имя) и общедоступный ключ пользователя. Этот сертификат подписывается цифровым образом центром CA, который гарантирует его истинность (в том смысле, что в документе не был модифицирован ни один бит без рассогласования с подписью, что делает документ бесполезным с точки зрения установления кибер идентичности). Вторая часть кибер идентичности PKI состоит из секретного ключа пользователя, который соответствует его общедоступному ключу, который опубликован в сертификате идентичности пользователя (два ключа генерируются CA как взаимосогласованная пара, при генерации сертификата). Секретный ключ пользователя в комбинации с общедоступным ключом используется для проверки того, что владелец ключа является человеком, названным в сертификате. Следовательно, секретный ключ служит доказательством того, что пользователь является тем человеком, для которого был сформирован сертификат.
Постоянно работающие центры CA, которые вырабатывают сертификаты кибер идентичности, должны работать в исключительно безопасной среде, чтобы исключить взлом и использование для производства сертификатов, которые не должны быть сформированы согласно действующей политики сообщества. Центры ESnet CA реального времени работают в запертых стойках в запертых компьютерных комнатах. Они являются однофункциональными системами, которые размещены в изолированных сетях, защищенных firewall, который допускает только один вид трафика (запросы сертификатов). Подписывающие ключи хранятся в безопасных условиях и доступны только для специального оборудования (другими словами, подпись секретных ключей ESnet CA очень трудно украсть или дублировать при любых обстоятельствах).
DOEGrids CA использует достаточно традиционную политику [15], связанную с идентификацией пользователей физически и/или индивидуально до формирования сертификатов. Пользователи генерируют общедоступный и секретный ключи. Общедоступный ключ выдается CA вмести с набором данных, характеризующих идентичность пользователя, и регистратор локального научного сообщества проверяет представленные данные пользователя, после чего идентичность пользователя сертифицируется. Работу с секретным ключом осуществляет сам пользователь, который должен тщательно защищать его кибер идентичность. Fusion Grid CA [16] выдает сертификаты пользователям, которые не контролируют свои секретные ключи, характеризующие их идентичность. Сообщество Fusion записывает все секретные ключи на специальном сервере, и пользователь должен войти в этот ключевой сервер (используя соответствующий аутентификационный механизм) для того чтобы получить секретный ключ для использования в процессе аутентификации в Grid.
Каждый из этих подходов к кибер идентичности пользователя работает в пределах определенного сообщества; однако, политика CA для каждого из них записана по разному (и в некотором смысле они принципиально не совместимы) [15], [16]. Общим для разных CA является набор требований стандартной работы самих CA, независимый от политики, согласно который сформирован сертификат пользователя [17].
ESnet предоставляет услуги коллаборациям в форме конференционных систем, базирующихся на сетевой передаче аудио, видео и web-данных. Эти системы VAD (video-audio-data) состоят из пяти базовых элементов: IP видео-мосты H323, видео стример точка-мультиточка, базирующийся на WEB-технологии, служба видео-аудио шлюза, диспетчерская служба аудио-бриджа, базирующаяся на web-технологии, и службе Dial Plan Gatekeeper. Система в целом обеспечивает H323 IP-видиоконференции, которые могут подключать через шлюз и пользователей, для которых доступен лишь телефон.
Система достаточно интенсивно используется, обеспечивая около 2000 порто-часов аудиоконференций и 5000 порто-часов видеоконференций в месяц сообществу, насчитывающему около 2000 зарегистрированных пользователей. (каждый порт представляет собой систему, подключенную к системе VAD). Сервис оказался крайне эффективным экономически, обеспечивая 5-кратную экономию по сравнению с аналогичными коммерческими сервисами ($600K/год против. $3M/год).
Система в настоящее время размещается в узле ESnet в LBNL и не задублирована. Поддержка осуществляется с 8:00 утра до 5:00 вечера US Pacific Time (хотя любые отказы обслуживаются в режиме 24?7).
Будущее пути развития системы VAD сопряжены с оборудованием следующего поколения, которое начнет поставляться со следующего года, и когда оборудование будет поставлено, существующая система будет перемещена в хаб ESnet East Coast и будет сконфигурирована для обслуживания. Она будет размещена в ESnet/LBNL. Настоящий и новый сервисы будут полностью интегрированы с системой VRVS, которая широко используется в университетской среде, и системой доступа voice-over-IP (VOIP) к аудио бриджу VAD. (Общий сервис VOIP не рассматривался в качестве сервиса ESnet по нескольким причинам: количество людей, которые захотят взаимодействовать с ESnet, потенциально очень велико – слишком велико для уровня поддержки персонала ESnet – имеются неразрешенные вопросы легального взаимодействия с FCC- E911).
1 | “ESnet4 Overview Part 1 – The Drivers: The Networking Requirements of DOE’s Office of Science Programs and Facilities,” W. E. Johnston and Eli Dart, available from wej@es.net. |
2 | “Determining the Requirements for ESnet4 – the Next-Generation ESnet,” W. E. Johnston and Eli Dart, ESnet. Available at www.es.net/ESnet4. |
3 | “High Performance Network Planning Workshop“ August 2002, http://www.doecollaboratory.org/meetings/hpnpw. |
4 | “DOE Workshop on Ultra High-Speed Transport Protocols and Network Provisioning for Large-Scale Science Applications,” April 2003, http://www.csm.ornl.gov/ghpn/wk2003 |
5 | “DOE Science Networking Roadmap Meeting,” June 2003, http://www.es.net/hypertext/welcome/pr/Roadmap/index.html. |
6 | “Science-Driven Network Requirements for ESnet,” available from Eli Dart (dart@es.net).. |
7 | ESnet OSCARS webpage: http://www.es.net/oscars. |
8 | Internet2 BRUW Project: http://discvenue.internet2.edu/wordpress |
9 | GEANT PACE Project: http://pace.geant2.net |
10 | BNL TeraPaths Project: http://www.atlasgrid.bnl.gov/terapaths. |
11 | General Atomics QoS Project: http://www.fusiongrid.org/network |
12 | SLAC IEPM Project: http://www-iepm.slac.stanford.edu |
13 | UltraScienceNet Testbed: http://www.usn.ornl.gov |
14 | http://dragon.maxgigapop.net/twiki/bin/view/DRAGON/WebHome |
15 | DOEGrids CP/CPS: http://www.doegrids.org/Docs/CP-CPS-v28.pdf |
16 | Fusion Grid CAs (Policies and Documentation): https://cert.fusiongrid.org/FusionGrid/FusionGridCAs.html |
17 | Classic Grid PKI profile: http://eugridpma.org/guidelines/IGTF-AP-classic-20050930-4-0.html |
Ресурсы компьютерных сетей для департамента энергетики США (DOE) являются в 21 столетии критическими для выполнения его задач. Область интересов DOE охватывает исследования в области научных телекоммуникаций и решения практических задач передачи данных и оказания услуг в различных сферах, включая астрономию/астрофизику, химию, исследования климата, окружающей среды, молекулярную физику, физику твердого тела, термояд, ядерную физику и физику элементарных частиц.
Успех в этих сферах зависит от эффективного взаимодействия большого числа исследователей, работающих в самых разных лабораториях мира, и от возможности перемещения больших объемов данных в реальном масштабе времени. Одним из проектов, которые оказали большое позитивное влияние на развитие науки в прошлом, является GRID.
К числу технологий, появившихся в последнее время, можно отнести суперскоростные сети городского уровня (MAN, 10-100Гбит/с) для объединения близкорасположенных сетей, а также полностью оптические маршрутизаторы и переключатели. В данном обзоре рассматриваются следующие проблемы и перспективы:
Стоимость предлагаемых разработок составит в первый год проекта $15.5M и будет расти, достигнув к пятому году $21.5M.
С 2003 года бюджет ESnet на пилотные проекты сотрудничества и сетевые исследования составил $39M. В настоящее время составляется план на очередные пять лет.
Становится все более ясно, что современные сети не адекватны задачам, стоящим перед наукой DOE, чтобы сохранить необходимую конкурентоспособность в будущем.
Понятно, что успех в науке зависит от возможности ученых оперировать увеличивающимся объемом данных, от доступа к вычислительным и информационным ресурсам, и от эффективности удаленного взаимодействия ученых в реальном масштабе времени.
Совершенно также очевидно, что обычные сетевые бизнес-средства для научного сообщества недостаточны. Современные сетевые средства могут использоваться эффективно, если сетевая инфраструктура обеспечивает необходимые сервисы.
Особо высокие требования к сетевой инфраструктуре выдвигают современные эксперименты в области физики высоких энергий (анализ петабайтов данных), исследования в области биологии (протеины), астрономии и астрофизики. Без модернизации сетевой инфраструктуры рассчитывать на успех в науке 21-го века невозможно.
В августе 2002 на семинаре “High-Performance Networks for High Impact Science” была поставлена задача разработки интегрированной инфраструктуры, которая бы включала в себя:
Заинтересованные участники программы выработали базовые принципы, которые должны быть заложены в основу будущей программы развития сетевых технологий для науки:
В Исполнительном постановлении отмечено, что расходы на сетевую, научную инфраструктуру DOE составят $15.5M в первый год проекта. В дальнейшем они будут расти и достигнут $21.5M на 5-ый год.
Задачей Office of Science DOE является получение научных результатов по возможности путем оптимального использования имеющихся ресурсов. Продвинутые суперкомпьютеры и научные установки играют важную роль в научных достижениях. В соответствии с этим, Office of Science финансировало 10 лабораторий мирового класса и большое число исследовательских групп в университетах и международных коллабораций. В этой системе имеется три ценных ресурса:
Научно-сетевая инфраструктура по определению является весьма сложной. Ученые и инженеры по разным причинам часто образуют коллаборации, чтобы совместно решать проблемы, объединив имеющиеся ресурсы и адаптируя оборудование, программы и системы.
Одним из наиболее полезных для науки преимуществ за последние пол века было стремительное развитие технологии интегральных схем.
За последние несколько десятилетий плотность компонентов интегральной схемы удваивалась каждые 18 месяцев, ожидается, что эта тенденция сохранится ближайшие десять лет. Этот темп роста плотности компонентов, известный как закон Мура, [1], лежал в основе тенденции развития полупроводниковой промышленности [2]. |
Для науки влияние этой тенденции сказалось на росте обрабатывающих мощностей и возможности постановки все более сложных экспериментов. Отсюда следуют два вывода: (1) количество производимых научных данных также быстро растет и (2) научная технология становится все более сложной и требующей сотрудничества ученых из разных стран. Сетевые возможности росли последние 20 лет даже быстрее, чем это задает закон Мура. В это же время стремительно развивались средства взаимодействия, такие как WWW-технология, что крайне важно для участия в экспериментах ученых из разных стран. Для научных сетей важны три фактора:
Успехи во всех указанных выше областях привели к возрастанию научного трафика в сети Office of Science’s Energy Sciences Network (ESnet) вдвое каждый год, начиная с 1992.
Table 2-1. Научная информационная сеть и тенденции сотрудничества
1995 – 1999 | 2002-2004 | 2007-2009 |
Климат В 1998, генерировалось около 5Тбайт/год экспериментальных и модельных климатических данных. Сейчас DOE и другие агентства запустили долгосрочные программы сбора экспериментальных данных и поддержки модельных расчетов | Климатические экспериментальные и модельные данные и три крупнейшие американские проекта формируют вместе 100 Tбайт (NERSC – 40 Tб, ORNL – 40 Tб, и NCAR [не-DOE] – 20 Tб), это следует добавить к 20 Тбайт/год | К 2008, поток экспериментальных и симуляционных климатических данных в США увеличится до 3 Пбайт/год |
Ядерный синтез В области физики плазмы/термояда DOE поддерживает три основных эксперимента — General Atomics, MIT, и PPPL. Они и числовые моделирования сгенерировали 2 Tбайт данных в 1998 (в основном экспериментальные данные). | Современные эксперименты в области физики плазмы и термояда, а также моделирование генерируют 20 Тбайт данных в год. | Благодаря крупномасштабному моделированию и подготовки запуска плазменных экспериментов, исследователи термояда будут генерировать 1 Пбайт/год к 2008. Они нуждаются также в средствах обеспечения международных коллабораций |
Структура адронов Исследование кварк-глюонной структуры нуклонов и ядер дают 50 Tбайт данных и анализа за первые полгода работы экспериментальных установок CEBAF в JLab в 1998. | В настоящее время эксперименты и анализ данных CEBAF, включая открытие пентакварка, генерируют 300 Тбайт/год | Подъем энергии CEBAF до12 GeV для исследования кваркового конфайнмента добавит несколько Пбайт/год |
Кварк-глюонная плазма Целью проекта RHIC в BNL является обнаружение кварк-глюонной плазмы, относительно которой предполагается, что она существует на краю большого взрыва. Проект RHIC начат в 2000. |
Первые результаты, полученные на RHIC, указывают, что может быть открыта кварк-глюонная плазма, в настоящее время проект генерирует 600 Тбайт/год | К 2008 RHIC увеличит выход данных до 5 Пбайт/год |
Материаловедение – нейтроны Нейтронные методы являются критичными для исследования свойств материалов методом рассеяния нейтронов | Система SNS в настоящее время создается в ORNL. Она увеличит возможности нейтронной физики в США более чем по порядку величины | SNS начал работу в конце 2006 И должен достичь расчетного уровня характеристик в 2008, когда он будет генерировать 200 Тбайт/год (с учетом данных, возникающих при анализе) |
Материаловедение – фотоны Четыре финансируемые DOE-легких источника (ALS, APS, NLS и SSRL) используются для исследования свойств материалов и структуры биологических молекул, таких как протеины. В 1998, они аккумулировали 3 Tбайт данных | В настоящее время четыре легких источника накапливают и отсылают через ESnet 30 Тбайт/год | Это средство познания динамики и структуры материалов и биологических молекул посредством улучшенных детекторов даст 5-кратное увеличение потока данных и к 2008 году достигнет 150 Тбайт/год |
Химия – Горение Моделирование горения является важным для улучшения эффективности использования энергии. При моделировании генерировалось до 100 Гбайт/год (1998) | В процессе реализации создание архива на основе Web-технологии для совместного использования большого объема химических данных. Исследования горения генерируют 3 Tбайт/год | В 2007, моделирование процесса горения генерировало несколько Пбайт данных в год, эти данные в рамках коллаборации визуализовались, обрабатывались и анализировались. Кроме того, генерировалось несколько сот Tбайт/год экспериментальных данных, плюс публикации и аннотации в архивах, доступных через Web |
Химия – Окружающая среда Лаборатория EMSL (Environmental Molecular Sciences Laboratory) в PNNL (Pacific Northwest National Laboratory) начался проект в 1997 и имел целью понять и контролировать молекулярные процессы, которые лежат в основе наших проблем с окружающей средой. В 1998, он выдал 250 Гбайт | Лаборатория EMSL представляет собой уникальную комбинацию моделирования, оборудования ЯМР, высокоточных масс-спектрометров, оборудования визуализации, генерирует 100 Tбайт/год. | Благодаря протеомике (исследование протеинов), установкам в сфере нанотехнологий и применению суперкомпьютеров в EMSL скорость генерации данных возросла к 2008 году до 2 Пбайт/год |
Genomes to Life. В области протеомики и метаболомики в рамках проекта GTL (Genomes to Life) было сгенерировано в мире около 10 Gбайт данных за 1998 | Протеомика и метаболомика в настоящее время способны генерировать 400 Тбайт/год. Заметим, что информация GTL для одного микроба составляет 20 Пбайт протеомических данных и 16 Пбайт метаболомических данных | Генерация данных протеомикой и метаболомикой возросла к 2008 году до уровня десятков Пбайт/год |
Генерация данных протеомикой и метаболомикой возросла к 2008 году до уровня десятков Пбайт/год | Для исследования Хигс-бозона в FNAL обрабатывалось 500 Tбайт данных в год, анализ данных продолжается | Исследование свойств Хигс-бозона на LHC в CERN создаст поток данных 10 Пбайт/год. 3-4 Пбайт/год будут пересылаться в BNL и FNAL, и, затем в университеты США, начиная с 2007. Обработка этих данных будет порождать несколько дополнительных Пбайт/год |
Асимметрия вселенной. BaBar-эксперимент в SLAC призван установить, почему наша вселенная имеет асимметрию распределения вещества и антивещества. Эксперимент начат в 1999 году | BaBar в настоящее время выдает 200 Tбайт данных в год. На данный момент переслано партнерам в Европе более Пбайт данных для анализа | Обновление ускорителя PEP-II приведет к учетверению потока данных в эксперименте BaBar по отношению к уровню 2003 года, что составит около 1 Пбайт/год. Обработка этих данных позволит лучше понять процессы формирования нашей вселенной |
Как видно из таблицы за период с 1998 до 2008 потоки данных для систем DOE Office of Science возросли в 500-1000 раз. Так как системы становятся более распределенными полные потоки данных растут быстрее, чем соответствующие потоки в центральных лабораториях. Следовательно, оценка 1000 раз за 10 лет может быть заниженной. Эти оценки грубо соответствуют удвоению потоков, транспортируемых через ESnet каждый год. Ниже названы основные факторы, влияющие на рост информационных потоков:
Число крупномасштабных научных проектов DOE критически зависит от кооперации мултидисциплинарных исследователей, которые могут иметь такие ресурсы, которые не может себе позволить ни одна национальная лаборатория или университет. Эти проекты охватывают широкий спектр дисциплин, включая физику высоких энергий, симуляции климата, термоядерную энергетику, геномику, астрофизику и пр.. Кроме того, новые экспериментальные установки, вступающие в действие, такие как ITER, LHC и SNS, а также уже действующие установи, такие как ALS, APS, CEBAF, EMSL, FNAL Tevatron, NLS, RHIC и ускоритель SLAC PEP-II (BaBar), SSRL и другие, выдвигают беспрецедентные требования для распределенного анализа данных. Эти коллаборации содержат географически распределенные ресурсы, такие как супер-ЭВМ, кластеры, предлагающие достаточно большие вычислительные мощности, пользовательские системы, которые имеют уникальные экспериментальные возможности, и репозитарии экспериментальных и вычислительных данных. Эти команды могут быть разбросаны по стране или по всему миру. Проблемы доступа к таким системам должны тесно координироваться и управляться через WAN. В действительности, обеспечение прямого обращение исследователей к этим распределенным ресурсам является задачей DOE, а “сеть” и ассоциированные средства GRID становятся критическими компонентами современной научной инфраструктуры.
Задачей Office of Science DOE является обеспечение эффективного функционирования инфраструктуры для того, чтобы коллаборации исследователей имели удаленный доступ к экспериментальным и вычислительным ресурсам. Такая инфраструктура может исключить изоляцию ресурсов, ликвидировать избыточность, и способствовать быстрому научному прогрессу за счет тесного взаимодействия эксперимента, теории и моделирования. Например, регулирование по времени много-петабайтных потоков данных от LHC (Швейцария), может исключить несогласованность полосы пропускания трансатлантических и внутриамериканских каналов. Возможность удаленного доступа к сложному научному оборудованию в реальном масштабе времени делает возможным интерактивное сотрудничество географически разбросанных исследователей, без необходимости скоординированных командировок и дублирования специализированного экспериментального оборудования. Например, в ITER предусматривается возможность управления со стороны команды географически разбросанных исследователей.
На конференции в августе 2002 моделирование климата было приведено в качестве примера успешного использования сетевых технологий.
Успешное моделирование климата [4] существенно для понимания таких явлений как ураганы, засухи и изменение распределения осадков, волны тепла и внезапные похолодания. Хорошее моделирование климата требует очень мощных компьютеров, чтобы обеспечить моделирование с приемлемым разрешением в пространстве и времени.
“Модель климата” не совсем корректный термин, так как климат определяется сложным взаимодействием физических и биологических явлений (смотри рис. 2-1). Существуют дюжины моделей, которые должны быть подключены, чтобы осуществить реальное моделирование климата с приемлемой точностью. Сложность моделирования климата типична для любого макромасштабного явления от космологии до функционирования живых клеток.
Рис. 2-1. Сложность моделирования климата [5]
Так как климат исключительно сложное явление, которое включает в себя моделирование большого числа отдельных элементов, для того чтобы получить нужную точность, каждый из таких элементов изучается отдельной группой специалистов.
За последние два десятилетия научные менеджеры DOE предприняли ряд ключевых шагов, вызванных ростом объема данных и коллабораций. В середине 80-х возникло осознание необходимости улучшения сетей между лабораториями DOE и их университетскими коллабораторами, и были объединены сети, включая HEPnet (High Energy Physics Network) и MFEnet (Magnetic Fusion Energy Network), которые использовали разные протоколы. Это объединение было названо ESnet. Хотя ESnet вначале была многопротокольной сетью, IP-протокол является стандартом и применяется повсеместно. Начиная с начала 90-х, началась серьезная разработка коллаборационных средств. Вначале наибольшее внимание уделялось распределенным вычислениям, совместному использованию файлов и инструментальному контролю. Тремя программами 1990-х DOE/SC/ASCR/MICS были Distributed Informatics, Computing, & Collaborative Environment (DICCE); Distributed Computing Experimental Environment (DCEE); и DOE2000 Collaboratories. Программа DOE2000 расширяется и охватит GRID-технологии, и сейчас программа SciDAC (Scientific Discovery through Advanced Computing) и MICS поддерживают R&D и реализации коллаборационного программного обеспечения в стиле grid и вычислительные инструменты для науки DOE. В ниже приведенной таблице 2.2 представлены некоторые примеры того, как коллаборационное программное обеспечение улучшает научную ситуацию.
Научное сообщество с его петабайтными объемами данных довольно широко разбросано географически, поэтому исследователи DOE находятся среди тех, кто решает проблемы управления использованием вычислительными GRID, удаленным оборудованием и коллаборационной визуализацией.
1 | Moore, G.E., Electronics 38(8), April 19, 1965. Available at: ftp://download.intel.com/research/silicon/moorespaper.pdf and http://www.intel.com/research/silicon/mooreslaw.htm. |
2 | International Technology Roadmap for Semiconductors 2002 Update. Available at: http://public.itrs.net |
3 | See: http://public.web.cern.ch/public/about/achievements/www/www.html |
4 | This scenario is due to Al Kellie, Gary Strand, and Tim Killeen of the National Center for Atmospheric Research (NCAR). |
5 | Figure courtesy of Gordon Bonan, NCAR. It is taken from Bonan, G., Ecological Climatology: Concepts and Applications, Cambridge: Cambridge University Press (2002). |
Произошли существенные изменения во всех аспектах сетевых технологий и среды сотрудничества, как в зоне ответственности DOE, так и в большинстве международных и университетских сообществ. Следовательно, чтобы успешно реализовать сетевые проекты необходимо поменять некоторые базовые предположения, сопряженные с технологией, научными ресурсами и возможностями.
Сеть ESnet в настоящее время базируется на IP и некотором числе специфических сервисов, которые отличаются от стандартных коммерческих IP-сервисов (смотри приложение B). Провайдерство означает, что сервисы должны быть доступны +99.9% времени. Заметим, что модель провайдерства для оговоренных услуг сходна с той, которая определяет стандартные коммерческие сервисы с добавлением определенных услуг, предоставляемых Office of Science.
Конференция в августе 2002, “High-Performance Networks for High-Impact Science”, рассмотрела альтернативные модели согласования сетевых требований для научных коллабораций. Критическим пунктом является то, как обеспечить коммуникации, когда требования увеличиваются вдвое каждый год и когда смена поколений сетевых технологий происходит слишком быстро. С учетом всех факторов на конференции была выработана модель провайдерства.
Модель сетевого провайдерства. Для того чтобы отвечать требованиям экономически оправданным образом, программы Office of Science должны следовать трехэлементной модели предоставления услуг (провайдерства):
Стратегия провайдерства для интегрированных сетей оптимальна для трехэлементной сети (см. выше). Сетевое обеспечение науки DOE только выиграет, если планирование, координация и финансирование осуществляются с учетом этих элементов. Факторы, которые следует учитывать, перечислены ниже::
Конференция в 2003 подтвердила выше описанную стратегию и предложила дальнейший план развития (roadmap) на протяжении 2008. Ниже представлены базовые тезисы модели:.
Несколько технических факторов влияют на наше понимание того, где проходит граница между стандартным провайдерством и предоставлением услуг сетей с высокими допустимыми пиковыми нагрузками. Базовым физическим механизмом для сетей является то, что информация передается путем модуляции света в волоконном кабеле. Через одно волокно может передаваться свет с разными длинами волн одновременно. Для современных и проектируемых электронно-оптических технологий, максимальный поток, который может быть передан по одному волокну составляет 10 Гигабит/сек (Гбит/с). Такой поток называется OC192. Передача данных со скоростью более 10 Гбит/с требует использования нескольких длин волн, или нескольких l. Кроме того, не ясно, может ли современный транспортный протокол TCP, быть улучшен, чтобы эффективно передавать данные со скоростью больше 10 Гбит/с, не ясно также, как управлять при таких скоростях множественными потоками данных с различными приоритетами.
Сеть ESnet сегодня уже имеет часть своей опорной сети, работающей на скорости 10 Гбит/с (OC192). Проблема заключается в том, что потребности растут со скоростью 100% в год, ожидается, что 10 Гбит/с уже будет недостаточно для экспериментов, симуляций и визуализации Office of Science. Предполагается, что к 2008 году опорная сеть ESnet должна будет обеспечить 40 Гбит/с или даже более. Рассматривая технологии, которые могут быть применены и какие требования приведут к естественному разделению провайдерских сетей и сетей с высокими импульсными нагрузками, следует зафиксировать:
Главная проблема заключается в том, что на текущий момент нет технологий для транспортировки данных от отправителя к удаленному получателю на скорости 10 Гбит/с. Фактически, выполнение такой операции даже в рамках одного вычислительного центра сегодня не является ординарным делом. Эта проблема известна под названием E2E (end-to-end). Рассматриваемые технологии, способные решить проблему передачи данных со скоростью более 10-Гбит/с, включаю l-переключение и оптическую коммутацию пакетов, находятся на острие текущих R&D.
Существуют альтернативные решения задачи передачи данных со скоростью 40 Гбит/с к концу 2008:
На конференции были рассмотрены альтернативы управления в рамках проекта roadmap. Ясный консенсус был достигнут в отношении централизованного управления сервисами. Как сказал один из международных участников, если бы Office of Science не имел централизованного управления ESnet, ему следовало бы его создать. Кроме того, покупка сетевых средств по частям очень дорогостояща и такой план не позволил бы предоставлять дополнительные услуги, необходимые для науки, так как это обычно находится за пределами интересов коммерческих IP провайдеров.
Централизованное управление эффективно также для сотрудничества между Office of Science и большим числом университетов и международных коллабораций. Большинство продвинутых научных сетей DOE являются глобальными, и сотрудничество также требует скоординированных усилий при финансировании проектов, чтобы исключить дублирование. Существует ряд других академических сетей, ведущих сетевые разработки, среди них Abilene, SuperSINET, SURFnet, Translight, UKLight и USLIC.
В качестве примера, на конференции в июне 2003, было отмечено, что когда National Science Foundation завершила поддержку NSFnet в 1995, планировалось, что коммерческие провайдеры обеспечат нужные сервисы. Университетское сообщество, обслуживавшееся NSFnet, не смогло получить нужного уровня сервиса непосредственно в коммерческом секторе, и университетское сообщество сформировало сеть Internet 2, известную также под именем Abilene, чтобы обеспечивать себе потребные услуги. В то время как коммерческие провайдеры предоставляли большинство базовых услуг сети Internet 2, специфические требования университетского сообщества могут быть удовлетворены только ими самими. Заметим, что сетевые требования Office of Science и его коллабораторов более схожи с требованиями Internet 2, чем с нормами коммерческого IP-сервиса.
Следовательно, данная “дорожная карта” предлагает, что централизованным образом управляется стандартное предоставление услуг и услуги для импульсных нагрузок, и централизованно координируются сервисы сетевых исследований. Причина того, что исследовательская сеть требует координации больше, чем отдельный канал, заключается в числе элементов, которые не находятся под контролем Office of Science. Кроме того, существует несколько сетевых элементов, финансируемых Office of Science, для сетевых исследований, которые изолированы от ESnet. Чтобы выполнить сетевые R&D по исследованию коннективности E2E, важно, чтобы сеть содержала все необходимые элементы. Таким образом, часть исследовательской сети будет управляться центральной группой, а другие части – другими группами. Координация через центральную группу будет ключевой для успеха дела, включая критический шаг внедрения результатов R&D в реальную сеть и реализацию E2E сервисов.
Финансирование сетевых R&D и средств взаимодействия данного проекта (roadmap) осуществляется в рамках соответствующих секций бюджета. Финансирование провайдерства и сетей с высокой импульсной пропускной способностью охарактеризовано в таблице, представленной выше. Как это указано в приложении B данного доклада, требования к полосе пропускания растут со скоростью 100% в год и, как это представлено в разделе 2 доклада, требования к полосе пропускания сети будут расти с этой же скоростью или даже быстрее для временного периода вплоть до конца 2008. В приложении B отмечается также, что стоимость полосы пропускания будет падать со скоростью 40% в год, и в настоящее время нестабильна. Эти факторы принимаются во внимание при рассмотрении возрастания бюджета (см. таблицу 3-2 ниже). Следовательно, бюджет провайдерства и сетей с высокой импульсной пропускной способностью будет нужно увеличивать, как это указано в таблице. В таблице обобщается инкрементное финансирование проекта:
Таблица 3-2. Требования к инкрементному финансированию для провайдерских сетей и сетей для импульсных нагрузок
Финанс. год | Инкрементное финансирование ($M) |
1 | 3 |
2 | 4 |
3 | 4 |
4 | 4 |
5 | 5 |
Стратегия разделения провайдерской сети и сети с высокой импульсной пропускной способностью, а также исследовательских сетей, как это описано выше диктуется спецификой базовой технологии транспортировки данных по оптическому кабелю. Существуют и дополнительные мотивации. В этой модели меньшее финансирование требуется для получения заданного уровня функционирования. Это связано с двумя факторами. Достижение надежности 99% менее дорого, чем получение надежности +99.9%, так что наличие части сети с надежностью 99% уменьшает издержки. Вторая причина заключается в том, что не каждый сайт лаборатории и не каждый сайт пользователя DOE требует сервиса сети с высокой импульсной пропускной способностью. Сервисы с l-коммутацией могут быть тщательно сконфигурированы, чтобы разместить ресурсы в тех местах, где они наиболее нужны. Это будет справедливо также для сервисов с оптической коммутацией пакетов, когда они станут доступны:
Участники конференции согласились, что сеть с высокой импульсной пропускной способностью должна управляться централизованно той же группой, которая управляет провайдерской сетью. Как это обсуждено выше, активность научных исследовательских сетей DOE должна управляться и координироваться центральной группой. Это будет наиболее экономной моделью управления, и это единственный путь эффективного продвижения результатов R&D в обычные сети и в сети с высокой импульсной пропускной способностью. Это позволит также достичь нужных характеристик E2E.
Сетевые технологии и сервисы/связующие программы (middleware) необходимы, чтобы перевести потенциал быстрых функциональных cетей в научный прорыв путем облегчения и ускорения доступа и интеграции удаленной информации, компьютеров, программ визуализации и/или экспериментального оборудования, а также межперсональных коммуникаций. Связующие программы позволяют отдельному ученому или научному сообществу согласовать требования своих приложений путем:
Сетевые технологии делают возможным установить и управлять нужными коммуникациями, то есть распределенной научной средой.
Можно представить, что научная среда, в которой интегрированы научная теория, эксперимент и моделирование, станет средством ускорения получения научного результата. Большинство научных инструментальных систем, таких как источники синхротронного излучения DOE Office of Science в ANL, BNL, LBNL и SLAC, системы гигагерцного ЯМР в PNNL, ускорители частиц в лабораториях DOE (BNL, FNAL, JLab и SLAC), нейтронные источники в ORNL, и большое число меньших установок являются общенациональными и доступны для исследователей как внутри страны, так и в рамках международных коллабораций. Office of Science сотрудничает в разработке и использовании большинства международных установок, таких как LHC (Large Hadron Collider) в CERN.
Это все источники мощных потоков данных, генерируемых с большой скоростью (сотни мегабайт/сек и более). Все эти данные требуют комплексного анализа научными коллаборациями лабораторий DOE и в сотнях университетов [1]. В конечном счете, результаты всей этой экспериментальной науки должны быть сравнены и сопоставлены с теорией, обычно это делается с привлечением симуляции.
Для того чтобы все необходимые ресурсы использовались эффективно в интегрированном научном цикле, где симуляция, эксперимент и теория взаимодействуют, необходимо промежуточное средство (middleware) для управления механизмами диспетчеризации и доступа, для всех распределенных ресурсов. Для того чтобы интегрировать эксперименты реального времени с компьютерными ресурсами и в частности с суперкомпьютерами, с ресурсами памяти, рабочие характеристики объединяющей сети должны быть также под контролем. Это требует различных новых технологий, как для сетей, так и для ресурсов памяти и вычислений, чтобы поддерживать построение виртуальных систем, таких как ультрамасштабируемые протоколы, качество обслуживания, резервирование, совместная диспетчеризация и т.д...
Рис. 4-1. Интегрированная кибер инфраструктура для науки
Кроме того, необходимы легко применимые промежуточные средства, которые обеспечат безопасность, координацию ресурсов, поиск, унифицированный доступ и т.д.. Общепризнано, что подход вычислительных и информационных систем GRID [2] является универсальным принципом построения таких промежуточных средств (интерфейсов) и сотни людей, работающих во всем мире со стандартом GRID и рекомендации Global Grid Forum [3] могут стать базой для решения этой проблемы. Здесь предполагается, что GRID принят в качестве стандарта для промежуточных средств для распределенных научных систем.
Взяв в качестве примера будущих процессов в науке систему моделирования климата (как это описано в разделе 2), можно сделать вывод, что необходима вычислительная мощность, доступ к аннотированным данным и взаимодействие распределенных субмоделей, с тем, чтобы реалистичная модель климата смогла дать предсказания, которые имеют огромное значение для человеческого общества.
Рассматривая это совместно с другими примерами научных исследований, начиная с конференции августа 2002 (резюме можно найти в приложении A данного доклада), будущий прогресс науки может стать реальностью, благодаря:
Требования к компьютерным возможностям науки являются наиважнейшими компонентами таких моделирований и должны быть документированы в других местах, таких как конференция SCaLeS (Science Case for Large-Scale Simulation) [4]. Информационная емкость обычно обеспечивается большими управляемыми архивами, ассоциированными с суперкомпьютерными центрами или специализированными информационными научными центрами, такими как многопетабайтная архивная система NERSC DOE (National Energy Research Scientific Computing Center) – [5]..
Первым и вероятно самым важным наблюдением было то, что большая часть науки становится распределенной. Крупномасштабные научные эксперименты в среде DOE выполняются коллективами лабораторий, которые часто являются многоинститутскими, и требуют информационных и вычислительных ресурсов, которые распределены шире, чем даже сами коллабораторы. Далее, так как научные приборы становятся все более сложными (и, следовательно, более дорогими), они все шире используются удаленными пользователями совместно. Даже цифровое моделирование — ранее концентрировавшееся на одном или нескольких суперкомпьютерах — сейчас становится все более распределенным. Такие симуляции производят все больше данных с достаточным уровнем достоверности, так что эти данные используются для других симуляций и управления лабораторными экспериментами или для проверки или калибровки других подходов к проблеме. Это направление науки существенно зависит от инфраструктуры, которая поддерживает распределенную науку.
Вторым наблюдением является то, что любая область науки требует высокоскоростных сетей и совершенных средств взаимодействия с ними для управления и доступа к имеющимся ресурсам, таким как широко распределенные высокопроизводительные вычислительные системы, многие среднемасштабные системы научных коллабораций, приборы, генерирующие большие потоки данных, большие информационные архивы. Рассматривая вместе эти элементы и сети их соединяющие, можно отметить, что они являются критическими по отношению к науке следующего поколения и по отношению к формированию и работе высоко интерактивных, крупномасштабных коллабораций. То есть, все эти элементы необходимы, чтобы выполнить распределенные вычисления, создать информационную и коллаборационную инфраструктуру, которая сделает возможным прорыв в область высоких темпов развития. Изменения парадигмы возникают из-за того, что увеличение масштаба и продуктивности науки целиком зависит от интегрированной инфраструктуры, которая далека от того, что мы имеем сегодня. Далее, эти изменения парадигмы не являются спекулятивными; несколько ветвей науки DOE уже продвигают существующую инфраструктуру к ее пределам, пытаясь сформировать науку следующего поколения. Примерами могут служить физика высоких энергий с ее всемирными коллаборациями, анализирующими петабайты данных, и сообщество астрономии и астрофизики, которое объединяет огромные базы данных, сформированных измерительными приборами нового поколения, так что может быть реализована совершенно новая наука, если рассмотреть все эти данные одновременно. Например, National Virtual Observatory [6] иллюстрирует это очень хорошо. Смотри также “New Science: Rare Object Searches” [7].
Третье наблюдение заключается в том, что имеет место унифицированность в сервисах, необходимых различным научным дисциплинам. Это означает, что мы можем определить общую инфраструктуру для распределенной науки, и в этом заключается роль вычислительных и информационных GRID (смотри, например, ссылку 8).
Чтобы быть эффективными, средства управления grid должны быть развернуты широко, а также иметь набор сервисов и инфраструктуру для их поддержки. Тип системы взаимодействия grid описывавшийся до сих пор предоставляет базовые функции для доступа и управления ресурсами. Как только мы реализовали эти сервисы и приобрели опыт работы с ними, становится ясно, что необходимы также сервисы, чтобы сделать эффективным использование распределенных ресурсов; например, обобщенное управление виртуализованными данными, которое используется при анализе информации в физике высоких энергий [9].
Примером такого высокоуровневого сервиса является брокерство, служащее для автоматизации построения виртуальных систем различных ресурсов, специфических для приложения. Другим примером может служить коллективная диспетчеризация ресурсов, так что они могут работать скоординировано. Это нужно, чтобы позволить, например, ученому использовать высокопроизводительную вычислительную систему, чтобы выполнить анализ данных в реальном масштабе времени. Это может также позволить одновременное выполнение моделирования для нескольких разных дисциплин, сопровождаемое обменом данными между ними. Коллективная диспетчеризация зависит от возможности совместно управлять вычислительными ресурсами, используя предварительное резервирование в системе управления заданиями, и от возможности резервировать полосу вдоль пути, соединяющего ресурсы.
Сервисы высокого уровня обеспечивают также функции, которые помогают разбивать на части и объединять различные программные операции и позволяют создать сложные программные системы в стиле plug-and-play. Настоящий подход к этим сервисам позволяет развить усилия промышленности в области Web-сервисов, базирующихся на языке XML (extensible markup language), чтобы интегрировать Web и grid-сервисы. Это позволит использовать коммерческие и общедоступные программные средства, такие как генераторы WEB-интерфейсов и некоторые другие программы для построения сложных прикладных систем, которые предоставляют богатую функциональность, необходимую для оптимизации производительности в сфере науки.
Однако существует также набор возможностей, которые нужны для поддержки и обеспечения работы grid. Например, для систем, основанных на GRID, нужно взаимодействовать с учетом требований безопасности. Кроме того, эти коммуникации часто требуют сетевого качества обслуживания (QoS) для резервирования полосы пропускания или для сервисов реального времени. В обоих случаях, grid может обеспечить только сервис высокого уровня, который координирует резервирование уровня ресурса. Эти возможности необходимы по существу всем приложениям распределенной науки.
Чтобы идентифицировать возможности, необходимые для поддержки grid и распределенных приложений, использующих grid, рабочая группа по технологиям и сервисам (Technologies and Services Working Group) начала с прикладных требований конференции "High-Performance Network Planning Workshop” в августе 2002 [10] и рассмотрела, что мешает использовать средства grid для обеспечения надежной среды взаимодействия.
Рабочая группа выделила тринадцать проблем, влияющих на успех распределенной науки. Пять первых квалифицировались как важнейшие для установления и поддержки инфраструктуры взаимодействия. Следующие три квалифицировались как очень важные. Идентифицированные проблемы перечислены ниже:
1 | “Real-Time Widely Distributed Instrumentation Systems,” In I. Foster and C. Kesselman, eds., The Grid: Blueprint for a New Computing Infrastructure, Morgan Kaufmann (1998). |
2 | See, e.g., Johnston, W.E., “The Computing and Data Grid Approach: Infrastructure for Distributed Science Applications,” Computing and Informatics – Special Issue on Grid Computing (2002). Available at: http://www.itg.lbl.gov/~johnston/Grids/homepage.html#CI2002. |
3 | See: http://www.gridforum.org |
4 | June 24-25, 2003, Washington, DC, and Seattle, WA. Available at: http://www.pnl.gov/scales |
5 | See: http://hpcf.nersc.gov/storage/hpss/#whatishpss |
6 | See: http://www.us-vo.org |
7 | See: http://www.roe.ac.uk/wfau/nvo/sld006.htm |
8 | Foster, I., and Kesselman, C., eds., The Grid, 2nd edition, Morgan Kaufman (2003); and Berman, F., Fox, G., and Hey, T., eds., Grid Computing: Making the Global Infrastructure a Reality, John Wiley & Sons (2003). |
9 | See: GriPhyN – Grid Physics Network. Available at: http://www.griphyn.org |
10 | DOE Office of Science, High-Performance Network Planning Workshop, Reston, VA, August 13-15, 2002. Available at: http://doecollaboratory.pnl.gov/meetings/hpnpw |
Исторически, научные сообщества ожидали, что сетевые возможности доступны в момент, когда они потребуются. Так и было в прошлом. Однако, в последние годы разрыв между доступными рабочими характеристиками сети в отношении E2E-сервиса и теоретическими параметрами стал увеличиваться. Как было отмечено на последней конференции DOE Science Computing Conference [1], этот разрыв сейчас достиг трех порядков, как это показано на рис. 5-1. В сочетании с непредсказуемыми требованиями крупномасштабных научных приложений, этот разрыв будет серьезным узким местом для реализации описанных выше проектов DOE. Например, быстродействие наилучших каналов на сегодня составляет 10-Гбит/c (OC192), но это быстродействие доступно только в точках, непосредственно подключенных к опорной сети. На стороне приложения транспортная пропускная способность обычно не превосходит нескольких десятков мегабит в сек, и может достигать нескольких сотен мегабит в сек при уделении значительного и постоянного внимания со стороны сетевых администраторов. Многогигабитная пропускная способность может быть достигнута за счет чудовищных усилий со стороны сетевой команды и прикладных экспертов; такие значения полосы, хотя и широко рекламируются, являются эфемерными. Кроме того, полоса является не единственной мерой эффективности работы. Не существует доступных технологий в современных WAN, которые бы обеспечили либо гарантированную стабильность, необходимую для управления в реальном масштабе времени через каналы Интернет, либо гибкость, необходимую для мгновенной переадресации больших потоков визуализационных данных.
Рис. 5-1. Несогласованность между прикладными потоками и быстродействием оптических сетей
Вообще, требующиеся сетевые возможности являются весьма специфичными для проектов DOE, как с точки зрения высокой пропускной способности, так и по другим параметрам. Несмотря на то, что имеются перекрытия с проектами других агентств, полнота требований в случае DOE является уникальной. Internet2 и коммерческий Интернет оптимизированы для академического и массового рынка услуг, и не могут удовлетворить приложения нового поколения. Их зона внимания пространственно плотные широкомасштабные сети, беспроводные сети, сети с перекрытием приложений, и сети, реагирующие на чрезвычайные потребности [2-4]. Эти направления не перекрывают насущные требования научных приложений DOE, которые не находятся среди высших приоритетов промышленности и других агентств.
ESnet успешно обеспечивает насущные сетевые потребности тысяч ученых DOE и их коллабораторов, разбросанных по всему миру. Однако крайние требования некоторых научных приложений существенно превышают существующие возможности. Следовательно, необходимы революционные продвижения в ESnet, чтобы обеспечить научную миссию DOE, и чтобы воспользоваться преимуществами всемирных научных ресурсов, таких как европейская система информационного GRID.
Главная цель усилий в области исследовательских сетей является предоставление интегрированной и стабильной среды для выполнения разработок и тестирования сетевых технологий для реальных высокопроизводительных сетей и научных приложений. Среди технологий, поддерживаемых исследовательской сетью обеспечение надежного обмена данными в терабайтном диапазоне при скоростях от гигабит до терабит в секунду, интерактивная удаленная визуализация петабайтных объемов данных при скорости 10-30 кадров в секунду, интерактивное управление удаленными вычислениями в реальном времени, удаленная работа на больших экспериментальных установках, и механизмы кибер безопасности с минимальным влиянием на работу приложений
Общие требования к сети DOE вообще и Office of Science в частности простираются от рутинных до экстремальных, и таким образом требуют инфраструктуры, которая состоит из провайдерской сети и сети ориентированной на высокие импульсные нагрузки. Кроме того, исследовательская сеть необходима для исследования и разработки, нужных средств, чтобы преодолеть проблемы E2E в случае крупномасштабных приложений.
Сетевые возможности, которые необходимо разработать, чтобы решать крупномасштабные научные задачи DOE, относятся к следующим основным категориям:
В частности, важно, чтобы эти возможности были прозрачно доступны для приложений ученых с малыми или отсутствием дополнительных требований к их времени или усилий, чтобы воспользоваться ими. В частности, не эффективно, если эти возможности требуют серьезных усилий от команды обслуживающей сеть и прикладных экспертов.
Чтобы реализовать указанные выше возможности, будут выполнены несколько сетевых исследований в сочетании с существующими технологиями в контексте приложений
Транспортные протоколы с ультравысокой пропускной способностью. Доминирующий в настоящее транспортный протокол TCP был первоначально создан и оптимизирован для низкоскоростных каналов Интернет. Он не обладает характеристиками и масштабируемостью, которые бы позволяли ему отвечать современным требованиям. На протяжении многих лет DOE был лидером в улучшении TCP, для обеспечения требований научных телекоммуникаций. Получение высокой скорости передачи данных включает в себя два подхода. На одном полюсе, TCP-методы совместного использования IP-сети могут быть адаптированы и масштабированы к скоростям Гбит/c-Tбит/c. Проблема здесь заключается в исследовании различных частей TCP, таких как медленный старт и надежное исключение перегрузок, чтобы поддерживать требуемую пропускную способность. На другом полюсе, можно установить на концах канала специальное широкополосное оборудование с приемлемым управлением скоростью передачи. Этот подход исключает сложные проблемы оптимизации TCP, за счет исключения перегрузки. В частности в будущем, когда эксперименты будут генерировать петабайты данных, потребуются протоколы, которые способные обеспечить терабитную скорость передачи. Для таких пропускных способностей, потребуются выделенные аппаратные динамические l-переключатели с обновленными не-TCP механизмами, чтобы получить терабитную пропускную способность. Оптические сети с пакетной коммутацией являются технологией следующего поколения и потребуют реализации R&D, для того чтобы быть интегрированными в среду Office of Science, начиная с 2005-2006, с тем чтобы быть внедренными к началу 2008-2009.
Стабильно управляемые E2E-каналы. Для поддержки интерактивной визуализации в WAN, нужны два канала: визуальный канал, который передает изображение, и канал управления, который передает управляющую информацию от пользователя к серверу визуализации. Первый канал должен обеспечивать скорость передачи данных, гарантирующую нужное качество изображения, в то время как второй должен гарантировать малый временной разброс, чтобы исключить нестабильность обратной связи. Существует несколько возможностей реализации визуальных каналов, от транспортировки геометрии (например, коды OpenGL) с рендерингом на стороне пользователя, когда для доставки данных используется стандартная переадресация (например, xforwarding). В конкретном приложении, может потребоваться комбинация, основанная на необходимой полосе пропускания и конвейерах визуализации. В любом случае, пропускная способность должна соответствовать необходимому качеству изображения. С сетевой транспортной точки зрения оба канала требуют стабильной пропускной способности, которая может быть частично обеспечена через обычные IP-сети. С другой стороны, их легче реализовать, если можно организовать два выделенных канала, предоставляемых по запросу.
Коллаборационное управление в реальном масштабе времени и потоки данных. Нужны гибкие транспортные протоколы чтобы осуществлять удаленные вычисления. Вычисления обычно мониторируются удаленно, возможно путем визуализации определенного параметрического пространства, и управляется в пределах области интереса. Очень важно, чтобы операции управления, осуществлялись через надежный канал, чтобы удерживать вычисления в допустимом диапазоне параметров. Заметим, что неадекватный канал управления может вызвать проблемы осцилляций, которые приводят к неэффективному использованию вычислительных ресурсов, в частности суперкомпьютеров. Проблема управления еще более остра для удаленного управления экспериментальным оборудованием, где задержка команд управления может вызвать разрушительные последствия. В крайнем случае, высокочастотный джиттер может вызвать резонанс, который может привести к полной потере управляемости. Далее, когда управляющие операции координируются многими пользователями, разбросанными географически, управляющие каналы должны соответствующим образом координироваться. За исключением простых управляющих операций и воздействий, TCP/IP-сети не предоставляют нужного уровня стабильности. Для этого класса возможностей следует исследовать подход, базирующийся на выделенных каналах, в сочетании с соответствующими транспортными методами.
Динамическое выделение ресурсов и выделение полосы по запросу. Концепция динамического представления ресурсов представляется перспективной для реализации многих сетевых возможностей для научных приложений, генерирующих кратковременные всплески потока данных, таких как:
Требование выделения по запросу выделенных оптических каналов требует введения политик предоставления ресурсов и реализации, которые отсутствуют в сетях с пакетной коммутацией. Запросы на предоставление выделенного оптического канала (лямбды) будет посылаться научными приложениями центральным серверам выделения полосы, которые поддерживают состояние сети. Когда запрос принят, серверы реализации расширят полосу оптических каналов, поддержат их оговоренное время, и затем аннулируют это расширение. На время выделения ресурса оконечные системы могут использовать протоколы, которые оптимизируют работу приложения, а также оптического канала. Таких возможностей нет поверх IP-сетей, и вероятно они будут разработаны отдельно, таким образом, нужно разработать этот класс крупномасштабных приложений DOE. Заметим, что серверы выделения полосы должны быть способны реализовывать политики высокого уровня разрешения запросов, а также диспетчеризации каналов путем поддержки приемлемого уровня полосы пропускания на всех нужных участках. Кроме того, нужно соответствующее маршрутное и переключающее оборудование для реализации запросов и мониторинга.
Архитектура и инфраструктура решений. В связи с тестовым характером исследовательской сети очень важно обеспечить достаточно исчерпывающий мониторинг и измерение параметров инфраструктуры, чтобы облегчить диагноз, отладку и оптимизацию рабочих характеристик. Кроме того, архитектура исследовательской сети должна иметь средства обхода операционной системы (OС), удаленного доступа к памяти данных RDMA (remote data memory access) и другие нетрадиционные сетевые возможности.
Проблемы кибер безопасности. Научная среда DOE состоит из очень сложного комплекса дорогостоящих распределенных вычислительных ресурсов и научных установок, которые должны быть защищены от кибер атак. Как стало ясно в последнее время, количественный рост строгих firewall, особенно в узлах DOE, привел в нерабочее состояние несколько приложений с сетевым базированием. В частности, несколько функций приложений, которые работали на основе использования открытых сокетов, прекратили свою работу, как только firewall’ы по умолчанию запретили обмены через общие порты. В то время как эта проблема может быть временно устранена путем изъятия порта или перевода машины в открытую часть сети, сохраняется проблема защиты такой ЭВМ от атак. Необходимы более систематические усилия для обеспечения гармонического взаимодействия научных приложений в безопасной сетевой среде. Современные грубые фильтры пакетов и firewall’ы имеют ограниченное влияние на скорость обмена данными, что в свою очередь ограничивает пропускную способность приложения
Традиционно, научное сообщество DOE полагается на коммерчески доступные продукты обеспечения кибер безопасности. В ультраскоростных сетевых инфраструктурах, возможности низкоскоростных систем безопасности составляет (10 Мбит/с – 655 Мбит/с), что ставит под вопрос использование firewall и систем детектирования вторжений. Эта проблема обращает внимание на два пункта:
Суммируя можно заключить, что в область технических исследований следует включить.
В этих областях, задача обычно включает использование существующих методов и разработку новых методов, специально оптимизированных для работы в высокопроизводительных сетях, а также средств, которые адаптируют эти возможности для приложений пользователей.
Исследовательская сеть, которая включает в себя современные программные и аппаратные компоненты, содержит маршрутизаторы/переключатели, широкополосные каналы, протоколы и модули прикладных интерфейсов, является важным элементом для решения задач, стоящих перед DOE. Эта сеть будет способна обеспечить разработки различных сетевых технологий, базирующихся на широкополосных каналах, созданных на основе оборудования следующего поколения
Сетевые технологии для высокоскоростного управления, динамического выделения ресурсов, интерактивной визуализации и управления, и кибер безопасности будут разрабатываться поэтапно в тесном контакте с пользователями. Приложения могут исполняться пользователями непосредственно в исследовательской сети, а отработанные технологии будут постепенно передаваться приложениям и в провайдерскую сеть.
В дополнение к перечисленному выше следует добавить следующие высокоприоритетные пункты:
Ниже определены этапы выполнения работ над проектом классифицированные по времени исполнения:
Следующим критериям будет уделяться специальное внимание при разработке технологий в рамках исследовательской сети.
Были рассмотрены несколько бизнес моделей для исследовательских сетей.
Считается, что третья опция наилучшим образом соответствует рабочим потребностям исследовательской сети..
Общее руководство исследовательской сетью будет осуществляться Science Networking и Services Committee в части выделения ресурсов на уровне лябд и различных проектов и организаций. Кроме того, существует проблема выделения ресурсов низкого уровня по запросам и возможности отсутствия доступа к ресурсу в результате проведения эксперимента или теста. Заметим, что приложения могут запросить выделения канала или стабильного разделяемого канала на определенный период времени. С другой стороны, определенный исследовательский сетевой проект может ограничить возможности сети, что негативно повлияет на работу маршрутизаторов и рабочих станций. Такие задачи будут диспетчеризоваться на основе запросов. Выделение низкоуровневых ресурсов по запросу будет осуществляться специальным комитетом, который определяет политику распределения ресурсов.
1 | DOE Science Computing Conference: The Future of High Performance Computing and Communications, June 19-20, 2003; http://www.doe-sci-comp.info |
2 | NSF Workshop on Network Research Testbeds, October 17-18, 2002; http://gaia.cs.umass.edu/testbed_workshop. Dealt with developing networks with capabilities beyond the current ones. This workshop focused on broad issues not specific enough to encompass DOE largescience needs |
3 | NSF ANIR Workshop on Experimental Infrastructure Networks, May 20-21, 2002; http://www.calit2.net/events/2002/nsf/index.html. |
4 | NSF CISE Grand Challenges in e-Science Work, December 5-6, 2001; http://www.evl.uic.edu/activity/NSF/index.html. Identified the cyber infrastructure requirements, including networking technologies, to address the nation’s science and engineering needs |
Используемая модель менеджмента сегодня для ESnet является центральной при осуществлении финансирования и управления. ESnet является провайдерской опорной сетью, обеспечивающей соединение между узлами DOE, а также между этими узлами и глобальным Интернет. ESnet также предоставляет сервис для обслуживания коллабораций и систем GRID. Национальные лаборатории и другие узлы, которые непосредственно соединены с ESnet, несут полную ответственность за LAN, через которые осуществляется соединение пользователей и систем с ESnet, этот подход показал хорошую эффективность на протяжении нескольких лет. Вероятно, не существует альтернативы для независимого администрирования LAN персоналом узла. Однако были предложения, которые предполагают две компромиссных альтернативы для управления опорной сетью.
Анализ возможностей показывает ряд существенных преимуществ настоящего подхода:
Ниже кратко рассмотрены два альтернативных подхода ESnet к построению сети:
По указанным выше причинам этот подход не рассматривался, как предпочтительная модель предоставления сетевых услуг для научного сообщества DOE.
Управление ESnet осуществляет видеоконференции и реализует централизованную службу PKI (Public Key Infrastructure) научных сотрудников Office of Science. Как только станет доступен для участников научного сообщества весь набор технологий и сервисов, потребуется централизованное управление поддержкой ядра сервисов. Заметим, что централизованное управление не подразумевает централизованное размещение всех этих сервисов. Централизованное управление будет координировать переход технологий и сервисов из фазы R&D в фазу провайдерства для долгосрочной поддержки коллабораций и GRID зоны ответственности Office of Science.
Из трех видов функциональности сети в настоящее время DOE поддерживает только провайдерскую сеть (ESnet) и некоторые элементы исследовательской сети. Со стороны DOE программа администрируется программным менеджером отдела MICS Office of Science. Сеть управляется контрактором, в настоящее время LBNL, с финансированием от MICS. Хотя это не предоставляет всей функциональности для исследовательских испытаний или даже для приложений с высокими импульсными нагрузками, рассмотренными в докладе, имеется ощущение, что программа отвечает расширенным требованиям провайдерской модели Office of Science с хорошим уровнем аппроксимации и это при ограниченном финансировании.
Контрактор ESnet назначен комитетом, представляющим программы пользователей сети, первоначально это программы Office of Science. Координирующий комитет ESnet ESSC (ESnet Steering Committee) ответственен за.
Центральным вопросом является, следует ли три сетевые функциональности и связанные с ними сервисы финансировать и организовывать как независимые или их следует централизовать. Выше были приведены технические и организационные аргументы в пользу совместной работы разных частей сети, что позволяет плавно переходить от исследований новых технологий к их внедрению в практику. По тем же причинам мы предпочитаем централизованную модель финансирования с одной организацией, ответственной за все три типа сетей. Хотя сейчас большая часть средств приходит из одного офиса DOE, мы полагаем, что модель финансирования DOE должна позволять финансирование из многих разных программ, когда в этом возникнет потребность.
Расширенная функциональность, и, следовательно, широкий круг клиентов, новой научной сети и сервисов должны вести к расширению координации внутри DOE. Это верно на одном уровне в пределах организации ASCR/MICS, где программы сетевых исследований и разработок ориентированы на сеть DOE, как место тестирования и демонстрации новых возможностей. Но также верно то, что другие программные офисы в рамках Office of Science должны иметь средства координации с DOE, особенно, когда они непосредственно осуществляют финансирование сетей или сервисов, чтобы решить свои специфические проблемы. Таким образом, мы рекомендуем рабочим группам из программных офисов координировать процесс финансирования и выделения ресурсов. Головной комитет включается в программу SciDAC, в которой финансирование ассоциировано со всеми программами Office of Science. По меньшей мере, один член рабочей группы должен посещать заседания Science Networking and Steering Services Committee.
Для работы со специализированными требованиями мы предлагаем структуру комитета, базирующуюся на SNSC (Science Networking and Services Committee), которая могла бы быть выбрана для обеспечения широкого представительства в Office of Science, но увеличена за счет экспертов в области исследований, высоких загрузок, а также технологий и сервисов. SNSC образует подкомитеты, чтобы обеспечить управление для каждой из трех типов сетей и сервисов.
SNSC может иметь до четырех подкомитетов, включая три обсужденные выше и технический подкомитет узла, как сегодняшний ESCC.
Здесь суммируются требования семи основных программ Office of Science в порядке их воздействия на требования к высоко функциональным сетям и средствам взаимодействия, которые упрощают использование этих сетей. Заметим, что большинство научных проблем требуют интегрированной инфраструктуры, которая включает в себя крупномасштабный компьютинг, память данных, скоростные сети и средства взаимодействия, которые все это объединяют.
Большинство экспериментов в физике высоких энергий в следующие двадцать лет поменяют представление о фундаментальных взаимодействиях, структуре и симметрии, которые определяют природу вещества и времени. Наиболее крупные коллаборации сегодня это CMS и ATLAS, они создают детекторы на LHC (Large Hadron Collider) в CERN. Эти коллаборации насчитывают по 2000 физиков из 150 научных центров и организаций, из более чем 30 стран. Эти коллаборации являются наиболее крупными, в которых США будут участвовать в ближайшие 10 лет, и включают 300 - 400 физиков из более чем 30 университетов, и из большинства лабораторий высоких энергий.
Проблемы физики высоких энергий порождают наиболее серьезные информационные потоки из числа известных. Существующее поколение экспериментов в SLAC (BaBar) и FNAL (D0 и CDF), а также эксперименты на релятивистском коллайдере тяжелых ионов RHIC (Relativistic Heavy Ion Collider) а национальной лаборатории в Брукхевене уже столкнулось с большими проблемами в сфере обработки сверх больших потоков данных. В эксперименте BaBar в частности уже накоплено около петабайта данных (1015 байт). Эти данные за предстоящие 10 лет увеличат свой объем с петабайт до экзабайт (1 экзабайт = 1000 петабайт =1018 байт). Сотни и тысячи разработчиков ученых по всему миру непрерывно разрабатывают программы для отбора определенных событий, для лучшей калибровки детекторов, чтобы лучше и быстрее вычислять количественные характеристики явления. Требуется управлять глобально распределенными ресурсами, чтобы достичь требуемого результата оптимальным образом.
Коллаборации всемирного масштаба были бы невозможны, если бы у физиков не было в распоряжении сетей, способных обеспечить совместную работу удаленных групп.
Чтобы реализовать все поставленные цели, нужно распределить приоритеты, а система в целом должна эффективно управляться и мониторироваться. Нужно разработать систему взаимодействия “человек-grid”. Разрабатывая эффективный набор компромиссов между использованием ресурсов высокого уровня, требованиями проведения ремонтов и регламентных работ и условиями реализации политики использования ресурсов для различных групп участников, приходится сталкиваться с новыми проблемами типичными для широко распределенных систем.
Рис. A-3. Иерархическая информационная система GRID для коллаборации CMS (Compact Muon Solenoid). Включены системы памяти, вычислений, сетевого обеспечения, а также диспетчеризации, управления и безопасности.
Долговременной целью исследований в области магнитного термояда является разработка надежной энергетической системы, которая устойчива при изменении внешних условий. Чтобы достичь этой цели, необходимо разработать физику плазмы, которая находится на границе гидродинамики, электромагнетизма, и неравновесной статистической механики. Термоядерный синтез является областью науки, где сотрудничество неизбежно из-за ограниченности числа уникальных физических установок и уникальности вычислительных программ.
В Соединенных Штатах, экспериментальные исследования в области термоядерного синтеза сконцентрированы в трех крупных центрах (Alcator C–Mod, DIII и NSTX). Стоимость установок превосходит миллиард долларов. Магнитные термоядерные эксперименты на этих установках работают в импульсном режиме, генерируя плазму в течение 10 секунд каждые 10-20 минут. За сутки реализуется 25-35 импульсов. Для каждого импульса плазмы производится 10000 отдельных измерений, которые производят несколько сотен мегабайт данных. Во время экспериментального сеанса обсуждается настройка контрольных параметров с тем, чтобы сделать их оптимальными. Экспериментальная команда обычно насчитывает 20 - 40 человек, с участием других удаленных коллабораторов. Решения об изменении следующего импульса плазмы принимается на основе анализа, проводимого в течение 15-минутных интервалов между импульсами. Такой режим работы требует быстрого анализа данных, который производится в режиме близком к реальному времени географически рассредоточенной группой сотрудников.
Вычислительная составляющая в экспериментальной науке становится все более сложной. Пять лет тому назад, анализ, который выполнялся за ночь, теперь реализуется между импульсами. Ожидается, что за ближайшие пять лет данные, поступающие между импульсами, превысят по объему гигабайт. За время одного экспериментального дня в работе могут принять участие 5 - 10 удаленных организаций. Объемы данных, формируемых в результате симуляций, в ближайшие пять лет превысят терабайт. Кроме того, эти данные будут анализироваться также как и экспериментальные данные.
Разработанные в настоящее время улучшенные средства для визуализации позволят использовать эффективно эти все возрастающие объемы данных для принятия решений экспериментальной группой. Ясно, что перемещение этого объема данных за время 15-20 минут к компьютерному кластеру, информационным серверам и визуализационным средствам, используемым экспериментальной группой, распределенной по США, потребует много больше сетевой полосы пропускания и средств взаимодействия, чем сейчас доступно.
В этом приложение дается обзор ситуации в сетях DOE на текущий момент, с особым акцентом на проект ESnet. Показана эффективность проекта с момента его начала в 1985. Однако данный доклад имеет целью показать существенные изменения практически во всех его частях. Подход строится на основе прошлого успеха и ставит задачу удовлетворения всех будущих требований. Изменения планируются области финансирования, технологии, архитектуры, сервисов и управления.
ESnet представляет собой WAN, которая поддерживает основные направления науки развивающиеся в рамках департамента энергетики США. Проект ESnet поддерживает базовую миссию агентства, его стратегические цели, обеспечивая DOE эффективной и надежной телекоммуникационной инфраструктурой, гарантирующей лидирующие позиции в области сетевых сервисов.
Сеть ESnet обслуживается сетевым персоналом, размещенным в LBNL (Lawrence Berkeley National Laboratory), в Беркли, Калифорния. Работы в ESnet контролируются ESSC (ESnet Steering Committee), с представителями от пяти программ Office of Science, оборонных программ DOE (DP) и программы человеческих ресурсов HR (Human Resources). ESCC ESnet координирует участие различных институтов в программах и распространении научной информации, способствующие успешному использованию ESnet. Настоящий программный план ESnet датируется мартом 2001, был подготовлен ESCC и доступен для ознакомления по адресу www.es.net.
Рис. B-4. Зависимость стоимости доставки единицы трафика ESnet по месяцам
Последние несколько лет произошли драматические изменения в глобальном масштабе и, особенно в области сетей, рассчитанных на высокие импульсные нагрузки. Изменения были всеохватывающими и быстрыми, особенно в областях: (a) ввода новых технологий, воздействующего на стоимость услуг; (b) чрезмерный энтузиазм в области информационных технологий привел многие компании на грань банкротства; (c) большинство академических институтов начали сами формулировать требования к сетям R&E; (d) ликвидация государственного регулирования международных коммуникаций привела к снижению цен и сделала возможным рост новых R&E-сетей в Европе, Японии и Канаде с международными связями с США в масштабах, немыслимых 10 лет назад и (e) появление GRID, которые обещают создать небывалые прежде распределенные вычислительные ресурсы.
ESnet ставит перед собой новую цель – 1 Тбит в секунду.
Смотри также ESnet.
Previous: 4.7.1 Сети GRID
UP:
4.7 Прикладные сети Интернет |