Grid как четвертый этап развития информатизации
Анатолий ПЕТРЕНКО, профессор, доктор технических наук, научный руководитель
Центра суперкомпьютерных вычислений НТУУ «Киевский политехнический институт»
В ближайшие десятилетия могут исчезнуть из обихода привычные нынешним специалистам персональные компьютеры, серверы, локальные сети и др., так как вычислительные и информационные услуги превратятся в такие же коммунальные удобства, как электричество и водопровод сегодня; а отдельные компьютеры с многоядерными процессорами растворятся в глобальной информационной инфраструктуре Grid. Вначале Gridтехнологии предназначались для решения сложных научных и инженерных задач, которые невозможно решить в разумные сроки на отдельных вычислительных установках. Однако теперь область применения технологий Grid не ограничивается только этими типами задач. По мере своего развития Grid проникает в промышленность и бизнес, претендуя на роль универсальной инфраструктуры для обработки данных, в которой функционирует множество служб (Grid Services), позволяющих решать не только конкретные прикладные задачи, но и предлагающих услуги по поиску необходимых ресурсов, сбору информации о состоянии ресурсов, сохранению и доставке данных.
Информатизация сегодня вступила в четвертый этап своего развития. Первый был связан с появлением больших компьютеров (мейнфреймов), второй — с созданием персональных компьютеров, третий — с появлением Интернета, объединившего пользователей в единое информационное пространство путем совместимого доступа к информации. С началом XXI века отмечается переход на новые Grid-технологии, когда на смену ставшего привычным Интернету c его web-услугами идет всемирная Grid-сеть как средство совместимого использования вычислительных мощностей и хранилищ данных. Grid позволяет выйти за рамки простого обмена данными между компьютерами и в конце концов превратить их глобальную сеть в своего рода гигантский виртуальный компьютер, доступный в режиме удаленного доступа из любой точки независимо от места расположения пользователя.
Надо признать, что идеи Grid пока еще не очень широко распространены. Но ведь совсем недавно (каких-то восемь-десять лет назад) Интернет и Web тоже были известны только узкому кругу профессионалов. Однако в 2006 году число пользователей Интернета превысило миллиард. Пожалуй, при всем желании трудно найти человека, который хотя бы не слышал этих слов. Есть основания полагать, что через некоторое время и Grid приобретет не меньшую популярность. Его нынешнее состояние можно сравнить с Интернетом «образца» 1997 года и признать, что потенциал и темпы роста Grid отнюдь не ниже, чем были тогда.
Если переводить дословно, Grid означает «решетка». Согласитесь, ассоциации, связанные в нашем языке с этим словом, совсем не соответствуют смыслу свободной кооперации компьютеров для высокопроизводительных вычислений, заложенному в технологиях Grid. Ближе всего по смыслу, пожалуй, power grid — сеть электропитания, распределенный ресурс общего пользования, когда каждый может легко подключиться через розетку и использовать столько электроэнергии, сколько ему требуется. Аналогично пользователи с помощью Grid получают возможность прямого подключения к удаленной вычислительной сети, не интересуясь, откуда именно берутся требуемые для работы вычислительные ресурсы и данные, какие для этого используются линии передачи, пароли или протоколы и т. п. При этом аналогом инфраструктуры электрических сетей (линий электропередачи, подстанций, трансформаторов и др.) выступает Grid — промежуточный программный слой, или MiddleWare.
Что дает Grid ученым
Формально авторами концепции Grid считаются Ян Фостер из Арагонской национальной лаборатории Чикагского университета и Карл Кессельман из Института информатики Университета Южной Калифорнии. Именно они в 1998 году впервые предложили термин Grid-компьютинг (Grid computing) для обозначения универсальной программно-аппаратной инфраструктуры, объединяющей компьютеры и суперкомпьютеры в территориально-распределенную информационно-вычислительную систему. Согласно их определению, ставшему уже классическим, «Grid — согласованная, открытая и стандартизованная среда, которая обеспечивает гибкое, безопасное, скоординированное разделение ресурсов в рамках виртуальной организации».
Обычно слово «компьютинг» или «метакомпьютинг» употребляется там, где на основе отдельных компьютеров строятся системы более высокого уровня. К этому слову вполне можно привыкнуть (привыкли же автомобилисты к слову «тюнинг», экологи — к «мониторингу», спортсмены — к «дайвингу», а мы все вместе — к «шопингу»). Кстати, и само слово «компьютер» тоже входило в наш язык нелегко, заменив труднопереводимую фразу «электронная вычислительная машина». Так и слово «компьютинг», можно надеяться, заменит эквивалентную ему фразу «услуга на выполнение вычислений или обработки данных на компьютере».
Grid-компьютинг — новый класс инфраструктур, в которых из удаленных ресурсов строится безопасный и масштабируемый вычислительный механизм в составе компьютеров, начиная от настольных и до суперкомпьютеров, программных пакетов и устройств ввода/вывода. В основе Grid лежат программные технологии, использующие новые стандарты и протоколы совместно с известными сетевыми и интернет-протоколами. Время покажет, стоит ли записывать название Grid кириллицей.
Идея более эффективного использования вычислительных мощностей путем соединения множества компьютеров в единую структуру возникла в научном сообществе сравнительно давно — в эпоху больших компьютеров. Уже в 80-е годы ученые (прежде всего физики-ядерщики) для решения сложных математических задач пытались объединять ресурсы отдельных рабочих станций и использовать свободные ресурсы центральных процессоров для сокращения времени обработки своих данных. Обычный путь развития вычислительных сетей в организации выглядит примерно так. Вначале небольшая группа пользователей, занятых научными или инженерными расчетами, решает объединить свои ресурсы на основе простых правил и договоренностей. Это можно легко сделать на основе свободно распространяемого программного обеспечения. Успешный опыт приживается, и вскоре другие группы пользователей идут по тому же пути. Таких групп становится больше, и у них возникает вполне законное желание обмениваться ресурсами, заполняя простаивающие вычислительные мощности. Здесь уже простыми договоренностями обойтись трудно, необходимо внедрять какие-то технические средства учета и «взаиморасчетов».
Технология управления распределенными ресурсами является одной из важнейших задач и направлена прежде всего на обеспечение управляемости информационной инфраструктуры в условиях возрастающей нагрузки и увеличения числа компонентов сети. Принципы работы системы управления заданиями хорошо известны: это очередь, поиск свободных ресурсов, диспетчеризация, политики и приоритеты. Сетевая система управления заданиями была реализована достаточно давно, однако применение технологий Grid позволяет строить систему управления распределенными вычислительными ресурсами. В такой ситуации пользователю уже не важно, на каком конкретном узле сети выполняется его задача; он просто потребляет определенное количество виртуальной процессорной мощности, имеющейся в сети.
Существует несколько причин, побуждающих ученых использовать Grid-технологии.
Во-первых, часто необходимо обработать огромное количество данных, хранящихся в разных организациях (возможно, размещенных в разных частях света). Примером здесь может служить задача обработки снимков Земли, полученных со спутников.
Во-вторых, необходимо при исследованиях выполнить огромное количество вычислений. Например, при моделировании влияния тысяч молекул (потенциальных лекарственных препаратов) на белки при поиске лекарств для определенных болезней..
В-третьих, научная команда, члены которой работают в разных частях земного шара, хочет совместно использовать большие массивы данных, быстро и интерактивно осуществлять их комплексный анализ, визуализировать и обсуждать результаты в онлайновом режиме.
Разумеется, решаемые при этом задачи имеют большое значение для разных фундаментальных научных исследований и проектных работ. К таким задачам можно отнести изучение эволюции протопланетного вещества, планет и Земли; общее метеорологическое прогнозирование и прогноз различных стихийных бедствий (цунами, землетрясений, извержений вулканов); моделирование и анализ экспериментов в ядерной физике; исследования в области нанотехнологии, проектирование аэрокосмических аппаратов и автомобилей, расшифровка ДНК и идентификация протеинов и т. д. Наверное, скоро проще будет назвать научную дисциплину, где суперкомпьютеры и распределенные вычисления еще не применяются. В числе ключевых факторов, содействующих внедрению Grid, наличествует не только возможность гибкой адаптации инфраструктуры к новым требованиям, но и повышение эффективности использования имеющихся вычислительных и человеческих ресурсов, поскольку при совместной работе над разными проектами специалисты применяют одну и ту же инфраструктуру.
Grid в мире
Ограничимся лишь перечнем наиболее известных Grid-проектов, уже осуществленных за последние несколько лет или находящихся в стадии реализации. В 2001 году в США стартовал проект TeraGrid, финансируемый Национальным научным фондом, основной задачей которого стало создание распределенной инфраструктуры для высокопроизводительных вычислений. В мае 2004 года Европейским Союзом был создан аналог американской TeraGrid — консорциум DEISA, частично финансируемый в рамках 6-й Рамочной программы, который объединил в Grid-сеть ведущие национальные суперкомпьютерные центры ЕС. В конце марта 2004 года завершился трехлетний европейский проект DataGrid, в рамках которого была построена тестовая инфраструктура вычислений и обмена данными для нужд европейского научного сообщества. На основе этих разработок был начат новый международный проект создания высокопроизводительной научной Grid-сети EGEE (Enabling Grids for E-sciencE), который выполняется под руководством швейцарского ЦЕРН (Европейского центра ядерных исследований, Женева) и финансируется Европейским Союзом и правительствами стран-участниц. В настоящее время в проект входят 70 научных учреждений из 27 стран мира. В рамках этого проекта должен быть построен самый крупный в мире Grid с суммарной вычислительной мощностью 20 000 мощных процессоров.
Ведущая роль ЦЕРН определяется тем, что в 2007 году там планируется запуск крупнейшего в мире ускорителя элементарных частиц (LHC, большого адронного коллайдера), который будет источником огромного объема информации. Создающаяся в первую очередь под LHC новая компьютерная инфраструктура должна обеспечить эффективную обработку информации, ожидаемый среднегодовой объем которой оценивается в 10 Пбайт (1 Пбайт ~1015 байт). Задача EGEE, однако, далеко не ограничена ядерной физикой и состоит в том, чтобы реализовать потенциал Grid и для многих других научно-технологических областей. Так, в ближайших планах руководства проекта создание отдельного биоинформационного «Grid-блока».
В тесном взаимодействии с проектом EGEE развивается и магистральная европейская сеть для образования и науки — GEANT. В середине прошлого года межправительственная организация DANTE объявила о запуске научно-образовательной сети нового поколения GEANT 2, которая охватывает 3 млн. пользователей из 3,5 тыс. академических учреждений, расположенных в 34 европейских государствах. Новая сеть качественно изменит обработку информации радиоастрономических комплексов, регистрирующие системы которых расположены на значительном удалении друг от друга, а также будет обслуживать ЦЕРН по передаче данных после запуска LHC. В 2005 году Еврокомиссия подготовила специальную программу стоимостью 13 млрд. евро, в рамках которой Grid-компьютингу отводится роль стимулятора и важнейшего ресурса для превращения Евросоюза в «самую конкурентоспособную в мире экономику знаний».
Соединенные Штаты сегодня — безусловный мировой лидер по части практического строительства Grid-сетей. В 2004 году Джордж Буш официально объявил о начале работы президентской стратегической Grid-программы (Strategic Grid Computing Initiative), основной целью которой является «создание единого национального пространства высокопроизводительных вычислений». К настоящему времени в США уже успешно функционируют четыре национальные Grid-сети, находящиеся под заботливой опекой ключевых государственных ведомств: компьютерная сеть национального фонда научных исследований, информационная сеть поддержки НАСА, глобальная информационная сеть министерства обороны и сеть суперкомпьютерной инициативы министерства энергетики. Под руководством Пенсильванского университета США на базе Grid-технологий создан Национальный цифровой центр маммографии с общим объемом данных 5,6 петабайта, который предоставляет медикам возможность быстрого доступа к записям миллионов пациентов.
Свою немалую лепту в становление Grid-технологий вносят и частные американские компании. Так, корпорация Google, известная во всем мире благодаря своей информационной поисковой системе, объявила проект построения глобальной Grid-системы, превращающей компьютинг в потребительскую услугу. В рамках этого проекта все компьютерные устройства (ПК, мобильный телефон, телевизор и т. п.) становятся просто терминалами, которые будут включены в серверный Grid Google с услугами доставки информации на любое устройство в любой точке мира.
C 2000 года ведутся работы по освоению Grid-технологий и в Китае. Долгое время информация о том, на какой стадии находится реализация проекта ChinaGrid, была фактически засекречена. Информационная бомба взорвалась в середине июля 2006 года, когда китайские СМИ во всеуслышание объявили о завершении работы над китайским образовательным Grid-проектом (China Educational Grid Project, CEGP). CEGP объединил компьютерные сети нескольких десятков крупнейших университетов страны и предоставил миллионам китайских студентов прямой доступ к базам данных, онлайновым учебным курсам и сервисным приложениям по самым разным направлениям и дисциплинам. В январе 2006 года в Афинах было официально объявлено о начале выполнения финансируемого Европейской комиссией совместного Grid-проекта Европейского Союза и Китая (EUChinaGRID). Главная его цель — объединение европейских и китайских Grid-инфраструктур для повышения эффективности совместного использования различных научных приложений, работающих в Grid-среде. Наметившийся стратегический альянс ЕС и Китая вполне можно рассматривать как одну из первых попыток создания сильного «Grid-противовеса» претензиям США на мировое лидерство в этой крупномасштабной технологической гонке. В скором времени к этому альянсу может подключиться и Индия, которая также объявила о начале реализации собственного Национального Grid-проекта GARUDA, предусматривающего объединение в Grid-сеть 17 крупнейших научно-исследовательских центров страны.
Основные ресурсные элементы Grid-сетей — это суперкомпьютеры и суперкомпьютерные центры, а важнейшая инфраструктурная составляющая — высокоскоростные сети передачи данных. Заканчивается строительство всемирной компьютерной сети GLORIAD в Северном полушарии, объединяющей вычислительные ресурсы различных научно-исследовательских организаций США, Канады, Европы, России, Китая и Южной Кореи (опять-таки главным образом физических центров). Сегодня беспроволочный Интернет (Wi-Fi) вводится как своего рода электронная «коммунальная служба» в отдельных городах (Филадельфия, например) или даже в отдельных странах (Сингапур).
Суперкомпьютеры, не объединенные в территориально-распределенную систему, обладают как минимум тремя существенными недостатками. Во-первых, это очень дорогостоящая техника, которая быстро морально устаревает (суперкомпьютеры из первой сотни рейтинга Top-500 уже через два-три года, как правило, оказываются в самом хвосте этого списка или вообще выпадают из него). Во-вторых, вычислительные мощности суперкомпьютеров практически не поддаются серьезной модернизации, что зачастую не позволяет использовать их для решения задач нового уровня сложности. И наконец, третий «большой минус» — низкий КПД использования суперкомпьютеров вследствие неравномерности загрузки процессоров. В идеале от этих недостатков можно избавиться при объединении суперкомпьютеров в Grid-сеть. Однако для эффективной эксплуатации Grid-сетей вначале необходимо прийти к договоренности в сфере стандартизации (определение стандартов служб, интерфейсов, баз данных и т. д.).
Авторы идеи Grid-компьютинга Фостер и Кессельман стояли и у истоков разработки первого стандарта построения Grid-сетей, свободно распространяемого промежуточного программного слоя Глобус (Globus) , ставшим международным стандартом де-факто. В Европе на базе Глобус в ЦЕРН выполнена модификация промежуточного слоя gLite, положенного в основу упомянутой европейской Grid-сети EGEE для научных исследований. Основная задача, решаемая в Grid, — это обеспечение доступа к ресурсам, а поскольку ресурсы распределенные, то функционирование сети обеспечивается специальными службами (составления каталогов ресурсов и отслеживания их состояния, авторизации клиентов и их доступа к ресурсам; кооперации и координации при использовании ресурсов, обеспечения безопасности и др.). Доступ к ресурсам осуществляется на основе создания Виртуальной организации (ВО), которая состоит из предприятий и отдельных специалистов, совместно использующих общие ресурсы.
Grid в Украине
Сегодня трудно найти сколько-нибудь развитую страну, в которой не были бы развернуты национальные Grid-проекты. В Европе, например, подобную программу недавно приняла даже Болгария, кажется, последней из европейских стран. Настала очередь и Украины, хотя и с большим опозданием. На сайте Министерства образования и науки Украины 12 января 2007 года объявлено о начале работ по созданию национальной Grid-инфраструктуры для обеспечения научных исследований в рамках государственной целевой программы «Информационные и коммуникационные технологии в образовании и науке на 2006--2010 годы». Проект UGRID такой Grid-инфраструктуры, подготовленный учеными Национального технического университета «Киевский политехнический институт», преследует такие цели:
-- достроить и объединить научно-образовательную вычислительную и коммуникационную инфраструктуру в национальную Grid-инфраструктуру, проинтегрировать ее с европейской Grid-сетью;
-- распространить в обществе знания о Grid-технологиях и навыках их использования на уровне, присущем европейским странам, которые имеют более длительный опыт разработки и использования Grid;
-- обеспечить эффективное совместное использование отдельными научными работниками и организациями отечественных компьютеров, уникальных экспериментальных установок и приборов;
-- принять активное участие в формировании новой концепции Европейской Grid-инфраструктуры, создание которой как координирующего органа для национальных Grid-инфраструктур начинается сейчас в Европе. Провести разработку новых оригинальных Grid-приложений в области телемедицины для сотрудников Чернобыльской атомной станции, дистанционного обучения в Центрально-восточно-европейском виртуальном университете(CEEVU), обслуживания Украинского отделения Международного центра данных (УО МЦД).
На последнем приложении следует остановиться особо. Согласно договору с Геофизическим центром Российской академии наук, на базе Института системного анализа (ИПСА НАНУ), входящего в состав НТУУ «КПИ», в 2006 году создано украинское отделение Российского центра мировых данных с перспективой обретения автономии в самое ближайшее время. Система центров мировых данных, расположенных сейчас в 12 странах, координируется Международным советом по науке (ICSU) и является всемирно признанным источником разнообразных и уникальных данных по различным областям современной науки. Например, украинское отделение МЦД призвано поддерживать разделы данных по физике твердой земли, солнечно-земной физике, экономической географии, океанографии, энергетической безопасности и технологий информационного общества в сотрудничестве с ведущими отечественными научными организациями соответствующего профиля.
Рассматриваемый проект Grid базируется на использовании суперкомпьютера кластерной архитектуры, введенного в эксплуатацию в НТУУ «КПИ» в конце 2006 года. Это самый мощный суперкомпьютер в Украине, превосходящий почти в три раза суммарную производительность двух предыдущих суперкомпьютеров Института кибернетики НАНУ. Он построен на 168 процессорах с общей LAPACK производительностью 1,4 Тфлопс (1 Тфлопс ? 1012 операций в секунду) и пиковой производительностью 2.1 Тфлопс, оперативной памятью — 12 Тбайт (1 Тбайт ? 1012 байт), постоянной памятью (HDD) — 20 Тбайт.
На сегодня на всем пространстве бывшего СССР нет вуза, имеющего такой мощный суперкомпьютер. Даже всемирно известный суперкомпьютер Московского государственного университета с производительностью 0,512 Тфлопс оказался в 2,7 раза слабее.
Уже сегодня НТУУ «КПИ» предоставляет через научно-образовательную компьютерную сеть URAN, объединяющую оптоволокном 20 из 26 регионов Украины, бесплатный удаленный доступ украинским пользователям к вычислительным ресурсам этого суперкомпьютера. НТУУ «КПИ» с апреля 2006 года принимает участиев качестве ассоциативного члена в выполнении проекта BalticGrid совместно с 10 организациями Эстонии, Латвии, Литвы, Польши и Швеции, и адаптирует европейский опыт построения Grid, в частности, использования программной среды gLite.
Участвовать в проекте UGRID совместно с НТУУ «КПИ» выразили желание Харьковский национальный университет радиоэлектроники, Львовский, Донецкий и Запорожский национальные технические университеты, Институт моделирования в энергетике НАНУ, упомянутый выше Институт системного анализа НАНУ, государственное предприятие «Львовский научно- исследовательский радиотехнический институт», компания ЮСТАР и др. Крайне желательно подключение к UGRID всех имеющихся сегодня в Украине кластеров (а их около тридцати), поэтому двери для новых соисполнителей проекта широко открыты, особенно для учреждений физического профиля (Института теоретической физики имени Н.Боголюбова и Харьковского физико-технического института), поддерживающих непосредственную связь с ЦЕРН, а также организаций, уже имеющих опыт построения локальных Grid..
В рамках национального проекта главная цель Украины — включение UGRID в общую Grid-инфраструктуру Европы и обеспечение постоянного функционирования ее как полноценной операционной и функциональной составной этой структуры. Украина получает возможность уже сегодня сотрудничать со странами Европейского Союза по созданию и использованию Grid-технологий — для обеспечения обмена научными данными и организации их коллективного использования, а в ближайшие несколько лет преодолеть отставание от европейских стран и войти в Европейское исследовательское пространство (European Research Area, ERA) полноправным и квалифицированным партнером.