Grid как четвертый этап развития информатизации

Поделиться
Grid как четвертый этап развития информатизации Анатолий ПЕТРЕНКО, профессор, доктор технических ...

Grid как четвертый этап развития информатизации

Анатолий ПЕТРЕНКО, профессор, доктор технических наук, научный руководитель
Центра суперкомпьютерных вычислений НТУУ «Киевский политехнический институт»

В ближайшие десятилетия могут исчезнуть из обихода привычные нынешним специалистам персональные компьютеры, серверы, локальные сети и др., так как вычислительные и информационные услуги превратятся в такие же коммунальные удобства, как электричество и водопровод сегодня; а отдельные компьютеры с многоядерными процессорами растворятся в глобальной информационной инфраструктуре Grid. Вначале Gridтехнологии предназначались для решения сложных научных и инженерных задач, которые невозможно решить в разумные сроки на отдельных вычислительных установках. Однако теперь область применения технологий Grid не ограничивается только этими типами задач. По мере своего развития Grid проникает в промышленность и бизнес, претендуя на роль универсальной инфраструктуры для обработки данных, в которой функционирует множество служб (Grid Services), позволяющих решать не только конкретные прикладные задачи, но и предлагающих услуги по поиску необходимых ресурсов, сбору информации о состоянии ресурсов, сохранению и доставке данных.

Информатизация сегодня вступила в четвертый этап своего раз­вития. Первый был связан с появ­лением больших компьютеров (мейнфреймов), второй — с созданием персональных компьютеров, третий — с появлением Интернета, объединившего пользователей в единое информационное пространство путем совместимого доступа к информации. С началом XXI века отмечается переход на новые Grid-тех­нологии, когда на смену ставшего привычным Интернету c его web-услугами идет всемирная Grid-сеть как средство совместимого использования вычислительных мощностей и хранилищ данных. Grid позволяет выйти за рамки простого обмена данными между компьютерами и в конце концов превратить их гло­бальную сеть в своего рода гигантский виртуальный компьютер, доступный в режиме удаленного доступа из любой точки независимо от места расположения пользователя.

Надо признать, что идеи Grid пока еще не очень широко распространены. Но ведь совсем недавно (каких-то восемь-десять лет назад) Интернет и Web тоже были известны только узкому кругу профессионалов. Однако в 2006 году число пользователей Интернета превысило миллиард. Пожалуй, при всем желании трудно найти человека, который хотя бы не слышал этих слов. Есть основания полагать, что через некоторое время и Grid приобретет не меньшую популярность. Его нынешнее состояние можно сравнить с Интернетом «образца» 1997 года и признать, что потенциал и темпы рос­та Grid отнюдь не ниже, чем были тогда.

Если переводить дословно, Grid означает «решетка». Согласитесь, ассоциации, связанные в нашем языке с этим словом, совсем не соответствуют смыслу свободной кооперации компьютеров для высокопроизводительных вычислений, заложенному в технологиях Grid. Ближе всего по смыслу, пожалуй, power grid — сеть электропитания, распределенный ресурс общего пользования, когда каждый может легко подключиться через розетку и использовать столько электроэнергии, сколько ему требуется. Аналогично пользователи с помощью Grid получают возможность прямого подключения к удаленной вычислительной сети, не интересуясь, откуда именно берутся требуемые для работы вычислительные ресурсы и данные, какие для этого используются линии передачи, пароли или протоколы и т. п. При этом аналогом инфраструктуры электрических сетей (линий электропередачи, подстанций, трансформаторов и др.) выступает Grid — промежуточный программный слой, или MiddleWare.

Что дает Grid ученым

Формально авторами концепции Grid считаются Ян Фостер из Арагонской национальной лаборатории Чикагского университета и Карл Кессельман из Ин­ститута информатики Университета Южной Калифорнии. Именно они в 1998 году впервые предложили термин Grid-компьютинг (Grid computing) для обозначения универсальной программно-аппаратной инфраструктуры, объединяющей компьютеры и суперкомпьютеры в территориально-распределенную информационно-вычислительную систему. Согласно их определению, ставшему уже классическим, «Grid — согласованная, открытая и стандартизованная среда, которая обеспечивает гибкое, безопасное, скоординированное разделение ресурсов в рамках виртуальной организации».

Обыч­но слово «компьютинг» или «метакомпьютинг» употребляется там, где на основе отдельных компьютеров строятся системы более высокого уровня. К этому слову вполне можно привыкнуть (привыкли же автомобилисты к слову «тюнинг», экологи — к «мониторингу», спортсмены — к «дайвингу», а мы все вместе — к «шопингу»). Кстати, и само слово «ком­пьютер» тоже входило в наш язык нелегко, заменив труднопереводимую фразу «электронная вычислительная машина». Так и слово «компьютинг», можно надеяться, заменит эквивалентную ему фразу «услуга на выполнение вычислений или обработки данных на компьютере».

Grid-компьютинг — новый класс инфраструктур, в которых из удаленных ресурсов строится безопасный и масштабируемый вычислительный механизм в составе компьютеров, начиная от настольных и до суперкомпьютеров, программных пакетов и устройств ввода/вывода. В основе Grid лежат программные технологии, использующие новые стандарты и протоколы совместно с известными сетевыми и интернет-протоколами. Время покажет, стоит ли записывать название Grid кириллицей.

Идея более эффективного использования вычислительных мощностей путем соединения множества компьютеров в единую структуру возникла в научном сообществе сравнительно давно — в эпоху больших компьютеров. Уже в 80-е годы ученые (прежде всего физики-ядерщики) для решения сложных математических задач пытались объединять ресурсы отдельных рабочих станций и использовать свободные ресурсы центральных процессоров для сокращения времени обработки своих данных. Обычный путь развития вычислительных сетей в организации выглядит примерно так. Вначале небольшая группа пользователей, занятых научными или инженерными расчетами, решает объединить свои ресурсы на основе простых правил и договоренностей. Это можно легко сделать на основе свободно распространяемого программного обеспечения. Успешный опыт приживается, и вскоре другие группы пользователей идут по тому же пути. Таких групп становится больше, и у них возникает вполне законное желание обмениваться ресурсами, заполняя простаивающие вычислительные мощности. Здесь уже простыми договоренностями обойтись трудно, необходимо внедрять какие-то технические средства учета и «взаиморасчетов».

Технология управления распределенными ресурсами является одной из важнейших задач и направлена прежде всего на обеспечение управляемости информационной инфраструктуры в условиях возрастающей нагрузки и увеличения числа компонентов сети. Принципы работы системы управления заданиями хорошо известны: это очередь, поиск свободных ресурсов, диспетчеризация, политики и приоритеты. Сетевая система управления заданиями была реализована достаточно давно, однако применение технологий Grid позволяет строить систему управления распределенными вычислительными ресурсами. В такой ситуации пользователю уже не важно, на каком конкретном узле сети выполняется его задача; он просто потребляет определенное количество виртуальной процессорной мощности, имеющейся в сети.

Существует несколько причин, побуждающих ученых использовать Grid-технологии.

Во-первых, часто необходимо обработать огромное количество данных, хранящихся в разных организациях (возможно, размещенных в разных частях света). Примером здесь может служить задача обработки снимков Земли, полученных со спутников.

Во-вторых, необходимо при исследованиях выполнить огромное количество вычислений. Например, при моделировании влияния тысяч молекул (потенциальных лекарственных препаратов) на белки при поиске лекарств для определенных болезней..

В-третьих, научная команда, члены которой работают в разных частях земного шара, хочет совместно использовать большие массивы данных, быстро и интерактивно осуществлять их комплексный анализ, визуализировать и обсуждать результаты в онлайновом режиме.

Разумеется, решаемые при этом задачи имеют большое значение для разных фундаментальных научных исследований и проектных работ. К таким задачам можно отнести изучение эволюции протопланетного вещества, планет и Земли; общее метеорологическое прогнозирование и прогноз различных стихийных бедствий (цунами, землетрясений, извержений вулканов); моделирование и анализ экспериментов в ядерной физике; исследования в области нанотехнологии, проектирование аэрокосмических аппаратов и автомобилей, расшифровка ДНК и идентификация протеинов и т. д. Наверное, скоро проще будет назвать научную дисциплину, где суперкомпьютеры и распределенные вычисления еще не применяются. В числе ключевых факторов, содействующих внедрению Grid, наличествует не только возможность гибкой адаптации инфраструктуры к новым требованиям, но и повышение эффективности использования имеющихся вычислительных и человеческих ресурсов, поскольку при совместной работе над разными проектами специалисты применяют одну и ту же инфраструктуру.

Grid в мире

Ограничимся лишь перечнем наиболее известных Grid-проектов, уже осуществленных за последние несколько лет или находящихся в стадии реализации. В 2001 году в США стартовал проект TeraGrid, финансируемый Национальным научным фондом, основной задачей которого стало создание распределенной инфраструктуры для высокопроизводительных вычислений. В мае 2004 года Европейским Союзом был создан аналог американской TeraGrid — консорциум DEISA, частично финансируемый в рамках 6-й Рамочной программы, который объединил в Grid-сеть ведущие национальные суперкомпьютерные центры ЕС. В конце марта 2004 года завершился трехлетний европейский проект DataGrid, в рамках которого была построена тестовая инфраструктура вычислений и обмена данными для нужд европейского научного сообщества. На основе этих разработок был начат новый международный проект создания высокопроизводительной научной Grid-сети EGEE (Enabling Grids for E-sciencE), который выполняется под руководством швейцарского ЦЕРН (Европейского центра ядерных исследований, Женева) и финансируется Европейским Союзом и правительствами стран-участниц. В настоящее время в проект входят 70 научных учреждений из 27 стран мира. В рамках этого проекта должен быть построен самый крупный в мире Grid с суммарной вычислительной мощностью 20 000 мощных процессоров.

Ведущая роль ЦЕРН определяется тем, что в 2007 году там планируется запуск крупнейшего в мире ускорителя элементарных частиц (LHC, большого адронного коллайдера), который будет источником огромного объема информации. Создающаяся в первую очередь под LHC новая компьютерная инфраструктура должна обеспечить эффективную обработку информации, ожидаемый среднегодовой объем которой оценивается в 10 Пбайт (1 Пбайт ~1015 байт). Задача EGEE, однако, далеко не ограничена ядерной физикой и состоит в том, чтобы реализовать потенциал Grid и для многих других научно-технологических областей. Так, в ближайших планах руководства проекта создание отдельного биоинформационного «Grid-блока».

В тесном взаимодействии с проектом EGEE развивается и магистральная европейская сеть для образования и науки — GEANT. В середине прошлого года межправительственная организация DANTE объявила о запуске научно-образовательной сети нового поколения GEANT 2, которая охватывает 3 млн. пользователей из 3,5 тыс. академических учреждений, расположенных в 34 европейских государствах. Новая сеть качественно изменит обработку информации радиоастрономических комплексов, регистрирующие системы которых расположены на значительном удалении друг от друга, а также будет обслуживать ЦЕРН по передаче данных после запуска LHC. В 2005 году Еврокомиссия подготовила специальную программу стоимостью 13 млрд. евро, в рамках которой Grid-компьютингу отводится роль стимулятора и важнейшего ресурса для превращения Евросоюза в «самую конкурентоспособную в мире экономику знаний».
Соединенные Штаты сегодня — безусловный мировой лидер по части практического строительства Grid-сетей. В 2004 году Джордж Буш официально объявил о начале работы президентской стратегической Grid-программы (Strategic Grid Computing Initiative), основной целью которой является «создание единого национального пространства высокопроизводительных вычислений». К настоящему времени в США уже успешно функционируют четыре национальные Grid-сети, находящиеся под заботливой опекой ключевых государственных ведомств: компьютерная сеть национального фонда научных исследований, информационная сеть поддержки НАСА, глобальная информационная сеть министерства обороны и сеть суперкомпьютерной инициативы министерства энергетики. Под руководством Пенсильванского университета США на базе Grid-технологий создан Национальный цифровой центр маммографии с общим объемом данных 5,6 петабайта, который предоставляет медикам возможность быстрого доступа к записям миллионов пациентов.

Свою немалую лепту в становление Grid-технологий вносят и частные американские компании. Так, корпорация Google, известная во всем мире благодаря своей информационной поисковой системе, объявила проект построения глобальной Grid-системы, превращающей компьютинг в потребительскую услугу. В рамках этого проекта все компьютерные устройства (ПК, мобильный телефон, телевизор и т. п.) становятся просто терминалами, которые будут включены в серверный Grid Google с услугами доставки информации на любое устройство в любой точке мира.

C 2000 года ведутся работы по освоению Grid-технологий и в Китае. Долгое время информация о том, на какой стадии находится реализация проекта ChinaGrid, была фактически засекречена. Информационная бомба взорвалась в середине июля 2006 года, когда китайские СМИ во всеуслышание объявили о завершении работы над китайским образовательным Grid-проектом (China Educational Grid Project, CEGP). CEGP объединил компьютерные сети нескольких десятков крупнейших университетов страны и предоставил миллионам китайских студентов прямой доступ к базам данных, онлайновым учебным курсам и сервисным приложениям по самым разным направлениям и дисциплинам. В январе 2006 года в Афинах было официально объявлено о начале выполнения финансируемого Европейской комиссией совместного Grid-проекта Европейского Союза и Китая (EUChinaGRID). Главная его цель — объединение европейских и китайских Grid-инфраструктур для повышения эффективности совместного использования различных научных приложений, работающих в Grid-среде. Наметившийся стратегический альянс ЕС и Китая вполне можно рассматривать как одну из первых попыток создания сильного «Grid-противовеса» претензиям США на мировое лидерство в этой крупномасштабной технологической гонке. В скором времени к этому альянсу может подключиться и Индия, которая также объявила о начале реализации собственного Национального Grid-проекта GARUDA, предусматривающего объединение в Grid-сеть 17 крупнейших научно-исследовательских центров страны.

Основные ресурсные элементы Grid-сетей — это суперкомпьютеры и суперкомпьютерные центры, а важнейшая инфраструктурная составляющая — высокоскоростные сети передачи данных. Заканчивается строительство всемирной компьютерной сети GLORIAD в Северном полушарии, объединяющей вычислительные ресурсы различных научно-исследовательских организаций США, Канады, Европы, России, Китая и Южной Кореи (опять-таки главным образом физических центров). Сегодня беспроволочный Интернет (Wi-Fi) вводится как своего рода электронная «коммунальная служба» в отдельных городах (Филадельфия, например) или даже в отдельных странах (Сингапур).

Суперкомпьютеры, не объединенные в территориально-распределенную систему, обладают как минимум тремя существенными недостатками. Во-первых, это очень дорогостоящая техника, которая быстро морально устаревает (суперкомпьютеры из первой сотни рейтинга Top-500 уже через два-три года, как правило, оказываются в самом хвосте этого списка или вообще выпадают из него). Во-вторых, вычислительные мощности суперкомпьютеров практически не поддаются серьезной модернизации, что зачастую не позволяет использовать их для решения задач нового уровня сложности. И наконец, третий «большой минус» — низкий КПД использования суперкомпьютеров вследствие неравномерности загрузки процессоров. В идеале от этих недостатков можно избавиться при объединении суперкомпьютеров в Grid-сеть. Однако для эффективной эксплуатации Grid-сетей вначале необходимо прийти к договоренности в сфере стандартизации (определение стандартов служб, интерфейсов, баз данных и т. д.).

Авторы идеи Grid-компьютинга Фостер и Кессельман стояли и у истоков разработки первого стандарта построения Grid-сетей, свободно распространяемого промежуточного программного слоя Глобус (Globus) , ставшим международным стандартом де-факто. В Европе на базе Глобус в ЦЕРН выполнена модификация промежуточного слоя gLite, положенного в основу упомянутой европейской Grid-сети EGEE для научных исследований. Основная задача, решаемая в Grid, — это обеспечение доступа к ресурсам, а поскольку ресурсы распределенные, то функционирование сети обеспечивается специальными службами (составления каталогов ресурсов и отслеживания их состояния, авторизации клиентов и их доступа к ресурсам; кооперации и координации при использовании ресурсов, обеспечения безопасности и др.). Доступ к ресурсам осуществляется на основе создания Виртуальной организации (ВО), которая состоит из предприятий и отдельных специалистов, совместно использующих общие ресурсы.

Grid в Украине

Сегодня трудно найти сколько-нибудь развитую страну, в которой не были бы развернуты национальные Grid-проекты. В Европе, например, подобную программу недавно приняла даже Болгария, кажется, последней из европейских стран. Настала очередь и Украины, хотя и с большим опозданием. На сайте Министерства образования и науки Украины 12 января 2007 года объявлено о начале работ по созданию национальной Grid-инфраструктуры для обеспечения научных исследований в рамках государственной целевой программы «Информационные и коммуникационные технологии в образовании и науке на 2006--2010 годы». Проект UGRID такой Grid-инфраструктуры, подготовленный учеными Национального технического университета «Киевский политехнический институт», преследует такие цели:

-- достроить и объединить научно-образовательную вычислительную и коммуникационную инфраструктуру в национальную Grid-инфраструктуру, проинтегрировать ее с европейской Grid-сетью;

-- распространить в обществе знания о Grid-технологиях и навыках их использования на уровне, присущем европейским странам, которые имеют более длительный опыт разработки и использования Grid;

-- обеспечить эффективное совместное использование отдельными научными работниками и организациями отечественных компьютеров, уникальных экспериментальных установок и приборов;

-- принять активное участие в формировании новой концепции Европейской Grid-инфраструктуры, создание которой как координирующего органа для национальных Grid-инфраструктур начинается сейчас в Европе. Провести разработку новых оригинальных Grid-приложений в области телемедицины для сотрудников Чернобыльской атомной станции, дистанционного обучения в Центрально-восточно-европейском виртуальном университете(CEEVU), обслуживания Украинского отделения Международного центра данных (УО МЦД).

На последнем приложении следует остановиться особо. Согласно договору с Геофизическим центром Российской академии наук, на базе Института системного анализа (ИПСА НАНУ), входящего в состав НТУУ «КПИ», в 2006 году создано украинское отделение Российского центра мировых данных с перспективой обретения автономии в самое ближайшее время. Система центров мировых данных, расположенных сейчас в 12 странах, координируется Международным советом по науке (ICSU) и является всемирно признанным источником разнообразных и уникальных данных по различным областям современной науки. Например, украинское отделение МЦД призвано поддерживать разделы данных по физике твердой земли, солнечно-земной физике, экономической географии, океанографии, энергетической безопасности и технологий информационного общества в сотрудничестве с ведущими отечественными научными организациями соответствующего профиля.

Рассматриваемый проект Grid базируется на использовании суперкомпьютера кластерной архитектуры, введенного в эксплуатацию в НТУУ «КПИ» в конце 2006 года. Это самый мощный суперкомпьютер в Украине, превосходящий почти в три раза суммарную производительность двух предыдущих суперкомпьютеров Института кибернетики НАНУ. Он построен на 168 процессорах с общей LAPACK производительностью 1,4 Тфлопс (1 Тфлопс ? 1012 операций в секунду) и пиковой производительностью 2.1 Тфлопс, оперативной памятью — 12 Тбайт (1 Тбайт ? 1012 байт), постоянной памятью (HDD) — 20 Тбайт.

На сегодня на всем пространстве бывшего СССР нет вуза, имеющего такой мощный суперкомпьютер. Даже всемирно известный суперкомпьютер Московского государственного университета с производительностью 0,512 Тфлопс оказался в 2,7 раза слабее.

Уже сегодня НТУУ «КПИ» предоставляет через научно-образовательную компьютерную сеть URAN, объединяющую оптоволокном 20 из 26 регионов Украины, бесплатный удаленный доступ украинским пользователям к вычислительным ресурсам этого суперкомпьютера. НТУУ «КПИ» с апреля 2006 года принимает участиев качестве ассоциативного члена в выполнении проекта BalticGrid совместно с 10 организациями Эстонии, Латвии, Литвы, Польши и Швеции, и адаптирует европейский опыт построения Grid, в частности, использования программной среды gLite.

Участвовать в проекте UGRID совместно с НТУУ «КПИ» выразили желание Харьковский национальный университет радиоэлектроники, Львовский, Донецкий и Запорожский национальные технические университеты, Институт моделирования в энергетике НАНУ, упомянутый выше Институт системного анализа НАНУ, государственное предприятие «Львовский научно- исследовательский радиотехнический институт», компания ЮСТАР и др. Крайне желательно подключение к UGRID всех имеющихся сегодня в Украине кластеров (а их около тридцати), поэтому двери для новых соисполнителей проекта широко открыты, особенно для учреждений физического профиля (Института теоретической физики имени Н.Боголюбова и Харьковского физико-технического института), поддерживающих непосредственную связь с ЦЕРН, а также организаций, уже имеющих опыт построения локальных Grid..

В рамках национального проекта главная цель Украины — включение UGRID в общую Grid-инфраструктуру Европы и обеспечение постоянного функционирования ее как полноценной операционной и функциональной составной этой структуры. Украина получает возможность уже сегодня сотрудничать со странами Европейского Союза по созданию и использованию Grid-технологий — для обеспечения обмена научными данными и организации их коллективного использования, а в ближайшие несколько лет преодолеть отставание от европейских стран и войти в Европейское исследовательское пространство (European Research Area, ERA) полноправным и квалифицированным партнером.

Поделиться
Заметили ошибку?

Пожалуйста, выделите ее мышкой и нажмите Ctrl+Enter или Отправить ошибку

Добавить комментарий
Всего комментариев: 0
Текст содержит недопустимые символы
Осталось символов: 2000
Пожалуйста выберите один или несколько пунктов (до 3 шт.) которые по Вашему мнению определяет этот комментарий.
Пожалуйста выберите один или больше пунктов
Нецензурная лексика, ругань Флуд Нарушение действующего законодательства Украины Оскорбление участников дискуссии Реклама Разжигание розни Признаки троллинга и провокации Другая причина Отмена Отправить жалобу ОК
Оставайтесь в курсе последних событий!
Подписывайтесь на наш канал в Telegram
Следить в Телеграмме