Grid як четвертий етап розвитку інформатизації

Поділитися
Grid як четвертий етап розвитку інформатизації Анатолій ПЕТРЕНКО, професор, доктор технічних наук,...

Grid як четвертий етап розвитку інформатизації

Анатолій ПЕТРЕНКО, професор, доктор технічних наук,
науковий керівник Центру суперкомп’ютерних обчислень НТУУ «Київський політехнічний інститут»

У найближчі десятиліття можуть зникнути з ужитку звичні нинішнім спеціалістам персональні комп’ютери, сервери, локальні мережі та ін., тому що обчислювальні й інформаційні послуги перетворяться на такі ж комунальні зручності, як електрика та водогін сьогодні; а окремі комп’ютери з багатоядерними процесорами розчиняться у глобальній інформаційній інфраструктурі Grid. Спочатку Gridтехнології призначалися для вирішення складних наукових і інженерних задач, які неможливо вирішити в розумні терміни на окремих обчислювальних установках. Однак тепер сфера застосування технологій Grid не обмежується лише цими типами задач. Із розвитком Grid проникає в промисловість і бізнес, претендуючи на роль універсальної інфраструктури для обробки даних, у якій функціонує безліч служб (Grid Services), що не лише дозволяють вирішувати конкретні прикладні задачі, а й пропонують послуги з пошуку необхідних ресурсів, збору інформації про стан ресурсів, зберігання і доставки даних.

Інформатизація ввійшла сьогодні у четвертий етап свого розвитку. Перший був пов’язаний із появою великих комп’ютерів (мейнфреймів), другий — зі створенням персональних комп’ютерів, третій — із появою Інтернету, який об’єднав користувачів у єдиний інформаційний простір шляхом сумісного доступу до інформації. З початком XXI століття почався перехід на нові Grid-технології, коли на зміну вже звичному Інтернету з його web-послугами йде всесвітня Grid-мережа як засіб сумісного використання обчислювальних потужностей та сховищ даних. Grid дозволяє вийти за рамки простого обміну даними між комп’ютерами і зрештою перетворити їхню глобальну мережу на свого роду гігантський віртуальний комп’ютер, доступний у режимі віддаленого доступу з будь-якої точки, незалежно від місця розташування користувача.

Слід визнати, що ідеї Grid поки що не дуже поширені. Але ж не так давно (якихось вісім—десять років тому) Інтернет і Web теж були відомі лише вузькому колу професіоналів. Однак у 2006-му кількість користувачів Інтернету перевалила за мільярд. Мабуть, попри бажання, важко знайти людину, котра хоча б не чула цих слів. Є підстави вважати, що згодом і Grid набуде не меншої популярності. Його теперішній стан можна порівняти з Інтернетом «зразка» 1997 року і визнати, що потенціал і темпи зростання Grid аж ніяк не нижчі, ніж були тоді.

Якщо перекладати дослівно, Grid означає «ґрати». Погодьтеся, асоціації, пов’язані в нашій мові з цим словом, зовсім не відповідають смислу вільної кооперації комп’ютерів для високопродуктивних обчислень, закладеному в технологіях Grid. Найближче за смислом, мабуть, power grid — мережа електроживлення, розподілений ресурс загального користування, коли кожен може легко під’єднатися через розетку і використовувати стільки електроенергії, скільки йому потрібно. Аналогічно користувачі з допомогою Grid отримують можливість прямого підключення до віддаленої обчислювальної мережі, не цікавлячись, звідки беруться необхідні для роботи обчислювальні ресурси й дані, які для цього використовуються лінії передачі, паролі чи протоколи тощо. При цьому аналогом інфраструктури електричних мереж (ліній електропередачі, підстанцій, трансформаторів і ін.) виступає Grid — проміжний програмний шар, або MiddleWare.

Що дає Grid ученим

Формально авторами концепції Grid вважають Яна Фостера з Арагонської національної лабораторії Чиказького університету і Карла Кессельмана з Інституту інформатики Університету Південної Ка­ліфорнії. Саме вони 1998 року вперше запропонували термін Grid-ком­п’ютинг (Grid computing) для позначення універсальної програмно-апаратної інфраструктури, що об’єднує комп’ютери та супер­ком­п’ютери в територіально-розподілену інформаційно-обчислювальну систему. За їхнім визначенням, яке стало вже класичним, «Grid — узгоджене, відкрите й стандартизоване середовище, яке забезпечує гнучкий, безпечний, скоординований розподіл ресурсів у рамках віртуальної організації». Зазвичай слово «комп’ютинг» або «метаком­п’ютинг» вживають там, де на основі окремих комп’ютерів будують системи вищого рівня. До цього слова цілком можна звикнути (звикли ж автомобілісти до слова «тюнінг», екологи — до «моніторингу», спортсмени — до «дайвінгу», а всі ми разом — до «шопінгу»). До речі, і саме слово «комп’ютер» теж входило в нашу мову не легко, замінивши словосполучення «електронна обчислювальна машина», яке важко перекладати. Тож і слово «комп’ютинг», можна сподіватися, замінить еквівалентну йому фразу «послуга на виконання обчислень або обробки даних на комп’ютері».

Grid-комп’ютинг — новий клас інфраструктур, у яких із віддалених ресурсів будується безпечний і масштабований обчислювальний механізм у складі комп’ютерів, від настільних і до суперкомп’ютерів, програмних пакетів та пристроїв введення/виведення. В основі Grid лежать програмні технології, які використовують нові стандарти і протоколи разом із відомими мережевими й інтернет-протоколами. Час покаже, чи варто записувати назву Grid кирилицею.

Ідея ефективнішого використання обчислювальних потужностей шляхом з’єднання безлічі комп’ютерів у єдину структуру зародилася серед наукової спільноти порівняно давно — в епоху великих комп’ютерів. Вже у 80-ті роки вчені (насамперед фізики-ядерники) для розв’язання складних математичних задач намагалися об’єднувати ресурси окремих робочих станцій і використовувати вільні ресурси центральних процесорів для зменшення часу обробки своїх даних. Звичайний шлях розвитку обчислювальних мереж в організації приблизно такий. Спочатку невелика група користувачів, яка виконує наукові або інженерні розрахунки, вирішує об’єднати свої ресурси на основі простих правил і домовленостей. Це можна легко зробити на основі програмного забезпечення, що вільно розповсюджується. Успішний досвід приживається, і незабаром інші групи користувачів йдуть тим же шляхом. Таких груп стає дедалі більше, і в них виникає цілком законне бажання обмінюватися ресурсами, заповнюючи вільні обчислювальні потужності. Тут уже простими домовленостями обмежитися важко, необхідно впроваджувати якісь технічні засоби обліку та «взаєморозрахунків».

Технологія управління розподіленими ресурсами — одне з найважливіших завдань. Вона спрямована насамперед на забезпечення керованості інформаційної інфраструктури в умовах зростання навантаження і збільшення кількості компонентів мережі. Принципи роботи системи управління завданнями добре відомі: це черга, пошук вільних ресурсів, диспетчеризація, політики та пріоритети. Мережева система управління завданнями була реалізована досить давно, однак застосування технологій Grid дозволяє будувати систему управління розподіленими обчислювальними ресурсами. У такій ситуації користувачу вже не важливо, на якому конкретному вузлі мережі виконується його завдання; він просто споживає певну кількість віртуальної процесорної потужності, наявної в мережі.

Є кілька причин, які спонукають учених використовувати Grid-технології.

По-перше, часто необхідно обробити величезну кількість даних, які зберігаються в різних організаціях (можливо, розміщених у різних частинах світу). Прикладом може служити завдання обробки знімків Землі, отриманих із супутників.

По-друге, необхідно під час досліджень виконати величезну кількість обчислень. Наприклад, моделюючи вплив тисяч молекул (потенційних лікарських препаратів) на білки під час пошуку ліків від певних хвороб.

По-третє, наукова команда, члени якої працюють у різних куточках земної кулі, хоче спільно використовувати великі масиви даних, швидко й інтерактивно виконувати їх комплексний аналіз, візуалізувати та обговорювати результати в онлайновому режимі.

Зрозуміло, завдання, які при цьому вирішуються, мають велике значення для різних фундаментальних наукових досліджень та проектних робіт. До таких завдань можна зарахувати вивчення еволюції протопланетної речовини, планет і Землі; загальне метеорологічне прогнозування та прогноз різних стихійних лих (цунамі, землетрусів, вивержень вулканів); моделювання й аналіз експериментів у ядерній фізиці; дослідження в галузі нанотехнології, проектування аерокосмічних апаратів і автомобілів, розшифровування ДНК й ідентифікація протеїнів тощо. Напевно, незабаром простіше буде назвати наукову дисципліну, в якій суперкомп’ютери та розподілені обчислення ще не застосовуються. Серед ключових чинників, котрі сприяють впровадженню Grid, не лише можливість гнучкої адаптації інфраструктури до нових вимог, а й підвищення ефективності використання наявних обчислювальних та людських ресурсів, оскільки, спільно працюючи над різними проектами, фахівці використовують одну й ту ж саму інфраструктуру.

Grid у світі

Обмежимося лише переліком найвідоміших Grid-проектів, уже здійснених протягом останніх кількох років або таких, які перебувають у стадії реалізації. 2001 року в США стартував проект TeraGrid, фінансований Національним науковим фондом, основним завданням якого стало створення розподіленої інфраструктури для високопродуктивних обчислень. У травні 2004 року Європейський Союз створив аналог американської TeraGrid — консорціум DEISA, частково фінансований у рамках 6-ї Рамкової програми, що об’єднав у Grid-мережу провідні національні суперкомп’ютерні центри ЄС. Наприкінці березня 2004 року завершився трирічний європейський проект DataGrid, у рамках якого було побудовано тестову інфраструктуру обчислень та обміну даними для потреб європейської наукової спільноти. На основі цих розробок було розпочато новий міжнародний проект створення високопродуктивної наукової Grid-мережі EGEE (Enabling Grids for E-scienc), що виконується під керівництвом швейцарського ЦЕРН (Європейського центру ядерних досліджень, Женева) і фінансується Європейським Союзом та урядами країн-учасниць. На цей час у проект входять 70 наукових установ із 27 країн світу. У рамках цього проекту має бути побудований найбільший у світі Grid із сумарною обчислювальною потужністю 20 000 потужних процесорів.

Провідна роль ЦЕРН визначається тим, що 2007 року там планується запуск найбільшого у світі прискорювача елементарних часток (LHC, великого адронного колайдера), який буде джерелом величезного обсягу інформації. Нова комп’ютерна інфраструктура, що створюється передусім під LHC, повинна забезпечити ефективну обробку інформації, очікуваний середньорічний обсяг якої оцінюється в 10 Пбайт (1 Пбайт ~1024 Тбайт). Однак завдання EGEE не обмежується ядерною фізикою і полягає в тому, щоб реалізувати потенціал Grid і для багатьох інших науково-технологічних галузей. Так, у найближчих планах керівництва проекту — створення окремого біоінформаційного «Grid-блоку».

У тісній взаємодії з проектом EGEE розвивається і магістральна європейська мережа для освіти та науки — GEANT. У середині минулого року міжурядова організація DANTE оголосила про запуск науково-освітньої мережі нового покоління GEANT 2, що охоплює 3 млн. користувачів із 3,5 тис. академічних установ, розміщених у 34 європейських державах. Нова мережа якісно змінить обробку інформації радіоастрономічних комплексів, реєструючі системи яких розташовані на значній віддалі одна від одної, а також обслуговуватиме ЦЕРН, передаючи дані після запуску LHC. 2005 року Єврокомісія підготувала спеціальну програму вартістю 13 млрд. євро, у рамках якої Grid-комп’ютингу відводиться роль стимулятора і надзвичайно важливого ресурсу для перетворення Євросоюзу в «найбільш конкурентоспроможну у світі економіку знань».

Сполучені Штати сьогодні — незаперечний світовий лідер у практичній побудові Grid-мереж. 2004 року Джордж Буш офіційно оголосив про початок роботи президентської стратегічної Grid-програми (Strategic Grid Computing Initiative), основна мета якої — «створення єдиного національного простору високопродуктивних обчислень». На даний час у США вже успішно функціонують чотири національні Grid-мережі, які перебувають під турботливою опікою ключових державних відомств: комп’ютерна мережа національного фонду наукових досліджень, інформаційна мережа підтримки НАСА, глобальна інформаційна мережа міністерства оборони та мережа суперкомп’ютерної ініціативи міністерства енергетики. Під керівництвом Пенсільванського університету США на базі Grid-технологій створено Національний цифровий центр мамографії із загальним обсягом даних 5,6 петабайта, що дає медикам можливість швидкого доступу до записів мільйонів пацієнтів.

Свою чималу лепту у становлення Grid-технологій вносять і приватні американські компанії. Так, корпорація Google, відома в усьому світі завдяки своїй інформаційній пошуковій системі, оголосила проект побудови глобальної Grid-системи, що перетворює комп’ютинг на споживчу послугу. У рамках цього проекту всі комп’ютерні пристрої (ПК, мобільний телефон, телевізор тощо) стають просто терміналами, які будуть включені в серверний Grid Google із послугами доставки інформації на будь-який пристрій у будь-якій точці світу.

З 2000 року ведуться роботи з освоєння Grid-технологій і в Китаї. Тривалий час інформація про те, на якій стадії перебуває реалізація проекту ChinaGrid, була фактично засекречена. Інформаційна бомба вибухнула в середині липня 2006 року, коли китайські ЗМІ привселюдно оголосили про завершення роботи над китайським освітнім Grid-проектом (China Educational Grid Project, CEGP). CEGP об’єднав комп’ютерні мережі кількох десятків найбільших університетів країни і надав мільйонам китайських студентів прямий доступ до баз даних, онлайнових навчальних курсів та сервісних придатків із найрізноманітніших напрямів та дисциплін. У січні 2006 року в Афінах було офіційно оголошено про початок виконання фінансованого Європейською комісією спільного Grid-проекту Європейського Союзу і Китаю (EUChinaGRID). Головна його мета — об’єднання європейських та китайських Grid-інфраструктур для підвищення ефективності спільного використання різних наукових придатків, які працюють у Grid-середовищі. Запланований стратегічний альянс ЄС і Китаю цілком можна розглядати як одну з перших спроб створення сильної «Grid-противаги» претензіям США на світове лідерство у цих великомасштабних технологічних перегонах. Незабаром до цього альянсу може підключитися й Індія, що також оголосила про початок реалізації власного національного Grid-проекту GARUDA, який передбачає об’єднання у Grid-мережі 17 найбільших науково-дослідних центрів країни.

Основні ресурсні елементи Grid-мереж — це суперкомп’ютери та суперкомп’ютерні центри, а найважливіша інфраструктурна складова — високошвидкісні мережі передачі даних. Завершується будівництво всесвітньої комп’ютерної мережі GLORIAD у Північній півкулі, що об’єднуватиме обчислювальні ресурси різних науково-дослідних організацій США, Канади, Європи, Росії, Китаю та Південної Кореї (знову-таки, переважно фізичних центрів). Сьогодні бездротовий Інтернет (Wi-Fi) впроваджується як свого роду електронна «комунальна служба» в окремих містах (Філадельфія, наприклад) чи навіть в окремих країнах (Сінгапур).

Суперкомп’ютери, не об’єднані в територіально-розподілену систему, мають як мінімум три істотних недоліки. По-перше, це дуже дорога техніка, яка швидко морально старіє (суперкомп’ютери з першої сотні рейтингу Top-500 уже через два-три роки, як правило, опиняються в самому хвості цього списку чи взагалі випадають із нього). По-друге, обчислювальні потужності суперкомп’ютерів практично не піддаються серйозній модернізації, що найчастіше не дозволяє використовувати їх для вирішення задач нового рівня складності. І, нарешті, третій «великий мінус» — низький ККД використання суперкомп’ютерів внаслідок нерівномірності завантаження процесорів. В ідеалі цих недоліків можна позбутися, об’єднавши суперкомп’ютери у Grid-мережу. Однак для ефективної експлуатації Grid-мереж спочатку необхідно досягти домовленості у сфері стандартизації (визначення стандартів служб, інтерфейсів, баз даних тощо).

Автори ідеї Grid-комп’ютингу Фостер і Кессельман стояли й біля витоків розробки першого стандарту побудови Grid-мереж, вільно поширюваного проміжного програмного шару Глобус (Globus), що став міжнародним стандартом де-факто. У Європі на базі Глобусу в ЦЕРН виконано модифікацію проміжного шару gLite, покладеного в основу згаданої європейської Grid-мережі EGEE для наукових досліджень. Основне завдання, яке вирішується у Grid, — це забезпечення доступу до ресурсів, а оскільки ресурси розподілені, то функціонування мережі забезпечується спеціальними службами (складання каталогів ресурсів і відстеження їхнього стану, авторизації клієнтів і їх доступу до ресурсів; кооперації та координації при використанні ресурсів, забезпечення безпеки та ін.). Доступ до ресурсів здійснюється на основі створення Віртуальної організації (ВО), що складається з підприємств і окремих фахівців, які разом використовують спільні ресурси.

Grid в Україні

Сьогодні важко знайти більш-менш розвинену країну, в якій не було б розгорнуто національні Grid-проекти. В Європі, наприклад, таку програму нещодавно прийняла навіть Болгарія — здається, останньою з європейських країн. Настала черга й України, хоч і з великим запізненням. На сайті Міністерства освіти і науки України 12 січня 2007 року оголошено про початок робіт зі створення національної Grid-інфраструктури для забезпечення наукових досліджень у рамках державної цільової програми «Інформаційні та комунікаційні технології в освіті й науці на 2006—2010 роки». Проект UGRID такої Grid-інфраструктури, підготовлений ученими Національного технічного університету «Київський політехнічний інститут», має за мету:

— добудувати і об’єднати науково-освітню обчислювальну та комунікаційну інфраструктуру в національну Grid-інфраструктуру, проінтегрувати її з європейською Grid-мережею;

— поширити в суспільстві знання про Grid-технології і навички їх використання на рівні, властивому європейським країнам, які мають триваліший досвід розробки та використання Grid;

— забезпечити ефективне спільне використання окремими науковцями й організаціями вітчизняних комп’ютерів, унікальних експериментальних установок і приладів;

— взяти активну участь у формуванні нової концепції європейської Grid-інфраструктури, створення якої як координуючого органу для національних Grid-інфраструктур розпочинається тепер у Європі. Здійснити розробку нових оригінальних Grid-придатків у галузі телемедицини для працівників Чорнобильської атомної станції, дистанційного навчання в Центрально-східно-європейському віртуальному університеті(CEEVU), обслуговування Українського відділення Міжнародного центру даних (УВ МЦД).

На останньому придатку слід зупинитися окремо. Відповідно до договору з Геофізичним центром Російської академії наук, на базі Інституту системного аналізу (ІСА НАНУ), що входить до складу НТУУ «КПІ», у 2006 році створено українське відділення Російського центру світових даних із перспективою набуття автономії найближчим часом. Система центрів світових даних, розміщених тепер у 12 країнах, координується Міжнародною радою з питань науки (ICSU) і є всесвітньо визнаним джерелом різноманітних і унікальних даних з різних галузей сучасної науки. Наприклад, Українське відділення МЦД покликане підтримувати розділи даних із фізики твердої землі, сонячно-земної фізики, економічної географії, океанографії, енергетичної безпеки та технологій інформаційного суспільства у співпраці з провідними вітчизняними науковими організаціями відповідного профілю.

Аналізований проект Grid базується на використанні суперкомп’ютера кластерної архітектури, введеного в експлуатацію в НТУУ «КПІ» наприкінці 2006 року. Це найпотужніший суперкомп’ютер в Україні, що перевершує майже втричі сумарну продуктивність двох попередніх суперкомп’ютерів Інституту кібернетики НАНУ. Він побудований на 168 процесорах зі спільною LAPACK продуктивністю 1,4 Тфлопс (1 Тфлопс ? 1012 операцій за секунду) і піковою продуктивністю 2.1 Тфлопс, оперативною пам’яттю — 12 Тбайтів (1 Тбайт ? 1012 Мбайтів), постійною пам’яттю (HDD) — 20 Тбайтів.

На сьогодні на всьому просторі колишнього СРСР немає вузу, який мав би такий потужний суперкомп’ютер. Навіть усесвітньо відомий суперкомп’ютер Московського державного університету з продуктивністю 0,512 Тфлопс виявився в 2,7 разу слабшим.

Уже сьогодні НТУУ «КПІ» надає через науково-освітню комп’ютерну мережу URAN, що об’єднує оптоволокном 20 регіонів України, безплатний віддалений доступ українським користувачам до обчислювальних ресурсів цього суперкомп’ютера. НТУУ «КПІ» із квітня 2006 року бере участь як асоціативний член у виконанні проекту BalticGrid разом із 10 організаціями Естонії, Латвії, Литви, Польщі та Швеції й адаптує європейський досвід побудови Grid, зокрема використання програмного середовища gLite.

Брати участь у проекті UGRID разом із НТУУ «КПІ» зголосилися Харківський національний університет радіоелектроніки, Львівський, Донецький і Запорізький національні технічні університети, Інститут моделювання в енергетиці НАНУ, вищезгаданий Інститут системного аналізу НАНУ, державне підприємство «Львівський науково-дослідний радіотехнічний інститут», компанія ЮСТАР та ін. Вкрай бажане підключення до UGRID усіх наявних сьогодні в Україні кластерів (а їх близько тридцяти), тому двері для нових співвиконавців проекту широко відчинені, особливо для установ фізичного профілю (Інституту теоретичної фізики імені М.Боголюбова і Харківського фізико-технічного інституту), які підтримують безпосередній зв’язок із ЦЕРН, а також організацій, котрі вже мають досвід побудови локальних Grid.

У рамках національного проекту головна мета України — включення UGRID у спільну Grid-інфраструктуру Європи і забезпечення постійного функціонування її як повноцінної операційної та функціональної складової цієї структури. Україна отримує можливість уже сьогодні співпрацювати з країнами Європейського Союзу над створенням і використанням Grid-технологій — для забезпечення обміну науковими даними та організації їх колективного використання, а в найближчих кілька років подолати відставання від європейських країн і ввійти в Європейський дослідницький простір (European Research Area, ERA) повноправним і кваліфікованим партнером.

Поділитися
Помітили помилку?

Будь ласка, виділіть її мишкою та натисніть Ctrl+Enter або Надіслати помилку

Додати коментар
Всього коментарів: 0
Текст містить неприпустимі символи
Залишилось символів: 2000
Будь ласка, виберіть один або кілька пунктів (до 3 шт.), які на Вашу думку визначає цей коментар.
Будь ласка, виберіть один або більше пунктів
Нецензурна лексика, лайка Флуд Порушення дійсного законодвства України Образа учасників дискусії Реклама Розпалювання ворожнечі Ознаки троллінгу й провокації Інша причина Відміна Надіслати скаргу ОК
Залишайтесь в курсі останніх подій!
Підписуйтесь на наш канал у Telegram
Стежити у Телеграмі