ГРІД
Новини

Віртуальна організація з космології та астрофізики

Подальший розвиток ВІРГО потребує збільшення кількості наявних комп'ютерних ресурсів для аналізу даних. На допомогу прийшла багаторічна тісна співпраця учасників проекту ВІРГО з лабораторією розподілених розрахунків Інституту теоретичної фізики (кер. Є.С.Мартинов та С.Я.Свістунов), активність якої, разом з організаційною підтримкою директора ІТФ академіка НАН України А.Г.Загороднього, призвела до створення мережі Українського академічного ГРІДу.

Назва ГРІД (англ. grid -- гратка, мережа) означає принцип побудови "мережі" обчислювальних ресурсів, подібний до електричної мережі. В перспективі, користувачі отримують доступ до великої кількості ресурсів, які перерозподіляються між ними з метою оптимізації їх використання. Уніфікований доступ до обчислювальної мережі ГРІД спрощує запуск задач, дозволяючи як небачені за масштабністю обчислювальні проекти, так і "повсякденний" доступ до обчислювальних ресурсів великої кількості "дрібних" користувачів.

Особливо відчутний позитивний ефект від роботи в системі ГРІД отримують обчислення, що складаються з великої кількості незалежних "однотипних" задач. Саме тому, існуюча реалізація переважної більшості ГРІД-систем була розроблена в ЦЕРНі для аналізу гігантської кількості даних з Large Hadron Collider (LHC) -- лідера щодо кількості отримуваних даних спостережень. Дані LHC складаються з великої кількості "подій", кожну з яких можна обробляти незалежно. Аналогічна структура потоку даних і від сучасних астрономічних обсерваторій, працюючих насамперед в астрофізиці високих енергій (до речі, тісно пов'язаній з фізикою частинок). Саме тому, система, оптимізована насамперед для роботи з експериментами фізики високих енергій, не потребує суттєвих модифікацій і для обробки даних від рентгенівських та гамма-обсерваторій.

Іншою, неочікуваною на перший погляд, перевагою ГРІДу є його "однотипність" в запуску досить великих задач, кожна з яких потребує одночасної та узгодженої роботи десятків чи навіть сотень процесорів, об'єднаних в рамках одного обчислювального кластера. Прикладом такої задачі може бути чисельне багаточастинкове моделювання, наприклад, великомасштабної структури Всесвіту (найдетальніші з існуючих наразі моделювань, зокрема, Millenium Simulation під GADGET-II, потребують сотні тисяч ЦПУ-годин на обчислювальних кластерах). Поза рамками ГРІДу запуск таких задач виконується на окремих обчислювальних кластерах, кожен з яких має свої налаштування та політику доступу. В результаті ресурси кластеру можуть використовуватись неефективно, а нові (зокрема, більш актуальні чи конкурентоспроможні) задачі можуть довгий час лишатися нерозв'язаними через брак наявних ресурсів або суттєві витрати часу на "освоювання" операційної системи кластеру(ів) користувачами.

Таким чином, запуск великих задач в ГРІДі, не даючи переваг в швидкості їх розв'язку, істотно зменшує повний час виконання задачі за рахунок уніфікації її запуску, і є важливим кроком в побудові повноцінної ГРІД-інфраструктури, спроможної розв'язувати задачі широкого класу. З іншої сторони, наявність масштабного міжнародного проекту з космології та астрофізики частинок, в якому наші співробітники беруть активну участь, мотивує учасників цього проекту стати рушійною силою побудови такої ГРІД-інфраструктури, отримуючи доступ до (тимчасово слабко використовуваних) обчислювальних ресурсів. Оскільки налагодження однорідної системи запуску великих задач вимагає значних зусиль, не пов'язаних безпосередньо з науковою роботою, і потребує цільового фінансування, ініціативною групою виконавців міжнародного проекту з космології та астрофізики частинок було сформульовано запит про створення та розвиток ГРІД-Віртуальної Організації з космології та астрофізики та направлено його до участі в конкурсі запитів Державної цільової науково-технічної програми впровадження і застосування ГРІД-технологій на 2009-2013 роки.

Програмне забезпечення, що використовується віртуальною організацією. Залежності та вимоги.

  1. XMMSAS — ПЗ аналізу даних супутника XMM-Newton
    • 5G дискового простору для ПЗ та калібровочних файлів (не потребує встановлення специфічних бібліотек)
    • Задачі використовують 1 ядро (0.5-5 ЦПУ-годин на задачу), але реальні обчислення (масовий запуск незалежних задач) потребують декількох сотень-тисяч ЦПУ-годин, завантаження декількох Гбайт даних і генерує декілька сотень Гбайт продуктів
  2. Fermi — ПЗ аналізу даних місії Fermi
    • 5G дискового простору для ПЗ і даних
    • Реальні задачі використовують від 1 ядра, потребують від сотень до тисяч (максимальна задача 30тис.) ЦПУ-годин і генерують декілька десятків ГБайт продуктів
  3. CosmoMC — Fortran 90 Markov-Chain Monte-Carlo (MCMC) пакет для вивчення простору значень космологічних параметрів
    • CFITSIO - A FITS File Subroutine Library
    • WMAP likelihood code and data
    • gsl - the GNU scientific library
    • mpi - the ‘Message Passing Interface’
    • OpenMP
    • LAPACK - Linear Algebra PACKage

    • Характерна задача потребує 10-30 ЦПУ протягом тижня через OpenMP, тобто декілька тис. ЦПУ-годин.
  4. HEASOFT
    • Up to 2 GB free disk space
    • ANSI C compiler
    • ANSI C++ compiler
    • Fortran compiler On PC Linux, the GNU Fortran compiler (gfortran or g77) is recommended.
    • make *GNU make (gmake) is *required*
    • perl (5.6.0 or higher recommended)
    • X11 / X-Windows (optional)

    • Характерна задача потребує 5-30 ЦПУ-годин на окремому ЦПУ, виробляє < 1ГБайт продуктів. Зазвичай запускаються масово, від декількох задач до декількох сотень задач
  5. GADGET-2 A code for cosmological simulations of structure formation
    • mpi - the ‘Message Passing Interface’ (version 1.0 or higher)
    • gsl - the GNU scientific library
    • fftw - the ‘Fastest Fourier Transform in the West’. version 2.x
    • hdf5 - the ‘Hierarchical Data Format’ (version 5.0 or higher)
    • потребує великої кількості ресурсів (напр., починаючи від 50 Гбайт оперативної пам'яті) та Infiniband. Характерна задача займає десятки-сотні тисяч ЦПУ-годин