СПбГУ выходит на новый уровень обработки данных БАК
Вклад ученых СПбГУ в обработку данных в мировой вычислительной сети Grid, получаемых на Большом адронном коллайдере, и в частности на установке ALICE, существенно возрос. Это стало возможным благодаря закупке и установке нового оборудования в ресурсном центре «Вычислительный центр СПбГУ» общей стоимостью 5 млн рублей.
Этой новостью с коллегами поделился Андрей Константинович Зароченцев, младший научный сотрудник СПбГУ (Лаборатория физики сверхвысоких энергий), координатор российского Grid-сегмента эксперимента ALICE. Он выступил с докладом «Вычислительный кластер СПбГУ сегодня и обработка данных ALICE в российском сегменте Grid» в рамках открытого семинара «Обработка данных с экспериментов Большого адронного коллайдера», состоявшегося в Университете.
Напомним, что еще в 2004 году коллективы лаборатория физики сверхвысоких энергий и Вычислительного центра СПбГУ одними из первых в стране включились в подготовку к обработке данных эксперимента ALICE БАК на основе платформы Grid. С 2007 года в Университете начались работы с тестовыми данными уже для всех четырех основных установок — ALICE, LHCB, ATLAS и CMS. После запуска коллайдера в 2010 году была реализована круглосуточная поддержка систем хранения новейших экспериментальных данных, их обработки и анализа. В этом процессе задействованы различные организации буквально по всему миру (подробнее об этом читайте в статье «Облачный атлас для коллайдера» в журнале «Санкт-Петербургский университет» № 9, октябрь 2015 года).
«В Большом адронном коллайдере частицы сталкиваются примерно 600 млн раз в секунду. Это соответствует накоплению примерно 30 петабайт данных в год (1 Пб равен 1024 терабайтам. — Ред.)», — рассказал Андрей Зароченцев. Понятно, что такой массив данных просто невозможно физически хранить и обрабатывать в одном месте. Для этого было решено соединить между собой с помощью сети отдельные кластеры, которые теперь все вместе представляют собой мощный виртуальный суперкомпьютер (такая технология получила название Grid — от англ. решетка, сеть). Кластеры эти объединены в различные ярусы: Tier–0 (в самом Европейском центре ядреных исследований (ЦЕРН)), Tier–1 и Tier–2 (в последний входит кластер СПбГУ). Они отличаются по решаемым задачам и по компьютерным мощностям. «Такая распределенная вычислительная инфраструктура, расположенная в несколько ярусов, дает мировому сообществу из более чем 8000 физиков возможность иметь доступ в режиме реального времени к данным, получаемым на БАК», — объяснил Андрей Зароченцев. Для координации работы кластеров на различных уровнях был запущен проект WLCG (Worldwide LHC Computing Grid). Сегодня он объединяет более 170 компьютерных центров в 36 странах и тысячи частных компьютеров. Для обеспечения полномасштабного включения России в этот проект был образован консорциум RDIG (Russian Data Intensive Grid), участником которого является и Санкт-Петербургский государственный университет.
Технология Grid призвана объединить множество региональных и национальных сетей, создав таким образом универсальный источник вычислительных ресурсов, доступных широкому кругу пользователей. Авторами концепции GRID являются сотрудник Аргонской национальной лаборатории Чикагского университета Ян Фостер и сотрудник Института информатики Университета Южной Калифорнии Карл Кессельман. Слово grid (в переводе с английского «сеть») для названия новой технологии было выбрано по аналогии с термином «электрическая сеть», которая в свое время предоставила всепроникающий доступ к источникам электроэнергии и, подобно компьютерной технике, оказала огромное влияние на развитие человеческого общества. Создатели Grid предположили, что обеспечение надежного и недорогого доступа к вычислительным сетям стимулирует появление новых классов сред и сетевых компьютерных приложений.
С 22 февраля, а именно тогда было запущено новое оборудование в Вычислительном центре СПбГУ, участие Университета в консорциуме RDIG стало более весомым. Теперь вместо 120 ядер и 60 Тб памяти центр располагает оборудованием на 400 ядер и 130 Тб памяти. «Теперь мы можем выполнять 400 одновременных задач. Сейчас ноутбуки в основном двухъядерные. Так что считайте, что в нашем центре одновременно работают 200 ноутбуков. Что касается объема памяти, то представьте себе следующее: в среднем фильм в HD-качестве занимает 3 Гб. То есть на 130 Тб мы можем записать более 40 300 фильмов», — приводит примеры «из жизни» Андрей Зароченцев, и сомневаться в его следующих словах уже не приходится: «Производительность сайта выросла на порядок, а вклад вычислительных ресурсов СПбГУ в обработку данных БАК стал существенным на российском (и не только) уровне». По словам ученого, если суммарная обработка данных установки ALICE сайтом СПбГУ относительно других российских сайтов (речь идет об уровне Tier–2. —Ред.) в прошлом году составила 6,54 %, то в этом году после установки и ввода в эксплуатацию нового оборудования всего за два дня в феврале (22, 23 февраля. — Ред.) она возросла до 21,52 %.
Для наиболее эффективного использования новые мощности было решено отвести именно под обработку данных, получаемых на установке ALICE.
Источник: Шошмина И. В., Зароченцев А. К., Иванов А. С., Феофилов Г. А. Использование GRID-технологий для крупномасштабных научных экспериментов.
Напомним, что СПбГУ является официальным участником международной научной коллаборации ALICE с момента ее образования в 1992 году. Сейчас ученые, студенты и аспиранты Университета работают вместе с европейскими коллегами над модернизацией Внутренней трековой системы — самого центрального детектора мегаустановки ALICE, что обеспечит и новые возможности исследования редких процессов. Об этом в ходе семинара подробно рассказал Григорий Александрович Феофилов, доцент СПбГУ, заведующий лабораторией физики сверхвысоких энергий.
В открытом семинаре, который шел в режиме телеконференции, кроме универсантов приняли участие также и представители ЦЕРН и Объединенного института ядерных исследований.