Биоинформатики СПбГУ разработали сборщик для расшифровки геномов коронавирусов
Новая разработка Центра алгоритмической биотехнологии СПбГУ, получившая название coronaSPAdes, позволяет собирать геномы РНК-вирусов, и в первую очередь коронавирусов. По предварительным данным, с ее помощью уже удалось восстановить последовательности геномов ранее неизвестных коронавирусов.
Модуль coronaspades — это специальный режим сборщика spades (Saint Petersburg Assembler) — флагманского продукта лаборатории «Центр алгоритмической биотехнологии» СПбГУ, известного во всем мире. С помощью spades ученые из разных стран анализируют патогены, вызвавшие вспышку Ближневосточного респираторного синдрома (MERS) в Саудовской Аравии, Эболы в Конго, гонореи в Англии, менингита в Гане, лихорадки денге на Суматре и десятки других вспышек.
Сборщик spades и различные режимы его работы позволяют производить расшифровку геномов живых организмов, в том числе вирусов. Дело в том, что биологи до сих пор не умеют читать геномы так же, как мы читаем книгу: от начала и до конца. Вместо этого они «прочитывают» небольшие фрагменты, которые потом собирают в полный текст. Поэтому сборка генома мало чем отличается от сборки пазла из миллиона частей. Эта задача относится к одной из самых сложных алгоритмических проблем в биоинформатике, и, чтобы ее решить, необходимо использовать специальные инструменты — геномные сборщики.
На создание модуля coronaspades нас подвигли запросы научного сообщества. Из разных лабораторий к нам поступали многочисленные вопросы о том, как лучше с помощью утилит семейства spades собирать РНК-вирусы.
Сотрудник Центра алгоритмической биотехнологии СПбГУ Антон Коробейников
«Одними из таких центров являются Европейский институт биоинформатики (EMBL-EBI), с которым у нас есть совместный грант Российского фонда фундаментальных исследований, и сообщество ученых, работающих над поиском новых корона- и других вирусов в публичных данных в рамках научной коллаборации Serratus. Так как существующие модули сборщика spades не дают ощутимого преимущества перед программами-конкурентами, была поставлена задача создать новый модуль, который учитывает уникальные особенности строения генома коронавирусов и данных секвенирования», — рассказал сотрудник Центра алгоритмической биотехнологии СПбГУ Антон Коробейников, один из основных авторов нового продукта.
Лаборатория «Центр алгоритмической биотехнологии» была создана в СПбГУ в конце 2014 года в рамках проекта мегагрантов СПбГУ для решения важнейших вычислительных задач современной биомедицины. Флагманский продукт лаборатории — программа SPAdes (Saint Petersburg Assembler) — используется тысячами специалистов в области геномики по всему миру.
Решающая роль в этой разработке принадлежит сотруднику Центра алгоритмической биотехнологии СПбГУ Дмитрию Мелешко. Также важно отметить, что coronaspades основан на предыдущих разработках лаборатории и кодовой базе семейства сборщиков spades (metaspades, rnaspades, metaviralspades, biosyntheticspades). Без этих наработок создание модуля было бы невозможным.
Первая версия coronaspades была разработана за пару недель. Выполнить работу в столь сжатые сроки помогли тестовые данные, предоставленные научной коллаборацией Serratus. Сегодня создатели сборщика заняты его дальнейшим совершенствованием, однако уже сейчас он позволяет восстанавливать геномы коронавирусов de novo, гораздо эффективнее и качественнее, чем альтернативные подходы. Например, из некоторых наборов данных были собраны полноразмерные геномы, по предварительным данным, ранее неизвестных коронавирусов.
Модуль coronaspades учитывает особенности данных секвенирования РНК, а также реализует уникальные алгоритмические решения, нацеленные на улучшение восстановления последовательности генома коронавирусов. Более того, подходы, заложенные в coronaspades, могут быть использованы в дальнейшем для разработки новых сборщиков, использующих информацию о структуре иных типов геномов.
Сборщик coronaspades сразу стал активно применяться учеными, но нам сложно оценить границы использования, потому что мы не отслеживаем всех пользователей. Coronaspades является программой с открытым исходным кодом (open source), которая доступна для скачивания и использования всем желающим. По нашим данным, помимо EMBL-EBI интерес к сборщику проявили такие крупные исследовательские сообщества, как Serratus, Metasub Consortium и Nextflow.
Сотрудник Центра алгоритмической биотехнологии СПбГУ Антон Коробейников
Как рассказала заместитель директора Центра алгоритмической биотехнологии Института трансляционной биомедицины СПбГУ Алла Лапидус, за короткое время в лаборатории создано несколько новых программ, целью которых является быстрая и качественная обработка геномных данных, необходимых для анализа вирусов (и не только), вызывающих различные болезни, и в первую очередь коронавирусов.
«В 2020 году эпидемиологическая обстановка в мире не позволяет ученым и медикам расслабиться — не успели еще справиться с коронавирусом, как появились сообщения о, возможно, новом штамме свиного гриппа, получившем название G4 EA H1N1, — отметила Алла Лапидус. — Выяснить, действительно ли этот штамм новый или ранее известный сезонный штамм, в первую очередь поможет анализ его генома. А на днях появились сообщения о случаях бубонной чумы в Китае, вызываемой бактерией Yersinia pestis. В такой непростой обстановке возрастает не только потребность в аналитических методах, но и в грамотных специалистах. В этом году прошел первый в истории СПбГУ выпуск магистерской программы "Биоинформатика", и я желаю нашим выпускникам больших научных достижений и открытий».