Ученые СПбГУ: новый алгоритм делает передовую технологию секвенирования генома еще эффективнее

Биоинформатикам нашего университета удалось создать новый алгоритм TruSPAdes, который значительно повышает эффективность технологии секвенирования TruSeq Synthetic Long Reads (TSLR). Новая разработка позволяет получать более длинные и точные фрагменты генома для последующей сборки. Результаты исследования были опубликованы в престижном журнале Nature Methods. Авторы статьи — младший научный сотрудник СПбГУ Антон Банкевич и заведующий лабораторией «Центр алгоритмической биотехнологии» Института трансляционной биомедицины СПбГУ Павел Певзнер.

Задача геномной сборки (восстановления нуклеотидной последовательности генома) — одна из центральных задач биоинформатики. Ее решение состоит из двух этапов: секвенирование («разрезание» молекулы ДНК на мелкие фрагменты и прочтение каждого такого фрагмента в отдельности) и непосредственно сборка — применение алгоритмов для восстановления генома из его фрагментов. При этом эффективность таких алгоритмов становится тем выше, чем длиннее и точнее получаются фрагменты в результате секвенирования.

На протяжении около 20 лет ученые всего мира стараются усовершенствовать оба этапа. Сегодня существует целый ряд компаний, разрабатывающих и улучшающих технологии секвенирования. Одна из таких технологий — TruSeq Synthetic Long Reads (TSLR), разработанная компанией Illumina, признанным лидером в данной области. Она уникальна тем, что позволяет провести сборку в два этапа. Благодаря этой технологии алгоритмисты получают возможность работать с промежуточной информацией (более короткими фрагментами, так называемыми ридами), анализировать ее, а затем уже восстанавливать более длинные фрагменты генома. Этот промежуточный этап называется баркодной сборкой. Именно ему посвятили свое исследование эксперты Санкт-Петербургского государственного университета.

Ученые проанализировали свойства технологии TruSeq, выявили ряд недостатков в ее работе и создали новый алгоритм для их компенсации. Один из минусов данной технологии — формирование ридов, часть которых принадлежит одному фрагменту генома, а часть — другому. Это так называемые химерические риды.

С такой проблемой довольно сложно бороться. Нужно находить эти соединения и удалять их. Для этого, сравнив риды друг с другом, необходимо определить, какие из них правильные, а какие нет. Специалисты Illumina не знали, что такая проблема может быть крайне актуальной для TSLR. Мы доказали: с ней справится разработанный нами новый алгоритм.

Младший научный сотрудник СПбГУ Антон Банкевич

Для решения этой проблемы ученые СПбГУ предлагают использовать стандартную конструкцию, которую начали применять при сборке генома еще в начале 1990-х годов. Тогда в биоинформатике стали использовать математическую модель — граф де Брюйна. Это универсальный инструмент, позволяющий представить информацию, данную в ридах, в более наглядном виде. Если построить этот граф для ридов, он будет таким же, как если бы его построили для всего генома. С помощью этого инструмента ученые СПбГУ научились находить ошибочные, в том числе химерические, риды, анализировать свойства этих соединений, а затем удалять их.

С проблемой химерических ридов исследователи СПбГУ уже сталкивались в процессе работы над одним из своих первых проектов — при разработке инструмента SPAdes. Выявление этих ридов было связано с применением технологии MDA, которая позволяет проводить секвенирование из одной клетки. До сегодняшнего дня никто не предполагал, что такие же проблемы могут возникнуть в технологии TSLR.

Технология TruSeq Synthetic Long Reads — это часть новой волны технологий секвенирования длинных прочтений, начавшейся в 2011 году с появления технологии SMRT (разработчик — компания Pacific BioSciences). TSLR выделяется тем, что позволяет получать очень точные геномные фрагменты по значительно более низкой цене, чем у технологий-конкурентов. Сегодня с использованием TSLR связано несколько крупных проектов, в реализации которых задействованы в том числе специалисты СПбГУ. Один из них — изучение метагеномов (совокупных геномов микроорганизмов). При помощи этой технологии можно просеквенировать метагеном и получить практически идеально собранные гены, что было невозможно с использованием технологий предыдущего поколения. Секвенирование метагенома тех или иных бактерий, живущих в человеке, поможет выявить влияние этих микроорганизмов на возникновение определенных патологических состояний. Второй проект, связанный с поиском вариаций генома, также задействует новую технологию. С ее помощью станет возможно находить сложные вариации, которые до последнего времени оставались незамеченными. Это позволит ученым лучше понять вариативность человеческого генома и установить истинные причины многих генетических заболеваний.

Результаты, полученные в ходе исследования, позволяют повысить эффективность технологии TSLR на 20 %. Разработанный алгоритм можно будет устанавливать на серверы различных лабораторий, которые занимаются сборкой генома. Через него будут проходить данные, полученные с помощью TSLR. На выходе ученые получат более длинные и более точные фрагменты генома.