В природе существуют триллионы до сих пор неизвестных вирусов, многие из которых могут быть смертельными и потенциально способными спровоцировать следующие пандемии. Однако, как говорят ученые, далеко не все вирусы столь опасны.
Международное сотрудничество ученых СПбГУ (Центр биоинформатики и алгоритмической биотехнологии), французского Института Пастера, канадсткого Университета Британской Колумбии, Калифорнийского университета в Беркли (США), Гейдельбергского института теоретических исследований (Германия) и других исследователей, позволило обнаружить в недрах существующих открытых геномных данных более 130 тыс. новых, ранее неизвестных вирусов.
Со слов участника международного проекта, ведущего сотрудник Центра биоинформатики и алгоритмической биотехнологии СПбГУ Антона Коробейникова, для изучения собранной информации, была создана платформа Serratus. Платформа состояла из целого набор компьютерных инструментов, специально предназначенных для эффективной работы с данными в облаке.
«Главная задача коллаборации Serratus заключалась в том, чтобы создать мощное, очень точное и чувствительное «сито» для обработки огромных количеств данных, отобрать данные, относящиеся к РНК-вирусам, сузив масштабы от петабайтов до гигабайтов, доступных для относительно быстрой обработки с применением обычных вычислительных мощностей. Созданный же сборщик coronaSPAdes — наш кирпичик в уникальной конструкции Serratus, каждый из участников которой занимался своим делом, которое хорошо знает, поэтому у нас все и получилось», – рассказал Дмитрий Мелешко сотрудник Центра алгоритмической биотехнологии СПбГУ.
Антон Коробейников, отметил, что платформа способна быстро и качественно обрабатывать 1 млн наборов данных в день при вычислительных затратах менее одного цента на набор данных.
В ходе исследования было обнаружено более 250 гигантских вирусов, поражающих бактерии и похожих на вирусы, обнаруженные ранее в водорослях. Близкие родственники этих «огромных фагов» были обнаружены, например, у человека из Бангладеш, а также у кошек и собак в Соединенном Королевстве.
«Созданный на данный момент общедоступный репозиторий разработанных инструментов и уже полученных результатов таит в себе множество новых открытий, особенно с учетом того, что количество облачных общедоступных последовательностей ДНК и РНК растет экспоненциально изо дня в день. Мы бы хотели идентифицировать к концу десятилетия более 100 млн РНК-вирусов», — отметил Дмитрий Мелешко.
До появления Serratus ученым было известно порядка 13 500 РНК-вирусов (это примерно треть от общего количества различных существующих вирусов), международный проект позволил увеличить это количество почти в десять раз.