Dall’inizio del 2020 i laboratori di tutto il mondo sequenziano materiale genetico che deriva dai tamponi di persone positive al Covid-19 e depositano poi le sequenze virali in tre principali banche dati: GenBank, COG-UK e GISAID.
Per muoversi agilmente in questa enorme mole di dati e navigare alla ricerca di connessioni utili alla comprensione del virus, il gruppo di ricerca del Politecnico di Milano guidato dal prof. Stefano Ceri ha realizzato ViruSurf, un motore di ricerca che si avvale di un database centralizzato collocato al Politecnico.
Il database viene aggiornato periodicamente e a oggi contiene 200.516 sequenze di SARS-CoV-2 e 33.256 sequenze di altre specie, anch’esse associate a epidemie d’interesse per l’uomo, tra cui SARS, MERS, ebola e dengue.

Ogni sequenza è descritta secondo quattro prospettive: le caratteristiche del virus e dell’organismo ospite, la tecnologia usata, il progetto di sequenziamento, le mutazioni dei nucleotidi e degli aminoacidi che si trovano in diversi geni.
Il vantaggio di ViruSurf è di includere un algoritmo che calcola le mutazioni virali in modo omogeneoa, ovvero indipendente dalla loro provenienza, gestito su cloud per ridurre i tempi d’esecuzione.
Il database è ottimizzato per offrire risposte istantanee agli utilizzatori del motore di ricerca.

Tra gli sviluppi futuri di ViruSurf, il più importante, finanziato da EIT Digital con un progetto semestrale, è un servizio informatico per elaborare nuove sequenze virali identificando in esse particolari mutazioni associate a maggiore o minore severità e virulenza.
Utilizzato in campo medico, in fasi meno acute della pandemia, permetterà di arricchire la cartella clinica del paziente con la sequenza del virus che lo ha infettato. Sarà inoltre possibile utilizzare ViruSurf per il monitoraggio dei virus nella gestione di allevamenti e coltivazioni.
Il sistema consentirà a breve di tracciare gli epitopi – sequenze di aminoacidi del virus critiche per lo sviluppo di vaccini – per esempio per trovare, per ogni epitopo, le mutazioni della sua sequenza diffuse in alcune regioni del pianeta, che potrebbero pregiudicare l’efficacia del vaccino.

«Nel progetto GeCo, finanziato dallo European Research Council, avevamo già sviluppato un motore di ricerca per il genoma umano, chiamato GenoSurf; a inizio pandemia non esisteva un analogo sistema per le sequenze virali. Per comprenderne i requisiti, abbiamo intervistato venti esperti virologi da tutto il mondo; il risultato è un sistema di semplice utilizzo: chiunque può collegarsi e capire, per esempio, quando una mutazione virale è apparsa per la prima volta e come si è diffusa nel mondo», racconta il prof. Ceri.

Figura 1

Figura 1: dal genoma del virus SARS-CoV-2 (a) si estrae la sua sequenza di nucleotidi e aminoacidi (b); le sequenze, depositate nelle banche dati mondiali GENBANK, GISAID, COG-UK (c), sono importate nel database centralizzato del Politecnico, su cui opera il motore di ricerca ViruSurf (d)

Figura 2

Figura 2: schema del database integrato. Le sequenze del virus vengono descritte in base alle loro caratteristiche biologiche (specie virale e ospite), al progetto che le ha prodotte, alla tecnologia di sequenziamento e alle proprietà del genoma (annotazioni, mutazioni della sequenza dei nucleotidi e degli aminoacidi)

Marco Oldrati