Una nueva herramienta informática, que analizó 5,7 millones de muestras biológicas recogidas a lo largo del planeta durante los últimos 15 años, ha descubierto más de 130.000 nuevos virus ARN, como el que provocó la actual pandemia, que pertenecen a 30 especies desconocidas.

Un equipo internacional de científicos ha descubierto más de 130.000 nuevos virus de ARN (como es el coronavirus SARS-CoV-2 que provocó la actual pandemia de covid-19), mediante una nueva herramienta informática.

El equipo internacional utilizó un programa de computación en la nube para analizar 5,7 millones de muestras biológicas recogidas a lo largo del planeta durante los últimos 15 años.

Este hallazgo, que se publica en la revista Nature, supone un incremento de hasta 10 veces el número de especies virales de ARN descritas hasta la fecha, destacan los investigadores en un comunicado.

Computación en la nube

Para este análisis, el equipo multidisciplinar desarrolló Serratus, una infraestructura de computación de ciencia abierta que permitió a los informáticos, usando un clúster de 22.500 procesadores informáticos, desplegar búsquedas masivas de secuencias virales en los millones de Gigabytes (Petabytes) de datos de secuenciación disponibles en bases de datos públicas.

Serratus permite la comparación de secuencias a escala de petabytes. Se apoya en el software de biocomputación "Diamond", creado por el grupo Computational Molecular Evolution, situado en el Heidelberg Institute for Theoretical Studies (HITS), que funciona como un motor de búsqueda de Internet.

Diamond enumera coincidencias en los componentes básicos de proteínas de organismos secuenciados en solo unas pocas horas, un tiempo récord porque, hasta hace poco, se requería un período de meses para dichos cálculos, incluso con computadoras de alto rendimiento.

Contribución de la UPV

El análisis detallado de ciertas familias virales permitió el descubrimiento de más de 30 nuevas especies de coronavirus, incluyendo interesantes ejemplos en vertebrados acuáticos, como peces y anfibios, cuyos coronavirus presentaron un genoma segmentado en dos fragmentos, una característica descrita en otras familias de virus, pero no detectada antes en ningún miembro de los coronavirus.

El Instituto de Biología Molecular y Celular de Plantas de Valencia (IBMCP) participó activamente en esta investigación: usando esas potentes herramientas, analizó el virus causante de la hepatitis D humana, un agente viral llamado Delta, de tamaño genómico mínimo y origen desconocido.

Esto permitió al investigador del CSIC en IBMCP, Marcos de la Peña Rivero, detectar virus similares en multitud de otros animales, incluyendo no sólo mamíferos y otros vertebrados, sino también invertebrados.

“Sorprendentemente, estos virus se encontraron también en muestras medioambientales recogidas en lagos y suelos de todo el mundo, y cuyos huéspedes serían por el momento desconocidos”, revela de la Peña, citado por el CSIC.

Novedosas formas virales

Más aún, las muestras medioambientales con virus similares al de la hepatitis D revelaron la presencia de novedosas formas virales con genomas ultra-compactos y de tamaño ínfimo (sólo 300 bases, las unidades químicas que forman el material genético).

“Este descubrimiento permite avanzar una conexión evolutiva cercana entre virus tan distantes como la hepatitis D humana y los agentes subvirales de plantas llamados ‘viroides’”, apunta el investigador del CSIC.

Tanto la base de datos de todos los virus obtenidos en este trabajo, como el conjunto de las herramientas desarrolladas, están disponibles de forma libre y abierta.

Datos genéticos aprovechables

Las bases de datos de secuencias públicas se han convertido en un enorme depósito de datos genéticos que proporcionan investigadores de todo el mundo.

Estos datos provienen de grupos de investigación biológica que generan datos de secuenciación, ya sea para estudiar el microbioma del suelo de la selva amazónica, como para estudiar la propagación de enfermedades como el virus SARS-CoV-2.

Por lo general, en tales estudios, los datos de la secuencia genética se obtienen no solo del organismo que se pretendía estudiar, sino también de otros organismos cuyo ADN está presente en la muestra.

Dichos datos aleatorios pueden ser de particular interés para otros investigadores, ya que estos datos no son el foco del estudio original y, por lo tanto, generalmente se ignoran. Sin embargo, todavía se almacenan en las bases de datos públicas.

La herramienta aplicada en esta investigación puede ser de gran utilidad para caracterizar la diversidad planetaria de todos los virus existentes y prepararse ante posibles nuevas pandemias, señalan los investigadores.

Referencia

Petabase-scale sequence alignment catalyses viral Discovery. Robert C. Edgar et al. Nature (2022). DOI:https://doi.org/10.1038/s41586-021-04332-2