Software de metagenómica de benchmarks de competencia internacional

Mihai Pop, profesor de informática en la Universidad de Maryland con un cargo conjunto en el Instituto de Estudios Informáticos Avanzados de la Universidad de Maryland. Crédito:John T. Consoli, Universidad de Maryland

Las comunidades de bacterias viven en todas partes:dentro de nuestros cuerpos, en nuestros cuerpos y en todo lo que nos rodea. El intestino humano por sí solo contiene cientos de especies de bacterias que ayudan a digerir los alimentos y proporcionan nutrientes. pero también puede enfermarnos. Para obtener más información sobre estos grupos de bacterias y cómo afectan nuestras vidas, los científicos necesitan estudiarlos. Pero esta tarea plantea desafíos, porque llevar las bacterias al laboratorio es imposible o interrumpiría los procesos biológicos que los científicos desean estudiar.

Para sortear estas dificultades, los científicos se han dirigido al campo de la metagenómica. En metagenómica, Los investigadores utilizan algoritmos para reconstruir el ADN de una muestra ambiental para determinar el tipo y la función de las bacterias presentes. A diferencia de campos establecidos como la química, donde los investigadores evalúan sus resultados contra un conjunto de estándares conocidos, La metagenómica es un campo relativamente joven que carece de estos puntos de referencia.

Mihai Pop, profesor de informática en la Universidad de Maryland con un cargo conjunto en el Instituto de Estudios Informáticos Avanzados de la Universidad de Maryland, recientemente ayudó a juzgar un desafío internacional llamado Evaluación Crítica de la Interpretación del Metagenoma (CAMI), que comparó el software de metagenómica. Los resultados fueron publicados en la revista Métodos de la naturaleza el 2 de octubre 2017.

"No hay un algoritmo que podamos decir que sea el mejor en todo, "dijo Pop, quien también es codirector del Centro de Informática Relacionada con la Salud y Bioimagen de la UMD. "Lo que descubrimos fue que una herramienta funciona mejor en un contexto, pero a otro le va mejor en otro contexto. Es importante que los investigadores sepan que deben elegir el software en función de las preguntas específicas que intentan responder ".

Los resultados del estudio no sorprendieron a Pop, debido a los muchos desafíos que enfrentan los desarrolladores de software de metagenómica. Primero, El análisis de ADN es un desafío en metagenómica porque el ADN recuperado a menudo proviene del campo, no es un entorno de laboratorio estrictamente controlado. Además, El ADN de muchos organismos, algunos de los cuales pueden no tener genomas conocidos, se mezclan en una muestra, dificultando el montaje correcto, o juntar, genomas individuales. Es más, El ADN se degrada en entornos hostiles.

"Me gusta pensar en la metagenómica como un nuevo tipo de microscopio, "Dijo Pop." En los viejos tiempos, usarías un microscopio para estudiar las bacterias. Ahora tenemos un microscopio mucho más potente, que es la secuenciación de ADN junto con algoritmos avanzados. La metagenómica promete ayudarnos a comprender qué hacen las bacterias en el mundo. Pero primero tenemos que ajustar ese microscopio ".

El líder de CAMI invitó a Pop a ayudar a evaluar las presentaciones de los participantes del desafío debido a su experiencia en el ensamblaje del genoma y metagenoma. En 2009, Pop ayudó a publicar Bowtie, uno de los paquetes de software más utilizados para ensamblar genomas. Más recientemente, colaboró con la Facultad de Medicina de la Universidad de Maryland para analizar cientos de miles de secuencias de genes como parte del más grande, estudio más completo de las enfermedades diarreicas infantiles jamás realizado en países en desarrollo.

"Descubrimos nuevos Bacterias desconocidas que causan enfermedades diarreicas. y también encontramos interacciones entre bacterias que podrían empeorar o mejorar la enfermedad, "Dijo Pop." Siento que es uno de los proyectos más impactantes que he hecho usando metagenómica ".

Para la competencia, Los investigadores de CAMI combinaron aproximadamente 700 genomas microbianos y 600 genomas virales con otras fuentes de ADN y simularon cómo podría aparecer tal colección de ADN en el campo. La tarea de los participantes fue reconstruir y analizar los genomas del conjunto de ADN simulado.

Los investigadores de CAMI calificaron las presentaciones de los participantes en tres áreas:qué tan bien ensamblaron los genomas fragmentados; qué tan bien "se tiraron, "u organizado, Fragmentos de ADN en grupos relacionados para determinar las familias de organismos en la mezcla; y qué tan bien "perfilaron, "o reconstruido, la identidad y abundancia relativa de los organismos presentes en la mezcla. Pop contribuyó con métricas y software para evaluar los genomas ensamblados enviados.

Diecinueve equipos enviaron 215 entradas utilizando seis ensambladores de genoma, nueve binners y 10 perfiladores para afrontar este desafío.

Los resultados mostraron que para el montaje, Los algoritmos que reconstruyeron un genoma usando diferentes longitudes de fragmentos de ADN más pequeños superaron a los que usaron fragmentos de ADN de una longitud fija. Sin embargo, ningún ensamblador hizo bien en separar diferentes, pero genomas similares.

Para la tarea de agrupamiento, los investigadores encontraron compensaciones en la precisión con la que los programas de software identificaron el grupo al que pertenecía un fragmento de ADN en particular, versus cuántos fragmentos de ADN asignó el software a cualquier grupo. Este resultado sugiere que los investigadores deben elegir su software de agrupamiento en función de si la precisión o la cobertura son más importantes. Además, el rendimiento de todos los algoritmos de agrupamiento disminuyó cuando las muestras incluían múltiples genomas relacionados.

En la elaboración de perfiles, el software recuperó mejor la abundancia relativa de bacterias en la muestra o detectó mejor los organismos, incluso en cantidades muy bajas. Sin embargo, los últimos algoritmos identificaron el organismo equivocado con más frecuencia.

Avanzando, Pop dijo que el grupo CAMI continuará enfrentando nuevos desafíos con diferentes conjuntos de datos y nuevas evaluaciones dirigidas a aspectos más específicos del desempeño del software. Pop está emocionado de ver a los científicos usar los puntos de referencia para abordar preguntas de investigación en el laboratorio y la clínica.

"El campo de la metagenómica necesita estándares para garantizar que los resultados sean correctos, bien validado y siga las mejores prácticas, "Pop dijo". Por ejemplo, si un médico va a realizar una intervención basada en los resultados del software metagenómico, es fundamental que esos resultados sean correctos. Nuestro trabajo proporciona una hoja de ruta para elegir el software adecuado ".

Los bebés titíes reciben un impulso de padres atentos

Comprender el papel de las enzimas clave en el desarrollo embrionario

Biología

Nuevas especies de insectos imitan las hojas muertas para camuflarse

Investigadores señalan una mutación genética en los noctámbulos crónicos

Los científicos secuencian un diminuto gusano asexual, cuyo linaje se remonta a 18 millones de años

Ciencia

Química más ecológica a través de un nuevo enfoque de la catálisis

El dispositivo magnético a nanoescala imita el comportamiento de las neuronas y puede reconocer señales de audio humanas

La explosión mundial de la construcción de carreteras podría ser desastrosa para las personas y la naturaleza, dicen los científicos