• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  •  science >> Ciencia >  >> Biología
    Tamizando el oro del diluvio de datos

    Las tecnologías de secuenciación de ADN de próxima generación han inundado las bases de datos y los discos duros de todo el mundo con grandes conjuntos de datos. pero, ¿están los investigadores sacando el máximo provecho de esta avalancha de datos? En un nuevo estudio en la edición de octubre de Aplicaciones en Ciencias Vegetales , El Dr. Brent Berger y sus colegas proponen una forma de filtrar el oro restante de grandes conjuntos de datos de secuencia. Los autores muestran que se puede utilizar una nueva técnica de minería de datos para obtener información valiosa de conjuntos de datos existentes, y pruebe el concepto recuperando la secuencia de genes que influyen en las peculiares estructuras florales que se observan en la familia de plantas Goodeniaceae.

    La secuenciación del ADN se ha vuelto tan barata que incluso si un investigador solo está realmente interesado en la secuencia de unos pocos genes, A menudo, lo más práctico es secuenciar todo el genoma. Las técnicas bioinformáticas pueden seleccionar la secuencia de genes deseada más tarde, con menos molestias que apuntar a genes específicos para secuenciar. Esta práctica, conocido como "skimming del genoma, "se ha convertido en una forma cada vez más popular de responder preguntas sobre las relaciones entre especies de plantas.

    La premisa del desnatado del genoma es utilizar la secuenciación de escopeta de baja cobertura para recuperar la secuencia de ADN de las fracciones de alto número de copias del genoma. En secuenciación de escopeta, el genoma se divide en pequeños trozos para su secuenciación, y luego se vuelven a unir computacionalmente usando las superposiciones entre los trozos, un proceso llamado ensamblaje. La cantidad de "cobertura" corresponde a cuántos de esos pequeños fragmentos se secuencian; cuanto mayor sea la cobertura, más fácil es volver a unir el genoma, resultando en una secuencia del genoma más completa.

    Pero una mayor cobertura es más cara, y algunas preguntas se pueden responder con un ejecución de secuenciación de baja cobertura. "Fracciones de alto número de copias" del ADN genómico total, como genomas de cloroplasto o ADN ribosómico nuclear, están en mayor abundancia en el grupo de secuencias, y, por lo tanto, se puede secuenciar completamente incluso en formato barato, carreras de baja cobertura. La secuencia de estas fracciones genómicas de alto número de copias se usa típicamente para resolver las relaciones evolutivas entre diferentes especies y grupos. Pero en el proceso de desnatado del genoma, los investigadores producen y luego descartan grandes cantidades de datos de secuencia potencialmente valiosos. "Muchos conjuntos de datos de desnatado del genoma se utilizan para ensamblar el genoma del cloroplasto, que en nuestro caso, solo usó el 3% de los datos secuenciados, "comentó la Dra. Dianella Howarth, coautor del estudio.

    En este estudio, los autores echaron un segundo vistazo a un conjunto de datos de desnatado del genoma utilizado anteriormente para resolver las relaciones evolutivas en las Goodeniaceae, una familia de plantas comúnmente llamadas "flores en abanico" o "medias flores" debido a su intrigante forma de flor, que parece que alguien cortó la flor por la mitad. Los autores querían ver si este conjunto de datos de desnatado del genoma se podía sondear para obtener más información sobre la genética detrás de esta estructura floral única. Utilizaron varios paquetes de software para ensamblar fragmentos de secuencia no utilizados previamente a partir de la fracción de copia baja del conjunto de datos de desnatado del genoma original. Luego buscaron en el ensamblaje resultante la secuencia de un conjunto de genes llamado CICLOIDEA genes, que están involucrados en la estructura floral y la simetría.

    Los autores pudieron recuperar suficientes porciones de los genes, de múltiples especies, para crear alineaciones completas de los cuatro CICLOIDEA genes en el núcleo de Goodeniaceae. Estos datos podrían resultar útiles para futuros estudios sobre la evolución de la extraña estructura floral observada en este grupo. "Comparando secuencias de CICLOIDEA -Genes similares a lo largo de este clado podrían proporcionar pistas sobre los cambios de secuencia precisos que resultan en cambios en la morfología floral, "explicó el Dr. Howarth.

    Más generalmente, El Dr. Howarth continuó, "Las piezas de cualquier gen de interés podrían potencialmente extraerse de conjuntos de datos de desnatado del genoma que ya se han completado". Un fragmento de un gen puede no parecer mucho, pero hay una sorprendente cantidad de usos para estos fragmentos. "Estos datos podrían proporcionar suficiente información para determinar regiones nucleares útiles para análisis filogenéticos o identificar posibles eventos de duplicación de genes. Además, se podrían generar rápidamente sondas para la secuenciación del enriquecimiento de la diana en un clado para examinar genes candidatos y sus regiones reguladoras en estudios evo-devo ".

    Los enfoques de minería de datos como estos permiten un uso mucho más completo de conjuntos de datos de desnatado del genoma. Esto permite responder preguntas importantes con datos existentes, y abre la puerta a los científicos sin acceso a los recursos para producir conjuntos de datos a gran escala, por ejemplo, científicos de universidades más pequeñas o países sin grandes organismos de concesión de subvenciones. A medida que los datos de la secuencia de ADN continúan llegando, estudios como este apuntan a formas de asegurarnos de que no dejemos pasar información valiosa.


    © Ciencia https://es.scienceaq.com