Representación esquemática del método HiCRep. HiCRep utiliza dos pasos para evaluar con precisión la reproducibilidad de los datos de los experimentos de Hi-C. Paso 1:Los datos de los experimentos Hi-C (representados en gráficos triangulares) se suavizan primero para permitir a los investigadores ver las tendencias en los datos con mayor claridad. Paso 2:los datos se estratifican en función de la distancia para tener en cuenta la sobreabundancia de interacciones cercanas en los datos de Hi-C. Crédito:Laboratorio Li, Universidad Penn State
Un nuevo método estadístico para evaluar la reproducibilidad de los datos de Hi-C, una herramienta de vanguardia para estudiar cómo funciona el genoma en tres dimensiones dentro de una célula, ayudará a garantizar que los datos de estos estudios de "macrodatos" sean fiables.
"Hi-C captura las interacciones físicas entre diferentes regiones del genoma, "dijo Qunhua Li, profesor asistente de estadística en Penn State y autor principal del artículo. "Estas interacciones juegan un papel en la determinación de qué hace que una célula muscular sea una célula muscular en lugar de una célula nerviosa o cancerosa. Sin embargo, Las medidas estándar para evaluar la reproducibilidad de los datos a menudo no pueden decir si dos muestras provienen del mismo tipo de célula o de tipos de células completamente no relacionados. Esto hace que sea difícil juzgar si los datos son reproducibles. Hemos desarrollado un método novedoso para evaluar con precisión la reproducibilidad de los datos Hi-C, lo que permitirá a los investigadores interpretar con más confianza la biología a partir de los datos ".
El nuevo método llamado HiCRep, desarrollado por un equipo de investigadores de Penn State y la Universidad de Washington, es el primero en dar cuenta de una característica única de los datos Hi-C:es mucho más probable que las interacciones entre regiones del genoma que están muy juntas sucedan por casualidad y, por lo tanto, creen o falso, similitud entre muestras no relacionadas. Aparece en la revista un artículo que describe el nuevo método Investigación del genoma .
"Con la enorme cantidad de datos que se están produciendo en estudios de genoma completo, es vital garantizar la calidad de los datos, ", dijo Li." Con tecnologías de alto rendimiento como Hi-C, estamos en condiciones de obtener nuevos conocimientos sobre cómo funciona el genoma dentro de una célula, pero solo si los datos son fiables y reproducibles ".
Dentro del núcleo de una célula hay una gran cantidad de material genético en forma de cromosomas, moléculas extremadamente largas hechas de ADN y proteínas. Los cromosomas que contienen genes y las secuencias de ADN reguladoras que controlan cuándo y dónde se usan los genes, están organizados y empaquetados en una estructura llamada cromatina. El destino de la celda ya sea que se convierta en una célula muscular o nerviosa, por ejemplo, depende al menos en parte, en qué partes de la estructura de la cromatina es accesible para que se expresen los genes, qué partes están cerradas, y cómo interactúan estas regiones. HiC identifica estas interacciones bloqueando las regiones del genoma que interactúan juntas, aislándolos, y luego secuenciarlos para averiguar de dónde provienen en el genoma.
El método HiCRep es capaz de reconstruir con precisión la relación biológica entre diferentes tipos de células, donde otros métodos fallan. Crédito:Laboratorio Li, Universidad Penn State
"Es como un tazón gigante de espaguetis en el que cada lugar que tocan los fideos podría ser una interacción biológicamente importante, ", dijo Li." Hi-C encuentra todas estas interacciones, pero la gran mayoría de ellos ocurren entre regiones del genoma que están muy próximas entre sí en los cromosomas y no tienen funciones biológicas específicas. Una consecuencia de esto es que la fuerza de las señales depende en gran medida de la distancia entre las regiones de interacción. Esto hace que sea extremadamente difícil para las medidas de reproducibilidad de uso común, como los coeficientes de correlación, para diferenciar los datos de Hi-C porque este patrón puede parecer muy similar incluso entre tipos de células muy diferentes. Nuestro nuevo método tiene en cuenta esta característica de Hi-C y nos permite distinguir de forma fiable diferentes tipos de células ".
"Esto nos vuelve a enseñar una lección estadística básica que a menudo se pasa por alto en el campo, "dijo Li." Muy a menudo, la correlación se trata como un proxy de la reproducibilidad en muchas disciplinas científicas, pero en realidad no son lo mismo. La correlación se refiere a qué tan fuertemente están relacionados dos objetos. Dos objetos irrelevantes pueden tener una alta correlación al estar relacionados con un factor común. Este es el caso aquí. La distancia es el factor común oculto en los datos de Hi-C que impulsa la correlación, haciendo que la correlación no refleje la información de interés. Irónicamente, mientras este fenómeno, conocido como el efecto de confusión en términos estadísticos, se discute en todos los cursos de estadística elemental, todavía es bastante sorprendente ver con qué frecuencia se pasa por alto en la práctica, incluso entre científicos bien entrenados ".
Los investigadores diseñaron HiCRep para tener en cuenta sistemáticamente esta característica dependiente de la distancia de los datos de Hi-C. Para lograr esto, los investigadores primero suavizan los datos para permitirles ver las tendencias en los datos con mayor claridad. Luego desarrollaron una nueva medida de similitud que puede distinguir más fácilmente los datos de diferentes tipos de células al estratificar las interacciones en función de la distancia entre las dos regiones. "Es como estudiar el efecto del tratamiento farmacológico en una población con edades muy diferentes. La estratificación por edades nos ayuda a centrarnos en el efecto farmacológico. En nuestro caso, estratificar por distancia nos ayuda a centrarnos en la verdadera relación entre muestras ".
Para probar su método, El equipo de investigación evaluó los datos de Hi-C de varios tipos de células diferentes utilizando HiCRep y dos métodos tradicionales. Donde los métodos tradicionales se tropezaron con correlaciones falsas basadas en el exceso de interacciones cercanas, HiCRep pudo diferenciar de manera confiable los tipos de células. Adicionalmente, HiCRep pudo cuantificar la cantidad de diferencia entre los tipos de células y reconstruir con precisión qué células estaban más estrechamente relacionadas entre sí.