Para demostrar que DEFT se puede aplicar a una variedad de pequeños conjuntos de datos, Los científicos de CSHL lo utilizaron para analizar datos del detector CMS Higgs Boson. De 60 impresiones de partículas, DEFT estimó que hasta seis eran de hechos reales. (En la imagen:una perspectiva 3D de un evento del bosón de Higgs registrado en 2012. Las impresiones se caracterizan por torres verdes y líneas rojas). Crédito:McCauley, T; Taylor, L; CERN
Big Data está de moda hoy, ¡Pero los datos pequeños también importan! Sacar conclusiones fiables de pequeños conjuntos de datos, como los de ensayos clínicos para enfermedades raras o en estudios de especies en peligro de extinción, sigue siendo uno de los obstáculos más complicados de las estadísticas. Ahora, Los investigadores del Cold Spring Harbor Laboratory (CSHL) han desarrollado una nueva forma de analizar datos pequeños, uno inspirado en métodos avanzados en física teórica, pero disponible como software fácil de usar.
"Tratar con pequeños conjuntos de datos es una parte fundamental de la ciencia, "El profesor asistente de CSHL, Justin Kinney, explicó. El desafío es que, con muy pocos datos, no solo es difícil llegar a una conclusión; también es difícil determinar la certeza de sus conclusiones.
"Es importante no solo producir la mejor suposición de lo que está sucediendo, pero también para decir, 'Esta suposición es probablemente correcta, '", dijo Kinney.
Un buen ejemplo son los ensayos clínicos de fármacos.
"Cuando cada punto de datos es un paciente, siempre se ocupará de pequeños conjuntos de datos, y por muy buenas razones, ", dijo." No conviene probar un tratamiento en más personas de las necesarias antes de determinar si el medicamento es seguro y eficaz. Es realmente importante poder tomar estas decisiones con la menor cantidad de datos posible ".
Ha sido difícil cuantificar esa certeza debido a las suposiciones que hacen los métodos estadísticos comunes. Estos supuestos eran necesarios cuando se desarrollaron los métodos estándar, antes de la era de las computadoras. Pero estas aproximaciones, Kinney señala, "puede ser catastrófico" en pequeños conjuntos de datos.
Arriba:Número de eventos de partículas del bosón de Higgs esperados según las simulaciones del modelo estándar.
Abajo:DEFT se utilizó para predecir sin problemas (en negro) cuántos eventos de desintegración de 4 leptones eran indicadores de un verdadero evento del bosón de Higgs dentro de un margen de incertidumbre (verde). Crédito:Laboratorio Kinney / CSHL
Ahora, El laboratorio de Kinney ha elaborado un enfoque computacional moderno llamado Estimación de densidad utilizando la teoría de campos, o DEFT, que corrige estas deficiencias. DEFT está disponible gratuitamente a través de un paquete de código abierto llamado SUFTware.
En su artículo reciente, publicado en Cartas de revisión física , El laboratorio de Kinney demuestra DEFT en dos conjuntos de datos:estadísticas de salud nacionales compiladas por la Organización Mundial de la Salud, y rastros de partículas subatómicas utilizadas por los físicos en el Gran Colisionador de Hadrones para revelar la existencia de la partícula del bosón de Higgs.
Kinney dice que ser capaz de aplicar DEFT a situaciones tan drásticamente diversas del "mundo real", a pesar de que sus cálculos se inspiran en la física teórica, es lo que hace que el nuevo enfoque sea tan poderoso.
"La flexibilidad es algo realmente bueno ... Ahora estamos adaptando DEFT a los problemas del análisis de supervivencia, el tipo de estadísticas utilizadas en los ensayos clínicos, ", Dijo Kinney." Esas nuevas capacidades se agregarán a SUFTware a medida que continuamos desarrollando este nuevo enfoque de las estadísticas ".