La estadística de la Universidad de Rice, Genevera Allen, discutirá la investigación para mejorar la precisión y reproducibilidad de los descubrimientos científicos realizados por el aprendizaje automático en una conferencia de prensa y una sesión general en la Reunión Anual de la AAAS de 2019. Crédito:Tommy LaVergne / Rice University
La estadística de la Universidad de Rice, Genevera Allen, dice que los científicos deben seguir cuestionando la precisión y reproducibilidad de los descubrimientos científicos realizados mediante técnicas de aprendizaje automático hasta que los investigadores desarrollen nuevos sistemas computacionales que puedan criticarse a sí mismos.
Allen, profesor asociado de estadística, ciencias de la computación e ingeniería eléctrica e informática en Rice y de pediatría-neurología en Baylor College of Medicine, abordará el tema tanto en una rueda de prensa como en una sesión general hoy en la Reunión Anual de 2019 de la Asociación Estadounidense para el Avance de la Ciencia (AAAS).
"La pregunta es, '¿Podemos realmente confiar en los descubrimientos que se están haciendo actualmente utilizando técnicas de aprendizaje automático aplicadas a grandes conjuntos de datos?' ", Dijo Allen." La respuesta en muchas situaciones es probablemente:'No sin comprobar, "pero se está trabajando en sistemas de aprendizaje automático de próxima generación que evaluarán la incertidumbre y la reproducibilidad de sus predicciones".
El aprendizaje automático (ML) es una rama de la estadística y la informática que se ocupa de la construcción de sistemas computacionales que aprenden de los datos en lugar de seguir instrucciones explícitas. Allen dijo que mucha atención en el campo de ML se ha centrado en desarrollar modelos predictivos que le permitan a ML hacer predicciones sobre datos futuros basados en su comprensión de los datos que ha estudiado.
"Muchas de estas técnicas están diseñadas para hacer siempre una predicción, ", dijo." Nunca regresan con 'No sé, 'o' No descubrí nada, 'porque no están hechos para ello ".
Ella dijo que los descubrimientos basados en datos no corroborados de estudios ML publicados recientemente sobre datos sobre el cáncer son un buen ejemplo.
"En medicina de precisión, Es importante encontrar grupos de pacientes que tengan perfiles genómicamente similares para que pueda desarrollar terapias farmacológicas dirigidas al genoma específico de su enfermedad. ", Dijo Allen." La gente ha aplicado el aprendizaje automático a los datos genómicos de cohortes clínicas para encontrar grupos, o racimos, de pacientes con perfiles genómicos similares.
"Pero hay casos en los que los descubrimientos no son reproducibles; los grupos descubiertos en un estudio son completamente diferentes a los grupos encontrados en otro, "ella dijo." ¿Por qué? Porque la mayoría de las técnicas de aprendizaje automático actuales siempre dicen:Encontré un grupo. Algunas veces, Sería mucho más útil si dijeran, 'Creo que algunos de estos están realmente agrupados, pero no estoy seguro de estos otros '".
Allen discutirá la incertidumbre y la reproducibilidad de las técnicas de aprendizaje automático para descubrimientos basados en datos en una conferencia de prensa a las 10 a.m. de hoy. y discutirá estudios de caso e investigaciones destinadas a abordar la incertidumbre y la reproducibilidad a las 3:30 p.m. sesion general, "Machine Learning and Statistics:Aplicaciones en Genómica y Visión por Computador". Ambas sesiones son en el Marriott Wardman Park Hotel.