• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  •  science >> Ciencia >  >> Otro
    Proyectar los resultados de la vida de las personas con IA no es tan simple

    El estudio Familias frágiles recopiló información sobre los niños al nacer y al año de edad, 3, 5, 9 y 15. Esta información se recopiló a través de una variedad de encuestas, enumerados a la izquierda de estas edades en el cuadro anterior. El Desafío de Familias Frágiles utilizó datos de las oleadas uno a cinco para predecir los resultados de la oleada seis. Crédito:Matthew Salganik et al. 2020, Universidad de Princeton

    Las técnicas de aprendizaje automático que utilizan los científicos para predecir los resultados de grandes conjuntos de datos pueden quedarse cortas cuando se trata de proyectar los resultados de la vida de las personas. según un estudio masivo dirigido por investigadores de la Universidad de Princeton en colaboración con investigadores de muchas instituciones, incluyendo Virginia Tech.

    Esta colaboración masiva, llamado el Desafío de las familias frágiles, representa una cohorte de científicos que construyen modelos estadísticos y de aprendizaje automático para predecir y medir los resultados de la vida de los niños, padres, y hogares en los Estados Unidos.

    Publicado por 112 coautores en el procedimientos de la Academia Nacional de Ciencias , Los resultados sugieren que los sociólogos y los científicos de datos deben tener cuidado al utilizar modelos predictivos. especialmente en el sistema de justicia penal y los programas sociales.

    Incluso después de utilizar modelos de última generación y un conjunto de datos de alta calidad que contiene 13, 000 puntos de datos para más de 4, 000 familias, los mejores modelos predictivos de IA no eran muy precisos.

    Brian J. Goode, un científico investigador del Instituto de Ciencias de la Vida Fralin de Virginia Tech, fue uno de los científicos sociales y de datos que participaron en el Desafío de familias frágiles.

    La Figura A muestra la diferencia entre las mejores presentaciones para cada resultado en comparación con el modelo de referencia. La Figura B-G comparó las predicciones y la verdad para cada resultado. Crédito:Matthew Salganik et al. 2020, Universidad de Princeton

    "Es un esfuerzo intentar capturar las complejidades y los entresijos que componen el tejido de la vida humana en datos y modelos. Pero, Es obligatorio dar el siguiente paso y contextualizar los modelos en términos de cómo se van a aplicar para poder razonar mejor sobre las incertidumbres esperadas y las limitaciones de una predicción. Ese es un problema muy difícil de resolver, y creo que el Desafío de familias frágiles muestra que necesitamos más apoyo para la investigación en esta área, especialmente porque el aprendizaje automático tiene un mayor impacto en nuestra vida cotidiana, ", dijo Goode. El modelado de Goode se realizó a través del Discovery Analytics Center en Virginia Tech. Allí, se asoció con el director del Discovery Analytics Center y el profesor de ingeniería Thomas L. Phillips, Naren Ramakrishnan, y Debanjan Datta, un doctorado estudiante del Departamento de Informática de la Facultad de Ingeniería, que fueron fundamentales en la recopilación y análisis de datos.

    El equipo de Virginia Tech también ha publicado investigaciones en un número especial de Socius, una nueva revista de acceso abierto de la Asociación Estadounidense de Sociología. Para apoyar la investigación adicional en esta área, todas las presentaciones al desafío:código, predicciones y explicaciones narrativas — están disponibles públicamente.

    "El estudio también nos muestra que tenemos mucho que aprender, y colaboraciones masivas como esta son muy importantes para la comunidad de investigadores, "dijo el coautor principal del estudio PNAS Matt Salganik, profesor de sociología en Princeton y director interino del Center for Information Technology Policy, con sede en la Escuela de Asuntos Públicos e Internacionales Woodrow Wilson de Princeton.

    El proyecto se inspiró en Wikipedia, una de las primeras colaboraciones masivas del mundo, que fue creada en 2001 como una enciclopedia compartida. Salganik reflexionó sobre qué otros problemas científicos podrían resolverse mediante una nueva forma de colaboración, y fue entonces cuando unió fuerzas con Sara McLanahan, el Profesor William S. Tod de Sociología y Asuntos Públicos en Princeton, así como los estudiantes graduados de Princeton Ian Lundberg y Alex Kindel, ambos en el Departamento de Sociología.

    McLanahan es el investigador principal del Estudio de familias frágiles y bienestar infantil con sede en Princeton y la Universidad de Columbia. que ha estado estudiando una cohorte de aproximadamente 5, 000 niños nacidos en las grandes ciudades estadounidenses entre 1998 y 2000, con un sobremuestreo de niños nacidos de padres solteros. El estudio longitudinal fue diseñado para comprender la vida de los niños nacidos en familias no casadas.

    A través de encuestas recopiladas en seis oleadas (cuando nació el niño y luego cuando el niño cumplió 1 año, 3, 5, 9, y 15), el estudio ha capturado millones de puntos de datos sobre los niños y sus familias. Otra ola será capturada a los 22 años.

    En el momento en que los investigadores diseñaron el desafío, Los datos de la edad de 15 años (que los investigadores llaman en el documento los "datos retenidos) aún no se habían hecho públicos. Esto creó una oportunidad para pedir a otros científicos que predigan los resultados de vida de las personas en el estudio a través de una colaboración masiva.

    160 equipos de investigación de científicos sociales y de datos construyeron modelos estadísticos y de aprendizaje automático para predecir medir seis resultados de vida para los niños, padres, y hogares. Incluso después de utilizar un modelo de última generación y un conjunto de datos de alta calidad que contiene 13, 000 puntos de datos sobre más de 4, 000 familias, los mejores modelos predictivos de IA no eran muy precisos. Crédito:Egan Jimenez, Universidad de Princeton

    Los coorganizadores recibieron 457 solicitudes de 68 instituciones de todo el mundo, incluso de varios equipos basados ​​en Princeton. Usando los datos de Fragile Families, se pidió a los participantes que pronosticaran uno o más de los seis resultados de vida a la edad de 15 años. Estos incluían el promedio de calificaciones del niño (GPA); arena infantil; desalojo de hogares; dificultades materiales del hogar; despido del cuidador principal; y participación del cuidador principal en la formación laboral.

    El desafío se basó en el método de tarea común, un diseño de investigación que se utiliza con frecuencia en la informática pero no en las ciencias sociales. Este método libera algunos pero no todos los datos, Permitir que las personas utilicen cualquier técnica que deseen para determinar los resultados. El objetivo es predecir con precisión los datos retenidos, no importa cuán sofisticada sea la técnica que se necesita para llegar allí.

    Actualmente, el equipo está solicitando subvenciones para continuar la investigación en esta área.

    El papel, "Midiendo la previsibilidad de los resultados de la vida con una colaboración científica masiva, "fue publicado el 30 de marzo por PNAS .


    © Ciencia https://es.scienceaq.com