• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Cómo hacer que la IA sea menos sesgada

    Crédito:CC0 Public Domain

    Con los sistemas de aprendizaje automático que ahora se utilizan para determinar todo, desde los precios de las acciones hasta los diagnósticos médicos, Nunca ha sido más importante ver cómo toman sus decisiones.

    Un nuevo enfoque del MIT demuestra que el principal culpable no son solo los algoritmos en sí, sino cómo se recopilan los datos en sí.

    "Los informáticos suelen decir rápidamente que la forma de hacer que estos sistemas estén menos sesgados es simplemente diseñar mejores algoritmos, "dice la autora principal Irene Chen, un doctorado estudiante que escribió el artículo con el profesor del MIT David Sontag y el asociado postdoctoral Fredrik D. Johansson. "Pero los algoritmos son tan buenos como los datos que utilizan, y nuestra investigación muestra que a menudo se puede hacer una gran diferencia con mejores datos ".

    Mirando ejemplos específicos, los investigadores pudieron identificar las causas potenciales de las diferencias en la precisión y cuantificar el impacto individual de cada factor en los datos. Luego mostraron cómo cambiar la forma en que recopilaron datos podría reducir cada tipo de sesgo y, al mismo tiempo, mantener el mismo nivel de precisión predictiva.

    "Vemos esto como una caja de herramientas para ayudar a los ingenieros de aprendizaje automático a descubrir qué preguntas hacer a sus datos para diagnosticar por qué sus sistemas pueden estar haciendo predicciones injustas". "dice Sontag.

    Chen dice que uno de los conceptos erróneos más grandes es que más datos siempre es mejor. Conseguir más participantes no necesariamente ayuda, ya que extraer de la misma población exacta a menudo conduce a que los mismos subgrupos estén subrepresentados. Incluso la popular base de datos de imágenes ImageNet, con sus muchos millones de imágenes, se ha demostrado que está sesgado hacia el hemisferio norte.

    Según Sontag, a menudo, la clave es salir y obtener más datos de esos grupos subrepresentados. Por ejemplo, el equipo examinó un sistema de predicción de ingresos y descubrió que era dos veces más probable clasificar erróneamente a las empleadas como de bajos ingresos y a los empleados masculinos como de altos ingresos. Descubrieron que si habían aumentado el conjunto de datos en un factor de 10, esos errores ocurrirían con un 40 por ciento menos de frecuencia.

    En otro conjunto de datos, los investigadores encontraron que la capacidad de un sistema para predecir la mortalidad en la unidad de cuidados intensivos (UCI) era menos precisa para los pacientes asiáticos. Los enfoques existentes para reducir la discriminación básicamente harían que las predicciones no asiáticas fueran menos precisas, lo cual es problemático cuando se habla de entornos como la atención médica que literalmente pueden ser de vida o muerte.

    Chen dice que su enfoque les permite mirar un conjunto de datos y determinar cuántos participantes más de diferentes poblaciones se necesitan para mejorar la precisión del grupo con menor precisión y, al mismo tiempo, preservar la precisión del grupo con mayor precisión.

    "Podemos trazar curvas de trayectoria para ver qué pasaría si sumamos 2, 000 personas más frente a 20, 000, y a partir de ahí, averiguar qué tamaño debe tener el conjunto de datos si queremos tener lo mejor de todos los mundos, ", dice Chen." Con un enfoque más matizado como este, los hospitales y otras instituciones estarían mejor equipados para realizar análisis de costo-beneficio para ver si sería útil obtener más datos ".

    También puede intentar obtener tipos adicionales de datos de sus participantes existentes. Sin embargo, eso tampoco mejorará las cosas si los datos adicionales no son realmente relevantes, como estadísticas sobre la altura de las personas para un estudio sobre el coeficiente intelectual. La pregunta entonces es cómo identificar cuándo y para quién debe recopilar más información.

    Un método consiste en identificar grupos de pacientes con grandes disparidades en la precisión. Para los pacientes de la UCI, un método de agrupamiento en texto llamado modelado de temas mostró que los pacientes cardíacos y con cáncer tenían grandes diferencias raciales en la precisión. Este hallazgo podría sugerir que más pruebas de diagnóstico para pacientes cardíacos o con cáncer podrían reducir las diferencias raciales en la precisión.

    El equipo presentará el documento en diciembre en la conferencia anual sobre sistemas de procesamiento de información neuronal (NIPS) en Montreal.


    © Ciencia https://es.scienceaq.com