¿Un juramento hipocrático para la ciencia de datos? Bien, conformarse con un poco más de conocimientos de datos

Sesgo en, sesgo:muchos algoritmos tienen problemas de diseño inherentes. Crédito:Vintage Tone / Shutterstock

"Lo juro por Hypatia, por Lovelace, por Turing, por Fisher (y / o Bayes), y por todos los estadísticos y científicos de datos, haciéndolos mis testigos, que voy a llevar a cabo, según mi capacidad y mi juicio, este juramento y este contrato ".

¿Podría ser esta la primera línea de un "juramento hipocrático" para matemáticos y científicos de datos? Hannah Fry, Profesor asociado de matemáticas de ciudades en University College London, argumenta que los matemáticos y los científicos de datos necesitan tal juramento, al igual que los médicos que juran actuar solo en el mejor interés de sus pacientes.

"En medicina, aprendes sobre ética desde el primer día. En matemáticas, es un atornillado en el mejor de los casos. Tiene que estar ahí desde el primer día y en la vanguardia de su mente en cada paso que dé, "Discutió Fry.

Pero, ¿se requiere realmente una versión tecnológica del juramento hipocrático? En medicina, estos juramentos varían entre instituciones, y han evolucionado mucho en los casi 2, 500 años de su historia. En efecto, Existe cierto debate sobre si el juramento sigue siendo relevante para los médicos en ejercicio, particularmente como es la ley, en lugar de un conjunto de principios griegos antiguos, por el cual deben acatar en última instancia.

¿Cómo ha llegado la ciencia de datos al punto en el que se considera necesario un compromiso ético? Ciertamente, existen numerosos ejemplos de algoritmos que hacen daño:algoritmos de sentencia penal, por ejemplo, Se ha demostrado que recomiendan desproporcionadamente que las personas de bajos ingresos y de minorías sean enviadas a la cárcel.

Crisis similares han llevado a propuestas de compromisos éticos antes. Tras la crisis financiera mundial de 2008, un manifiesto de los ingenieros financieros Emanuel Derman y Paul Wilmott pedía a los modeladores económicos que juraran no "dar a las personas que usan mi modelo un falso consuelo acerca de su precisión. Haré explícitas sus suposiciones y descuidos ".

Así como los prejuicios se pueden aprender de niño, los sesgos de estos algoritmos son el resultado de su entrenamiento. Una característica común de estos algoritmos es el uso de algoritmos de caja negra (a menudo patentados), muchos de los cuales están entrenados usando datos estadísticamente sesgados.

En el caso de la justicia penal, El resultado injusto del algoritmo se deriva del hecho de que históricamente, las minorías están sobrerrepresentadas en las poblaciones carcelarias (muy probablemente como resultado de prejuicios humanos de larga data). Por lo tanto, este sesgo es replicado y probablemente exacerbado por el algoritmo.

Los algoritmos de aprendizaje automático se entrenan en datos, y solo se puede esperar que produzca predicciones limitadas a esos datos. Sesgo en sesgo hacia fuera.

Promesas promesas

¿Habría ayudado a los diseñadores de estos algoritmos a asumir un compromiso ético? Quizás, pero una mayor conciencia de los sesgos estadísticos podría haber sido suficiente. Las cuestiones de la representación imparcial en el muestreo han sido durante mucho tiempo una piedra angular de las estadísticas, y la formación en estos temas puede haber llevado a los diseñadores a dar un paso atrás y cuestionar la validez de sus predicciones.

La propia Fry ha comentado sobre este tema en el pasado, diciendo que es necesario que la gente "preste atención a cómo los sesgos que tiene en los datos pueden terminar alimentando los análisis que está haciendo".

Pero si bien los problemas de representación imparcial no son nuevos en las estadísticas, el uso creciente de algoritmos de alta potencia en áreas polémicas hace que la "alfabetización de datos" sea más relevante que nunca.

Parte del problema es la facilidad con la que se pueden aplicar los algoritmos de aprendizaje automático, hacer que la alfabetización en datos ya no sea exclusiva de los científicos matemáticos e informáticos, sino al público en general. La alfabetización generalizada de estadísticas y datos básicos ayudaría a conocer los problemas con sesgos estadísticos, y son un primer paso hacia la protección contra el uso inadecuado de algoritmos.

Nadie es perfecto, y si bien la mejora de la alfabetización de datos ayudará, Los sesgos no intencionados todavía pueden pasarse por alto. Los algoritmos también pueden tener errores. Una forma fácil (de describir) de protegerse contra estos problemas es ponerlos a disposición del público. Dicho código fuente abierto puede permitir la responsabilidad conjunta de la verificación de errores y sesgos.

Empiezan a surgir esfuerzos de este tipo, por ejemplo, el Proyecto de Responsabilidad y Transparencia Web en la Universidad de Princeton. Por supuesto, muchos algoritmos patentados son comerciales confidenciales, lo que dificulta la transparencia. Por tanto, es probable que los marcos regulatorios se vuelvan importantes y necesarios en este ámbito. Pero una condición previa es que los profesionales politicos, abogados y otros para comprender los problemas relacionados con la aplicabilidad generalizada de los modelos, y sus sesgos estadísticos inherentes.

La ética es sin duda importante, y en un mundo perfecto formaría parte de cualquier educación. Pero los títulos universitarios son finitos. Argumentamos que la alfabetización en datos y estadística es una preocupación aún más apremiante, y podría ayudar a prevenir la aparición de más "algoritmos poco éticos" en el futuro.

Este artículo se vuelve a publicar de The Conversation con una licencia de Creative Commons. Lea el artículo original.