El estudio evalúa los efectos de la raza, la edad, sexo en software de reconocimiento facial

Un nuevo estudio del NIST examina la precisión con la que las herramientas de software de reconocimiento facial identifican a personas de distintos sexos, edad y antecedentes raciales. Crédito:N. Hanacek / NIST

¿Con qué precisión las herramientas de software de reconocimiento facial identifican a personas de distintos sexos? edad y antecedentes raciales? Según un nuevo estudio del Instituto Nacional de Estándares y Tecnología (NIST), la respuesta depende del algoritmo en el corazón del sistema, la aplicación que la usa y los datos que se alimentan, pero la mayoría de los algoritmos de reconocimiento facial exhiben diferenciales demográficos. Un diferencial significa que la capacidad de un algoritmo para hacer coincidir dos imágenes de la misma persona varía de un grupo demográfico a otro.

Resultados capturados en el informe, Prueba de proveedor de reconocimiento facial (FRVT) Parte 3:Efectos demográficos (NISTIR 8280), tienen como objetivo informar a los responsables de la formulación de políticas y ayudar a los desarrolladores de software a comprender mejor el rendimiento de sus algoritmos. La tecnología de reconocimiento facial ha inspirado el debate público en parte debido a la necesidad de comprender el efecto de la demografía en los algoritmos de reconocimiento facial.

"Si bien generalmente es incorrecto hacer declaraciones a través de algoritmos, encontramos evidencia empírica de la existencia de diferenciales demográficos en la mayoría de los algoritmos de reconocimiento facial que estudiamos, "dijo Patrick Grother, un científico informático del NIST y autor principal del informe. "Si bien no exploramos qué podría causar estas diferencias, estos datos serán valiosos para los responsables de la formulación de políticas, desarrolladores y usuarios finales en pensar en las limitaciones y el uso apropiado de estos algoritmos ".

El estudio se realizó a través del programa de prueba de proveedores de reconocimiento facial (FRVT) del NIST, que evalúa los algoritmos de reconocimiento facial presentados por la industria y los desarrolladores académicos sobre su capacidad para realizar diferentes tareas. Si bien el NIST no prueba los productos comerciales finalizados que utilizan estos algoritmos, el programa ha revelado avances rápidos en el campo floreciente.

El estudio del NIST evaluó 189 algoritmos de software de 99 desarrolladores, la mayoría de la industria. Se centra en qué tan bien realiza cada algoritmo individual una de las dos tareas diferentes que se encuentran entre las aplicaciones más comunes del reconocimiento facial. La primera tarea, confirmar que una foto coincide con una foto diferente de la misma persona en una base de datos, se conoce como coincidencia "uno a uno" y se utiliza comúnmente para el trabajo de verificación, como desbloquear un teléfono inteligente o consultar un pasaporte. El segundo, determinar si la persona en la foto tiene alguna coincidencia en una base de datos, se conoce como coincidencia "uno a varios" y se puede utilizar para identificar a una persona de interés.

Para evaluar el desempeño de cada algoritmo en su tarea, el equipo midió las dos clases de errores que puede cometer el software:falsos positivos y falsos negativos. Un falso positivo significa que el software consideró erróneamente fotos de dos personas diferentes para mostrar a la misma persona, mientras que un falso negativo significa que el software no pudo hacer coincidir dos fotos que, De hecho, muestre a la misma persona.

Hacer estas distinciones es importante porque la clase de error y el tipo de búsqueda pueden tener consecuencias muy diferentes según la aplicación del mundo real.

"En una búsqueda uno a uno, un falso negativo puede ser simplemente un inconveniente:no puede acceder a su teléfono, pero, por lo general, el problema se puede solucionar con un segundo intento, ", Dijo Grother." Pero un falso positivo en una búsqueda de uno a muchos coloca una coincidencia incorrecta en una lista de candidatos que ameritan un mayor escrutinio ".

Lo que distingue a la publicación de la mayoría de las demás investigaciones sobre reconocimiento facial es su preocupación por el rendimiento de cada algoritmo al considerar factores demográficos. Para emparejar uno a uno, solo unos pocos estudios previos exploran los efectos demográficos; para una coincidencia de uno a varios, ninguno lo ha hecho.

Para evaluar los algoritmos, el equipo del NIST utilizó cuatro colecciones de fotografías que contenían 18,27 millones de imágenes de 8,49 millones de personas. Todos provienen de bases de datos operativas proporcionadas por el Departamento de Estado, el Departamento de Seguridad Nacional y el FBI. El equipo no utilizó ninguna imagen "extraída" directamente de fuentes de Internet, como las redes sociales o de videovigilancia.

Las fotos en las bases de datos incluían información de metadatos que indicaban la edad del sujeto, sexo, y raza o país de nacimiento. El equipo no solo midió los falsos positivos y falsos negativos de cada algoritmo para ambos tipos de búsqueda, pero también determinó cuánto variaban estas tasas de error entre las etiquetas. En otras palabras, ¿Qué tan bien funcionó el algoritmo en imágenes de personas de diferentes grupos?

Las pruebas mostraron una amplia gama de precisión entre los desarrolladores, con los algoritmos más precisos que producen muchos menos errores. Si bien el estudio se centró en algoritmos individuales, Grother señaló cinco hallazgos más amplios:

Para emparejar uno a uno, el equipo vio tasas más altas de falsos positivos para rostros asiáticos y afroamericanos en comparación con las imágenes de caucásicos. Los diferenciales a menudo variaban de un factor de 10 a 100 veces, dependiendo del algoritmo individual. Los falsos positivos pueden presentar un problema de seguridad para el propietario del sistema, ya que pueden permitir el acceso a impostores.
Entre los algoritmos desarrollados en EE. UU., Hubo tasas similares de falsos positivos en el emparejamiento uno a uno para los asiáticos, Afroamericanos y grupos nativos (que incluyen nativos americanos, Indio americano, Indios de Alaska e isleños del Pacífico). El grupo demográfico indio americano tuvo las tasas más altas de falsos positivos.
Sin embargo, una excepción notable fue para algunos algoritmos desarrollados en países asiáticos. No hubo una diferencia tan dramática en los falsos positivos en la coincidencia uno a uno entre rostros asiáticos y caucásicos para los algoritmos desarrollados en Asia. Si bien Grother reiteró que el estudio del NIST no explora la relación entre causa y efecto, una posible conexión, y área de investigación, es la relación entre el rendimiento de un algoritmo y los datos utilizados para entrenarlo. "Estos resultados son una señal alentadora de que los datos de capacitación más diversos pueden producir resultados más equitativos, si fuera posible que los desarrolladores utilicen dichos datos, " él dijo.
Para una coincidencia de uno a varios, el equipo vio tasas más altas de falsos positivos para las mujeres afroamericanas. Las diferencias en los falsos positivos en las coincidencias de uno a muchos son particularmente importantes porque las consecuencias podrían incluir acusaciones falsas. (En este caso, la prueba no utilizó todo el conjunto de fotos, pero solo una base de datos del FBI que contiene 1,6 millones de fotografías policiales nacionales).
Sin embargo, no todos los algoritmos dan esta alta tasa de falsos positivos en los datos demográficos en una coincidencia de uno a muchos, y aquellos que son los más equitativos también se encuentran entre los más precisos. Este último punto subraya un mensaje general del informe:los diferentes algoritmos funcionan de manera diferente.

Cualquier discusión sobre los efectos demográficos está incompleta si no distingue entre las tareas y tipos de reconocimiento facial fundamentalmente diferentes, Grother dijo. Es importante recordar estas distinciones a medida que el mundo se enfrenta a las implicaciones más amplias del uso de la tecnología de reconocimiento facial.

Airbus llega a acuerdos anticorrupción con Francia, REINO UNIDO, nosotros

Los híbridos pierden ventaja, pero Edmunds elige 5 que aún vale la pena comprar

Electrónica