Un nuevo estudio del NIST examina la precisión con la que las herramientas de software de reconocimiento facial identifican a personas de distintos sexos, edad y antecedentes raciales. Crédito:N. Hanacek / NIST
¿Con qué precisión las herramientas de software de reconocimiento facial identifican a personas de distintos sexos? edad y antecedentes raciales? Según un nuevo estudio del Instituto Nacional de Estándares y Tecnología (NIST), la respuesta depende del algoritmo en el corazón del sistema, la aplicación que la usa y los datos que se alimentan, pero la mayoría de los algoritmos de reconocimiento facial exhiben diferenciales demográficos. Un diferencial significa que la capacidad de un algoritmo para hacer coincidir dos imágenes de la misma persona varía de un grupo demográfico a otro.
Resultados capturados en el informe, Prueba de proveedor de reconocimiento facial (FRVT) Parte 3:Efectos demográficos (NISTIR 8280), tienen como objetivo informar a los responsables de la formulación de políticas y ayudar a los desarrolladores de software a comprender mejor el rendimiento de sus algoritmos. La tecnología de reconocimiento facial ha inspirado el debate público en parte debido a la necesidad de comprender el efecto de la demografía en los algoritmos de reconocimiento facial.
"Si bien generalmente es incorrecto hacer declaraciones a través de algoritmos, encontramos evidencia empírica de la existencia de diferenciales demográficos en la mayoría de los algoritmos de reconocimiento facial que estudiamos, "dijo Patrick Grother, un científico informático del NIST y autor principal del informe. "Si bien no exploramos qué podría causar estas diferencias, estos datos serán valiosos para los responsables de la formulación de políticas, desarrolladores y usuarios finales en pensar en las limitaciones y el uso apropiado de estos algoritmos ".
El estudio se realizó a través del programa de prueba de proveedores de reconocimiento facial (FRVT) del NIST, que evalúa los algoritmos de reconocimiento facial presentados por la industria y los desarrolladores académicos sobre su capacidad para realizar diferentes tareas. Si bien el NIST no prueba los productos comerciales finalizados que utilizan estos algoritmos, el programa ha revelado avances rápidos en el campo floreciente.
El estudio del NIST evaluó 189 algoritmos de software de 99 desarrolladores, la mayoría de la industria. Se centra en qué tan bien realiza cada algoritmo individual una de las dos tareas diferentes que se encuentran entre las aplicaciones más comunes del reconocimiento facial. La primera tarea, confirmar que una foto coincide con una foto diferente de la misma persona en una base de datos, se conoce como coincidencia "uno a uno" y se utiliza comúnmente para el trabajo de verificación, como desbloquear un teléfono inteligente o consultar un pasaporte. El segundo, determinar si la persona en la foto tiene alguna coincidencia en una base de datos, se conoce como coincidencia "uno a varios" y se puede utilizar para identificar a una persona de interés.
Para evaluar el desempeño de cada algoritmo en su tarea, el equipo midió las dos clases de errores que puede cometer el software:falsos positivos y falsos negativos. Un falso positivo significa que el software consideró erróneamente fotos de dos personas diferentes para mostrar a la misma persona, mientras que un falso negativo significa que el software no pudo hacer coincidir dos fotos que, De hecho, muestre a la misma persona.
Hacer estas distinciones es importante porque la clase de error y el tipo de búsqueda pueden tener consecuencias muy diferentes según la aplicación del mundo real.
"En una búsqueda uno a uno, un falso negativo puede ser simplemente un inconveniente:no puede acceder a su teléfono, pero, por lo general, el problema se puede solucionar con un segundo intento, ", Dijo Grother." Pero un falso positivo en una búsqueda de uno a muchos coloca una coincidencia incorrecta en una lista de candidatos que ameritan un mayor escrutinio ".
Lo que distingue a la publicación de la mayoría de las demás investigaciones sobre reconocimiento facial es su preocupación por el rendimiento de cada algoritmo al considerar factores demográficos. Para emparejar uno a uno, solo unos pocos estudios previos exploran los efectos demográficos; para una coincidencia de uno a varios, ninguno lo ha hecho.
Para evaluar los algoritmos, el equipo del NIST utilizó cuatro colecciones de fotografías que contenían 18,27 millones de imágenes de 8,49 millones de personas. Todos provienen de bases de datos operativas proporcionadas por el Departamento de Estado, el Departamento de Seguridad Nacional y el FBI. El equipo no utilizó ninguna imagen "extraída" directamente de fuentes de Internet, como las redes sociales o de videovigilancia.
Las fotos en las bases de datos incluían información de metadatos que indicaban la edad del sujeto, sexo, y raza o país de nacimiento. El equipo no solo midió los falsos positivos y falsos negativos de cada algoritmo para ambos tipos de búsqueda, pero también determinó cuánto variaban estas tasas de error entre las etiquetas. En otras palabras, ¿Qué tan bien funcionó el algoritmo en imágenes de personas de diferentes grupos?
Las pruebas mostraron una amplia gama de precisión entre los desarrolladores, con los algoritmos más precisos que producen muchos menos errores. Si bien el estudio se centró en algoritmos individuales, Grother señaló cinco hallazgos más amplios:
Cualquier discusión sobre los efectos demográficos está incompleta si no distingue entre las tareas y tipos de reconocimiento facial fundamentalmente diferentes, Grother dijo. Es importante recordar estas distinciones a medida que el mundo se enfrenta a las implicaciones más amplias del uso de la tecnología de reconocimiento facial.