Mundo real, Imágenes sin restricciones como estas (a) se utilizan para entrenar redes de reconocimiento facial. Las pruebas para el estudio se realizaron con datos de escaneo láser altamente controlados que variaban según el punto de vista (b, columnas), iluminación (b, filas) y una fuerza de identidad similar a una caricatura (c). Crédito:Universidad de Texas en Dallas
La tecnología de reconocimiento facial ha avanzado rápidamente en los últimos cinco años. Mientras los investigadores de la Universidad de Texas en Dallas intentan determinar cómo las computadoras se han vuelto tan buenas como las personas en la tarea, también están arrojando luz sobre cómo el cerebro humano clasifica la información.
Los científicos de UT Dallas han analizado el rendimiento del último escalón de algoritmos de reconocimiento facial, revelando la forma sorprendente en que funcionan estos programas, que se basan en el aprendizaje automático. Su estudio, publicado en línea el 12 de noviembre en Inteligencia de la máquina de la naturaleza , muestra que estos sofisticados programas informáticos, llamados redes neuronales convolucionales profundas (DCNN, por sus siglas en inglés), descubrieron cómo identificar rostros de manera diferente a lo que esperaban los investigadores.
"Durante los últimos 30 años, la gente ha supuesto que los sistemas visuales basados en computadora eliminan toda la información específica de la imagen:ángulo, Encendiendo, expresión y así sucesivamente, "dijo la Dra. Alice O'Toole, autor principal del estudio y profesora Aage y Margareta Møller en la Escuela de Ciencias del Comportamiento y del Cerebro. "En lugar de, los algoritmos mantienen esa información al tiempo que hacen que la identidad sea más importante, que es una forma fundamentalmente nueva de pensar sobre el problema ".
En el aprendizaje automático, las computadoras analizan grandes cantidades de datos para aprender a reconocer patrones, con el objetivo de poder tomar decisiones con un mínimo de participación humana. O'Toole dijo que el progreso realizado por el aprendizaje automático para el reconocimiento facial desde 2014 ha "cambiado todo a pasos agigantados".
"Cosas que nunca antes se podían hacer, que han impedido la tecnología de visión por computadora durante 30 años, se convirtió no solo en factible, pero bastante fácil "O'Toole dijo." El problema es que nadie entendió cómo funciona ".
Los algoritmos de la generación anterior fueron efectivos para reconocer rostros que solo tenían cambios menores de la imagen que ya conocían. Tecnología actual, sin embargo, conoce una identidad lo suficientemente bien como para superar los cambios de expresión, punto de vista o apariencia, como quitarse los vasos.
"Estos nuevos algoritmos funcionan más como tú y como yo, "Dijo O'Toole." Eso es en parte porque han acumulado una gran cantidad de experiencia con variaciones en cómo puede aparecer una identidad. Pero ese no es el panorama completo ".
El equipo de O'Toole se propuso aprender cómo funcionan los algoritmos de aprendizaje, tanto para corroborar la confianza depositada en sus resultados como, como explicó el autor principal Matthew Hill, para arrojar luz sobre cómo la corteza visual del cerebro humano realiza la misma tarea.
"La estructura de este tipo de red neuronal se inspiró originalmente en cómo el cerebro procesa la información visual, "dijo Hill, estudiante de doctorado en cognición y neurociencia. "Debido a que sobresale en la resolución de los mismos problemas que el cerebro, puede dar una idea de cómo el cerebro resuelve el problema ".
Los orígenes del tipo de algoritmo de red neuronal que estudió el equipo se remontan a 1980, pero el poder de las redes neuronales creció exponencialmente más de 30 años después.
"A principios de esta década, Sucedieron dos cosas:Internet le dio a este programa millones de imágenes e identidades con las que trabajar (cantidades increíbles de datos fácilmente disponibles) y la potencia informática aumentó. así que eso, en lugar de tener dos o tres capas de 'neuronas' en la red neuronal, puedes tener más de 100 capas, como lo hace este sistema ahora, "Dijo O'Toole.
A pesar del propósito previsto del algoritmo, la escala de sus cálculos, que se cuentan al menos en decenas de millones, significa que los científicos son incapaces de comprender todo lo que hace.
"Aunque el algoritmo fue diseñado para modelar el comportamiento de las neuronas en el cerebro, no podemos realizar un seguimiento de todo lo que se hace entre la entrada y la salida, "dijo Connor Parde, autor del artículo y estudiante de doctorado en cognición y neurociencia. "Así que tenemos que centrar nuestra investigación en el resultado".
Para demostrar las capacidades del algoritmo, el equipo usó caricaturas, versiones extremas de una identidad, que Y. Ivette Colón BS'17, un asistente de investigación y otro autor del estudio, descrito como "la versión más 'tú' de ti".
"Las caricaturas exageran tu identidad única en relación con la de los demás, "O'Toole dijo." En cierto modo, eso es exactamente lo que el algoritmo quiere hacer:resaltar lo que te hace diferente de los demás ".
Para sorpresa de los investigadores, la DCNN realmente se destacó en conectar caricaturas con sus identidades correspondientes.
"Dadas estas imágenes distorsionadas con características desproporcionadas, la red entiende que estas son las mismas características que hacen que una identidad sea distintiva y conecta correctamente la caricatura con la identidad, ", Dijo O'Toole." Ve esa identidad distintiva de una manera que ninguno de nosotros anticipó ".
Entonces, a medida que los sistemas informáticos comienzan a igualarse y, en ocasiones, superar:el rendimiento de reconocimiento facial de los seres humanos, ¿Podría la base del algoritmo para clasificar la información parecerse a lo que hace el cerebro humano?
Descubrir, se necesita una mejor comprensión de la corteza visual humana. La información más detallada disponible es a través de imágenes obtenidas mediante resonancia magnética funcional, que se puede utilizar para visualizar la actividad del cerebro mientras un sujeto realiza una tarea mental. Hill describió la resonancia magnética funcional como "demasiado ruidosa" para ver los pequeños detalles.
"La resolución de una resonancia magnética funcional no se acerca a lo que necesita para ver lo que está sucediendo con la actividad de las neuronas individuales, ", Dijo Hill." Con estas redes, tienes todos los cálculos. Eso nos permite preguntarnos:¿podrían las identidades estar organizadas de esta manera en nuestras mentes? ”.
El laboratorio de O'Toole abordará esa pregunta a continuación, gracias a una subvención reciente de más de $ 1.5 millones a lo largo de cuatro años del National Eye Institute de los National Institutes of Health.
"El NIH nos ha encomendado la pregunta biológica:¿Cuán relevantes son estos resultados para la percepción visual humana?" ella dijo. "Tenemos cuatro años de financiación para encontrar una respuesta".