La IA es peor para reconocer imágenes que los humanos

Crédito:CC0 Dominio público

Investigadores de la Universidad HSE y la Universidad Politécnica de Moscú han descubierto que los modelos de IA no pueden representar las características de la visión humana debido a la falta de un estrecho acoplamiento con la fisiología respectiva, por lo que son peores para reconocer imágenes. Los resultados del estudio se publicaron en Proceedings of the Seventh International Congress on Information and Communication Technology .

Para comprender cómo la percepción de las imágenes por parte de las máquinas difiere de la percepción humana, los científicos cargaron imágenes de ilusiones visuales clásicas en el servicio en línea IBM Watson Visual Recognition. La mayoría eran siluetas geométricas, parcialmente ocultas por formas geométricas del color de fondo. El sistema trató de determinar la naturaleza de la imagen e indicó el grado de certeza en su respuesta.

Resultó que la inteligencia artificial no puede reconocer ninguna figura imaginaria, a excepción de un triángulo imaginario coloreado. Debido al alto contraste con el fondo, se reconoció correctamente.

"Objetos similares a los que usamos durante el experimento se pueden encontrar en la vida real", dice Vladimir Vinnikov, analista del Laboratorio de Métodos para el Análisis de Big Data de la Facultad de Ciencias de la Computación HSE y autor del estudio. "Por ejemplo, el piloto automático de un automóvil o avión percibe un remolque o una torre de radio, que por la noche solo se indican mediante luces de posición, de la misma manera que percibimos formas geométricas imaginarias".

El ojo humano se mueve constantemente de forma involuntaria, y la superficie fotosensible de su retina tiene la forma de un hemisferio. Una persona puede ver una ilusión si la imagen es un vector, es decir, si incluye puntos de referencia y curvas que los conectan. La imaginación humana completará el cuadro debido al constante movimiento de los ojos, una característica fisiológica de nuestra visión.

En los sistemas optoelectrónicos todo está dispuesto de manera diferente. Su matriz sensible a la luz tiene una forma plana, generalmente rectangular, y el sistema de lentes en sí no es tan libre de movimiento como el ojo humano. Por lo tanto, la inteligencia artificial no puede completar líneas imaginarias que conectan fragmentos de una ilusión geométrica. La visión artificial solo ve lo que realmente se representa, mientras que las personas completan la imagen en su imaginación en función de sus contornos.

Hoy en día, los sistemas de reconocimiento de imágenes de redes neuronales se están extendiendo activamente en el sector comercial. Sin embargo, la cuestión de la precisión con la que las máquinas reconocen las imágenes sigue abierta. Las vidas humanas pueden depender de la precisión del reconocimiento. Por ejemplo, puede ocurrir un accidente si el piloto automático de un automóvil o avión no reconoce un objeto con bajo contraste con respecto al fondo y no es capaz de esquivar un obstáculo a tiempo.

Los científicos creen que se puede corregir la imprecisión del reconocimiento de imágenes de la máquina. Por ejemplo, pueden complementar el reconocimiento de imágenes rasterizadas, que representan una cuadrícula de píxeles, simulando características fisiológicas del movimiento ocular que le permiten ver escenas bidimensionales y tridimensionales. Una forma alternativa es agregar una descripción vectorial de las imágenes, lo que ayudará a programar la máquina para evitar la imagen a lo largo de las trayectorias especificadas por los vectores.

"Definitivamente, los objetos imaginarios deben usarse como pruebas en sistemas que dependen del reconocimiento de secuencias de fotos y videos, por ejemplo, en pilotos automáticos de automóviles o drones. Esto ayudará a evitar los riesgos asociados con el uso de sistemas de inteligencia artificial en la industria y sistemas de transporte", dice Vinnikov. + Explora más