El detector 'YoTube' ayuda a que la IA esté más centrada en el ser humano. Crédito:iStock
Cuando un oficial de policía comienza a levantar la mano en el tráfico, Los conductores humanos se dan cuenta de que el oficial está a punto de indicarles que se detengan. Pero a las computadoras les resulta más difícil calcular las próximas acciones probables de las personas en función de su comportamiento actual. Ahora, un equipo de investigadores y colegas de A * STAR ha desarrollado un detector que puede detectar con éxito dónde ocurrirán las acciones humanas en los videos, casi en tiempo real.
La tecnología de análisis de imágenes deberá mejorar la comprensión de las intenciones humanas si se va a emplear en una amplia gama de aplicaciones. dice Hongyuan Zhu, un científico informático en el Instituto de Investigación de Infocomm de A * STAR, quien dirigió el estudio. Los vehículos autónomos deben poder detectar a los agentes de policía e interpretar sus acciones de forma rápida y precisa. para una conducción segura, el explica. Los sistemas autónomos también podrían capacitarse para identificar actividades sospechosas como peleas, hurto, o dejar caer artículos peligrosos, y alertar a los oficiales de seguridad.
Las computadoras ya son extremadamente buenas para detectar objetos en imágenes estáticas, gracias a las técnicas de aprendizaje profundo, que utilizan redes neuronales artificiales para procesar información de imágenes complejas. Pero los videos con objetos en movimiento son más desafiantes. "Comprender las acciones humanas en los videos es un paso necesario para construir máquinas más inteligentes y amigables, "dice Zhu.
Los métodos anteriores para localizar posibles acciones humanas en videos no utilizaban marcos de aprendizaje profundo y eran lentos y propensos a errores. dice Zhu. Para superar esto, El detector YoTube del equipo combina dos tipos de redes neuronales en paralelo:una red neuronal estática, que ya ha demostrado su precisión en el procesamiento de imágenes fijas, y una red neuronal recurrente, normalmente utilizado para procesar datos cambiantes, para el reconocimiento de voz. "Nuestro método es el primero en unir la detección y el seguimiento en una única canalización de aprendizaje profundo, "dice Zhu.
El equipo probó YoTube en más de 3, 000 videos utilizados habitualmente en experimentos de visión por computadora. Informan que superó a los detectores de última generación en la detección correcta de posibles acciones humanas en aproximadamente un 20 por ciento para los videos que muestran actividades cotidianas en general y alrededor del 6 por ciento para los videos deportivos. El detector ocasionalmente comete errores si las personas en el video son pequeñas, o si hay mucha gente en segundo plano. Sin embargo, Zhu dice, "Hemos demostrado que podemos detectar la mayoría de las regiones potenciales de acción humana casi en tiempo real".