Crédito:CC0 Public Domain
Una nueva investigación de la Universidad de Waterloo ha encontrado una manera de mejorar las capacidades de comprensión de consultas de voz de las plataformas de entretenimiento en el hogar.
La investigación, en colaboración con la Universidad de Maryland y el Laboratorio de Investigación de IA Aplicada de Comcast, utiliza tecnología de inteligencia artificial (IA) para lograr las interacciones basadas en el habla más naturales con televisores hasta la fecha.
"Hoy dia, nos hemos acostumbrado a hablar con agentes inteligentes que cumplen nuestras órdenes, desde Siri en un teléfono móvil hasta Alexa en casa. ¿Por qué no deberíamos poder hacer lo mismo con los televisores? ", Preguntó Jimmy Lin, profesor de la Universidad de Waterloo y catedrático David R. Cheriton de la Facultad de Ciencias de la Computación David R. Cheriton.
"El Xfinity X1 de Comcast tiene como objetivo hacer exactamente eso:la plataforma viene con un 'control remoto por voz' que acepta consultas habladas. Su deseo es su comando:dígale a su televisor que cambie de canal, pregúntale sobre películas gratuitas para niños, e incluso sobre el pronóstico del tiempo ".
Al abordar el complejo problema de comprender las consultas de voz, los investigadores tuvieron la idea de aprovechar la última tecnología de inteligencia artificial, una técnica conocida como redes neuronales recurrentes jerárquicas, para modelar mejor el contexto y mejorar la precisión del sistema.
En enero de 2018, El nuevo modelo de red neuronal de los investigadores se implementó en producción para responder consultas de usuarios reales. A diferencia del sistema anterior, que fue confundido por aproximadamente el ocho por ciento de las consultas, el nuevo modelo maneja la mayoría de las consultas muy complicadas de manera adecuada, mejorando enormemente la experiencia del usuario.
"Si un espectador pregunta por 'Chicago Fire, 'que se refiere tanto a una serie dramática como a un equipo de fútbol, el sistema puede descifrar lo que realmente desea, ", dijo Lin." Lo especial de este enfoque es que aprovechamos el contexto, como los programas vistos anteriormente y los canales favoritos, para personalizar los resultados, aumentando así la precisión ".
Los investigadores han comenzado a trabajar en el desarrollo de un modelo aún más rico. La intuición es que al analizar las consultas desde múltiples perspectivas, el sistema puede comprender mejor lo que dice el espectador.
El papel, Aprendizaje multitarea con redes neuronales para la plataforma de entretenimiento de comprensión de consultas de voz, se presentó en la 24ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos celebrada recientemente en el Reino Unido. La investigación fue realizada por Jinfeng Rao, un doctorado graduado de la Universidad de Maryland, su consejero Lin, y mentor Ferhan Ture, investigador del Laboratorio de investigación de IA aplicada de Comcast.