La tecnología del asistente de voz corre el peligro de intentar ser demasiado humana

Crédito:tomasso79 / Shutterstock

Más de 200 millones de hogares ahora tienen un altavoz inteligente que proporciona acceso a Internet controlado por voz, según una estimación global. Agregue esto a los asistentes virtuales parlantes instalados en muchos teléfonos inteligentes, por no hablar de los electrodomésticos de cocina y los coches, y eso es mucho de Alexas y Siris.

Porque hablar es una parte fundamental del ser humano, es tentador pensar que estos asistentes deberían estar diseñados para hablar y comportarse como nosotros. Si bien esto nos daría una forma de relacionarnos con nuestros dispositivos, replicar conversaciones humanas genuinamente realistas es increíblemente difícil. Y lo que es más, La investigación sugiere que hacer que una máquina suene humana puede ser innecesario e incluso deshonesto. En lugar de, es posible que debamos repensar cómo y por qué interactuamos con estos asistentes y aprender a aprovechar los beneficios de que sean una máquina.

Los diseñadores de tecnología del habla a menudo hablan sobre el concepto de "humanidad". Los desarrollos recientes en el desarrollo de la voz artificial han dado como resultado que las voces de estos sistemas difuminen la línea entre humanos y máquinas. sonando cada vez más humano. También se han realizado esfuerzos para hacer que el lenguaje de estas interfaces parezca más humano.

Quizás el más famoso sea Google Duplex, un servicio que permite reservar citas por teléfono. Para agregar a la naturaleza humana del sistema, Google incluyó expresiones como "hmm" y "uh" en la salida de voz de su asistente, sonidos que usamos comúnmente para indicar que estamos escuchando la conversación o que tenemos la intención de comenzar a hablar pronto. En el caso de Google Duplex, estos se utilizaron con el objetivo de sonar naturales. Pero, ¿por qué es tan importante sonar natural o más humano?

La consecución de este objetivo de hacer que los sistemas suenen y se comporten como nosotros quizás se deba a las inspiraciones de la cultura pop que utilizamos para impulsar el diseño de estos sistemas. La idea de hablar con máquinas nos ha fascinado en la literatura, televisión y cine durante décadas, a través de personajes como HAL 9000 en 2001:A Space Odyssey o Samantha in Her. Estos personajes retratan conversaciones fluidas con máquinas. En el caso de Ella, Incluso hay una historia de amor entre un sistema operativo y su usuario. Críticamente, todas estas máquinas suenan y responden de la forma en que pensamos que lo harían los humanos.

Existen interesantes desafíos tecnológicos para tratar de lograr algo parecido a las conversaciones entre nosotros y las máquinas. Para tal fin, Amazon ha lanzado recientemente el Premio Alexa, buscando "crear socialbots que puedan conversar de manera coherente y atractiva con los humanos sobre una variedad de eventos actuales y temas populares como el entretenimiento, Deportes, política, tecnología, y moda ". La ronda actual de competencia pide a los equipos que produzcan una conversación de 20 minutos entre uno de estos bots y un interactuador humano.

Estos grandes desafíos como otros en la ciencia, avanzar claramente en el estado del arte, aportando beneficios planificados y no planificados. Sin embargo, cuando se esfuerza por dar a las máquinas la capacidad de conversar verdaderamente con nosotros como otros seres humanos, necesitamos pensar para qué son en realidad nuestras interacciones habladas con la gente y si esto es lo mismo que el tipo de conversación que queremos tener con las máquinas.

Conversamos con otras personas para hacer las cosas y para construir y mantener relaciones entre nosotros y, a menudo, estos dos propósitos se entrelazan. Sin embargo, la gente ve las máquinas como herramientas con propósitos limitados y tiene poco interés en construir el tipo de relaciones con las máquinas que hacemos todos los días con otras personas.

Seguir conversaciones naturales con máquinas que suenan como nosotros puede convertirse en un objetivo innecesario y oneroso. Crea expectativas poco realistas de sistemas que realmente pueden comunicarse y comprender como nosotros. Cualquiera que haya interactuado con un Amazon Echo o Google Home sabe que esto no es posible con los sistemas existentes.

Esto es importante ya que la gente necesita tener una idea de cómo hacer que un sistema haga cosas que, debido a que las interfaces de solo voz tienen botones y elementos visuales limitados, se guían significativamente por lo que dice el sistema y cómo lo dice. La importancia del diseño de la interfaz significa que la humanidad misma puede no solo ser cuestionable sino engañosa, especialmente si se usa para engañar a las personas haciéndoles pensar que están interactuando con otra persona. Incluso si su intención puede ser crear voces inteligibles, Las empresas de tecnología deben considerar el impacto potencial en los usuarios.

Mirando más allá de la humanidad

En lugar de abrazar constantemente la humanidad, podemos aceptar que puede haber límites fundamentales, tanto tecnológico como filosófico, a los tipos de interacciones que podemos y queremos tener con las máquinas.

Deberíamos inspirarnos en las conversaciones humanas en lugar de utilizarlas como un estándar de oro percibido para la interacción. Por ejemplo, mirando estos sistemas como intérpretes en lugar de conversadores de apariencia humana, puede ser una forma de ayudar a crear interfaces más atractivas y expresivas. La incorporación de elementos específicos de conversación puede ser necesaria para algunos contextos, pero tenemos que pensar si la interacción conversacional similar a la humana es necesaria, en lugar de utilizarlo como objetivo de diseño predeterminado.

Es difícil predecir cómo será la tecnología en el futuro y cómo cambiarán y se desarrollarán las percepciones sociales en torno a nuestros dispositivos. Tal vez la gente esté de acuerdo con tener conversaciones con máquinas, hacerse amigo de los robots y buscar su consejo.

Pero actualmente somos escépticos sobre esto. En nuestra opinión, todo tiene que ver con el contexto. No todas las interacciones e interfaces son iguales. Es posible que se requiera alguna tecnología del habla para establecer y fomentar alguna forma de vínculo social o emocional, como en aplicaciones sanitarias específicas. Si ese es el objetivo, entonces tiene sentido que las máquinas conversen de manera más apropiada para ese propósito, tal vez suene humano para que el usuario obtenga el tipo correcto de expectativas.

Sin embargo, esto no es una necesidad universal. Crucialmente, esta semejanza humana debería vincularse a lo que los sistemas pueden hacer realmente con la conversación. Hacer sistemas que no tengan la capacidad de conversar como un humano suena humano puede hacer mucho más daño que bien.

Este artículo se vuelve a publicar de The Conversation bajo una licencia Creative Commons. Lea el artículo original.