Ejemplo de espectrogramas de cada una de las 4 clases incluidas. Crédito:Papakostas et al.
Investigadores de la Universidad de Texas en Arlington han explorado recientemente el uso del aprendizaje automático para el reconocimiento de emociones basado únicamente en información paralingüística. La paraingüística son aspectos de la comunicación hablada que no involucran palabras, como el tono, volumen, entonación, etc.
Los avances recientes en el aprendizaje automático han llevado al desarrollo de herramientas que pueden reconocer estados emocionales mediante el análisis de imágenes, grabaciones de voz, electroencefalogramas o electrocardiogramas. Estas herramientas podrían tener varias aplicaciones interesantes, por ejemplo, permitiendo interacciones humano-computadora más eficientes en las que una computadora reconoce y responde a las emociones de un usuario humano.
"En general, se puede argumentar que el habla lleva dos tipos distintos de información:información explícita o lingüística, que se refiere a patrones articulados por el hablante; e información implícita o paralingüística, que se refiere a la variación en la pronunciación de los patrones lingüísticos, "escribieron los investigadores en su artículo, publicado en el Avances en Medicina y Biología Experimentales serie de libros. "Con uno o ambos tipos de información, se puede intentar clasificar un segmento de audio que consta de habla, basado en la (s) emoción (es) que conlleva. Sin embargo, El reconocimiento de emociones a partir del habla parece ser una tarea significativamente difícil incluso para un ser humano. no importa si es un experto en este campo (por ejemplo, un psicólogo) ".
Muchos enfoques de reconocimiento automático de voz (ASR) existentes intentan reconocer las emociones del habla analizando información tanto lingüística como paralingüística. Al centrarse en parte en las propiedades lingüísticas, estos modelos tienen varias desventajas, como una estricta dependencia del lenguaje. Por lo tanto, los investigadores decidieron centrarse en el reconocimiento de emociones basado solo en el análisis de información paralingüística, con la esperanza de lograr el reconocimiento de emociones en varios idiomas.
"En este papel, nuestro objetivo es analizar las emociones de los hablantes basándonos únicamente en información paralingüística, "escribieron los investigadores en su artículo." Comparamos dos enfoques de aprendizaje automático, a saber, una red neuronal convolucional (CNN) y una máquina de vectores de soporte (SVM) ".
Los investigadores entrenaron un modelo de CNN en espectrogramas sin procesar y un modelo SVM en un conjunto de características de bajo nivel. Ambos modelos fueron entrenados y evaluados utilizando tres conjuntos de datos de habla emocional ampliamente conocidos:EMOVO, GUARDAR, y EMO-DB. Estos conjuntos de datos contienen grabaciones de habla emocional en diferentes idiomas:italiano, Inglés y alemán respectivamente.
Los dos modelos de aprendizaje automático se entrenaron para reconocer cuatro clases de emociones comunes:felicidad, tristeza, ira y neutral. Los investigadores llevaron a cabo tres experimentos para cada enfoque de aprendizaje automático, donde se utilizó un solo conjunto de datos para las pruebas y los dos restantes para el entrenamiento.
"Una de las principales dificultades derivadas de la elección de los conjuntos de datos es la gran diferencia entre los idiomas, ya que además de las diferencias lingüísticas, también hay una gran variabilidad en la forma en que se expresa cada emoción, "escribieron los investigadores en su artículo.
En general, encontraron que el SVM funcionó mucho mejor que el CNN, lograr los mejores resultados cuando se capacita en los conjuntos de datos SAVEE y EMOVO, pero probado en EMO-DB. Estos resultados fueron prometedores pero no óptimos, sugiriendo que todavía estamos muy lejos de lograr un reconocimiento de emociones multilingüe consistentemente efectivo.
"Nuestros planes para el trabajo futuro incluyen el uso de más conjuntos de datos para capacitación y evaluación, ", escribieron los investigadores en su artículo." También nuestro objetivo es investigar otras redes de aprendizaje profundo previamente entrenadas, ya que creemos que el aprendizaje profundo puede contribuir significativamente al problema en cuestión. Finalmente, entre nuestros planes está aplicar dichos enfoques a problemas de la vida real, p.ej. reconocimiento de emociones dentro de los programas de formación y / o educación ".
© 2018 Science X Network