• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Los modelos personalizados de aprendizaje automático capturan variaciones sutiles en las expresiones faciales para medir mejor las emociones

    Los investigadores del MIT Media Lab han desarrollado un modelo de aprendizaje automático que acerca a las computadoras a interpretar nuestras emociones con tanta naturalidad como lo hacen los humanos. El modelo captura mejor las variaciones sutiles de las expresiones faciales para evaluar mejor los estados de ánimo. Al usar datos de entrenamiento adicionales, el modelo también se puede adaptar a un grupo de personas completamente nuevo, con la misma eficacia. Crédito:Instituto de Tecnología de Massachusetts

    Los investigadores del MIT Media Lab han desarrollado un modelo de aprendizaje automático que acerca a las computadoras a interpretar nuestras emociones con tanta naturalidad como lo hacen los humanos.

    En el creciente campo de la "computación afectiva, "Se están desarrollando robots y computadoras para analizar las expresiones faciales, interpretar nuestras emociones, y responda en consecuencia. Las aplicaciones incluyen, por ejemplo, monitorear la salud y el bienestar de una persona, medir el interés de los estudiantes en las aulas, ayudar a diagnosticar signos de ciertas enfermedades, y el desarrollo de útiles compañeros robóticos.

    Un reto, sin embargo, ¿Las personas expresan sus emociones de manera muy diferente? dependiendo de muchos factores. Se pueden ver diferencias generales entre culturas, géneros y grupos de edad. Pero otras diferencias son aún más precisas:la hora del día, cuanto dormiste, o incluso su nivel de familiaridad con un interlocutor conduce a variaciones sutiles en la forma en que se expresa, decir, felicidad o tristeza en un momento dado.

    Los cerebros humanos captan instintivamente estas desviaciones, pero las máquinas luchan. Las técnicas de aprendizaje profundo se desarrollaron en los últimos años para ayudar a captar las sutilezas, pero aún no son tan precisos o adaptables en diferentes poblaciones como podrían ser.

    Los investigadores de Media Lab han desarrollado un modelo de aprendizaje automático que supera a los sistemas tradicionales en la captura de estas pequeñas variaciones de expresión facial. para medir mejor el estado de ánimo mientras entrena con miles de imágenes de rostros. Es más, mediante el uso de algunos datos de entrenamiento adicionales, el modelo se puede adaptar a un grupo de personas completamente nuevo, con la misma eficacia. El objetivo es mejorar las tecnologías de computación afectiva existentes.

    "Esta es una forma discreta de controlar nuestro estado de ánimo, "dice Oggi Rudovic, un investigador de Media Lab y coautor de un artículo que describe el modelo, que se presentó la semana pasada en la Conferencia sobre Machine Learning y Data Mining. "Si quieres robots con inteligencia social, hay que hacer que respondan de forma inteligente y natural a nuestros estados de ánimo y emociones, más como humanos ".

    Los coautores del artículo son:primer autor Michael Feffer, estudiante de pregrado en ingeniería eléctrica e informática; y Rosalind Picard, profesor de artes y ciencias de los medios de comunicación y director fundador del grupo de investigación de Computación Afectiva.

    Expertos personalizados

    Los modelos tradicionales de computación afectiva utilizan un concepto de "talla única". Entrenan en un conjunto de imágenes que representan varias expresiones faciales, optimizar funciones, como la forma en que se riza un labio al sonreír, y mapear esas optimizaciones de funciones generales en un conjunto completo de nuevas imágenes.

    Los investigadores, en lugar de, combinó una técnica, denominada "mezcla de expertos" (MoE), con técnicas de personalización de modelos, lo que ayudó a extraer datos de expresión facial más detallados de las personas. Esta es la primera vez que estas dos técnicas se combinan para la computación afectiva, Dice Rudovic.

    En MoEs, una serie de modelos de redes neuronales, llamados "expertos, "cada uno está capacitado para especializarse en una tarea de procesamiento separada y producir un resultado. Los investigadores también incorporaron una" red de puertas, "que calcula las probabilidades de qué experto detectará mejor los estados de ánimo de sujetos invisibles". Básicamente, la red puede discernir entre individuos y decir:'Este es el experto adecuado para la imagen dada, '", Dice Feffer.

    Por su modelo, los investigadores personalizaron los ME al hacer coincidir a cada experto con una de las 18 grabaciones de video individuales en la base de datos de RECOLA, una base de datos pública de personas que conversan en una plataforma de video chat diseñada para aplicaciones de computación afectiva. Entrenaron el modelo usando nueve sujetos y los evaluaron en los otros nueve, con todos los videos divididos en cuadros individuales.

    Cada experto, y la red de puertas, seguimiento de las expresiones faciales de cada individuo, con la ayuda de una red residual ("ResNet"), una red neuronal utilizada para la clasificación de objetos. Al hacerlo, el modelo puntuó cada cuadro según el nivel de valencia (agradable o desagradable) y la excitación (excitación), métricas de uso común para codificar diferentes estados emocionales. Por separado, seis expertos humanos etiquetaron cada cuadro de valencia y excitación, basado en una escala de -1 (niveles bajos) a 1 (niveles altos), que el modelo también usó para entrenar.

    Luego, los investigadores realizaron una mayor personalización del modelo, donde alimentaron los datos del modelo entrenado de algunos fotogramas de los videos restantes de los sujetos, y luego probé el modelo en todos los fotogramas invisibles de esos videos. Los resultados mostraron que, con solo del 5 al 10 por ciento de los datos de la nueva población, el modelo superó a los modelos tradicionales por un amplio margen, lo que significa que obtuvo valencia y excitación en imágenes invisibles mucho más cercanas a las interpretaciones de los expertos humanos.

    Esto muestra el potencial de los modelos para adaptarse de una población a otra, o de individuo a individuo, con muy pocos datos, Dice Rudovic. "Esa es la clave, ", dice." Cuando tienes una nueva población, debe tener una forma de tener en cuenta el cambio de distribución de datos [variaciones faciales sutiles]. Imagine un conjunto de modelos para analizar las expresiones faciales en una cultura que necesita adaptarse a una cultura diferente. Sin tener en cuenta este cambio de datos, esos modelos tendrán un rendimiento inferior. Pero si solo toma una muestra de una nueva cultura para adaptar nuestro modelo, estos modelos pueden hacerlo mucho mejor, especialmente a nivel individual. Aquí es donde se ve mejor la importancia de la personalización del modelo ".

    Los datos actualmente disponibles para tal investigación de computación afectiva no son muy diversos en cuanto a colores de piel, por lo que los datos de formación de los investigadores eran limitados. Pero cuando tales datos estén disponibles, el modelo se puede entrenar para su uso en poblaciones más diversas. El siguiente paso, Feffer dice:es entrenar el modelo en "un conjunto de datos mucho más grande con culturas más diversas".

    Mejores interacciones máquina-humano

    Otro objetivo es entrenar el modelo para ayudar a las computadoras y los robots a aprender automáticamente a partir de pequeñas cantidades de datos cambiantes para detectar de manera más natural cómo nos sentimos y atender mejor las necesidades humanas. dicen los investigadores.

    Podria, por ejemplo, se ejecutan en el fondo de una computadora o dispositivo móvil para rastrear las conversaciones basadas en video de un usuario y aprender cambios sutiles en las expresiones faciales en diferentes contextos. "Puede hacer que cosas como aplicaciones para teléfonos inteligentes o sitios web puedan decir cómo se sienten las personas y recomendar formas de lidiar con el estrés o el dolor, y otras cosas que están afectando negativamente sus vidas, "Dice Feffer.

    Esto también podría ser útil para monitorear, decir, depresión o demencia, ya que las expresiones faciales de las personas tienden a cambiar sutilmente debido a esas condiciones. "Poder monitorear pasivamente nuestras expresiones faciales, "Rudovic dice, "Con el tiempo, podríamos ser capaces de personalizar estos modelos para los usuarios y monitorear cuántas desviaciones tienen a diario, desviándose del nivel promedio de expresividad facial, y usarlo para indicadores de bienestar y salud".

    Una aplicación prometedora, Rudovic dice, son interacciones humano-robóticas, como para robótica personal o robots utilizados con fines educativos, donde los robots necesitan adaptarse para evaluar los estados emocionales de muchas personas diferentes. Una versión, por ejemplo, se ha utilizado para ayudar a los robots a interpretar mejor los estados de ánimo de los niños con autismo.

    Roddy Cowie, profesor emérito de psicología en la Queen's University de Belfast y erudito en computación afectiva, dice que el trabajo del MIT "ilustra dónde estamos realmente" en el campo. "Estamos avanzando hacia sistemas que pueden ubicar aproximadamente, a partir de imágenes de rostros de personas, donde se encuentran en escalas de muy positivas a muy negativas, y muy activo a muy pasivo, ", dice." Parece intuitivo que las señales emocionales que da una persona no son las mismas que las que da otra, por lo que tiene mucho sentido que el reconocimiento de emociones funcione mejor cuando se personaliza. El método de personalización refleja otro punto intrigante, que es más eficaz formar a varios 'expertos, 'y suman sus juicios, que entrenar a un solo superexperto. Los dos juntos forman un paquete satisfactorio ".

    Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.




    © Ciencia https://es.scienceaq.com