De izquierda a derecha, Ray Ptucha, profesor asistente de ingeniería informática, Robbie Jimerson, estudiante de doctorado en informática, ambos de RIT, y Emily Prud'hommeaux, profesor asistente de informática, están liderando el proyecto NSF para utilizar tecnología de inteligencia artificial para preservar el idioma Séneca. Crédito:A. Sue Weisler / RIT
Un nuevo proyecto de investigación en el Instituto de Tecnología de Rochester ayudará a garantizar la preservación del idioma en peligro de extinción de la nación indígena Séneca. Usando el aprendizaje profundo, una forma de inteligencia artificial, Los investigadores de RIT están construyendo una aplicación de reconocimiento de voz automático para documentar y transcribir el idioma tradicional del pueblo Séneca. La obra también pretende ser un recurso tecnológico para preservar otros lenguajes raros o desaparecidos.
"La motivación para esto es personal. El primer paso en la preservación y revitalización de nuestro idioma es documentarlo, "dijo Robert Jimerson (Séneca), estudiante de doctorado en informática y ciencias de la información en RIT y miembro del equipo de investigación. Reunió a ancianos tribales y amigos cercanos, todos los hablantes de Séneca, para ayudar a producir documentación de audio y texto de este idioma nativo americano hablado con fluidez por menos de 50 personas.
Como todos los idiomas, Séneca tiene diferentes dialectos. También presenta desafíos únicos debido a su complejo sistema para construir nuevas palabras, en el que una oración completa se puede expresar en una sola palabra.
Jimerson es capaz de tender un puente entre la tecnología y el idioma.
"Bajo el capó, son datos. Con muchos idiomas nativos, no tienes ese volumen de datos, " él dijo, explicando que algunos idiomas, mientras habla, puede no tener tantas herramientas lingüísticas formales:diccionarios, materiales gramaticales o clases extensivas para hablantes no nativos, similares a los del español o el chino. "Uno de los procesos más costosos y que requieren más tiempo para documentar el lenguaje es recopilarlo y transcribirlo. Estamos considerando tomar redes profundas y tal vez cambiar la arquitectura, hacer algunos datos sintéticos para crear más datos, pero, ¿cómo se logra que esto funcione en el aprendizaje profundo? ¿Cómo aumenta los datos que ya tiene? "
Ese proceso de obtención de datos está siendo coordinado por un equipo amplio que incluye a Jimerson; la investigadora principal del proyecto Emily Prud'hommeaux, profesor asistente de ciencias de la computación en Boston College y facultad de investigación en el College of Liberal Arts de RIT; Ray Ptucha, profesor asistente de ingeniería informática en la Facultad de Ingeniería Kate Gleason de RIT y experto en sistemas y tecnologías de aprendizaje profundo; y Karen Michaelson, profesor de lingüística, la Universidad Estatal de Nueva York en Buffalo. El equipo de investigación recibió $ 181, 682 en financiación durante cuatro años de la National Science Foundation para "Investigación colaborativa:reconocimiento de voz de aprendizaje profundo para el documento Séneca y otros idiomas de escasos recursos".
"Este es un proyecto emocionante porque reúne a personas de tantas disciplinas y orígenes, desde la ingeniería y la informática hasta la lingüística y la pedagogía del lenguaje, ", dijo Prud'hommeaux." Además de permitirnos desarrollar tecnología de vanguardia, este proyecto apoya a estudiantes de pregrado y posgrado e involucra a miembros de una comunidad indígena que pocas personas saben que se encuentra aquí en el oeste de Nueva York ".
Los investigadores iniciaron el proyecto a finales de junio, reunir a los miembros de la comunidad y a los lingüistas para la recopilación de datos:adquirir y traducir lo actual y lo nuevo, grabaciones originales de conversaciones de Séneca que luego convierten los datos en resultados textuales utilizando modelos de aprendizaje profundo.
"Lo que realmente está tratando de hacer es encontrar esa línea entre los nuevos datos que puede obtener y el cambio de la arquitectura de una red, "Explicó Jimerson.
Desde el verano el equipo tiene poco más de 50 horas de material grabado con personas que trabajan a tiempo completo en las traducciones que incluyen dividir el idioma en símbolos fonéticos individuales y usar esta información para comenzar a entrenar los modelos.
"Usamos un proceso llamado aprendizaje por transferencia que comienza con un modelo entrenado con un habla en inglés fácilmente disponible para obtener lo básico, formación inicial del sistema, luego volveremos a entrenar las redes neuronales y las ajustaremos al idioma Séneca. Estamos obteniendo muy buenos resultados "dijo Ptucha, que es un experto en tecnologías y sistemas de aprendizaje profundo. La tecnología de aprendizaje profundo consta de múltiples capas de neuronas artificiales, organizados en una jerarquía cada vez más abstracta. Estas arquitecturas han producido resultados de vanguardia en todo tipo de problemas de reconocimiento de patrones, incluidas las aplicaciones de reconocimiento de imagen y voz.
"Nadie ha probado esto antes, entrenando un modelo de reconocimiento de voz automatizado en algo con recursos tan limitados como Séneca. Robbie es el experto en transcribir Séneca y capacita a los demás sobre cómo hacerlo. Es un tipo bastante raro "dijo Ptucha,
Este proyecto actual es una continuación del trabajo de Jimerson para expandir los recursos lingüísticos disponibles para su comunidad. En 2013, mientras era estudiante de posgrado en el Golisano College of Computing and Information Sciences de RIT, desarrolló un diccionario de traducción del idioma Séneca en línea para el Programa de Revitalización del Idioma Séneca. El proyecto fue financiado por Seneca Nation y otorgado al programa Future Steward de RIT.