Crédito:Gerlach et al.
Investigadores de la Universidad Northwestern, la Universidad de Bath, y la Universidad de Sydney han desarrollado un nuevo enfoque de red para modelos de temas, Estrategias de aprendizaje automático que pueden descubrir temas abstractos y estructuras semánticas dentro de documentos de texto.
"Uno de los principales desafíos informáticos y científicos de la era moderna es extraer información útil de textos no estructurados, "Los investigadores explicaron en su estudio." Los modelos de temas son un enfoque popular de aprendizaje automático que infiere la estructura tópica latente de una colección de documentos ".
Los modelos de temas se utilizan actualmente para identificar textos relacionados semánticamente y clasificar documentos dentro de una serie de campos, incluida la sociología, historia, lingüística, y psicología. El método más utilizado, asignación de Dirichlet latente (LDA), también se utiliza para bibliometría, análisis psicológico y político, así como para el procesamiento de imágenes.
A pesar de su éxito generalizado, LDA presenta varios defectos en la forma en que representa el texto, como la falta de método para elegir el número de temas, discrepancias con las propiedades estadísticas de los textos reales y una falta de justificación para el anterior bayesiano, que en la inferencia estadística bayesiana es la distribución de probabilidad expresada antes de que se presente la evidencia.
Crédito:Gerlach et al.
Una gran parte de la investigación reciente sobre modelos de temas se ha centrado en la creación de versiones más sofisticadas de LDA que funcionan mejor o pueden analizar de manera eficaz aspectos particulares de los documentos.
El enfoque desarrollado por este equipo de investigadores parte de la teoría de redes, una teoría utilizada en física y otros campos científicos que proporciona técnicas para analizar gráficos, así como estructuras en sistemas con diferentes agentes interactuantes. Su nuevo marco para el modelado de temas se basa en el enfoque utilizado para encontrar comunidades en redes complejas, cuales, en el contexto de la teoría de redes, es un gráfico con características que ocurren en el modelado de sistemas de la vida real.
"Estaba trabajando en lenguaje natural y modelado de temas desde la perspectiva de sistemas complejos y redes complejas, "Martin Gerlach, becario postdoctoral en la Universidad Northwestern dijo a TechXplore. "Los problemas parecían muy similares, sin embargo, las comunidades de la informática (modelado de temas) y las redes complejas parecían funcionar en gran medida de forma independiente. Estar formado como físico, queríamos mostrar que dos problemas aparentemente diferentes podrían reducirse a la misma matemática subyacente ".
Gerlach y sus colegas idearon un nuevo enfoque para identificar estructuras temáticas que se relacionan con el problema de encontrar comunidades en redes complejas. Su técnica representa los corpus de texto como redes bipartitas, una clase de redes complejas que dividen los nodos en conjuntos X e Y, solo permitiendo conexiones entre nodos en diferentes conjuntos.
Crédito:Gerlach et al.
"Asignamos el problema del modelado de temas al problema de la detección de comunidades en una red que consta de palabras y documentos que muestran que son matemáticamente equivalentes, "explicó Gerlach.
El enfoque de los investigadores, que adapta los métodos de detección de comunidades existentes, se encontró que era más versátil y basado en principios que otros modelos de temas existentes, por ejemplo, detectar el número de temas presentes en los textos y agrupar jerárquicamente tanto palabras como documentos. Su método utilizó un modelo de bloques estocásticos (SBM), un modelo generativo para gráficos que generalmente mapea comunidades, subconjuntos de elementos que están conectados entre sí.
"Resolvemos algunos de los problemas intrínsecos y conocidos de los algoritmos de modelado de temas populares como LDA (por ejemplo, cómo determinar el número de temas), "dijo Gerlach." Además, nuestro trabajo muestra cómo relacionar formalmente los métodos de detección de comunidades y modelado de temas, abriendo la posibilidad de fertilización cruzada entre estos dos campos ".
El enfoque SBM desarrollado por Gerlach y sus colegas podría tener aplicaciones interesantes en otras áreas donde se utiliza el aprendizaje automático, como el análisis de códigos genéticos o imágenes. En el futuro, los investigadores planean continuar explorando el potencial de redes complejas tanto dentro del contexto del análisis de texto como más allá.
"La equivalencia entre el modelado de temas y la detección de comunidades permite utilizar los conocimientos adquiridos en cada una de las comunidades y aplicarlos al otro dominio, ", dijo Gerlach." Espero utilizar estos conocimientos para obtener una mejor comprensión de estos algoritmos de aprendizaje automático; por qué funcionan, y más importante, bajo qué condiciones no funcionan ".
© 2018 Tech Xplore