Crédito:CC0 Public Domain
Un equipo de investigación dirigido por Luis Amaral de Northwestern Engineering ha desarrollado un enfoque algorítmico para el análisis de datos que reconoce automáticamente las palabras no informativas, conocidas como palabras vacías, en una gran colección de texto. Los hallazgos podrían ahorrar drásticamente el tiempo durante el procesamiento del lenguaje natural, así como reducir su huella energética.
"Uno de los desafíos en los enfoques de aprendizaje automático e inteligencia artificial es que no se sabe qué datos son útiles para un algoritmo y cuáles no lo son, "dijo Amaral, Erastus Otis Haven Profesor de Ingeniería Química y Biológica en la Escuela de Ingeniería McCormick. "Utilizando la teoría de la información, creamos un marco que revela qué palabras no son informativas para la tarea en cuestión ".
El problema con las palabras vacías
Una de las técnicas más comunes que utilizan los científicos de datos en el procesamiento del lenguaje natural es el modelo de bolsa de palabras, que analiza las palabras de un texto determinado sin tener en cuenta el orden en que aparecen. Para agilizar el proceso, los investigadores filtran las palabras vacías, los que no agregan contexto al análisis de datos. Muchas listas de palabras irrelevantes son seleccionadas manualmente por investigadores, lo que hace que su desarrollo y mantenimiento requieran mucho tiempo, así como también difíciles de generalizar entre idiomas y disciplinas.
"Imagina que analizas millones de publicaciones de blogs y quieres saber qué tema aborda cada publicación, "dijo Amaral, quien codirige el Instituto Northwestern de Sistemas Complejos. "Por lo general, filtraría palabras comunes como" el "y" usted ", 'que no proporcionan ningún trasfondo sobre el tema ".
Sin embargo, la mayoría de las palabras que no son útiles para esa tarea específica dependen del idioma y del área temática particular del blog. "Para obtener una colección de blogs sobre electrónica, por ejemplo, hay muchas palabras que no pueden permitir que un algoritmo determine si una publicación de blog es sobre computación cuántica o semiconductores, "añadió.
Un marco teórico de la información
El equipo de investigación utilizó la teoría de la información para desarrollar un modelo que identifica las palabras vacías de manera más precisa y eficiente. Un elemento central del modelo es una métrica de 'entropía condicional' que cuantifica la certeza de que una palabra dada es informativa. Cuanto más informativa sea la palabra, menor es su entropía condicional. Al comparar los valores observados y esperados de la entropía condicional, los investigadores pudieron medir el contenido de información de palabras específicas.
Para probar el modelo, los investigadores compararon su desempeño con enfoques de modelado de temas comunes, que infiere las palabras más relacionadas con un tema dado comparándolas con otro texto en el conjunto de datos. Este marco produjo una mayor precisión y reproducibilidad en los textos estudiados, al mismo tiempo que es más aplicable a otros idiomas de una manera sencilla. Adicionalmente, el sistema logró un rendimiento óptimo utilizando una cantidad significativamente menor de datos.
"Utilizando nuestro enfoque, podríamos filtrar el 80 por ciento o más de los datos y, de hecho, aumentar el rendimiento de los algoritmos existentes para la clasificación de temas de corpus de texto, "Dijo Amaral." Además, filtrando gran parte de los datos, somos capaces de reducir drásticamente la cantidad de recursos computacionales necesarios ".
Más allá de ahorrar tiempo, el sistema de filtrado podría generar ahorros de energía a largo plazo, Combatir el impacto negativo que tiene la informática a gran escala en el cambio climático.
Un artículo que describe el trabajo se publicó el 2 de diciembre en la revista Inteligencia de la máquina de la naturaleza . Amaral fue coautor del artículo junto con Martin Gerlach, becario postdoctoral en el laboratorio de Amaral.
Si bien el análisis de los investigadores se limitó a enfoques de bolsa de palabras, Amaral confía en que su sistema podría ampliarse para dar cuenta de características estructurales adicionales del lenguaje, incluyendo oraciones y párrafos.
Además, dado que la teoría de la información proporciona un marco general para el análisis de cualquier secuencia de símbolos, el sistema de los investigadores podría ser aplicable más allá del análisis de texto, admitir métodos de preprocesamiento para analizar audio, imágenes, incluso genes.
"Hemos comenzado a aplicar este enfoque al análisis de datos de experimentos que miden moléculas de ARN específicas de genes en células individuales como una forma de identificar automáticamente diferentes tipos de células, ", Dijo Gerlach." Filtrar genes no informativos —piense en ellos como "genes de parada" - es particularmente prometedor para aumentar la precisión. Esas mediciones son mucho más difíciles en comparación con los textos y la heurística actual no está tan bien desarrollada ".