Un nuevo enfoque para el resumen de documentos comparativos mediante clasificación

Un ejemplo ilustrativo de resumen comparativo. Los cuadrados son artículos de noticias, las filas indican diferentes medios de comunicación, y el eje x denota el tiempo. Los artículos sombreados se eligen para representar noticias relacionadas con la IA durante febrero y marzo de 2018, respectivamente. Su objetivo es resumir los temas de cada mes y también resaltar las diferencias entre los dos meses. Crédito:Bista et al.

Investigadores de la Universidad Nacional de Australia (ANU) han llevado a cabo recientemente un estudio que explora el resumen extractivo en entornos comparativos. El término 'resumen extractivo' define la tarea de seleccionar algunos artículos muy representativos de una gran colección de documentos.

En su papel prepublicado en arXiv y que se presentará en la 33a Conferencia AAAI sobre inteligencia artificial, los investigadores consideraron el resumen comparativo, lo que implica la selección de documentos de diferentes colecciones de documentos. Estos documentos seleccionados deben ser representativos de cada grupo, al mismo tiempo que destaca las diferencias entre los grupos.

El proyecto sigue un tema en curso en el Laboratorio de Medios Computacionales de ANU, que se centra en la comprensión automatizada de grandes cantidades de flujos de texto e imágenes en la web social. Un objetivo general del estudio es identificar técnicas que podrían ayudar a las personas a lidiar con la sobrecarga de información.

"Hay demasiado contenido nuevo para que cualquiera pueda leer:noticias, feeds de redes sociales, o incluso el flujo de trabajos de investigación de arXiv, "Lexing Xie, uno de los investigadores que realizó el estudio, dijo a TechXplore. "¿Podemos pedirle a las computadoras que nos ayuden a elegir cuál leer, y sigues recibiendo información crucial? "

Xie y sus colegas han estado investigando formas de resumir los cientos de miles de artículos de noticias, publicaciones y discusiones disponibles en línea. Su objetivo es presentar a los usuarios algunos elementos (por ejemplo, 3-4) que mejor respondan a la pregunta "¿qué hay de nuevo?" durante un período de tiempo en particular (por ejemplo, hoy, esta semana, etc.) o con respecto a un tema en particular (por ejemplo, cambio climático, elecciones, etc.).

"El resumen de texto ha sido un campo de investigación activo durante casi 20 años, pero el enfoque principal ha sido resumir una colección de forma extractiva (es decir, seleccionar elementos existentes para componer un resumen), o abstractamente (es decir, componer nuevas oraciones como resumen, en lugar de utilizar los existentes), ", Explicó Xie." Este trabajo se centra en la comparación extractiva de grupos de documentos, es decir, seleccionar algunos elementos de un grupo que sea más distinto de otros grupos. A lo mejor de nuestro conocimiento, nuestro trabajo es el primero en realizar y validar resúmenes comparativos a escala ".

En su estudio, los investigadores abordaron el resumen de documentos comparativos como una tarea de clasificación. La clasificación es una tarea común de aprendizaje automático, en el que un algoritmo hace conjeturas fundamentadas sobre a qué categoría o grupos pertenecen determinados elementos de datos.

"En el caso del resumen comparativo, si hemos elegido buenos artículos de resumen, debería ser difícil, si no imposible, diseñar un clasificador que pueda distinguir entre los artículos de resumen elegidos y los grupos a los que pertenecen; si bien debería ser fácil diseñar un clasificador que pueda distinguir entre los artículos de resumen elegidos y otros grupos, "Alexander Mathews, otro investigador involucrado en el estudio, dijo a TechXplore.

La perspectiva de clasificación adoptada por los investigadores implica una visión alternativa pero complementaria del resumen comparativo como tres objetivos en competencia. Primero, los artículos de resumen seleccionados deben ser representativos de los grupos a los que pertenecen, cubriendo todos los aspectos importantes de la colección de documentos.

Segundo, cada artículo de resumen elegido debe ser relativamente diferente de los demás, para evitar repeticiones innecesarias. Finalmente, Los artículos de resumen seleccionados solo deben ser representativos del grupo al que pertenecen, ya que este es un factor clave para un resumen comparativo eficaz.

"Nuestra formulación específica de los tres objetivos se basa en una medida matemática flexible llamada Discrepancia media máxima (MMD), "Mathews explicó." Esta medida, junto con la aplicación de una herramienta matemática llamada 'el truco del núcleo' nos permite convertir nuestros tres objetivos en una forma matemática compacta que podemos optimizar de manera eficiente incluso en grandes conjuntos de datos. Es más, esta forma permite técnicas de optimización discretas y basadas en gradientes, permitiendo que la elección de los artículos se ajuste con precisión a nuestros objetivos ".

La perspectiva de clasificación adoptada por Mathews y sus colegas les permitió evaluar su método como una tarea de clasificación, tanto de forma automática como mediante crowdsourcing. Su enfoque superó los enfoques discretos y de línea de base en 15 de los 24 entornos de evaluación automática. En evaluaciones de crowdsourcing, Los resúmenes seleccionados utilizando su estrategia de optimización simple basada en gradientes obtuvieron una clasificación un 7% más precisa de los trabajadores humanos que los métodos de optimización discretos.

"Nos complace ver que al usar solo 4 artículos de resumen por semana, la precisión de la clasificación automática (de cada artículo de noticias en el mes / semana del que proviene) está a la par con una que 'lee' todos los artículos, "Minjeong Shin, uno de los investigadores que realizó el estudio, dijo a TechXplore. "Esto demuestra que la información nueva crucial está contenida en los pocos artículos 'prototipo'".

Los investigadores evaluaron su método frente a otros enfoques en una colección recientemente curada de temas de noticias controvertidos que abarcan más de 13 meses. Cuando se aplica al resumen comparativo de flujos de contenido en curso, su sistema respondió con éxito preguntas como '¿qué hay de nuevo en el tema del cambio climático este mes?', destacando las diferencias entre dos períodos de tiempo distintos.

"Nuestra metodología también se aplica a las comparaciones de colecciones distintas de las noticias a lo largo del tiempo, Shin dijo. Por ejemplo, uno puede preguntarse:¿cuál es la diferencia entre la cobertura de la BBC y la CNN de la cumbre del G20? o ¿en qué se diferencia la cobertura del cambio climático entre los medios de comunicación del Reino Unido y Australia? "

En el futuro, este nuevo enfoque de resumen comparativo podría ayudar a los usuarios a navegar por la gran cantidad de información disponible en línea; proporcionar comparaciones de artículos publicados por diferentes fuentes o autores, así como de publicaciones sobre temas relacionados o que expresan distintos puntos de vista. Los investigadores ahora están trabajando para expandir su investigación llevando estas comparaciones al siguiente nivel.

"Estamos investigando formas de resumir no solo el texto, sino también imágenes y texto en conjunto, "Umanga Bista, uno de los investigadores que realizó el estudio, dijo a TechXplore. "También nos gustaría tener en cuenta las relaciones conocidas de las entidades mencionadas en el texto (por ejemplo, Delhi es la capital de la India), en lugar de tratar cada palabra como una entidad independiente. Por último, nos gustaría tener un sistema que recomiende las novedades, que es diferente, y lo que vale la pena leer ".

Las plantas de tratamiento de aguas residuales pueden convertirse en biorrefinerías sostenibles

Globalmente nuevas plantas de energía solar agregaron casi un 35% a la nueva capacidad de generación de energía en 2017

Electrónica