• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • El sistema automatizado puede reescribir oraciones obsoletas en artículos de Wikipedia

    Los investigadores del MIT han creado un sistema de generación de texto automatizado que identifica y reemplaza información específica en oraciones relevantes de Wikipedia, manteniendo el lenguaje similar a cómo los humanos escriben y editan. Crédito:Christine Daniloff, MIT

    Un sistema creado por investigadores del MIT podría usarse para actualizar automáticamente las inconsistencias fácticas en los artículos de Wikipedia, reduciendo el tiempo y el esfuerzo de los editores humanos que ahora realizan la tarea manualmente.

    Wikipedia contiene millones de artículos que necesitan ser editados constantemente para reflejar nueva información. Eso puede implicar expansiones de artículos, grandes reescrituras, o modificaciones más rutinarias como la actualización de números, fechas, nombres y ubicaciones. En la actualidad, los seres humanos de todo el mundo ofrecen voluntariamente su tiempo para realizar estas modificaciones.

    En un artículo presentado en la Conferencia AAAI sobre Inteligencia Artificial, los investigadores describen un sistema de generación de texto que identifica y reemplaza información específica en oraciones relevantes de Wikipedia, manteniendo el lenguaje similar a cómo los humanos escriben y editan.

    La idea es que los humanos escriban en una interfaz una oración no estructurada con información actualizada, sin necesidad de preocuparse por el estilo o la gramática. El sistema buscaría en Wikipedia, ubicar la página apropiada y la oración desactualizada, y reescribirlo de una manera humana. En el futuro, los investigadores dicen, Existe la posibilidad de crear un sistema totalmente automatizado que identifique y utilice la información más reciente de la web para producir oraciones reescritas en los artículos de Wikipedia correspondientes que reflejen información actualizada.

    "Hay tantas actualizaciones que se necesitan constantemente para los artículos de Wikipedia. Sería beneficioso modificar automáticamente partes exactas de los artículos, con poca o ninguna intervención humana, "dice Darsh Shah, un doctorado estudiante del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y uno de los autores principales. "En lugar de que cientos de personas trabajen para modificar cada artículo de Wikipedia, entonces solo necesitarás unos pocos, porque el modelo lo está ayudando o lo está haciendo automáticamente. Eso ofrece mejoras dramáticas en la eficiencia ".

    Existen muchos otros bots que realizan ediciones automáticas de Wikipedia. Típicamente, aquellos que trabajan para mitigar el vandalismo o colocar información estrictamente definida en plantillas predefinidas, Dice Shah. El modelo de los investigadores, él dice, resuelve un problema de inteligencia artificial más difícil:dada una nueva pieza de información no estructurada, el modelo modifica automáticamente la oración de una manera similar a la humana. "Las otras tareas [bot] están más basadas en reglas, Si bien esta es una tarea que requiere razonar sobre partes contradictorias en dos oraciones y generar un texto coherente, " él dice.

    El sistema también se puede utilizar para otras aplicaciones de generación de texto, dice el coautor principal y estudiante de posgrado de CSAIL, Tal Schuster. En su papel los investigadores también lo usaron para sintetizar automáticamente oraciones en un conjunto de datos de verificación de hechos popular que ayudó a reducir el sesgo, sin recopilar manualmente datos adicionales. "De esta manera, el rendimiento mejora para los modelos automáticos de verificación de hechos que se entrenan en el conjunto de datos para, decir, detección de noticias falsas, ", Dice Schuster.

    Shah y Schuster trabajaron en el artículo con su asesora académica Regina Barzilay, el profesor de Delta Electronics de Ingeniería Eléctrica y Ciencias de la Computación y profesor en CSAIL.

    Enmascaramiento y fusión de neutralidad

    Detrás del sistema hay un poco de ingenio generador de texto para identificar información contradictoria entre, y luego fusionarnos, dos oraciones separadas. Toma como entrada una oración "desactualizada" de un artículo de Wikipedia, más una oración de "reclamo" separada que contiene la información actualizada y contradictoria. El sistema debe eliminar automáticamente y mantener palabras específicas en la oración desactualizada, basado en la información de la reclamación, para actualizar los hechos pero manteniendo el estilo y la gramática. Esa es una tarea fácil para los humanos, pero novedoso en aprendizaje automático.

    Por ejemplo, dicen que hay una actualización requerida para esta oración (en negrita):"El Fondo A considera que 28 de sus 42 participaciones minoritarias en empresas operativamente activas son de particular importancia para el grupo". La oración de reclamación con información actualizada puede decir:"El Fondo A considera significativas a 23 de 43 participaciones minoritarias". El sistema ubicaría el texto de Wikipedia relevante para "Fondo A, "según la afirmación. A continuación, elimina automáticamente los números obsoletos (28 y 42) y los reemplaza por los nuevos números (23 y 43), manteniendo la oración exactamente igual y gramaticalmente correcta. (En su trabajo, los investigadores ejecutaron el sistema en un conjunto de datos de oraciones específicas de Wikipedia, no en todas las páginas de Wikipedia).

    El sistema se entrenó en un conjunto de datos popular que contiene pares de oraciones, en el que una oración es una afirmación y la otra es una oración relevante de Wikipedia. Cada par se etiqueta de una de estas tres formas:"de acuerdo, "lo que significa que las oraciones contienen información fáctica coincidente;" no estoy de acuerdo, "lo que significa que contienen información contradictoria; o" neutral, "donde no hay suficiente información para ninguna de las etiquetas. El sistema debe hacer que todos los pares en desacuerdo estén de acuerdo, modificando la oración obsoleta para que coincida con la afirmación. Eso requiere el uso de dos modelos separados para producir el resultado deseado.

    El primer modelo es un clasificador de verificación de hechos, previamente entrenado para etiquetar cada par de oraciones como "de acuerdo, "" en desacuerdo, "o" neutral ":que se centra en los pares en desacuerdo. Junto con el clasificador, hay un módulo personalizado de" enmascaramiento de neutralidad "que identifica qué palabras de la oración obsoleta contradicen la afirmación. El módulo elimina la cantidad mínima de palabras necesarias para" maximizar neutralidad ", lo que significa que el par se puede etiquetar como neutral. Ese es el punto de partida:si bien las oraciones no concuerdan, ya no contienen información obviamente contradictoria. El módulo crea una "máscara" binaria sobre la oración obsoleta, donde un 0 se coloca sobre las palabras que probablemente deban eliminarse, mientras que un 1 va encima de los porteros.

    Después de enmascarar, Se utiliza un marco novedoso de dos codificadores-decodificadores para generar la oración de salida final. Este modelo aprende representaciones comprimidas de la afirmación y la oración obsoleta. Trabajando en conjunto, los dos codificadores-decodificadores fusionan las palabras diferentes de la afirmación, deslizándolos en los lugares que dejaron vacantes las palabras eliminadas (las cubiertas con ceros) en la oración desactualizada.

    En una prueba, el modelo obtuvo una puntuación más alta que todos los métodos tradicionales, utilizando una técnica llamada "IRAG" que mide qué tan bien eliminan las máquinas, agregar, y mantener las palabras en comparación con la forma en que los humanos modifican las oraciones. Utilizaron un conjunto de datos con oraciones de Wikipedia editadas manualmente, que el modelo no había visto antes. En comparación con varios métodos tradicionales de generación de texto, el nuevo modelo era más preciso en la realización de actualizaciones fácticas y su salida se parecía más a la escritura humana. En otra prueba, Los humanos de colaboración colectiva calificaron el modelo (en una escala de 1 a 5) en función de qué tan bien sus oraciones de salida contenían actualizaciones fácticas y gramática humana coincidente. El modelo logró puntajes promedio de 4 en actualizaciones fácticas y 3,85 en gramática coincidente.

    Eliminando sesgos

    El estudio también mostró que el sistema se puede utilizar para aumentar los conjuntos de datos y eliminar el sesgo al entrenar a los detectores de "noticias falsas, "una forma de propaganda que contiene desinformación creada para engañar a los lectores con el fin de generar visitas al sitio web o dirigir la opinión pública. Algunos de estos detectores se entrenan en conjuntos de datos de pares de oraciones de acuerdo y desacuerdo para" aprender "a verificar una afirmación comparándola con la evidencia dada.

    En estos pares, la afirmación coincidirá con cierta información con una oración de "evidencia" de apoyo de Wikipedia (de acuerdo) o será modificada por humanos para incluir información contradictoria con la oración de evidencia (en desacuerdo). Los modelos están entrenados para marcar afirmaciones que refutan pruebas como "falsas, "que se puede utilizar para ayudar a identificar noticias falsas.

    Desafortunadamente, tales conjuntos de datos actualmente vienen con sesgos no deseados, Shah dice:"Durante el entrenamiento, Los modelos utilizan algún lenguaje de las afirmaciones escritas por humanos como frases de "obsequio" para marcarlas como falsas, sin depender mucho de la sentencia probatoria correspondiente. Esto reduce la precisión del modelo al evaluar ejemplos del mundo real, ya que no realiza verificación de hechos ".

    Los investigadores utilizaron las mismas técnicas de eliminación y fusión de su proyecto de Wikipedia para equilibrar los pares de desacuerdo-acuerdo en el conjunto de datos y ayudar a mitigar el sesgo. Para algunos pares "en desacuerdo", utilizaron la información falsa de la oración modificada para regenerar una falsa "evidencia" que respalda la oración. Algunas de las frases de obsequio existen en las oraciones "de acuerdo" y "en desacuerdo", lo que obliga a los modelos a analizar más características. Usando su conjunto de datos aumentado, los investigadores redujeron la tasa de error de un popular detector de noticias falsas en un 13 por ciento.

    "Si tiene un sesgo en su conjunto de datos, y estás engañando a tu modelo para que solo mire una oración en un par en desacuerdo para hacer predicciones, tu modelo no sobrevivirá al mundo real, ", Dice Shah." Hacemos que los modelos vean ambas oraciones en todos los pares de acuerdo-en desacuerdo ".

    Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.




    © Ciencia https://es.scienceaq.com