El algoritmo GPT-2 de OpenAI es bueno para tejer noticias falsas

Crédito:CC0 Public Domain

Falso. Peligroso. De miedo. Demasiado bueno. Cuando los titulares nadan con veredictos como esos, entonces sospechas, correctamente, que estás en la tierra de la inteligencia artificial, donde alguien ha ideado otro modelo de IA.

Entonces, este es , GPT-2, un algoritmo y, ya sea que te preocupe o te maraville, "Destaca en una tarea conocida como modelado de lenguaje, " dijo El borde , "que prueba la capacidad de un programa para predecir la siguiente palabra en una oración determinada".

Dependiendo de cómo lo mires, puedes culpar, o felicitar, un equipo de OpenAI con sede en California que creó GPT-2. Su programa de modelado de lenguaje ha escrito un ensayo convincente sobre un tema con el que no estaban de acuerdo.

Cómo lo hicieron:lo alimentaron con mensajes de texto. Fue capaz de completar oraciones y párrafos inventados. Su modelo fue entrenado para predecir la siguiente palabra en el texto de Internet, dijo la publicación del blog de OpenAI.

David Luan, Vicepresidente de ingeniería en el laboratorio de California, transmitió lo que le pasó a El borde . El equipo decidió preguntarle "para argumentar un punto que pensaban que era contrario a la intuición. En este caso:por qué el reciclaje es malo para el mundo". El resultado:un maestro agradable, ensayo bien razonado, "algo que podría haber enviado al SAT de EE. UU. y obtener una buena puntuación, "dijo Luan.

Ahí radica la razón por la que algunas personas que se preocupan por el Armagedón con robots podrían no dormir tan bien por la noche. Ponle un titular falso dijo James Vincent en El borde , y se irá a escribir el resto del artículo.

"Empezamos a probarlo, y descubrió rápidamente que es posible generar contenido malicioso con bastante facilidad, "dijo Jack Clark, director de políticas en OpenAI, en Revisión de tecnología del MIT . ¿Cotizaciones falsas? No hay problema. ¿Estadísticas falsas? Hecho.

Vincent agregó, había otra razón por la que GPT-2 estaba siendo el centro de atención. También se destacó por su flexibilidad. Escribir ensayos falsos no era la única capacidad; también podría realizar otras tareas:"traducir texto de un idioma a otro, resumiendo artículos largos, y respondiendo preguntas de trivia, dijo Vincent.

Considerándolo todo, el blog de OpenAI publicado el jueves resumió lo que han hecho. Tenga en cuenta sus últimas palabras, sin entrenamiento específico para tareas:

"Hemos entrenado un modelo de lenguaje no supervisado a gran escala que genera párrafos de texto coherentes, logra un rendimiento de vanguardia en muchos puntos de referencia de modelado de idiomas, y realiza una comprensión lectora rudimentaria, máquina traductora, pregunta respondiendo, y resumen, todo sin entrenamiento específico para la tarea ".

Este es el sector de la investigación de la IA de "tiro cero".

"Nuestro modelo no está entrenado en ninguno de los datos específicos de ninguna de estas tareas y solo se evalúa en ellas como una prueba final; esto se conoce como la configuración 'zero-shot'. GPT-2 supera a los modelos entrenados en dominios específicos conjuntos de datos (p. ej., Wikipedia, Noticias, libros) cuando se evalúa en esos mismos conjuntos de datos ". El programa reconoce patrones en los datos que se alimentan; Knight escribió que" en contraste con la mayoría de los algoritmos de lenguaje, el programa OpenAI no requiere texto etiquetado o curado ".

El equipo dijo que su sistema estableció un récord de rendimiento en los llamados esquemas de Winograd, una tarea difícil de comprensión de lectura; logra un desempeño casi humano en la prueba de libros para niños, otro control de la comprensión lectora; y genera su propio texto, incluyendo artículos de noticias muy convincentes y reseñas de Amazon, de acuerdo a Vox .

Bloomberg se volvió hacia Sam Bowman, un científico informático de la Universidad de Nueva York que se especializa en el procesamiento del lenguaje natural. Bowman no formaba parte del proyecto OpenAI, acabo de informar sobre ello. "Es capaz de hacer cosas que son cualitativamente mucho más sofisticadas que cualquier cosa que hayamos visto antes".

En el final, ¿Qué tenemos aquí? ¿Crearon un gran avance o un monstruo?

Añadiendo algo de perspectiva, Will Knight en Revisión de tecnología del MIT dijo que dicha tecnología podría tener usos beneficiosos, como resumir texto o mejorar las habilidades de conversación de los chatbots. También, un experto en procesamiento del lenguaje natural y el científico jefe de Salesforce reconoció este trabajo de OpenAI como un ejemplo de un sistema de aprendizaje de idiomas de propósito más general. Richard Socher, el experto, comentó sobre el potencial de engaño y desinformación. "No necesitas inteligencia artificial para crear noticias falsas, ", dijo." La gente puede hacerlo fácilmente :) "

Sin embargo, "OpenAI avanza con cautela con la presentación de GPT-2, ", escribió Vincent." A diferencia de la mayoría de los hitos de investigación más importantes en IA, el laboratorio no compartirá el conjunto de datos que usó para entrenar el algoritmo o todo el código en el que se ejecuta (aunque ha otorgado acceso temporal al algoritmo a varias publicaciones de medios, incluso El borde ). "

El equipo declaró en su publicación de blog. "Debido a nuestra preocupación por las aplicaciones maliciosas de la tecnología, no estamos lanzando el modelo entrenado. Como experimento de divulgación responsable, en cambio, estamos lanzando un modelo mucho más pequeño para que los investigadores experimenten, así como un documento técnico ".

Específicamente, dijeron que solo estaban lanzando una versión mucho más pequeña de GPT-2 junto con el código de muestreo. "No publicaremos el conjunto de datos, código de entrenamiento, o pesos del modelo GPT-2 ".

OpenAI prefiere hablar sobre los peligros antes de que lleguen. Jack Clark, El director de políticas de OpenAI habló sobre algoritmos de modelado de lenguaje como GPT-2. "Nuestra hipótesis es que podría ser un mundo mejor y más seguro si se habla de [estos peligros] antes de que lleguen, " él dijo.

GPT-2 se entrenó en un conjunto de datos de millones de páginas web. Dave Lee, Reportero de tecnología de América del Norte, BBC, agregó la naturaleza "sin supervisión" de lo que crearon, de modo que no tuvo que volver a capacitarse para pasar a un tema diferente.

Sotavento, reconociendo que su trabajo tenía un tono impresionantemente realista cuando funcionaba bien, También noté deficiencias.

"La IA genera la historia palabra por palabra. El texto resultante suele ser coherente, pero rara vez veraz:todas las citas y atribuciones son fabricadas. Las oraciones se basan en información ya publicada en línea, pero se pretende que la composición de esa información sea única. A veces, el sistema escupe pasajes de texto que no tienen mucho sentido estructuralmente, o contener inexactitudes ridículas ".

Ridible ahora pero, ¿se mejorará la IA con el tiempo? Según Knight, Clark dijo que puede que no pase mucho tiempo para que las historias falsas producidas por la IA sean más convincentes. "Está muy claro que si esta tecnología madura, y le daría uno o dos años, podría usarse para desinformación o propaganda, "dijo Clark, y "Estamos tratando de adelantarnos a esto".

Los conjuntos de datos alterados aún pueden proporcionar integridad estadística y preservar la privacidad

Samsung lanzará tiendas minoristas en EE. UU. En el impulso de teléfonos inteligentes

Electrónica