Para hacer coincidir a los usuarios de diferentes foros que probablemente sean la misma persona, un algoritmo calcula similitudes en los perfiles, como sus nombres de usuario; en el contenido, como frases similares; y en su red, como la comunidad con la que interactúan. Crédito:Instituto de Tecnología de Massachusetts
Debajo de la telaraña de la superficie, la forma pública de Internet que utiliza a diario para consultar el correo electrónico o leer artículos de noticias, existe una "web oscura" oculta. Anfitrión anónimo, sitios protegidos con contraseña, la web oscura es donde los mercados delictivos prosperan en la publicidad y venta de armas, drogas y personas objeto de trata. Los organismos encargados de hacer cumplir la ley trabajan continuamente para detener estas actividades, pero los desafíos que enfrentan al investigar y procesar a las personas del mundo real detrás de los usuarios que publican en estos sitios son tremendos.
"La naturaleza emergente de los mercados de la web oscura hace que rastrear a sus participantes y sus actividades sea extremadamente difícil, "dice Charlie Dagli, investigador del Grupo de Sistemas y Tecnología de Inteligencia Artificial del Laboratorio Lincoln del MIT. Dagli se refiere a la rápida velocidad a la que cierran los mercados de la web oscura (porque son pirateados, asaltado abandonado, o configurada como una "estafa de salida" en la que el sitio se cierra intencionalmente después de que los clientes pagan por pedidos no cumplidos) y aparecen otros nuevos. La corta vida útil de estos mercados, de unos meses a un par de años, obstaculizar los esfuerzos para identificar a sus usuarios.
Para superar este desafío, Lincoln Laboratory está desarrollando nuevas herramientas de software para analizar datos de la superficie y de la web oscura.
Estas herramientas aprovechan el único beneficio que presenta este problema similar al de un golpe a un topo:las conexiones que los vendedores y los compradores mantienen en varias capas de la web, de la superficie a la oscuridad, y en los foros de la web oscura. "Este cambio constante entre sitios es ahora una parte establecida de cómo funcionan los mercados de la web oscura, "Dice Dagli.
Los usuarios están creando nuevos perfiles constantemente. Aunque es posible que no utilicen los mismos nombres de usuario de un sitio a otro, mantienen vivas sus conexiones señalándose entre sí a través de su contenido. Estas señales se pueden utilizar para vincular personas que pertenecen al mismo usuario a través de foros de la web oscura y, más revelador, para vincular personas en la web oscura a la web superficial para descubrir la verdadera identidad de un usuario.
Vincular a los usuarios en la web oscura es lo que las fuerzas del orden ya intentan hacer. El problema es que la cantidad de datos que necesitan barajar manualmente:500, 000 números de teléfono y 2 millones de anuncios sexuales publicados al mes; es demasiado grande y desestructurado para que encuentren conexiones rápidamente. Por lo tanto, sólo se puede perseguir un bajo porcentaje de casos.
Para automatizar el proceso de vinculación de personas, Lincoln Laboratory está entrenando algoritmos de aprendizaje automático para calcular la similitud entre usuarios en diferentes foros. Los cálculos se basan en tres aspectos de las comunicaciones de los usuarios en línea:"Cómo se identifican con los demás, sobre lo que escriben, y con quien escriban, "Dagli explica.
El algoritmo primero alimenta los datos de los usuarios en un Foro A determinado y crea un modelo de autoría para cada usuario. Luego, Los datos de los usuarios del Foro B se comparan con todos los modelos de usuario del Foro A. Para encontrar coincidencias para la información del perfil, el algoritmo busca pistas sencillas, como cambios en la ortografía del nombre de usuario como "sergeygork" en el Foro A a "sergey gorkin" en el Foro B, o similitudes más sutiles como "joe knight" con "joe nightmare".
La siguiente característica que analiza el sistema es la similitud de contenido. El sistema detecta frases únicas, por ejemplo, "diversión bajo el sol", que se utilizan en varios anuncios. "Hay muchas tareas de copiar y pegar, por lo que aparecerán frases similares que probablemente sean del mismo usuario, ", Dice Dagli. Luego, el sistema busca similitudes en la red de un usuario, que es el círculo de personas con el que interactúa el usuario, y los temas que discute la red del usuario.
El perfil, contenido, y las características de la red se fusionan para proporcionar una única salida:una puntuación de probabilidad de que dos personas de dos foros representen a la misma persona en la vida real.
Los investigadores han estado probando estos algoritmos de vinculación de personas con datos de Twitter e Instagram de código abierto y datos de verdad del terreno etiquetados a mano de foros de la web oscura. Todos los datos utilizados en este trabajo se obtienen a través de medios autorizados. Los resultados son prometedores. "Cada vez que informamos de una coincidencia, estamos en lo cierto el 95 por ciento de las veces. El sistema es uno de los mejores sistemas de enlace que podemos encontrar en la literatura, "Dice Dagli.
Este trabajo es el desarrollo más reciente en la investigación en curso. De 2014 a 2017, El Laboratorio Lincoln contribuyó al programa Memex de la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA). Memex dio como resultado un conjunto de software de análisis de datos de la web oscura y de superficie desarrollado en colaboración con docenas de universidades, laboratorios nacionales, y empresas. Diez tecnologías de laboratorio que abarcan texto, habla, y los análisis visuales que se crearon para Memex se lanzaron como software de código abierto a través del catálogo abierto de DARPA.
Hoy dia, más de 30 agencias en todo el mundo están utilizando el software Memex para realizar investigaciones. Uno de los mayores usuarios y una parte interesada en el desarrollo de Memex, es la Unidad de Respuesta a la Trata de Personas (HTRU) en la Oficina del Fiscal de Distrito de Manhattan.
El fiscal de distrito de Manhattan, Cyrus Vance Jr., declaró en un testimonio escrito ante la Cámara de Representantes de los Estados Unidos que su oficina usó herramientas Memex para filtrar más de 6, 000 arrestos por indicios de trata de personas solo en 2017. "También usamos Memex en 271 investigaciones de tráfico de personas y en seis nuevas acusaciones de tráfico sexual que se presentaron en 2017, ", afirmó. Con la introducción de Memex, los arrestos por prostitución evaluados por HTRU para indicadores de trata de personas aumentaron del 5 al 62 por ciento, y las investigaciones de arrestos relacionados con la prostitución en el Departamento de Policía de Nueva York aumentaron de 15 a 300 por año.
Jennifer Dolle, el subjefe de HTRU, visitó el laboratorio para presentar cómo la unidad se ha beneficiado de estas tecnologías. "Usamos estas herramientas todos los días. Realmente han cambiado la forma en que hacemos negocios en nuestra oficina, "Dolle dice, explicando que antes de Memex, una investigación sobre la trata de personas podría llevar mucho más tiempo.
Ahora, Las herramientas de Memex están permitiendo a HTRU mejorar rápidamente los casos emergentes y desarrollar investigaciones de tráfico sexual a partir de pistas que tienen poca información. Por ejemplo, estas herramientas, incluida una llamada TellFinder (creada por el colaborador de Memex, Uncharted Software) para la indexación, resumiendo, y la búsqueda de datos de anuncios sexuales:se han utilizado para identificar víctimas menores de edad a partir de datos en un solo anuncio de prostitución en línea. "Estas pistas de investigación adicionales permiten a HTRU enjuiciar a los traficantes por delitos graves violentos y responsabilizar a estos acusados de la verdadera naturaleza de los delitos que cometen contra víctimas vulnerables, "dice Dolle.
Los investigadores continúan aprendiendo cómo las tecnologías emergentes se pueden adaptar a las necesidades de las agencias y al funcionamiento de la web oscura. "El aprendizaje automático basado en datos se ha convertido en una herramienta demostrablemente importante para que las fuerzas del orden luchen contra los mercados ilícitos en línea en la web oscura, "dice Lin Li, investigador principal de este trabajo continuo en el programa Human Dynamic Dark Networks del laboratorio, que se financia a través de la Oficina de Tecnología del laboratorio. "Pero, Algunos de los desafíos y áreas de investigación en curso incluyen ampliar nuestra comprensión de la economía de la demanda, interrumpir la economía de la oferta, y adquirir una mejor conciencia de la situación en general ".
Una mejor comprensión de cómo funcionan las cadenas de oferta y demanda de la economía de la web oscura ayudará al equipo a desarrollar tecnologías para interrumpir estas cadenas. Parte del objetivo es aumentar los riesgos de participar en esta economía ilícita; vincular personas en la web oscura con las de la web superficial es una táctica potencialmente poderosa.
"DARPA demostró que esta economía ilícita de rápido crecimiento financia actividades terroristas y HTRU la mostró como un motor de la esclavitud moderna. Derrotar el terrorismo y eliminar la esclavitud son necesidades nacionales y humanitarias, "dice Joseph Campbell, líder del Grupo de Sistemas y Tecnología de Inteligencia Artificial. "Nuestro grupo tiene una experiencia extraordinaria en IA, aprendizaje automático, y el análisis de redes humanas basado en información extraída del habla multilenguaje, texto, y video combinado con comunicaciones y actividades en red. Las tecnologías de vanguardia que creamos, desarrollar, y anticipo se transfieren a nuestros patrocinadores, que los utilizan a diario con un impacto tremendo para estas necesidades nacionales y humanitarias ".
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.