Crédito:CC0 Public Domain
Mientras lees esto, cocaína, recompensas, y otros productos y servicios ilícitos se compran y venden en docenas de mercados anónimos en línea. Estos mercados son difíciles de cerrar porque existen en redes que están enterradas bajo capas de cifrado, lo que hace que sea extremadamente difícil determinar la identidad de los involucrados.
Para empeorar las cosas para las fuerzas del orden, algunos vendedores prolíficos evadirán la orientación al operar varias cuentas que parecen ser vendedores individuales con cantidades más pequeñas de producto. Los organismos encargados de hacer cumplir la ley se quedan con dolores de cabeza, pero no son los únicos.
"Cuando los vendedores utilizan varias cuentas, Es muy difícil para los investigadores obtener una imagen precisa de cómo se ven realmente estos mercados, "dice Xiao Hui Tai, un ex Ph.D. de CyLab. estudiante del Departamento de Estadística y Ciencia de Datos. "Tanto a los investigadores como a las fuerzas del orden público les gustaría conocer el tamaño real de estos mercados clandestinos".
En un estudio presentado en la Conferencia de minería de datos y descubrimiento de conocimientos (KDD), Tai se asoció con otros dos investigadores para desarrollar un algoritmo que sea capaz de detectar cuando cuentas aparentemente dispares pertenecen al mismo vendedor. El equipo probó su algoritmo en ocho años de datos recopilados de una docena de mercados anónimos en línea.
"Nuestro algoritmo detectó más de 20, 000 cuentas pertenecientes a aproximadamente 15, 000 vendedores individuales, "Dijo Tai." Algunas de estas personas estaban operando entre dos y 11 cuentas ".
El algoritmo funcionaba extrayendo información de la cuenta, como nombres de cuentas, productos vendidos por esas cuentas, precios, dónde se enviaban las cuentas hacia y desde, y el tipo de palabras utilizadas en los perfiles de las cuentas, y compararlas entre sí. Si dos cuentas más comparten rasgos similares por encima de cierto umbral, el algoritmo los emparejó con el mismo vendedor.
El algoritmo también extrajo la clave PGP de una cuenta, un código único que permite a los compradores cifrar y autenticar las comunicaciones con los vendedores. Si bien los estudios anteriores han utilizado claves PGP para hacer coincidir las cuentas con los vendedores, El estudio de Tai lo combinó con las características descritas anteriormente para lograr una coincidencia más precisa.
Por ejemplo, el algoritmo detectó una colección de cuentas que tenían la misma clave PGP, pero los etiquetó a todos como administrados por diferentes vendedores porque la otra información en estas cuentas era muy diferente. Resultó que la Policía Nacional Holandesa había confiscado estas cuentas y publicado la misma clave PGP para todas ellas; si alguien intentó comunicarse con la cuenta del vendedor, la policía podría descifrarlo.
"Si usáramos solo claves PGP para hacer coincidir cuentas, hubiéramos pensado que todos pertenecían a la misma persona, "Dijo Tai." Pero de hecho, el modelo nos aseguró que no eran iguales ".
A menudo, Tai dijo:las cuentas se hacen pasar por otras cuentas operadas por diferentes vendedores mediante el uso de fragmentos de texto similares en su perfil. La suplantación de identidad permitiría a una cuenta aprovechar la buena reputación de otra como vendedor.
"En un caso, un perfil de cuenta leído, 'Hay una cuenta que dice ser nosotros, pero solo se hacen pasar por nosotros '", Dijo Tai." Usando información que no sea solo el texto del perfil, el modelo pudo determinar que las cuentas pertenecían a diferentes vendedores ".
En el final, Tai dijo:Uno de los principales objetivos de la aplicación de la ley es saber quiénes son las personas que están detrás de estas cuentas. y el algoritmo de coincidencia es un paso hacia el logro de ese objetivo.
"Cuando puedes capturar varios datos de diferentes cuentas y decir que pertenecen a la misma persona, "Tai dijo, "... entonces puede combinar toda esta información para ayudar a generar pistas de investigación".