¿Con qué precisión se puede perfilar su perfil en línea? Crédito:Andrew Krasovitckii / Shutterstock.com
El investigador cuyo trabajo está en el centro del análisis de datos de Facebook-Cambridge Analytica y el alboroto de la publicidad política ha revelado que su método funcionó de manera muy similar al que usa Netflix para recomendar películas.
En un correo electrónico para mí, El académico de la Universidad de Cambridge, Aleksandr Kogan, explicó cómo su modelo estadístico procesaba los datos de Facebook para Cambridge Analytica. La precisión que afirma sugiere que funciona tan bien como los métodos establecidos de focalización de votantes basados en datos demográficos como la raza, edad y género.
Si se confirma, El relato de Kogan significaría que el modelo digital que usó Cambridge Analytica no era la bola de cristal virtual que algunos han afirmado. Sin embargo, los números que proporciona Kogan también muestran lo que es y no es realmente posible al combinar datos personales con aprendizaje automático para fines políticos.
Con respecto a una preocupación pública clave, aunque, Los números de Kogan sugieren que la información sobre la personalidad o la "psicografía" de los usuarios era solo una parte modesta de cómo el modelo apuntaba a los ciudadanos. No era un modelo de personalidad estrictamente hablando, sino más bien uno que resumiera los datos demográficos, influencias sociales, personalidad y todo lo demás en un gran bulto correlacionado. Este enfoque de absorber toda la correlación y llamarlo personalidad parece haber creado una valiosa herramienta de campaña. incluso si el producto que se vendía no era exactamente como se facturaba.
La promesa de la segmentación por personalidad
A raíz de las revelaciones de que los consultores de la campaña de Trump, Cambridge Analytica, utilizaron datos de 50 millones de usuarios de Facebook para orientar la publicidad política digital durante las elecciones presidenciales de EE. UU. De 2016, Facebook ha perdido miles de millones en valor bursátil, gobiernos de ambos lados del Atlántico han abierto investigaciones, y un movimiento social incipiente está llamando a los usuarios a #DeleteFacebook.
Pero una pregunta clave ha quedado sin respuesta:¿Cambridge Analytica fue realmente capaz de dirigir de manera efectiva los mensajes de la campaña a los ciudadanos en función de sus características de personalidad, o incluso de sus "demonios internos"? "como alegó un denunciante de la empresa?
Si alguien supiera lo que hizo Cambridge Analytica con su enorme tesoro de datos de Facebook, serían Aleksandr Kogan y Joseph Chancellor. Fue su startup Global Science Research la que recopiló información de perfil de 270, 000 usuarios de Facebook y decenas de millones de sus amigos que utilizan una aplicación de prueba de personalidad llamada "thisisyourdigitallife".
Parte de mi propia investigación se centra en comprender los métodos de aprendizaje automático, y mi próximo libro analiza cómo las empresas digitales utilizan modelos de recomendación para construir audiencias. Tuve una corazonada sobre cómo funcionaba el modelo de Kogan y Chancellor.
Así que le envié un correo electrónico a Kogan para preguntar. Kogan sigue siendo investigador en la Universidad de Cambridge; su colaborador, el canciller, ahora trabaja en Facebook. En una notable muestra de cortesía académica, Kogan respondió.
Su respuesta requiere un poco de desembalaje, y algunos antecedentes.
Del premio Netflix a la "psicometría"
En 2006, cuando todavía era una empresa de DVD por correo, Netflix ofreció una recompensa de $ 1 millón a cualquiera que desarrollara una mejor manera de hacer predicciones sobre la clasificación de películas de los usuarios que la que ya tenía la compañía. Un gran competidor sorpresa fue un desarrollador de software independiente que usaba el seudónimo de Simon Funk, cuyo enfoque básico se incorporó finalmente en todas las entradas de los equipos principales. Funk adaptó una técnica llamada "descomposición de valores singulares, "condensar las calificaciones de las películas por parte de los usuarios en una serie de factores o componentes, esencialmente un conjunto de categorías inferidas, clasificados por importancia. Como explicó Funk en una publicación de blog, "Entonces, por ejemplo, una categoría puede representar películas de acción, con películas con mucha acción en la parte superior, y películas lentas en la parte inferior, y, en consecuencia, los usuarios a los que les gustan las películas de acción en la parte superior, y aquellos que prefieren películas lentas en la parte inferior ".
Los factores son categorías artificiales, que no siempre son como el tipo de categorías que se les ocurrirían a los humanos. El factor más importante en el primer modelo de Netflix de Funk fue definido por los usuarios que amaban películas como "Pearl Harbor" y "The Wedding Planner" mientras que también odiaban películas como "Lost in Translation" o "Eternal Sunshine of the Spotless Mind". Su modelo mostró cómo el aprendizaje automático puede encontrar correlaciones entre grupos de personas, y grupos de películas, que los humanos mismos nunca detectarían.
El enfoque general de Funk utilizó los 50 o 100 factores más importantes tanto para los usuarios como para las películas para hacer una suposición decente de cómo cada usuario calificaría cada película. Este método, a menudo llamado reducción de dimensionalidad o factorización de matriz, no era nuevo. Los investigadores de ciencias políticas habían demostrado que técnicas similares utilizando datos de votación nominal podían predecir los votos de los miembros del Congreso con un 90 por ciento de precisión. En psicología, el modelo de los "cinco grandes" también se había utilizado para predecir el comportamiento agrupando preguntas de personalidad que tendían a ser respondidas de manera similar.
Todavía, El modelo de Funk fue un gran avance:permitió que la técnica funcionara bien con grandes conjuntos de datos, incluso aquellos con muchos datos faltantes, como el conjunto de datos de Netflix, donde un usuario típico calificó solo unas pocas docenas de películas de las miles de la biblioteca de la empresa. Más de una década después de que finalizara el concurso de premios de Netflix, Métodos basados en la enfermedad vesicular porcina, o modelos relacionados para datos implícitos, siguen siendo la herramienta elegida por muchos sitios web para predecir lo que leerán los usuarios, mirar, o comprar.
Estos modelos pueden predecir otras cosas, también.
Facebook sabe si eres republicano
En 2013, Los investigadores de la Universidad de Cambridge, Michal Kosinski, David Stillwell y Thore Graepel publicaron un artículo sobre el poder predictivo de los datos de Facebook, utilizando información recopilada a través de una prueba de personalidad en línea. Su análisis inicial fue casi idéntico al utilizado en el Premio Netflix, utilizando SVD para clasificar tanto a los usuarios como a las cosas que les "gustaban" en los 100 factores principales.
El documento mostró que un modelo de factores hecho solo con los "me gusta" de Facebook de los usuarios tenía una precisión del 95 por ciento para distinguir entre encuestados blancos y negros. 93 por ciento de precisión para distinguir hombres de mujeres, y un 88 por ciento de precisión para distinguir a las personas que se identificaron como hombres homosexuales de los hombres que se identificaron como heterosexuales. Incluso podría distinguir correctamente a los republicanos de los demócratas el 85 por ciento de las veces. También fue útil, aunque no tan exacto, para predecir las puntuaciones de los usuarios en la prueba de personalidad "Cinco grandes".
Hubo una protesta pública en respuesta; En cuestión de semanas, Facebook había hecho privados los me gusta de los usuarios de forma predeterminada.
Kogan y Canciller, también investigadores de la Universidad de Cambridge en ese momento, estaban comenzando a utilizar los datos de Facebook para la orientación electoral como parte de una colaboración con la empresa matriz de Cambridge Analytica, SCL. Kogan invitó a Kosinski y Stillwell a unirse a su proyecto, pero no funcionó. Kosinski supuestamente sospechaba que Kogan y Chancellor podrían haber realizado ingeniería inversa del modelo de "me gusta" de Facebook para Cambridge Analytica. Kogan negó esto, diciendo que su proyecto "construyó todos nuestros modelos con nuestros propios datos, recopilados utilizando nuestro propio software ".
¿Qué hicieron Kogan y Chancellor?
Mientras seguía los desarrollos de la historia, quedó claro que Kogan y Chancellor habían recopilado muchos de sus propios datos a través de la aplicación thisisyourdigitallife. Ciertamente podrían haber construido un modelo predictivo de SVD como el que aparece en la investigación publicada de Kosinski y Stillwell.
Así que le envié un correo electrónico a Kogan para preguntarle si eso era lo que había hecho. Algo para mi sorpresa, él respondió.
"No usamos exactamente SVD, " el escribio, señalando que SVD puede tener problemas cuando algunos usuarios tienen muchos más "me gusta" que otros. En lugar de, Kogan explicó, "La técnica fue algo que en realidad desarrollamos nosotros mismos ... No es algo que sea de dominio público". Sin entrar en detalles, Kogan describió su método como "un enfoque de co-ocurrencia de varios pasos".
Sin embargo, su mensaje continuó para confirmar que su enfoque era de hecho similar al SVD u otros métodos de factorización matricial, como en el concurso de premios de Netflix, y el modelo de Facebook de Kosinki-Stillwell-Graepel. La reducción de la dimensionalidad de los datos de Facebook fue el núcleo de su modelo.
¿Qué tan precisa fue?
Kogan sugirió que el modelo exacto utilizado no importa mucho, aunque, lo que importa es la precisión de sus predicciones. Según Kogan, la "correlación entre los puntajes pronosticados y reales ... fue de alrededor del [30 por ciento] para todas las dimensiones de la personalidad". En comparación, Los puntajes anteriores de los Cinco Grandes de una persona tienen una precisión del 70 al 80 por ciento en la predicción de sus puntajes cuando vuelven a tomar la prueba.
Las afirmaciones de precisión de Kogan no se pueden verificar de forma independiente, por supuesto. Y cualquiera que se encuentre en medio de un escándalo de tan alto perfil podría tener un incentivo para subestimar su contribución. En su aparición en CNN, Kogan le explicó a un Anderson Cooper cada vez más incrédulo que, De hecho, los modelos en realidad no habían funcionado muy bien.
De hecho, la precisión que afirma Kogan parece un poco baja, pero plausible. Kosinski, Stillwell y Graepel informaron resultados comparables o ligeramente mejores, al igual que varios otros estudios académicos que utilizan huellas digitales para predecir la personalidad (aunque algunos de esos estudios tenían más datos que los "me gusta" de Facebook). Es sorprendente que Kogan y Chancellor se tomaran la molestia de diseñar su propio modelo patentado si las soluciones listas para usar parecieran ser igualmente precisas.
En tono rimbombante, aunque, La precisión del modelo en las puntuaciones de personalidad permite comparar los resultados de Kogan con otras investigaciones. Los modelos publicados con una precisión equivalente para predecir la personalidad son mucho más precisos para adivinar las variables demográficas y políticas.
Por ejemplo, el modelo similar de Kosinski-Stillwell-Graepel SVD tenía un 85 por ciento de precisión al adivinar la afiliación partidista, incluso sin utilizar ninguna información de perfil que no sea Me gusta. El modelo de Kogan tenía una precisión similar o mejor. Agregar incluso una pequeña cantidad de información sobre los datos demográficos de amigos o usuarios probablemente aumentaría esta precisión por encima del 90 por ciento. Adivina sobre el género raza, La orientación sexual y otras características probablemente también serían precisas en más del 90 por ciento.
Críticamente, estas suposiciones serían especialmente buenas para los usuarios de Facebook más activos, las personas a las que se dirigió principalmente el modelo. De todos modos, es probable que los usuarios con menos actividad para analizar no estén en Facebook mucho.
Cuando la psicografía es principalmente demográfica
Saber cómo se construye el modelo ayuda a explicar las afirmaciones aparentemente contradictorias de Cambridge Analytica sobre el papel, o la falta del mismo, que los perfiles de personalidad y la psicografía jugaron en su modelado. Todos son técnicamente consistentes con lo que describe Kogan.
Un modelo como el de Kogan daría estimaciones para cada variable disponible en cualquier grupo de usuarios. Eso significa que calcularía automáticamente los puntajes de personalidad de los Cinco Grandes para cada votante. Pero estos puntajes de personalidad son el resultado del modelo, no la entrada. Todo lo que sabe la modelo es que ciertos me gusta de Facebook, y ciertos usuarios, tienden a agruparse.
Con este modelo, Cambridge Analytica could say that it was identifying people with low openness to experience and high neuroticism. But the same model, with the exact same predictions for every user, could just as accurately claim to be identifying less educated older Republican men.
Kogan's information also helps clarify the confusion about whether Cambridge Analytica actually deleted its trove of Facebook data, when models built from the data seem to still be circulating, and even being developed further.
The whole point of a dimension reduction model is to mathematically represent the data in simpler form. It's as if Cambridge Analytica took a very high-resolution photograph, resized it to be smaller, and then deleted the original. The photo still exists – and as long as Cambridge Analytica's models exist, the data effectively does too.
Este artículo se publicó originalmente en The Conversation. Lea el artículo original.