Tanques destruidos frente a una mezquita en Azaz, Siria, en 2012. Crédito:Christiaan Triebert a través de Wikimedia Commons
Investigadores de Rice University y Duke University están utilizando herramientas de estadística y ciencia de datos en colaboración con Human Rights Data Analysis Group (HRDAG) para estimar de manera precisa y eficiente el número de víctimas identificadas muertas en la guerra civil siria.
En un artículo disponible en línea y que se publicará en la edición de junio de la Anales de estadísticas aplicadas , los científicos informan sobre un esfuerzo de cuatro años para combinar un método de indexación de datos llamado "hash con estimación estadística". El nuevo método produce estimaciones en tiempo real de documentos, identificaron víctimas con un margen de error mucho menor que los métodos estadísticos existentes para encontrar registros duplicados en bases de datos.
"Desechar los registros duplicados es fácil si todos los datos están limpios:los nombres están completos, la ortografía es correcta, las fechas son exactas, etc., "dijo el coautor del estudio, Beidi Chen, un estudiante graduado de Rice en ciencias de la computación. "Los datos de víctimas de guerra no son así. La gente usa apodos. Las fechas a veces se incluyen en una base de datos pero faltan en otra. Es un ejemplo clásico de lo que llamamos un conjunto de datos 'ruidoso'. El desafío es encontrar una manera de estimar con precisión el número de registros únicos a pesar de este ruido ".
Utilizando registros de cuatro bases de datos de personas muertas en la guerra de Siria, Chen, La estadística de Duke y experta en aprendizaje automático Rebecca Steorts y el científico informático de Rice Anshumali Shrivastava estimaron que había 191, 874 individuos únicos documentados desde marzo de 2011 hasta abril de 2014. Eso es muy cercano a la estimación de 191, 369 recopilados en 2014 por HRDAG, una organización sin fines de lucro que ayuda a construir científicamente defendible, argumentos basados en pruebas de violaciones de derechos humanos.
Pero mientras que la estimación de HRDAG se basó en los meticulosos esfuerzos de los trabajadores humanos para eliminar cuidadosamente los posibles registros duplicados, el hash con estimación estadística resultó ser más rápido, más fácil y menos costoso. Los investigadores dijeron que el hash también tenía la ventaja importante de un intervalo de confianza nítido:el rango de error es más o menos 1, 772, o menos del 1 por ciento del número total de víctimas.
"La gran ventaja de este método es que podemos calcular rápidamente la cantidad probable de elementos únicos en un conjunto de datos con muchos duplicados, "dijo Patrick Ball, Director de investigación de HRDAG. "Podemos hacer mucho con esta estimación".
Shrivastava dijo que la precisión de la estimación hash se debe a la técnica utilizada para indexar los registros de víctimas. El hash implica convertir un registro de datos completo:un nombre, fecha, el lugar de la muerte y el género en el caso de cada víctima de la guerra siria, en un número llamado hash. Los hash son producidos por un algoritmo que considera la información alfanumérica en un registro, y se almacenan en una tabla hash que funciona de manera muy similar al índice de un libro. Cuanta más similitud textual haya entre dos registros, cuanto más juntos estén sus hashes en la tabla.
"Nuestro método, la estimación de entidades únicas, podría resultar útil más allá del conflicto sirio, "dijo Steorts, profesor asistente de ciencia estadística en Duke.
Dijo que el algoritmo y la metodología podrían usarse para registros médicos, estadísticas oficiales y aplicaciones industriales.
"A medida que recopilamos más y más datos, la duplicación se está convirtiendo en un problema más oportuno y socialmente importante, "Dijo Steorts." Los problemas de resolución de entidades deben escalar a millones y miles de millones de registros. Por supuesto, la forma más precisa de encontrar registros duplicados es hacer que un experto revise cada registro. Pero esto es imposible para grandes conjuntos de datos, ya que la cantidad de pares que deben compararse aumenta drásticamente a medida que aumenta la cantidad de registros ".
Por ejemplo, un análisis registro por registro de las cuatro bases de datos de la guerra siria implicaría unas 63.000 millones de comparaciones pareadas, ella dijo.
Shrivastava, profesor asistente de informática en Rice, dijo, "Si hace suposiciones, como que las fechas cercanas pueden ser duplicadas, puede reducir el número de comparaciones necesarias, pero cada suposición viene con un sesgo, y, en última instancia, desea una estimación imparcial. Un enfoque estadístico que evita el sesgo es el muestreo aleatorio. Entonces, tal vez elija 1 millón de pares aleatorios de los 63 mil millones, vea cuántos son duplicados y luego aplique esa tasa a todo el conjunto de datos. Esto produce una estimación insesgada, lo que es bueno, pero la probabilidad de encontrar duplicados puramente al azar es bastante baja, y eso da una gran variación.
"En este caso, por ejemplo, el muestreo aleatorio también podría estimar los recuentos documentados en alrededor de 191, 000, ", dijo." Pero no podía decirnos con certeza si el recuento era 176, 000 o 216, 000 o algún número intermedio.
"En un trabajo reciente, mi laboratorio ha demostrado que los algoritmos hash que se diseñaron originalmente para realizar búsquedas también se pueden utilizar como muestreadores adaptativos que mitigan con precisión la alta varianza asociada con el muestreo aleatorio, ", Dijo Shrivastava.
"Resolver todos los duplicados parece muy atractivo, " él dijo, "pero es la forma más difícil de estimar el número de entidades únicas. La nueva teoría del muestreo adaptativo con hash nos permite estimar directamente los recuentos de entidades únicas de manera eficiente, con mucha confianza, sin resolver los duplicados ".
"Al final del día, Ha sido fenomenal hacer avances metodológicos y algorítmicos motivados por un problema tan importante, ", Dijo Steorts." HRDAG ha allanado el camino. Nuestro objetivo y esperanza es que nuestros esfuerzos resulten útiles para su trabajo ".
Shrivastava y Steorts dijeron que están planeando investigaciones futuras para aplicar la técnica de hash para la aproximación de entidades únicas a otros tipos de conjuntos de datos.