El equipo, dirigido por el profesor de informática Jure Leskovec, creó un sistema llamado "Data Wrangler" que puede limpiar y transformar automáticamente datos sin procesar en un formato más accesible y utilizable.
"Los datos gubernamentales en bruto son a menudo confusos y difíciles de entender", afirmó Leskovec. "Nuestro objetivo era crear una herramienta que pudiera hacer que estos datos sean más accesibles para las personas que quieran utilizarlos para investigación, periodismo u otros fines".
Data Wrangler funciona utilizando una variedad de técnicas de procesamiento de lenguaje natural y aprendizaje automático para identificar y corregir errores en los datos, así como para extraer información significativa del texto.
El sistema se puede utilizar para analizar una amplia variedad de datos gubernamentales, incluidos registros financieros, estadísticas sobre delitos y datos ambientales.
Leskovec y su equipo ya han utilizado Data Wrangler para analizar varios conjuntos de datos grandes, incluida la Encuesta sobre la Comunidad Estadounidense de la Oficina del Censo de EE. UU. y los datos de detención y registro del Departamento de Policía de la ciudad de Nueva York.
Los resultados de estos análisis se han publicado en varias revistas académicas y han sido utilizados por periodistas y responsables políticos para fundamentar su trabajo.
"Creemos que Data Wrangler tiene el potencial de revolucionar la forma en que la gente utiliza los datos gubernamentales", afirmó Leskovec. "Al hacer que estos datos sean más accesibles y utilizables, podemos capacitar a las personas para que tomen mejores decisiones sobre sus vidas y sus comunidades".
La investigación del equipo fue publicada en la revista "Nature Machine Intelligence".