Crédito:CC0 Dominio público
En los últimos años, el crowdsourcing, que implica reclutar miembros del público para ayudar a recopilar datos, ha sido tremendamente útil para proporcionar a los investigadores conjuntos de datos únicos y ricos, al mismo tiempo que involucra al público en el proceso de descubrimiento científico. En un nuevo estudio, un equipo internacional de investigadores ha explorado cómo los proyectos de crowdsourcing pueden hacer el uso más eficaz de las contribuciones de los voluntarios.
Las actividades de recopilación de datos a través del crowdsourcing van desde actividades de campo, como la observación de aves, hasta actividades en línea, como la clasificación de imágenes para proyectos como el exitoso Galaxy Zoo, en el que los participantes clasifican las formas de las galaxias; y Geo-Wiki, donde las imágenes satelitales se interpretan para la cobertura del suelo, el uso del suelo y los indicadores socioeconómicos. Sin embargo, recibir aportes de tantos participantes que analizan un conjunto de imágenes plantea preguntas sobre cuán precisas son realmente las respuestas enviadas. Si bien existen métodos para garantizar la precisión de los datos recopilados de esta manera, a menudo tienen implicaciones para las actividades de crowdsourcing, como el diseño de muestreo y los costos asociados.
En su estudio recién publicado en la revista PLoS ONE , investigadores de IIASA y colegas internacionales exploraron la cuestión de la precisión al investigar cuántas calificaciones de una tarea deben completarse antes de que los investigadores puedan estar razonablemente seguros de la respuesta correcta.
"Muchos tipos de investigación con participación pública implican que los voluntarios clasifiquen imágenes que son difíciles de distinguir para las computadoras de manera automática. Sin embargo, cuando una tarea debe ser repetida por muchas personas, la asignación de tareas a las personas que las realizan más eficiente si está seguro de la respuesta correcta. Esto significa que se desperdicia menos tiempo de los voluntarios o evaluadores pagados, y los científicos u otras personas que solicitan las tareas pueden obtener más de los recursos limitados disponibles para ellos ", explica Carl Salk, ex alumno de la Programa de Verano de Jóvenes Científicos de IIASA (YSSP) y colaborador de IIASA desde hace mucho tiempo actualmente asociado con la Universidad Sueca de Ciencias Agrícolas.
Los investigadores desarrollaron un sistema para estimar la probabilidad de que la respuesta mayoritaria a una tarea sea incorrecta, y luego dejaron de asignar la tarea a nuevos voluntarios cuando esa probabilidad se volvió lo suficientemente baja, o la probabilidad de obtener una respuesta clara se volvió baja. Demostraron este proceso utilizando un conjunto de más de 4,5 millones de clasificaciones únicas realizadas por 2.783 voluntarios de más de 190.000 imágenes evaluadas por la presencia o ausencia de tierras de cultivo. Los autores señalan que si su sistema se hubiera implementado en la campaña original de recolección de datos, habría eliminado la necesidad de 59.4% de calificaciones de voluntarios, y que si el esfuerzo se hubiera aplicado a nuevas tareas, habría permitido más del doble de cantidad de imágenes a clasificar con la misma cantidad de trabajo. Esto muestra cuán efectivo puede ser este método para hacer un uso más eficiente de las contribuciones voluntarias limitadas.
Según los investigadores, este método se puede aplicar a casi cualquier situación en la que se requiera una clasificación (binaria) de sí o no, y la respuesta puede no ser muy obvia. Los ejemplos podrían incluir la clasificación de otros tipos de uso de la tierra, por ejemplo:"¿Hay bosque en esta imagen?"; identificar especies preguntando:"¿Hay un pájaro en esta imagen?"; o incluso el tipo de tareas "ReCaptcha" que hacemos para convencer a los sitios web de que somos humanos, como "¿Hay un semáforo en esta imagen?" El trabajo también puede contribuir a responder mejor preguntas que son importantes para los formuladores de políticas, como cuánta tierra en el mundo se usa para cultivos.
"A medida que los científicos de datos recurren cada vez más a las técnicas de aprendizaje automático para la clasificación de imágenes, el uso del crowdsourcing para crear bibliotecas de imágenes para la capacitación continúa ganando importancia. Este estudio describe cómo optimizar el uso de la multitud para este propósito, brindando una guía clara sobre cuándo volver a enfocarse. los esfuerzos cuando se alcanza el nivel de confianza necesario o cuando una imagen en particular es demasiado difícil de clasificar", concluye el coautor del estudio, Ian McCallum, quien dirige el Grupo de Investigación de Nuevos Ecosistemas de Datos para la Sustentabilidad en IIASA.