Investigadores del Smithsonian clasificaron hojas de herbario digitalizadas que se tiñeron con mercurio para construir un conjunto de datos de entrenamiento. Crédito:Paul B. Frandsen, Smithsonian
Millones si no miles de millones, de los especímenes residen en las colecciones de historia natural del mundo, pero la mayoría de estos no se han estudiado cuidadosamente, o incluso mirado, en décadas. Si bien contiene datos críticos para muchos esfuerzos científicos, la mayoría de los objetos están sentados en silencio en sus propios pequeños gabinetes de curiosidad.
Por lo tanto, La digitalización masiva de colecciones de historia natural se ha convertido en un objetivo importante en los museos de todo el mundo. Habiendo reunido a numerosos biólogos, curadores, voluntarios y ciudadanos científicos, Estas iniciativas ya han generado grandes conjuntos de datos a partir de estas colecciones y han proporcionado información sin precedentes.
Ahora, un estudio, publicado recientemente en el acceso abierto Diario de datos de biodiversidad , sugiere que los últimos avances tanto en digitalización como en aprendizaje automático podrían ayudar a los curadores de museos en sus esfuerzos por cuidar y aprender de este increíble recurso global.
Un equipo de investigadores del Departamento de Botánica del Smithsonian, Laboratorio de ciencia de datos, y la Oficina del Programa de Digitalización colaboraron recientemente con NVIDIA para llevar a cabo un proyecto piloto utilizando enfoques de aprendizaje profundo para excavar en especímenes de herbario digitalizados.
Su estudio es uno de los primeros en describir el uso de métodos de aprendizaje profundo para mejorar nuestra comprensión de las muestras de colecciones digitalizadas. También es el primero en demostrar que una red neuronal convolucional profunda, un sistema informático modelado a partir de la actividad neuronal en el cerebro de los animales que básicamente puede aprender por sí solo, puede diferenciar efectivamente entre plantas similares con una asombrosa precisión de casi el 100%.
El Herbario Nacional de EE. UU. En el Museo Nacional de Historia Natural del Smithsonian en Washington, Crédito de D.C.:Chip Clark, Smithsonian
En el papel, los científicos describen dos redes neuronales diferentes que entrenaron para realizar tareas en la parte digitalizada (actualmente 1,2 millones de especímenes) del Herbario Nacional de los Estados Unidos.
El equipo primero entrenó una red para reconocer automáticamente las hojas de herbario que habían sido teñidas con cristales de mercurio. ya que el mercurio fue utilizado comúnmente por algunos recolectores tempranos para proteger las colecciones de plantas del daño causado por los insectos. La segunda red fue entrenada para discriminar entre dos familias de plantas que comparten una apariencia superficial sorprendentemente similar.
Las redes neuronales entrenadas funcionaron con 90% y 96% de precisión respectivamente (o 94% y 99% si se descartaban las muestras más desafiantes), confirmando que el aprendizaje profundo es una tecnología útil e importante para el análisis futuro de las colecciones de museos digitalizadas.
Las colecciones digitalizadas combinadas con el aprendizaje profundo nos ayudarán a automatizar una tarea humana de identificar un número desconocido de hojas de muestras manchadas en una colección de más de 5 millones. Consulte http://collections.si.edu. Crédito:Institución Smithsonian
"Los resultados se pueden aprovechar tanto para mejorar la curación como para desbloquear nuevas vías de investigación, "concluyen los científicos.
"Este artículo de investigación es una maravillosa prueba de concepto. Ahora sabemos que podemos aplicar el aprendizaje automático a especímenes de historia natural digitalizados para resolver problemas curatoriales y de identificación. El futuro será el uso de estas herramientas combinadas con grandes conjuntos de datos compartidos para probar hipótesis fundamentales sobre la evolución y distribución de plantas y animales, "dice el Dr. Laurence J. Dorr, Presidente del Departamento de Botánica del Smithsonian y coautor del estudio.