• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  •  science >> Ciencia >  >> Naturaleza
    Los investigadores crean una plataforma novedosa para estandarizar los datos de paleoclimatología

    Investigadores de ISI y USC Dornsife crean una plataforma novedosa para estandarizar los datos de paleoclimatología. Crédito:Cassidy Joyes CC-BY-SA-4.0

    A veces, las cosas menos relacionadas pueden producir los resultados más innovadores. Llevar, por ejemplo, aikido, un arte marcial japonés que puede traducirse como la "forma de unificar la energía", y la paleoclimatología, un campo científico que examina la evolución del clima.

    Julien Emile-Geay, profesor asociado en el Departamento de Ciencias de la Tierra de la Facultad de Letras Dornsife de la USC, Artes y Ciencias, Probé directamente esto en 2011 cuando me quedé con un amigo en un campamento de aikido en San Francisco. Su amigo estaba desarrollando bases de datos semánticas para datos biomédicos y Emile-Geay descubrió que este enfoque también podría funcionar para los datos extremadamente idiosincrásicos recopilados por paleoclimatólogos.

    Después de un encuentro fortuito en 2012 con Yolanda Gil, director de Tecnologías del Conocimiento en el Instituto de Ciencias de la Información (ISI) de la USC y profesor de investigación en el Departamento de Ciencias de la Computación de la USC Viterbi, los investigadores crearon una propuesta para integrar la experiencia en IA de Gil con la experiencia en ciencias de la tierra de Emile-Geay, desarrollar una nueva plataforma que brinde a los paleoclimatólogos una forma de unificar los conjuntos de datos dispares de los datos del paleoclima, estilo aikido.

    Junto con Emile-Geay, el grupo de paleoclimatología incluye a Deborah Khider, un postdoctorado en el Departamento de Ciencias de la Tierra de la USC y científico de datos de ISI, y Nicholas McKay, profesor asociado de la Facultad de Ciencias de la Tierra y Sostenibilidad Ambiental de la Universidad del Norte de Arizona. En el lado de la IA, Gil colaboró ​​con Daniel Garijo y Varun Ratnakar, informático y programador de investigación en ISI, respectivamente. Los equipos trabajaron para crear un nuevo enfoque para estandarizar los datos de paleoclimatología para que los científicos de la Tierra puedan predecir mejor el clima futuro para comprender las causas y los efectos del cambio climático.

    Su investigación fue un artículo destacado en la American Geophysicist's Union (AGU) Paleoceanografía y Paleoclimatología revista y fue destacado en la conferencia del centenario de AGU, celebrado del 9 al 13 de diciembre en San Francisco.

    Los Wranglers solitarios

    La paleoclimatología es el estudio de la historia del clima, con investigadores que utilizan huellas e indicadores para reconstruir climas pasados. Estos indicadores suelen ser muestras físicas recolectadas de fuentes naturales, como los núcleos de hielo de los glaciares, tres anillos, conchas depósitos de cuevas, y sedimentos de lagos y océanos. Después de integrar los diversos conjuntos de datos resultantes, los investigadores pueden reconstruir las variables climáticas, como temperaturas y niveles de lluvia. Al recrear climas pasados, Los científicos de la Tierra pueden predecir los climas futuros.

    Ejemplo de encuestas en (a) la plataforma LinkedEarth y (b) Twitter (@Linked_Earth). Crédito: Paleoceanografía y Paleoclimatología

    Sin embargo, irónicamente, Un problema importante de la disciplina radica en uno de sus puntos fuertes:la diversidad de conjuntos de datos. Si bien los diversos conjuntos de datos ayudan a la creación de complicadas simulaciones de modelos para ayudar a los investigadores a comprender la progresión del clima, las idiosincrasias de cada conjunto de datos pueden ser difíciles de integrar.

    Los científicos de la Tierra tienen sus propios enfoques, procesos, y métodos de recopilación y codificación de datos que no siempre pueden ser complementarios o intuitivos, y transformar los datos en un formato utilizable para la investigación y el análisis, o "disputa de datos, "puede ser una tarea engorrosa. Algunos investigadores pueden dedicar hasta el 80% de su tiempo a discutir datos, como identificar valores atípicos y faltantes o buscar registros dispersos en múltiples bases de datos. La necesidad de estandarización en el campo era clara. "¡La vida sin normas es miserable!" Dijo Emile-Geay. "Imagine que necesita un tipo de enchufe diferente para cada elemento de su casa; ese es actualmente el estado de los datos del paleoclima, obligando a las personas que inician su carrera y desean integrar sus datos a pasar meses de su vida reinventando la rueda cada vez que hacen algo ". Especialmente porque la financiación es cada vez más escasa, Emile-Geay señaló, esta disputa de datos es esencialmente una pérdida de tiempo. "Estábamos hartos y cansados ​​de eso y queríamos evitar que las generaciones futuras desperdiciaran sus cerebros de doctorado de esa manera".

    Un enfoque socio-técnico

    Para abordar estas preocupaciones, los equipos de paleoclimatología e inteligencia artificial desarrollaron una plataforma novedosa. Esta nueva plataforma es parte del proyecto LinkedEarth de NSF (financiado por EarthCube), y se basa en un enfoque de "crowdsourcing controlado", donde la multitud (es decir, los expertos en paleoclimatología que utilizan el sistema) pueden desarrollar términos, o propiedades, para codificar sus datos, que luego se ponen a disposición de otros usuarios de inmediato. Al crear nuevas propiedades, los usuarios pueden elegir los términos adecuados para definir el conjunto de datos con el que están trabajando.

    El proceso se controla porque un grupo selecto de usuarios que representan una amplia gama de campos de la paleoclimatología establecen un consejo editorial, que revisa las solicitudes de propiedades nuevas o modificadas y determina si las propuestas de los usuarios se incorporarán al Estándar de Informes de la Comunidad Paleoclima, o PaCTS. Todas las decisiones tomadas con respecto a PaCTS involucran el aporte de investigadores de paleoclimatología, haciéndolo transparente, Esfuerzo comunitario inclusivo y genuino.

    El sistema implementa IA para ayudar a establecer vínculos entre los datos y hacerlos más accesibles. "Las técnicas de IA que utilizamos son tecnologías semánticas que nos permiten representar el conocimiento científico, ", explicó Gil." También construimos lo que llamamos el "gráfico de conocimiento de la Tierra Vinculada" que expresa conexiones entre conjuntos de datos, investigadores, ubicaciones, publicaciones, etc. "Ella notó que, Adicionalmente, los usuarios pueden realizar "consultas sofisticadas de las ontologías y el gráfico de conocimiento para acceder fácilmente a los datos que les interesan".

    La plataforma se describe como un sistema socio-técnico. Junto con todos los aspectos técnicos, el enfoque tiene fuertes aspectos sociales, ya que el valor de la plataforma se basa en el intercambio de información. Un incentivo clave para los usuarios es que reciben reconocimiento por todo lo que aportan a la plataforma, que se rastrea y se muestra en sus páginas de perfil. Adicionalmente, pueden cargar especificaciones de metadatos y conjuntos de datos existentes en múltiples formatos estándar, haciendo que sea más fácil contribuir a, acceso, y unifica los datos.

    Ejemplo de una pregunta de encuesta para un nuevo conjunto de datos. El histograma representa el número de votos en cada plataforma (naranja:LinkedEarth, morado:Twitter, y verde:encuesta de Google). El gráfico circular representa la fracción de los votos para esencial (verde), recomendado (rosa), y deseado (azul). Crédito: Paleoceanografía y Paleoclimatología

    Estableciendo el estándar

    Desarrollar la plataforma no fue un paseo por el parque. Khider explicó, "Uno de los desafíos fue idear el marco para el estándar, "que se compone de tres elementos:representación de datos, requisitos de vocabulario y presentación de informes. "El segundo [desafío] fue involucrar a la comunidad, ", continuó." Todos queremos estándares para hacer avanzar la ciencia, pero nadie realmente quiere hablar de ellos ". Otro problema fue averiguar dónde y cómo empezar. Como señaló Khider, "En el final, decidimos que el estándar debería reflejar las necesidades de una comunidad específica para poder realizar la ciencia más rigurosa y emocionante ".

    También hubo obstáculos desde la perspectiva de la IA. "El mayor desafío es que el conocimiento científico siempre está evolucionando, para que los científicos comprendan mejor los datos y sus modelos, pueden cambiar la forma en que quieren que se describan y organicen los datos en la plataforma Linked Earth, Gil dijo:"[Necesitábamos] adaptar la evolución de las ontologías y el gráfico de conocimiento sin perder el trabajo que los usuarios habían realizado en la plataforma utilizando versiones anteriores de ese conocimiento".

    Pero el trabajo duro valió la pena. No es sorprendente, la plataforma ha recibido comentarios positivos de la comunidad paleoclima. A partir de 2019, el wiki de crowdsourcing controlado tiene 692 conjuntos de datos, con 150 usuarios registrados y más de 50 colaboradores. Más de 14, Se han creado 000 páginas, a medida que los equipos de paleoclimatología e inteligencia artificial continúan su trabajo para mejorar la plataforma e involucrar a más usuarios.

    El reconocimiento de la AGU se produjo después de la implementación del proyecto. "Los editores de Paleoceanografía y Paleoclimatología fueron fundamentales para lograr la visibilidad de este proyecto dentro de la comunidad al seleccionar el manuscrito para su serie Grand Challenges, "Khider comentó." Tener a los editores presionando por los estándares está ayudando a la participación de la comunidad para la segunda versión del estándar, ya que ven interés en este tipo de trabajos ".

    La plataforma también se puede aplicar a otros campos. "Estamos utilizando [la plataforma] ahora para describir datos de neurociencia en un proyecto financiado por los NIH que tenemos con la colaboración de ENIGMA, ", dijo Gil." Un aspecto novedoso de este dominio es que cada conjunto de datos describe los datos de una cohorte de personas que forman parte de un estudio, y contiene una colección de observaciones y no solo una en particular ".

    Es más, PaCTS es solo un tercio del proceso de estandarización, ya que tiene en cuenta los requisitos de presentación de informes. La estandarización de la representación y la terminología de los datos completan el proceso. Este último implica vocabulario y ortografía asociada, Khider señaló, ya que la mayoría de las bases de datos contienen conceptos idénticos explicados de diferentes maneras, lo que puede dificultar la consulta de un conjunto de datos en particular. "El siguiente paso más obvio es construir una biblioteca de cuadernos ejemplares que muestren cómo estos estándares y códigos ayudan a resolver problemas comunes de investigación en paleoclimatología, y cómo abren la puerta a nuevas investigaciones, ", Dijo Emile-Geay." Ahora es el momento de hacer que estos estándares funcionen para [los científicos] ".


    © Ciencia https://es.scienceaq.com