El desarrollo ha comenzado en la plataforma de software Tapis, cuyo objetivo es ayudar a los investigadores a aprovechar más fácilmente las potentes supercomputadoras e integrar y administrar datos de fuentes diferentes y distantes. Crédito:TACC / UH
Los científicos que buscan reducir su complejidad a la investigación y agregar una nueva herramienta computacional a su cinturón de herramientas pueden explorar el Proyecto Tapis. La plataforma de software Tapis tiene como objetivo ayudar a los investigadores a aprovechar más fácilmente las poderosas supercomputadoras e integrar y administrar datos de fuentes diferentes y distantes.
La Fundación Nacional de Ciencias (NSF) otorgó una subvención de $ 2.9 millones al Centro de Computación Avanzada de Texas (TACC) y la Universidad de Texas en Austin (UT Austin), además de un premio de $ 1 millón para la Universidad de Hawaii (UH). Los premios NSF comenzaron en septiembre de 2019 y respaldan el desarrollo continuo de Tapis, abreviatura de TACC-API y representaciones de la palabra tapiz, entrelazando servicios y capacidades. Una interfaz de programación de aplicaciones (API) es una interfaz para un sistema de software que se ha creado o diseñado para que lo utilice otro programa.
"Tapis es una plataforma informática de investigación para la ciencia computacional y la investigación computacional, "dijo el investigador principal (PI) Joe Stubbs, quien gestiona el Grupo de Computación en la Nube e Interactiva en TACC. "Tapis es un sistema de software que ayuda a los investigadores a utilizar las supercomputadoras y otros tipos de recursos informáticos que tenemos aquí en TACC y en otros lugares".
"La forma más sencilla de describir Tapis es que es una aplicación basada en la web que proporciona todas las herramientas que un científico moderno necesita para realizar un uso intensivo de datos, investigación computacionalmente intensiva, "dijo la Co-PI Gwen A. Jacobs, Director de Ciberinfraestructura, Sistema de la Universidad de Hawai'i. "Una de las cosas diferentes de Tapis es que entrelaza todas las herramientas importantes que el investigador necesita. Ese es el verdadero poder de Tapis".
Tapis prestará servicios a un grupo diverso de usuarios con diferente experiencia en el uso de herramientas computacionales para su investigación. En un extremo del espectro estarán los 'usuarios avanzados' con amplia experiencia en programación y recursos informáticos avanzados. Tapis les ayudará a automatizar y optimizar sus grandes flujos de trabajo o canalizaciones de aplicaciones de software.
En el extremo opuesto del espectro, los científicos están comenzando a aprovechar las posibilidades de aplicar la computación avanzada a su investigación. "Lo que intentamos hacer por ellos con Tapis, "dijo Stubbs, "tiene el camino más fácil para entrar en la ejecución de programas computacionales en las supercomputadoras".
Y luego está el grupo en el medio, normalmente grandes proyectos de desarrollo de software centrados en dominios de investigación específicos, como inmunología, astronomía, o bioinformática.
"El objetivo de Tapis es permitir que los investigadores accedan a estos recursos computacionales de una manera más fácil de usar, "dijo Stubbs.
Los recursos computacionales financiados por NSF se describen ampliamente como ciberinfraestructura, el ecosistema en línea compartido por los investigadores, respaldado por recursos informáticos avanzados, alojado en centros de datos, y con el apoyo de expertos. "Los equipos de desarrolladores web y otros desarrolladores en esos proyectos de infraestructura cibernética pueden aprovechar Tapis para construir su proyecto de infraestructura cibernética más rápidamente".
Con estos fines, un ejemplo es la compatibilidad con el marco de trabajo API de TAPIS para la transmisión de datos de sensores, donde en un flujo de trabajo complejo, un evento, como una detección en una matriz de sensores, puede desencadenar otro evento, etcétera, o incluso múltiples rutinas de análisis.
"Computación impulsada por eventos, "explicó Jacobs, "significa que el flujo de trabajo no se ejecuta todo el tiempo. Esa es una gran función para los científicos que tienen que adquirir sus datos de forma esporádica, donde obtienen datos de fuentes como sensores y cargas de datos. Esto significa que no tienen que ejecutar todo el código manualmente. Una vez configurado el flujo de trabajo, puede ser informática manos libres, en cierto sentido, análisis manos libres ".
Tapis integrará el proyecto de servicios de datos en tiempo real alojados en la nube para las geociencias (CHORDS), parte del EarthCube financiado por NSF, para lograr la informática impulsada por eventos.
Las API aplicadas a la ciencia permiten que diferentes sistemas se comuniquen entre sí, en un sentido. "La idea con Tapis, "dijo Stubbs, "es tener una interfaz consumible y legible por máquina para los recursos computacionales, como supercomputadoras, sino también sistemas de almacenamiento de alto rendimiento, como nuestro sistema de almacenamiento Corral, o nuestro sistema de archivos global, Corral de ganado, y otros sistemas de archivos en todo el país. Queremos tener una interfaz a la que se pueda acceder y manipular fácilmente en otros programas ".
Otra característica que ofrecerá Tapis es un nuevo kernel de seguridad, que actúa como una puerta que controla el acceso a los recursos del sistema. El kernel de seguridad de Tapis se descentralizará, permitiendo a los científicos poner en marcha más fácilmente sus propias aplicaciones y retener el control local sobre los datos confidenciales.
"El nuevo kernel de seguridad nos permite ofrecer toda la seguridad gestionada, autenticación, y autorizaciones que se han realizado en el pasado, "dijo el co-investigador principal Sean Cleveland, un científico investigador de infraestructura cibernética en la Universidad de Hawaii. "Pero también permitirá que los centros de datos y las instituciones implementen su propio kernel de seguridad, para que puedan usar sus propias credenciales de usuario y administrar su propia seguridad a su manera, así como implementar componentes individuales del marco en su institución, y poder aprovechar parte del trabajo centralizado. Es nuevo sistema híbrido de uso de la ciencia como servicio, plataforma como servicio, pero si quieres más control y personalización, puede implementar piezas más pequeñas en el sitio y aún poder aprovechar algunas de las más grandes, componentes gestionados para diferentes necesidades ".
Tapis brindará a los usuarios la posibilidad de simplificar el proceso de creación de aplicaciones, una poderosa herramienta para los científicos. "Si puede programar un flujo de trabajo y hacer que ese flujo de trabajo se ejecute en una plataforma como Tapis, que facilita el proceso porque todos los componentes pueden comunicarse entre sí más fácilmente, "dijo Jacobs." Eso significa que el investigador tiene que construir ese flujo de trabajo una vez. Luego, guardan ese flujo de trabajo como una aplicación dentro de la infraestructura de Tapis y lo reutilizan ".
Guardar todos los parámetros del entorno de software también permitirá a los científicos volver atrás y ejecutar el análisis de datos nuevamente en una fecha posterior. que promueve la reproducibilidad científica.
"Esta es realmente una colaboración completa entre TACC y la Universidad de Hawái, "explicó Stubbs.
TACC aporta una amplia experiencia en informática de alto rendimiento y en la construcción de sistemas de software distribuidos. Los propios componentes de Tapis pueden funcionar con productos básicos, o servidores estándar, aunque algunos componentes de TACC se ejecutarán en la nube Jetstream financiada por NSF.
Los miembros del equipo de UH están contribuyendo al desarrollo, diseño, y arquitectura del sistema Tapis. Y lo que es más, brindan acceso a una gran cantidad de investigaciones de dominio importantes exclusivas de Hawái en áreas como el clima, Oceano, los arrecifes de coral, microbioma humano, y estudios de población en torno a las disparidades en salud.
"Tener el proyecto Tapis para nosotros aquí en Hawái es un gran impulso de conciencia para aplicar la ciberinfraestructura avanzada a la ciencia intensiva en datos, "dijo Jacobs." Sin un proyecto como este, muchos de nuestros investigadores podrían no estar al tanto de estos recursos ".
Uno de los principales hitos hacia los que están trabajando los investigadores es un taller de fin de año para los primeros en adoptarlo en el verano de 2020. "La idea es tener el taller al que invitamos a los investigadores a asistir, traer sus conjuntos de datos, para hacer presentaciones sobre su ciencia y casos de uso, sino también para que el equipo de Tapis presente las capacidades del sistema a finales del año uno, "dijo Stubbs.
"Estamos muy emocionados de lanzar el nuevo proyecto Tapis financiado por NSF, "dijo el Co-PI Maytal Dahan, Director de Interfaces de Computación Avanzada en TACC. "Tapis transformará la productividad de los científicos al facilitar el descubrimiento, acceso y uso de poderosas capacidades y servicios de ciberinfraestructura. Queremos reducir la complejidad para lograr ciencia y mejorar el tiempo hasta la ciencia ofreciendo una variedad de servicios de API seguros y robustos que pueden ayudar a nuestros usuarios en un entorno de calidad de producción.
El equipo de TACC trabajará en varios aspectos del proyecto:desarrollo de un núcleo de seguridad, API de transmisión de datos e integración, aseguramiento de la calidad y pruebas de integración continua, superar a, formación y desarrollo de la fuerza laboral. Estoy muy orgulloso del equipo tanto en TACC como en UH, y todos estamos entusiasmados de trabajar junto con la comunidad científica desde el inicio a través de nuestro programa de primeros usuarios para crear servicios que tengan un impacto positivo en la comunidad científica ".
El proyecto Tapis se financia como parte de la Cyberinfrastructure for Sustained Innovation (CSSI), un programa NSF transversal dirigido por la Oficina de Infraestructura Cibernética Avanzada (OAC). "CSSI apoya el desarrollo de una ciberinfraestructura innovadora que permite a las comunidades de investigadores continuar y acelerar los avances en todos los dominios de ciencia e ingeniería fundamentales respaldados por NSF, "dijo el Dr. Stefan Robila, el Director del Programa en OAC que gestiona el premio. "Al aprovechar el trabajo anterior y aprovechar los recursos computacionales de liderazgo existentes, como los disponibles en TACC, Tapis contribuye al fortalecimiento continuo de la ciberinfraestructura nacional, al mismo tiempo que bajamos las barreras para acceder a él ".