• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • El conjunto de datos del centro de supercomputación tiene como objetivo acelerar la investigación de inteligencia artificial para optimizar los sistemas informáticos de alto rendimiento

    Crédito:Pixabay/CC0 Dominio público

    Cuando el Centro de Supercomputación del Laboratorio Lincoln del MIT (LLSC) presentó su supercomputadora TX-GAIA en 2019, proporcionó a la comunidad del MIT un nuevo y poderoso recurso para aplicar la inteligencia artificial a su investigación. Cualquiera en el MIT puede enviar un trabajo al sistema, que procesa trillones de operaciones por segundo para entrenar modelos para diversas aplicaciones, como detectar tumores en imágenes médicas, descubrir nuevos medicamentos o modelar efectos climáticos. Pero con este gran poder viene la gran responsabilidad de administrarlo y operarlo de manera sostenible, y el equipo está buscando formas de mejorar.

    "Tenemos estas poderosas herramientas computacionales que permiten a los investigadores construir modelos complejos para resolver problemas, pero básicamente se pueden usar como cajas negras. Lo que se pierde allí es si realmente estamos usando el hardware de la manera más efectiva posible", dice Siddharth Samsi. , científico investigador del LLSC.

    Para obtener información sobre este desafío, el LLSC ha estado recopilando datos detallados sobre el uso de TX-GAIA durante el último año. Después de más de un millón de trabajos de usuarios, el equipo ha lanzado el conjunto de datos de código abierto a la comunidad informática.

    Su objetivo es capacitar a los científicos informáticos y los operadores de centros de datos para comprender mejor las vías de optimización de los centros de datos, una tarea importante a medida que las necesidades de procesamiento continúan creciendo. También ven potencial para aprovechar la IA en el propio centro de datos, mediante el uso de los datos para desarrollar modelos para predecir puntos de falla, optimizar la programación de trabajos y mejorar la eficiencia energética. Si bien los proveedores de la nube están trabajando activamente para optimizar sus centros de datos, a menudo no ponen sus datos o modelos a disposición de la comunidad más amplia de computación de alto rendimiento (HPC) para que los aproveche. El lanzamiento de este conjunto de datos y el código asociado busca llenar este espacio.

    "Los centros de datos están cambiando. Tenemos una explosión de plataformas de hardware, los tipos de cargas de trabajo están evolucionando y los tipos de personas que usan los centros de datos están cambiando", dice Vijay Gadepally, investigador principal del LLSC. "Hasta ahora, no ha habido una gran manera de analizar el impacto en los centros de datos. Vemos esta investigación y conjunto de datos como un gran paso para llegar a un enfoque basado en principios para comprender cómo estas variables interactúan entre sí y luego aplicar IA para obtener información y mejoras".

    Los documentos que describen el conjunto de datos y las posibles aplicaciones han sido aceptados en varios lugares, incluido el Simposio internacional IEEE sobre arquitectura informática de alto rendimiento, el Simposio internacional de procesamiento paralelo y distribuido de IEEE, la Conferencia anual del Capítulo norteamericano de la Asociación de computación. Lingüística, la Conferencia de Computación Embebida y de Alto Rendimiento del IEEE y la Conferencia Internacional de Computación, Redes, Almacenamiento y Análisis de Alto Rendimiento.

    Clasificación de la carga de trabajo

    Entre las supercomputadoras TOP500 del mundo, TX-GAIA combina hardware informático tradicional (unidades centrales de procesamiento o CPU) con casi 900 aceleradores de unidades de procesamiento de gráficos (GPU). Estas GPU NVIDIA están especializadas para el aprendizaje profundo, la clase de IA que ha dado lugar al reconocimiento de voz y la visión artificial.

    El conjunto de datos cubre el uso de CPU, GPU y memoria por trabajo; registros de programación; y datos de seguimiento físico. En comparación con conjuntos de datos similares, como los de Google y Microsoft, el conjunto de datos LLSC ofrece "datos etiquetados, una variedad de cargas de trabajo de IA conocidas y datos de series temporales más detallados en comparación con conjuntos de datos anteriores. Hasta donde sabemos, es uno de los más completos y conjuntos de datos detallados disponibles", dice Gadepally.

    En particular, el equipo recopiló datos de series temporales con un nivel de detalle sin precedentes:intervalos de 100 milisegundos en cada GPU e intervalos de 10 segundos en cada CPU, mientras las máquinas procesaban más de 3000 trabajos de aprendizaje profundo conocidos. Uno de los primeros objetivos es utilizar este conjunto de datos etiquetados para caracterizar las cargas de trabajo que los diferentes tipos de trabajos de aprendizaje profundo colocan en el sistema. Este proceso extraería características que revelarían diferencias en la forma en que el hardware procesa los modelos de lenguaje natural frente a la clasificación de imágenes o los modelos de diseño de materiales, por ejemplo.

    El equipo ahora ha lanzado el MIT Datacenter Challenge para movilizar esta investigación. El desafío invita a los investigadores a utilizar técnicas de IA para identificar con un 95 % de precisión el tipo de trabajo que se ejecutó, utilizando sus datos de series temporales etiquetados como datos reales.

    Estos conocimientos podrían permitir que los centros de datos coincidan mejor con la solicitud de trabajo de un usuario con el hardware más adecuado para ello, lo que podría ahorrar energía y mejorar el rendimiento del sistema. La clasificación de las cargas de trabajo también podría permitir a los operadores notar rápidamente las discrepancias resultantes de fallas de hardware, patrones de acceso a datos ineficientes o uso no autorizado.

    Demasiadas opciones

    Hoy en día, el LLSC ofrece herramientas que permiten a los usuarios enviar su trabajo y seleccionar los procesadores que desean usar, "pero hay muchas conjeturas por parte de los usuarios", dice Samsi. "Alguien podría querer usar la última GPU, pero tal vez su computación en realidad no la necesite y podría obtener resultados impresionantes en CPU o máquinas de menor potencia".

    El profesor Devesh Tiwari de la Northeastern University está trabajando con el equipo de LLSC para desarrollar técnicas que puedan ayudar a los usuarios a hacer coincidir sus cargas de trabajo con el hardware apropiado. Tiwari explica que la aparición de diferentes tipos de aceleradores de IA, GPU y CPU ha dejado a los usuarios con demasiadas opciones. Sin las herramientas adecuadas para aprovechar esta heterogeneidad, se están perdiendo los beneficios:mejor rendimiento, menores costos y mayor productividad.

    "Estamos solucionando esta misma brecha de capacidad, haciendo que los usuarios sean más productivos y ayudándolos a hacer ciencia mejor y más rápido sin preocuparse por administrar hardware heterogéneo", dice Tiwari. "Mi estudiante de doctorado, Baolin Li, está creando nuevas capacidades y herramientas para ayudar a los usuarios de HPC a aprovechar la heterogeneidad casi de manera óptima sin la intervención del usuario, utilizando técnicas basadas en la optimización bayesiana y otros métodos de optimización basados ​​en el aprendizaje. Pero esto es solo lo Estamos buscando formas de introducir heterogeneidad en nuestros centros de datos en un enfoque basado en principios para ayudar a nuestros usuarios a lograr la máxima ventaja de la heterogeneidad de forma autónoma y rentable".

    La clasificación de la carga de trabajo es el primero de muchos problemas que se plantean a través del Datacenter Challenge. Otros incluyen el desarrollo de técnicas de IA para predecir fallas en el trabajo, conservar energía o crear enfoques de programación de trabajos que mejoren la eficiencia de enfriamiento del centro de datos.

    Ahorro de energía

    Para movilizar la investigación hacia una computación más ecológica, el equipo también planea publicar un conjunto de datos ambientales de las operaciones de TX-GAIA, que contiene la temperatura del rack, el consumo de energía y otros datos relevantes.

    Según los investigadores, existen grandes oportunidades para mejorar la eficiencia energética de los sistemas HPC que se utilizan para el procesamiento de IA. Como ejemplo, un trabajo reciente en el LLSC determinó que un simple ajuste de hardware, como limitar la cantidad de energía que puede consumir una GPU individual, podría reducir el costo de energía de entrenar un modelo de IA en un 20 por ciento, con solo aumentos modestos en el tiempo de cómputo. "Esta reducción se traduce en aproximadamente el valor de una semana completa de energía doméstica por un aumento de tiempo de solo tres horas", dice Gadepally.

    También han estado desarrollando técnicas para predecir la precisión del modelo, de modo que los usuarios puedan terminar rápidamente los experimentos que probablemente no produzcan resultados significativos, ahorrando energía. El Datacenter Challenge compartirá datos relevantes para permitir a los investigadores explorar otras oportunidades para conservar energía.

    El equipo espera que las lecciones aprendidas de esta investigación puedan aplicarse a los miles de centros de datos operados por el Departamento de Defensa de EE. UU.

    Otros colaboradores incluyen investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL). El grupo de investigación de supertecnología del profesor Charles Leiserson está investigando técnicas de mejora del rendimiento para la computación paralela, y el científico investigador Neil Thompson está diseñando estudios sobre formas de impulsar a los usuarios del centro de datos hacia un comportamiento respetuoso con el clima.

    Samsi presentó este trabajo en el taller inaugural de IA para la optimización de centros de datos (ADOPT'22) la primavera pasada como parte del Simposio internacional de procesamiento paralelo y distribuido de IEEE. El taller presentó oficialmente su Datacenter Challenge a la comunidad de HPC.

    "Esperamos que esta investigación nos permita a nosotros y a otros que administran centros de supercomputación responder mejor a las necesidades de los usuarios y, al mismo tiempo, reducir el consumo de energía a nivel del centro", dice Samsi. + Explora más

    Primeros estudios con Quantum Machine Learning en LHCb

    Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre investigación, innovación y enseñanza del MIT.




    © Ciencia https://es.scienceaq.com