Crédito:CC0 Public Domain
La revolución de las microcomputadoras de la década de 1970 desencadenó una expansión similar a la del salvaje oeste de las computadoras personales en la década de 1980. A lo largo de la década, docenas de dispositivos informáticos personales, desde Atari hasta Xerox Alto, inundó el mercado. Las CPU y los microprocesadores avanzaron rápidamente, con nuevas generaciones que salen mensualmente.
En medio de todo ese crecimiento, no existía un método estándar para comparar el rendimiento de una computadora con la de otra. Sin esto, Los consumidores no solo no sabrían qué sistema era mejor para sus necesidades, sino que los diseñadores de computadoras no tenían un método estándar para probar sus sistemas.
Eso cambió en 1988, cuando se estableció la Corporación de Evaluación de Desempeño Estándar (SPEC) para producir, mantener y respaldar un conjunto estandarizado de parámetros de rendimiento para computadoras. Piense en los puntos de referencia como pruebas estandarizadas para computadoras. Como los SAT o TOEFL, Los puntos de referencia están destinados a proporcionar un método de comparación entre participantes similares pidiéndoles que realicen las mismas tareas.
Desde SPEC, Han surgido docenas de organizaciones de evaluación comparativa para proporcionar un método para comparar el rendimiento de varios sistemas en diferentes arquitecturas de programas y chips.
Hoy dia, hay un nuevo salvaje oeste en el aprendizaje automático. En la actualidad, Hay al menos 40 empresas de hardware diferentes preparadas para abrir nuevos caminos en las nuevas arquitecturas de procesadores de IA.
"Algunas de estas empresas subirán pero muchas caerán, "dijo Vijay Janapa Reddi, Profesor Asociado de Ingeniería Eléctrica en la Escuela de Ingeniería y Ciencias Aplicadas John A. Paulson de Harvard (SEAS). "El desafío es cómo podemos saber si una pieza de hardware es mejor que otra. Ahí es donde los estándares de referencia se vuelven importantes".
Janapa Reddi es uno de los líderes de MLPerf, una suite de evaluación comparativa de aprendizaje automático. ML Perf comenzó como una colaboración entre investigadores de Baidu, Berkeley, Google, Harvard, y Stanford y ha crecido hasta incluir muchas empresas, una gran cantidad de universidades, junto con cientos de participantes individuales en todo el mundo. Otros contribuyentes de Harvard incluyen a David Brooks, el profesor de informática de la familia Haley en SEAS y Gu-Yeon Wei, el profesor de caso Robert y Suzanne de Ingeniería Eléctrica e Informática en SEAS.
El objetivo de ML Perf es crear un punto de referencia para medir el rendimiento de los marcos de software de aprendizaje automático, aceleradores de hardware de aprendizaje automático, y plataformas de computación perimetral y en la nube de aprendizaje automático.
Hablamos con Janapa Reddi sobre MLPerf y el futuro de la evaluación comparativa para el aprendizaje automático.
MARES:Primero, ¿Cómo funciona la evaluación comparativa para el aprendizaje automático?
Janapa Reddi:En su forma más simple, un estándar de referencia es una definición estricta de una tarea de aprendizaje automático, digamos clasificación de imágenes. Usando un modelo que implementa esa tarea, como ResNet50, y un conjunto de datos, como COCO o ImageNet, el modelo se evalúa con una precisión objetivo o métrica de calidad que debe lograr cuando se ejecuta con el conjunto de datos.
SEAS:¿Cómo influye la evaluación comparativa en su investigación en SEAS?
Janapa Reddi:Personalmente, Me interesa la evaluación comparativa de sistemas de aprendizaje automático autónomos y "diminutos".
Los vehículos autónomos dependen en gran medida del aprendizaje automático para el procesamiento de la visión, fusión de sensores y más. El maletero de un automóvil autónomo contiene más de 2, 500 vatios de potencia informática. Solo para poner eso en contexto, un teléfono inteligente usa 3 vatios, y su computadora portátil promedio usa 25 Watts. Entonces, estos vehículos autónomos consumen una cantidad significativa de energía, gracias en parte a todo el aprendizaje automático en el que confían. My Edge Computing Lab está interesado en reducir ese consumo de energía, sin dejar de superar los límites de todas las capacidades de procesamiento que se necesitan, aprendizaje automático y todo incluido.
En el otro extremo del espectro se encuentran los dispositivos "diminutos". Piense en pequeños microcontroladores que consumen milivatios de potencia que se pueden tirar y olvidar. Los microcontroladores diminutos de hoy son dispositivos pasivos con poca o ninguna inteligencia incorporada. Pero "TinyML" es un concepto emergente que se centra en el aprendizaje automático para pequeños microcontroladores integrados. Mi grupo está estudiando cómo podemos habilitar TinyML ya que vemos muchos usos diversos. Los dispositivos TinyML pueden monitorear su salud de manera inteligente, o pequeños drones que caben en la palma de su mano pueden navegar a través de espacios reducidos en caso de que se derrumbe un edificio para operaciones de búsqueda y rescate, y volar entre árboles y hojas para monitorear la salud de los cultivos de los agricultores y mantener alejadas las plagas
Estos son dos dominios que me interesan mucho, específicamente en el contexto de los sistemas de aprendizaje automático, porque hay varios problemas de investigación interesantes para resolver que se extienden más allá del rendimiento del hardware de aprendizaje automático e incluyen el diseño e implementación del software del sistema de aprendizaje automático.
SEAS:¿Qué lecciones puede extraer el aprendizaje automático de los esfuerzos de evaluación comparativa anteriores? como los iniciados por SPEC hace tres décadas?
Janapa Reddi:A lo largo de los años, La CPU SPEC ha sido impulsada por un consorcio de diferentes socios de la industria que se unen para determinar un conjunto de cargas de trabajo que pueden conducir a resultados de evaluación comparativa justos y útiles. Por eso, Las cargas de trabajo de SPEC se han convertido en un estándar en la investigación y el mundo académico para medir y comparar el rendimiento de la CPU. Como a menudo le gusta señalar a David Patterson, un renombrado arquitecto informático y ganador del Premio Turing 2017, Las cargas de trabajo de SPEC llevaron a la edad de oro del diseño de microprocesadores.
Podemos tomar prestadas algunas lecciones de SPEC y aplicarlas al aprendizaje automático. Necesitamos unir a la comunidad académica y de investigación para crear un consorcio similar de socios de la industria que puedan ayudar a definir estándares y puntos de referencia que sean representativos de casos de uso del mundo real.
SEAS:¿Así es como funciona ML Perf?
Janapa Reddi:Sí. MLPerf es el esfuerzo de muchas organizaciones y varias personas comprometidas, todos trabajando juntos con la visión única y coherente de construir un punto de referencia justo y útil para los sistemas de aprendizaje automático. Debido a este esfuerzo de equipo, Creamos puntos de referencia que se basan en la sabiduría de muchas personas y un profundo conocimiento de los casos de uso de los clientes en el mundo real. Los ingenieros que trabajan en sistemas de aprendizaje automático aportan sus experiencias con los problemas de sistemas matizados y las corporaciones pueden proporcionar sus casos de uso del mundo real (con el permiso del usuario, por supuesto). Sobre la base de toda la información que recopilamos, el equipo colaborativo de investigadores e ingenieros de MLPerf selecciona un punto de referencia que es útil para plataformas y sistemas de aprendizaje.
SEAS:MLPerf acaba de anunciar algunos nuevos puntos de referencia para el aprendizaje automático, ¿Derecha?
Janapa Reddi:Correcto. Acabamos de anunciar nuestra primera suite de inferencia, que consta de cinco puntos de referencia en tres tareas diferentes de aprendizaje automático:clasificación de imágenes, detección de objetos y traducción automática. Estas tres tareas incluyen modelos bien conocidos como MobileNets y ResNet que admiten diferentes resoluciones de imagen para diferentes casos de uso, como vehículos autónomos y teléfonos inteligentes.
Estimulamos los modelos con el "LoadGen, "que es un generador de carga que imita diferentes modos de casos de uso que se encuentran en el mundo real. Por ejemplo, en teléfonos inteligentes, tomamos una foto, introducirlo en un modelo de aprendizaje automático, y esperar ansiosamente para ver si puede identificar cuál es la imagen. Obviamente, queremos que esa inferencia sea lo más rápida posible. En un sistema de vigilancia por cámara, queremos ver varias imágenes procedentes de diferentes cámaras, por lo que el caso de uso es sensible tanto a la latencia como al rendimiento (cuántas imágenes puedo procesar dentro de un período de tiempo limitado). Este LoadGen con nuestros puntos de referencia distingue a MLPerf de otros puntos de referencia.
SEAS:Entonces, ¿que viene despues?
Janapa Reddi:Los puntos de referencia son un paso hacia un objetivo más grande. MLPerf está interesado en expandir su esfuerzo desde la curaduría de puntos de referencia para evaluar el rendimiento del sistema hasta el desarrollo de nuevos conjuntos de datos que puedan fomentar nuevas innovaciones en los algoritmos de aprendizaje automático. comunidades de software y hardware. Hasta ahora, hemos estado confiando en conjuntos de datos que se han hecho accesibles en gran medida a través de académicos en las comunidades de código abierto. Pero en algunos dominios, como el habla, Existe una necesidad real de desarrollar nuevos conjuntos de datos que sean al menos de 10 a 100 veces más grandes. Pero más grande solo es insuficiente. También debemos abordar la equidad y la falta de diversidad en los conjuntos de datos para garantizar que los modelos entrenados en estos conjuntos de datos sean imparciales.
SEAS:¿Cómo está abordando la equidad y la diversidad en el aprendizaje automático?
Janapa Reddi:Creamos "Harvard MLPerf Research" en conjunto con el Centro de Investigación sobre Computación y Sociedad (CRCS), que reúne a científicos y académicos de una variedad de campos para realizar avances en la investigación computacional que sirva al interés público. Por el centro Esperamos conectarnos con los expertos de otras escuelas para abordar cuestiones como la equidad y el sesgo en los conjuntos de datos. Necesitamos más que científicos informáticos para abordar estos problemas.