La plataforma de IA de NVIDIA estableció nuevas referencias en el entrenamiento de IA y la informática de alto rendimiento en los últimos benchmarks de la industria de MLPerf.
Entre muchos nuevos récords y hitos, destaca uno en IA generativa: NVIDIA Eos, una supercomputadora de IA alimentada por 10,752 GPUs NVIDIA H100 Tensor Core y una red NVIDIA Quantum-2 InfiniBand, completó un benchmark de entrenamiento basado en un modelo GPT-3 con 175 mil millones de parámetros entrenados en mil millones de tokens en tan solo 3.9 minutos.
Eso representa casi un aumento de 3 veces desde los 10.9 minutos, el récord establecido por NVIDIA cuando la prueba fue introducida hace menos de seis meses.
El benchmark utiliza una parte del conjunto de datos completo de GPT-3 utilizado en el popular servicio ChatGPT, lo que significa que Eos ahora puede entrenarlo en tan solo ocho días, 73 veces más rápido que un sistema previo de última generación que utilizaba 512 GPUs A100.
La aceleración en el tiempo de entrenamiento reduce costos, ahorra energía y acelera el tiempo de comercialización. Es un trabajo pesado que permite que los modelos de lenguaje grandes estén ampliamente disponibles para que cualquier negocio pueda adoptarlos con herramientas como NVIDIA NeMo, un marco para personalizar LLMs.
En una nueva prueba de IA generativa de esta ronda, 1,024 GPUs NVIDIA Hopper architecture completaron un benchmark de entrenamiento basado en el modelo Stable Diffusion de texto a imagen en 2.5 minutos, estableciendo un alto estándar en esta nueva carga de trabajo.

Al adoptar estas dos pruebas, MLPerf refuerza su liderazgo como el estándar de la industria para medir el rendimiento de la IA, ya que la IA generativa es la tecnología más transformadora de nuestro tiempo.
La escalabilidad del sistema se dispara
Los últimos resultados se debieron en parte al uso del mayor número de aceleradores jamás aplicados a un benchmark de MLPerf. Las 10,752 GPU H100 superaron con creces la escalabilidad en entrenamiento de IA en junio, cuando NVIDIA utilizó 3,584 GPU Hopper.
El aumento de 3 veces en el número de GPU resultó en un aumento de rendimiento de 2.8 veces, con una eficiencia del 93%, gracias en parte a las optimizaciones de software.
La escalabilidad eficiente es un requisito clave en la IA generativa porque los LLM están creciendo en un orden de magnitud cada año. Los últimos resultados muestran la capacidad de NVIDIA para enfrentar este desafío sin precedentes incluso en los centros de datos más grandes del mundo.
El logro se debe a una plataforma completa de innovaciones en aceleradores, sistemas y software que tanto Eos como Microsoft Azure utilizaron en la última ronda.
Eos y Azure emplearon cada uno 10,752 GPU H100 en presentaciones separadas. Lograron un rendimiento casi idéntico dentro del 2%, lo que demuestra la eficiencia de la IA de NVIDIA tanto en centros de datos como en implementaciones en la nube pública.
NVIDIA confía en Eos para una amplia gama de tareas críticas. Ayuda a avanzar en iniciativas como NVIDIA DLSS, software impulsado por IA para gráficos de computadora de última generación, y proyectos de investigación de NVIDIA como ChipNeMo, herramientas de IA generativa que ayudan a diseñar GPU de próxima generación.

Avances en todas las cargas de trabajo
NVIDIA estableció varios nuevos récords en esta ronda, además de hacer avances en IA generativa.
Por ejemplo, las GPU H100 fueron un 1,6 veces más rápidas que los modelos de recomendación de entrenamiento de la ronda anterior ampliamente utilizados para ayudar a los usuarios a encontrar lo que están buscando en línea. El rendimiento aumentó un 1,8 veces en RetinaNet, un modelo de visión por computadora.

Estos aumentos se lograron mediante una combinación de avances en el software y hardware a gran escala.
NVIDIA fue una vez más la única empresa que realizó todas las pruebas de MLPerf. Las GPU H100 demostraron el rendimiento más rápido y la mayor escalabilidad en cada una de las nueve pruebas.
Los incrementos de velocidad se traducen en un tiempo de comercialización más rápido, costos más bajos y ahorro de energía para los usuarios que entrenan enormes LLMs o los personalizan con frameworks como NeMo para satisfacer las necesidades específicas de su negocio.
Once fabricantes de sistemas utilizaron la plataforma de IA de NVIDIA en sus envíos de esta ronda, incluyendo a ASUS, Dell Technologies, Fujitsu, GIGABYTE, Lenovo, QCT y Supermicro.
Los socios de NVIDIA participan en MLPerf porque saben que es una herramienta valiosa para que los clientes evalúen plataformas y proveedores de IA.
Ampliación de los referentes de informática de alto rendimiento (HPC)
En MLPerf HPC, un referente separado para simulaciones asistidas por IA en supercomputadoras, las GPU H100 ofrecieron hasta el doble de rendimiento que las GPU Tensor Core A100 de NVIDIA en la última ronda de HPC. Los resultados mostraron hasta 16 veces más ganancias desde la primera ronda de MLPerf HPC en 2019.

La prueba incluyó una nueva evaluación que entrena a OpenFold, un modelo que predice la estructura 3D de una proteína a partir de su secuencia de aminoácidos. OpenFold puede realizar en minutos un trabajo vital para la salud que antes llevaba semanas o meses a los investigadores.
Comprender la estructura de una proteína es clave para encontrar rápidamente fármacos eficaces, ya que la mayoría de los medicamentos actúan sobre las proteínas, que son la maquinaria celular que ayuda a controlar muchos procesos biológicos.
En la prueba de MLPerf HPC, las GPU H100 entrenaron a OpenFold en 7,5 minutos. La prueba de OpenFold es una parte representativa de todo el proceso de entrenamiento de AlphaFold que hace dos años llevaba 11 días utilizando 128 aceleradores.
Una versión del modelo OpenFold y el software que NVIDIA utilizó para entrenarlo estará disponible próximamente en NVIDIA BioNeMo, una plataforma de IA generativa para el descubrimiento de fármacos.
Varios socios realizaron envíos en la plataforma de IA de NVIDIA en esta ronda. Incluyeron a Dell Technologies y los centros de supercomputación de la Clemson University, el Texas Advanced Computing Center y, con la ayuda de Hewlett Packard Enterprise (HPE), el Lawrence Berkeley National Laboratory.
Referentes con amplio respaldo
Desde su creación en mayo de 2018, las pruebas de referencia de MLPerfhan contado con un amplio respaldo tanto de la industria como de la academia. Las organizaciones que las respaldan incluyen Amazon, Arm, Baidu, Google, Harvard, HPE, Intel, Lenovo, Meta, Microsoft, NVIDIA, la Universidad de Stanford y la Universidad de Toronto.
Las pruebas de MLPerf son transparentes y objetivas, por lo que los usuarios pueden confiar en los resultados para tomar decisiones informadas de compra.
Todo el software utilizado por NVIDIA está disponible en el repositorio de MLPerf, por lo que todos los desarrolladores pueden obtener los mismos resultados de clase mundial. Estas optimizaciones de software se incorporan continuamente en contenedores disponibles en NGC, el centro de software de NVIDIA para aplicaciones de GPU.
Obtenga más información sobre MLPerf y los detalles de esta ronda.