La startup de aprendizaje automático Lamini reveló que su plataforma de refinamiento de modelos de lenguaje (LLM, por sus siglas en inglés) está siendo ejecutada "exclusivamente" en el silicio de The House of Zen.

Recientemente salió del modo sigiloso a principios de este año, Lamini quiere ayudar a las empresas a construir y ejecutar productos de IA generativa ajustando los modelos base existentes, como el GPT3 de OpenAI o el Llama 2 de Meta, a sus conjuntos de datos internos.

Si esto suena familiar, es porque es posible que hayas visto servicios similares por parte de empresas como IBM con Watson-X. Sin embargo, lo que distingue a Lamini es su elección de hardware. Mientras que la mayoría de los grandes clústeres de IA que hemos visto implementados por Google, Meta, Microsoft y otras empresas se ejecutan en Nvidia A100 o H100, Lamini ha optado exclusivamente por las GPU Instinct de AMD.

Lamini afirma que su plataforma, que ha despertado interés de Amazon, Walmart, eBay, GitLab y Adobe, entre otros, ha estado funcionando en "más de 100 GPU de AMD en producción durante todo el año" y podría ampliarse a "miles de GPU MI".

Las GPU Instinct MI250X de AMD están en el corazón de algunas de las supercomputadoras más potentes del mundo, incluida la supercomputadora Frontier de 1,1 exaflops que lidera el ranking, pero las MI no han tenido el mismo reconocimiento que los chips de Nvidia.

Mirando hacia el futuro, AMD espera convencer al mundo con su historia de aceleradores. "Esta es nuestra máxima prioridad estratégica y estamos comprometidos profundamente con nuestros clientes para ofrecer soluciones conjuntas al mercado", dijo la CEO Lisa Su durante una llamada con analistas de Wall Street a principios de este año.

Durante la llamada de ganancias del segundo trimestre de AMD el mes pasado, Su se jactó de que la compañía había experimentado un aumento de siete veces en los compromisos de clientes de IA desde su evento de centros de datos en junio. "Está claro que la IA representa una oportunidad de crecimiento multimillonaria para AMD", opinó. "En el centro de datos solamente, esperamos que el mercado de aceleradores de IA alcance más de $150 mil millones para 2027".

Este aumento puede deberse simplemente a la oferta y la demanda. Al menos para Lamini, uno de los principales puntos de venta de la hardware de AMD era que los clientes no se quedarían esperando a que se envíen las GPUs. "Ya no tienes que preocuparte por los tiempos de espera de 52 semanas para las Nvidia H100", bromeó la compañía en una publicación de blog.

Desafío del ecosistema de AMD

Sin embargo, el silicio, por potente que sea, no te llevará muy lejos sin software para ejecutar en él. Este es uno de los desafíos en los que ha estado trabajando el presidente de AMD, Victor Peng, durante el último año con la Plataforma de AI Unificada de la compañía. El objetivo de este proyecto es desarrollar un marco de software común para ejecutar cargas de trabajo de inferencia en la creciente cartera de hardware de AI de AMD, que ahora incluye CPUs, GPUs Instinct y FPGAs de Xilinx.

El fabricante de chips también ha trabajado con PyTorch, un popular marco de aprendizaje automático, para ofrecer soporte para la pila de software ROCm utilizada por sus GPUs Instinct. Y, en junio, la compañía solicitó la ayuda de Hugging Face para optimizar modelos de IA de código abierto para que se ejecuten en sus chips.

La asociación con Lamini marca el último movimiento de AMD en su ecosistema para hacer que el desarrollo para sus aceleradores Instinct y su tiempo de ejecución ROCm sean más accesibles. La startup afirma que utilizando su software, el tiempo de ejecución ROCm de AMD logra la paridad de software con CUDA de Nvidia, al menos para modelos de lenguaje grandes.

Desarrollar un sólido ecosistema de software de IA con el objetivo de desafiar a Nvidia no es solo una lucha de AMD, por supuesto. La semana pasada, Intel destacó el trabajo que ha realizado para impulsar la adopción de los marcos de software oneAPI y OpenVINO utilizados por sus chips, e incluso el CTO de la compañía, Greg Lavender, desafió a los desarrolladores a utilizar la IA para convertir el código heredado de CUDA para ejecutarlo en su tiempo de ejecución SYCL multiplataforma.

Hardware más rápido en camino

Los aceleradores Instinct MI200 utilizados en los sistemas de Lamini, que ellos llaman LLM Superstations, fueron introducidos a finales de 2021 y son buenos para entre 181 y 383 TFLOPs de FP16, dependiendo del factor de forma.

Sin embargo, los clientes de AMD no tendrán que esperar mucho para conseguir un chip mucho más potente.

Los aceleradores de la serie MI300 de próxima generación de AMD se lanzarán a finales de este año y prometen un rendimiento de inteligencia artificial 8 veces más rápido, al mismo tiempo que logran un rendimiento por vatio 5 veces mejor. Basándose en estas afirmaciones, nuestro sitio hermano The Next Platform estima que el chip entregará aproximadamente 3 petaFLOPS de rendimiento FP8 o 1.5 petaFLOPS de rendimiento FP16.

El primero de ellos, conocido como MI300A, "A" en referencia a APU, combina 24 núcleos Zen 4 con seis GPU CDNA 3 y hasta 128 GB de memoria de alta velocidad de tercera generación (HBM3). El chip, que ya se está muestreando a los clientes, está destinado a alimentar el próximo superordenador El Capitan del Laboratorio Nacional de Lawrence Livermore.

La versión exclusiva de GPU del chip, llamada MI300X, elimina los núcleos de CPU a favor de dos GPU adicionales y aumenta la cantidad de HBM3 a 192 GB, más del doble que el buque insignia H100 de Nvidia. Al igual que los aceleradores Instinct anteriores, hasta ocho de estas GPU se pueden conectar en una malla utilizando la "Infinity Architecture" de AMD.

Según AMD, podemos esperar que estos chips comiencen a llegar a los proveedores a finales de este trimestre. ®

Obtenga nuestros recursos de tecnología.