Un chip de inteligencia artificial de IBM es más de una docena de veces más eficiente energéticamente que los microchips convencionales en el reconocimiento del habla. Muchos sistemas polémicos de IA, como ChatGPT y otros modelos de lenguaje grandes, así como IA generativa utilizada ahora para crear videos e imágenes, pueden beneficiarse de este dispositivo.
IBM señala que la precisión de la transcripción automatizada ha mejorado mucho en la última década gracias a la IA. Sin embargo, el hardware utilizado para entrenar y operar estos y otros sistemas de IA se está volviendo más caro y exigente en cuanto a energía. Para entrenar su IA de última generación GPT-3, OpenAI gastó 4.6 millones de dólares estadounidenses para ejecutar 9,200 GPUs durante dos semanas.
Un obstáculo clave es la energía y el tiempo perdidos al transferir grandes cantidades de datos entre los procesadores y la memoria. La energía disipada de esa manera puede ser entre tres y 10,000 veces mayor que la requerida para la computación real, según señala Hechen Wang, un científico investigador de Intel Labs en Hillsboro, Oregón, quien no participó en el nuevo estudio.
Las hardware neuromórficos buscan imitar la forma en que los neuronas biológicas computan y almacenan datos. Por ejemplo, los microchips de "IA análoga" o "compute-in-memory" realizan cálculos directamente en la memoria.
Investigaciones anteriores de IBM sugirieron que la IA análoga podría ser entre 40 y 140 veces más eficiente energéticamente que las mejores GPUs para aplicaciones de IA. Sin embargo, hasta ahora faltaban demostraciones prácticas de estas estimaciones.
En el nuevo estudio, los investigadores de IBM experimentaron con memoria de cambio de fase. Este dispositivo se basa en un material que, cuando se le aplican pulsos eléctricos, puede cambiar entre fases amorfas y cristalinas de manera análoga al sistema binario de los procesadores digitales, pero también puede tener estados intermedios entre estos valores. Esto significa que la memoria de cambio de fase puede codificar los resultados de operaciones de multiplicación-acumulación (MAC), que son los cálculos básicos en las redes neuronales profundas que impulsan la actual explosión de la IA, utilizando solo unos pocos resistores o condensadores en la memoria. Los enfoques convencionales utilizan cientos o miles de transistores, según señala Wang.
Los investigadores crearon un microchip de 14 nanómetros cargado con 35 millones de células de memoria de cambio de fase distribuidas en 34 módulos. En total, el dispositivo era capaz de realizar hasta 12.4 billones de operaciones por segundo por vatio, una eficiencia energética varias veces mayor que la de las CPUs y GPUs más potentes.
Los científicos utilizaron dos programas de reconocimiento de voz basados en redes neuronales para examinar la flexibilidad de su dispositivo. Un sistema pequeño, Speech Commands de Google, se utilizó para detectar palabras clave para comandos de voz, una tarea en la que la velocidad podría ser esencial. Un sistema grande, Librispeech, se utilizó para transcribir el habla a texto, donde la capacidad de analizar eficientemente grandes cantidades de datos podría ser lo más valioso. Descubrieron que su dispositivo funcionaba con la misma precisión que las redes neuronales ejecutadas en hardware convencional, mientras realizaba el trabajo siete veces más rápido en el caso de Speech Commands de Google, y 14 veces más eficientemente en consumo energético en el caso de Librispeech.
Wang, de Intel Labs, destaca que este nuevo microchip puede soportar transformers, el tipo de red neuronal que impulsa los modelos de lenguaje grandes (LLM) actuales que alimentan chatbots como ChatGPT. Básicamente, ChatGPT es una versión potenciada de la función de autocompletar que usan los teléfonos inteligentes para predecir el resto de una palabra que una persona está escribiendo. ChatGPT ha aprobado exámenes de derecho y escuelas de negocios, ha respondido con éxito preguntas de entrevistas para trabajos de programación de software, ha escrito listados de bienes raíces y ha desarrollado contenido publicitario.
Wang afirma que los transformers también son el componente fundamental de la inteligencia artificial generativa. Sistemas de inteligencia artificial generativa como Stable Diffusion, Midjourney y DALL-E han demostrado ser populares por el arte que producen. El nuevo microchip "tiene el potencial de reducir considerablemente el consumo de energía y el costo de los LLM y la inteligencia artificial generativa", dice Wang.
Sin embargo, los LLM y la inteligencia artificial generativa también han desatado tormentas de críticas. Por ejemplo, ChatGPT ha mostrado muchas fallas, como escribir artículos llenos de errores, y la inteligencia artificial generativa está generando controversia por sus implicaciones en el derecho de propiedad intelectual. (IBM se negó a hacer comentarios para esta historia.)
Además, el nuevo microchip no incluía todos los componentes necesarios para procesar los datos que se le proporcionaron. "Por lo tanto, su rendimiento está limitado por la comunicación entre chips y otros componentes externos", dice Wang.
Según Wang, quedan cinco pasos más en el camino hacia una inteligencia artificial análoga viable comercialmente. Lo que se necesita son nuevos circuitos más allá de aquellos para operaciones MAC, para reducir su dependencia de chips digitales; una arquitectura híbrida análogo-digital, para manejar cálculos que los dispositivos análogos no pueden realizar; compiladores personalizados que puedan asignar tareas de manera eficiente al hardware disponible, para maximizar el rendimiento; algoritmos adaptados optimizados para los errores que experimentan los procesadores análogos; y aplicaciones optimizadas para chips análogos.
En última instancia, la IA analógica "todavía está en pañales y su desarrollo será un largo camino", afirma Wang.
Los científicos de IBM detallaron sus hallazgos en línea el 23 de agosto en el diario Nature.