Un nuevo artículo de la Universidad de Tsinghua, China, describe el desarrollo y funcionamiento de un chip de procesamiento de IA ultrarrápido y altamente eficiente especializado en tareas de visión por computadora. El Chip de Computación Electrónica y Óptica Totalmente Analógico (ACCEL, por sus siglas en inglés), como se llama el chip, aprovecha la computación fotónica y analógica en una arquitectura especializada que es capaz de ofrecer más de 3,000 veces el rendimiento de un Nvidia A100 con un consumo de energía cuatro millones de veces menor. Sí, es un chip especializado, pero en lugar de verlo como una fragmentación del mercado, podemos verlo como otro paso hacia el futuro de la computación heterogénea, donde los semiconductores se diseñan cada vez más para adaptarse a una necesidad específica en lugar de en una configuración "para todo".
Según lo publicado en Nature, ACCEL tiene una capacidad de hasta 4.6 billones de operaciones por segundo en tareas de visión, de ahí la mejora de rendimiento de 3,000 veces frente al A100 (Ampere) de Nvidia y sus 0.312 billones de operaciones. Según el artículo de investigación, ACCEL puede realizar 74.8 billones de operaciones por segundo con 1 W de potencia (lo que los investigadores llaman "eficiencia energética del sistema") y una velocidad de cómputo de 4.6 petaoperaciones por segundo. El A100 de Nvidia ha sido superado por Hopper y su superchip H100 con 80 mil millones de transistores, pero incluso eso parece poco impresionante frente a estos resultados.
Por supuesto, la velocidad es esencial en cualquier sistema de procesamiento. Sin embargo, la precisión es necesaria para las tareas de visión por computadora. Después de todo, el rango de aplicaciones y las formas en que estos sistemas se utilizan para gobernar nuestras vidas y la civilización es amplio: abarca desde el mercado de dispositivos portátiles (quizás en escenarios de realidad extendida) hasta la conducción autónoma, las inspecciones industriales y otros sistemas de detección y reconocimiento de imágenes en general, como el reconocimiento facial. Según el artículo de la Universidad de Tsinghua, ACCEL fue probado experimentalmente con Fashion-MNIST, clasificación de ImageNet de 3 clases y tareas de reconocimiento de video en lapso de tiempo con niveles de precisión "competitivamente altos" (del 85.5%, 82.0% y 92.6%, respectivamente), al tiempo que muestra una robustez del sistema superior en condiciones de poca luz (0.14 fJ μm−2 por cada cuadro).

a, El flujo de trabajo de la computación optoelectrónica tradicional, que incluye matrices de fotodiodos y conversores analógico-digital (ADC). b, El flujo de trabajo de ACCEL. Un módulo de computación óptica difractiva procesa la imagen de entrada en el dominio óptico para la extracción de características, y su campo de luz de salida se utiliza para generar corrientes fotovoltaicas directamente mediante la matriz de fotodiodos para la computación electrónica analógica. EAC emite pulsos secuenciales que corresponden a múltiples nodos de salida de la red equivalente. Los pesos binarios en EAC se reconfiguran durante cada pulso mediante SRAM, cambiando la conexión de los fotodiodos a las líneas V o V−. El comparador emite el pulso con el voltaje máximo como resultado predicho de ACCEL. c, Esquema de ACCEL con un OAC integrado directamente frente a un circuito EAC para el procesamiento de tareas de visión de alta velocidad y bajo consumo de energía. MZI, interferómetro de Mach-Zehnder; D2NN, red neuronal profunda difractiva" (Crédito de imagen: Universidad de Tsinghua / Nature)En el caso de ACCEL, la arquitectura de Tsinghua opera mediante la computación analógica óptica difractiva (OAC) asistida por la computación analógica electrónica (EAC) con escalabilidad, no linealidad y flexibilidad en un solo chip, pero el 99% de su funcionamiento se implementa dentro del sistema óptico. Según el artículo, esto ayuda a combatir las limitaciones encontradas en otras arquitecturas de visión, como los interferómetros de Mach-Zehnder y las redes neuronales profundas difractivas (DNN).
Ese número del 99% es relevante para explicar al menos la disparidad en la eficiencia energética entre ACCEL y otros enfoques no analógicos: la GPU de Nvidia es 100% digital, lo que significa que su funcionamiento se basa en el flujo continuo de electrones (y produce calor residual como resultado).
Sin embargo, un sistema óptico fotónico aprovecha formas no eléctricas de transferir, operar y codificar información. Esto se puede hacer mediante pulsos láser a longitudes de onda específicas (exploramos esto en nuestro artículo reciente sobre el sistema satelital de Distribución Cuántica de Claves [QKD] de China, también basado en fotones) que se utilizan para extraer y comunicar características de datos visuales (una imagen) y operar en esa luz (cambiándola) virtualmente en tránsito.
Como resultado de este sistema de procesamiento óptico, se reducen los requisitos de energía y los electrones desperdiciados en la disipación térmica. Eliminar el costo de energía alta y la latencia de los ADC (convertidores analógico a digital) es un gran avance en las mejoras de rendimiento desbloqueadas por la fotónica. Además, es por eso que los sistemas de fotónica se utilizan en la computación cuántica y las instalaciones de HPC (computación de alto rendimiento).
Simultáneamente, obtenemos beneficios de velocidad al alejarnos del movimiento ordenado pero desordenado de los electrones a través de semiconductores y desbloqueamos velocidades de funcionamiento limitadas únicamente por la luz misma. Como resultado, el artículo de investigación afirma que las pruebas internas del chip mostraron una baja latencia de cómputo de cada cuadro a 72ns, lo que resulta en una velocidad de transferencia de aproximadamente 13,000 cuadros generados por segundo, más que suficiente para hacer que cualquier jugador de Doom pierda la noción de la realidad. También parece haber suficientes cuadros para que un coprocesador analice una selección de esas imágenes en cualquier tarea de visión por computadora. Apenas parece que el procesamiento de aprendizaje profundo de estas imágenes a través de ACCEL sería el cuello de botella.
a, El principio de OAC para la extracción de características de imágenes a gran escala. b, Ejemplos simulados del procesamiento de OAC.

El OAC codifica las entradas originales de 28 x 28 en características de 4 x 4. Una red neuronal digital totalmente conectada de tres capas (Tabla Suplementaria) reconstruye la imagen con las características de salida de OAC. C, el índice de similitud estructural (SSIM) de los resultados de reconstrucción con las salidas de OAC bajo diferentes ratios de compresión obtenidos mediante simulaciones numéricas en el conjunto de datos MNIST. Se muestran ejemplos de imágenes de reconstrucción correspondientes a diferentes ratios de compresión en la esquina. El ratio de compresión es la relación entre la dimensionalidad de la salida de OAC y la dimensionalidad de las imágenes originales. Las imágenes de ejemplo para la entrada original están adaptadas del conjunto de datos MNIST con permiso. D, precisión de la clasificación utilizando la salida de OAC como entrada conectada a una red neuronal digital totalmente conectada de tres capas (Tabla Suplementaria) bajo diferentes ratios de compresión de OAC obtenidos mediante simulaciones numéricas. El tamaño de píxel de la máscara de fase en OAC es de 3 µm y la distancia de difracción es de 3 mm. El número de neuronas en OAC es de 500 x 500. La línea discontinua roja es la precisión de clasificación de la red neuronal digital utilizando las imágenes originales sin OAC como entrada. E, foto del chip EAC. Escala de barra, 500 μm. El chip consta de una matriz de fotodiodos de 32 x 32, dos módulos de compensación de capacitancia P-CCM y N-CCM, módulo de salida de voltaje y E/S de SRAM periférica y controlador. F, estructura del módulo de compensación de capacitancia. G, estructura de la matriz EAC. H, estructura del circuito amplificado de cada píxel. a.u., unidad arbitraria; Máx., máximo; Mín., mínimo; Int., intensidad; PD, fotodiodo. (Crédito de imagen: Universidad Tsinghua/Nature) El ACCEL parece ser una interpretación analógica de un diseño de Circuito Integrado Específico de Aplicación (ASIC). Esa es justamente la función de la unidad de cómputo analógico electrónico (EAC), ya que puede reconfigurar las vías analógicas internas para acelerar tareas específicas. Piense en ellas como algoritmos preprogramados dentro del chip, con el EAC coordinando qué configuración se debe aplicar a cada tarea.
Dai Qionghai, uno de los co-líderes del equipo de investigación, dijo: 'Desarrollar una nueva arquitectura informática para la era de la IA es un logro máximo. Sin embargo, el desafío más importante es llevar esta nueva arquitectura a aplicaciones prácticas, resolviendo necesidades nacionales y públicas importantes, lo cual es nuestra responsabilidad'".
El nuevo chip ACCEL, al ser fotónico y analógico, puede recordar el reciente anuncio de IBM sobre otro chip de aceleración de IA analógico (Hermes). Es interesante ver cómo, incluso con todas las sanciones aplicadas a China, la investigación y desarrollo del país le permiten ponerse al día, y en ciertos aspectos, aparentemente mejorar lo que se les estaba obstaculizando. La inventiva, la capacidad de sortear limitaciones, es indudablemente la forma en que China está pensando en las sanciones.
También es importante entender que esta generación de chips analógicos basados en fotónica se está desarrollando con niveles de litografía extremadamente relajados. ACCEL, por ejemplo, se fabricó con tecnología CMOS estándar de 180 nm para la unidad de cómputo electrónica y analógica (EAC), la inteligencia detrás de la operación. Naturalmente, se podrían obtener mejoras adicionales en rendimiento, frecuencia de reloj y eficiencia al miniaturizar aún más el proceso hacia nodos de CMOS más bajos (el H100 de Nvidia se fabrica con un proceso de 4 nm). No está claro qué trabajo adicional se puede realizar para miniaturizar el módulo de cómputo analógico óptico (OAC).
Parece que implementar sistemas informáticos analógicos como ACCEL a gran escala es más una cuestión de rendimiento de fabricación y adaptación de la industria que de imposibilidad física. Pero hay una razón por la cual los chips analógicos de IA de alto rendimiento aún no se han implementado a gran escala: su fabricación actual es demasiado baja como para servir para algo más que esfuerzos de investigación y trabajo prototípico. Actualmente no contamos con la capacidad ni la capacidad disponible para agregar estos chips a los compromisos de fabricación ya pactados hasta 2025 en empresas como TSMC, pero siempre se necesitan estos resultados experimentales antes de comprometerse a escalar cualquier cosa. Y los mercados destinados a chips como estos realmente desearían tenerlos. En última instancia, todo es cuestión de planificación, gasto y tiempo.
Únete a los expertos que leen Tom's Hardware para estar al tanto de las últimas noticias sobre tecnología de PC para entusiastas; llevamos haciéndolo más de 25 años. Enviaremos noticias de última hora y reseñas en profundidad de CPUs, GPUs, IA, hardware para creadores y más directamente a tu bandeja de entrada.