por Peter Grad, Tech Xplore

Chip AI analógico de 14 nm descansando en la mano del investigador. Crédito: Ryan Lavine para IBM

Advances in AI, chips boost voice recognition

Desarrollos separados en tecnología de reconocimiento del habla de IBM y universidades de California en San Francisco y Berkeley ofrecen noticias prometedoras para pacientes que sufren de parálisis vocal y pérdida del habla.

IBM informó la creación de un chip de computadora más rápido y eficiente en energía capaz de acelerar el rendimiento del modelo de reconocimiento del habla.

Con el crecimiento explosivo de modelos de lenguaje grandes para proyectos de IA, se han revelado limitaciones en el rendimiento del hardware que resultan en períodos de entrenamiento más largos y consumo de energía en espiral.

En términos de gasto energético, MIT Technology Review informó recientemente que entrenar un solo modelo de IA genera más de 626,000 libras de dióxido de carbono, casi cinco veces la cantidad emitida por un automóvil americano promedio en toda su vida.

Un factor clave detrás del gran consumo de energía de las operaciones de IA es el intercambio de datos entre la memoria y los procesadores.

Los investigadores de IBM que buscan una solución dicen que su prototipo incorpora dispositivos de memoria de cambio de fase dentro del chip, optimizando los procesos fundamentales de IA conocidos como operaciones de multiacumulación (MAC) que aceleran en gran medida la actividad del chip. Esto evita la rutina estándar de transporte de datos entre la memoria y el procesador, que consume tiempo y energía.

"Estas son, hasta donde sabemos, las primeras demostraciones de niveles de precisión comercialmente relevantes en un modelo comercialmente relevante", dijo Stefano Ambrogia de IBM en un estudio publicado el 23 de agosto en la revista Nature en línea.

Advances in AI, chips boost voice recognition

"Nuestro trabajo indica que, cuando se combina con la implementación de cálculo auxiliar en el chip que es eficiente en tiempo, área y energía, se puede extender la alta eficiencia energética y el rendimiento... a todo un sistema AI analógico", dijo.

En operaciones de reconocimiento de habla intensivas en procesador, el prototipo de IBM logró 12.4 billones de operaciones por segundo por vatio, un nivel de eficiencia hasta cientos de veces mejor que las CPUs y GPUs más potentes actualmente en uso.

Mientras tanto, investigadores de UC San Francisco y UC Berkeley dicen haber ideado una interfaz cerebro-computadora para personas que han perdido la capacidad de hablar, que genera palabras a partir de los pensamientos y esfuerzos de vocalización del usuario.

Edward Chang, jefe de cirugía neurológica en UC San Francisco, dijo: "Nuestro objetivo es restaurar una forma completa y encarnada de comunicación, que es la forma más natural de hablar con los demás".

Chang y su equipo implantaron dos diminutos sensores en la superficie del cerebro de una mujer que sufre de esclerosis lateral amiotrófica, una enfermedad neurodegenerativa que gradualmente priva a sus víctimas de la movilidad y el habla.

Aunque el sujeto todavía podía emitir sonidos, la ELA limitaba el uso de sus labios, lengua y laringe para articular palabras coherentes.

Los sensores estaban conectados a través de una interfaz cerebro-computadora a bancos de computadoras que albergaban software de decodificación de lenguaje.

Advances in AI, chips boost voice recognition

Oblea de 300 mm utilizada para fabricar chips de IA analógica. Crédito: Ryan Lavine para IBM.

La mujer pasó por 25 sesiones de entrenamiento de cuatro horas cada una, en las que leyó conjuntos de entre 260 y 480 frases. La actividad cerebral durante la lectura fue traducida por el decodificador, que detectó fonemas y los ensambló en palabras.

Posteriormente, los investigadores sintetizaron su habla, basándose en una grabación de ella hablando en una boda años atrás, y diseñaron un avatar que reflejara sus movimientos faciales.

Los resultados fueron prometedores.

Después de cuatro meses de entrenamiento, el modelo pudo rastrear las vocalizaciones intentadas por el sujeto y convertirlas en palabras inteligibles.

Cuando se basó en un vocabulario de entrenamiento de 125,000 palabras, que cubría prácticamente todo lo que el sujeto querría decir, la tasa de precisión fue del 76%.

Cuando el vocabulario se limitó a 50 palabras, el sistema de traducción funcionó mucho mejor, identificando correctamente su habla el 90% del tiempo.

Además, el sistema pudo traducir el habla del sujeto a una velocidad de 62 palabras por minuto. Aunque esto es triple la velocidad de reconocimiento de palabras que se había logrado en experimentos similares anteriores, los investigadores son conscientes de que se necesitarán mejoras para alcanzar la velocidad de habla natural de 160 palabras por minuto.

"Esto es una prueba de concepto científica, no un dispositivo real que las personas puedan usar en la vida diaria", dijo Frank Willett, coautor del estudio publicado el 23 de agosto en Nature. "Pero es un gran avance hacia la restauración de una comunicación rápida para las personas con parálisis que no pueden hablar".

Más información: S. Ambrogio et al, Un chip de IA analógica para el reconocimiento y transcripción del habla eficiente en energía, Nature (2023). DOI: 10.1038/s41586-023-06337-5

Hechen Wang, El chip analógico allana el camino para una IA sostenible, Nature (2023). DOI: 10.1038/d41586-023-02569-7

Información de la revista: Nature (enlace no disponible) - © 2023 Science X Network