(Icons credit: Shutterstock)
Vectara ha publicado un ranking de alucinación de IA que clasifica diferentes chatbots AI líderes según su capacidad para no 'alucinar'. Obviamente, está diseñado para resaltar hasta qué punto los diversos modelos de lenguaje público grandes (LLMs) alucinan, pero ¿qué significa esto, por qué es importante y cómo se mide?

Una de las características de los chatbots AI de los que nos hemos vuelto cautelosos es su tendencia a 'alucinar': a inventar hechos para llenar vacíos. Un ejemplo público destacado de esto ocurrió cuando el bufete de abogados Levidow, Levidow & Oberman se metió en problemas después de que "presentaron opiniones judiciales inexistentes con citas y referencias falsas creadas por la herramienta de inteligencia artificial ChatGPT". Se observó que las decisiones legales inventadas como Martinez v. Delta Air Lines tienen algunas características consistentes con las decisiones judiciales reales, pero una inspección más detallada reveló porciones de "disparates".
Si pensamos en el uso potencial de LLMs en áreas como la salud, la industria, la defensa, y demás, es claramente imperativo eliminar las alucinaciones de AI como parte de cualquier desarrollo continuo. Para observar un ejemplo práctico de una IA alucinando en circunstancias de referencia controladas, Vectara decidió realizar algunas pruebas con once LLMs públicos:- Alimentar a los LLMs con una pila de más de 800 documentos breves de referencia.
- Pedir a los LLMs que proporcionen resúmenes factuales de los documentos, como se indica en una solicitud estándar.
- Alimentar las respuestas a un modelo que detecta la introducción de datos que no estaban contenidos en la(s) fuente(s).

GPT-4 obtuvo los mejores resultados con la tasa de alucinación más baja y la mayor precisión. Nos preguntamos si podría haber evitado que Levidow, Levidow & Oberman tuvieran problemas".
Al otro extremo de la tabla, dos LLMs de Google tuvieron un desempeño mucho peor. Una tasa de alucinación de más del 27% para Google Palm-Chat sugiere que sus resúmenes factuales de material de referencia se consideran poco confiables en el mejor de los casos. Las respuestas de Palm-Chat parecen estar completamente plagadas de escombros alucinatorios según las mediciones de Vectara.
En la sección de preguntas frecuentes de su página de GitHub, Vectara explica que eligió utilizar un modelo para evaluar los respectivos LLM (modelos de lenguaje grandes, por sus siglas en inglés) debido a consideraciones como la escala de las pruebas y la consistencia de la evaluación. También afirma que "crear un modelo para detectar alucinaciones es mucho más fácil que crear un modelo libre de alucinaciones". La tabla, tal como está ahora, ya ha provocado algunas discusiones acaloradas en las redes sociales. También podría convertirse en una referencia útil o un punto de referencia al que las personas que deseen usar LLM para tareas serias, no creativas, prestarán mucha atención.
Mientras tanto, esperamos con interés que el recientemente anunciado Grok de Elon Musk sea evaluado con esta vara de medir del Modelo de Evaluación de Alucinaciones por IA. El chatbot se lanzó en versión beta hace 10 días con una excusa general para explicar su inexactitud y errores relacionados, y sus creadores describen a Grok como humorístico y sarcástico. Quizás eso sea apropiado si Grok quiere conseguir un trabajo redactando publicaciones en las redes sociales.
Únete a los expertos que leen Tom's Hardware para estar al tanto de las últimas noticias en tecnología de PC para entusiastas, algo que hemos estado haciendo durante más de 25 años. Te enviaremos noticias de última hora y reseñas exhaustivas de CPUs, GPUs, inteligencia artificial, hardware de fabricación y más directamente a tu bandeja de entrada.