Ampliar / Una imagen generada por IA de una llama cibernética. El martes, Meta anunció Llama 2, una nueva familia de modelos de lenguaje AI de código abierto destacada por su licencia comercial, lo que significa que los modelos pueden integrarse en productos comerciales, a diferencia de su antecesor. Varían en tamaño, desde 7 hasta 70 mil millones de parámetros y, según Meta, "superan a los modelos de chat de código abierto en la mayoría de los benchmarks que probamos."

An AI-generated image of a cybernetic llama.

"Esto va a cambiar el panorama del mercado de los LLM," twiteó el científico jefe de IA Yann LeCun. "Llama-v2 está disponible en Microsoft Azure y estará disponible en AWS, Hugging Face y otros proveedores."

Según Meta, sus modelos "preentrenados" de Llama 2 (los modelos básicos) están entrenados con 2 billones de tokens y tienen una ventana de contexto de 4,096 tokens (fragmentos de palabras). La ventana de contexto determina la longitud del contenido que el modelo puede procesar de una vez. Meta también afirma que los modelos ajustados de Llama 2, desarrollados para aplicaciones de chat similares a ChatGPT, han sido entrenados con "más de 1 millón de anotaciones humanas."

Aunque no puede competir con el GPT-4 de OpenAI en rendimiento, parece que Llama 2 se desempeña bien para ser un modelo de código abierto. Según Jim Fan, científico senior de IA en Nvidia, "70B se acerca a GPT-3.5 en tareas de razonamiento, pero hay una brecha significativa en los benchmarks de codificación. Está a la par o mejor que PaLM-540B en la mayoría de los benchmarks, pero aún está muy por detrás de GPT-4 y PaLM-2-L." Más detalles sobre el rendimiento, los benchmarks y la construcción de Llama 2 se pueden encontrar en un artículo de investigación publicado por Meta el martes.

Llama 2 information from Meta.

Ampliar / Información sobre Llama 2 de Meta. En febrero, Meta lanzó el precursor de Llama 2, LLaMA, como código abierto con una licencia no comercial. Oficialmente solo disponible para académicos con ciertas credenciales, alguien pronto filtró los pesos de LLaMA (archivos que contienen los valores de los parámetros de las redes neuronales entrenadas) en sitios de torrents, y se extendieron ampliamente en la comunidad de IA. Pronto surgieron variaciones ajustadas de LLaMA, como Alpaca, proporcionando el inicio de una escena de desarrollo de LLM underground en rápido crecimiento.

Llama 2 lleva esta actividad aún más al aire libre con su autorización para uso comercial, aunque los "licenciatarios potenciales" con "más de 700 millones de usuarios activos mensuales en el mes calendario anterior" deben solicitar permiso especial a Meta para usarlo, lo que potencialmente excluye su uso gratuito por parte de gigantes del tamaño de Amazon o Google.

Anuncio

El poder y el peligro de la inteligencia artificial de código abierto

Si bien los modelos de inteligencia artificial de código abierto han sido populares entre los aficionados y las personas que buscan "chatbots sin censura", también han generado controversia. Meta se destaca por ser el único de los gigantes tecnológicos que respalda importantes modelos de código abierto de fundación, mientras que aquellos en el campo del software cerrado incluyen a OpenAI, Microsoft y Google.

Los críticos afirman que los modelos de inteligencia artificial de código abierto conllevan riesgos potenciales, como el mal uso en la biología sintética o en la generación de spam o desinformación. Es fácil imaginar que Llama 2 pueda desempeñar algunos de estos roles, aunque tales usos violan los términos de servicio de Meta. Actualmente, si alguien realiza acciones restringidas con la API de ChatGPT de OpenAI, se puede revocar el acceso. Pero con software de código abierto, una vez que se liberan los pesos, no se pueden recuperar.

Sin embargo, los defensores de la inteligencia artificial de código abierto a menudo argumentan que los modelos de inteligencia artificial de código abierto fomentan la transparencia (en cuanto a los datos de entrenamiento utilizados para crearlos), fomentan la competencia económica (sin limitar la tecnología a las grandes empresas), fomentan la libertad de expresión (sin censura) y democratizan el acceso a la inteligencia artificial (sin restricciones de pago).

Quizás anticipándose a posibles críticas por su lanzamiento de código abierto, Meta también publicó una breve "Declaración de Apoyo al Enfoque Abierto de Meta hacia la IA actual" que dice: "Apoyamos un enfoque de innovación abierto para la IA. La innovación responsable y abierta nos permite a todos tener participación en el proceso de desarrollo de la IA, brindando visibilidad, escrutinio y confianza en estas tecnologías. Al abrir los modelos Llama de hoy, todos se beneficiarán de esta tecnología".

Hasta el martes por la tarde, la declaración ha sido firmada por una lista de ejecutivos y educadores como Drew Houston (CEO de Dropbox), Matt Bornstein (Socio de Andreessen Horowitz), Julien Chaumond (CTO de Hugging Face), Lex Fridman (científico investigador en MIT) y Paul Graham (Socio Fundador de Y Combinator).

Aunque Llama 2 es de código abierto, Meta no reveló la fuente de los datos de entrenamiento utilizados en la creación de los modelos Llama 2, como señaló Abeba Birhane, Miembro Principal de Confianza en la IA de Mozilla, en Twitter. La falta de transparencia en los datos de entrenamiento sigue siendo un punto conflictivo para algunos críticos de LLM, ya que los datos de entrenamiento que enseñan a estos LLM lo que "saben" a menudo provienen de un raspado no autorizado de Internet con poca consideración por la privacidad o el impacto comercial. Meta dice que "hizo un esfuerzo por eliminar datos de ciertos sitios conocidos por contener una gran cantidad de información personal sobre individuos privados" en el artículo de investigación de Llama 2, pero no mencionó cuáles eran esos sitios.

En la actualidad, cualquier persona puede solicitar acceso para descargar Llama 2 completando un formulario en el sitio web de Meta. Ars Technica envió una solicitud para la descarga y recibió un enlace de descarga aproximadamente una hora después, lo que sugiere que la lista puede ser revisada manualmente.