El mundo del arte, la comunicación y cómo percibimos la realidad está cambiando rápidamente. Si echamos un vistazo a la historia de la innovación humana, podríamos considerar la invención de la rueda o el descubrimiento de la electricidad como saltos monumentales. Hoy en día, se está produciendo una nueva revolución que une la creatividad humana y la computación de las máquinas. Esa es la IA Generativa.

Los modelos generativos han difuminado la línea entre humanos y máquinas. Con el advenimiento de modelos como GPT-4, que emplea módulos transformadores, nos hemos acercado a la generación de lenguaje natural y rico en contexto. Estos avances han impulsado aplicaciones en la creación de documentos, sistemas de diálogo de chatbots e incluso composición de música sintética.

Las recientes decisiones de las grandes empresas tecnológicas destacan su importancia. Microsoft ya está discontinuando su aplicación Cortana este mes para priorizar las nuevas innovaciones en IA Generativa, como Bing Chat. Apple también ha dedicado una parte significativa de su presupuesto de I+D de 22.6 mil millones de dólares a la IA generativa, según indicó el CEO Tim Cook.

Una nueva era de modelos: Generativo vs. Discriminativo

La historia de la IA generativa no se trata solo de sus aplicaciones, sino fundamentalmente de su funcionamiento interno. En el ecosistema de la inteligencia artificial existen dos modelos: discriminativos y generativos.

Los modelos discriminativos son aquellos con los que la mayoría de las personas se encuentran en su vida diaria. Estos algoritmos toman datos de entrada, como un texto o una imagen, y los asocian con una salida objetivo, como una traducción de palabras o un diagnóstico médico. Se trata de mapear y predecir.

Por otro lado, los modelos generativos son creadores. No solo interpretan o predicen, sino que generan salidas nuevas y complejas a partir de vectores de números que a menudo ni siquiera están relacionados con valores del mundo real.

Generative AI Types: Text to Text, Text to Image (GPT, DALL-E, Midjourney)

Las tecnologías detrás de los modelos generativos

Los modelos generativos deben su existencia a las redes neuronales profundas, estructuras sofisticadas diseñadas para imitar la funcionalidad del cerebro humano. Al capturar y procesar variaciones multifacéticas en los datos, estas redes sirven como base de numerosos modelos generativos.

¿Cómo cobran vida estos modelos generativos? Por lo general, se construyen con redes neuronales profundas, optimizadas para capturar las variaciones multifacéticas en los datos. Un ejemplo destacado es la Red Generativa Adversarial (GAN), donde dos redes neuronales, el generador y el discriminador, compiten y aprenden entre sí en una relación única de maestro-alumno. Desde pinturas hasta transferencia de estilo, desde composición musical hasta juegos, estos modelos están evolucionando y expandiéndose de formas antes inimaginables.

Pero esto no se detiene en las GAN. Los Autoencoders Variacionales (VAE) son otro jugador fundamental en el campo de los modelos generativos. Los VAE destacan por su capacidad para crear imágenes foto realistas a partir de números aparentemente aleatorios. ¿Cómo? Procesando estos números a través de un vector latente nace un arte que refleja las complejidades de la estética humana.

Tipos de IA Generativa: De texto a texto, de texto a imagen

Transformers y LLM

El artículo "Attention Is All You Need" de Google Brain marcó un cambio en la forma en que pensamos acerca de la modelización de texto. En lugar de arquitecturas complejas y secuenciales como las Redes Neuronales Recurrentes (RNN) o las Redes Neuronales Convolucionales (CNN), el modelo Transformer introdujo el concepto de atención, que en esencia significa centrarse en diferentes partes del texto de entrada según el contexto. Uno de los principales beneficios fue la facilidad de paralelización. A diferencia de las RNN, que procesan el texto de forma secuencial, lo que las hace más difíciles de escalar, los Transformers pueden procesar partes del texto simultáneamente, lo que hace que el entrenamiento sea más rápido y eficiente en grandes conjuntos de datos.

Arquitectura del modelo Transformer

En un texto largo, no todas las palabras o frases tienen la misma importancia. Algunas partes requieren más atención según el contexto. Esta habilidad de cambiar nuestro enfoque según la relevancia es lo que imita el mecanismo de atención.

Para entender esto, pensemos en una frase: "Unite AI publica noticias sobre IA y robótica". Ahora, predecir la siguiente palabra requiere comprender qué es lo más importante en el contexto anterior. El término 'robótica' podría sugerir que la siguiente palabra podría estar relacionada con un avance específico o un evento en el campo de la robótica, mientras que 'publicar' podría indicar que el contexto siguiente podría adentrarse en una publicación reciente o un artículo.

Ilustración de Autoatención

Los mecanismos de atención en los Transformers están diseñados para lograr este enfoque selectivo. Evalúan la importancia de las diferentes partes del texto de entrada y deciden dónde "mirar" al generar una respuesta. Esto difiere de arquitecturas antiguas como las RNN que intentaban condensar la esencia de todo el texto de entrada en un solo 'estado' o 'memoria'.

Self-Attention Mechanism explanation on a demmo sentence

El funcionamiento de la atención se puede comparar con un sistema de recuperación de clave-valor. Al intentar predecir la siguiente palabra en una frase, cada palabra precedente ofrece una 'clave' que sugiere su relevancia potencial, y en función de cuán bien coincidan estas claves con el contexto actual (o consulta), contribuyen con un 'valor' o peso a la predicción.

Estos modelos avanzados de aprendizaje profundo de IA se han integrado perfectamente en diversas aplicaciones, desde las mejoras del motor de búsqueda de Google con BERT hasta GitHub Copilot, que aprovecha la capacidad de los Modelos de Lenguaje Grande (LLM) para convertir fragmentos de código simples en códigos fuente completamente funcionales.

Los Modelos de Lenguaje Grande (LLM) como GPT-4, Bard y LLaMA, son construcciones colosales diseñadas para descifrar y generar lenguaje humano, código y más. Su inmenso tamaño, que va desde miles de millones hasta billones de parámetros, es una de las características definitorias. Estos LLM se alimentan con abundante cantidad de datos de texto, lo que les permite comprender las complejidades del lenguaje humano. Una característica destacada de estos modelos es su aptitud para el aprendizaje "de pocos ejemplos". A diferencia de los modelos convencionales que necesitan grandes cantidades de datos de entrenamiento específicos, los LLM pueden generalizar a partir de un número muy limitado de ejemplos (o "disparos").

Estado de los Modelos de Lenguaje Grande (LLM) a mediados de 2023

Nombre del ModeloDesarrolladorParámetrosDisponibilidad y AccesoCaracterísticas Notables y Observaciones

GPT-4OpenAI1,5 billonesNo es de código abierto, solo acceso a través de APIExcelente rendimiento en diversas tareas, puede procesar imágenes y texto, longitud máxima de entrada de 32.768 tokens

GPT-3OpenAI175 mil millonesNo es de código abierto, solo acceso a través de APIDemostró capacidades de aprendizaje de pocos ejemplos y sin ejemplos. Completa texto en lenguaje natural.

BLOOMBigScience176 mil millonesModelo descargable, disponibilidad de API multilingüe desarrollado en colaboración global. Admite 13 lenguajes de programación.

LaMDAGoogle173 mil millonesNo es de código abierto, no hay API ni descargaEntrenado en diálogos, puede aprender a hablar de prácticamente cualquier tema.

MT-NLGNvidia/Microsoft530 mil millonesAcceso a través de API mediante solicitudUtiliza la arquitectura Megatron basada en transformadores para diversas tareas de procesamiento del lenguaje natural.

LLaMAMeta AI7B a 65B)Descargable mediante solicitudCon la intención de democratizar la IA ofreciendo acceso a investigadores, gobierno y academia.

¿Cómo se utilizan los LLM?

Los LLM se pueden utilizar de varias formas, incluyendo:

  • Utilización directa: Simplemente utilizando un LLM pre-entrenado para generación o procesamiento de texto. Por ejemplo, utilizando GPT-4 para escribir una publicación de blog sin ninguna adaptación adicional.
  • Adaptación: Adaptar un LLM pre-entrenado para una tarea específica, un método conocido como aprendizaje por transferencia. Un ejemplo sería personalizar T5 para generar resúmenes de documentos en una industria específica.
  • Recuperación de información: Utilizar LLMs, como BERT o GPT, como parte de arquitecturas más grandes para desarrollar sistemas que puedan buscar y categorizar información.
  • Arquitectura de Afinación Fina de ChatGPT

    Atención de múltiples cabezas: ¿Por qué tener solo una cuando puedes tener muchas?

    Sin embargo, depender de un único mecanismo de atención puede ser limitante. Diferentes palabras o secuencias en un texto pueden tener diferentes tipos de relevancia o asociaciones. Aquí es donde entra en juego la atención de múltiples cabezas. En lugar de un conjunto de pesos de atención, la atención de múltiples cabezas emplea múltiples conjuntos, lo que permite que el modelo capture una mayor variedad de relaciones en el texto de entrada. Cada "cabeza" de atención puede centrarse en diferentes partes o aspectos de la entrada, y su conocimiento combinado se utiliza para la predicción final.

    Generative AI ChatGPT Fine Tuning

    Desde su inicio en 2018, el modelo GPT se construyó fundamentalmente sobre una base de 12 capas, 12 cabezas de atención y 120 millones de parámetros, entrenados principalmente en un conjunto de datos llamado BookCorpus. Esto fue un comienzo impresionante, ofreciendo un vistazo al futuro de los modelos de lenguaje.

    GPT-2, presentado en 2019, presumía un aumento de cuatro veces en las capas y las cabezas de atención. Significativamente, su cantidad de parámetros se disparó a 1.5 mil millones. Esta versión mejorada se entrenó con WebText, un conjunto de datos enriquecido con 40 GB de texto de varios enlaces de Reddit.

    GPT-3, lanzado en mayo de 2020, contaba con 96 capas, 96 cabezas de atención y un enorme conteo de parámetros de 175 mil millones. Lo que diferenciaba a GPT-3 era su diverso conjunto de datos de entrenamiento, que incluía CommonCrawl, WebText, la Wikipedia en inglés, corpora de libros y otras fuentes, combinando un total de 570 GB.

    Las complejidades del funcionamiento de ChatGPT siguen siendo un secreto bien guardado. Sin embargo, se sabe que un proceso llamado "aprendizaje por refuerzo a partir del feedback humano" es fundamental. Originario de un proyecto anterior de ChatGPT, esta técnica fue fundamental para perfeccionar el modelo GPT-3.5 y alinearlo más con las instrucciones escritas.

    El entrenamiento de ChatGPT sigue un enfoque de tres niveles:

  • Afinación fina supervisada: Implica seleccionar cuidadosamente entradas y salidas conversacionales escritas por humanos para refinar el modelo subyacente GPT-3.5.
  • Modelado de recompensa: Los humanos clasifican diversas salidas del modelo según su calidad, lo que ayuda a entrenar un modelo de recompensa que puntúa cada salida considerando el contexto de la conversación.
  • Aprendizaje por refuerzo: El contexto de la conversación sirve como telón de fondo donde el modelo subyacente propone una respuesta. Esta respuesta es evaluada por el modelo de recompensa, y el proceso se optimiza utilizando un algoritmo llamado optimización de política proximal (PPO).
  • Para aquellos que recién empiezan a usar ChatGPT, pueden encontrar una guía de inicio completa aquí. Si estás buscando profundizar en la ingeniería de indicaciones con ChatGPT, también tenemos una guía avanzada que arroja luz sobre las últimas técnicas avanzadas de indicaciones, disponible en 'ChatGPT y la Ingeniería de Indicaciones Avanzada: Impulsando la Evolución de la IA'.

    Difusión y Modelos Multimodales

    Mientras que modelos como VAEs y GANs generan sus resultados mediante un único paso, quedando limitados a lo que producen, los modelos de difusión han introducido el concepto de 'refinamiento iterativo'. A través de este método, vuelven atrás, refinando los errores de pasos anteriores y produciendo gradualmente un resultado más pulido.

    Central en los modelos de difusión es el arte de la "corrupción" y el "refinamiento". En su fase de entrenamiento, una imagen típica se corrompe progresivamente agregando niveles variables de ruido. Esta versión ruidosa se alimenta al modelo, que intenta 'desruido' o 'descorromperla'. A través de múltiples rondas de esto, el modelo se vuelve experto en la restauración, comprendiendo tanto las aberraciones sutiles como las significativas.

    Generative AI - Midjourney Prompt

    Imagen Generada a Partir del Recorrido

    El proceso de generar nuevas imágenes después del entrenamiento es intrigante. Comenzando con una entrada completamente aleatoria, se va refinando continuamente utilizando las predicciones del modelo. El objetivo es obtener una imagen prístina con el menor número de pasos. El control del nivel de corrupción se realiza a través de un "programa de ruido", un mecanismo que gobierna cuánto ruido se aplica en diferentes etapas. Un programador, como se ve en bibliotecas como "difusores", dicta la naturaleza de estas versiones ruidosas basándose en algoritmos establecidos.

    Una columna vertebral arquitectónica esencial para muchos modelos de difusión es la UNet, una red neuronal convolucional diseñada para tareas que requieren salidas que reflejen la dimensión espacial de las entradas. Es una combinación de capas de reducción y aumento de la resolución, conectadas de manera intrincada para retener datos de alta resolución, fundamentales para salidas relacionadas con imágenes.

    Adentrándose aún más en el ámbito de los modelos generativos, el DALL-E 2 de OpenAI emerge como un brillante ejemplo de la fusión de capacidades de IA textuales y visuales. Emplea una estructura de tres niveles:

    DALL-E 2 presenta una arquitectura triple:

    - Codificador de texto: transforma la indicación de texto en una incrustación conceptual dentro de un espacio latente. Este modelo no parte desde cero. Se basa en el conjunto de datos de preentrenamiento de lenguaje-imagen contrastivo de OpenAI (CLIP) como su base. CLIP sirve como un puente entre los datos visuales y los textuales aprendiendo conceptos visuales mediante el lenguaje natural. A través de un mecanismo conocido como aprendizaje contrastivo, identifica y vincula imágenes con sus correspondientes descripciones textuales.

    - La Prioridad: la incrustación de texto derivada del codificador se convierte en una incrustación de imagen. DALL-E 2 probó tanto métodos autoregresivos como de difusión para esta tarea, siendo este último el que mostró resultados superiores. Los modelos autoregresivos, como se ve en los Transformers y PixelCNN, generan salidas en secuencias. Por otro lado, los modelos de difusión, como el usado en DALL-E 2, transforman el ruido aleatorio en incrustaciones de imagen predichas con la ayuda de las incrustaciones de texto.

    - Decodificador: el clímax del proceso, esta parte genera la salida visual final basada en la indicación de texto y la incrustación de imagen de la fase previa. El decodificador de DALL-E 2 se debe a otra modelo, GLIDE, que también puede producir imágenes realistas a partir de indicaciones textuales.

    Arquitectura Simplificada del Modelo DALL-E

    Los usuarios de Python interesados en Langchain deberían consultar nuestro tutorial detallado que cubre todo, desde los fundamentos hasta técnicas avanzadas.

    Aplicaciones de la IA generativa

    Ámbitos textuales

    Comenzando con el texto, la IA generativa ha sido fundamentalmente alterada por chatbots como ChatGPT. Basándose en gran medida en el Procesamiento del Lenguaje Natural (NLP) y los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), estas entidades tienen la capacidad de realizar tareas que van desde la generación de código y la traducción de idiomas hasta la síntesis y el análisis de sentimientos. ChatGPT, por ejemplo, ha sido ampliamente adoptado y se ha convertido en un elemento básico para millones de personas. Esto se ve reforzado aún más por plataformas de IA conversacional, fundamentadas en LLMs como GPT-4, PaLM y BLOOM, que producen texto sin esfuerzo, asisten en la programación e incluso ofrecen razonamiento matemático.

    Architecture of DALL-E model (diffusion multi model)

    Desde una perspectiva comercial, estos modelos se están volviendo invaluables. Las empresas los utilizan para una multitud de operaciones, incluyendo la gestión de riesgos, la optimización de inventarios y la previsión de demandas. Algunos ejemplos destacados incluyen Bing AI, BARD de Google y la API de ChatGPT.

    Arte

    El mundo de las imágenes ha experimentado transformaciones espectaculares con la IA generativa, especialmente desde la introducción de DALL-E 2 en 2022. Esta tecnología, que puede generar imágenes a partir de indicaciones textuales, tiene implicaciones artísticas y profesionales. Por ejemplo, midjourney ha aprovechado esta tecnología para producir imágenes impresionantemente realistas. Esta publicación reciente desmitifica Midjourney en una guía detallada, elucidando tanto la plataforma como sus complejidades de ingeniería de indicaciones. Además, plataformas como Alpaca AI y Photoroom AI utilizan la IA generativa para funciones avanzadas de edición de imágenes, como la eliminación de fondos, la eliminación de objetos e incluso la restauración facial.

    Producción de videos

    La producción de videos, aunque aún se encuentra en su etapa inicial en el ámbito de la IA generativa, está mostrando avances prometedores. Plataformas como Imagen Video, Meta Make A Video y Runway Gen-2 están empujando los límites de lo posible, incluso si las salidas verdaderamente realistas aún están en el horizonte. Estos modelos ofrecen una gran utilidad para la creación de videos con humanos digitales, con aplicaciones como Synthesia y SuperCreator liderando el camino. Es destacable que Tavus AI ofrece una propuesta de venta única al personalizar videos para miembros de la audiencia individual, lo cual es una ventaja para las empresas.

    Creación de código

    La programación, un aspecto indispensable de nuestro mundo digital, no ha sido ajena a la IA generativa. Aunque ChatGPT es una herramienta preferida, se han desarrollado varias otras aplicaciones de IA con fines de programación. Estas plataformas, como GitHub Copilot, Alphacode y CodeComplete, sirven como asistentes de codificación e incluso pueden producir código a partir de indicaciones de texto. Lo intrigante es la adaptabilidad de estas herramientas. Codex, la fuerza impulsora detrás de GitHub Copilot, puede adaptarse al estilo de programación de cada individuo, lo que subraya el potencial de personalización de la IA generativa.

    Conclusión

    Mezclando la creatividad humana con el cálculo de las máquinas, la IA generativa se ha convertido en una herramienta invaluable, con plataformas como ChatGPT y DALL-E 2 empujando los límites de lo concebible. Desde la creación de contenido textual hasta la creación de obras visuales, sus aplicaciones son vastas y variadas.

    Como ocurre con cualquier tecnología, las implicaciones éticas son primordiales. Si bien la IA generativa promete una creatividad sin límites, es crucial utilizarla de manera responsable, siendo conscientes de los posibles sesgos y del poder de la manipulación de datos.

    Con herramientas como ChatGPT cada vez más accesibles, este es el momento perfecto para probar y experimentar. Ya sea que seas un artista, programador o entusiasta de la tecnología, el ámbito de la IA generativa está lleno de posibilidades esperando ser exploradas. La revolución no está en el horizonte; está aquí y ahora. ¡Así que sumérgete!