OpenAI comenzó el miércoles una vista previa de una nueva versión de su herramienta DALL-E, que crea imágenes a partir de indicaciones escritas, y anunció planes para integrarla en su popular chatbot ChatGPT, aumentando el alcance de una tecnología controvertida en un momento en que los legisladores están pidiendo más moderación.

La nueva herramienta, llamada DALL-E 3, ofrece una mejor comprensión de los comandos de los usuarios y es más eficiente al convertir texto legible y coherente en imágenes, una debilidad bien conocida en los generadores de imágenes de IA. Los avances en lenguaje permiten a DALL-E 3 analizar instrucciones complejas en lugar de desordenar elementos de una solicitud detallada, dijeron los investigadores el martes durante una breve demostración.

"Los usuarios ocasionales pueden iniciar sesión en [el] chatbot y pedir algo bastante vago", dijo Aditya Ramesh, jefe del equipo DALL-E 3, quien compartió una demostración de un propietario de negocio probando diferentes logotipos para un negocio llamado Mountain Ramen.

Si bien la nueva herramienta está disponible para un pequeño grupo de usuarios para pruebas iniciales, se lanzará a los suscriptores del popular chatbot de la compañía, ChatGPT, en octubre, lo que podría multiplicar el número de personas que interactúan con la tecnología.

El lanzamiento se produce en medio de desafíos para la startup de San Francisco, a medida que aumenta la presión competitiva. El tráfico y el número de usuarios mensuales tanto de DALL-E como del chatbot insignia de OpenAI han disminuido, mientras que Google lanza a los usuarios una flota de productos impulsados por IA. Sin embargo, al integrar su novedoso generador de imágenes en ChatGPT, OpenAI está ampliando su mercado y ofreciendo la tecnología como característica para potenciar su chatbot, en lugar de presentar la herramienta como un producto independiente.

Los periodistas no pudieron probar la función durante una conferencia de prensa porque DALL-E 3 tenía "algunos problemas técnicos", dijo Lindsey Head Bolton, jefa de relaciones públicas de OpenAI. Sin embargo, la compañía posteriormente afirmó que sería estable para el lanzamiento del miércoles.

Los generadores de texto a imagen como DALL-E 2, Midjourney y Stable Diffusion fascinaron a los primeros usuarios cuando se lanzaron el año pasado, ofreciendo al público la capacidad de controlar un software avanzado sin necesidad de habilidades técnicas. Anunciantes, comercializadores, políticos y creadores de videojuegos han utilizado estas herramientas para realizar campañas llamativas.

Pero las visitas mensuales al sitio web de la herramienta DALL-E en computadoras de escritorio y dispositivos móviles han disminuido, pasando de un pico de 32 millones en marzo de 2023, cuando OpenAI actualizó la tecnología subyacente de ChatGPT, a aproximadamente 13 millones en agosto, según datos de SimilarWeb, una firma de análisis de datos.

A pesar de la incertidumbre sobre el futuro de la IA de texto a imagen, la tecnología se ha proliferado sin muchas restricciones, lo que ha generado preocupaciones de que la capacidad generalizada de crear imágenes realistas pueda tener repercusiones sociales y políticas.

Las señales de tráfico confusas y el texto confuso producido por versiones antiguas de la herramienta proporcionaban una pista fácil para las imágenes generadas por AI. Las mejoras de DALL-E 3 dificultan que una persona sin conocimientos pueda identificar fotos reales.

"No podrás confiar en tus ojos", dijo el profesor Hany Farid de la Universidad de California en Berkeley, quien se especializa en forenses digitales y trabaja con Adobe en su [Iniciativa de Autenticidad de Contenido](https://contentauthenticity.org/).

Pero Farid enfatizó que las mejoras de DALL-E 3 no son motivo de alarma, ya que la IA mejora su capacidad de imitar el mundo real cada seis meses aproximadamente. Pidió tecnología avanzada para detectar las creaciones humanas de la inteligencia artificial.

Los competidores de OpenAI, incluidos Stability AI y Midjourney, enfrentan demandas de artistas e imágenes de Getty alegando que las amplias extracciones de datos de Internet necesarias para enseñar modelos generativos de IA constituyen robo de derechos de autor.

Recientemente, las fuerzas del orden, los reguladores y los grupos de defensa han prestado atención a la forma en que se utilizan estas herramientas para crear pornografía deepfake no consensuada, material de abuso sexual infantil y anuncios generados por IA para las próximas elecciones presidenciales.

El equipo de DALL-E 3 dijo que dio prioridad a estos riesgos al invitar a un "equipo rojo" de expertos externos para probar los peores escenarios y luego integrar lo que aprendieron en las estrategias de mitigación de la empresa.

Para DALL-E 2, OpenAI publicó un resumen detallado de este proceso en una [tarjeta de sistema](https://github.com/openai/dalle-2-preview/blob/main/system-card.md), un registro público de cómo se desarrolló, ajustó y probó la seguridad de un modelo de IA, que funciona tanto como una etiqueta de advertencia como una etiqueta de información nutricional. Sandhini Agarwal, una investigadora de políticas, dijo que OpenAI planea publicar una para DALL-E 3 antes de que la herramienta esté abierta al público.

Como parte de un [compromiso voluntario de la Casa Blanca](https://www.washingtonpost.com/technology/2023/07/21/ai-white-house-pledge-openai-google-meta/?itid=lk_inline_manual_31) en junio, OpenAI acordó desarrollar e implementar mecanismos para identificar cuándo el contenido visual o de audio es generado por AI, utilizando métodos como marcar una imagen o codificar datos de procedencia para indicar el servicio o el modelo que creó el contenido. DALL-E 3 está experimentando con un clasificador que analiza de dónde proviene una imagen o la "procedencia" del contenido, según menciona Ramesh, un método mencionado en los compromisos de la Casa Blanca.

Estos tipos de mecanismos ayudan a identificar deepfakes, pero también pueden ayudar a los artistas a rastrear si su trabajo se utilizó sin su consentimiento o compensación para entrenar modelos, afirmó Margaret Mitchell, científica investigadora de Hugging Face y ex co-líder de ética en IA en Google.

"No necesariamente es del interés de la empresa, pero creo que es del interés del bien común", dijo.