Ampliar / La villa en espiral generada por IA original que cautivó a las redes sociales, creada utilizando Stable Diffusion y ControlNet. El domingo, un usuario de Reddit llamado "Ugleh" publicó una imagen generada por IA de un pueblo medieval en forma de espiral que rápidamente atrajo atención en las redes sociales por sus notables cualidades geométricas. Las publicaciones posteriores recibieron aún más elogios, incluyendo un tuit con más de 145,000 likes. Ugleh creó las imágenes utilizando Stable Diffusion y una técnica de guía llamada ControlNet.

Las reacciones al arte en línea variaron desde la admiración y el asombro hasta el respeto por desarrollar algo novedoso en el arte generativo de IA. "Nunca he visto imágenes como estas. Algo nuevo en el mundo del arte", escribió un usuario de X. "Sinceramente, he visto MUCHO arte de IA, llevo mucho tiempo en este ámbito, y este es uno de los mejores que he visto. Lo hiciste muy bien", escribió el artista de IA Kali Yuga en X.
Quizás lo más notable es que el cofundador de Y-Combinator y comentarista tecnológico frecuente en redes sociales, Paul Graham, escribió: "Este fue el punto en el que el arte generado por IA superó la Prueba de Turing para mí". Si bien Graham se refería a la Prueba de Turing (que pretende probar si el comportamiento de una máquina es indistinguible del de un humano) como una metáfora en lugar de literalmente, quedó claramente impresionado.
No todos quedaron impresionados, por supuesto, con algunos usuarios de X tratando de desmenuzar los elementos compositivos de la aldea en espiral generada por IA. "Es bonito, pero hay muchas decisiones que un humano no tomaría", escribió un diseñador gráfico llamado Trent. "Muchas de las sombras no están correctas y poner chimeneas justo encima de las ventanas no tiene sentido. Si te acercas, también se pueden ver los patrones de ruido característicos del arte de IA".
Anuncio: En junio, presentamos una técnica que utilizaba el modelo de síntesis de imágenes de IA Stable Diffusion y ControlNet para crear códigos QR que parecen obras de arte, incluyendo arte inspirado en anime. Ugleh utilizó la misma red neuronal optimizada para crear esos códigos QR (que en sí mismos son formas geométricas) y le proporcionó imágenes simples de espirales y patrones de tablero de damas en su lugar.
Cuando se guía con la consigna "Escena de un pueblo medieval con calles concurridas y un castillo en la distancia (obra maestra: 1.4), (mejor calidad), (detallada)", ControlNet genera escenas donde los elementos artísticos de las imágenes coinciden con las formas perceptuales de las espirales y los tableros de damas. En una imagen, las nubes se arquean sobre la cabeza de las personas y estas se colocan en una curva suave para seguir la guía de la espiral. En otra, los cuadrados de nubes, setos, fachadas de edificios y un carrito de vagón conforman una escena con forma de tablero de damas.
La magia de ControlNet
Entonces, ¿cómo funciona? Ya hemos hablado sobre Stable Diffusion en numerosas ocasiones. Es un modelo de red neuronal entrenado con millones de imágenes extraídas de Internet. Pero la clave aquí es ControlNet, que apareció por primera vez en un artículo de investigación titulado "Adding Conditional Control to Text-to-Image Diffusion Models" de Lvmin Zhang, Anyi Rao y Maneesh Agrawala en febrero de 2023, y rápidamente se hizo popular en la comunidad de Stable Diffusion.
Normalmente, una imagen de Stable Diffusion se crea usando una pista de texto (llamada text2image) o una pista de imagen (img2img). ControlNet introduce una guía adicional que puede tomar la forma de información extraída de una imagen de origen, como detección de postura, mapeo de profundidad, mapeo normal, detección de bordes y mucho más. Utilizando ControlNet, alguien que genera arte de IA puede replicar mucho más fielmente la forma o postura de un sujeto en una imagen.
- Captura de pantalla del proceso de ControlNet de Ugleh, utilizado para crear algunas de las imágenes.
- El patrón de espiral utilizado para guiar a ControlNet en la creación del pueblo medieval".
- El patrón de cuadros utilizado para crear algunas de las obras de Ugleh.
Utilizando ControlNet y promps similares, es fácil replicar el trabajo de Ugleh, y otros lo han hecho con efectos divertidos, incluyendo personajes de anime en tablero de ajedrez, una animación, una villa medieval "goatse" (sorprendentemente seguro para el trabajo) y una versión medieval de "Girl with a Pearl Earring".
Publicidad: A pesar de la enorme atención y de muchas ofertas para convertir la obra de arte en NFT, Ugleh ha decidido mantener un perfil bajo por ahora. En X, él dijo: "Agradezco todos los comentarios positivos hacia el arte de IA, no tengo planes de obtener dinero de mis últimas creaciones y no haré ninguna entrevista oficial. Solo soy un nerd de IA normal y experto en tecnología que experimentó con una nueva técnica de ControlNet".
Si quieres experimentar con ControlNet, este sitio tiene un buen tutorial. Además, Ugleh publicó un flujo de trabajo paso a paso, que incluye archivos de plantilla en espiral y de tablero de ajedrez, en Imgur.
Si bien la obra de arte es notable, la política de derechos de autor actual de Estados Unidos sugiere que las imágenes no cumplen con los estándares para recibir protección de derechos de autor, por lo que podrían estar en el dominio público. Aunque el arte generado por IA sigue siendo un tema controvertido para muchos en términos éticos y legales, los entusiastas creativos continúan desafiando los límites de lo que es posible para un practicante sin habilidades o sin entrenamiento que utiliza estas nuevas herramientas. Aún no está claro si o cómo la ley reconocerá alguna vez la chispa humana necesaria de inspiración que hace posible obras como estas.