Investigadores han desarrollado un sistema de manipulación de imágenes basado en puntos que utiliza tecnología generativa de inteligencia artificial (IA) para permitir a los usuarios controlar de manera precisa la postura, forma, expresión y disposición de los objetos.

Drag Your GAN

La investigación describe cómo los usuarios pueden controlar las redes adversarias generativas (GAN) con un control gráfico intuitivo. La tecnología se llama DragGAN.

Al igual que la tecnología U Point de DxO software, que permite a los usuarios colocar un punto en una parte de su imagen y afectar la apariencia de los píxeles relevantes, DragGAN permite a los usuarios colocar un punto en una imagen y cambiar la organización e incluso la existencia misma de píxeles individuales, no solo el brillo y el color. DragGAN utiliza la inteligencia artificial para generar píxeles completamente nuevos en respuesta a la entrada del usuario.

“En este trabajo, estudiamos una forma poderosa pero menos explorada de controlar GANs, que es 'arrastrar' cualquier punto de la imagen para alcanzar precisamente los puntos objetivo de una manera interactiva del usuario, como se muestra en Fig.1. Para lograr esto, proponemos DragGAN, que consta de dos componentes principales que incluyen: 1) supervisión de movimiento basada en características que impulsa al punto de control a moverse hacia la posición objetivo y 2) un nuevo enfoque de seguimiento de puntos que aprovecha las características discriminatorias de GAN para seguir localizando la posición de los puntos de control”, explican los investigadores.

DragGAN

Al editar imágenes de diversos sujetos, incluidos animales, vehículos, paisajes e incluso personas, los usuarios pueden "deformar una imagen con un control preciso sobre dónde van los píxeles, manipulando la postura, forma, expresión y disposición", explican los investigadores.

The Verge describe DragGAN como "como la herramienta de deformación de Photoshop, pero mucho más poderosa. No solo estás deslizando los píxeles, sino usando la IA para volver a generar el objeto subyacente".

Las GANs son cada vez más competentes cuando se trata de generar salidas realistas. Sin embargo, DragGAN introduce un nivel distintivo de control sobre la ubicación de los píxeles que las GANs típicas no ofrecen.

https://petapixel.com/assets/uploads/2023/05/real_image.mp4 Es extremadamente poderoso manipular una imagen bidimensional en un espacio tridimensional generado por la IA. Los ejemplos muestran a un usuario cambiando la postura de un perro, ajustando la altura y los reflejos de una montaña detrás de un lago y realizando cambios extensos en la apariencia y el comportamiento de un león.

El equipo también destaca que el atractivo de DragGAN va más allá de su poder y capacidades. La interfaz de usuario es notable porque es sencilla y casi cualquier usuario podría aprovechar la tecnología sin entender la tecnología subyacente. Muchas herramientas de IA pueden ser obtusas para usuarios nuevos e inexpertos, lo que limita significativamente su atractivo comercial y práctico.

https://petapixel.com/assets/uploads/2023/05/landscapes.mp4 "Como estas manipulaciones se realizan en la variedad de imágenes generativas aprendidas de una GAN, tienden a producir salidas realistas incluso para escenarios desafiantes, como alucinar contenido oculto y deformar formas que siguen consistentemente la rigidez del objeto. Tanto las comparaciones cualitativas como cuantitativas demuestran la ventaja de DragGAN sobre enfoques anteriores en las tareas de manipulación de imágenes y seguimiento de puntos”, dicen los investigadores.

El artículo incluye una descripción detallada de DragGAN, incluyendo partes de su código y sus fundamentos matemáticos. El artículo también incluye resultados de investigación y demuestra la eficacia de DragGAN. Por ejemplo, DragGAN incluye una función de máscara que permite a los usuarios enmascarar regiones específicas de una imagen para afectar una región seleccionada por el usuario de píxeles.

Un ejemplo descrito en el artículo muestra lo que sucede cuando un usuario intenta arrastrar un perro para cambiar la orientación de su cara. Sin una máscara en la cabeza del perro, todo el cuerpo del perro se rota. Sin embargo, al utilizar una máscara dentro de DragGAN, los usuarios pueden controlar con precisión solo la cara, lo que resulta en un control más granular.

Otro ejemplo del poder de DragGAN involucra a un león. En el ejemplo siguiente, la imagen original tiene un león con la boca cerrada. Sin embargo, los usuarios pueden colocar puntos en la parte superior e inferior del hocico del león y luego moverlos para abrir la boca del león. DragGAN genera nuevos píxeles para el interior de la boca del león, incluyendo dientes realistas.

DragGAN

"Hemos presentado DragGAN, un enfoque interactivo para la edición de imágenes basado en puntos intuitivos. Nuestro método aprovecha una GAN pre-entrenada para sintetizar imágenes que no solo siguen precisamente la entrada del usuario, sino que también se mantienen en la variedad de imágenes realistas. En contraste con muchos enfoques anteriores, presentamos un marco general que no se basa en la modelización específica del dominio ni en redes auxiliares", concluye el equipo.

DragGAN

"Esto se logra mediante dos ingredientes novedosos: una optimización de códigos latentes que mueve incrementalmente múltiples puntos de control hacia sus ubicaciones objetivo, y un procedimiento de seguimiento de puntos para rastrear fielmente la trayectoria de los puntos de control. Ambos componentes utilizan la calidad discriminatoria de los mapas de características intermedios de la GAN para producir deformaciones de imagen precisas en píxeles y un rendimiento interactivo. Hemos demostrado que nuestro enfoque supera el estado del arte en la manipulación basada en GAN y abre nuevas direcciones para la edición de imágenes potentes utilizando prioridades generativas. En cuanto al trabajo futuro, planeamos extender la edición basada en puntos a modelos generativos 3D".

El equipo de investigación está compuesto por Xingang Pang, Thomas Leimkühler y Christian Theobalt del Instituto Max Planck de Informática, Ayush Tewari del MIT CSAIL y Abhimitra Meka de Google AR/VR.

Créditos de imagen y video demo: Pang, Leikmühler, Theobalt, Tewari y Meka / Instituto Max Planck de Informática, MIT CSAIL y Google AR/VR.