La inteligencia artificial y el aprendizaje automático han sido proyectos apasionantes de Google durante varios años, y el discurso principal de I/O 2023 solo lo dejó más claro. La creación de imágenes es una de las aplicaciones más fascinantes de esta tecnología, y los esfuerzos de Google en esta área se materializaron en Imagen, una herramienta de generación de imágenes basada en texto muy similar a Midjourney y DALL-E 2. Ahora, Google comparte investigaciones que muestran Imagen Editor, donde frases textuales y un poco de dibujo pueden ser suficientes para realizar ediciones locales en fotos.
La utilidad de Imagen de Google ya es hábil para crear imágenes desde cero, solo a partir de frases textuales. Sin embargo, si no está satisfecho con el resultado, normalmente se le obliga a reestructurar su frase, pulirla y darle al generador de imágenes otra oportunidad, simplemente porque Imagen aún no permite la edición de elementos específicos de las imágenes con los que no está contento. Para abordar esto, Google recientemente compartió investigaciones para Imagen Editor y EditBench, utilidades actualmente en beta, pero capaces de guiar ediciones con frases textuales.
En lugar de crear imágenes nuevas utilizando una frase, Imagen Editor necesita una foto que debe editarse, una frase textual del usuario que defina el cambio y una región máscara que defina dónde se debe aplicar la edición. El resultado son ediciones limitadas a la región que has definido, adaptadas a la frase proporcionada. Además, los resultados son fotorealistas y naturales.
Técnicamente llamado "inpainting", el proceso que utiliza la nueva herramienta de Google es como una restauración de imagen o algo que podemos describir mejor como la confluencia de Google AI y Adobe Photoshop's Content Aware Fill. Los investigadores desarrollaron nuevos codificadores para Imagen Editor e incluyeron un módulo detector de objetos en la inteligencia artificial para compensar máscaras incompletas o inexactas.

La investigación también incluye una herramienta llamada EditBench para evaluar resultados de "inpainting" guiados por texto. Basado en un conjunto de datos de 240 imágenes, el benchmark evaluó ediciones en imágenes generadas tanto por humanos como por IA en parámetros como los objetos modificados, sus atributos como su forma, tamaño, número y adecuación para la escena. Google observó que el enmascaramiento de objetos ayuda a mejorar la alineación de texto e imagen, lo que hace que Imagen Editor sea mejor que alternativas como DALL-E 2 y StableDiffusion en todas las categorías que EditBench evaluó.
Desafortunadamente, Google tiene preocupaciones no especificadas relacionadas con el uso responsable de la IA, y por eso no lanzará Imagen Editor al público. La compañía propuso recientemente un marco para proteger el desarrollo de IA, y esperamos que se puedan establecer algunos límites estrictos antes de dar acceso a herramientas como Imagen Editor. En el lado positivo, EditBench está disponible en su totalidad, de forma gratuita, para ayudar a la investigación de la IA. Mientras tanto, esperamos que el modelo base, Imagen, se integre pronto en Gboard.