Investigadores de inteligencia artificial de Meta Platforms Inc. dijeron hoy que han logrado avances significativos en la generación de imágenes y videos con IA.

La empresa matriz de Facebook e Instagram ha desarrollado nuevas herramientas que permiten un mayor control sobre el proceso de edición de imágenes a través de instrucciones de texto, y un nuevo método para la generación de texto a video. Estas nuevas herramientas se basan en el Universo de Medios Expresivos o Emu de Meta, el primer modelo fundamental de la empresa para la generación de imágenes.

EMU fue anunciado en septiembre y hoy se está utilizando en producción, impulsando experiencias como la función Imagine de Meta AI que permite a los usuarios generar imágenes fotorrealistas en Messenger. En una entrada de blog, los investigadores de IA de Meta explicaron que la generación de imágenes de IA generativa es a menudo un proceso paso a paso, donde el usuario prueba una sugerencia y la imagen que se genera no es exactamente lo que tenían en mente. Como resultado, los usuarios se ven obligados a ajustar la sugerencia hasta que la imagen creada se acerque a lo que habían imaginado.

Emu Edit para la edición de imágenes

Lo que Meta quiere hacer es eliminar este proceso y brindar a los usuarios un control más preciso, y eso es lo que ofrece su nueva herramienta Emu Edit. Ofrece un enfoque novedoso para la manipulación de imágenes, donde el usuario simplemente ingresa instrucciones basadas en texto. Puede realizar ediciones locales y globales, agregar o eliminar fondos, transformaciones de color y geometría, detección de objetos, segmentación y muchas otras tareas de edición.

"Los métodos actuales a menudo tienden a sobremodificar o desempeñarse insuficientemente en varias tareas de edición", escribieron los investigadores. "Sostenemos que el objetivo principal no debería ser simplemente producir una imagen 'creíble'. En cambio, el modelo debería centrarse en alterar precisamente solo los píxeles relevantes para la solicitud de edición".

Con ese fin, Emu Edit ha sido diseñado para seguir las instrucciones del usuario de manera precisa para asegurarse de que los píxeles no relacionados con la solicitud no sean modificados por la edición realizada. Como ejemplo, si un usuario quiere agregar el texto "¡Aloha!" a una imagen de una gorra de béisbol, la gorra en sí no debe ser alterada.

Los investigadores dijeron que la incorporación de la visión por computadora en las instrucciones de los modelos de generación de imágenes les permite ofrecer a los usuarios un control sin precedentes en la edición de imágenes.

Emu Edit fue entrenado con un conjunto de datos que contiene 10 millones de muestras sintetizadas, cada una de ellas incluye una imagen de entrada, una descripción de la tarea a realizar y la imagen de salida objetivo. Los investigadores creen que este es el conjunto de datos más grande de su tipo jamás creado, lo que permite que Emu Edit entregue resultados incomparables en cuanto a fidelidad a las instrucciones y calidad de imagen.

Emu Video para la generación de videos

El equipo de IA de Meta también se ha enfocado en mejorar la generación de videos. Los investigadores explicaron que el proceso de utilizar la IA generativa para crear videos es similar a la generación de imágenes, solo que implica dar vida a esas imágenes mediante el movimiento en la imagen.

La herramienta Emu Video aprovecha el modelo Emu y proporciona un método sencillo para la generación de texto a video basado en modelos de difusión. Meta dijo que la herramienta puede responder a diversas entradas, incluyendo solo texto, solo imagen o ambos juntos.

El proceso de generación de video se divide en un par de pasos, siendo el primero crear una imagen condicionada por una indicación de texto, antes de crear un video basado en esa imagen y otra indicación de texto. Según el equipo, este enfoque "factorizado" ofrece una forma extremadamente eficiente de entrenar modelos de generación de video.

"Mostramos que la generación de video factorizado se puede implementar a través de un solo modelo de difusión", escribieron los investigadores. "Presentamos decisiones de diseño críticas, como ajustar las secuencias de ruido para la difusión de video y el entrenamiento en varias etapas que nos permite generar directamente videos de mayor resolución".

Meta aseguró que la ventaja de este nuevo enfoque es que es más sencillo de implementar, utilizando solo un par de modelos de difusión para crear un video de cuatro segundos de 512 por 512 a 16 cuadros por segundo, en comparación con su antigua herramienta Make-A-Video, que utiliza cinco modelos. La compañía afirma que las evaluaciones humanas de este trabajo revelan que se prefiere "en gran medida" en comparación con su trabajo anterior en generación de imágenes en términos de su calidad general y su fidelidad a la indicación original de texto.

Emu Video también cuenta con otras capacidades, incluida la capacidad de animar imágenes del usuario basadas en indicaciones de texto simples, y una vez más supera a su trabajo anterior.

Por ahora, la investigación de Meta en edición de imágenes de inteligencia artificial generativa y generación de video sigue en curso, pero el equipo enfatizó que hay varios casos de uso emocionantes para la tecnología. Por ejemplo, puede permitir a los usuarios crear sus propios stickers animados y GIF sobre la marcha, en lugar de buscar los existentes que se ajusten a la idea que están tratando de representar. También puede permitir a las personas editar sus propias fotografías sin necesidad de utilizar herramientas complicadas como Photoshop.

La compañía agregó que sus últimos modelos no reemplazarán a los artistas y animadores profesionales en un futuro cercano. En cambio, su potencial radica en ayudar a las personas a expresarse de nuevas formas.

Imágenes: Meta AI

Tu voto de apoyo es importante para nosotros y nos ayuda a mantener el contenido GRATUITO.

Un solo clic a continuación apoya nuestra misión de proporcionar contenido gratuito, profundo y relevante.

Únete a nuestra comunidad en YouTube

Únete a la comunidad que incluye a más de 15,000 expertos #CubeAlumni, incluyendo al CEO de Amazon.com, Andy Jassy, al fundador y CEO de Dell Technologies, Michael Dell, al CEO de Intel, Pat Gelsinger, y muchos otros luminarias y expertos.

"TheCUBE es un socio importante para la industria. Ustedes realmente forman parte de nuestros eventos y realmente apreciamos su presencia y sé que la gente aprecia el contenido que crean también" – Andy Jassy

GRACIAS