Hace un año, generar imágenes realistas con IA era un sueño. Nos sorprendíamos al ver caras generadas que se parecían a las reales, a pesar de que la mayoría de las salidas tenían tres ojos, dos narices, etc. Sin embargo, las cosas cambiaron rápidamente con la aparición de los modelos de difusión. Hoy en día, es difícil distinguir una imagen generada por IA de una real.

La capacidad de generar imágenes de alta calidad es solo una parte de la ecuación. Si las utilizamos adecuadamente, la compresión eficiente de las mismas desempeña un papel fundamental en tareas como la generación de contenido, el almacenamiento y la transmisión de datos, y la optimización del ancho de banda. Sin embargo, la compresión de imágenes ha dependido predominantemente de métodos tradicionales como la codificación transformada y las técnicas de cuantización, con una exploración limitada de modelos generativos.

A pesar de su éxito en la generación de imágenes, los modelos de difusión y los modelos generativos basados en puntuación aún no se han consolidado como los enfoques líderes para la compresión de imágenes, quedando atrás de los métodos basados en GAN. A menudo, su rendimiento es peor o está en línea con los enfoques basados en GAN como HiFiC en imágenes de alta resolución. Incluso los intentos de reutilizar modelos de texto a imagen para la compresión de imágenes han producido resultados insatisfactorios, dando como resultado reconstrucciones que se desvían de la entrada original o contienen artefactos indeseables.

La brecha entre el rendimiento de los modelos generativos basados en puntuación en tareas de generación de imágenes y su éxito limitado en la compresión de imágenes plantea preguntas intrigantes y motiva una investigación más profunda. Es sorprendente que los modelos capaces de generar imágenes de alta calidad no hayan podido superar a las GAN en la tarea específica de compresión de imágenes. Esta discrepancia sugiere que puede haber desafíos y consideraciones únicas al aplicar modelos generativos basados en puntuación a tareas de compresión, lo que requiere enfoques especializados para aprovechar todo su potencial.

Sabemos que existe un potencial para utilizar modelos generativos basados en puntuación en la compresión de imágenes, la pregunta es ¿cómo se puede hacer? Veamos la respuesta.

Los investigadores de Google propusieron un método que combina un autoencoder estándar, optimizado para el error cuadrático medio (MSE), con un proceso de difusión para recuperar y agregar detalles finos descartados por el autoencoder. La tasa de bits para codificar una imagen está determinada únicamente por el autoencoder, ya que el proceso de difusión no requiere bits adicionales. Al ajustar los modelos de difusión específicamente para la compresión de imágenes, se demuestra que pueden superar varios enfoques generativos recientes en cuanto a calidad de imagen.

El método propuesto puede preservar detalles mucho mejor en comparación con los enfoques más avanzados. Fuente: https://arxiv.org/pdf/2305.18231.pdf El método explora dos enfoques estrechamente relacionados: los modelos de difusión, que muestran un rendimiento impresionante, pero requieren un gran número de pasos de muestreo, y los flujos rectificados, que funcionan mejor cuando se permiten menos pasos de muestreo.

El enfoque de dos pasos consiste en codificar primero la imagen de entrada utilizando el autoencoder optimizado para MSE y luego aplicar el proceso de difusión o flujos rectificados para mejorar la realidad de la reconstrucción. El modelo de difusión utiliza un programa de ruido que se desplaza en la dirección opuesta en comparación con los modelos de texto a imagen, priorizando los detalles sobre la estructura global. Por otro lado, el modelo de flujo rectificado aprovecha el emparejamiento proporcionado por el autoencoder para mapear directamente las salidas del autoencoder a imágenes sin comprimir.

Además, el estudio reveló detalles específicos que pueden ser útiles para futuras investigaciones en este ámbito. Por ejemplo, se muestra que el programa de ruido y la cantidad de ruido inyectado durante la generación de imágenes impactan significativamente en los resultados. Curiosamente, aunque los modelos de texto a imagen se benefician de niveles de ruido más altos al entrenar con imágenes de alta resolución, se descubrió que reducir el ruido general del proceso de difusión es ventajoso para la compresión. Este ajuste permite que el modelo se centre más en los detalles finos, ya que los detalles gruesos ya están adecuadamente capturados por la reconstrucción del autoencoder.

Echa un vistazo al artículo. No te olvides de unirte a nuestro SubReddit de ML 24k, canal de Discord, y Boletín de noticias, donde compartimos las últimas noticias en investigación de IA, proyectos interesantes de IA y más. Si tienes alguna pregunta sobre el artículo anterior o si nos hemos dejado algo, no dudes en enviarnos un correo electrónico a [email protected].

🚀 Echa un vistazo a los cientos de herramientas de IA en AI Tools Club

Ekrem Çetinkaya

➡️ Prueba: Ake: una excelente red de proxies residenciales (Patrocinado)