Los Modelos de Lenguaje Multimodales (MLLMs) han experimentado un desarrollo significativo en los últimos meses. Dirigen la atención de las personas hacia los Modelos de Lenguaje Grandes (LLMs), donde las personas pueden discutir la imagen de entrada. Aunque estos modelos pueden entender el contenido visual, no pueden comunicarse con los usuarios acerca de las ubicaciones exactas del material. Tanto los usuarios como los modelos no pueden proporcionar posiciones específicas del material mencionado en una imagen. En contraste, como se ilustra en la Figura 1, las áreas o elementos distintos en la escena se abordan a menudo en la conversación humana diaria, y las personas pueden hablar y señalar regiones específicas para compartir información de manera efectiva.

Figura 1: Demostración del Diálogo Referencial (RD). Los usuarios pueden hacer preguntas y señalar regiones específicas. Shikra, si es necesario, especificará las regiones al responder.

A esto se le llama diálogo referencial (RD). Si un MLLM funciona en esta área, se podrán desarrollar muchas aplicaciones interesantes. Los usuarios pueden indicar cualquier cosa para comunicarse con el asistente de IA, por ejemplo, mientras usan visores de realidad mixta (XR) como el Apple Vision Pro. Cuando sea necesario, el asistente de IA puede mostrar el área inmediata en el campo visual. También ayuda a los robots visuales a interactuar con las personas al comprender sus puntos de referencia únicos. Ayudar a los consumidores a obtener más información sobre objetos de interés en una imagen ayuda en las compras en línea. En este estudio, se desarrolló un MLLM para revelar el funcionamiento de una conversación referencial.

Investigadores de SenseTime Research, SKLSDE, la Universidad de Beihang y la Universidad Jiao Tong de Shanghai desarrollaron Shikra, un modelo unificado que puede manejar entradas y salidas de coordenadas espaciales, que es lo que han creado. Sin utilizar vocabularios adicionales o codificadores de posición, todas las coordenadas, tanto de entrada como de salida, se proporcionan en forma de lenguaje natural y numérico. Una capa de alineación, un LLM y un codificador de visión son partes de la arquitectura de Shikra. Hacen que Shikra sea uniforme y sencillo al no introducir módulos de detección previa/posterior u otros modelos complementarios. Ofrecen numerosas interacciones de usuario que los usuarios pueden utilizar para comparar las variaciones entre diferentes áreas, preguntar sobre el significado de la miniatura, hablar sobre objetos específicos, etc., en su sitio web. Shikra puede responder a cada pregunta con justificaciones, tanto vocalmente como geográficamente.

La tarea de lenguaje-visión (VL) del discurso referencial abarca varias otras. Shikra, que es experto en RD, puede realizar de manera natural tareas como Responder a Preguntas Visuales (VQA), subtitulado de imágenes y tareas relacionadas con la ubicación, como la Comprensión de Expresiones Referenciales (REC) y señalar, con resultados prometedores. Además, este artículo aborda interesantes cuestiones como cómo representar la ubicación en una imagen. ¿Los MLLMs del pasado pueden entender posiciones absolutas? ¿El uso de información geográfica en el razonamiento puede dar lugar a respuestas más precisas a preguntas? Esperan que estos experimentos analíticos estimulen futuras investigaciones en MLLMs.

Las principales contribuciones de este artículo son las siguientes:

• Este artículo presenta la actividad de Diálogo Referencial (RD), que es una parte crucial de la comunicación humana normal y tiene muchas aplicaciones prácticas.

• Se ofrece Shikra, un MLLM generalista, como el RD. Shikra es sencillo y unificado sin agregar nuevos vocabularios, módulos de detección previa/posterior ni otros modelos complementarios.

• Shikra maneja fácilmente configuraciones ocultas, lo que resulta en diversas situaciones de aplicación. Además, muestra buenos resultados en tareas comunes de lenguaje visual, incluyendo REC, PointQA, VQA y subtitulado de imágenes, sin necesidad de ajustes finos. El código está disponible en GitHub.

Echa un vistazo al artículo y al enlace de GitHub. No olvides unirte a nuestro SubReddit de 25k de ML, nuestro canal de Discord y nuestro boletín de noticias por correo electrónico, donde compartimos las últimas noticias de investigación en IA, proyectos de IA interesantes y más. Si tienes alguna pregunta sobre el artículo anterior o si nos hemos olvidado de algo, no dudes en enviarnos un correo electrónico a [email protected].

🚀 Descubre cientos de herramientas de IA en AI Tools Club

Aneesh Tickoo