LLM multimodal en interpretación de mapas

LLM multimodal en interpretación de mapas

¿Pueden los LLM multimodales inferir con precisión gráficos básicos?

Imagen creada por el autor usando Flux 1.1 [Pro]

Los LLM multimodales (MLLM) prometen poder interpretar cualquier cosa en una imagen. Esto es cierto en la mayoría de los casos, como los subtítulos de imágenes y la detección de objetos.

Pero, ¿puede comprender de manera razonable y precisa los datos presentados en un gráfico?

Si realmente desea crear una aplicación que le indique qué hacer cuando apunta su cámara al tablero de un automóvil, las habilidades de interpretación de gráficos del LLM deben ser excepcionales.

Claro, los LLM multimodales pueden saber qué hay en un gráfico, pero consumir datos y responder preguntas complejas de los usuarios es un desafío.

Quería saber qué tan difícil era.

He reunido ocho desafíos para que los resuelvan los LLM. Cada desafío tiene una tabla rudimentaria y una pregunta que el LLM debe responder. Sabemos la respuesta correcta porque creamos los datos, pero el LLM debe comprenderla únicamente utilizando la visualización que se le proporciona.

Al momento de escribir estas líneas, y por lo que tengo entendido, existen cinco proveedores LLM multimodales líderes en el mercado: OpenAI (GPT4o), Meta Llama 3.2 (modelos 11B y 90B), Mistral con su nuevo Pixtral 12B, Cloude 3.5 Sonnet y Gemini. 1.5 de Google.