La inteligencia artificial acaba de recibir un nuevo protagonista y es totalmente de código abierto. Ariaun LLM multimodal desarrollado por Rhymes AI, con sede en Tokio, es capaz de procesar texto, código, imágenes y videos dentro de una sola arquitectura.
Lo que debería llamarte la atención no es sólo su versatilidad, sino también su eficacia. No es un modelo enorme como sus homólogos multimodales, lo que significa que es más eficiente en términos de energía y materiales.
Rhymes AI logró esto utilizando un marco de Mezcla de Expertos (MoE). Esta arquitectura es similar a un equipo de miniexpertos especializados, cada uno de ellos capacitado para sobresalir en áreas o tareas específicas.
Cuando se proporcionan nuevos datos al modelo, solo se activan los expertos relevantes (o un subconjunto) en lugar de utilizar todo el modelo. De esta manera, ejecutar solo una sección específica del modelo significa que será más liviano que ejecutar una entidad completa que lo sabe todo e intenta procesarlo todo.
Esto hace que Aria sea más eficiente porque, a diferencia de los modelos tradicionales que habilitan todos los parámetros para cada tarea, Aria utiliza selectivamente solo 3,5 mil millones de sus 24,9 mil millones de parámetros por token, lo que reduce la carga computacional y mejora el rendimiento en tareas específicas.
Esto también permite una mejor escalabilidad, ya que se podrían agregar nuevos expertos para manejar tareas especializadas sin sobrecargar el sistema.
Es importante destacar que Aria es el primer MoE multimodal en el ámbito del código abierto. Ya existen MoE (como Mixtral-8x7B) y LLM multimodales (como Pixtral), pero Aria es el único modelo capaz de combinar ambas arquitecturas.
Aria supera a la competencia en puntos de referencia sintéticos
En las pruebas comparativas, Aria supera a algunos pesos pesados de código abierto como Pixtral 12B y Llama 3.2-11B.
Más sorprendentemente, esto le da una oportunidad a modelos propietarios como GPT-4o y Gemini-1 Pro o Claude 3.5 Sonnet, que muestran un rendimiento multimodal que coincide con la idea original de OpenAI.
Rhymes AI lanzó Aria bajo la licencia Apache 2.0, lo que permite a los desarrolladores e investigadores adaptar y desarrollar el modelo.
También es una adición muy poderosa a un grupo cada vez mayor de modelos de IA de código abierto liderados por Meta y Mistral, que funcionan de manera similar a los modelos cerrados más populares y adoptados.
La versatilidad de Aria también se destaca en diversas tareas.
En el trabajo de investigación, el equipo explicó cómo alimentaron el modelo con un informe financiero completo y que era capaz de realizar análisis precisos, extraer datos de los informes, calcular márgenes de beneficio y proporcionar desgloses detallados.
Cuando se le asignó la tarea de visualizar datos meteorológicos, Aria no solo extrajo información relevante, sino que también generó código Python para crear gráficos, completos con detalles de formato.
Las capacidades de procesamiento de vídeo del modelo también parecen prometedoras. En una evaluación, Aria analizó un vídeo de una hora de duración del David de Miguel Ángel, identificando 19 escenas distintas con horas de inicio y finalización, títulos y descripciones. Esta no es una simple concordancia de palabras clave, sino una demostración de comprensión contextual.
La codificación es otra área en la que Aria sobresale. Puede ver tutoriales en vídeo, extraer fragmentos de código e incluso depurarlos. En un caso, Aria detectó y solucionó un error lógico en un fragmento de código que involucraba bucles anidados, lo que demuestra su profundo conocimiento de los conceptos de programación.
Probar el modelo
Aria es un modelo robusto de 25,3 mil millones de parámetros que requiere al menos una GPU A100 (80 GB) para ejecutar inferencias con media precisión, por lo que no es algo que puedas ejecutar y ajustar en tu computadora portátil. Sin embargo, lo probamos en Página de demostración de Rhyme AIque ofrece una versión limitada.
Análisis y procesamiento de textos.
Primero, probamos su capacidad para analizar documentos, le proporcionamos un trabajo de investigación y le pedimos que explicara simplemente de qué se trataba.
El modelo era muy conciso pero preciso. No tuvo alucinaciones y mantuvo una conversación, demostrando buenas habilidades de recuperación.
Mostró su respuesta en un párrafo largo y continuo, lo que puede resultar agotador para los usuarios que prefieren párrafos más cortos.
En comparación con ChatGPT, el modelo de OpenAI mostró una respuesta similar en términos de información proporcionada, pero tenía un formato más estructurado, lo que facilita su lectura.
Además de eso, el sitio de demostración de Rhyme limita la carga de archivos PDF de solo cinco páginas. ChatGPT es mucho más capaz de procesar documentos de más de 200 páginas.
Por otro lado, Claude 3.5 Sonnet permite documentos de menos de 30 MB siempre que no excedan sus límites de token.
Codificación y comprensión de imágenes.
Luego mezclamos dos instrucciones, pidiendo al modelo que analizara una captura de pantalla de CoinMarketCap que muestra el desempeño del precio de los 10 tokens principales, y luego usamos código para proporcionar cierta información.
Nuestro mensaje fue:
Organiza la lista en función de las mejores actuaciones de las últimas 24 horas.
Escriba código Python para dibujar un gráfico de barras para el rendimiento diario y semanal de cada moneda, y dibuje un gráfico de líneas para el precio de Bitcoin que muestre su precio actual y el precio que tuvo ayer y la semana pasada teniendo en cuenta la información de rendimiento que se muestra sobre el últimas 24 horas y los últimos siete días.
Aria no pudo organizar las monedas según el rendimiento diario y, por alguna razón, entendió que Tron estaba teniendo un rendimiento positivo cuando su precio en realidad había caído. El gráfico agregó el desempeño semanal junto a las barras diarias. Su línea de medición también estaba defectuosa: no ordenaba correctamente el tiempo en el eje X.
ChatGPT era más capaz de comprender cómo trazar correctamente la línea de tiempo, pero en realidad no ordenaba las piezas según el rendimiento. También fue un temblor de TRX, registrando un rendimiento diario positivo.
Entendiendo el vídeo
Aria también es capaz de entender el vídeo correctamente. Publicamos un video corto de una mujer en movimiento. En el video, la mujer no habla.
Le pedimos a la modelo que describiera la escena y lo que decía la mujer, para intentar ver si la modelo había alucinado una respuesta.
Aria pudo comprender la tarea, describir los elementos y mencionar correctamente que la mujer no había cambiado su apariencia y no estaba hablando a la cámara.
ChatGPT no es capaz de entender el video, por lo que no pudo procesar este mensaje.
Texto creativo
Esta prueba fue probablemente la sorpresa más agradable. La historia de Aria era más imaginativa que los resultados proporcionados por Grok-2 o Claude 3.5 Sonnet, que fueron los líderes en nuestro análisis subjetivo.
Nuestro mensaje fue: Escribe una historia corta sobre una persona llamada José Lanz que viaja en el tiempo, utilizando un lenguaje descriptivo vívido y adaptando la historia a su origen cultural y fenotipo, sea cual sea tu idea. Viene del año 2150 y se remonta al año 1000. La historia debe centrarse en la paradoja del viaje en el tiempo y en cómo no tiene sentido intentar resolver un problema del pasado (o inventar un problema) para intentar cambiar su pasado. línea de tiempo actual. . El futuro existe como existe sólo porque influyó en los acontecimientos del año 1000, que iban a ocurrir para configurar el año 2150 con sus características actuales, algo que sólo se da cuenta al volver a su cronología.
La historia de Aria sobre José Lanz, un historiador viajero en el tiempo del año 2150, mezcla tramas de ciencia ficción con elementos históricos y filosóficos. La historia no es tan abrupta en su final como las contadas por otros modelos, y aunque no fue tan creativa como algo que habría escrito un humano, produjo un resultado que se siente como un giro de la trama en lugar de un final apresurado.
En general, Aria presentó una historia atractiva y coherente que fue más completa e impactante en diferentes temas que sus competidores más fuertes. Fue un poco más inmersivo pero apresurado debido a los límites de los tokens. Para historias largas, Longwriter es, con diferencia, el mejor modelo.
Puedes leer todas las historias en haciendo clic en este enlace.
En general, Aria es un fuerte contendiente que parece prometedor debido a su arquitectura, apertura y escalabilidad. Si aún desea probar o entrenar el modelo, está disponible de forma gratuita en cara de peluche. Recuerde, necesita al menos 80 GB de VRAM, una GPU potente o tres RTX 4090 trabajando juntos. Esto todavía es nuevo, por lo que no hay disponible ninguna versión cuantificada (menos precisa pero más eficiente).
A pesar de estas limitaciones de hardware, nuevos desarrollos como este en el espacio de código abierto son un paso importante hacia la realización del sueño de tener un competidor ChatGPT completamente abierto que las personas puedan ejecutar en casa y mejorar según sea necesario. Veamos adónde van a continuación.
Editado por Sebastian Sinclair y Josh Quittner
Generalmente inteligente Hoja informativa
Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.