Las pruebas comparativas de agentes de IA son engañosas, advierte un estudio

Las pruebas comparativas de agentes de IA son engañosas, advierte un estudio

¡Queremos saber tu opinión! Realice nuestra rápida encuesta sobre IA y comparta sus opiniones sobre el estado actual de la IA, cómo la está implementando y qué espera del futuro. Aprende más


Los agentes de IA se están convirtiendo en una nueva dirección de investigación prometedora con posibles aplicaciones en el mundo real. Estos agentes utilizan modelos básicos, como modelos de lenguaje grande (LLM) y modelos de lenguaje de visión (VLM), para recibir instrucciones en lenguaje natural y perseguir objetivos complejos de forma autónoma o semiautónoma. Los agentes de IA pueden utilizar varias herramientas, como navegadores, motores de búsqueda y compiladores de código, para verificar sus acciones y razonar sobre sus objetivos.

Sin embargo, un análisis reciente por investigadores de Universidad de Princeton reveló varias lagunas en los puntos de referencia de agentes actuales y las prácticas de evaluación que obstaculizan su utilidad en aplicaciones del mundo real.

Sus hallazgos resaltan que la evaluación comparativa de agentes conlleva desafíos únicos y que no podemos evaluar a los agentes de la misma manera que evaluamos los modelos básicos.

Compensación entre costo y precisión

Una de las principales cuestiones destacadas por los investigadores en su estudio es la falta de controles de costes en las evaluaciones de los agentes. Los agentes de IA pueden ser mucho más costosos de ejecutar que una sola llamada a un modelo porque a menudo dependen de modelos de lenguaje estocásticos que pueden producir resultados diferentes cuando se les hace la misma consulta varias veces.


Cuenta regresiva para VB Transform 2024

Únase a los líderes empresariales en San Francisco del 9 al 11 de julio para nuestro evento emblemático de IA. Conéctese con sus pares, explore las oportunidades y desafíos de la IA generativa y aprenda cómo integrar aplicaciones de IA en su industria. Regístrate ahora


Para aumentar la precisión, algunos sistemas de agentes generan múltiples respuestas y utilizan mecanismos como votación o herramientas de verificación externa para elegir la mejor respuesta. A veces, muestrear cientos o miles de respuestas puede aumentar la precisión del agente. Aunque este enfoque puede mejorar el rendimiento, tiene un coste computacional significativo. Los costos de inferencia no siempre son un problema en contextos de búsqueda, donde el objetivo es maximizar la precisión.

Sin embargo, en aplicaciones prácticas, el presupuesto disponible para cada consulta es limitado, por lo que es crucial controlar los costos de las evaluaciones de los agentes. De lo contrario, es posible que los investigadores tengan que desarrollar agentes extremadamente costosos sólo para llegar a lo más alto de la clasificación. Los investigadores de Princeton proponen visualizar los resultados de la evaluación como una curva de Pareto de precisión y costo de inferencia y utilizar técnicas que optimicen conjuntamente el agente para estas dos medidas.

Los investigadores evaluaron las ventajas y desventajas entre precisión y costo de diferentes técnicas de incentivos y modelos de agentes presentados en diferentes artículos.

«Para una precisión sustancialmente similar, el costo puede variar en casi dos órdenes de magnitud», escriben los investigadores. “Sin embargo, el costo de operar estos agentes no es una métrica destacada reportada en ninguno de estos artículos. »

Los investigadores sostienen que optimizar ambas métricas puede conducir a «agentes que cuesten menos y mantengan la precisión». La optimización conjunta también puede permitir a investigadores y desarrolladores compensar los costos fijos y variables de operar un agente. Por ejemplo, pueden gastar más para optimizar el diseño del agente, pero reducir el costo variable utilizando menos ejemplos de capacitación en contexto en el mensaje del agente.

Los investigadores probaron la optimización conjunta en HotpotQAuna herramienta de referencia popular para responder preguntas. Sus resultados muestran que la formulación de optimización conjunta ofrece una manera de encontrar un equilibrio óptimo entre precisión y costos de inferencia.

«Las evaluaciones de agentes útiles deben tener en cuenta los costos, aunque en última instancia no nos preocupan los costos sino sólo la identificación de nuevos modelos de agentes», escriben los investigadores. “La precisión por sí sola no puede identificar el progreso, porque puede mejorarse mediante métodos científicamente sin sentido, como las nuevas pruebas. »

Desarrollo de modelos frente a aplicaciones posteriores

Los investigadores también destacan la diferencia entre evaluar modelos con fines de investigación y desarrollar aplicaciones posteriores. En la investigación, la precisión suele ser la prioridad, y los costos de inferencia se ignoran en gran medida. Sin embargo, al desarrollar aplicaciones del mundo real sobre agentes de IA, los costos de inferencia desempeñan un papel crucial a la hora de decidir qué modelo y técnica utilizar.

Evaluar los costos de inferencia para los agentes de IA es un desafío. Por ejemplo, diferentes proveedores de plantillas pueden cobrar cantidades diferentes por la misma plantilla. Al mismo tiempo, los costos de las llamadas a la API cambian periódicamente y pueden variar según las decisiones de los desarrolladores. Por ejemplo, en algunas plataformas, las llamadas API masivas se facturan de forma diferente.

Los investigadores crearon un sitio web que ajusta las comparaciones de modelos en función del precio del token para resolver este problema.

También realizaron un estudio de caso sobre Nuevo control de calidaduna referencia para tareas de preguntas y respuestas en textos muy extensos. Descubrieron que los puntos de referencia destinados a la evaluación de modelos pueden ser engañosos cuando se utilizan para la evaluación posterior. Por ejemplo, el estudio original de NovelQA encontró que la generación aumentada de recuperación (RAG) parece significativamente peor que los modelos de contexto largo que en un escenario del mundo real. Sus hallazgos muestran que los modelos RAG y de contexto largo son aproximadamente igualmente precisos, mientras que los modelos de contexto largo son 20 veces más caros.

El sobreajuste es un problema

Al aprender nuevas tareas, los modelos de aprendizaje automático (ML) a menudo encuentran atajos que les permiten desempeñarse bien en las pruebas comparativas. Uno de los principales tipos de atajos es el «sobreajuste», en el que el modelo encuentra formas de hacer trampa en las pruebas de referencia y proporciona resultados que no se traducen en el mundo real. Los investigadores han descubierto que el sobreajuste es un problema grave para los puntos de referencia de los agentes porque tienden a ser pequeños y, por lo general, constan de sólo unos pocos cientos de muestras. Este problema es más grave que el de las pruebas comparativas de agentes. contaminación de datos en el entrenamiento de modelos básicos, porque el conocimiento de las muestras de prueba se puede programar directamente en el agente.

Para abordar este problema, los investigadores sugieren que los desarrolladores de pruebas comparativas creen y mantengan conjuntos de pruebas comparativas que consten de ejemplos que no se pueden memorizar durante el entrenamiento y que solo se pueden resolver mediante una buena comprensión de la tarea objetivo. En su análisis de 17 puntos de referencia, los investigadores encontraron que muchos carecían de conjuntos de datos de referencia adecuados, lo que permitía a los agentes tomar atajos, incluso sin querer.

«Sorprendentemente, encontramos que muchos puntos de referencia de agentes no incluyen conjuntos de pruebas reservados», escriben los investigadores. “Además de crear un conjunto de pruebas, los desarrolladores de pruebas comparativas deberían considerar mantenerlo en secreto para evitar la contaminación del LLM o el sobreajuste del agente. »

También indican que se necesitan diferentes tipos de muestras de referencia dependiendo del nivel deseado de generalidad de la tarea realizada por el agente.

«Los desarrolladores de referencia deberían hacer todo lo posible para garantizar que los atajos sean imposibles», escriben los investigadores. «Consideramos que esto es responsabilidad de los desarrolladores de benchmarks más que de los desarrolladores de agentes, porque es mucho más fácil diseñar benchmarks que no permitan atajos que verificar cada agente para ver si toma atajos. »

Los investigadores probaron WebArenauna prueba de referencia que evalúa el desempeño de los agentes de IA en la resolución de problemas con diferentes sitios web. Encontraron varios atajos en los conjuntos de datos de entrenamiento que permitieron a los agentes adaptarse a las tareas de una manera que se vería fácilmente interrumpida por cambios menores en el mundo real. Por ejemplo, el agente podría hacer suposiciones sobre la estructura de las direcciones web sin considerar que podría cambiar en el futuro o que no funcionaría en diferentes sitios web.

Estos errores inflan las estimaciones de precisión y conducen a un optimismo excesivo sobre las capacidades de los agentes, advierten los investigadores.

Como los agentes de IA son un campo nuevo, las comunidades de investigación y desarrollo todavía tienen mucho que aprender sobre cómo probar los límites de estos nuevos sistemas que pronto podrían convertirse en una parte importante de las aplicaciones cotidianas.

«La evaluación comparativa de agentes de IA es nueva y aún no se han establecido las mejores prácticas, lo que dificulta separar los avances reales de las exageraciones», escriben los investigadores. “Nuestra tesis es que los agentes son lo suficientemente diferentes de los modelos como para repensar las prácticas de evaluación comparativa. »