En este artículo, exploraremos por qué los modelos con 128.000 tokens (y más) no pueden ser reemplazados por completo por RAG.
Comenzaremos con un breve recordatorio de los problemas que se pueden resolver con RAG, antes de discutir las mejoras de los LLM y su impacto en el necesidad usar RAG.
RAG no es realmente nuevo
La idea de inyectar un contexto para permitir que un modelo de lenguaje acceda a datos actualizados es bastante “antigua” (en el nivel LLM). Fue presentado por primera vez por un investigador de IA/Meta de Facebook en este artículo de 2020 »Generación de recuperación aumentada para tareas de PNL intensivas en conocimiento«. En comparación, la primera versión de ChatGPT no se lanzó hasta noviembre de 2022.
En este artículo distinguen dos tipos de memoria:
- EL paramétrico uno, que es lo inherente al LLM, lo que aprendió mientras se alimenta de muchos textos durante el entrenamiento,
- EL no paramétrico uno, que es la memoria que puedes proporcionar en rellenar un contexto en el mensaje.