Técnicas avanzadas de recuperación en un mundo con 2 millones de ventanas emergentes de tokens, Parte 1 | de Meghan Heintz | julio 2024

Técnicas avanzadas de recuperación en un mundo con 2 millones de ventanas emergentes de tokens, Parte 1 |  de Meghan Heintz |  julio 2024

Explorando técnicas RAG para mejorar la precisión de la recuperación

Proyecto de visualización de IA lanzado por Google DeepMind. desempaquetar imagen.

Gemini Pro puede manejar un asombroso contexto de 2 millones de tokens en comparación con los miserables 15.000 tokens que nos sorprendieron cuando llegó GPT-3.5. ¿Significa esto que ya no nos preocupamos por la recuperación o los sistemas RAG? Rotuladores tipo “Aguja en un pajar”La respuesta es que, aunque la necesidad está disminuyendo, especialmente para los modelos Gemini, las técnicas de búsqueda avanzada todavía mejoran significativamente el rendimiento de la mayoría de los LLM. Los resultados de la evaluación comparativa muestran que los modelos de contexto largo son eficaces para sacar a la luz información específica. Sin embargo, tienen dificultades cuando se requiere una citación. Esto hace que las técnicas de recuperación sean particularmente importantes para casos de uso donde la calidad de las citas es importante (piense en derecho, periodismo y aplicaciones médicas, entre otros). Generalmente se trata de aplicaciones de mayor valor, donde la falta de citas hace que la descripción general inicial sea mucho menos útil. Además, si bien es probable que disminuya el costo de los modelos de contexto largo, agregar modelos de ventana de contenido más cortos con captadores puede ser una solución rentable y de baja latencia para abordar los mismos casos de uso. Es seguro decir que RAG y la recuperación durarán un poco más, pero es posible que no obtenga mucho retorno de su inversión implementando un sistema RAG ingenuo.

Desde Resumen de Haystack: un desafío para los LLM de contexto largo y los sistemas RAG por Laban, Fabbri, Xiong, Wu en 2024. “Resumen de los resultados de un Haystack sobre desempeño humano, sistemas RAG y LLM de contexto prolongado. Los resultados se informan utilizando tres medidas: puntuaciones de cobertura (izquierda), citación (centro) y articulación (derecha). Full corresponde al rendimiento del modelo al ingresar a todo el Haystack, mientras que Rand, Vect, LongE, KWs, RR3, Orac corresponde a los componentes de recuperación de los sistemas RAG. Modelos clasificados por Oracle Joint Score. Para cada modelo, #Wb indica el número promedio de palabras por viñeta. »

Advanced RAG cubre una variedad de técnicas, pero en general se incluyen en la reescritura de consultas antes de la recuperación y la reclasificación después de la recuperación. Profundicemos y descubramos más sobre cada uno.

P: “¿Cuál es el significado de la vida? »

R: “42”

La asimetría de preguntas y respuestas es un problema importante en los sistemas RAG. Un enfoque típico en sistemas RAG más simples es comparar la similitud del coseno de la consulta y la incrustación del documento. Funciona cuando la pregunta casi se reformula con la respuesta: «¿Cuál es el animal favorito de Meghan?» «, “El animal favorito de Meghan es la jirafa. ”, pero rara vez tenemos esta oportunidad.

Aquí hay algunas técnicas que pueden superar este problema:

La nomenclatura “Reescribir-Recuperar-Leer” proviene de una papel del equipo de Microsoft Azure en 2023 (aunque, dada la naturaleza intuitiva de la técnica, ya llevaba algún tiempo en uso). En este estudio, un LLM reescribiría la consulta de un usuario en una consulta optimizada para motores de búsqueda antes de recuperar el contexto relevante para responder la pregunta.

El ejemplo clave fue cómo esta consulta, “¿Qué trabajo tienen en común Nicholas Ray y Elia Kazan? » debe dividirse en dos consultas, “Profesión de Nicholas Ray” Y “Profesión de Elia Kazán”. Esto proporciona mejores resultados porque es poco probable que un solo documento contenga la respuesta a ambas preguntas. Al dividir la consulta en dos, el recuperador puede recuperar los documentos relevantes de manera más eficiente.

Desde reescribir consultas para modelos de lenguaje grandes hasta recuperación aumentada por Ma, Gong, He, Zhao y Duan en 2023 “(a) método estándar de búsqueda y lectura, (b) LLM como reescritor de consultas para canalización de reescritura, búsqueda y lectura, y (c) reescritor entrenable. »

Reescribir también puede ayudar a superar los problemas que surgen de un «indicador distraído». O los casos en los que la consulta del usuario tenga conceptos mixtos en su integración rápida y directa resultarían en una tontería. Por ejemplo, «Genial, gracias por decirme quién es el Primer Ministro del Reino Unido. Ahora dime quién es el presidente de Francia. sería reescrito como “actual presidente francés”. Esto puede ayudar a que su aplicación sea más sólida para una gama más amplia de usuarios, ya que algunos pensarán mucho en cómo redactar de manera óptima sus indicaciones, mientras que otros pueden tener estándares diferentes.

En la ampliación de consultas con LLM, la consulta inicial se puede reescribir en varias preguntas reformuladas o dividirse en subpreguntas. Idealmente, al expandir la consulta a múltiples opciones, aumenta la posibilidad de superposición léxica entre la consulta inicial y el documento correcto en su componente de almacenamiento.

La expansión de consultas es un concepto anterior al uso generalizado de los LLM. La retroalimentación de pseudorelevancia (PRF) es una técnica que ha inspirado a algunos investigadores de LLM. En el PRF, los documentos mejor clasificados en una búsqueda inicial se utilizan para identificar y ponderar nuevos términos de consulta. Con los LLM, aprovechamos las capacidades creativas y generativas del modelo para encontrar nuevos términos de consulta. Esto es beneficioso porque los LLM no se limitan al conjunto inicial de documentos y pueden generar términos de expansión que no están cubiertos por los métodos tradicionales.

Extensión de consulta basada en corpus (CSQE) es un método que combina el enfoque tradicional de PRF con las capacidades de generación de los LLM. Los documentos recuperados inicialmente se envían de regreso al LLM para generar nuevos términos de consulta para la búsqueda. Esta técnica puede resultar particularmente eficaz para consultas para las que los LLM carecen de conocimientos temáticos.

Sobre la ampliación de consultas basadas en corpus con modelos de lenguaje grandes por Lei, Cao, Zhou, Shen, Yates en 2024. “Descripción general de CSQE. Dada una definición de consulta de Biología y los primeros 2 documentos recuperados, CSQE utiliza un LLM para identificar el documento 1 relevante y extraer frases clave del documento 1 que contribuyen a la relevancia. Luego, la consulta se amplía tanto con estos textos del corpus como con extensiones potenciadas por el conocimiento del LLM (es decir, documentos hipotéticos que responden a la consulta) para obtener los resultados finales. »

La extensión de consulta basada en LLM y sus predecesores como PRF tienen limitaciones. La más atroz es la suposición de que los términos generados por el LLM son relevantes o que los resultados mejor clasificados son relevantes. Dios no permita que intente encontrar información sobre el periodista australiano Harry Potter en lugar del famoso joven mago. Ambas técnicas desviarían aún más mi consulta del tema de consulta menos popular al tema más popular, haciendo que las consultas de casos extremos sean menos efectivas.

Otra forma de reducir la asimetría entre preguntas y documentos es indexar los documentos con un conjunto de preguntas hipotéticas generadas por el LLM. Para un documento determinado, el LLM puede generar preguntas que podría ser respondido por el documento. Luego, en la etapa de recuperación, las incrustaciones de consultas del usuario se comparan con las incrustaciones de preguntas hipotéticas versus las incrustaciones de documentos.

Esto significa que no necesitamos incrustar el fragmento del documento original. En su lugar, podemos darle al fragmento una identificación de documento y almacenarlo como metadatos sobre el documento de preguntas hipotéticas. Generar una identificación de documento significa que hay muchos menos gastos generales al asignar varias preguntas a un solo documento.

La desventaja obvia de este enfoque es que su sistema estará limitado por la creatividad y el volumen de preguntas que almacene.

Hyde es lo opuesto a los índices de consulta hipotéticos. En lugar de generar preguntas hipotéticas, se le pide al LLM que genere un documento hipotético que podría responda la pregunta y la incrustación de ese documento generado se utilizará para buscar los documentos reales. Luego, el documento real se utiliza para generar la respuesta. Este método mostró grandes mejoras con respecto a otros métodos de recuperación contemporáneos cuando se introdujo por primera vez en 2022.

Usamos este concepto en Dune para nuestro producto de lenguaje natural para SQL. Al reescribir las indicaciones del usuario como título o posible título de un gráfico que respondería a la pregunta, podemos recuperar consultas SQL que pueden servir como contexto para que el LLM escriba una nueva consulta.

De una recuperación precisa y densa sin etiquetas de relevancia por Gao, Ma, Lin, Callan en 2022. “Una ilustración del modelo HyDE. Se muestran extractos de documentos. HyDE responde a todos los tipos de consultas sin modificar los modelos subyacentes GPT-3 y Contriever/mContriever. »