Una experiencia basada en indicaciones para mejorar tanto la precisión como la transparencia del razonamiento en la personalización del contenido.
TIENE EL SPIEGELExploramos continuamente formas de mejorar la forma en que recomendamos artículos de noticias a nuestros lectores. En nuestro último experimento (fuera de línea), verificamos si Grandes modelos de lenguaje (LLM) podría predecir eficazmente qué artículos le interesarían a un lector, en función de su historial de lectura.
Nuestro enfoque
Realizamos un estudio con lectores que participaron en una encuesta en la que calificaron su interés en varios artículos periodísticos. Esto nos dio una verdad fundamental sobre las preferencias de los lectores. Para cada participante, teníamos dos datos clave: su historial de lectura real (los artículos que habían leído antes de realizar la encuesta) y sus evaluaciones de un conjunto de artículos nuevos en la encuesta. Obtenga más información sobre este enfoque de métodos mixtos para la evaluación fuera de línea de sistemas de recomendación de noticias aquí:
Luego usamos el API antropogénica para acceder Soneto de Claudio 3.5un modelo lingüístico de última generación como motor de recomendación. Para cada lector, proporcionamos al modelo su historial de lectura (título de la noticia y resumen del artículo) y le pedimos que predijera qué tan interesados estarían en los artículos de la encuesta. Aquí está el mensaje que utilizamos:
You are a news recommendation system. Based on the user's reading history,
predict how likely they are to read new articles. Score each article from 0 to 1000,
where 1000 means highest likelihood to read.Reading history (Previous articles read by the user):
[List of previously read articles with titles and summaries]
Please rate the following articles (provide a score 0-1000 for each):
[List of candidate articles to rate]
You must respond with a JSON object in this format:
{
"recommendations": [
{
"article_id": "article-id-here",
"score": score
}
]
}
Con este enfoque, ahora podemos comparar las puntuaciones reales de las encuestas con las predicciones de puntuaciones del LLM. Esta comparación proporciona un conjunto de datos ideal para evaluar la capacidad del modelo lingüístico para predecir los intereses de los lectores.
Resultados y principales conclusiones.
Los resultados fueron impresionantemente sólidos. Para comprender el rendimiento, podemos observar dos métricas clave. En primer lugar, el Precisión@5: el LLM obtuvo una puntuación del 56%, lo que significa que cuando el sistema recomendó sus 5 artículos principales a un usuario (de 15), en promedio (casi) 3 de estos 5 artículos estaban realmente entre los artículos que el usuario había calificado el más alto. en nuestra investigación. Examinar la distribución de estas predicciones revela resultados aún más impresionantes: para el 24% de los usuarios, el sistema identificó correctamente al menos 4 o 5 de sus artículos principales. Para un 41% adicional de usuarios, identificó correctamente 3 de sus 5 artículos principales.
Para poner esto en perspectiva, si recomendáramos artículos al azar, solo lograríamos un 38,8% de precisión (ver sección anterior). artículo mediano para más detalles). Incluso las recomendaciones basadas únicamente en la popularidad del artículo (que recomiendan lo que lee la mayoría de la gente) solo alcanzan el 42,1%, y nuestro enfoque anterior que utilizaba una técnica basada en incrustaciones alcanzó el 45,4%.
El siguiente gráfico muestra la mejora: aunque es mejor tener conocimiento del usuario en lugar de adivinar (modelo aleatorio), el enfoque basado en LLM muestra el mejor rendimiento. Incluso en comparación con nuestra sofisticada lógica basada en integración, LLM puede mejorar significativamente la precisión de la predicción.
Como segunda medida de evaluación utilizamos Correlación de Spearman. Con 0,41, esto representa una mejora sustancial con respecto a nuestro enfoque basado en la integración (0,17). Esto también muestra que LLM no solo es mejor para encontrar artículos relevantes, sino también para comprender cuánto podría preferir un lector un artículo a otro.
Más allá del desempeño: el poder de la explicabilidad
Lo que distingue a las recomendaciones basadas en LLM no es solo su desempeño, sino también su capacidad para explicar sus decisiones en lenguaje natural. A continuación se muestra un ejemplo de cómo nuestro sistema analiza los hábitos de lectura de un usuario y explica sus recomendaciones (no se muestra el mensaje):
User has 221 articles in reading historyTop 5 Comparison:
--------------------------------------------------------------------------------
Top 5 Predicted by Claude:
1. Wie ich mit 38 Jahren zum ersten Mal lernte, strukturiert zu arbeiten (Score: 850, Actual Value: 253.0)
2. Warum wir den Umgang mit der Sonne neu lernen müssen (Score: 800, Actual Value: 757.0)
3. Lohnt sich ein Speicher für Solarstrom vom Balkon? (Score: 780, Actual Value: 586.0)
4. »Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich intelligent ist« (Score: 750, Actual Value: 797.0)
5. Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen (Score: 720, Actual Value: 766.0)
Actual Top 5 from Survey:
4. »Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich intelligent ist« (Value: 797.0, Predicted Score: 750)
5. Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen (Value: 766.0, Predicted Score: 720)
2. Warum wir den Umgang mit der Sonne neu lernen müssen (Value: 757.0, Predicted Score: 800)
6. Abitur als Lotterie? (Value: 601.0, Predicted Score: 650)
3. Lohnt sich ein Speicher für Solarstrom vom Balkon? (Value: 586.0, Predicted Score: 780)
Performance Metrics:
--------------------------------------------------------------------------------
Spearman Correlation: 0.673
Precision@5: 0.800
Claude's Analysis:
--------------------------------------------------------------------------------
1. Key patterns in user's reading history:
- Strong interest in social and political issues
- Regular engagement with lifestyle and personal development content
- Interest in health and wellness topics
- Frequent reading of articles about economic and financial matters
- Attraction to critical analysis and commentary pieces
- Interest in food and cooking content
2. Scoring explanation:
Highest scored articles:
- "Wie ich mit 38 Jahren zum ersten Mal lernte, strukturiert zu arbeiten" (850) - Aligns with the user's interest in personal development and lifestyle content
- "Warum wir den Umgang mit der Sonne neu lernen müssen" (800) - Matches interest in health and wellness topics
- "Lohnt sich ein Speicher für Solarstrom vom Balkon?" (780) - Corresponds to interest in practical advice and economic considerations
Medium scored articles:
- "Man muss sich fragen, ob dieser spezielle deutsche Weg wirklich intelligent ist" (750) - Fits pattern of interest in political commentary
- "Wie Bayern versucht, sein Drogenproblem unsichtbar zu machen" (720) - Matches interest in social issues and critical reporting
- "Abitur als Lotterie?" (650) - Aligns with interest in educational and social topics
Lower scored articles:
- "Eine Brise Formel 1" (550) - Limited sports content in reading history
- "Reizender Absatz" (450) - Less alignment with demonstrated interests
- "Hier wird jetzt auf ganz, ganz hohem Niveau gemeckert" (400) - Style and topic less aligned with user preferences
The scoring prioritizes articles that match the user's demonstrated interests in social issues, practical advice, and critical analysis while giving lower scores to sports and lighter content that appears less frequently in their reading history.
En lugar de funcionar como una caja negra, el sistema podría explicar por qué cree que un artículo en particular podría ser de interés para un lector: Dado que lee con frecuencia artículos sobre consejos prácticos y cuestiones económicas, es posible que este análisis sobre la rentabilidad del almacenamiento solar en balcones le resulte especialmente relevante. Este tipo de razonamiento transparente podría hacer que las recomendaciones sean más personales y confiables.
Conclusión
Aunque nuestros resultados son prometedores, es necesario abordar varios desafíos. Debido a las largas indicaciones (cientos de resúmenes de artículos por usuario), lo más importante es el costo. A alrededor de 0,21 dólares por usuario para un único conjunto de recomendaciones, ampliarlo a todos los lectores sería extremadamente costoso. Pruebas potentes modelos de código abiertopotencialmente podría reducir estos costos. Además, la implementación actual es relativamente lenta y tarda varios segundos por usuario. Para una plataforma de noticias donde el contenido se actualiza con frecuencia y los intereses de los lectores a veces evolucionan incluso en el transcurso de un solo día, necesitaríamos ejecutar estas recomendaciones varias veces al día para seguir siendo relevantes.
Además, utilizamos un mensaje único y simple sin ninguna ingeniería ni optimización rápidas. Es probable que haya margen para mejoras (significativas) mediante un refinamiento rápido y sistemático.[1] Además, nuestra implementación actual solo utiliza títulos y resúmenes de artículos, sin aprovechar los metadatos disponibles. Potencialmente, podríamos aumentar el rendimiento incorporando señales adicionales, como el tiempo de lectura por artículo (cuánto tiempo dedicaron los usuarios a leer cada artículo) o la popularidad general del artículo. De todos modos, debido a los altos costos de API, ejecutar procesos de evaluación iterativos no es actualmente una opción.
En general, la combinación de un sólido rendimiento predictivo y explicaciones en lenguaje natural sugiere que los LLM serán una herramienta valiosa en los sistemas de recomendación de noticias. Y más allá de las recomendaciones, añaden una nueva forma de analizar el recorrido de los usuarios en las noticias digitales. Su capacidad para procesar e interpretar historiales de lectura, así como metadatos, abre posibilidades interesantes: desde comprender el recorrido del contenido y la progresión de los temas hasta la creación de resúmenes de revisión personalizados.