de LLM, gradientes y mecánica cuántica | de Riccardo Di Sipio | noviembre 2024

de LLM, gradientes y mecánica cuántica | de Riccardo Di Sipio | noviembre 2024

¿Puede la computación cuántica ayudarnos a mejorar nuestra capacidad de entrenar modelos de lenguaje de codificación (LLM) para grandes redes neuronales?

Foto de Alessio Soggetti (@asoggetti) de Unsplash.com

¿Qué es “entrenamiento”?

En la jerga de los estudios de inteligencia artificial (IA), “entrenar” significa optimizar un análisis estadístico. modeloa menudo implementado como un red neuronalhacer predicciones basadas en ciertos datos de entrada y una medida de la calidad de estas predicciones (función de “costo” o “pérdida”). hay tres principales paradigmas en los que dicho procedimiento puede tener lugar: supervisado, sin supervisión (a menudo autorregresivo), Y reforzamiento aprendiendo. En supervisado Al aprender, cada punto de datos está etiquetado para que las predicciones del modelo se puedan comparar directamente con los valores verdaderos (Por ejemplo es la imagen de un gato o de un perro). En sin supervisión entrenamiento, no hay etiquetas explícitas, pero la comparación se realiza con características extraídas de los propios datos (Por ejemplo predecir la siguiente palabra en una oración). Finalmente, reforzamiento El aprendizaje se basa en optimizar los rendimientos a largo plazo a partir de una secuencia de decisiones (predicciones) basadas en la interacción entre el modelo estadístico y el entorno (¿el coche debe frenar o acelerar en un semáforo en amarillo?).

En todos estos casos, la optimización de la parámetros del modelo Es un proceso largo que requiere…