Existen diferentes métodos para alinear los LLM con las preferencias humanas. Más allá del aprendizaje reforzado con retroalimentación humana (RLHF), que a menudo se considera que requiere demasiados recursos para una aplicación consistente en modelos recientemente refinados, la optimización de preferencias directas (DPO) es una de las más populares para la alineación LLM.
Aunque DPO es significativamente más rentable que RLHF, todavía requiere un modelo de referencia además del modelo de “política” (es decir, el modelo actualmente en formación activa). Esto significa que ambos modelos deben cargarse en la memoria de la GPU simultáneamente, lo que puede resultar difícil para configuraciones de una sola GPU, especialmente con modelos grandes.
Un enfoque más eficiente en memoria sería utilizar LoRA para el entrenamiento de DPO. En lugar de entrenar todo el modelo, congelamos sus parámetros y entrenamos un pequeño adaptador. Este método se vuelve aún más eficaz si los modelos de política y de referencia comparten el mismo modelo básico; En este caso, cargamos el modelo base una vez, luego cargamos un adaptador congelado para el modelo de referencia y un adaptador entrenable para el modelo de política, lo que reduce significativamente los requisitos de memoria.
Sin embargo, en mi opinión, el efecto de LoRA en el desempeño de las DPO aún no se ha estudiado lo suficiente. Aunque LoRA puede aproximarse al entrenamiento completo, su rendimiento…