Con el objetivo de mejorar la eficiencia de los sistemas de recomendación a gran escala, NVIDIA presentó EMBark, un nuevo enfoque para optimizar los procesos de integración en modelos de recomendación de aprendizaje profundo. De acuerdo a NVIDIALos sistemas de recomendación son esenciales para la industria de Internet y capacitarlos de manera efectiva plantea un desafío importante para muchas empresas.
Desafíos de los sistemas de recomendación de formación
Los modelos de recomendación de aprendizaje profundo (DLRM) a menudo incorporan miles de millones de características de identificación, lo que requiere soluciones de capacitación sólidas. Los avances recientes en la tecnología de GPU, como NVIDIA Merlin HugeCTR y TorchRec, han mejorado el entrenamiento de DLRM mediante el uso de memoria de GPU para manejar la integración de funciones de identificación a gran escala. Sin embargo, con el aumento en el número de GPU, la sobrecarga de comunicación durante la integración se ha convertido en un cuello de botella, que a veces representa más de la mitad de la sobrecarga total de capacitación.
El enfoque innovador de EMBark
Presentado en RecSys 2024, EMBark aborda estos desafíos implementando estrategias flexibles de partición 3D y técnicas de compresión de comunicación, con el objetivo de equilibrar la carga durante el entrenamiento y reducir el tiempo de comunicación para las integraciones. El sistema EMBark incluye tres componentes principales: integración de clústeres, un esquema de partición 3D flexible y un programador de partición.
Integración del clúster
Estos grupos agrupan características similares y aplican estrategias de compresión personalizadas, lo que facilita una capacitación eficiente. EMBark clasifica los clústeres en datos paralelos (DP), basados en reducción (RB) y basados en únicos (UB), cada uno adecuado para diferentes escenarios de entrenamiento.
Esquema flexible para compartir 3D
Este esquema innovador permite un control preciso del equilibrio de la carga de trabajo en las GPU, utilizando una tupla 3D para representar cada fragmento. Esta flexibilidad resuelve los problemas de desequilibrio encontrados en los métodos de partición tradicionales.
Compartir programador
El planificador de particiones utiliza un algoritmo de búsqueda codicioso para determinar la estrategia de partición óptima, mejorando así el proceso de capacitación basado en el hardware y las configuraciones de integración.
Desempeño y evaluación
La eficacia de EMBark se probó en nodos NVIDIA DGX H100, lo que demuestra mejoras significativas en el rendimiento del entrenamiento. En diferentes modelos DLRM, EMBark logró un aumento promedio de 1,5 veces en la velocidad de entrenamiento, y algunas configuraciones alcanzaron hasta 1,77 veces más rápido que los métodos tradicionales.
Al mejorar el proceso de integración, EMBark mejora significativamente la eficiencia de los modelos de sistemas de recomendación a gran escala, estableciendo un nuevo estándar para los sistemas de recomendación de aprendizaje profundo. Para obtener información más detallada sobre el rendimiento de EMBark, puede consultar el trabajo de investigación.
Fuente de la imagen: Shutterstock