LLMOps: sirva un modelo Llama-3 con BentoML | de Marcello Politi | agosto, 2024

LLMOps: sirva un modelo Llama-3 con BentoML | de Marcello Politi | agosto, 2024

Foto de Simon Wiedensohler seguro desempaquetar

Configure rápidamente las API de LLM con BentoML y Runpod

A menudo veo científicos de datos interesados ​​en el desarrollo de LLM en términos de arquitectura de modelos, técnicas de entrenamiento o recopilación de datos. Sin embargo, he observado que muy a menudo, aparte del aspecto teórico, muchas personas tienen dificultades para proponer estos modelos de manera que realmente puedan ser utilizados por los usuarios.
En este breve tutorial pensé en mostrar de una manera muy sencilla cómo se puede servir un LLM, específicamente llama-3, usando BentoML.

BentoML es una solución de un extremo a otro para ofrecer modelos de aprendizaje automático. Permite a los equipos de ciencia de datos desarrollar puntos finales de entrega de modelos listos para producción, con las mejores prácticas de DevOps y optimización del rendimiento en cada etapa.

Necesitamos una GPU

Como sabes, en Deep Learning es fundamental contar con el hardware adecuado. Esto se vuelve aún más importante, especialmente para modelos muy grandes como los LLM. Lamentablemente no tengo GPU 😔
Por eso recurro a proveedores de servicios externos, así que alquilo una de sus máquinas y trabajo allí. Para este artículo, elegí trabajar en Pod para correr porque conozco sus servicios y creo que es un precio asequible seguir este tutorial. Pero si tienes GPU disponibles o quieres…