Las preocupaciones sobre los impactos ambientales de los modelos de lenguajes grandes (LLM) están aumentando. Aunque puede resultar difícil encontrar información detallada sobre los costos reales de los LLM, intentemos recopilar algunos datos para comprender la magnitud.
Dado que los datos completos sobre ChatGPT-4 no están disponibles, podemos considerar Llama 3.1 405B como ejemplo. Este modelo de código abierto de Meta es sin duda el LLM más «transparente» hasta la fecha. Basado en varios puntos de referenciaLlama 3.1 405B es comparable a ChatGPT-4, lo que proporciona una base razonable para comprender los LLM en este rango.
Los requisitos de hardware para ejecutar la versión de 32 bits de este modelo oscilan entre 1.620 y 1.944 GB de memoria GPU, según la fuente (sustrato, AbrazosCara). Para una estimación conservadora, usemos el número inferior de 1620 GB. Para poner esto en perspectiva, reconociendo que se trata de una analogía simplificada, 1620 GB de memoria GPU equivale aproximadamente a la memoria combinada de 100 MacBook Pro estándar (16 GB cada una). . Entonces, cuando le pides a uno de estos LLM una receta de tiramisú al estilo de Shakespeare, se necesita el poder de 100 MacBook Pros para darte una respuesta.
Estoy tratando de traducir estos números en algo más tangible… incluso si eso no incluye el costos de capacitaciónque se espera que involucren alrededor de 16.000 GPU a un costo de aproximadamente 60 millones de dólares (excluyendo los costos de hardware), una inversión significativa de Meta, en un proceso que tomó alrededor de 80 días. En términos de consumo de electricidad, formación necesaria 11 GWh.
EL consumo anual de electricidad por persona en un país como Francia ronda los 2.300 kWh. Así, 11 GWh corresponden al consumo eléctrico anual de aproximadamente 4.782 personas. Este consumo provocó la liberación de alrededor de 5.000 toneladas de CO₂ equivalente de gas de efecto invernadero (basado en la media europea), aunque esta cifra puede fácilmente duplicarse dependiendo del país donde se entrenó el modelo.
En comparación, quemar 1 litro de diésel produce 2,54 kg de CO₂. Por lo tanto, conducir el Llama 3.1 405B – en un país como Francia – equivale aproximadamente a las emisiones de quemar alrededor de 2 millones de litros de diésel. Esto representa aproximadamente 28 millones de kilómetros recorridos en coche. Creo que eso da suficiente perspectiva… ¡y ni siquiera he mencionado el agua necesaria para enfriar las GPU!
Claramente, la IA todavía está en su infancia y podemos esperar que con el tiempo surjan soluciones más óptimas y sostenibles. Sin embargo, en esta intensa carrera, el panorama financiero de OpenAI destaca una disparidad significativa entre sus ingresos y gastos operativos, particularmente cuando se trata de costos de inferencia. En 2024, se espera que la empresa gaste alrededor de 4.000 millones de dólares en potencia de procesamiento impulsada por Microsoft para cargas de trabajo de inferencia, mientras que sus ingresos anuales se estiman entre 3.500 y 4.500 millones de dólares. Esto significa que los costos de inferencia por sí solos casi igualan, o incluso superan, los ingresos totales de OpenAI (aprendizaje profundo.ai).
Todo esto sucede en un contexto en el que los expertos anuncian un estancamiento del rendimiento de los modelos de IA (paradigma de escalamiento). El aumento de los tamaños de modelo y GPU produce eficiencias significativamente reducidas en comparación con avances anteriores, como los avances realizados por GPT-4 sobre GPT-3. «La búsqueda de AGI siempre ha sido poco realista, y el enfoque de ‘cuanto más grande, mejor’ para la IA está destinado a alcanzar sus límites, y creo que eso es lo que estamos viendo aquí», afirmó Sasha Luccioniinvestigador y jefe de IA en la startup Hugging Face.
Pero no me malinterpretes, no voy a poner a prueba la IA porque ¡me encanta! Esta fase de investigación es un paso completamente normal en el desarrollo de la IA. Sin embargo, creo que debemos usar el sentido común al usar la IA: no podemos usar una bazuca para matar un mosquito cada vez. La IA debe ser sostenible, no sólo para proteger nuestro medio ambiente, sino también para salvar las divisiones sociales. De hecho, el riesgo de dejar atrás al Sur Global en la carrera de la IA debido a los altos costos y demandas de recursos representaría un fracaso significativo en esta nueva revolución de la inteligencia.
Entonces, ¿realmente necesita todo el poder de ChatGPT para manejar las tareas más simples en su canal RAG? ¿Está buscando controlar sus costos operativos? ¿Quiere un control completo de extremo a extremo sobre su canalización? ¿Le preocupa la circulación de sus datos privados en la web? ¿O tal vez simplemente eres consciente del impacto de la IA y estás decidido a utilizarla conscientemente?
Los modelos de lenguaje pequeño (SLM) ofrecen una gran alternativa para explorar. Pueden ejecutarse en su infraestructura local y, cuando se combinan con la inteligencia humana, proporcionan un valor sustancial. Aunque no existe una definición universalmente aceptada de SLM (en 2019, por ejemplo, el GPT-2 con sus 1.500 millones de parámetros se consideraba un LLM, lo que ya no es así), sí me refiero a modelos como Mistral 7B, Llama-3.2. 3B, o Phi3.5, por nombrar algunos. Estos modelos pueden funcionar en una computadora «buena», lo que genera una huella de carbono mucho menor y al mismo tiempo garantiza la privacidad de sus datos cuando se instalan en el sitio. Aunque son menos versátiles, cuando se utilizan con prudencia para tareas específicas, aún pueden proporcionar un valor significativo, además de ser más virtuosos para el medio ambiente.