Aunque el evento Spring GTC de este año no presenta nuevas GPU o arquitecturas de GPU de NVIDIA, la compañía aún está lanzando nuevos productos basados en las GPU Hopper y Ada Lovelace presentadas el año pasado. En el extremo superior del mercado, la compañía anuncia hoy una nueva variante del acelerador H100 dirigida específicamente a usuarios intensivos de modelos de lenguaje: el H100 NVL.
La H100 NVL es una variante interesante de la tarjeta PCIe H100 de NVIDIA que, signo de los tiempos y del amplio éxito de NVIDIA en el campo de la IA, se dirige a un mercado singular: el despliegue de modelos de lenguaje grande (LLM). Hay algunas cosas que hacen que esta tarjeta sea atípica de la tarifa de servidor habitual de NVIDIA, una de las cuales es que son 2 tarjetas PCIe H100 que ya están conectadas entre sí, pero la gran ventaja es la gran capacidad de memoria. La tarjeta combinada de doble GPU ofrece 188 GB de memoria HBM3 (94 GB por tarjeta), lo que proporciona más memoria por GPU que cualquier otra pieza de NVIDIA hasta la fecha, incluso dentro de la familia H100.
Comparación de especificaciones del acelerador NVIDIA H100 | |||||
NVL H100 | PCIe H100 | H100SXM | |||
Núcleos CUDA FP32 | 2×16896? | 14592 | 16896 | ||
Núcleos tensoriales | 2×528? | 456 | 528 | ||
impulsar el reloj | 1,98 GHz? | 1,75 GHz | 1,98 GHz | ||
Reloj de la memoria | ~5,1 Gbps HBM3 | 3,2 Gbps HBM2e | 5,23 Gbps HBM3 | ||
Ancho del bus de memoria | 6144 bits | 5120 bits | 5120 bits | ||
Ancho de banda de memoria | 2 x 3,9 TB/s | 2 TB/s | 3,35 TB/s | ||
VRAM | 2 de 94 GB (188 GB) | 80GB | 80GB | ||
Vector FP32 | 2×67 TFLOPS? | 51 TFLOPS | 67 TFLOPS | ||
Vector FP64 | 2×34 TFLOPS? | 26 TFLOPS | 34 TFLOPS | ||
tensor INT8 | 2 tops 1980 | 1513 TOPS | 1980 TOPS | ||
Tensor FP16 | 2 x 990 TFLOPS | 756 TFLOPS | 990 TFLOPS | ||
tensor TF32 | 2 x 495 TFLOPS | 378 TFLOPS | 495 TFLOPS | ||
Tensor FP64 | 2×67 TFLOPS? | 51 TFLOPS | 67 TFLOPS | ||
interconexión | NVLink 4 (600GB/s) |
NVLink 4 (600GB/s) |
NVLink 4 18 enlaces (900 GB/s) |
||
GPU | 2xGH100 (814 mm2) |
GH100 (814 mm2) |
GH100 (814 mm2) |
||
Número de transistores | 2x80B | 80B | 80B | ||
PDT | 700-800W | 350W | 700W | ||
Proceso de fabricación | TSMC4N | TSMC4N | TSMC4N | ||
Interfaz | 2x PCIe 5.0 (ranura cuádruple) |
PCIe 5.0 (Ranura doble) |
SXM5 | ||
Arquitectura | Tolva | Tolva | Tolva |
Impulsar este SKU es un nicho específico: la capacidad de memoria. Los modelos de idiomas grandes como la familia GPT están vinculados en muchos aspectos a la capacidad de la memoria, ya que llenarán rápidamente incluso un acelerador H100 para conservar todas sus configuraciones (175B en el caso de los modelos GPT-3 más grandes). Como resultado, NVIDIA optó por crear un nuevo SKU H100 que ofrece un poco más de memoria por GPU que sus componentes H100 normales, que alcanzan un máximo de 80 GB por GPU.
Debajo del capó, lo que estamos viendo es básicamente una bandeja de GPU GH100 especial que se encuentra encima de una tarjeta PCIe. Todas las GPU GH100 vienen con 6 pilas de memoria HBM, ya sea HBM2e o HBM3, con una capacidad de 16 GB por pila. Sin embargo, por motivos de rendimiento, NVIDIA solo envía sus piezas H100 habituales con 5 de las 6 pilas HBM activadas. Entonces, aunque nominalmente hay 96 GB de VRAM en cada GPU, solo 80 GB están disponibles en SKU estándar.
EL NVL H100, a su vez, es el SKU Mythic completamente activado con las 6 pilas activadas. Al encender el 6mi pila de HBM, NVIDIA puede acceder a la memoria adicional y al ancho de banda de memoria adicional que ofrece. Esto tendrá un impacto material en los rendimientos (cuánto es un secreto celosamente guardado por NVIDIA), pero el mercado LLM aparentemente es lo suficientemente grande y está dispuesto a pagar una prima lo suficientemente alta por paquetes GH100 casi perfectos para que valga la pena.
Incluso entonces, vale la pena señalar que los clientes no tienen acceso a los 96 GB completos por tarjeta. En cambio, con una capacidad de memoria total de 188 GB, obtienen efectivamente 94 GB por tarjeta. NVIDIA no entró en detalles sobre esta peculiaridad de diseño en nuestra sesión informativa previa al discurso de apertura de hoy, pero sospechamos que también se debe a razones de rendimiento, lo que le da a NVIDIA un respiro para desactivar las celdas (o capas) defectuosas en las pilas de memoria HBM3. El resultado neto es que el nuevo SKU ofrece 14 GB adicionales de memoria por GPU GH100, un aumento del 17,5 % en la memoria. Mientras tanto, el ancho de banda de memoria general de la tarjeta asciende a 7,8 TB/segundo, lo que equivale a 3,9 TB/segundo para tarjetas individuales.
Además de la mayor capacidad de memoria, en muchos sentidos, las tarjetas individuales de la GPU dual/tarjeta dual H100 NVL son muy similares a la versión SXM5 de la H100 colocada en una tarjeta PCIe. Si bien el H100 PCIe normal se ve afectado por el uso de una memoria HBM2e más lenta, menos núcleos SM/tensor activos y velocidades de reloj más bajas, las cifras de rendimiento del núcleo tensor que cita NVIDIA para el H100 NVL están a la par con el H100 SXM5, lo que indica que esta tarjeta no es más pequeña que la tarjeta PCIe normal. Todavía estamos esperando las especificaciones finales y completas del producto, pero suponiendo que todo aquí esté tal como se presenta, los GH100 que ingresan al H100 NVL representarían los GH100 más altos disponibles actualmente.
Y aquí es necesaria una insistencia en el plural. Como se indicó anteriormente, el H100 NVL no es una sola pieza de GPU, sino una pieza de tarjeta dual/GPU dual, y se presenta al sistema host como tal. El hardware en sí se basa en dos H100 en el factor de forma PCIe que se unen mediante tres puentes NVLink 4. Físicamente, esto es prácticamente idéntico al diseño PCIe H100 existente de NVIDIA, que ya se puede emparejar mediante puentes NVLink, por lo que la diferencia no es en la construcción del monstruo de dos cartas/cuatro tragamonedas, sino más bien en la calidad del silicio en el interior. En otras palabras, puede ensamblar tarjetas PCie H100 clásicas hoy, pero no coincidiría con el ancho de banda de la memoria, la capacidad de la memoria o el rendimiento del tensor del H100 NVL.
Sorprendentemente, a pesar de las especificaciones estelares, los TDP casi se quedan. El H100 NVL es una parte de 700 W a 800 W, que se divide en 350 W a 400 W por tarjeta, cuyo límite inferior es el mismo TDP que el estándar H100 PCIe. En este caso, NVIDIA parece priorizar la compatibilidad sobre el rendimiento máximo, ya que pocos chasis de servidor pueden manejar tarjetas PCIe de más de 350 W (y aún menos de más de 400 W), lo que significa que los TDP deben permanecer fieles. Aún así, dado el mayor rendimiento y el ancho de banda de la memoria, no está claro cómo NVIDIA ofrece ese rendimiento adicional. El agrupamiento de energía puede ser muy útil aquí, pero también puede ser el caso de que NVIDIA le dé a la tarjeta una velocidad de reloj de impulso más alta de lo habitual, ya que el mercado objetivo está principalmente preocupado por el rendimiento del tensor y no encenderá toda la GPU. En seguida.
De lo contrario, la decisión de NVIDIA de lanzar lo que es esencialmente el mejor contenedor H100 es una elección inusual dada su preferencia general por las piezas SXM, pero es una decisión que tiene sentido en el contexto de las necesidades de los clientes de LLM. Los grandes clústeres H100 basados en SXM pueden escalar fácilmente hasta 8 GPU, pero la cantidad de ancho de banda de NVLink disponible en el medio se ve obstaculizada por la necesidad de pasar por NVSwitches. Solo para una configuración de doble GPU, emparejar un conjunto de tarjetas PCIe es mucho más sencillo, ya que el enlace fijo garantiza 600 GB/segundo de ancho de banda entre las tarjetas.
Pero quizás más importante que eso, es poder implementar rápidamente H100 NVL en la infraestructura existente. En lugar de requerir la instalación de tarjetas portadoras H100 HGX diseñadas específicamente para emparejar GPU, los clientes de LLM pueden simplemente lanzar H100 NVL en nuevas compilaciones de servidores o como una actualización relativamente rápida de las compilaciones de servidores existentes. Después de todo, NVIDIA apunta a un mercado muy específico, por lo que es posible que la ventaja normal de SXM (y la capacidad de NVIDIA para impulsar su peso colectivo) no se aplique aquí.
En total, NVIDIA promociona el H100 NVL por ofrecer 12 veces el rendimiento de inferencia GPT3-175B que el HGX A100 de última generación (8 H100 NVL frente a 8 A100). Lo cual, para los clientes que buscan implementar y escalar sus sistemas para cargas de trabajo LLM lo más rápido posible, definitivamente será tentador. Como se indicó anteriormente, el H100 NVL no trae nada nuevo en términos de características arquitectónicas, gran parte del aumento del rendimiento proviene de los nuevos motores transformadores de arquitectura Hopper, pero el H100 NVL servirá a un nicho específico como el PCIe H100 más rápido. opción y la opción con el grupo de memoria GPU más grande.
En conclusión, según NVIDIA, las tarjetas H100 NVL comenzarán a distribuirse en la segunda mitad de este año. La compañía no cotiza un precio, pero por lo que es esencialmente un contenedor GH100 superior, esperamos que alcancen un precio superior. Especialmente a la luz de cómo la explosión en el uso de LLM se está convirtiendo en otra fiebre del oro para el mercado de GPU para servidores.