Das passende GPU-Modell für jeden Workload

Vergleich der NVIDIA® Hopper™-Architektur mit Ampere™- und Ada-Lovelace™-Architektur 

Die GPU-Modelle von NVIDIA bieten alle leistungsstarke Optionen. Die passende Wahl hängt stark von den spezifischen Workload-Anforderungen des Projektes ab.  


Die Modelle im Vergleich 

NVIDIA H100 NVL & H100 HGX (Hopper-Architektur) 

Für die Inference großer Sprachmodelle mit bis zu 175B Parametern bietet NVIDIA die H100 NVL GPU an, eine erweiterte, PCIe-basierte H100 GPU mit NVLink Bridge. Die H100 NVL ist für KI-Tests, Training und Inference und insbesondere für Aufgaben im Bereich Deep Learning und große Sprachmodelle optimiert.  

Um Aufgaben mit sehr hoher Komplexität effizient zu bearbeiten, kombiniert NVIDIA HGX H100 in Form von integrierten Basisplatinen acht H100-GPUs. Die acht GPU-HGX H100 bietet vollständig vernetzte Punkt-zu-Punkt-NVLink-Verbindungen zwischen den GPUs. Durch die Nutzung der Leistung der H100-Multi-Präzisions-Tensor-Kerne bietet eine 8-fache HGX H100 über 32 PetaFLOPS FP8-Deep-Learning-Rechenleistung.

Empfohlene Workloads:

  • NVIDIA H100 NVL
    • Modelle kleiner 175B Parameter
    • Inference 
    • Datenanalyse 
  • NVIDIA H100 HGX 
    • Modelle über 175B Parameter 
    • Inference 
    • High Performance Computing 
    • Deep Learning Training
Diagramm mit acht Säulen

Die NVIDIA H100 NVL liefert höhere Performance als die H100 PCIe – Quelle NVIDIA 


NVIDIA A100 PCIe (Ampere-Architektur) 

Die NVIDIA A100 Tensor Core GPU wurde für rechenintensive KI-, HPC- und Datenanalyse-Anwendungen entwickelt. Sie bietet eine beschleunigte Leistung für KI-gesteuerte Aufgaben. Sie ist besonders für Umgebungen geeignet, in denen mehrere Anwendungen gleichzeitig laufen müssen. 

Verwendungszwecke

  • Training 
  • Inference 
  • Datenanalyse
Diagramm mit zwei Säulen

Die NVIDIA H100 Tensor Core GPU im Vergleich mit der NVIDIA A100 Tensor Core GPU – Quelle „NVIDIA H100 Datasheet“ 


NVIDIA L40S (Ada-Lovelace-Architektur) 

Der NVIDIA L40S GPU, der auf der Ada Lovelace Architektur basiert, ist der leistungsstärkste universelle Grafikprozessor für Rechenzentren und bietet eine bahnbrechende Multi-Workload-Beschleunigung für Large Language Models (LLM), Inference und Training, Grafik- und Videoanwendungen. Als führende Plattform für multimodale generative KI bietet die L40S GPU End-to-End-Beschleunigung für Inference-, Trainings-, Grafik- und Video-Workflows, um die nächste Generation von KI-fähigen Audio-, Sprach-, 2D-, Video- und 3D-Anwendungen zu unterstützen. 

Verwendungszwecke

  • Generative KI 
  • Training 
  • Learning 
  • Inference 
  • Rendering und 3D-Grafik 

Technische Daten im Überblick

HGX H100H100 NVLA100L40S
STACKIT Machine Types n3.104d.g8 
 
Machine type with 8x HGX H100 GPUs 
n3.14d.g1 
n3.28d.g2 
n3.56d.g4 
 
Machine types with 1 up to 4  
H100 NVL GPUs 
n1.14d.g1 
n1.28d.g2 
n1.56d.g4 
 
Machine types with 1 up to 4 A100 PCIe GPUs. 
n2.14d.g1 
n2.28d.g2 
n2.56d.g4 
 
Machine types with 1 up to 4 L40s GPUs 
FP64 TC | FP32 TFLOPS167 | 67 60 | 6019.5 | 19.5 NA | 91.6 
TF32 TC | FP16 TC TFLOPS989 | 1979 835 | 1671312 | 624 366 | 733 
FP8 TC | INT8 TC TFLOPS/TOPS3958 | 3958 3341 | 3341NA | 1248 1466 | 1466 
GPU Memory 80GB HBM3 94GB HBM3 80GB HBM2e 48GB GDDR6 
Media Acceleration 7 JPEG Decoder 
7 Video Decoder 
7 JPEG Decoder 
7 Video Decoder 
1 JPEG Decoder 
5 Video Decoder 
3 Video Encoder 
3 Video Decoder 
4 JPEG Decoder 
1 Alle Tensor Core Zahlen mit Sparsity. Ohne Sparsity handelt es sich um den ½ Wert. 

Quelle: NVIDIA


STACKIT Support Headset

Kontaktieren Sie uns gerne für Ihre

individuelle Beratung

Zum Kontaktformular