Anlässlich der GTC 2022 kündigte NVIDIA eine Reihe von Produkten an, die auf dem neuen NVIDIA H100 Tensor-Core-Grafikprozessor basieren, wie beispielsweise die DGX H100, DGX SuperPod und mehrere H100 PCIe Beschleuniger. Großartige Neuigkeiten, denn viele Unternehmen und Branchen setzen bereits auf den Einsatz von künstlicher Intelligenz und automatisierten Maschinen um schneller komplexe Herausforderungen zu meistern. Der NVIDIA H100 Tensor-Core-Grafikprozessor bietet eine beispiellose Leistung, Skalierbarkeit und Sicherheit für jeden Workload und in Kombination mit dem NVIDIA® NVLinkSwitch® Switch-System können bis zu 256 H100 verbunden werden, um Exascale-Workloads zu beschleunigen, während die dedizierte Transformer Engine Billionen-Parameter-Sprachmodelle unterstützt. H100 greift dabei auf Innovationen in der NVIDIA Hopper™-Architektur zurück.
Im Mittelpunkt der GTC22 standen hierbei die Weiterentwicklungen in den Bereichen Kundenservice, Lieferketten, Produktionsabläufe, Gesprächs-KI, Spracherkennung und Forschung. ​​​​​​NVIDIA, der Goldstandard im Bereich der KI-Infrastruktur, bietet mit den DGX™ Systemen die leistungsstärkste und umfassende KI-Plattform zur Verwirklichung Ihrer Ideen. 

DIE WELTWEIT BEWÄHRTE WAHL FÜR UNTERNEHMENS-KI

Erweitern Sie die Möglichkeiten von Innovation und Optimierung mit NVIDIA DGX™ H100. DGX H100, die neueste Iteration der legendären DGX-Systeme von NVIDIA und die Grundlage von NVIDIA DGX SuperPOD™, ist das KI-Kraftpaket, das durch die bahnbrechende Leistung der NVIDIA H100 Tensor Core-GPU beschleunigt wird.
DATENBLATT | NVIDIA DGX H100
PRODUKTBENACHRICHTIGUNG DGX H100

Der Eckpfeiler Ihres KI-Kompetenzzentrums

DGX H100 ist die vierte Generation der weltweit ersten speziell entwickelten KI-Infrastruktur: eine vollständig optimierte Hardware- und Softwareplattform, die Unterstützung für die neuen NVIDIA KI-Softwarelösungen, ein umfangreiches Ökosystem von Drittanbieter-Support und Zugriff auf Expertenberatung durch professionelle NVIDIA-Services umfasst.

Grenzenlose Skalierbarkeit mit KI

NVIDIA DGX H100 bietet 6-mal mehr Leistung2-mal schnelleres Networking und Skalierbarkeit in Hochgeschwindigkeit für NVIDIA DGX SuperPOD. Die Architektur der nächsten Generation ist für enorm umfangreiche Workloads wie die Verarbeitung natürlicher Sprache und Deep-Learning-Empfehlungsmodelle optimiert.

NVIDIA DGX H100

Q1 2023 VERFÜGBAR

Die neueste Iteration von NVIDIA DGX-Systemen, die eine hochsystemisierte und skalierbare Plattform bietet, um die größten Herausforderungen mithilfe von KI zu lösen.
​​​​​​​
Die DGX H100 ist ein KI-Kraftpaket, das mit dem bahnbrechenden NVIDIA H100 Tensor Core Grafikprozessor ausgestattet ist. Das System wurde für die Maximierung des KI-Durchsatzes entwickelt und bietet Unternehmen sowie Forschungseinrichtungen eine hochentwickelte, systematisierte und skalierbare Plattform, die zu Durchbrüchen zum Beispiel in der Verarbeitung natürlicher Sprache, Empfehlungssystemen, Datenanalysen und vielem mehr verhilft. Verfügbar vor Ort und über eine Vielzahl von Zugangs- und Bereitstellungsoptionen bietet die DGX H100 die Leistung, die Unternehmen zur Lösung der größten Herausforderungen mit KI benötigen.

PRODUKTBENACHRICHTIGUNG

DETAILS

  • 8x NVIDIA H100-GPUs MIT 640 GIGABYTE GESAMT-GPU-SPEICHER

    18x NVIDIA® NVLinks® pro GPU, 900 Gigabyte pro Sekunde bidirektionale Bandbreite zwischen Grafikprozessoren

  • 4x NVIDIA NVSWITCHES™

    7,2 Terabyte pro Sekunde bidirektionale Bandbreite für Verbindungen zwischen GPUs – 1,5-mal mehr als bei der vorherigen Generation

  • 8x NVIDIA CONNECTX®-7 und 2x NVIDIA BLUEFIELD® DPU NETZWERKINTERFACE MIT 400 GBIT/SEK.

    Spitzenwert von 1 Terabyte pro Sekunde bidirektionale Netzwerkbandbreite

  • DUALE x86-CPUs UND 2 TERABYTE SYSTEMSPEICHER

    Leistungsstarke CPUs für die intensivsten KI-Aufgaben

  • 30 TERABYTE NVME-SSD

    Hochgeschwindigkeits-Datenspeicher für maximale Leistung

NVIDIA DGX H100 Server

Vergleich DGX H100 vs. DGX A100

Spezifikationen

KOMPONENTEN
NVIDIA DGX H100 
NVIDIA DGX A100
GPU
8x NVIDIA H100 Tensor Core GPUs
8x NVIDIA A100 80GB Tensor Core GPUs
GPU memory 
640GB total 
640GB total 
Performance
32 petaFLOPS FP8
5 petaFLOPS AI
10 petaOPS INT8
NVIDIA® NVSwitch™
4x
6
System power usage
~10.2kW max
6.5 kW max
CPU 
Dual x86
Dual AMD Rome 7742, 128 cores total,
2.25 GHz (base), 3.4 GHz (max boost)
System memory 
2TB
2TB
Networking 
4x OSFP ports serving 8x single-port NVIDIA ConnectX-7 400Gb/s InfiniBand/Ethernet 2x dual-port NVIDIA BlueField-3 DPUs VPI 1x 400Gb/s InfiniBand/Ethernet 1x 200Gb/s InfiniBand/Ethernet
8x SinglePort NVIDIA
ConnectX-7
200Gb/s
InfiniBand
2x Dual-Port
NVIDIA
ConnectX-7 VPI
10/25/50/100/200
Gb/s Ethernet
Management network
10Gb/s onboard NIC with RJ45 50Gb/s Ethernet optional NIC Host baseboard management controller (BMC) with RJ45 2x NVIDIA BlueField-3 DPU BMC (with RJ45 each)
-
Storage
OS: 2x 1.9TB NVMe M.2 Internal storage: 8x 3.84TB NVMe U.2
OS: 2x 1.92TB M.2 NVME drives
Internal Storage: 30TB (8x 3.84 TB) U.2
NVMe drives
System software
DGX H100 systems come preinstalled with DGX OS, which is based on Ubuntu Linux and includes the DGX software stack (all necessary packages and drivers optimized for DGX). Optionally, customers can install Ubuntu Linux or Red Hat Enterprise Linux and the required DGX software stack separately. 
Ubuntu Linux OS Also supports: Red Hat Enterprise Linux CentOS
Operating temperature range
5 to 30°C (41–86°F)
5 to 30°C (41–86°F)

NVIDIA H100 TENSOR-CORE-GPU

Nie dagewesene Leistung, Skalierbarkeit und Sicherheit für jedes Rechenzentrum

Mit dem NVIDIA H100 Tensor-Core-Grafikprozessor profitieren Sie von beispielloser Leistung, Skalierbarkeit und Sicherheit für jeden Workload. Mit NVIDIA® NVSwitch™ und NVLink® können bis zu 256 H100 verbunden werden, um Exascale-Workloads zu beschleunigen, sowie eine dedizierte Transformer Engine, um Billionen-Parameter-Sprachmodelle zu lösen. Die kombinierten technologischen Innovationen von H100 können große Sprachmodelle um das 30-fache gegenüber der Vorgängergeneration beschleunigen, um branchenführende Gesprächs-KI bereitzustellen.
WHITEPAPER| H100

Sichere Beschleunigung von Workloads von Enterprise auf Exascale

Bis zu 9-mal schnelleres KI-Training bei den größten Modellen

Mixture of Experts (395 Milliarden Parameter)
Projected performance subject to change. Training Mixture of Experts (MoE) Transformer Switch-XXL variant with 395B parameters on 1T token dataset | A100 cluster: HDR IB network | H100 cluster: NVLINK Switch System, NDR IB

Transformations-KI-Training

NVIDIA H100-Grafikprozessoren verfügen über Tensor-Recheneinheiten der vierten Generation und die Transformer Engine mit FP8-Präzision, die bis zu 9-mal schnelleres Training im Vergleich zur vorherigen Generation für MoE-Modelle (Mixture of Experts) bietet. Die Kombination aus NVlink der vierten Generation, die eine GPU-zu-GPU-Verbindung von 900 Gigabyte pro Sekunde (GB/s) bietet, NVSwitch, das die Kollektivkommunikation durch jeden Grafikprozessor über Knoten hinweg beschleunigt, PCIe der 5. Generation; und NVIDIA Magnum IO™-Software bietet effiziente Skalierbarkeit von kleinen Unternehmen bis hin zu riesigen, einheitlichen GPU-Clustern.

Die Bereitstellung von H100-Grafikprozessoren im Rechenzentrumsmaßstab bietet eine bisher unerreichte Leistung sowie die nächste Generation von Exascale High-Performance-Computing (HPC) und Billionen-Parameter-KI für alle Forscher.

Echtzeit-Deep-Learning-Inferenz

KI löst eine Vielzahl von geschäftlichen Herausforderungen mit einer ebenso breiten Palette an neuronalen Netzen. Ein hervorragender KI-Inferenzbeschleuniger muss nicht nur höchste Leistung, sondern auch die Vielseitigkeit bieten, um diese Netzwerke zu beschleunigen.

H100 erweitert die marktführende Position von NVIDIA bei Inferenz weiter mit mehreren Fortschritten, die die Inferenz um das bis zu 30-Fache beschleunigen und die niedrigste Latenz bieten. Tensor-Recheneinheiten der vierten Generation beschleunigen alle Präzisionen, einschließlich FP64, TF32, FP32, FP16 sowie INT8, und die Transformer Engine verwendet FP8 und FP16 zusammen, um die Speicherauslastung zu reduzieren, die Leistung zu steigern und gleichzeitig die Genauigkeit für große Sprachmodelle aufrechtzuerhalten.

Bis zu 30-mal höhere KI-Inferenzleistung bei den größten Modellen

Megatron Chatbot Inference (530 Billion Parameters)
Projected performance subject to change. Inference on Megatron 530B parameter model based chatbot for input sequence length=128, output sequence length =20 | A100 cluster: HDR IB network | H100 cluster: NVLink Switch System, NDR IB

Bis zu 7-mal höhere Leistung für HPC-Anwendungen

Projected performance subject to change. 3D FFT (4K^3) throughput | A100 cluster: HDR IB network | H100 cluster: NVLink Switch System, NDR IB | Genome Sequencing (Smith-Waterman) | 1 A100 | 1 H100

Exascale High-Performance Computing

Die NVIDIA-Rechenzentrumsplattform bietet konsistent Leistungssteigerungen, die über das Mooresche Gesetz hinausgehen. Die neuen bahnbrechenden KI-Funktionen von H100 verstärken die Leistungsfähigkeit von HPC + KI weiter, um für Wissenschaftler und Forscher, die an der Lösung der wichtigsten Herausforderungen der Welt arbeiten, die Zeit bis zum Entdecken zu verkürzen.

H100 verdreifacht die Gleitkommaoperationen pro Sekunde (FLOPS) der Tensor Cores mit doppelter Genauigkeit und liefert 60 TeraFLOPS FP64-Computing für HPC. KI-gestützte HPC-Anwendungen können die TF32-Präzision von H100 nutzen, um einen PetaFLOPS Durchsatz für Matrixmultiplikationsoperationen mit einfacher Genauigkeit zu erreichen, ohne Codeänderungen.

H100 verfügt außerdem über DPX-Anweisungen, die bei dynamischen Programmieralgorithmen wie Smith-Waterman für die DNA-Sequenzausrichtung 7-mal mehr Leistung als NVIDIA A100 Tensor Core-GPUs und eine 40-fache Beschleunigung gegenüber herkömmlichen Servern mit Dual-Socket-CPUs allein bieten.

Technische Daten

Formfaktor
H100 SXM
H100 PCIe
FP64
30 teraFLOPS
24 teraFLOPS
FP64-Tensor-Core
60 teraFLOPS
48 teraFLOPS
FP32
60 teraFLOPS
48 teraFLOPS
TF32-Tensor-Core
1.000 teraFLOPS* | 500 teraFLOPS
800 teraFLOPS* | 400 teraFLOPS
BFLOAT16-Tensor-Core
1.000 teraFLOPS* | 500 teraFLOPS
1.600 teraFLOPS* | 800 teraFLOPS
FP16-Tensor-Core
2.000 teraFLOPS* | 1.000 teraFLOPS
1.600 teraFLOPS* | 800 teraFLOPS
FP8-Tensor-Core
4.000 teraFLOPS* | 2.000 teraFLOPS
3.200 teraFLOPS* | 1.600 teraFLOPS
INT8-Tensor-Core
4.000 TOPS* | 2,000 TOPS
3.200 TOPS* | 1.600 TOPS
GPU memory
80 GB
80 GB
GPU memory bandwidth
3TB/s
2TB/s
Decoders
7 NVDEC / 7 JPEG
7 NVDEC / 7 JPEG
Max thermal design power (TDP)
700W
350W
Multi-Instance GPUs
Up to 7 MIGS @ 10GB each
Up to 7 MIGS @ 10GB each
Form factor
SXM
PCIe
Interconnect
NVLink: 900GB/s PCIe Gen5: 128GB/s
NVLINK: 600GB/s PCIe Gen5: 128GB/s
Server options
NVIDIA HGX™ H100 Partner and NVIDIA-Certified Systems™ with 4 or 8 GPUs NVIDIA DGX™ H100 with 8 GPUs
Partner and NVIDIA-Certified Systems with 1–8 GPUs
* With sparsity
Preliminary specifications, may be subject to change

Für Unternehmens-KI ausgelegt

Der NVIDIA DGX SuperPOD bietet eine einsatzbereite KI-Rechenzentrumslösung für Unternehmen, die sich auf Erkenntnisse statt auf Infrastruktur konzentrieren möchten, mit erstklassigem Computing, Software-Tools, Fachwissen und kontinuierlicher Innovation, die nahtlos bereitgestellt werden.

Der DGX SuperPOD wird mit zwei Möglichkeiten für die Recheninfrastruktur angeboten und ermöglicht es jedem Unternehmen, KI in alle Geschäftsbereiche zu integrieren und bahnbrechende Anwendungen zu entwickeln,
​​​​​​​anstatt mit der Komplexität von Plattformen zu ringen.

ENDE 2022 VERFÜGBAR

DGX SuperPOD mit NVIDIA DGX H100-Systemen

Ideal für eine skalierte Infrastruktur, die größte und komplexeste
KI-Workloads unterstützt, z. B. große Sprachmodelle mit NVIDIA
NeMo und Deep Learning-Empfehlungssysteme.

Durchbrechen Sie Barrieren mit dem ​​​​​​​
​​​​​​​DGX H100 SuperPOD 

NVIDIA wird als erstes Unternehmen einen DGX SuperPOD mit der bahnbrechenden neuen DGX H100 KI-Architektur bauen, um die Arbeit von NVIDIA-Forschern zu unterstützen, die die Klimawissenschaft, die digitale Biologie und die Zukunft der KI vorantreiben.

​​​​​​​Die neueste DGX SuperPOD Architektur verfügt über ein neues NVIDIA NVLink Switch System, das bis zu 32 Knoten mit insgesamt 256 H100 GPUs verbinden kann.

​​​​​​​Der DGX SuperPOD der nächsten Generation bietet 1 Exaflops FP8-KI-Leistung, 6x mehr als sein Vorgänger, und erweitert die Grenzen der KI mit der Fähigkeit, massive LLM-Workloads mit Billionen von Parametern auszuführen.

NVIDIA DGX SuperPod Cluster
Die PDF zur Referenzarchitektur des SuperPODs H100 wird demnächst zum download bereitgestellt.

KONVERGIERTER BESCHLEUNIGER H100 CNX VON NVIDIA

Beispiellose Leistung für GPU-gestützte, IO-intensive Workloads.

Konvergierter Beschleuniger H100 CNX
​​​​​​​von NVIDIA

NVIDIA H100 CNX kombiniert die Leistung des NVIDIA H100 mit den fortschrittlichen Netzwerkfunktionen der NVIDIA ConnectX®-7 Smart Network Interface Card (SmartNIC) in einer einzigen, einzigartigen Plattform. Diese Konvergenz bietet beispiellose Leistung für GPU-gestützte Input/Output(IO)-intensive Workloads, z. B. verteiltes KI-Training im Unternehmens-Rechenzentrum und 5G-Verarbeitung am Edge.

Whitepaper
BESSERE I/O-LEISTUNG
NVIDIA H100 und ConnectX-7 werden über einen integrierten PCIe-Gen5-Switch verbunden, der einen dedizierten Hochgeschwindigkeitspfad für Datenübertragungen zwischen GPU und Netzwerk bietet. Dadurch werden Engpässe bei Daten, die den Host durchlaufen, beseitigt und eine niedrige, vorhersehbare Latenz ermöglicht, die für zeitkritische Anwendungen wie die 5G-Signalverarbeitung wichtig ist.
AUSGEWOGENES, OPTIMIERTES DESIGN
Die Integration einer GPU und einer SmartNIC in ein einzelnes Gerät erzeugt von Natur aus eine ausgewogene Architektur. In Systemen, in denen mehrere GPUs und DPUs gewünscht sind, erzwingt eine konvergierte Beschleunigerkarte das optimale Eins-zu-Eins-Verhältnis von GPU zu NIC.  Das Design vermeidet außerdem Konflikte auf dem PCIe-Bus des Servers, sodass die Leistung mit zusätzlichen Geräten linear skaliert wird.
KOSTENEINSPARUNGEN
Da GPU und SmartNIC direkt miteinander verbunden sind, können Kunden Mainstream-PCIe Gen4- oder sogar Gen3-Server nutzen, um ein Leistungsniveau zu erzielen, das nur mit High-End- oder speziell entwickelten Systemen möglich ist.  Die Verwendung einer einzelnen Karte spart außerdem Strom, Platz und PCIe-Gerätesteckplätze und ermöglicht weitere Kosteneinsparungen, da eine höhere Anzahl an Beschleunigern pro Server eingesetzt werden kann.
BEREIT ZUR ANWENDUNG
Zentrale Software-Beschleunigungsbibliotheken wie die NVIDIA Collective Communications Library (NCCL) und Unified Communication X (UCX®) nutzen automatisch den leistungsstärksten Pfad für Datenübertragungen an GPUs. Dadurch können bestehende beschleunigte Anwendungen mit mehreren Knoten die Vorteile von H100 CNX ohne Modifikationen nutzen, was zu sofortigen Verbesserungen führt.

H100 CNX – Technische Daten

Technische Daten
GPU-Speicher
80 GB HBM2e
Speicherbandbreite
> 2,0 Tb/s
MIG-Instanzen
7 Instanzen mit je 10 GB
3 Instanzen mit je 20 GB
2 Instanzen mit je 40 GB
Konnektivität
PCIe Gen5 128 GB/s
NVLINK-Brücke
2-Wege
Netzwerk
1x 400 Gb/s, 2x 200 Gb/s Ports, Ethernet oder InfiniBand
Formfaktor
FHFL-Dual-Slot (Full Height, Full Length)
Max. Leistung
350 W

NVIDIA Spectrum SN4000 Open

Der SN4000 basiert auf NVIDIA® Spectrum®-3 und ist ein offener Ethernet-Switch, der branchenführende Cloud-Funktionen mit bahnbrechender Leistung kombiniert, um moderne, skalierbare, verteilte Rechenzentrumsanwendungen zu unterstützen. Das SN4000 unterstützt alle Geschwindigkeiten von 1 GbE bis 400 GbE und eignet sich ideal für den Aufbau großer Layer-2-, Layer-3- und virtualisierter Netzwerkstrukturen für Greenfield- und Greenfield-Umgebungen.
PRODUKTBENACHRICHTIGUNGDATENBLATT | SPECTRUM SN4000

Ethernet SWiTCHE

 
Die Menge an generierten Daten durch KI wachsen exponential an und
​​​​​​​sorgen für ein immer höheres Leistungsaufkommen, die sich über alle Branchen erstrecken.
NVIDIA Switche bieten eine große Bandbreite für den Datenzugriff und die Kommunikation im Rechenzentrum.
 
ETHERNET SWITCHE

NVIDIA GRACE-CPU

Der Hopper H100 Tensor-Core-Grafikprozessor wird die NVIDIA Grace Hopper CPU + GPU-Architektur unterstützen, die speziell für beschleunigtes Computing im Terabyte-Bereich entwickelt wurde und eine 10-mal höhere Leistung bei KI und HPC bei großen Modellen bietet. Die NVIDIA Grace-CPU nutzt die Flexibilität der Arm® -Architektur, um eine CPU- und Serverarchitektur zu erstellen, die von Grund auf für beschleunigtes Computing entwickelt wurde. H100 wird mit Grace sowie der ultraschnellen Chip-zu-Chip-Verbindung von NVIDIA kombiniert und bietet eine Bandbreite von 900 GB/s, 7-mal schneller als PCIe der 5. Generation. Dieses innovative Design bietet eine bis zu 30-mal höhere Gesamtbandbreite im Vergleich zu den schnellsten gegenwärtig verfügbaren Servern und eine bis zu 10-mal höhere Leistung für Anwendungen mit einem Datenvolumen von mehreren Terabytes.

​​​​​​​NVIDIA HOPPER™-ARCHITEKTUR

DIE PLATTFORM FÜR BESCHLEUNIGTE BERECHNUNGEN SOWIE FÜR WORKLOADS DER NÄCHSTEN GENERATION​​​​​​​

Erfahren Sie mehr über den nächsten Durchbruch für beschleunigtes Computing mit der NVIDIA Hopper™-Architektur. Hopper erlaubt die sichere Skalierung verschiedenster Workloads in jedem Rechenzentrum, von kleinen Unternehmen bis hin zu extremen HPC (High Performance Computing) und KI mit Billionen von Parametern.
WHITEPAPER