DAS Universelle System für die KI-Infrastruktur
NVIDIA-certified systems von Supermicro
Die NVIDIA A100 Tensor Core-GPU bietet nie dagewesene Beschleunigung in jeder Größenordnung für die weltweit leistungsstärksten elastischen Rechenzentren in den Bereichen KI, Datenanalysen und HPC. A100 basiert auf der NVIDIA Ampere-Architektur und ist die treibende Kraft der Rechenzentrumsplattform von NVIDIA. A100 bietet eine bis zu 20-mal höhere Leistung gegenüber der Vorgängergeneration und lässt sich in sieben Grafikprozessorinstanzen partitionieren, um sich dynamisch an veränderliche Anforderungen anzupassen. A100 ist mit 80 GB Arbeitsspeicher erhältlich. Die A100 80 GB verwendet erstmals die höchste Speicherbandbreite der Welt mit über 2 Terabyte pro Sekunde (TB/s), um auch die größten Modelle und Datensätze zu bewältigen.
Ihr direkter Draht zu den Experten von sysGen!
NVIDIA & SUPERMICRO
HOLEN DAS BESTE AUS IHREN SYSTEMEN HERAUS
HOLEN DAS BESTE AUS IHREN SYSTEMEN HERAUS
Holen Sie das Beste aus Ihren Systemen mit unseren Empfehlungen von NVIDIA und Supermicro heraus.
Hier ist für jedes Vorhaben und für jedes Budget das Richtige dabei!
ÜBERSCHREITEN SIE DIE GRENZEN DER KI
Leistungsdaten der DGX H100
NVIDIA H100-Grafikprozessoren verfügen über Tensor-Recheneinheiten der vierten Generation und die Transformer Engine mit FP8-Präzision, die bis zu 9-mal schnelleres Training im Vergleich zur vorherigen Generation für MoE-Modelle (Mixture of Experts) bietet. Die Kombination aus NVlink der vierten Generation, die eine GPU-zu-GPU-Verbindung von 900 Gigabyte pro Sekunde (GB/s) bietet, NVLINK Switch System, das die Kommunikation durch jeden Grafikprozessor über Knoten hinweg beschleunigt, PCIe der 5. Generation und NVIDIA Magnum IO™-Software bietet effiziente Skalierbarkeit von kleinen Unternehmen bis hin zu riesigen, einheitlichen GPU-Clustern.
Die Bereitstellung von H100-Grafikprozessoren im Rechenzentrumsmaßstab bietet hervorragende Leistung sowie die nächste Generation von Exascale High-Performance-Computing (HPC) und Billionen-Parameter-KI für alle Forscher.
KI löst eine Vielzahl von geschäftlichen Herausforderungen mit einer ebenso breiten Palette an neuronalen Netzen. Ein hervorragender KI-Inferenzbeschleuniger muss nicht nur höchste Leistung, sondern auch die Vielseitigkeit bieten, um diese Netzwerke zu beschleunigen.
H100 erweitert die marktführende Position von NVIDIA bei Inferenz durch mehrere Fortschritte, die die Inferenz um das bis zu 30-Fache beschleunigen und die niedrigste Latenz bieten. Tensor-Recheneinheiten der vierten Generation beschleunigen alle Präzisionen, einschließlich FP64, TF32, FP32, FP16 sowie INT8, und die Transformer Engine verwendet FP8 und FP16 zusammen, um die Speicherauslastung zu reduzieren, die Leistung zu steigern und gleichzeitig die Genauigkeit für große Sprachmodelle aufrechtzuerhalten.
Die NVIDIA-Rechenzentrumsplattform bietet konsistent Leistungssteigerungen, die über das Mooresche Gesetz hinausgehen. Die neuen bahnbrechenden KI-Funktionen von H100 verstärken die Leistungsfähigkeit von HPC und KI weiter, um für Wissenschaftler und Forscher, die an der Lösung der wichtigsten Herausforderungen der Welt arbeiten, die Zeit bis zum Entdecken zu verkürzen.
H100 verdreifacht die Gleitkommaoperationen pro Sekunde (FLOPS) der Tensor Cores mit doppelter Genauigkeit und liefert 60 TeraFLOPS FP64-Computing für HPC. KI-gestützte HPC-Anwendungen können die TF32-Präzision von H100 nutzen, um einen PetaFLOP Durchsatz für Matrixmultiplikationsoperationen mit einfacher Genauigkeit zu erreichen, ohne Codeänderungen.
H100 verfügt außerdem über DPX-Anweisungen, die bei dynamischen Programmieralgorithmen wie Smith-Waterman für die DNA-Sequenzausrichtung 7-mal mehr Leistung als NVIDIA A100 Tensor Core-GPUs und eine 40-fache Beschleunigung gegenüber herkömmlichen Servern mit Dual-Socket-CPUs allein bieten.
Formfaktor | H100 SXM | H100 PCIe |
---|---|---|
FP64 | 30 teraFLOPS | 24 teraFLOPS |
FP64-Tensor-Core | 60 teraFLOPS | 48 teraFLOPS |
FP32 | 60 teraFLOPS | 48 teraFLOPS |
TF32-Tensor-Core | 1.000 teraFLOPS* | 800 teraFLOPS* |
BFLOAT16-Tensor-Core | 2.000 teraFLOPS* | 1.600 teraFLOPS* |
FP16-Tensor-Core | 2.000 teraFLOPS* | 1.600 teraFLOPS* |
FP8-Tensor-Core | 4.000 teraFLOPS* | 3.200 teraFLOPS* |
INT8-Tensor-Core | 4.000 TOPS* | 3.200 TOPS* |
GPU-Speicher | 80 GB | 80 GB |
GPU-Speicherbandbreite | 3 TB/s | 2 TB/s |
Decoder | 7 NVDEC 7 JPEG | 7 NVDEC 7 JPEG |
Max. Thermal Design Power (TDP) | 700 W | 350 W |
Mehr-Instanzen-Grafikprozessoren | Bis zu 7 MIGs mit je 10 GB | |
Formfaktor | SXM | PCIe Zwei Steckplätze mit Luftkühlung |
Konnektivität | NVLink: 900 GB/s PCIe Gen5: 128 GB/s | NVLINK: 600 GB/s PCIe Gen5: 128 GB/s |
Serveroptionen | NVIDIA HGX™ H100-Partner und NVIDIA-Certified Systems™ mit 4 oder 8 GPUs, NVIDIA DGX™ H100 mit 8 GPUs | Partner und NVIDIA-Certified Systems mit 1–8 GPUs |
* Mit geringer Dichte dargestellt. Die Spezifikationen sind ohne geringe Dichte um die Hälfte niedriger. Vorläufige Spezifikationen. Änderungen vorbehalten.
DAS WELTWEIT ERSTE KI-SYSTEM AUF BASIS VON NVIDIA A100
Leistungsdaten der DGX A100
Bis zu 3-mal schnelleres KI-Training bei den größten Modellen

Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Ihr Training erfordert enorme Rechenleistung und Skalierbarkeit.
Die Tensor Cores NVIDIA A100 mit Tensor Float (TF32)-Präzision bieten bis zu 20-mal mehr Leistung gegenüber NVIDIA Volta, erfordern dafür keine Code-Änderungen und bieten einen zusätzlichen 2-fachen Boost mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® und dem NVIDIA Magnum IO™-SDK ist die Skalierung auf Tausende A100-Grafik-prozessoren möglich.
Trainings-Workloads wie BERT können in großem Maßstab mit 2.048 A100-GPUs in unter einer Minute gelöst werden, was einen Weltrekord in der Lösungszeit darstellt.
Bei den größten Modelle mit massiven Datentabellen wie Deep Learning-Empfehlungsmodellen (DLRM) erreicht die A100 80 GB bis zu 1,3 TB vereinheitlichten Arbeitsspeicher pro Knoten und bietet bis zu 3-mal mehr Durchsatz als die A100 40 GB.
Die Führungsrolle von NVIDIA in MLPerf wurde durch mehrere Leistungs-rekorde bei KI-Trainings-Benchmarks in der ganzen Branche gefestigt.
ERFAHREN SIE MEHR ÜBER A100 FÜR DAS TRAINING
INFERENZ FÜR DEEP LEARNING
Mit der A100 werden bahnbrechende Funktionen zur Optimierung von Inferenzworkloads eingeführt. Sie beschleunigt ein breites Spektrum von Präzisionen, von FP32 bis INT4. Durch die Mehr-Instanzen-Grafikprozessor-Technologie (MIG) können mehrere Netzwerke gleichzeitig auf einer einzelnen A100-GPU ausgeführt werden, um die Rechenressourcen optimal zu nutzen. Zusätzlich zu den anderen Inferenzleistungssteigerungen der A100 bietet die strukturelle geringe Dichte bis zu 2-mal mehr Leistung.
Für hochmoderne Konversations-KI-Modelle wie BERT bietet die A100 einen bis zu 249-mal schnelleren Inferenzdurchsatz gegenüber CPUs.
Bei den komplexesten Modellen mit beschränkten Batchgrößen, wie RNN-T für automatische Spracherkennung, verdoppelt die erhöhte Speicherkapazität der A100 80GB die Größe jeder MIG und liefert so einen 1,25-mal größeren Durchsatz als die A100 40 GB.
NVIDIA bewies marktführende Leistung bei der Inferenz in MLPerf. Die A100 baut diese Führung mit 20-mal mehr Leistung weiter aus.
ERFAHREN SIE MEHR ÜBER A100 FÜR INFERENZ

gegenüber A100 40 GB

HIGH-PERFORMANCE COMPUTING
Um die nächste Generation der Entdeckungen zu erschließen, betrachten Wissenschaftler Simulationen, um die Welt um uns besser zu verstehen.
NVIDIA A100 führt Tensor Cores mit doppelter Präzision ein und stellt somit den größten Leistungssprung für HPC seit der Einführung von GPUs dar. In Kombination mit 80 GB des schnellsten Grafikspeichers können Forscher eine vormals 10-stündige, Simulation auf A100 mit doppelter Präzision auf weniger als vier Stunden verkürzen. HPC-Anwendungen können zudem TF32 nutzen und erreichen so einen bis zu 11-mal höheren Durchsatz bei dichten Matrixmultiplikationsaufgaben mit einfacher Genauigkeit.
Für jene HPC-Anwendungen mit den größten Datensätzen bietet der zusätzliche Speicherplatz der A100 80 GB eine bis zu 2-fache Steigerung des Durchsatzes in Quantum Espresso, einer Materialsimulation. Der enorme Arbeitsspeicher und die unübertroffene Speicherbandbreite machen die A100 80 GB zur idealen Plattform für Workloads der nächsten Generation.
ERFAHREN SIE MEHR ÜBER A100 FÜR HPC


LEISTUNGSSTARKE DATENANALYSE
Bis zu 83-mal schneller als auf CPU, 2-mal schneller als A100 40 GB im Big Data Analytics-Benchmark

Datenwissenschaftler müssen dazu in der Lage sein, umfangreiche Datensätze zu analysieren, zu visualisieren und Erkenntnisse aus ihnen zu gewinnen. Skalierungslösungen werden jedoch oft davon ausgebremst, dass Datensätze auf mehrere Server verteilt sind.
Beschleunigte Server mit A100 liefern die nötige Rechenleistung – zusammen mit gewaltigem Arbeitsspeicher, einer Speicherbandbreite von 2 Terabyte pro Sekunde (TB/s) sowie Skalierbarkeit über NVIDIA® NVLink® und NVSwitch™ – um diese gewaltigen Workloads zu bewältigen. In Kombination mit InfiniBand, NVIDIA Magnum IO™ und der RAPIDS™-Suite an Open-Source-Bibliotheken, einschließlich des RAPIDS Accelerator für Apache Spark für GPU-beschleunigte Datenanalysen, beschleunigt die Rechenzentrumsplattform von NVIDIA diese enormen Workloads mit unübertroffener Leistung und Effizienz.
In einem großen Datenanalyse-Benchmark erzielte die A100 80 GB mit 83-mal höherem Durchsatz Erkenntnisse als CPUs und 2-fach höhere Leistung als die A100 40 GB, womit sie ideal für zunehmende Workloads mit stetig wachsenden Datensätzen ist.
WEITERE INFORMATIONEN ZU DATENANALYSEN
UNTERNEHMENSFÄHIGE AUSLASTUNG
BERT-Large-Inferenz

A100 mit MIG optimiert die Auslastung GPU-beschleunigter Infrastruktur. Mit MIG lässt sich eine A100-GPU in bis zu sieben unabhängige Instanzen partitionieren, sodass mehrere Nutzer zeitgleich GPU-Beschleunigung nutzen können. Bei der A100 40 GB können jeder MIG-Instanz bis zu 5 GB zugeteilt werden, durch die erhöhte Speicherkapazität wird dies bei der A100 80 GB auf 10 GB verdoppelt.
MIG arbeitet mit Kubernetes, Containern und hypervisorbasierter Servervirtualisierung. MIG ermöglicht es der Infrastrukturverwaltung, jeder Aufgabe eine maßgeschneiderte GPU mit garantierter Servicequalität (QoS) zuzuweisen, wodurch jeder Nutzer Zugang zu den beschleunigten Computing Ressourcen erhält.
MEHR INFORMATIONEN ZU MIG
Bis zu 3-mal schnelleres KI-Training bei den größten Modellen

Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Ihr Training erfordert enorme Rechenleistung und Skalierbarkeit.
Die Tensor Cores NVIDIA A100 mit Tensor Float (TF32)-Präzision bieten bis zu 20-mal mehr Leistung gegenüber NVIDIA Volta, erfordern dafür keine Code-Änderungen und bieten einen zusätzlichen 2-fachen Boost mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® und dem NVIDIA Magnum IO™-SDK ist die Skalierung auf Tausende A100-Grafik-prozessoren möglich.
Trainings-Workloads wie BERT können in großem Maßstab mit 2.048 A100-GPUs in unter einer Minute gelöst werden, was einen Weltrekord in der Lösungszeit darstellt.
Bei den größten Modelle mit massiven Datentabellen wie Deep Learning-Empfehlungsmodellen (DLRM) erreicht die A100 80 GB bis zu 1,3 TB vereinheitlichten Arbeitsspeicher pro Knoten und bietet bis zu 3-mal mehr Durchsatz als die A100 40 GB.
Die Führungsrolle von NVIDIA in MLPerf wurde durch mehrere Leistungs-rekorde bei KI-Trainings-Benchmarks in der ganzen Branche gefestigt.
ERFAHREN SIE MEHR ÜBER A100 FÜR DAS TRAINING
Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...


Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...


Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...


Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...


GPUs FÜR RECHENZENTREN

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...
TECHNISCHE DATEN
NVIDIA A100 für NVLink | NVIDIA A100 für PCIe | |
---|---|---|
Peak FP64 | 9.7 TF | 9.7 TF |
Peak FP64 Tensor Core | 19.5 TF | 19.5 TF |
Peak FP32 | 19.5 TF | 19.5 TF |
Tensor Float 32 (TF32) | 156 TF | 312 TF* | 156 TF | 312 TF* |
Peak BFLOAT16 Tensor Core | 312 TF | 624 TF* | 312 TF | 624 TF* |
Peak FP16 Tensor Core | 312 TF | 624 TF* | 312 TF | 624 TF* |
Peak INT8 Tensor Core | 624 TOPS | 1.248 TOPS * | 624 TOPS | 1.248 TOPS * |
Peak INT4 Tensor Core | 1.248 TOPS | 2.496 TOPS * | 1.248 TOPS | 2.496 TOPS * |
Grafikprozessorspeicher | 40GB / 80GB | 40GB |
GPU-Speicherbandbreite | 1.555 GB/s / 2.039 GB/s | 1.555 GB/s |
Verbindungen | NVIDIA NVLink 600 GB/s** PCIe Gen4 64 GB/s | NVIDIA NVLink 600 GB/s** PCIe Gen4 64 GB/s |
Mehr-Instanzen-Grafikprozessor | Verschiedene Instanzgrößen mit bis zu 7 MIGs bei 10 GB | Verschiedene Instanzgrößen mit bis zu 7 MIGs bei 5 GB |
Formfaktor | 4/8 SXM auf NVIDIA HGX™ A100 | PCIe |
Max. TDP-Kraft | 400 W / 400 W | 250W |
** SXM-Grafikprozessoren über HGX A100-Serverboards; PCIe-Grafikprozessoren über NVLink-Brücke für bis zu 2 Grafikprozessoren

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...
NVIDIA RTX Workstation GPU's

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...

Editable editable, click me for edit, editable, click me for edit, editable, click me for edit ...
EINBLICKE IN DIE NVIDIA AMPERE-ARCHITEKTUR
im NVIDIA A100-Grafikprozessor neu ist.