BESCHLEUNIGUNG DER WICHTIGSTEN ARBEIT UNSERER ZEIT

Die NVIDIA A100 Tensor Core-GPU bietet nie dagewesene Beschleunigung in jeder Größenordnung für die weltweit leistungsstärksten elastischen Rechenzentren in den Bereichen KI, Datenanalysen und HPC. A100 basiert auf der NVIDIA Ampere-Architektur und ist der zentrale Bestandteil der Rechenzentrumsplattform von NVIDIA. A100 bietet eine bis zu 20-mal höhere Leistung gegenüber der Vorgängergeneration und lässt sich in sieben Grafikprozessorinstanzen partitionieren, um sich dynamisch an veränderliche Anforderungen anzupassen. Die A100 80 GB verwendet erstmals die höchste Speicherbandbreite der Welt mit über 2 Terabyte pro Sekunde (TB/s), um auch die größten Modelle und Datensätze zu bewältigen.

ENTERPRISE-FÄHIGE SOFTWARE FÜR KI

Die NVIDIA EGX™-Plattform umfasst optimierte Software, die beschleunigtes Computing in der gesamten Infrastruktur ermöglicht. NVIDIA AI Enterprise bietet Unternehmen eine Cloud-native End-to-End-Softwaresuite für KI und Datenanalyse, die von NVIDIA für die Ausführung auf VMware vSphere mit NVIDIA-zertifizierten Systemen optimiert, zertifiziert und unterstützt wird. NVIDIA AI Enterprise umfasst wichtige unterstützende Technologien von NVIDIA für die schnelle Bereitstellung, Verwaltung und Skalierung von KI-Workloads in der modernen Hybrid Cloud.
NVIDIA AI Enterprise

DIE LEISTUNGSSTÄRKSTE END-TO-END-RECHENZENTRUMSPLATTFORM
​​​​​​​FÜR KI UND HPC

A100 ist Teil der kompletten NVIDIA-Lösung für Rechenzentren, die Bausteine für Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und -Anwendungen von NGC™ umfasst. Er repräsentiert die leistungsstärkste End-to-End-KI- und HPC-Plattform für Rechenzentren und ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen in der entsprechenden Größenordnung bereitzustellen.

BIS ZU 3-MAL SCHNELLERES KI-TRAINING BEI DEN GRÖSSTEN MODELLE

GPU KI-Training Performance Chart
DLRM on HugeCTR framework, precision = FP16 | ​NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.
DLRM-Training

DEEP LEARNING TRAINING

Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Ihr Training erfordert enorme Rechenleistung und Skalierbarkeit.

Die Tensor-Recheneinheiten des NVIDIA A100 mit Tensor Float(TF32)-Präzision bieten bis zu 20-mal mehr Leistung gegenüber NVIDIA Volta, erfordern dafür keine Code-Änderungen und bieten einen zusätzlichen 2-fachen Boost mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® und dem NVIDIA Magnum IO™-SDK ist die Skalierung auf Tausende A100-Grafikprozessoren möglich.

Trainings-Workloads wie BERT können in großem Maßstab mit 2.048 A100-GPUs in unter einer Minute gelöst werden, was einen Weltrekord in der Lösungszeit darstellt.

Bei den größten Modellen mit massiven Datentabellen wie Deep-Learning-Empfehlungsmodellen (Deep Learning Recommendation Models, DLRMs) erreicht der A100 80 GB bis zu 1,3 TB vereinheitlichten Arbeitsspeicher pro Knoten und bietet bis zu 3-mal mehr Durchsatz als der A100 40 GB.

Die Führungsrolle von NVIDIA in MLPerf wurde durch mehrere Leistungsrekorde bei KI-Trainings-Benchmarks in der ganzen Branche gefestigt.

INFERENZ FÜR DEEP LEARNING

Die A100 bietet bahnbrechende Funktionen zur Optimierung von Inferenzworkloads. Es beschleunigt FP32 bis INT4 und ermöglicht durch Mehr-Instanzen-Grafikprozessortechnologie (MIG) gleichzeitige Ausführung mehrerer Netze auf einer GPU für optimale Ressourcennutzung. Strukturelle Sparsity liefert bis zu 2-mal mehr Leistung. Inferenzdurchsatz für KI-Modelle wie BERT ist 249-mal schneller als auf CPUs. Erhöhte Speicherkapazität von 80GB für komplexe Modelle wie RNN-T verdoppelt die Größe jeder MIG und liefert 1,25-mal mehr Durchsatz als A100 40GB. NVIDIA ist marktführender Anbieter bei Inferenzleistung in MLPerf, die A100 baut diese Führung weiter aus mit 20-mal mehr Leistung.

 
BIS ZU 249-MAL HÖHERE LEISTUNG BEI KI-INFERENZ
GEGENÜBER CPUS
 

BERT-LARGE-Inferenz
GPU CPU Comparison Performance Chart

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT (TRT) 7.2, precision =™ INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 mit Sparsity.

BIS ZU 1,25-MAL HÖHERE LEISTUNG BEI KI-INFERENZ
GEGENÜBER A100 40 GB

RNN-T-Inferenz: Single Stream
GPU CPU Comparison Performance Chart

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.

HIGH-PERFORMANCE COMPUTING

Wissenschaftler nutzen Simulationen mit NVIDIA A100, um Entdeckungen zugänglich zu machen und die Welt zu verstehen. A100 führt Tensor-Recheneinheiten mit doppelter Präzision und 80 GB des schnellsten Grafikspeichers ein. Dies reduziert Simulationen auf weniger als vier Stunden und bietet einen 11-fachen Durchsatz bei dichten Matrixmultiplikationsaufgaben. Mit zusätzlichem Speicherplatz und unübertroffener Bandbreite ist der A100 80 GB ideal für die Workloads der nächsten Generation. Erfahren Sie mehr über den A100 für HPC

11-mal mehr HPC-Leistung in vier Jahren

Führende HPC-Anwendungen

GPU HPC Application Performance Chart

Geometrisches Mittel der Anwendungsbeschleunigung vs. P100: Benchmark-Anwendung: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS  [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Schnelle Feinabstimmung], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64:10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Grafikprozessorknoten mit Dual-Sockel-CPUs mit 4x NVIDIA P100-, V100- oder A100-Grafikprozessoren.

Bis zu 1,8-mal höhere Leistung für HPC-Anwendungen

Quantum Espresso

GPU HPC Application Performance Chart

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.

LEISTUNGSSTARKE DATENANALYSE

Datenwissenschaftler müssen Daten analysieren, visualisieren und Erkenntnisse gewinnen. Lösungen für horizontale Skalierung funktionieren oft nicht, weil Daten auf mehreren Servern verteilt sind. NVIDIA's A100-Server beschleunigen Workloads durch Rechenleistung, enormen Arbeitsspeicher, Speicherbandbreite von 2 TB/s und Skalierbarkeit. Zusammen mit InfiniBand, NVIDIA Magnum IO und RAPIDS-Suite beschleunigt die NVIDIA-Rechenzentrumsplattform enorme Workloads mit unübertroffener Leistung und Effizienz. Die A100 liefert Erkenntnisse in einem Big-Data-Benchmark mit 83x höherem Durchsatz und 2x höherer Leistung als A100 40 GB und ist ideal für neue Workloads mit immensen Datensätzen.


Weitere Informationen zu Datenanalysen

Bis zu 83-mal schneller als die CPU, 2-mal schneller als A100 40 GB im Big-Data-Analyse-Benchmark

Big-Data-Analyse-Benchmark |  30 Analysehandelsabfragen, ETL, ML, NLP auf 10-TB-Datensatz | CPU: Intel Xeon Gold 6252 2,10 GHz, Hadoop | V100 32 GB, RAPIDS/Dask | A100 40 GB und A100 80 GB, RAPIDS/Dask/BlazingSQL

2X schneller als A100 40GB im Big Data Analytics Benchmark

Big data analytics benchmark |  30 analytical retail queries, ETL, ML, NLP on 10TB dataset | V100 32GB, RAPIDS/Dask | A100 40GB and A100 80GB, RAPIDS/Dask/BlazingSQL​

UNTERNEHMENSFÄHIGE AUSLASTUNG

7-MAL HÖHERER INFERENZDURCHSATZ MIT MEHR-INSTANZEN-GRAFIKPROZESSOR (MIG)

BERT Große Inferenz

GPU Performance Chart

BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 mit Sparsity.

A100 mit MIG optimiert die Auslastung GPU-beschleunigter Infrastruktur. Mit MIG lässt sich eine A100-GPU in bis zu sieben unabhängige Instanzen partitionieren, sodass mehrere Nutzer zeitgleich von der GPU-Beschleunigung profitieren können. Beim A100 40 GB können jeder MIG-Instanz bis zu 5 GB zugeteilt werden, durch die erhöhte Speicherkapazität wird dies beim A100 80 GB auf 10 GB verdoppelt.

MIG arbeitet mit Kubernetes, Containern und hypervisorbasierter Servervirtualisierung. MIG ermöglicht es der Infrastrukturverwaltung, jeder Aufgabe eine maßgeschneiderte GPU mit garantierter Servicequalität (QoS) zuzuweisen, wodurch jeder Nutzer Zugang zu den beschleunigten Computing-Ressourcen erhält.


Weitere Informationen zu MIG

Transformieren Sie Ihre KI-Workloads mit der NVIDIA DGX A100

Erleben Sie die Power der KI-Beschleunigung mit der NVIDIA DGX A100. Diese führende KI-Plattform bietet eine außergewöhnliche Leistung, um komplexe KI-Workloads zu beschleunigen und zu vereinfachen. Die DGX A100 verfügt über die neueste NVIDIA A100 Tensor Core GPU-Technologie, die eine erstaunliche Leistung und Effizienz für Deep Learning, HPC und Analytics-Workloads bietet. Nutzen Sie die DGX A100, um Ihre KI-Ziele zu erreichen und Ihr Unternehmen auf die nächste Stufe zu bringen.
DGX A100 System

GPUS FÜR RECHENZENTREN

NVIDIA A100 HGX

NVIDIA A100 FÜR HGX

Ultimative Leistung für alle Workloads.
NVIDIA A100 PCIe

NVIDIA A100 FÜR PCIE

Höchstmaß an Vielseitigkeit für alle Workloads.

TECHNISCHE DATEN

A100 80 GB PCIe
A100 80 GB SXM
FP64
9,7 TFLOPS
9,7 TFLOPS
FP64-Tensor-Core
19,5 TFLOPS
19,5 TFLOPS
FP32
19,5 TFLOPS
19,5 TFLOPS
Tensor Float 32 (TF32)
156 TFLOPS | 312 TFLOPS*
156 TFLOPS | 312 TFLOPS*
BFLOAT16-Tensor-Recheneinheit
312 TFLOPS | 624 TFLOPS*
312 TFLOPS | 624 TFLOPS*
FP16-Tensor-Recheneinheit
312 TFLOPS | 624 TFLOPS*
312 TFLOPS | 624 TFLOPS*
INT8-Tensor-Recheneinheit
624 TOPS | 1248 TOPS*
624 TOPS | 1248 TOPS*
GPU-Speicher
80 GB HBM2e
80 GB HBM2e
GPU-Speicherbandbreite
1.935 GB/s
2.039 GB/s
Max. Thermal Design Power (TDP)​​​​​​​
300 W
400 W ***
Mehr-Instanzen-GPU
Bis zu 7 MIGs mit 10 GB
Bis zu 7 MIGs mit 10 GB
Formfaktor
PCIe - zwei Steckplätze mit Luftkühlung oder ein Steckplatz mit Flüssigkeitskühlung
SXM
Zusammenschaltung
NVIDIA® NVLink®-Brücke
für 2 Grafikprozessoren: 600 GB/s **
PCIe Gen4: 64 GB/s
NVLink: 600 GB/s
PCIe Gen4: 64 GB/s
Serveroptionen
NVIDIA-Certified Systeme™ mit 1-8 GPUs
NVIDIA HGX™ A100-Partner und NVIDIA-zertifizierte Systeme mit 4, 8 oder 16 GPUs NVIDIA DGX™ A100 mit 8 GPUs
* Mit Sparsity
** SXM4-GPUs über HGX A100-Serverboards, PCIe-GPUs über NVLink-Brücke für bis zu zwei GPUs
*** 400 W TDP für die Standardkonfiguration. SKU für HGX A100-80-GB-Lösung mit individueller Kühlung (Custom Thermal Solution, CTS) kann TDPs bis zu 500 W unterstützen