BESCHLEUNIGUNG DER WICHTIGSTEN ARBEIT UNSERER ZEIT
Die NVIDIA A100 Tensor Core-GPU bietet nie dagewesene Beschleunigung in jeder Größenordnung für die weltweit leistungsstärksten elastischen Rechenzentren in den Bereichen KI, Datenanalysen und HPC. A100 basiert auf der NVIDIA Ampere-Architektur und ist der zentrale Bestandteil der Rechenzentrumsplattform von NVIDIA. A100 bietet eine bis zu 20-mal höhere Leistung gegenüber der Vorgängergeneration und lässt sich in sieben Grafikprozessorinstanzen partitionieren, um sich dynamisch an veränderliche Anforderungen anzupassen. Die A100 80 GB verwendet erstmals die höchste Speicherbandbreite der Welt mit über 2 Terabyte pro Sekunde (TB/s), um auch die größten Modelle und Datensätze zu bewältigen.
ENTERPRISE-FÄHIGE SOFTWARE FÜR KI
DIE LEISTUNGSSTÄRKSTE END-TO-END-RECHENZENTRUMSPLATTFORM
FÜR KI UND HPC
FÜR KI UND HPC
A100 ist Teil der kompletten NVIDIA-Lösung für Rechenzentren, die Bausteine für Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und -Anwendungen von NGC™ umfasst. Er repräsentiert die leistungsstärkste End-to-End-KI- und HPC-Plattform für Rechenzentren und ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen in der entsprechenden Größenordnung bereitzustellen.
BIS ZU 3-MAL SCHNELLERES KI-TRAINING BEI DEN GRÖSSTEN MODELLE
DEEP LEARNING TRAINING
Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Ihr Training erfordert enorme Rechenleistung und Skalierbarkeit.
Die Tensor-Recheneinheiten des NVIDIA A100 mit Tensor Float(TF32)-Präzision bieten bis zu 20-mal mehr Leistung gegenüber NVIDIA Volta, erfordern dafür keine Code-Änderungen und bieten einen zusätzlichen 2-fachen Boost mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® und dem NVIDIA Magnum IO™-SDK ist die Skalierung auf Tausende A100-Grafikprozessoren möglich.
Trainings-Workloads wie BERT können in großem Maßstab mit 2.048 A100-GPUs in unter einer Minute gelöst werden, was einen Weltrekord in der Lösungszeit darstellt.
Bei den größten Modellen mit massiven Datentabellen wie Deep-Learning-Empfehlungsmodellen (Deep Learning Recommendation Models, DLRMs) erreicht der A100 80 GB bis zu 1,3 TB vereinheitlichten Arbeitsspeicher pro Knoten und bietet bis zu 3-mal mehr Durchsatz als der A100 40 GB.
Die Führungsrolle von NVIDIA in MLPerf wurde durch mehrere Leistungsrekorde bei KI-Trainings-Benchmarks in der ganzen Branche gefestigt.
INFERENZ FÜR DEEP LEARNING
GEGENÜBER CPUS BIS ZU 249-MAL HÖHERE LEISTUNG BEI KI-INFERENZ
GEGENÜBER CPUS
BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT (TRT) 7.2, precision =™ INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 mit Sparsity.
BIS ZU 1,25-MAL HÖHERE LEISTUNG BEI KI-INFERENZ
GEGENÜBER A100 40 GB
GEGENÜBER A100 40 GB
MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.
HIGH-PERFORMANCE COMPUTING
Wissenschaftler nutzen Simulationen mit NVIDIA A100, um Entdeckungen zugänglich zu machen und die Welt zu verstehen. A100 führt Tensor-Recheneinheiten mit doppelter Präzision und 80 GB des schnellsten Grafikspeichers ein. Dies reduziert Simulationen auf weniger als vier Stunden und bietet einen 11-fachen Durchsatz bei dichten Matrixmultiplikationsaufgaben. Mit zusätzlichem Speicherplatz und unübertroffener Bandbreite ist der A100 80 GB ideal für die Workloads der nächsten Generation. Erfahren Sie mehr über den A100 für HPC
11-mal mehr HPC-Leistung in vier Jahren
Führende HPC-Anwendungen
Geometrisches Mittel der Anwendungsbeschleunigung vs. P100: Benchmark-Anwendung: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Schnelle Feinabstimmung], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64:10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Grafikprozessorknoten mit Dual-Sockel-CPUs mit 4x NVIDIA P100-, V100- oder A100-Grafikprozessoren.
Bis zu 1,8-mal höhere Leistung für HPC-Anwendungen
Quantum Espresso
Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.
LEISTUNGSSTARKE DATENANALYSE
Datenwissenschaftler müssen Daten analysieren, visualisieren und Erkenntnisse gewinnen. Lösungen für horizontale Skalierung funktionieren oft nicht, weil Daten auf mehreren Servern verteilt sind. NVIDIA's A100-Server beschleunigen Workloads durch Rechenleistung, enormen Arbeitsspeicher, Speicherbandbreite von 2 TB/s und Skalierbarkeit. Zusammen mit InfiniBand, NVIDIA Magnum IO und RAPIDS-Suite beschleunigt die NVIDIA-Rechenzentrumsplattform enorme Workloads mit unübertroffener Leistung und Effizienz. Die A100 liefert Erkenntnisse in einem Big-Data-Benchmark mit 83x höherem Durchsatz und 2x höherer Leistung als A100 40 GB und ist ideal für neue Workloads mit immensen Datensätzen.
Weitere Informationen zu Datenanalysen
Bis zu 83-mal schneller als die CPU, 2-mal schneller als A100 40 GB im Big-Data-Analyse-Benchmark
Big-Data-Analyse-Benchmark | 30 Analysehandelsabfragen, ETL, ML, NLP auf 10-TB-Datensatz | CPU: Intel Xeon Gold 6252 2,10 GHz, Hadoop | V100 32 GB, RAPIDS/Dask | A100 40 GB und A100 80 GB, RAPIDS/Dask/BlazingSQL
2X schneller als A100 40GB im Big Data Analytics Benchmark
Big data analytics benchmark | 30 analytical retail queries, ETL, ML, NLP on 10TB dataset | V100 32GB, RAPIDS/Dask | A100 40GB and A100 80GB, RAPIDS/Dask/BlazingSQL
UNTERNEHMENSFÄHIGE AUSLASTUNG
7-MAL HÖHERER INFERENZDURCHSATZ MIT MEHR-INSTANZEN-GRAFIKPROZESSOR (MIG)
BERT Große Inferenz
BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 mit Sparsity.
A100 mit MIG optimiert die Auslastung GPU-beschleunigter Infrastruktur. Mit MIG lässt sich eine A100-GPU in bis zu sieben unabhängige Instanzen partitionieren, sodass mehrere Nutzer zeitgleich von der GPU-Beschleunigung profitieren können. Beim A100 40 GB können jeder MIG-Instanz bis zu 5 GB zugeteilt werden, durch die erhöhte Speicherkapazität wird dies beim A100 80 GB auf 10 GB verdoppelt.
MIG arbeitet mit Kubernetes, Containern und hypervisorbasierter Servervirtualisierung. MIG ermöglicht es der Infrastrukturverwaltung, jeder Aufgabe eine maßgeschneiderte GPU mit garantierter Servicequalität (QoS) zuzuweisen, wodurch jeder Nutzer Zugang zu den beschleunigten Computing-Ressourcen erhält.
Weitere Informationen zu MIG
Transformieren Sie Ihre KI-Workloads mit der NVIDIA DGX A100
GPUS FÜR RECHENZENTREN
NVIDIA A100 FÜR HGX
NVIDIA A100 FÜR PCIE
TECHNISCHE DATEN
A100 80 GB PCIe | A100 80 GB SXM | |
---|---|---|
FP64 | 9,7 TFLOPS | 9,7 TFLOPS |
FP64-Tensor-Core | 19,5 TFLOPS | 19,5 TFLOPS |
FP32 | 19,5 TFLOPS | 19,5 TFLOPS |
Tensor Float 32 (TF32) | 156 TFLOPS | 312 TFLOPS* | 156 TFLOPS | 312 TFLOPS* |
BFLOAT16-Tensor-Recheneinheit | 312 TFLOPS | 624 TFLOPS* | 312 TFLOPS | 624 TFLOPS* |
FP16-Tensor-Recheneinheit | 312 TFLOPS | 624 TFLOPS* | 312 TFLOPS | 624 TFLOPS* |
INT8-Tensor-Recheneinheit | 624 TOPS | 1248 TOPS* | 624 TOPS | 1248 TOPS* |
GPU-Speicher | 80 GB HBM2e | 80 GB HBM2e |
GPU-Speicherbandbreite | 1.935 GB/s | 2.039 GB/s |
Max. Thermal Design Power (TDP) | 300 W | 400 W *** |
Mehr-Instanzen-GPU | Bis zu 7 MIGs mit 10 GB | Bis zu 7 MIGs mit 10 GB |
Formfaktor | PCIe - zwei Steckplätze mit Luftkühlung oder ein Steckplatz mit Flüssigkeitskühlung | SXM |
Zusammenschaltung | NVIDIA® NVLink®-Brücke für 2 Grafikprozessoren: 600 GB/s ** PCIe Gen4: 64 GB/s | NVLink: 600 GB/s PCIe Gen4: 64 GB/s |
Serveroptionen | NVIDIA-Certified Systeme™ mit 1-8 GPUs | NVIDIA HGX™ A100-Partner und NVIDIA-zertifizierte Systeme mit 4, 8 oder 16 GPUs NVIDIA DGX™ A100 mit 8 GPUs |
** SXM4-GPUs über HGX A100-Serverboards, PCIe-GPUs über NVLink-Brücke für bis zu zwei GPUs
*** 400 W TDP für die Standardkonfiguration. SKU für HGX A100-80-GB-Lösung mit individueller Kühlung (Custom Thermal Solution, CTS) kann TDPs bis zu 500 W unterstützen