Willkommen auf der neuen Website von sysGen. Bitte nutzen Sie unser Kontaktformular falls Sie Fragen zu unseren Inhalten haben.

Achtung: Aufgrund ständiger Preiserhöhungen aller Hersteller ist eine aktuelle Preiskalkulation online derzeit nicht möglich. Daher möchten wir darauf hinweisen, dass alle Preise bei Anfragen über unsere Website vom endgültigen Angebot abweichen können!

Die universellen Systeme für die KI-Infrastruktur

Das universelle System für die KI-Infrastruktur

NVIDIA-certified systems von Supermicro & Gigabyte

Die NVIDIA A100 Tensor Core-GPU bietet nie dagewesene Beschleunigung in jeder Größenordnung für die weltweit leistungsstärksten elastischen Rechenzentren in den Bereichen KI, Datenanalysen und HPC. A100 basiert auf der NVIDIA Ampere-Architektur und ist die treibende Kraft der Rechenzentrumsplattform von NVIDIA. A100 bietet eine bis zu 20-mal höhere Leistung gegenüber der Vorgängergeneration und lässt sich in sieben Grafikprozessorinstanzen partitionieren, um sich dynamisch an veränderliche Anforderungen anzupassen. A100 ist in Versionen mit 40 GB und 80 GB Arbeitsspeicher erhältlich. Die A100 80 GB verwendet erstmals die höchste Speicherbandbreite der Welt mit über 2 Terabyte pro Sekunde (TB/s), um auch die größten Modelle und Datensätze zu bewältigen. 


A100 PCIE Product Kurzübersicht (PDF 332 KB)
​​​​​​​

NVIDIA A100 Datenblatt (PDF 867 KB)

Die leistungsstärkste End-to-End Plattform für KI und HPC im Rechenzentrum

NVIDIA DGX A100

A100 ist Teil des kompletten NVIDIA-Lösungs-Stacks für Rechenzentren, der Bausteine für Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und -Anwendungen von NGC™ umfasst. Sie repräsentiert die leistungsstärkste End-to-End-KI- und HPC-Plattform für Rechenzentren und ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen in der entsprechenden Größenordnung bereitzustellen.

DEEP LEARNING TRAINING

Bis zu 3-mal schnelleres KI-Training bei den größten Modellen

DLRM-Training
DLRM auf HugeCTR-Framework, Präzision = FP16 | NVIDIA A100 80 GB Batchgröße = 48 | NVIDIA A100 40 GB Batchgröße = 32 | NVIDIA V100 32 GB Batchgröße = 32. 

Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Ihr Training erfordert enorme Rechenleistung und Skalierbarkeit.

Die Tensor Cores NVIDIA A100 mit Tensor Float (TF32)-Präzision bieten bis zu 20-mal mehr Leistung gegenüber NVIDIA Volta, erfordern dafür keine Code-Änderungen und bieten einen zusätzlichen 2-fachen Boost mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® Mellanox® InfiniBand® und dem NVIDIA Magnum IO™-SDK ist die Skalierung auf Tausende A100-Grafik-prozessoren möglich.

Trainings-Workloads wie BERT können in großem Maßstab mit 2.048 A100-GPUs in unter einer Minute gelöst werden, was einen Weltrekord in der Lösungszeit darstellt.

Bei den größten Modelle mit massiven Datentabellen wie Deep Learning-Empfehlungsmodellen (DLRM) erreicht die A100 80 GB bis zu 1,3 TB vereinheitlichten Arbeitsspeicher pro Knoten und bietet bis zu 3-mal mehr Durchsatz als die A100 40 GB.

Die Führungsrolle von NVIDIA in MLPerf wurde durch mehrere Leistungs-rekorde bei KI-Trainings-Benchmarks in der ganzen Branche gefestigt.


ERFAHREN SIE MEHR ÜBER A100 FÜR DAS TRAINING

INFERENZ FÜR DEEP LEARNING

Mit der A100 werden bahnbrechende Funktionen zur Optimierung von Inferenzworkloads eingeführt. Sie beschleunigt ein breites Spektrum von Präzisionen, von FP32 bis INT4. Durch die Mehr-Instanzen-Grafikprozessor-Technologie (MIG) können mehrere Netzwerke gleichzeitig auf einer einzelnen A100-GPU ausgeführt werden, um die Rechenressourcen optimal zu nutzen. Zusätzlich zu den anderen Inferenzleistungssteigerungen der A100 bietet die strukturelle geringe Dichte bis zu 2-mal mehr Leistung.

Für hochmoderne Konversations-KI-Modelle wie BERT bietet die A100 einen bis zu 249-mal schnelleren Inferenzdurchsatz gegenüber CPUs.

Bei den komplexesten Modellen mit beschränkten Batchgrößen, wie RNN-T für automatische Spracherkennung, verdoppelt die erhöhte Speicherkapazität der A100 80GB die Größe jeder MIG und liefert so einen 1,25-mal größeren Durchsatz als die A100 40 GB.

NVIDIA bewies marktführende Leistung bei der Inferenz in MLPerf. Die A100 baut diese Führung mit 20-mal mehr Leistung weiter aus.


ERFAHREN SIE MEHR ÜBER A100 FÜR INFERENZ
​​​​​​​Bis zu 249-mal höhere Leistung bei KI-Inferenz gegenüber CPUs
​​​​​​​

BERT-LARGE-Inferenz
BERT-Large-Inferenz | Nur CPU: Dual Xeon Gold 6240 bei 2,60 GHz, Präzision = FP32, Batchgröße = 128 | V100: NVIDIA TensorRT™ (TRT) 7,2, Präzision = INT8, Batchgröße = 256 | A100 40 GB und 80GB, Batchgröße = 256, Präzision = INT8 mit geringer Dichte.
Bis zu 1,25-mal höhere Leistung bei KI-Inferenz
gegenüber A100 40 GB
RNN-T-Inferenz: Single Stream
MLPerf 0.7 RNN-T gemessen mit (1/7) MIG-Instanzen. Framework: TensorRT 7.2, Datensatz = librispeech, Präzision = FP16. ​

HIGH-PERFORMANCE COMPUTING

Um die nächste Generation der Entdeckungen zu erschließen, betrachten Wissenschaftler Simulationen, um die Welt um uns besser zu verstehen.

NVIDIA A100 führt Tensor Cores mit doppelter Präzision ein und stellt somit den größten Leistungssprung für HPC seit der Einführung von GPUs dar. In Kombination mit 80 GB des schnellsten Grafikspeichers können Forscher eine vormals 10-stündige, Simulation auf A100 mit doppelter Präzision auf weniger als vier Stunden verkürzen. HPC-Anwendungen können zudem TF32 nutzen und erreichen so einen bis zu 11-mal höheren Durchsatz bei dichten Matrixmultiplikationsaufgaben mit einfacher Genauigkeit.

Für jene HPC-Anwendungen mit den größten Datensätzen bietet der zusätzliche Speicherplatz der A100 80 GB eine bis zu 2-fache Steigerung des Durchsatzes in Quantum Espresso, einer Materialsimulation. Der enorme Arbeitsspeicher und die unübertroffene Speicherbandbreite machen die A100 80 GB zur idealen Plattform für Workloads der nächsten Generation.


ERFAHREN SIE MEHR ÜBER A100 FÜR HPC
11-mal mehr Leistung bei HPC in vier Jahren
Führende HPC-Anwendungen
Geometrisches Mittel der Anwendungsbeschleunigung vs. P100: Benchmark-Anwendung: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Schnelle Feinabstimmung], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64:10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Grafikprozessorknoten mit Dual-Sockel-CPUs mit 4x NVIDIA P100-, V100- oder A100-Grafikprozessoren.
Bis zu 1,8-mal höhere Leistung für HPC-Anwendungen
Quantum Espresso
Quantum Espresso-Messung mit CNT10POR8-Datensatz, Präzision = FP64.

LEISTUNGSSTARKE DATENANALYSE

Bis zu 83-mal schneller als auf CPU, 2-mal schneller als A100 40 GB im Big Data Analytics-Benchmark

Big Data Analytics-Benchmark | 30 Analytical Retail Queries, ETL, ML, NLP auf 10-TB-Datensatz | CPU: Intel Xeon Gold 6252 2,10 GHz, Hadoop | V100 32 GB, RAPIDS/Dask | A100 40 GB und A100 80 GB, RAPIDS/Dask/BlazingSQL

Datenwissenschaftler müssen dazu in der Lage sein, umfangreiche Datensätze zu analysieren, zu visualisieren und Erkenntnisse aus ihnen zu gewinnen. Skalierungslösungen werden jedoch oft davon ausgebremst, dass Datensätze auf mehrere Server verteilt sind.

Beschleunigte Server mit A100 liefern die nötige Rechenleistung – zusammen mit gewaltigem Arbeitsspeicher, einer Speicherbandbreite von 2 Terabyte pro Sekunde (TB/s) sowie Skalierbarkeit über NVIDIA® NVLink® und NVSwitch™ – um diese gewaltigen Workloads zu bewältigen. In Kombination mit InfiniBand, NVIDIA Magnum IO™ und der RAPIDS™-Suite an Open-Source-Bibliotheken, einschließlich des RAPIDS Accelerator für Apache Spark für GPU-beschleunigte Datenanalysen, beschleunigt die Rechenzentrumsplattform von NVIDIA diese enormen Workloads mit unübertroffener Leistung und Effizienz.

In einem großen Datenanalyse-Benchmark erzielte die A100 80 GB mit 83-mal höherem Durchsatz Erkenntnisse als CPUs und 2-fach höhere Leistung als die A100 40 GB, womit sie ideal für zunehmende Workloads mit stetig wachsenden Datensätzen ist.


WEITERE INFORMATIONEN ZU DATENANALYSEN

UNTERNEHMENSFÄHIGE AUSLASTUNG

7-mal höherer Inferenz-Durchsatz mit Mehr-Instanzen-Grafikprozessor (MIG)

BERT-Large-Inferenz

BERT Schnelle Inferenz | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor-Core-GPU: TRT 7.1, Genauigkeit = INT8, Losgröße = 256 | V100: TRT 7.1, Genauigkeit = FP16, Losgröße = 256 | A100 mit 1 oder 7 MIG-Instanzen von 1 G, 5 GB: Losgröße = 94, Genauigkeit = INT8 mit geringer Dichte.

A100 mit MIG optimiert die Auslastung GPU-beschleunigter Infrastruktur. Mit MIG lässt sich eine A100-GPU in bis zu sieben unabhängige Instanzen partitionieren, sodass mehrere Nutzer zeitgleich GPU-Beschleunigung nutzen können. Bei der A100 40 GB können jeder MIG-Instanz bis zu 5 GB zugeteilt werden, durch die erhöhte Speicherkapazität wird dies bei der A100 80 GB auf 10 GB verdoppelt.

MIG arbeitet mit Kubernetes, Containern und hypervisorbasierter Servervirtualisierung. MIG ermöglicht es der Infrastrukturverwaltung, jeder Aufgabe eine maßgeschneiderte GPU mit garantierter Servicequalität (QoS) zuzuweisen, wodurch jeder Nutzer Zugang zu den beschleunigten Computing Ressourcen erhält.
​​​​​​​

MEHR INFORMATIONEN ZU MIG

NVIDIA, SUPERMICRO & Gigabyte holen das Beste aus Ihren Systemen heraus

Ein von NVIDIA zertifiziertes System, bestehend aus A100 und NVIDIA Mellanox SmartnNICs und Grafikprozessoren wird für Leistung, Funktionalität, Skalierbarkeit und Sicherheit validiert, sodass Unternehmen Komplettlösungen für die Verwendung von KI aus dem NVIDIA NGC-Katalog problemlos implementieren können.

Holen Sie das Beste aus Ihren Systemen mit unseren Empfehlungen von Supermicro und Gigabyte heraus.
​​​​​​​Hier ist für jede Last und für jedes Budget das Richtige dabei:

NVIDIA DGX A100

Das universelle System für die KI-Infrastruktur

DAS WELTWEIT ERSTE KI-SYSTEM AUF BASIS VON NVIDIA A100

NVIDIA DGX™ A100 ist das universelle System für alle KI-Workloads und bietet beispiellose Rechendichte, Leistung und Flexibilität im weltweit ersten 5 petaFLOPS KI-System. NVIDIA DGX A100 verfügt über den weltweit fortschrittlichsten Beschleuniger, den NVIDIA A100 Tensor Core-Grafikprozessor, mit dem Unternehmen Schulungen, Inferenz und Analysen in einer einheitlichen, einfach zu implementierenden KI-Infrastruktur mit direktem Kontakt zu NVIDIA KI-Experten konsolidieren können.

Mehr erfahren

Video ansehenDatenblatt herunterladenBrochure herunterladen

NVIDIA DGX STATION A100

Arbeitsgruppen-Appliance für das KI-Zeitalter

KI-RECHENZENTRUM-IN-A-BOX

Datenwissenschaftsteams sind zwar in Sachen Innovation führend, aber auch häufig auf der Suche nach verfügbaren KI-Rechenressourcen, um ihre Projekte abzuschließen. Sie benötigen eine dedizierte Ressource, die sich überall an eine Steckdose anschließen lässt und maximale Leistung für mehrere, weltweit simultan arbeitende Nutzer bietet. NVIDIA DGX Station™ A100 bietet KI-Supercomputing für Datenwissenschaftsteams, indem sie die Leistung eines Rechenzentrums ohne Rechenzentrum oder zusätzliche IT-Infrastruktur realisiert. Leistungsstarke Performance, ein vollständig optimierter Software-Stack und direkter Zugriff auf NVIDIA DGXperts liefern schnellere Erkenntnisse.

Mehr erfahren

Infografik herunterladenDatenblatt herunterladen

GPUs FÜR RECHENZENTREN

NVIDIA A100 für HGX

Ultimative Leistung für alle Workloads.

NVIDIA A100 für PCIe

Höchste Vielseitigkeit für alle Workloads.

TECHNISCHE DATEN

NVIDIA A100 für NVLink
NVIDIA A100 für PCIe
Peak FP64
9.7 TF
9.7 TF
Peak FP64 Tensor Core
19.5 TF
19.5 TF
Peak FP32
19.5 TF
19.5 TF
Tensor Float 32 (TF32)
156 TF | 312 TF*
156 TF | 312 TF*
Peak BFLOAT16 Tensor Core
312 TF | 624 TF*
312 TF | 624 TF*
Peak FP16 Tensor Core
312 TF | 624 TF*
312 TF | 624 TF*
Peak INT8 Tensor Core
624 TOPS | 1.248 TOPS *
624 TOPS | 1.248 TOPS *
Peak INT4 Tensor Core
1.248 TOPS | 2.496 TOPS *
1.248 TOPS | 2.496 TOPS *
Grafikprozessorspeicher
40GB / 80GB
40GB
GPU-Speicherbandbreite
1.555 GB/s / 2.039 GB/s
1.555 GB/s
Verbindungen
NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
Mehr-Instanzen-Grafikprozessor
Verschiedene Instanzgrößen mit bis zu 7 MIGs bei 10 GB
Verschiedene Instanzgrößen mit bis zu 7 MIGs bei 5 GB
Formfaktor
4/8 SXM auf NVIDIA HGX™ A100
PCIe
Max. TDP-Kraft
400 W / 400 W
250W
* Mit geringer Dichte
** SXM-Grafikprozessoren über HGX A100-Serverboards; PCIe-Grafikprozessoren über NVLink-Brücke für bis zu 2 Grafikprozessoren

Einblicke in die NVIDIA Ampere-Architektur

Erfahren Sie, was bei der NVIDIA Ampere-Architektur und ihrer Implementierung
​​​​​​​im NVIDIA A100-Grafikprozessor neu ist.

Whitepaper lesen