Systeme und Informatikanwendungen Nikisch GmbHsysGen GmbH - Am Hallacker 48a - 28327 Bremen - info@sysgen.de

Willkommen auf der neuen Website von sysGen. Bitte nutzen Sie unser Kontaktformular falls Sie Fragen zu unseren Inhalten haben.

KEYNOTE NOVEMBER 9 CONFERENCE & TRAINING NOVEMBER 8-11,2021ZUR ANMELDUNG
Aufgrund der sich ausweitenden Chipkrise und den daraus resultierenden, deutlichen Preiserhöhungen großer IT-Hersteller sind aktuelle Online-Preiskalkulationen derzeit nicht möglich. Wir weisen daher darauf hin, dass Preisanfragen über unsere Website vom endgültigen Angebot abweichen können!

NVIDIA A100

Beschleunigung der wichtigsten arbeit unserer zeit

Der NVIDIA A100 Tensor Core Grafikprozessor bietet beispiellose Beschleunigung in jedem Maßstab für KI, Datenanalyse und High-Performance-Computing (HPC), um die schwierigsten Rechenherausforderungen der Welt zu bewältigen. Als Motor der NVIDIA-Rechenzentrumsplattform kann der A100 effizient auf Tausende von GPUs skaliert oder mit der NVIDIA Multi-Instance GPU (MIG)-Technologie in sieben GPU-Instanzen partitioniert werden, um Workloads jeder Größe zu beschleunigen. Und die Tensor Cores der dritten Generation beschleunigen jede Präzision für verschiedenste Workloads und verkürzen die Zeit bis zur Erkenntnis und die Zeit bis zur Markteinführung.

die leistungsfähigste end-to-end KI und HPC rechenzentrumsplattform

A100 ist Teil der kompletten NVIDIA-Rechenzentrumslösung, die Bausteine für Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und -Anwendungen von NGC™ umfasst. Die leistungsstärkste End-to-End-KI- und HPC-Plattform für Rechenzentren ermöglicht es Forschern, reale Ergebnisse zu liefern und Lösungen in der Produktion in großem Umfang einzusetzen.

spezifikation

NVIDIA A100 für NVLink
Peak FP64
9.7 TF
Peak FP64
Tensor Core 19.5 TF
Peak FP32
19.5 TF
Peak FP32
Tensor Core 156 TF | 312 TF*
Peak BFLOAT16
Tensor Core 312 TF | 624 TF*
Peak FP16
Tensor Core 312 TF | 624 TF*
Peak INT8
Tensor Core 624 TOPS | 1,248 TOPS*
Peak INT4
Tensor Core 1,248 TOPS | 2,496 TOPS*
GPU Memory
40 GB
GPU Memory
Bandwidth 1,555 GB/s
IInterconnect
NVIDIA NVLink 600 GB/s
PCIe Gen4
64 GB/s
Multi-instance GPUs
Various instance sizes with up to 7MIGs @5GB
Form Factor
4/8 SXM on NVIDIA HGX™ A100
Max TDP
Power 400W
* Mit Sparsamkeit

BIS ZU 6X HÖHERE LEISTUNG MIT TF32 FÜR KI-TRAINING

BERT pre-training throughput using Pytorch, including (2/3) Phase 1 and (1/3) Phase 2 | Phase 1 Seq Len = 128, Phase 2 Seq Len = 512; V100: NVIDIA DGX-1™ server with 8x V100 using FP32 precision; A100: DGX A100 Server with 8x A100 using TF32 precision. ​

DEEP LEARNING TRAINING

KI-Modelle werden immer komplexer, da sie sich den nächsten Herausforderungen stellen, wie z. B. akkurate Konversations-KI und tiefgehende Empfehlungssysteme. Das Training dieser Modelle erfordert massive Rechenleistung und Skalierbarkeit.

Die NVIDIA A100 Tensor Cores der dritten Generation mit Tensor Float (TF32) Präzision bieten eine bis zu 20-fach höhere Leistung als die Vorgängergeneration ohne Code-Änderungen und eine zusätzliche 2-fache Steigerung mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA® NVLink® der dritten Generation, NVIDIA NVSwitch™, PCI Gen4, NVIDIA Mellanox InfiniBand und dem NVIDIA Magnum IO™ Software SDK ist eine Skalierung auf Tausende von A100 GPUs möglich. Das bedeutet, dass große KI-Modelle wie BERT in nur 37 Minuten auf einem Cluster von 1.024 A100 trainiert werden können, was eine noch nie dagewesene Leistung und Skalierbarkeit bietet.

Die führende Rolle von NVIDIA beim Training wurde in MLPerf 0.6, dem ersten branchenweiten Benchmark für KI-Training, demonstriert.

DEEP LEARNINGNVIDIA DEVELOPER BLOG A100 TENSOR CORE GPU

DEEP LEARNING INFERENZ

Der A100 bietet bahnbrechende neue Funktionen zur Optimierung von Inferenz-Workloads. Er bietet eine noch nie dagewesene Vielseitigkeit durch die Beschleunigung einer ganzen Reihe von Genauigkeiten, von FP32 über FP16 und INT8 bis hinunter zu INT4. Die Multi-Instance GPU (MIG)-Technologie ermöglicht den gleichzeitigen Betrieb mehrerer Netzwerke auf einem einzigen A100-GPU für eine optimale Nutzung der Rechenressourcen. Die strukturelle Sparsity-Unterstützung sorgt für eine bis zu 2-fache Leistungssteigerung, zusätzlich zu den anderen Leistungssteigerungen der A100 Inferenz.

NVIDIA liefert bereits jetzt eine marktführende Inferenzleistung, wie der erste branchenweite Benchmark für Inferenz, MLPerf Inference 0.5, gezeigt hat. Der A100 bringt die 20-fache Leistung, um diese Führung weiter auszubauen.

MEHR ÜBER DEEP LEARNING INFERENZ

BIS ZU 7X HÖHERE LEISTUNG MIT MULTI-INSTANZ-GPU (MIG) FÜR KI-INFERENZ

BERT Large Inference | NVIDIA T4 Tensor Core GPU: NVIDIA TensorRT™ (TRT) 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 7 MIG instances of 1g.5gb: pre-production TRT, batch size = 94, precision = INT8 with sparsity.

9X MEHR HPC-LEISTUNG IN 4 JAHREN

Geometric mean of application speedups vs. P100: benchmark application: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], | GPU node with dual-socket CPUs with 4x NVIDIA P100, V100, or A100 GPUs.​

HOCHLEISTUNGSRECHNEN (HPC)

Um Entdeckungen der nächsten Generation zu ermöglichen, suchen Wissenschaftler nach Simulationen, um komplexe Moleküle für die Medikamentenentwicklung besser zu verstehen, die Physik für potenzielle neue Energiequellen und atmosphärische Daten, um extreme Wettermuster besser vorhersagen und sich darauf vorbereiten zu können.

Der A100 führt Tensor Cores mit doppelter Genauigkeit ein und stellt damit den größten Meilenstein seit der Einführung des Double-Precision-Computings in GPUs für HPC dar. Damit können Forscher eine 10-stündige Double-Precision-Simulation, die auf NVIDIA V100 Tensor Core GPUs läuft, auf nur vier Stunden auf dem A100 reduzieren. HPC-Anwendungen können auch die TF32-Präzision in den Tensor Cores des A100 nutzen, um einen bis zu 10-fach höheren Durchsatz für einfachpräzise dichte Matrix-Multiplikationsoperationen zu erreichen.

MEHR ÜBER HPC

HOCHLEISTUNGS-DATENANALYTIK

Kunden müssen in der Lage sein, riesige Datenmengen zu analysieren, zu visualisieren und in Erkenntnisse umzuwandeln. Aber Scale-Out-Lösungen geraten oft ins Stocken, da diese Datensätze über mehrere Server verstreut sind.

Beschleunigte Server mit A100 bieten die erforderliche Rechenleistung - zusammen mit 1,6 Terabyte pro Sekunde (TB/s) Speicherbandbreite und Skalierbarkeit mit NVLink und NVSwitch der dritten Generation - um diese massiven Workloads zu bewältigen. In Kombination mit NVIDIA Mellanox InfiniBand, dem Magnum IO SDK und den Open-Source-Softwarebibliotheken der RAPIDS-Suite, einschließlich des RAPIDS Accelerator for Apache Spark für GPU-beschleunigte Datenanalysen, ist die NVIDIA-Rechenzentrumsplattform einzigartig in der Lage, diese riesigen Workloads mit noch nie dagewesener Leistung und Effizienz zu beschleunigen.

MEHR ÜBER DATENANALYTIK

7X HÖHERER INFERENZDURCHSATZ MIT MULTI-INSTANZ-GPU (MIG)

 

BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 with sparsity.​
 

UNTERNEHMENSGERECHTE NUTZUNG

A100 mit MIG maximiert die Nutzung der GPU-beschleunigten Infrastruktur wie nie zuvor. Mit MIG kann ein A100-Grafikprozessor in bis zu sieben unabhängige Instanzen partitioniert werden, sodass mehrere Benutzer Zugriff auf die GPU-Beschleunigung für ihre Anwendungen und Entwicklungsprojekte erhalten. MIG arbeitet mit Kubernetes, Containern und Hypervisor-basierter Servervirtualisierung mit NVIDIA Virtual Compute Server (vComputeServer). MIG ermöglicht es Infrastrukturmanagern, für jeden Job eine richtig dimensionierte GPU mit garantierter Servicequalität (QoS) anzubieten, die Auslastung zu optimieren und die Reichweite der beschleunigten Rechenressourcen auf jeden Benutzer auszuweiten.