SCHNELLERE KI. NIEDRIGERE KOSTEN.

Die KI-Revolution ist in vollem Gange und schafft neue Möglichkeiten für Unternehmen, den Umgang mit Kundenherausforderungen neu zu definieren. Es ist eine Zukunft, in der jede Kundeninteraktion, jedes Produkt und jedes Dienstangebot mit KI in Berührung kommt und dadurch verbessert wird.

GPUs haben sich bei der Lösung komplexester Probleme beim Deep Learning als erstaunlich effizient erwiesen und die Deep Learning-Plattform von NVIDIA ist derzeit die Standardtrainingslösung in der Branche.

Die Möglichkeiten der künstlichen Intelligenz (KI), jede Branche zu einer neuen Entwicklungsstufe zu verhelfen, sind größer denn je. Von über einer Milliarde Smart-City-Kameras, die für die öffentliche Sicherheit sorgen, über die mehr als 100 Milliarden Dollar, die jährlich durch Diebstähle im Einzelhandel verloren gehen, bis hin zu den 500 Millionen Anrufen pro Tag in Contact Centern. Die Nachfrage nach KI zur Erfüllung dieser Anforderungen ist enorm. Inferenzen sind der Schlüssel, um das Leben der Verbraucher angenehmer zu gestalten, Umsatzverluste zu verhindern und die betriebliche Effizienz auf dem Weg in eine KI-Wirtschaft zu steigern.
​​​​​​​
Die Entwicklung von Inferenzlösungen vom Konzept bis zur Bereitstellung ist jedoch nicht einfach. Viele einzelne und unterschiedliche Komponenten müssen harmonisch zusammenarbeiten, um eine erfolgreiche Inferenzbereitstellung zu erreichen. Zum Beispiel Modellauswahl, Anwendungseinschränkungen, Framework-Training und -Optimierung, Bereitstellungsstrategie, Prozessorziel sowie Orchestrierungs- und Management-Middleware. Das Fehlen eines einheitlichen Arbeitsablaufs für all diese Bereiche der Inferenzgleichung stellt für Unternehmen und Cloud-Service-Provider (CSPs) ein Hindernis dar, wenn es darum geht, den massiven Inferenzbedarf zu decken.


Die Inferenzplattform von NVIDIA bietet die Leistung, Effizienz und Reaktionsfähigkeit, die für die Bereitstellung von KI-Produkten und -Diensten der nächsten Generation entscheidend sind – in der Cloud, im Rechenzentrum, in der Netzwerkperipherie und in autonomen Maschinen.​​​​​​​
Nvidia Tensor Image

NUTZEN SIE DAS VOLLE POTENZIAL VON NVIDIA-GRAFIKPROZESSOREN MIT NVIDIA TENSORRT

TensorRT ist eine hochleistungsfähige Inferenzplattform, die entscheidend zum Ausschöpfen der Leistung von NVIDIA Tensor-Recheneinheiten beiträgt. Im Vergleich zu reinen CPU-Plattformen bietet es bis zu 40-mal mehr Durchsatz und minimiert die Latenz. Mit TensorRT können Sie von jedem Framework aus starten und trainierte neuronale Netzwerke schnell in der Produktion optimieren, validieren und bereitstellen.

EINFACHERE BEREITSTELLUNG DURCH DEN NVIDIA TRITON INFERENCE SERVER

Der NVIDIA Triton Inference Server, zuvor als TensorRT Inference Server bekannt, ist eine Open-Source-Software, die die Bereitstellung von Deep-Learning-Modellen in der Produktion vereinfacht. Mit dem Triton Inference Server können Teams trainierte KI-Modelle aus jedem Framework (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet oder benutzerdefiniert) aus dem lokalen Speicher, der Google Cloud-Plattform oder AWS S3 auf jeder GPU- oder CPU-basierten Infrastruktur bereitstellen. Der Triton Inference Server führt mehrere Modelle gleichzeitig auf einem einzelnen Grafikprozessor aus, um die Auslastung zu maximieren und ist für die Orchestrierung, Metriken und automatische Skalierung mit Kybernetes integriert.
Nvidia Triton Inference Server Image
Deep Learning Image

LEISTUNGSSTARKE, EINHEITLICHE UND SKALIERBARE DEEP-LEARNING-INFERENZ

Mit einer einzigen einheitlichen Architektur können neuronale Netzwerke auf jedem Deep-Learning-Framework trainiert, mit NVIDIA TensorRT  optimiert und dann für Echtzeitinferenzierung in der Peripherie eingesetzt werden. Mit NVIDIA DGX™ SystemsNVIDIA Tensor Core GPUsNVIDIA Jetson™  und NVIDIA DRIVE™, NVIDIA bietet eine durchgängige, vollständig skalierbare Plattform für Deep Learning, wie in der MLPerf-Benchmark-Suite zu sehen.


ENORME KOSTENEINSPARUNGEN

Um die maximale Produktivität von Servern zu gewährleisten, müssen Rechenzentrumsmanager sorgfältig zwischen Leistung und Effizienz abwägen. Ein einziger NVIDIA Tesla T4-Server kann mehrere handelsübliche CPU-Server für Deep-Learning-Inferenzanwendungen und -dienste ersetzen, den Energiebedarf senken und Einsparungen bei den Anschaffungs- und Betriebskosten ermöglichen.
Data Server Image
NVIDIA AI bietet einen kompletten End-to-End-Stack und eine Suite von Produkten und Services, um die Leistung, Effizienz und Reaktionsfähigkeit zu liefern, die für die nächste Generation von KI-Inferenz entscheidend sind - in der Cloud, im Rechenzentrum, am Netzwerkrand oder in eingebetteten Geräten. NVIDIA AI ist eine Kombination aus architektonischer Innovation, die speziell für die Beschleunigung von KI-Inferenz-Workloads entwickelt wurde, und einem durchgängigen Software-Stack, der für Datenwissenschaftler, Software-Entwickler und Infrastruktur-Ingenieure konzipiert wurde, die in verschiedenen Phasen des Prozesses von der Prototypenentwicklung bis zur Produktion involviert sind und über ein unterschiedliches Maß an KI-Know-how und Erfahrung verfügen. 

NVIDIAs Aktualisierungen des GPU-Produktportfolios und der Stack-Angebote, einschließlich TensoRT und Triton™ Inference Server, erweitern unsere Führungsposition im Bestreben, optimierte, durchgängige Inferenzlösungen für die Cloud, das Rechenzentrum und den Edge-Bereich anzubieten.

​​​​​​​Der NVIDIA AI Solution Stack und die Updates umfassen:

NVIDIA Train, Adapt, and Optimize (TAO), eine Zero-Code-Lösung für die Erstellung von KI-Modellen. Mit einer Benutzeroberfläche und einem geführten Arbeitsablauf ermöglicht TAO Entwicklern das Trainieren, Anpassen und Optimieren von vortrainierten KI-Modellen für Computer Vision und Konversation für ihren Anwendungsfall in einem Bruchteil der Zeit, mit nur wenigen Klicks und ohne KI-Expertise oder große Datensätze.
​​​​​​​
NVIDIA TensorRT, ein SDK für leistungsstarke Deep-Learning-Inferenz, das einen Inferenz-Optimierer und eine Laufzeitumgebung umfasst und es KI-Entwicklern ermöglicht, trainierte Modelle aus allen wichtigen Deep-Learning-Frameworks zu importieren und für den Einsatz in der Cloud, im Rechenzentrum und im Edge-Bereich zu optimieren. Die neueste Version 8.2 enthält neue Optimierungen für die Ausführung von Sprachmodellen mit Milliarden von Parametern, wie T5 und GPT, in Echtzeit, sowie die Integration mit PyTorch und TensorFlow. Mit dieser Integration können Millionen von Entwicklern mit nur einer Zeile Code eine dreifach schnellere Inferenzleistung erzielen. 

NVIDIA Triton Inference Server, der die Bereitstellung von KI-Modellen im Produktionsmaßstab vereinfacht. Als Open-Source-Software für Inferenzen ermöglicht Triton Inference Server Teams die Bereitstellung von trainierten KI-Modellen aus jedem Framework auf lokalem Speicher oder einer Cloud-Plattform unter Verwendung einer beliebigen GPU- oder CPU-basierten Infrastruktur (Cloud, Rechenzentrum oder Edge).  Die neueste Triton-Version enthält die folgenden Verbesserungen, um die Inferenzleistung mit NVIDIA AI weiter zu optimieren:
​​​​​​​
Der Model Analyzer hilft bei der Ermittlung der optimalen Parameter für die Modellausführung (Genauigkeit, Stapelgröße, Anzahl der gleichzeitigen Modellinstanzen und Client-Anfragen) bei gegebenen Latenz-, Durchsatz- und Speicherbeschränkungen.
​​​​​​​
  • Unterstützung der RAPIDS Forest Inference Library (FIL) Backend zur Ausführung von Inferenzen auf baumbasierten Modellen (Gradient Boosted Decision Trees und Random Forests).
  • Unterstützung für verteilte Inferenz mit mehreren GPUs und Knoten für Riesen-Transformer-basierte Sprachmodelle wie GPT-3.
  • Verfügbarkeit in Amazon SageMaker, sodass Triton für den Einsatz von Modellen in der SageMaker AI-Plattform verwendet werden kann. Triton ist jetzt auch in allen wichtigen Cloud-Plattformen verfügbar.
Mit NVIDIA-zertifizierten Systemen können Unternehmen Hardware-Lösungen einsetzen, die ihre modernen beschleunigten Workloads und NVIDIA AI sicher und optimal ausführen. Sie vereinen NVIDIA-GPUs und NVIDIA-Netzwerke in Servern von führenden NVIDIA-Partnern in validierten, optimierten Konfigurationen. Diese Server sind in Bezug auf Leistung, Verwaltbarkeit, Sicherheit und Skalierbarkeit validiert und werden von NVIDIA und unseren Partnern mit Support in Unternehmensqualität unterstützt. Die Zertifizierung umfasst nun zwei neue Kategorien für Edge-Systeme: Enterprise Edge für Server in kontrollierten Umgebungen und Industrial Edge für Systeme in industriellen oder rauen Umgebungen. Mit einem NVIDIA-zertifizierten System können sich Unternehmen vertrauensvoll für GPU-beschleunigte Lösungen entscheiden, um ihre Inferenz-Workloads zu betreiben, ganz gleich, wo sie ausgeführt werden.
VR Demo Image
NVIDIA AI Enterprise ist eine durchgängige, Cloud-native Suite von KI- und Data-Science-Tools und -Frameworks, die von NVIDIA optimiert und exklusiv für den Betrieb auf VMware vSphere mit Mainstream-NVIDIA-zertifizierten Systemen zertifiziert wurde. NVIDIA AI Enterprise, lizenziert und unterstützt von NVIDIA, umfasst wichtige Technologien und Software von NVIDIA für die schnelle Bereitstellung, Verwaltung und Skalierung von KI- und Inferenz-Workloads in der modernen Hybrid-Cloud. Das NVIDIA TensorRT SDK und der Triton Inference Server sind beide als Teil der NVIDIA AI Enterprise Suite erhältlich.
Nvidia Ai End to End Image

VOLLSTÄNDIGES INFERENZ-PORTFOLIO

NVIDIA bietet ein komplettes Portfolio von NVIDIA-zertifizierten Systemen mit Ampere und Hopper Tensor Core GPUs als Inferenz-Engine für NVIDIA AI. Die Einführung der A2 Tensor Core GPUs erweitert das NVIDIA AI Portfolio, das bereits die H100A100 und A30 Tensor Core GPUs umfasst, um eine Inferenz-Engine der Einstiegsklasse in einem Low-Profile-Formfaktor. Mit einer geringen Leistungsaufnahme von bis zu 40 W passt A2 in jeden Server und ist damit ideal für Far-Edge-Server geeignet. Der A100 bietet die höchste Inferenzleistung in jeder Größenordnung für rechenintensive Anwendungen und der A30 eine optimale Inferenzleistung für Mainstream-Server. NVIDIA-zertifizierte Systeme mit den NVIDIA H100-, A100-, A30- und A2-Tensor-Core-GPUs bieten führende Inferenzleistung in der Cloud, im Rechenzentrum und im Edge-Bereich und stellen sicher, dass KI-fähige Anwendungen mit weniger Servern und weniger Stromverbrauch bereitgestellt werden können, was zu schnelleren Erkenntnissen bei deutlich geringeren Kosten führt.

INFERENZLÖSUNGEN

Rechenzentrum

Selbstfahrende Autos

Intelligente Videoanalysen

Eingebettete Systeme