SCHNELLERE KI. NIEDRIGERE KOSTEN.

Die Nachfrage nach zunehmend ausgefeilten KI-fähigen Diensten wie Bild- und Spracherkennung, Verarbeitung natürlicher Sprache, visueller Suche und personalisierten Empfehlungen steigt explosionsartig an. Gleichzeitig werden die Datensätze größer, die Netzwerke komplexer und die Latenzanforderungen werden strenger, um den Erwartungen der Benutzer zu entsprechen.

Die Inferenzplattform von NVIDIA bietet die Leistung, Effizienz und Reaktionsfähigkeit, die für die Bereitstellung von KI-Produkten und -Diensten der nächsten Generation entscheidend sind – in der Cloud, im Rechenzentrum,
in der Netzwerkperipherie und in autonomen Maschinen.

NUTZEN SIE DAS VOLLE POTENZIAL VON NVIDIA-GRAFIKPROZESSOREN MIT NVIDIA TENSORRT

TensorRT ist eine hochleistungsfähige Inferenzplattform, die entscheidend zum Ausschöpfen der Leistung von NVIDIA Tensor-Recheneinheiten beiträgt. Im Vergleich zu reinen CPU-Plattformen bietet es bis zu 40-mal mehr Durchsatz und minimiert die Latenz. Mit TensorRT können Sie von jedem Framework aus starten und trainierte neuronale Netzwerke schnell in der Produktion optimieren, validieren und bereitstellen.

LEISTUNGSSTARKE, EINHEITLICHE UND
​​​​​​​SKALIERBARE DEEP-LEARNING-INFERENZ

Mit einer einzigen einheitlichen Architektur können neuronale Netzwerke auf jedem Deep-Learning-Framework trainiert, mit NVIDIA TensorRT  optimiert und dann für Echtzeitinferenzierung in der Peripherie eingesetzt werden. Mit NVIDIA DGX™ Systems , NVIDIA Tensor Core GPUs , NVIDIA Jetson™  und NVIDIA DRIVE™, NVIDIA bietet eine durchgängige, vollständig skalierbare Plattform für Deep Learning, wie in der MLPerf-Benchmark-Suite zu sehen.

EINFACHERE BEREITSTELLUNG DURCH DEN NVIDIA TRITON INFERENCE SERVER

Der NVIDIA Triton Inference Server, zuvor als TensorRT Inference Server bekannt, ist eine Open-Source-Software, die die Bereitstellung von Deep-Learning-Modellen in der Produktion vereinfacht. Mit dem Triton Inference Server können Teams trainierte KI-Modelle aus jedem Framework (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet oder benutzerdefiniert) aus dem lokalen Speicher, der Google Cloud-Plattform oder AWS S3 auf jeder GPU- oder CPU-basierten Infrastruktur bereitstellen. Der Triton Inference Server führt mehrere Modelle gleichzeitig auf einem einzelnen Grafikprozessor aus, um die Auslastung zu maximieren, und ist für Orchestrierung, Metriken und automatische Skalierung mit Kybernetes integriert.

ENORME KOSTENEINSPARUNGEN

Um die maximale Produktivität von Servern zu gewährleisten, müssen Rechenzentrumsmanager sorgfältig zwischen Leistung und Effizienz abwägen. Ein einziger NVIDIA Tesla T4-Server kann mehrere handelsübliche CPU-Server für Deep-Learning-Inferenzanwendungen und -dienste ersetzen, den Energiebedarf senken und Einsparungen bei den Anschaffungs- und Betriebskosten ermöglichen.​​​​​​​