KÜNSTLICHE INTELLIGENZ BEFLÜGELT ALLE BEREICHE DER WIRTSCHAFT:
DEFINITION: KÜNSTLICHE INTELLIGENZ, MASCHINELLES LERNEN, DEEP LEARNING
Künstliche Intelligenz (KI) ist ein Teilgebiet der Informatik, das sich mit der Entwicklung von intelligenten Maschinen beschäftigt, die wie Menschen arbeiten und reagieren. Sie ist das große Projekt zur Bildung einer nicht-menschlichen Intelligenz. Wichtigste Bestandteile sind:
- Die Hauptaufgaben des maschinellen Lernens (traditionelles Computer Vision) sind Datenaufbereitung, Feature Engineering, Modellarchitektur und numerische Optimierung. Das Feature-Engineering nimmt fast 80 Prozent der Vorbereitungsarbeit ein.
- Deep Learning, ein Teil des Maschinellen Lernens, ist eine Sammlung von einfach zu trainierenden mathematischen Einheiten, die in Schichten organisiert sind und zusammenarbeiten, um komplizierte Aufgaben zu lösen. Neu sind die geschichtete Netzwerkarchitektur und eine skalierbare Trainingsmethode. DL lernt Merkmale direkt aus den Daten; explizites Feature Engineering ist nicht erforderlich. Es hat einen extrem hohen Genauigkeitsgrad erreicht, übertrifft die menschliche Leistung bei der Klassifizierung von Bildern, ermüdet nie und liefert Ergebnisse in einem Bruchteil der Zeit.
WIE MAN EINE ENTERPRISE DEEP LEARNING / HPC UMGEBUNG AUFBAUT
KI WORKFLOW UND SIZING, ALLES BEGINNT MIT DEN DATEN
Ein typischer AI/Deep Learning Entwicklungs-Workflow:

DER ARBEITSABLAUF WIRD WIE FOLGT BESCHRIEBEN:
- Data factory sammelt Rohdaten und enthält Werkzeuge zur Vorverarbeitung, Indizierung, Kennzeichnung und Verwaltung von Daten
- KI-Modelle werden mit gelabelten Daten mit einem DL-Framework aus dem NVIDIA GPU Cloud (NGC) Container-Repository trainiert, das auf Servern mit Volta Tensor Core GPUs läuft
- AI-Modelltest und -Validierung passt die Modellparameter nach Bedarf an und wiederholt das Training, bis die gewünschte Genauigkeit erreicht ist
- KI-Modelloptimierung für den Produktionseinsatz (Inferenz) wird mit dem NVIDIA TensorRT Optimierungs-Inferenzbeschleuniger abgeschlossen
HPC-WORKFLOW UND SIZING, ALLES BEGINNT MIT DEM DATENMODELL
Ein typischer HPC-Entwicklungs-Workflow:

DER ARBEITSABLAUF WIRD WIE FOLGT BESCHRIEBEN:
- Forschung und Modellentwicklung
- Datenerfassung und -bereinigung
- Programmierung und Test
- Ausführen unabhängiger Experimente
- Visualisierung, Anzeige Ihrer Ergebnisse
- Prüfen Sie Ihre Ergebnisse, wenn Sie Fehler entdecken, gehen Sie zu Schritt 1, ansonsten archivieren Sie Ihre Ergebnisse
WAS SIND DIE BAUSTEINE EINER ENTERPRISE DEEP LEARNING / HPC-UMGEBUNG?
Dem Workflow folgend, benötigen wir folgende Systemmodule:
- Storage-Systeme
- Speicher, der für Deep Learning und HPC gleichermaßen gut geeignet ist
- Da Supercomputing schreibintensiv und sequentiell im Zugriff ist und KI leseintensiv und zufallsorientiert im Zugriff ist, sind die von uns angebotenen Speichersysteme so konzipiert, dass sie sowohl HPC als auch KI bestmöglich unterstützen. Auf diese Weise vermeiden Sie doppelte Investitionen in Hardware, Speichersoftware und Schulungen.
- Speicher, der durch das Hinzufügen zusätzlicher Server oder JBODs (HDD) oder JBOFs (NVMe/SAS/SATA SSD) im laufenden Betrieb leicht erweiterbar ist.
- Speicher, der schnelle Betriebsdaten, archivierte Daten und extrem schnelle Datenspeicher unterstützt, die vorübergehend auf den lokalen NVMe-SSDs von Converged Computing- und Speicherservern montiert sind.
- Fehlertoleranter Storage, der den Verlust von Daten, kompletten HDD oder SSD oder kompletten Servern inklusive aller Daten auf deren RAID-Volumes kompensiert - und das mit Commodity-Servern und Shared-Nothing-Hardware.
- Weitere Informationen finden Sie im Storage-Teil dieses Papiers oder in unserem Web-Angebot.
- GPU-Rechen-Server
- GPU-Computing, das für Deep Learning und HPC gleichermaßen gut geeignet ist
Da DL-Modelle oft extrem viel Speicher benötigen, ist es sehr wichtig, dass die GPU-Karten so viel lokalen Speicher wie möglich haben. Aktuelle V100-GPU-Karten verfügen daher über 32 GB HBM2-Speicher. - HPC ist extrem rechenintensiv und erfordert modernste Grafikprozessoren. HPC ist extrem rechenintensiv und erfordert Grafikprozessoren auf dem neuesten Stand der Technik. Die Tensor-Cores der V100 können auch für HPC-Anwendungen genutzt werden.
- Weitere Informationen finden Sie im Teil GPU Computin g Teil dieses Papiers oder in unserem Webangebot.
- GPU-Computing, das für Deep Learning und HPC gleichermaßen gut geeignet ist
- Cluster-Netzwerk
- Setzen Sie die kosteneffektivsten Netzwerklösungen mit der fortschrittlichsten Interconnect-Technologie ein
Das Netzwerk verbindet alles miteinander und ermöglicht die Kommunikation zwischen allen Servern, Administratoren und Entwicklern, wodurch die Komponenten zu einem System werden. - Heutige DL/HPC-Anwendungen sind in hohem Maße auf Verbindungen mit hoher Bandbreite und geringer Latenz angewiesen. In den meisten Fällen sind die Cluster-Fabrics mit 40/100 Gbps FDR/EDR InfiniBand oder 40/100 Gbps Ethernet ausgestattet.
- Weitere Informationen finden Sie im GPU-Computing-Teil dieses Papiers oder in unserem Webangebot.
- Setzen Sie die kosteneffektivsten Netzwerklösungen mit der fortschrittlichsten Interconnect-Technologie ein
- Cluster-Verwaltungssoftware
- Cluster Management Software erweitert Ihr Rechenzentrum und entfesselt die unbegrenzte Kraft der Cloud.
- HPC ist extrem rechenintensiv und erfordert modernste Grafikprozessoren. HPC ist extrem rechenintensiv und erfordert Grafikprozessoren auf dem neuesten Stand der Technik. Die Tensor-Cores des V100 können auch für HPC-Anwendungen genutzt werden.
- Optimierter Software-Stack für GPU-Server
- NVIDIA verwendet einen optimierten Software-Stack für die gesamte Familie.
- Für Nicht-DGX-Server mit V100-GPUs wird ein ähnlicher Software-Stack von sysGen bereitgestellt.
- Weitere Informationen finden Sie auf der Registerkarte "Software Management" auf dieser Seite
- Verfügbare Deep-Learning-Lösungen und Frameworks
- Es gibt bereits mehrere brauchbare Lösungen wie z.B. DIGITS von NVIDIA.
- Für eigene Anwendungen stehen viele verschiedene Frameworks für unterschiedliche Programmiersprachen (C, C++, Python, Java, Scala, Matlab) zur Verfügung wie Tensor Flow, Caffe, PyTorch, Theano und Deeplearning4y.
- Weitere Informationen sind im Internet zu finden.
SYSGEN GPU-SERVER, PROFITIEREN SIE VON 20 JAHREN HPC ERFAHRUNG IN ENGER VERBINDUNG MIT FÜHRENDEN TECHNOLOGIEANBIETERN- SIE GEHEN NIE ALLEIN
GPU-BESCHLEUNIGTE SERVER FÜR HPC/DL WORKLOADS
WORAUF SIE ACHTEN MÜSSEN
Da DL-Modelle oft extrem viel Speicher benötigen, ist es sehr wichtig, dass die GPU-Karten so viel lokalen Speicher wie möglich haben. Daher verfügen aktuelle V100-GPU-Karten über 32 GB HBM2-Speicher.
In den allermeisten Fällen sind die Modellberechnungen auf 4 bis 16 GPU-Karten verteilt. Ein häufiger Abruf von neuen Daten aus dem Massenspeicher verlangsamt entsprechende Berechnungen erheblich. In vielen Fällen können die einzelnen GPU-Karten daher Daten direkt miteinander austauschen. Erfolgt der Datenaustausch über den PCIe-Bus, verlangsamt sich die Berechnung in geringerem Maße. Wichtig ist, dass alle GPU-Karten über eine einzige CPU verbunden sind. Man spricht dann von einem Single-Root-Komplex. Bis zu 10 GPU-Karten können über Single Root angeschlossen werden, eine sinnvolle Anzahl sind jedoch 8 GPU-Karten. Direkte NVLink-Verbindungen zwischen den GPU-Karten bieten eine starke Verbesserung im Vergleich zu einer PCIe-Verbindung. Ein einzelner NVIDIA Tesla® V100 Grafikprozessor unterstützt bis zu sechs NVLink-Verbindungen und eine Gesamtbandbreite von 300 GB/s - die 10-fache Bandbreite von PCIe Gen 3.
SYSTEME MIT HÖCHSTER LEISTUNG UND LEISTUNGSDICHTE:

SPEICHER FÜR HPC/DL-WORKLOADS, HÖCHSTE LEISTUNG, ZUVERLÄSSIGKEIT, FEHLERTOLERANZ UND EINFACHE ERWEITERBARKEIT
WARUM PURE STORAGE FLASHBLADE VERWENDEN?
Pure Storage FlashBlade ist eine extrem leistungsstarke, hochsichere Scale-out-Architektur für unstrukturierte Daten.
Bis zu 2x schneller als AFAs der vorherigen Generation und mit bis zu 3PB effektiv in 6U, bietet //X90 maximale Beschleunigung und Konsolidierung für alle Ihre Workloads. Es ist Ihr Enterprise-in-a-Box
Schauen Sie sich an, was Pure Storage für Sie tun kann:
Elastische Leistung, die mit den Daten wächst - bis zu 17 GB/s
Immer schnell, von kleinen, metadatenlastigen Workloads bis hin zu großen Streaming-Dateien
All-Flash-Leistung ohne Caching oder Tiering
Petabytes an Kapazität
10er-Milliarden Objekte und Dateien
"Tuned for Everything"-Design, keine manuellen Optimierungen erforderlich
Skalieren Sie alles sofort durch einfaches Hinzufügen von Blades
WARUM BEEGFS VERWENDEN?
BeeGFS verteilt die Benutzerdaten transparent über mehrere Server. Indem Sie die Anzahl der Server und Festplatten im System erhöhen, können Sie die Leistung und Kapazität des Dateisystems einfach auf das von Ihnen benötigte Niveau skalieren, nahtlos von kleinen Clustern bis hin zu Systemen der Enterprise-Klasse mit Tausenden von Knoten.
Schauen Sie sich an, was BeeGFS für Sie tun kann:
Verkürzen Sie die Zeit, um einen Einblick in Ihre Daten und Informationen vor Ort und in der Cloud zu erhalten
Cluster-Speichersysteme für High Performance Computing (HPC) und Deep Learning (DL)
Moderner Cluster-Speicher muss Workloads für HPC und DL gleichermaßen gut bewältigen
HPC-Computing ist schreibintensiv und sequentiell - KI ist eher leseintensiv und randomisiert
sysGen-Speichersysteme sind darauf ausgelegt, sowohl HPC als auch KI mit maximaler Performance zu unterstützen
BeeGFS läuft auf verschiedenen Plattformen, wie X86, OpenPower, ARM und mehr
SOFTWAREVERWALTUNG
Systementwickler unterschätzen oft den Installations- und Wartungsaufwand für komplexe Softwaresysteme. Zeitverluste, bis ein System einsatzbereit ist, und Leistungseinbußen durch schlechtes Tuning verursachen hohe Kosten und können auch die Einführung neuer Produkte verzögern. Oft wird auch der Wartungsaufwand für die Anpassung an die sich schnell entwickelnde Software-Innovation weit unterschätzt. Deshalb liefern wir unsere Systeme und Cluster auf Wunsch mit vorinstallierter Software aus. So können unsere HPC- und DL-Systeme oder Cluster direkt eingesetzt werden.
Für alle Systeme mit TESLA-GPU-Karten installieren wir kostenlos die NVIDIA GPU Cloud Software. Für NVIDIA DGX Systeme bieten wir NVIDIA Supportverträge für ein, zwei oder drei Jahre an. Für alle anderen Systeme bieten wir einen sysGen Update-Service für die NVIDIA GPU Cloud Software an. Sie können die Updates aber auch selbst durchführen.
NVIDIAS OPTIMIERTER SOFTWARE-STACK FÜR DIE GESAMTE DGX-FAMILIE
Ein Software-Stack für die ganze Familie:
- Ein einziger, vereinheitlichter Stack für Deep-Learning-Frameworks
- Vorhersagbare Ausführung auf allen Plattformen
- Das Protokoll der Wahl für Speichertechnologien der nächsten Generation
- Durchgängige Reichweite Unterstützung für RDMA over Converged Ethernet (ROCE)
CLUSTER-SYSTEME FÜR HPC UND DEEP LEARNING
Für HPC- und DL-Clustersysteme für den parallelen Mehrbenutzerbetrieb bieten wir folgende Lösungen an:
- sysGen Open Source HPC-Cluster
- Bright Enterprise HPC und DL Cluster Manager (siehe unten)
BRIGHT CLUSTER MANAGER ERWEITERT IHR RECHENZENTRUM UND ENTFESSELT DIE UNBEGRENZTE KRAFT DER CLOUD
SYSGEN UNTERSTÜTZT HOCHLEISTUNGSCLUSTER FÜR NAHEZU ALLE ARTEN VON PROBLEMEN:
- HPC-Cluster für wissenschaftliche Lösungen
- HPC-Cluster für Deep-Learning-Lösungen
- Cluster für Big-Data-Lösungen
- Cluster für Clouds
- Cluster, die alles in einem machen
UNSERE UMFASSENDE CLUSTER-PHILOSOPHIE
Unsere Software automatisiert den Prozess der Erstellung und Verwaltung von Linux-Clustern in Ihrem Rechenzentrum und in der Cloud:
- Schnelle Bereitstellung von Rechenkapazität
- Bereitstellung von 10 bis 10.000+ Knoten aus Bare Metal in wenigen Minuten
- Umwidmung von Servern zur Anpassung an schwankende Arbeitslasten im laufenden Betrieb
- Erweitern Sie Ihre lokale Umgebung dynamisch auf AWS und Azure
- Automatisieren Sie die Bereitstellung, Implementierung und Verwaltung
MEHR INFORMATIONEN:
Deep Learning und High-Performance-Computing konvergieren, und die erforderliche Infrastruktur und Cluster-Software sind für beide Anwendungen nahezu identisch. Werfen Sie einen Blick auf unsere Lösungsseiten und machen Sie sich ein Bild von der extremen Leistung der Tesla V100-Lösungen.
Besonderes Augenmerk sollten Sie auf den weltweit leistungsstärksten HPC/DL-Server DGX-2 legen. Der DGX-s verfügt über 16 V100-Karten, die bidirektional über 12 NVSwitches mit 2,4 TB/s verbunden sind und wie eine einzige virtuelle GPU mit 512 GB Speicher arbeiten. So werden komplexe Aufgaben zu einem Bruchteil der bisherigen Rechenzeit gelöst.