KÜNSTLICHE INTELLIGENZ BEFLÜGELT ALLE BEREICHE DER WIRTSCHAFT:

Gesundheitswesen, z.B. Diagnostik
Schließen von Sicherheitslücken in Systemen
Big-Data-Analysen
Risikominimierung bei Finanztransaktionen
Robotik, Fertigung, Produktion
Sicherung der Qualität
Autonomität z.B. von Autos, Flugzeuge, Drohnen, Raketen, Schiffe, etc.
KI-Städte
Einzelhandel, Verkauf, Aftersales
Sprach- und Stimmungsanalysen

DEFINITION: KÜNSTLICHE INTELLIGENZ, MASCHINELLES LERNEN, DEEP LEARNING

Künstliche Intelligenz (KI) ist ein Teilgebiet der Informatik, das sich mit der Entwicklung von intelligenten Maschinen beschäftigt, die wie Menschen arbeiten und reagieren. Sie ist das große Projekt zur Bildung einer nicht-menschlichen Intelligenz. Wichtigste Bestandteile sind:

  • Die Hauptaufgaben des maschinellen Lernens (traditionelles Computer Vision) sind Datenaufbereitung, Feature Engineering, Modellarchitektur und numerische Optimierung. Das Feature-Engineering nimmt fast 80 Prozent der Vorbereitungsarbeit ein.
  • Deep Learning, ein Teil des Maschinellen Lernens, ist eine Sammlung von einfach zu trainierenden mathematischen Einheiten, die in Schichten organisiert sind und zusammenarbeiten, um komplizierte Aufgaben zu lösen. Neu sind die geschichtete Netzwerkarchitektur und eine skalierbare Trainingsmethode. DL lernt Merkmale direkt aus den Daten; explizites Feature Engineering ist nicht erforderlich. Es hat einen extrem hohen Genauigkeitsgrad erreicht, übertrifft die menschliche Leistung bei der Klassifizierung von Bildern, ermüdet nie und liefert Ergebnisse in einem Bruchteil der Zeit.

WIE MAN EINE ENTERPRISE DEEP LEARNING / HPC UMGEBUNG AUFBAUT

Heutzutage werden Deep Learning- und High-Performance-Computing-Aufgaben auf der gleichen Hardware-Plattform mit gemeinsamer Cluster-Management-Software und anderer gemeinsam oder separat genutzter Software durchgeführt. Bevor wir uns mit der notwendigen Hard- und Software beschäftigen, wollen wir uns zunächst mit den verschiedenen Arbeitsprozessen auseinandersetzen. Bevor wir uns mit der dafür benötigten Hard- und Software beschäftigen, wollen wir uns zunächst die verschiedenen Arbeitsabläufe genauer ansehen.

KI WORKFLOW UND SIZING, ALLES BEGINNT MIT DEN DATEN

Das Wichtigste für Deep Learning sind Ihre Daten. Das Volumen könnte Peta Bytes an Daten werden. Je mehr, desto besser.
Ein typischer AI/Deep Learning Entwicklungs-Workflow:

DER ARBEITSABLAUF WIRD WIE FOLGT BESCHRIEBEN:

  • Data factory sammelt Rohdaten und enthält Werkzeuge zur Vorverarbeitung, Indizierung, Kennzeichnung und Verwaltung von Daten
  • KI-Modelle werden mit gelabelten Daten mit einem DL-Framework aus dem NVIDIA GPU Cloud (NGC) Container-Repository trainiert, das auf Servern mit Volta Tensor Core GPUs läuft
  • AI-Modelltest und -Validierung passt die Modellparameter nach Bedarf an und wiederholt das Training, bis die gewünschte Genauigkeit erreicht ist
  • KI-Modelloptimierung für den Produktionseinsatz (Inferenz) wird mit dem NVIDIA TensorRT Optimierungs-Inferenzbeschleuniger abgeschlossen
Die Dimensionierung des DL-Trainings ist stark von der Datengröße und der Modellkomplexität abhängig. Ein einzelner Tesla NVlink Server (z. B. DGX-1) kann ein Trainingsexperiment für eine Vielzahl von KI-Modellen an einem Tag abschließen. Das Softwareteam für autonome Fahrzeuge bei NVIDIA, das NVIDIA DriveNet entwickelt, verwendet beispielsweise ein benutzerdefiniertes Resnet-18-Backbone-Erkennungsnetzwerk mit einer Bildgröße von 960x480x3 und trainiert mit 480 Bildern pro Sekunde auf solchen Servern, was ein Training von 120 Epochen mit 300k Bildern in 21 Stunden ermöglicht. Interne Erfahrungen bei NVIDIA haben gezeigt, dass fünf Entwickler, die gemeinsam an der Entwicklung eines KI-Modells arbeiten, die optimale Entwicklungszeit bieten. Jeder Entwickler arbeitet typischerweise an zwei Modellen parallel, so dass die Infrastruktur zehn Modellexperimente innerhalb der gewünschten TAT (turn-around-time) unterstützen muss. Ein DGX POD mit neun DGX-1-Systemen kann einer Arbeitsgruppe mit fünf Entwicklern einen Tag TAT für das Modelltraining bieten. In zeitkritischen Zeiten kann die Skalierung mit mehreren Knoten die Turnaround-Zeit mit acht DGX-1 Servern von einem Tag auf vier Stunden reduzieren. Sobald die Produktion läuft, werden zusätzliche DGX-1-Systeme erforderlich sein, um die laufende Modellverfeinerung und Regressionstests zu unterstützen.

HPC-WORKFLOW UND SIZING, ALLES BEGINNT MIT DEM DATENMODELL

Das Wichtigste für HPC sind Ihre Daten und Ihr Datenmodell. Das Volumen könnte Peta Bytes an Daten werden.
Ein typischer HPC-Entwicklungs-Workflow:

DER ARBEITSABLAUF WIRD WIE FOLGT BESCHRIEBEN:

  • Forschung und Modellentwicklung
  • Datenerfassung und -bereinigung
  • Programmierung und Test
  • Ausführen unabhängiger Experimente
  • Visualisierung, Anzeige Ihrer Ergebnisse
  • Prüfen Sie Ihre Ergebnisse, wenn Sie Fehler entdecken, gehen Sie zu Schritt 1, ansonsten archivieren Sie Ihre Ergebnisse

WAS SIND DIE BAUSTEINE EINER ENTERPRISE DEEP LEARNING / HPC-UMGEBUNG?

Dem Workflow folgend, benötigen wir folgende Systemmodule:

  • Storage-Systeme
    1. Speicher, der für Deep Learning und HPC gleichermaßen gut geeignet ist
    2. Da Supercomputing schreibintensiv und sequentiell im Zugriff ist und KI leseintensiv und zufallsorientiert im Zugriff ist, sind die von uns angebotenen Speichersysteme so konzipiert, dass sie sowohl HPC als auch KI bestmöglich unterstützen. Auf diese Weise vermeiden Sie doppelte Investitionen in Hardware, Speichersoftware und Schulungen.
    3. Speicher, der durch das Hinzufügen zusätzlicher Server oder JBODs (HDD) oder JBOFs (NVMe/SAS/SATA SSD) im laufenden Betrieb leicht erweiterbar ist.
    4. Speicher, der schnelle Betriebsdaten, archivierte Daten und extrem schnelle Datenspeicher unterstützt, die vorübergehend auf den lokalen NVMe-SSDs von Converged Computing- und Speicherservern montiert sind.
    5. Fehlertoleranter Storage, der den Verlust von Daten, kompletten HDD oder SSD oder kompletten Servern inklusive aller Daten auf deren RAID-Volumes kompensiert - und das mit Commodity-Servern und Shared-Nothing-Hardware.
    6. Weitere Informationen finden Sie im Storage-Teil dieses Papiers oder in unserem Web-Angebot.
  • GPU-Rechen-Server
    1. GPU-Computing, das für Deep Learning und HPC gleichermaßen gut geeignet ist
      Da DL-Modelle oft extrem viel Speicher benötigen, ist es sehr wichtig, dass die GPU-Karten so viel lokalen Speicher wie möglich haben. Aktuelle V100-GPU-Karten verfügen daher über 32 GB HBM2-Speicher.
    2. HPC ist extrem rechenintensiv und erfordert modernste Grafikprozessoren. HPC ist extrem rechenintensiv und erfordert Grafikprozessoren auf dem neuesten Stand der Technik. Die Tensor-Cores der V100 können auch für HPC-Anwendungen genutzt werden.
    3. Weitere Informationen finden Sie im Teil GPU Computin g Teil dieses Papiers oder in unserem Webangebot.
  • Cluster-Netzwerk
    1. Setzen Sie die kosteneffektivsten Netzwerklösungen mit der fortschrittlichsten Interconnect-Technologie ein
      Das Netzwerk verbindet alles miteinander und ermöglicht die Kommunikation zwischen allen Servern, Administratoren und Entwicklern, wodurch die Komponenten zu einem System werden.
    2. Heutige DL/HPC-Anwendungen sind in hohem Maße auf Verbindungen mit hoher Bandbreite und geringer Latenz angewiesen. In den meisten Fällen sind die Cluster-Fabrics mit 40/100 Gbps FDR/EDR InfiniBand oder 40/100 Gbps Ethernet ausgestattet.
    3. Weitere Informationen finden Sie im GPU-Computing-Teil dieses Papiers oder in unserem Webangebot.
  • Cluster-Verwaltungssoftware
    1. Cluster Management Software erweitert Ihr Rechenzentrum und entfesselt die unbegrenzte Kraft der Cloud.
    2. HPC ist extrem rechenintensiv und erfordert modernste Grafikprozessoren. HPC ist extrem rechenintensiv und erfordert Grafikprozessoren auf dem neuesten Stand der Technik. Die Tensor-Cores des V100 können auch für HPC-Anwendungen genutzt werden.
  • Optimierter Software-Stack für GPU-Server
    1. NVIDIA verwendet einen optimierten Software-Stack für die gesamte Familie.
    2. Für Nicht-DGX-Server mit V100-GPUs wird ein ähnlicher Software-Stack von sysGen bereitgestellt.
    3. Weitere Informationen finden Sie auf der Registerkarte "Software Management" auf dieser Seite
  • Verfügbare Deep-Learning-Lösungen und Frameworks
    1. Es gibt bereits mehrere brauchbare Lösungen wie z.B. DIGITS von NVIDIA.
    2. Für eigene Anwendungen stehen viele verschiedene Frameworks für unterschiedliche Programmiersprachen (C, C++, Python, Java, Scala, Matlab) zur Verfügung wie Tensor Flow, Caffe, PyTorch, Theano und Deeplearning4y.
    3. Weitere Informationen sind im Internet zu finden.

SYSGEN GPU-SERVER, PROFITIEREN SIE VON 20 JAHREN HPC ERFAHRUNG IN ENGER VERBINDUNG MIT FÜHRENDEN TECHNOLOGIEANBIETERN- SIE GEHEN NIE ALLEIN

GPU-BESCHLEUNIGTE SERVER FÜR HPC/DL WORKLOADS 

sysGen GPU-beschleunigte Server bieten die höchstmögliche Leistung. Reduzieren Sie die Laufzeiten Ihrer High-Performance-Computing-Anwendungen und verkürzen Sie die Trainings- und Inferenzzeiten für Deep Learning mit der NVIDIA Volta Architektur. Erhalten Sie Zugriff auf über 500 HPC-Anwendungen und alle NVIDIA TensorRT™ Deep Learning Frameworks. Sehen Sie sich das folgende Video an, um zu erfahren, wie Volta GPUs leistungsstarke neue Lösungen für die größten Herausforderungen unserer Zeit bieten.

WORAUF SIE ACHTEN MÜSSEN

Deep Learning und HPC sind extrem rechenintensiv und erfordern modernste Grafikprozessoren.
Da DL-Modelle oft extrem viel Speicher benötigen, ist es sehr wichtig, dass die GPU-Karten so viel lokalen Speicher wie möglich haben. Daher verfügen aktuelle V100-GPU-Karten über 32 GB HBM2-Speicher.
In den allermeisten Fällen sind die Modellberechnungen auf 4 bis 16 GPU-Karten verteilt. Ein häufiger Abruf von neuen Daten aus dem Massenspeicher verlangsamt entsprechende Berechnungen erheblich. In vielen Fällen können die einzelnen GPU-Karten daher Daten direkt miteinander austauschen. Erfolgt der Datenaustausch über den PCIe-Bus, verlangsamt sich die Berechnung in geringerem Maße. Wichtig ist, dass alle GPU-Karten über eine einzige CPU verbunden sind. Man spricht dann von einem Single-Root-Komplex. Bis zu 10 GPU-Karten können über Single Root angeschlossen werden, eine sinnvolle Anzahl sind jedoch 8 GPU-Karten. Direkte NVLink-Verbindungen zwischen den GPU-Karten bieten eine starke Verbesserung im Vergleich zu einer PCIe-Verbindung. Ein einzelner NVIDIA Tesla® V100 Grafikprozessor unterstützt bis zu sechs NVLink-Verbindungen und eine Gesamtbandbreite von 300 GB/s - die 10-fache Bandbreite von PCIe Gen 3.

SYSTEME MIT HÖCHSTER LEISTUNG UND LEISTUNGSDICHTE:

NVIDIA DGX-2 ist der schnellste heute verfügbare Server mit überlegener Technologie und dem besten Preis-/Leistungsverhältnis. Er reduziert die Laufzeit und damit die Entwicklungszeit dramatisch. Das Verhältnis von Leistung pro Quadratmeter ist das beste, das es je gab. Obendrein erhalten Sie regelmäßige Software-Updates mit optimierten Docker-Containern, die Ihre Systeme auf dem neuesten Stand halten. Ihre Cluster werden immer auf dem neuesten Stand sein.

SPEICHER FÜR HPC/DL-WORKLOADS, HÖCHSTE LEISTUNG, ZUVERLÄSSIGKEIT, FEHLERTOLERANZ UND EINFACHE ERWEITERBARKEIT

sysGen unterstützt eine Reihe von führenden Dateisystemen, aber wenn es um Enterprise-Cluster geht, bevorzugen wir die führenden Dateisysteme BeeGFS und Pure Storage. Da Supercomputing schreibintensiv und sequentiell im Zugriff ist und KI leseintensiv und zufallsorientiert im Zugriff ist, sind diese Speichersysteme darauf ausgelegt, sowohl HPC als auch KI bestmöglich zu unterstützen.

WARUM PURE STORAGE FLASHBLADE VERWENDEN?

Pure Storage FlashBlade ist eine extrem leistungsstarke, hochsichere Scale-out-Architektur für unstrukturierte Daten.

Bis zu 2x schneller als AFAs der vorherigen Generation und mit bis zu 3PB effektiv in 6U, bietet //X90 maximale Beschleunigung und Konsolidierung für alle Ihre Workloads. Es ist Ihr Enterprise-in-a-Box
Schauen Sie sich an, was Pure Storage für Sie tun kann:


  • Elastische Leistung, die mit den Daten wächst - bis zu 17 GB/s

  • Immer schnell, von kleinen, metadatenlastigen Workloads bis hin zu großen Streaming-Dateien

  • All-Flash-Leistung ohne Caching oder Tiering

  • Petabytes an Kapazität

  • 10er-Milliarden Objekte und Dateien

  • "Tuned for Everything"-Design, keine manuellen Optimierungen erforderlich

  • Skalieren Sie alles sofort durch einfaches Hinzufügen von Blades

WARUM BEEGFS VERWENDEN?

BeeGFS verteilt die Benutzerdaten transparent über mehrere Server. Indem Sie die Anzahl der Server und Festplatten im System erhöhen, können Sie die Leistung und Kapazität des Dateisystems einfach auf das von Ihnen benötigte Niveau skalieren, nahtlos von kleinen Clustern bis hin zu Systemen der Enterprise-Klasse mit Tausenden von Knoten.

Schauen Sie sich an, was BeeGFS für Sie tun kann:

  • Verkürzen Sie die Zeit, um einen Einblick in Ihre Daten und Informationen vor Ort und in der Cloud zu erhalten

  • Cluster-Speichersysteme für High Performance Computing (HPC) und Deep Learning (DL)

  • Moderner Cluster-Speicher muss Workloads für HPC und DL gleichermaßen gut bewältigen

  • HPC-Computing ist schreibintensiv und sequentiell - KI ist eher leseintensiv und randomisiert

  • sysGen-Speichersysteme sind darauf ausgelegt, sowohl HPC als auch KI mit maximaler Performance zu unterstützen

  • BeeGFS läuft auf verschiedenen Plattformen, wie X86, OpenPower, ARM und mehr

SOFTWAREVERWALTUNG

Systementwickler unterschätzen oft den Installations- und Wartungsaufwand für komplexe Softwaresysteme. Zeitverluste, bis ein System einsatzbereit ist, und Leistungseinbußen durch schlechtes Tuning verursachen hohe Kosten und können auch die Einführung neuer Produkte verzögern. Oft wird auch der Wartungsaufwand für die Anpassung an die sich schnell entwickelnde Software-Innovation weit unterschätzt. Deshalb liefern wir unsere Systeme und Cluster auf Wunsch mit vorinstallierter Software aus. So können unsere HPC- und DL-Systeme oder Cluster direkt eingesetzt werden.

Für alle Systeme mit TESLA-GPU-Karten installieren wir kostenlos die NVIDIA GPU Cloud Software. Für NVIDIA DGX Systeme bieten wir NVIDIA Supportverträge für ein, zwei oder drei Jahre an. Für alle anderen Systeme bieten wir einen sysGen Update-Service für die NVIDIA GPU Cloud Software an. Sie können die Updates aber auch selbst durchführen.

NVIDIAS OPTIMIERTER SOFTWARE-STACK FÜR DIE GESAMTE DGX-FAMILIE

Ein Software-Stack für die ganze Familie:

  • Ein einziger, vereinheitlichter Stack für Deep-Learning-Frameworks
  • Vorhersagbare Ausführung auf allen Plattformen
  • Das Protokoll der Wahl für Speichertechnologien der nächsten Generation
  • Durchgängige Reichweite Unterstützung für RDMA over Converged Ethernet (ROCE)

CLUSTER-SYSTEME FÜR HPC UND DEEP LEARNING

Für HPC- und DL-Clustersysteme für den parallelen Mehrbenutzerbetrieb bieten wir folgende Lösungen an:

  • sysGen Open Source HPC-Cluster
  • Bright Enterprise HPC und DL Cluster Manager (siehe unten)

BRIGHT CLUSTER MANAGER ERWEITERT IHR RECHENZENTRUM UND ENTFESSELT DIE UNBEGRENZTE KRAFT DER CLOUD

High-Performance Computing (HPC) wird für wissenschaftliche, technische und kommerzielle Aufgaben bei der Berechnung, Modellierung und Simulation komplexer Systeme und der Verarbeitung großer Datenmengen eingesetzt. sysGen ist seit mehr als 20 Jahren erfolgreicher Lösungsanbieter für HPC-Cluster und hatte die leistungsfähigsten HPC-Cluster mit GPU-Coprozessoren in der EMEA-Region geliefert. Jetzt laufen traditionelle HPC- und Articial Intelligence-Probleme in der Cluster-Umgebung und müssen auf denselben HPC-Systemen bearbeitet werden.

SYSGEN UNTERSTÜTZT HOCHLEISTUNGSCLUSTER FÜR NAHEZU ALLE ARTEN VON PROBLEMEN:

  • HPC-Cluster für wissenschaftliche Lösungen
  • HPC-Cluster für Deep-Learning-Lösungen
  • Cluster für Big-Data-Lösungen
  • Cluster für Clouds
  • Cluster, die alles in einem machen

UNSERE UMFASSENDE CLUSTER-PHILOSOPHIE

Unsere Software automatisiert den Prozess der Erstellung und Verwaltung von Linux-Clustern in Ihrem Rechenzentrum und in der Cloud:

  • Schnelle Bereitstellung von Rechenkapazität
  • Bereitstellung von 10 bis 10.000+ Knoten aus Bare Metal in wenigen Minuten
  • Umwidmung von Servern zur Anpassung an schwankende Arbeitslasten im laufenden Betrieb
  • Erweitern Sie Ihre lokale Umgebung dynamisch auf AWS und Azure
  • Automatisieren Sie die Bereitstellung, Implementierung und Verwaltung

MEHR INFORMATIONEN:

Deep Learning und High-Performance-Computing konvergieren, und die erforderliche Infrastruktur und Cluster-Software sind für beide Anwendungen nahezu identisch. Werfen Sie einen Blick auf unsere Lösungsseiten und machen Sie sich ein Bild von der extremen Leistung der Tesla V100-Lösungen.

Besonderes Augenmerk sollten Sie auf den weltweit leistungsstärksten HPC/DL-Server DGX-2 legen. Der DGX-s verfügt über 16 V100-Karten, die bidirektional über 12 NVSwitches mit 2,4 TB/s verbunden sind und wie eine einzige virtuelle GPU mit 512 GB Speicher arbeiten. So werden komplexe Aufgaben zu einem Bruchteil der bisherigen Rechenzeit gelöst.​​​​​​​

HPC UND KI WORKLOADS

SCHLÜSSELFERTIGER SERVER UND CLUSTER

Wir liefern alle Systeme, ob einzelne Deep Learning Systeme oder komplette Cluster-Systeme mit vorinstallierter Software. Das bedeutet, dass, egal für welche Anforderung (HPC / DL), jedes System direkt ohne Produktivitätsverzögerung eingesetzt werden kann. In der Regel verwenden wir Open-Source-Pakete, aber je nach Budgt und Projektgröße wird auch professionelle Management-Software eingesetzt.