Systeme und Informatikanwendungen Nikisch GmbHsysGen GmbH - Am Hallacker 48a - 28327 Bremen - info@sysgen.de

Willkommen auf der neuen Website von sysGen. Bitte nutzen Sie unser Kontaktformular falls Sie Fragen zu unseren Inhalten haben.

Aufgrund der sich ausweitenden Chipkrise und den daraus resultierenden, deutlichen Preiserhöhungen großer IT-Hersteller sind aktuelle Online-Preiskalkulationen derzeit nicht möglich. Wir weisen daher darauf hin, dass Preisanfragen über unsere Website vom endgültigen Angebot abweichen können!

ÜBERRAGENDE WIRKSAMKEIT DER FLÜSSIGKEITSKÜHLUNG
​​​​​​​MIT BEWÄHRTEM EINSATZ IN GROSSEM MASSSTAB

REDUZIERT KOSTEN UND UMWELTAUSWIRKUNGEN

  • Flüssigkeitskühlung reduziert den Stromverbrauch und die Kohlendioxidemissionen von Kraftwerken mit fossilen Brennstoffen. Die Verringerung der Umweltauswirkungen der heutigen Rechenzentren wird zu einer unternehmerischen Verantwortung.

UMSTELLUNG VON KLIMATISIERUNG AUF EFFEKTIVERE FLÜSSIGKEITSKÜHLUNG SENKT DIE BETRIEBSKOSTEN UM MEHR ALS 40 %

  • Ein Wechsel von Klimaanlagen zur Flüssigkeitskühlung spart Energie
  • Zusätzliche Energieeinsparung durch geringeren Lüfterbetrieb des Systems
  • 1 Jahr durchschnittliche Amortisation der Investition erhöht den ROI

DIE EFFIZIENZ DER FLÜSSIGKEITSKÜHLUNG VERBESSERT DIE LEISTUNG VON RECHENZENTREN FÜR HOCHLEISTUNGS-, HOCHLEISTUNGS-CPUS UND -GPUS DRASTISCH

  • Flüssigkeit ist bei der Wärmeabfuhr grundsätzlich bis zu 1000-mal effizienter
  • Künftige CPU- und GPU-Generationen erfordern möglicherweise eine Flüssigkeitskühlung, da die Luftkühlkapazität überschritten wird.
  • Die Server mit der höchsten Leistung und der höchsten Dichte können unterstützt werden, was die Rechenkapazität pro Quadratmeter erhöht.

Vorteile

WARUM FLÜSSIGKEITSKÜHLUNG NOTWENDIG WIRD

Die Kosten für die Kühlung von Rechenzentren/Computerräumen nehmen zu
Neueste Generation von CPUs
280 Watts
Neueste Generation von CPUs
500 Watts

Liquid Cooling Solutions

FLÜSSIG-FLÜSSIG-KÜHLUNG

LUFT-FLÜSSIGKEITSKÜHLUNG

EINTAUCHKÜHLUNG

liquid cooling SCHÜTZT VOR LEISTUNGSEINBRÜCHEN,
​​​​​​​NUTZEN SIE IHRE IT-INFRASTRUKTUR VOLL AUS

Worauf Sie achten müssen, wovor wir Sie schützen wollen:
Die Leistung eines Grafikprozessors kann durch die Betriebstemperatur beeinträchtigt werden. Obwohl NVIDIA-Grafikprozessoren eine Höchsttemperatur haben, unter der ihre Verwendung unterstützt wird, haben Zertifizierungstests gezeigt, dass der Betrieb bei einer niedrigeren Temperatur in einigen Fällen die Leistung erheblich verbessern kann.

Ein typisches System verfügt über mehrere Lüfter zur Luftkühlung, aber der Umfang der Kühlung für jedes Gerät im Gehäuse hängt stark vom physischen Layout aller Komponenten ab, insbesondere von der Position der GPUs in Bezug auf Lüfter, Ablenkbleche, Trennwände, Steigleitungen usw. Viele Unternehmenssysteme verfügen über programmierbare Lüfterkurven, die die Lüftergeschwindigkeit in Abhängigkeit von der GPU-Temperatur für jeden Lüfter festlegen. Oftmals basiert die Standard-Lüfterkurve auf einem allgemeinen Basissystem und berücksichtigt nicht das Vorhandensein von Grafikprozessoren und ähnlichen Geräten, die viel Wärme erzeugen können.

In einem Beispiel eines Systems mit vier Grafikprozessoren zeigte sich bei Zertifizierungstests, dass einer der Grafikprozessoren mit einer viel höheren Temperatur arbeitete als die anderen drei. Dies lag einfach an der speziellen internen Anordnung der Komponenten und den Luftstromeigenschaften in diesem speziellen Modell. Das konnte man nicht vorhersehen. Durch die Anpassung der Lüfterkurve konnte die heiße Stelle beseitigt und die Gesamtleistung des Systems verbessert werden. 
​​​​​​​
Da die Systeme in ihrer Bauweise sehr unterschiedlich sein können, gibt es kein universelles Profil für die Ventilatorkennlinie, das empfohlen werden kann. Stattdessen ist der Zertifizierungsprozess von unschätzbarem Wert, wenn es darum geht, potenzielle Leistungsprobleme aufgrund der Temperatur zu identifizieren und zu überprüfen, welche Lüfterkurven für jeden getesteten Server zu den besten Ergebnissen führen. Diese Profile werden für jedes zertifizierte System dokumentiert.
Sowohl BIOS-Einstellungen als auch Firmware-Versionen können sich auf die Leistung und die Funktionalität auswirken. Dies ist insbesondere bei NUMA-basierten Systemen der Fall. Der Zertifizierungsprozess ermittelt die optimalen BIOS-Einstellungen für die beste Leistung und identifiziert die besten Werte für andere Konfigurationen, wie z. B. NIC-PCI-Einstellungen und Boot-Grub-Einstellungen. Durch Multiknoten-Tests wurden auch die optimalen Einstellungen für den Netzwerk-Switch ermittelt. In einem Beispiel erreichte ein System RDMA-Kommunikation mit fast 300 Gb/s und TCP mit 120 Gb/s. Nachdem die Einstellungen richtig konfiguriert waren, stieg die Leistung für RDMA auf 360 Gb/s und für TCP auf 180 Gb/s, was beides nahezu Line-Rate war.

Die schnelle Übertragung von Daten zur und von der GPU ist entscheidend für eine optimale Leistung bei beschleunigten Workloads. Zusätzlich zu der oben beschriebenen Notwendigkeit, große Datenmengen sowohl für das Training als auch für das Inferencing auf die GPU zu übertragen, kann die Übertragung von Daten zwischen GPUs während der so genannten All-Reduce-Phase des Multi-GPU-Trainings zu einem Engpass werden. Dies gilt auch für die Netzwerkschnittstelle, da die Daten häufig von einem entfernten Speicher geladen oder im Falle von Algorithmen mit mehreren Knoten zwischen den Systemen übertragen werden. Da GPUs und NICs über den PCI-Bus in einem System installiert werden, kann eine falsche Platzierung zu einer suboptimalen Leistung führen.

NVIDIA-GPUs verwenden 16 PCIe-Lanes (als x16 bezeichnet), die 16 parallele Datenübertragungskanäle ermöglichen. NVIDIA NICs können je nach Modell 8, 16 oder 32 Lanes verwenden. In einem typischen Server oder einer Workstation ist der PCI-Bus in Steckplätze mit einer unterschiedlichen Anzahl von Lanes unterteilt, um den Anforderungen der verschiedenen Peripheriegeräte gerecht zu werden. In einigen Fällen wird dies durch den Einsatz einer PCI-Riser-Karte noch weiter beeinflusst, und die Anzahl der Steckplätze kann auch im BIOS eingestellt werden. Wenn ein Grafikprozessor oder eine Grafikkarte ohne Berücksichtigung dieser Faktoren in das Motherboard eingebaut wird, wird möglicherweise nicht die volle Kapazität des Geräts genutzt. So könnte beispielsweise ein x16-Gerät in einem x8-Steckplatz installiert werden, oder der Steckplatz könnte durch eine BIOS-Einstellung auf x8 oder weniger begrenzt sein. Der Zertifizierungsprozess deckt diese Probleme auf, und die optimale PCI-Steckplatzkonfiguration wird bei der Zertifizierung eines Systems dokumentiert.

NUMA (Non-Uniform Memory Architecture) ist ein spezielles Design für die Konfiguration von Mikroprozessoren in einem Multi-CPU-System, das von bestimmten Chip-Architekturen verwendet wird. In solchen Systemen haben Geräte wie GPUs und NICs eine Affinität zu einer bestimmten CPU, da sie mit dem Bus verbunden sind, der zu dieser CPU gehört (in einem sogenannten NUMA-Knoten). Bei der Ausführung von Anwendungen, die eine Kommunikation zwischen GPUs oder zwischen GPU und NIC beinhalten, kann die Leistung stark beeinträchtigt werden, wenn die Geräte nicht optimal gepaart sind. Im schlimmsten Fall müssen die Daten zwischen den NUMA-Knoten übertragen werden, was zu hohen Latenzzeiten führt.

Ein unzureichender Arbeitsspeicher ist bei zahlreichen Anwendungen eine Ursache für unzureichende Leistung, insbesondere beim maschinellen Lernen, sowohl beim Training als auch bei der Inferenz. Beim Training analysiert ein Algorithmus in der Regel große Datenmengen, und das System sollte in der Lage sein, genügend Daten im Speicher zu halten, damit der Trainingsalgorithmus weiterlaufen kann. Beim Inferencing hängt der Speicherbedarf vom jeweiligen Anwendungsfall ab. Bei Batch-Inferencing gilt: Je mehr Daten im Speicher gehalten werden können, desto schneller können sie verarbeitet werden. Bei der Streaming-Inferenzierung werden die Daten jedoch in der Regel analysiert, sobald sie eingehen, so dass der benötigte Speicherplatz möglicherweise nicht so groß ist. Durch die Analyse der Ergebnisse zahlreicher Zertifizierungstests konnte NVIDIA Richtlinien für die Speichergröße aufstellen, die auf der Anzahl der Grafikprozessoren und der Größe des GPU-Speichers basieren. In einem Fall hat ein System mit vier GPUs und 128 GB RAM den Zertifizierungstest nicht bestanden. Als der Arbeitsspeicher auf 384 GB erhöht wurde, stieg die Gesamtleistung um 45 %, und das System konnte die Zertifizierung bestehen.

BEISPIELE AUS DER REALITÄT

  • 1.520 Allzweck-CPU-Knoten (Intel® Xeon® Scalable Prozessoren der 3. Generation)
  • 42 GPU nodes (NVIDIA A100)
  • Supermicro SuperBlades

Kühlungsart - Flüssigkeit zu Flüssigkeit (direkte Flüssigkeitskühlung)
Lesen Sie mehr über die Universität Osaka und Supermicro Server


Kühlungsart - Flüssigkeit zu Flüssigkeit (direkte Flüssigkeitskühlung)
Pressemeldung: Skalierbarer flüssigkeitsgekühlter Supercomputing-Cluster von Supermicro wird am Lawrence Livermore National Laboratory für COVID-19-Forschung eingesetzt
ITRI und KDDI haben in Zusammenarbeit mit mehreren globalen IT-Unternehmen, darunter unser Partner Supermicro, das Edge-Rechenzentrum mit Immersionskühlung entwickelt und gebaut.

Kühlungsart - Eintauchen

SYSGEN BIETET EINE REIHE VON INTEGRIERTEN LÖSUNGEN ZUR FLÜSSIGKEITSKÜHLUNG
IN ZUSAMMENARBEIT MIT SUPERMICRO

  • Direct-to-Chip-Lösungen mit Rack-Integration, Test, Burn-in und Installation vor Ort
  • Erfahrung mit Active RDHx und Onsite-Integration
  • Vielfältige Erfahrung mit mehreren Partnern

SYSTEME MIT FLÜSSIGKEITSKÜHLUNG AUF ANFRAGE ERHÄLTLICH

2U HGX A100 4-GPU System

4U HGX A100 8-GPU Systems


2U 4-Node BigTwin® Servers
(IM BILD: EINZELNER KNOTEN)


SuperBlade

Ultra Servers


IHR ANGEBOT BEI SYSGEN ANFORDERN

​​​​​​​Zur Anfrage: 
Leise und COOL schlüsselfertige Systeme und Cluster für die leistungshungrigen Workloads unserer Zeit zu bezahlbaren Preisen.

​​​​​​​Wir bieten auch einsatzfertige Systeme inklusive Racks mit Infiniband und/oder Ethernet Vernetzung an und liefern auch schlüsselfertige Lösungen.

Mit sysGen bewältigen Sie die wie wichtigsten Herausforderungen für KI-Workloads in Unternehmen:

RISIKO: End-to-End-KI-Lösung aus verschiedenen Produkten zusammenzustellen und in bestehende Infrastrukturen zu integrieren.

LEISTUNG: Hohe Leistung ist für KI, Maschinelles Lernen und Datenanalyse-Workloads von entscheidender Bedeutung. Hierzu zählt auch eine schnelle Bereitstellung.

SKALIERUNG: Der Übergang vom Proof-of-Concept zur unternehmensweiten Bereitstellung erfordert effektive Skalierung durch effiziente Ressourcennutzung. So stellen Sie die Verwaltbarkeit, Verfügbarkeit der Systeme und Verwaltung der Infrastrukturkosten sicher.

Wir freuen uns auf Ihre Anfrage, aus dem Mittelstand, der Kunst und allen Bereichen der Industrie und Forschung.

UM MEHR DARÜBER ZU ERFAHREN, WIE WIR IHNEN HELFEN KÖNNEN

  • Reduzieren Sie die Kosten Ihres Rechenzentrums und senken Sie den PUE-Wert
  • Erzielen Sie eine höhere Leistung Ihrer CPUs und GPUs
  • Erreichen Sie eine höhere Dichte mit innovativen Lösungen