ÜBERRAGENDE WIRKSAMKEIT DER FLÜSSIGKEITSKÜHLUNG
​​​​​​​MIT BEWÄHRTEM EINSATZ IN GROSSEM MASSSTAB

REDUZIERT KOSTEN UND UMWELTAUSWIRKUNGEN

  • Flüssigkeitskühlung reduziert den Stromverbrauch und die Kohlendioxidemissionen von Kraftwerken mit fossilen Brennstoffen. Die Verringerung der Umweltauswirkungen der heutigen Rechenzentren wird zu einer unternehmerischen Verantwortung.

UMSTELLUNG VON KLIMATISIERUNG AUF EFFEKTIVERE FLÜSSIGKEITSKÜHLUNG
​​​​​​​SENKT DIE BETRIEBSKOSTEN UM MEHR ALS 40 %

  • Ein Wechsel von Klimaanlagen zur Flüssigkeitskühlung spart Energie.
  • Zusätzliche Energieeinsparung durch geringeren Lüfterbetrieb des Systems.
  • 1 Jahr durchschnittliche Amortisation der Investition erhöht den ROI.

UMSTELLUNG VON KLIMATISIERUNG AUF EFFEKTIVERE FLÜSSIGKEITSKÜHLUNG
​​​​​​​SENKT DIE BETRIEBSKOSTEN UM MEHR ALS 40 %

  • Flüssigkeit ist bei der Wärmeabfuhr grundsätzlich bis zu 1000-mal effizienter
  • Künftige CPU- und GPU-Generationen erfordern möglicherweise eine Flüssigkeitskühlung, da die Luftkühlkapazität überschritten wird.
  • Die Server mit der höchsten Leistung und der höchsten Dichte können unterstützt werden, was die Rechenkapazität pro Quadratmeter erhöht.

VORTEILE

VORTEILE Image

WARUM FLÜSSIGKEITSKÜHLUNG NOTWENDIG WIRD

Die Kosten für die Kühlung von Rechenzentren/Computerräumen nehmen zu

Neueste Generation von CPUs

280 Watts

Neueste Generation von CPUs

500 Watts

Liquid Cooling Lösungen

FLÜSSIG-FLÜSSIG-KÜHLUNG Image

FLÜSSIG-FLÜSSIG-KÜHLUNG

LUFT-FLÜSSIGKEITSKÜHLUNG Image

LUFT-FLÜSSIGKEITSKÜHLUNG

EINTAUCHKÜHLUNG Image

Eintauchkühlung

LIQUID COOLING SCHÜTZT VOR LEISTUNGSEINBRÜCHEN,
​​​​​​​NUTZEN SIE IHRE IT-INFRASTRUKTUR VOLL AUS

Worauf Sie achten müssen, wovor wir Sie schützen wollen:
Hohe Betriebstemperatur
Die Leistung eines Grafikprozessors kann durch die Betriebstemperatur beeinträchtigt werden. Obwohl NVIDIA-Grafikprozessoren eine Höchsttemperatur haben, unter der ihre Verwendung unterstützt wird, haben Zertifizierungstests gezeigt, dass der Betrieb bei einer niedrigeren Temperatur in einigen Fällen die Leistung erheblich verbessern kann.

Ein typisches System verfügt über mehrere Lüfter zur Luftkühlung, aber der Umfang der Kühlung für jedes Gerät im Gehäuse hängt stark vom physischen Layout aller Komponenten ab, insbesondere von der Position der GPUs in Bezug auf Lüfter, Ablenkbleche, Trennwände, Steigleitungen usw. Viele Unternehmenssysteme verfügen über programmierbare Lüfterkurven, die die Lüftergeschwindigkeit in Abhängigkeit von der GPU-Temperatur für jeden Lüfter festlegen. Oftmals basiert die Standard-Lüfterkurve auf einem allgemeinen Basissystem und berücksichtigt nicht das Vorhandensein von Grafikprozessoren und ähnlichen Geräten, die viel Wärme erzeugen können.

In einem Beispiel eines Systems mit vier Grafikprozessoren zeigte sich bei Zertifizierungstests, dass einer der Grafikprozessoren mit einer viel höheren Temperatur arbeitete als die anderen drei. Dies lag einfach an der speziellen internen Anordnung der Komponenten und den Luftstromeigenschaften in diesem speziellen Modell. Das konnte man nicht vorhersehen. Durch die Anpassung der Lüfterkurve konnte die heiße Stelle beseitigt und die Gesamtleistung des Systems verbessert werden. 
​​​​​​​
Da die Systeme in ihrer Bauweise sehr unterschiedlich sein können, gibt es kein universelles Profil für die Ventilatorkennlinie, das empfohlen werden kann. Stattdessen ist der Zertifizierungsprozess von unschätzbarem Wert, wenn es darum geht, potenzielle Leistungsprobleme aufgrund der Temperatur zu identifizieren und zu überprüfen, welche Lüfterkurven für jeden getesteten Server zu den besten Ergebnissen führen. Diese Profile werden für jedes zertifizierte System dokumentiert.
Nicht-optimale BIOS- und Firmware-Einstellungen
Sowohl BIOS-Einstellungen als auch Firmware-Versionen können sich auf die Leistung und die Funktionalität auswirken. Dies ist insbesondere bei NUMA-basierten Systemen der Fall. Der Zertifizierungsprozess ermittelt die optimalen BIOS-Einstellungen für die beste Leistung und identifiziert die besten Werte für andere Konfigurationen, wie z. B. NIC-PCI-Einstellungen und Boot-Grub-Einstellungen. Durch Multiknoten-Tests wurden auch die optimalen Einstellungen für den Netzwerk-Switch ermittelt. In einem Beispiel erreichte ein System RDMA-Kommunikation mit fast 300 Gb/s und TCP mit 120 Gb/s. Nachdem die Einstellungen richtig konfiguriert waren, stieg die Leistung für RDMA auf 360 Gb/s und für TCP auf 180 Gb/s, was beides nahezu Line-Rate war.
Unsachgemäße PCI-Steckplatzkonfiguration
Die schnelle Übertragung von Daten zur und von der GPU ist entscheidend für eine optimale Leistung bei beschleunigten Workloads. Zusätzlich zu der oben beschriebenen Notwendigkeit, große Datenmengen sowohl für das Training als auch für das Inferencing auf die GPU zu übertragen, kann die Übertragung von Daten zwischen GPUs während der so genannten All-Reduce-Phase des Multi-GPU-Trainings zu einem Engpass werden. Dies gilt auch für die Netzwerkschnittstelle, da die Daten häufig von einem entfernten Speicher geladen oder im Falle von Algorithmen mit mehreren Knoten zwischen den Systemen übertragen werden. Da GPUs und NICs über den PCI-Bus in einem System installiert werden, kann eine falsche Platzierung zu einer suboptimalen Leistung führen.

NVIDIA-GPUs verwenden 16 PCIe-Lanes (als x16 bezeichnet), die 16 parallele Datenübertragungskanäle ermöglichen. NVIDIA NICs können je nach Modell 8, 16 oder 32 Lanes verwenden. In einem typischen Server oder einer Workstation ist der PCI-Bus in Steckplätze mit einer unterschiedlichen Anzahl von Lanes unterteilt, um den Anforderungen der verschiedenen Peripheriegeräte gerecht zu werden. In einigen Fällen wird dies durch den Einsatz einer PCI-Riser-Karte noch weiter beeinflusst, und die Anzahl der Steckplätze kann auch im BIOS eingestellt werden. Wenn ein Grafikprozessor oder eine Grafikkarte ohne Berücksichtigung dieser Faktoren in das Motherboard eingebaut wird, wird möglicherweise nicht die volle Kapazität des Geräts genutzt. So könnte beispielsweise ein x16-Gerät in einem x8-Steckplatz installiert werden, oder der Steckplatz könnte durch eine BIOS-Einstellung auf x8 oder weniger begrenzt sein. Der Zertifizierungsprozess deckt diese Probleme auf, und die optimale PCI-Steckplatzkonfiguration wird bei der Zertifizierung eines Systems dokumentiert.
Fehlendes Bewusstsein für die NUMA-Topologie
NUMA (Non-Uniform Memory Architecture) ist ein spezielles Design für die Konfiguration von Mikroprozessoren in einem Multi-CPU-System, das von bestimmten Chip-Architekturen verwendet wird. In solchen Systemen haben Geräte wie GPUs und NICs eine Affinität zu einer bestimmten CPU, da sie mit dem Bus verbunden sind, der zu dieser CPU gehört (in einem sogenannten NUMA-Knoten). Bei der Ausführung von Anwendungen, die eine Kommunikation zwischen GPUs oder zwischen GPU und NIC beinhalten, kann die Leistung stark beeinträchtigt werden, wenn die Geräte nicht optimal gepaart sind. Im schlimmsten Fall müssen die Daten zwischen den NUMA-Knoten übertragen werden, was zu hohen Latenzzeiten führt.
Auswirkungen von unzureichendem Systemspeicher (RAM)
Ein unzureichender Arbeitsspeicher ist bei zahlreichen Anwendungen eine Ursache für unzureichende Leistung, insbesondere beim maschinellen Lernen, sowohl beim Training als auch bei der Inferenz. Beim Training analysiert ein Algorithmus in der Regel große Datenmengen, und das System sollte in der Lage sein, genügend Daten im Speicher zu halten, damit der Trainingsalgorithmus weiterlaufen kann. Beim Inferencing hängt der Speicherbedarf vom jeweiligen Anwendungsfall ab. Bei Batch-Inferencing gilt: Je mehr Daten im Speicher gehalten werden können, desto schneller können sie verarbeitet werden. Bei der Streaming-Inferenzierung werden die Daten jedoch in der Regel analysiert, sobald sie eingehen, so dass der benötigte Speicherplatz möglicherweise nicht so groß ist. Durch die Analyse der Ergebnisse zahlreicher Zertifizierungstests konnte NVIDIA Richtlinien für die Speichergröße aufstellen, die auf der Anzahl der Grafikprozessoren und der Größe des GPU-Speichers basieren. In einem Fall hat ein System mit vier GPUs und 128 GB RAM den Zertifizierungstest nicht bestanden. Als der Arbeitsspeicher auf 384 GB erhöht wurde, stieg die Gesamtleistung um 45 %, und das System konnte die Zertifizierung bestehen.

BEISPIELE AUS DER REALITÄT

Universität Osaka – SQUID
SQUID Supercomputer Image
  • 1.520 Allzweck-CPU-Knoten (Intel® Xeon® Scalable Prozessoren der 3. Generation)
  • 42 GPU nodes (NVIDIA A100)
  • Supermicro SuperBlades

Kühlungsart - Flüssigkeit zu Flüssigkeit (direkte Flüssigkeitskühlung)
Lesen Sie mehr über die Universität Osaka und Supermicro Server

Lawrence Livermore Nationales Laboratorium "Ruby"

Kühlungsart - Flüssigkeit zu Flüssigkeit (direkte Flüssigkeitskühlung)
Pressemeldung: Skalierbarer flüssigkeitsgekühlter Supercomputing-Cluster von Supermicro wird am Lawrence Livermore National Laboratory für COVID-19-Forschung eingesetzt
Ruby SuperComputer Image
ITRI x KDDI: Eintauchkühlung für Edge Data Center
ITRI und KDDI haben in Zusammenarbeit mit mehreren globalen IT-Unternehmen, darunter unser Partner Supermicro, das Edge-Rechenzentrum mit Immersionskühlung entwickelt und gebaut.

Kühlungsart - Eintauchen

SYSGEN BIETET EINE REIHE VON INTEGRIERTEN LÖSUNGEN
ZUR FLÜSSIGKEITSKÜHLUNG IN ZUSAMMENARBEIT MIT SUPERMICRO

  •  
  • Direct-to-Chip-Lösungen mit Rack-Integration, Test, Burn-in und Installation vor Ort
  • Erfahrung mit Active RDHx und Onsite-Integration
  • Vielfältige Erfahrung mit mehreren Partnern
  •  

SYSTEME MIT FLÜSSIGKEITSKÜHLUNG AUF ANFRAGE ERHÄLTLICH

2U HGX A100
​​​​​​​4-GPU SYSTEM

4U HGX A100
​​​​​​​8-GPU SYSTEMS

2U 4-NODE
BIGTWIN® SERVERS
​​​​​​​(IM BILD: EINZELNER KNOTEN)

SUPERBLADE

ULTRA SERVERS

IHR ANGEBOT BEI SYSGEN ANFORDERN

Mit sysGen bewältigen Sie die wichtigsten Herausforderungen für KI-Workloads in Ihrem Unternehmen:

End-to-End-KI-Lösung aus verschiedenen Produkten zusammenzustellen und in bestehende Infrastrukturen zu integrieren.

Hohe Leistung ist für KI, Maschinelles Lernen und Datenanalyse-Workloads von entscheidender Bedeutung. Hierzu zählt auch eine schnelle Bereitstellung.

Der Übergang vom Proof-of-Concept zur unternehmensweiten Bereitstellung erfordert effektive Skalierung durch effiziente Ressourcennutzung. So stellen Sie die Verwaltbarkeit, Verfügbarkeit der Systeme und Verwaltung der Infrastrukturkosten sicher.

Leise und COOL schlüsselfertige Systeme und Cluster für die leistungshungrigen Workloads unserer Zeit zu bezahlbaren Preisen.

Einsatzfertige Systeme inklusive Racks mit Infiniband und/oder Ethernet Vernetzung. Auch als schlüsselfertige Lösungen erhältlich.

UM MEHR DARÜBER ZU ERFAHREN, WIE WIR IHNEN HELFEN KÖNNEN

  •  
  • Reduzieren Sie die Kosten Ihres Rechenzentrums und senken Sie den PUE-Wert
  • Erzielen Sie eine höhere Leistung Ihrer CPUs und GPUs
  • Erreichen Sie eine höhere Dichte mit innovativen Lösungen
  •  

KONTAKTIEREN SIE UNS

Nutzen Sie gerne unser Kontaktformular für Ihre Anfrage.
​​​​​​​Wir danken Ihnen schonmal vorab hierfür und das damit verbundene Interesse an unseren Produkten, Dienstleistungen und Lösungen.