Kühlkonzepte für Supercomputer: Was Super­computer auf Betriebs­temperatur hält

Stärkere Hoch­leistungs­rechner haben einen Energie­bedarf von 15 Mega­watt und mehr. Kein Wunder also, dass sich die HPC-Anlagen in Garching, Stuttgart, Darm­stadt oder Wien nach effizienten Kühl­lösungen um­ge­sehen haben. Eine Warm­wasser­kühlung ist bei diesen Größen­ordnungen oft das Mittel der Wahl.

Supercomputer als Wasser­kocher

Von Michael Hülskötter

Die Coronakrise verdeutlicht es einmal wieder sehr genau: Supercomputer übernehmen essenzielle Aufgaben für die globale Gesellschaft. So werden Hochleistungsrechner wie der SuperMUC in München, IBM Summit und Sierra in den USA und andere Hochleistungsrechner für das Erforschen von infrage kommenden Wirkstoffen eingesetzt. Damit wollen Wissenschaftler die Wirksamkeit bestimmter Seren auf das Coronavirus SARS-CoV-2 ermitteln.

Betrachtet man die maximale Rechenleistung, die allein die drei genannten Supercomputer aufweisen, werkeln in diesen Hochleistungsmaschinen mehr als 24.000 Prozessoren. Was nur deren Recheneinheiten an Strom verbraucht, ist enorm. Damit bekommt das Thema Energieeffizienz seine ganz eigene Bedeutung. Denn in Summe sind die aktuellen Supercomputer und Rechenzentren für mehr CO₂-Emissionen als der Luftverkehr verantwortlich. Das ist sowohl ökologisch als auch ökonomisch eine echte Herausforderung.

Lösen lässt sich das Ableiten der gigantischen Abwärme, die in den Rechenzentren dieser Welt entsteht, im Grunde nur noch mit intelligenten Methoden und Technologien wie der Warmwasserkühlung. Es kommen aber auch Wärmetauscher und die Kombination von Kalt- und Warmwasser infrage, je nach Budget und Dimension des Rechenzentrums oder der wissenschaftlichen Einrichtung, in der die Supercomputer stehen.

Pionier der Warm­wasser­kühlung: das LRZ Garching

2012 wurde im Leibniz-Rechenzentrum (LRZ) in Garching bei München die erste Generation des Supercomputers namens SuperMUC in Betrieb genommen, in dem fast 148.000 Prozessorkerne ihre Arbeit verrichteten. Der jährliche Stromverbrauch der ersten SuperMUC-Generation lag bei ca. 20 TWh – das entspricht etwa dem jährlichen Stromverbrauch von 5000 Vier-Personen-Haushalten; im Vergleich zu anderen Systemen dieser Größe und Leistungsstärke war das damals ein guter Wert. Um solch ein akzeptable Energieeffizienz überhaupt erzielen zu können, hatte sich das LRZ entschieden, von Anfang an auf die Warmwasserkühlung zu setzen, die im Vergleich zur Luftkühlung ressourcen- und budgetschonender arbeitet.

Innerhalb dieses im LRZ installierten, geschlossenen Warmwasserkreislaufs kann das Kühlungswasser konstant bei etwa 45 °C gehalten werden. Damit lassen sich die Stromkosten im Vergleich zu luftgekühlten Prozessoren um mehr als 20 % reduzieren. Daraus ergibt sich bei einem Hochleistungsrechner wie dem SuperMUC ein Sparpotenzial im sechsstelligen Euro-Bereich.

LRZ-20-07-2012-01-Kuehlung erklaert.jpg
SuperMUC-Inbetriebnahme 2012: Prof. Dr. Arndt Bode (Vorsitzender des LRZ-Direktoriums) und Martina Koederitz (Geschäftsführerin IBM Deutschland) erläutern Annette Schavan (Bundesministerin für Bildung und Forschung) an einem geöffneten Knoten des SuperMUC die Kühlung mit warmem Wasser. (Bild: LRZ)

Plus Adsorptions­kälte in Ausbau­stufe 3

Sechs Jahre später, also im September 2018, wurde der SuperMUC-NG eingeweiht, der derzeit einer der schnellsten Supercomputer der Erde ist. Auch in diesem Hochleistungssystem kommt die Warmwasserkühlung zum Einsatz, sodass sich der Superrechner effizient kühlen und gleichzeitig übertakten lässt. Das erlaubt eine zusätzliche Leistungssteigerung. Hierfür ist die Lenovo-Software Energy Aware Runtime (EAR) zuständig, die sich um die jeweils erforderliche Taktung und Leistungsaufnahme kümmert.

Die Energieeffizienz der Warmwasserkühlung konnte mit der dritten Ausbaustufe, dem SuperMUC-NG, noch weiter verbessert werden. Hierfür kommt eine speziell entwickelte Adsorptionskältemaschine der Firma Fahrenheit zum Einsatz. Damit lassen sich neben den Prozessoren auch Storage– und Netzwerkkomponenten mithilfe von warmem Wasser kühlen.

Daneben werden hybride Kühlkonzepte genutzt. Unter dem Namen Neptune wird ein dreiteiliger Ansatz verfolgt, der die Abwärme möglichst energieeffizient aus einem Rechnersystem ableiten soll. Hierfür werden die Direct-to-Node-Warmwasserkühlung (DTN), Rear-Door Heat Exchanger (RDHX) und Thermal-Transfer-Module (TTM) verwendet. Mittels DTN lassen sich Prozessor, Speicher und Spannungsregler wasserkühlen, mittels RDHX das Servergehäuse luftkühlen und mit TTM die Kühlkörper kühlen. Das erlaubt eine höhere Leistungsaufnahme der Prozessoren. Damit ließ sich der PUE-Wert des SuperMUC-NG auf sehr gute 1,1 senken.

PUE in Rechenzentren: Das Ideal ist 1,0

121112-PUE-Messung.jpg

Der enorme Stromverbrauch von Rechen­zentren zwingt deren Betreiber über immer energie­effizientere Kühlungs­technologien wie die Warm­wasser­kühlung nachzudenken. Ziel hierbei sollte stets ein möglichst kleiner PUE-Wert sein (Power Usage Effectiveness), der das Verhältnis von aufgenommener und verbrauchter elektrischer Energie bezeichnet.

So stellt ein PUE-Wert von 1,0 die bestmögliche Effizienz des Energieeinsatzes dar, da jedes Watt, das in das System fließt, zu 100 % (also ohne Energieverlust) in elektrische Energie umgewandelt werden kann. Rechenzentren mit einem PUE-Wert zwischen 1,0 und 1,2 werden als sehr energieeffizient bezeichnet. Die PUE-Unterschiede zwischen den Kühltechniken zeigen, wie sehr die Energieeffizienz variieren kann. So weisen luftgekühlte Rechenzentren im Mittel einen PUE-Wert von 1,9 auf, warmwassergekühlte Rechnersysteme hingegen kommen auf einen PUE-Werten von 1,1.

Der Bitkom hat zum Thema einen eigenen Leitfaden „Wie messe ich den PUE richtig?“, den es beim Verband als PDF zum Download gibt. (Bild: Bitkom)

Sechs Wassertanks für Hawk in Stuttgart

Der Mitte Februar 2020 eingeweihte Supercomputer Hawk des Höchstleistungsrechenzentrums Stuttgart (HLRS) verbraucht im regulären Betrieb gut 3 MW, unter Vollast sind es mehr als 4 MW. Verantwortlich hierfür sind unter anderem die rund 11.000 Prozessoren des Typs AMD Epyc Rome 7742, der etwa 1,5 Petabyte messende RAM-Speicher und die 25 Petabyte Festspeicher, die allesamt eine enorme Abwärme erzeugen. Um diese gewaltige Leistungsaufnahme ökologisch und ökonomisch beherrschbar zu machen, kommt ein spezielles Warmwasserkühlungssystem zum Einsatz. Es besteht aus sechs Kühltanks, in denen das Wasser von 25 auf 35 °C erwärmt wird, womit sich die Komponenten, zum Beispiel die Netzteile, kühlen lassen. Die Abwärme verpufft aber nicht nur einfach, sondern wird in die Gebäudeheizung des Instituts umgeleitet, sodass man sie dort zu Wärmezwecken verwenden kann.

Ein Engel für den Green IT Cube in Darmstadt

Das GSI-Helmholtzzentrum der Universität Darmstadt begann 2016 damit, den Green IT Cube zu errichten. Heute beheimatet dieses futuristisch anmutende Gebäude einen der energieeffizientesten Supercomputer der Welt. Darin kommt eine mittlerweile patentierte Kühlungstechnik zum Einsatz, die für eine drastische Reduktion der benötigten Energie sorgen soll. Die Rede ist von einer Halbierung des Primärenergieaufwands. In Zahlen könnte das eine weltweite Abnahme von etwa 57 Millionen t an CO₂ pro Jahr bedeuten. Hierfür kommt eine Kaltwasserkühlung zum Einsatz, die in den Türen der Rechnerschränke verbaut ist. Damit soll eine Energieeffizienz von unter 1,07 PUE möglich sein.

Green it cube c g otto gsi.jpg
Der spektakuläre Green IT Cube hat in drei Ausbaustufen geplant je zwei der sechs Etagen ausgebaut. Durch die Wasserkühlung in den 768 Racks ist keine Umluftkühlung mehr erforderlich. (Bild: G. Otto – GSI Helmholtzzentrum für Schwerionenforschung)

Jewels in Jülich: Warm­wasser­kühlung im SuperMUC-Style

Bereits 2018 wurde am Jülich Supercomputing Center (JSC) der AtosJuwels-Cluster in Betrieb genommen. Nach der Installation des Cluster Modules (CM) und Data Analytics Modules (DAM) wurde im Früjahr 2020 das dritte Rack vom Typ Extreme Scale Booster (ESB) installiert, und das aus vorzugsweise ökologischen Gründen. Der Juwels-Cluster ist Teil des DEEP-EST-Projekts, das von der EU gefördert wird. Dabei wird ganz im Sinne des LRZ Garching eine Warmwasserkühlung für das Ableiten der Abwärme benutzt. Für die Umsetzung dieser Warmwassertechnik per Kupferleitung ist die Firma Megware aus Chemnitz zuständig, die bereits das Kühlungssystem des Hochleistungsrechners CoolMUC-3 am LRZ München installiert hat.

Das EU-Supercomputing-Projekt DEEP-EST
Mit dem europäischen Projekt DEEP-EST (Dynamical Exascale Entry Platform – Extreme Scale Technologies) wurde Mitte Juli 2017 der Versuch gestartet, Supercomputer möglichst nach dem Baukastenprinzip zu entwickeln. Damit sollten HPC-Systeme geschaffen werden, die drei verschiedene Module vereinen: ein einfaches Cluster-Modul mit Intel-Xeon-Prozessoren, ein Booster-Modul mit sehr leistungsfähigen Intel-Xeon-Phi-Prozessoren und ein Data-Analytics-Modul. Damit sollen sowohl typische Rechenzentren als auch Supercomputer-Infrastrukturen aufgebaut werden. Das DEEP-EST-Projekt wurde mit knapp 15 Millionen Euro von der EU gefördert und vereinte 16 Projektpartner aus ganz Europa unter der Leitung des Jülich Supercomputing Centre.

HPE setzt auf Luft-Wasser-Kühlung der E-Cells

Im Topmodell des HPE-Supercomputers namens SGI 8600 kommt eine Kombination aus Luft- und Wasserkühlung zum Einsatz, mit der die Wärme hocheffizient abgeführt werden kann. Das Konzept fußt auf sogenannten E-Cells, die eine in sich abgeschlossenen Einheit darstellen. Jede dieser Einheiten weist einen flüssigkeitsgekühlten Kühlkörper auf, der die Wärme ableitet. Jede E-Cell besteht wiederum aus zwei Racks mit je 42 Höheneinheiten. Diese werden von einem Kühl-Rack getrennt, das per zirkulierender Luft die Wärme aus dem System abführt, und das durch wassergekühlte Pads. Diese Kombination aus Luft- und Warmwasserkühlung führt laut HPE zu einer fast 100-prozentigen Wärmeabfuhr.

Neptune im Vienna Scientific Cluster VSC-4

Mit dem Vienna Scientific Cluster VSC-4 durchbrach der österreichische Supercomputer in der vierten Ausbaustufe erstmals die Petaflops-Schallmauer. Der an der TU Wien eingesetzte Highend-Rechner leistet nämlich bis zu 3,7 Petaflops. Ermöglicht wird dies von knapp 38.000 Prozessorkernen. Gekühlt wird ein Teil des Supercomputers mithilfe der von Lenovo entwickelten Warmwasserkühlung Neptune. Dieses System kommt standardmäßig in Rechnern der Marke ThinkSystem 650 zum Einsatz. Hierbei kühlt die sogenannte DTN-Technik (Direct-to-Node) die Prozessoren, den Hauptspeicher, die I/O-Komponenten, den lokalen Speicher und die Spannungsregler.

Die weiteren Komponenten des VSC-4 werden mittels Cooling Distribution Units (CDUs) der Firma Nortek und mittels In-Row-Chillern von APC (Schneider Electric) gekühlt. Mit diesem energieeffizienten Supercomputer sind selbst Anwendungen wie das Simulieren des frühen Universums und quantenphysikalische Berechnungen möglich.

Michael-Huelskoetter.jpg

Michael Hülskötter ist IT-Journalist und Blogger, und das seit mehr als 20 Jahren. Zu seinen aktuellen Schwerpunkten gehört die künstliche Intelligenz genauso wie IT-Security, Cloud & Storage und andere Hightech-Themen. Hülskötter betreibt seit 2006 seinen eigenen Blog, auf dem sich zahlreiche Videos und Beiträge genau zu diesen Themen tummeln: www.IT-techBlog.de. Darüber hinaus ist er auf allen relevanten sozialen Medien wie LinkedIn und Twitter vertreten.

Nützliche Links