Vienna Scientific Cluster: Warum der Vienna Scientific Cluster mit Wasser kühlt

Zum Jahres­ende 2019 ging im Wiener Arsenal der größte Super­computer in den Forschungs­betrieb über, den Öster­reich je hatte: Der Vienna Scientific Cluster in der Aus­bau­stufe 4 umfasst 37.920 Prozessor­kerne auf engem Raum. Gekühlt wird der neue VSC-4 mit hoch­gradig effizienter Warm­wasser­technologie.

Warmwasser für die Spitzen­forschung

Von Michael Hülskötter

Sieht man sich die Top-500-Liste der schnellsten Superrechner der Welt an, fällt auf: Die Zahl der verbauten Kerne nimmt stetig zu. Gleichzeitig verringert sich aufgrund neuer und verbesserter Herstellungsverfahren die Chipgröße kontinuierlich. Die Folge: Noch mehr Prozessoren können auf immer weniger Fläche verbaut werden. Das führt dazu, dass deutlich mehr Abwärme abtransportiert werden muss. Das wiederum wirft automatisch die Frage auf, ob aktuelle Kühlverfahren wie Luftkühlung in Zukunft noch ausreichen werden oder ob es neuer, alternativer Kühlkonzepte bedarf. Zum Beispiel Kühlen mit Flüssigkeit.

Wiederkehr der Wasser­kühlung

Seit etwa zehn Jahren erfährt die Wasserkühlung im Rechenzentrum eine Renaissance. Bis zu Beginn der 1990er Jahre, in denen sich die schnellen x86-Prozessoren vom Typ Intel Xeon im Rechenzentrum durchsetzen konnten, war die Wasserkühlung ein Quasi-Standard, was das Kühlen von Mainframes und Supercomputern anging.

ITK-Austria 2019-01.jpg

Schwarz auf Weiß
Dieser Beitrag erschien zuerst in unserer Heise-Beilagenreihe „IT-Unternehmen aus Österreich stellen sich vor“. Einen Überblick mit freien Download-Links zu sämtlichen Einzelheften bekommen Sie online im Pressezentrum des MittelstandsWiki.

Diese Entwicklung hat nun auch Österreich erreicht, und zwar mit dem im Juli 2019 offiziell der Wissenschaft übergebenen Vienna Scientific Cluster 4 (VSC-4), der mittlerweile vierten Ausbaustufe des Supercomputers im Herzen von Wien. Dieser zurzeit schnellste Rechner Österreichs füllt zwölf Serverschränke sowie drei zusätzliche Racks, in denen das Storage-System untergebracht ist. Der VSC-4, ein Gemeinschaftsprojekt von fünf österreichischen Universitäten (TU Wien, Universität Wien, Universität für Bodenkultur Wien, TU Graz und Universität Innsbruck), ist mit 790 Rechenknoten à zwei Prozessorsockeln ausgestattet, womit er auf insgesamt 37.920 Prozessorkerne vom Typ Intel Skylake Platinum 8174 kommt. Das beschert dem Wiener Großrechner eine gemessene Rechenleistung von 2,7 Petaflops und Platz 82 auf der TOP500-Liste der derzeit schnellsten Supercomputer der Welt. Theoretisch sind sogar 3,7 Petaflops möglich.

Diese enormen Leistungsdaten haben auch mit der Übertaktung der verbauten Prozessoren zu tun, durch die sich eine zusätzliche Leistungssteigerung erzielen lässt. Zudem können die Laufzeiten der CPUs mithilfe der Software Energy Aware Runtime (EAR) von Lenovo hinsichtlich Taktung und Leistungsaufnahme entsprechend der genutzten Anwendungen und deren Anforderungen an die Speicher- und Rechenleistung angepasst werden.

Das Neptune-Konzept: DTN, RDHX und TTM

Der römische Meeresgott Neptun, Pendant zum griechischen Poseidon, ist Namensgeber des von Lenovo entwickelten Kühlkonzepts. Diese hybride Kühlungslösung ist seit Juni 2018 marktreif und einige Komponenten kommen im VSC-4 zum Einsatz. Bei Neptune handelt es sich um einen dreiteiligen Ansatz, die Abwärme möglichst energieeffizient aus einem Rechnersystem abzuleiten und zu nutzen. Die Verfahren nennen sich Direct-to-Node-Warmwasserkühlung (DTN), Rear-Door Heat Exchanger (RDHX) und Thermal Transfer Module (TTM). Mittels DTN-Kühlung lassen sich die Serverkomponenten (CPU, Speicher, Spannungsregler etc.) direkt wasserkühlen. Kleine, im Server verbaute Kupferrohre führen dabei das temperierte Wasser zu den einzelnen Komponenten. Mit RDHX wird die Abluft der Racks wassergekühlt. Hierbei kommt auf 21 °C gekühltes Wasser zum Einsatz, das die Grundlage für die Kühlluft bildet. Und mit TTM lassen sich die Kühlkörper von CPU und der übrigen Komponenten mittels Flüssigkeit kühlen, was eine höhere Leistungsaufnahme und damit höhere Taktung der Prozessoren erlaubt.

PUE-Wert knapp über 1

Der Vienna Scientific Cluster 4 besteht aus ThinkSystem-SD650-Servern von Lenovo, die mithilfe des Neptune-Ansatzes (siehe Kasten) mit Warmwasser gekühlt werden. Das klingt zunächst paradox – kühlen mit warmem Wasser? – doch aufgrund seiner höheren Wärmeleitfähigkeit und Wärmekapazität kann 45 °C warmes Wasser CPUs besser und effizienter kühlen als beispielsweise Luft mit einer Temperatur von 20 °C.

Im Primärkreislauf, der die meisten VSC-4-Server direkt mit Warmwasser kühlt, kommt die DTN-Technologie (Direct to Node) zum Einsatz. Dabei werden die Server mit speziell aufbereitetem Wasser gekühlt, das mithilfe eines Wasser-Glykol-Gemisches im Sekundärkreislauf rückgekühlt wird. Das Wasser-Glykol-Gemisch wird in passiven Kühlern auf dem Dach des Gebäudes unter Nutzung der Außenluft wieder abgekühlt.

Dieser Sekundärkreis mit dem Wasser-Glykol-Gemisch wird gemeinsam mit dem ölgekühlten Vorgänger VSC-3 genutzt und ist auf Energieeffizienz optimiert. Das System verbraucht für Pumpen und Ventilatoren ca. 3 % der abgeführten Energie zusätzlich zur Energie für die Rechner. In Anbetracht der immer höheren maximalen Außentemperaturen werden derzeit die Trockenkühler im Außenbereich des Rechenzentrums durch besprühbare Kühler ersetzt. Der Betrieb des Primärkreislaufs, der die Server kühlt, wird von Cooling Distribution Units (CDUs) der Firma Nortek aufrechterhalten. Ein Teil der Wärme, die im System entsteht, wird in die Raumluft abgegeben. Die Raumluft wird in sogenannten InRow-Chillern von APC (Schneider Electric) gekühlt, die mit Kaltwasser aus einer Kompressorkühlanlage versorgt werden.

Die Green-IT-Kennzahl: PUE

Power Usage Effectiveness (PUE) bestimmt das Verhältnis der gesamten konsumierten elektrischen Energie (Gesamtenergieverbrauch) zur aufgenommenen elektrischen Energie der IT-Infrastruktur, die aus Server, Speicher, Switches und mehr besteht. Die Kennzahl gibt damit an, wie effizient das System die Energie verwertet. Ein PUE-Wert von 1,0 stellt also das Höchstmaß an Energieeffizienz dar. Konventionelle, also luftgekühlte Rechenzentren kommen im Mittel auf einen PUE-Wert von 1,9. Computer mit PUE-Werten von 1,2 oder besser gelten als sehr effizient.

All diese Maßnahmen wurden vor allem wegen der erforderlichen Gesamtleistung bei gleichzeitig bestmöglicher Energieeffizienz des VSC-4 getroffen. So beträgt die elektrische Leistung maximal 600 kW, im Normalfall werden etwa 450 kW benötigt. Dank der Kühlungstechniken, die in Wien zum Einsatz kommen, erzielt der VSC-4 einen PUE-Wert (Power Usage Effectiveness – siehe Kasten) von 1,05 – was extrem nahe an den ökologischen Idealwert von 1 herankommt. Selbst unter Berücksichtigung der Luftkühlung bleibt dieser Wert unter 1,1.

Aufgrund seiner enormen Leistungswerte sind mit dem VSC-4 zahlreiche rechenintensive Anwendungen möglich, etwa die Simulation des frühen Universums kurz nach dem Urknall. Aber auch quantenphysikalische Berechnungen zur Entwicklung neuer Materialien soll der Wiener Supercomputer durchführen, und es sollen mit seiner Hilfe neue Modelle zum optimalen Management öffentlicher Verkehrsmittel entwickelt werden.

Nach dem Modell München

Kühltechnischer Pate des Wiener VSC-4 ist das vergleichbare LRZ (Leibniz-Rechenzentrum) in Garching bei München. Dort wurde 2012 die erste Generation des Supercomputers namens SuperMUC in Betrieb genommen, in dem fast 148.000 Prozessorkerne ihre Arbeit verrichteten. Der jährliche Stromverbrauch der ersten Generation von SuperMUC lag bei ca. 20 TWh – das entspricht etwa dem Jahresverbrauch von 5000 Vierpersonenhaushalten – im Vergleich zu anderen Systemen dieser Größe und Leistungsstärke aber ein guter Wert. Ein Grund dafür ist, dass das LRZ sich bei der Ausschreibung des Projekts für eine Wasserkühlung entschied. Die zuständigen Ingenieure und Techniker gingen sogar noch einen Schritt weiter und entwickelten ein Kühlungssystem mit Warmwasser.

Ohne diesen geschlossenen Warmwasserkreislauf wäre es nicht möglich, das Kühlungswasser, mit dem die Prozessoren gekühlt werden, konstant bei etwa 45 °C zu halten. So konnten auch im neuesten LRZ-System, dem SuperMUC-NG (Next Generation), die Stromkosten im Vergleich zu luftgekühlten Prozessoren um mehr als 20 % reduziert werden, da Garching z.B. auf den Einsatz von Kompressoren, die bei Luftkühlung benötigt werden, verzichten kann. Denn 45 °C warmes Wasser kann selbst im Münchner Hochsommer einfach mit Außenluft wieder abkühlen. Bei einem Hochleistungsrechner wie dem SuperMUC-NG ergibt sich so ein sechsstelliger Betrag an Einsparungen pro Jahr.

High Performance, High Density

Mittlerweile zweifeln zahlreiche Experten die Kontinuität des Moore’schen Gesetzes an. Denn die Verdopplung der Transistorenanzahl eines Chips alle zwei Jahre, die der Intel-Mitgründer Gordon Moore 1965 als Takt des digitalen Fortschritts formuliert hat, lässt sich technisch nicht mehr so einfach realisieren wie noch vor ein paar Jahren. Gleichzeitig ist Intel von dieser Annahme immer noch abhängig, weil sich nur mit mehr Prozessorleistung neue Rechner verkaufen lassen. Daher werden seit geraumer Zeit neue CPUs entwickelt, in denen immer mehr Prozessorkerne werkeln. Das führt zwar zu mehr Leistung, aber aufgrund der zunehmenden Dichte auch zu mehr Abwärme des gesamten Systems – was wieder zum Comeback der Wasserkühlung beiträgt.

Denn jede Zunahme der Prozessorkerne treibt den Energiebedarf in die Höhe – und auch die Stromrechnung. Das zeigt ein Blick auf die Entwicklung des Stromverbrauchs des Intel-Xeon-Prozessors, der häufig in Serversystemen eingesetzt wird (siehe Tabelle). Für Rechenzentrumsbetreiber stellt sich daher die Frage, wie sich die steigenden Stromkosten besser kontrollieren und voraussagen lassen. Eine Antwort darauf kann eben die Wasserkühlung sein, da sie energieeffizienter arbeitet als die traditionelle Luftkühlung.

Intel-Xeon-Stromverbrauch.jpg

Darüber hinaus werden Kenngrößen wie die Energieeffizienz bei der Beurteilung von Rechenzentren eine immer wichtigere Rolle spielen. So hat in Deutschland das BMWi am 1. Januar 2019 die Förderung von Energieeffizienz und erneuerbarer Wärme in Unternehmen gestartet. Damit werden auch mittelständische Rechenzentrumsbetreiber finanziell unterstützt, wenn sie mit geeigneten Maßnahmen den Energieaufwand reduzieren – beispielsweise mithilfe einer Warmwasserkühlung.

Michael-Huelskoetter.jpg

Michael Hülskötter ist IT-Journalist und Blogger, und das seit mehr als 20 Jahren. Zu seinen aktuellen Schwerpunkten gehört die künstliche Intelligenz genauso wie IT-Security, Cloud & Storage und andere Hightech-Themen. Hülskötter betreibt seit 2006 seinen eigenen Blog, auf dem sich zahlreiche Videos und Beiträge genau zu diesen Themen tummeln: www.IT-techBlog.de. Darüber hinaus ist er auf allen relevanten sozialen Medien wie LinkedIn und Twitter vertreten.

Nützliche Links