HPC Benchmark Studie mit AWS und Azure

Nov 14, 2015

Zusammenfassung

Am Tag Risikoanalysen von Versicherungen, am Abend und am Wochenende Musik- und Videostreaming und, wenn nötig, auch mal eine Tsunami-Simulation mit Frühwarnung – all das bietet die Cloud. Die Cloud verdrängt durch ihre Flexibilität und Wirtschaftlichkeit in vielen Bereichen die klassische IT.

Motivation

Cloud-Systeme sind in vielen Szenarien einsetzbar und für verschiedene Anwendergruppen nützlich. Beispielsweise können Versicherungen tagsüber umfangreiche Risikoanalysen mithilfe der Cloud-Systeme durchführen, während die gleiche IT abends, wenn die Mitarbeiter im Feierabend sind, von Musikstreaming-Portalen wie z.B. Spotify oder Spiegel tv genutzt wird. Weltmarktführer für Cloud-Dienste ist momentan Amazon mit ihren Web Services (AWS), aber auch die anderen bekannten IT-Riesen wie Google und Microsoft bauen ihre Angebote mit rasanter Geschwindigkeit aus.

Die im kommerziellen Bereich geforderte Flexibilität und Skalierbarkeit der IT-Systeme wird gleichermaßen in der Forschung im High-Performance-Computing (HPC) am Beispiel eines Frühwarnsystems für Naturkatastrophen benötigt. Als konkreter Anwendungsfall kann hier die Berechnung der Auswirkungen eines Tsunami dienen. Die Messwerte wie seismologische Erdstöße und Radarsignale von Wellen müssen interpretiert werden und führen so zu der Erkenntnis, ob der Tsunami überhaupt eine Gefahr für einen Küstenbereich darstellt. Hierzu fließen die Messwerte zusammen mit der Topologie des Meeresgrundes in ein Rechenmodell ein, um nach umfangreichen Berechnungen Aussagen treffen zu können, ob eine Welle nur einige Zentimeter oder gar mehrere Meter hoch und somit lebensbedrohlich ist. Wenn Menschen in der Küstenregion rechtzeitig gewarnt und Rettungsmaßnahmen ergriffen werden sollen, ist die Zeitspanne zwischen der Warnmeldung und dem tatsächlichen Eintreffen der Welle an der Küste entscheidend.

Zeitnahe und schnelle Voraussagen bedeuten aber, dass Rechner in Datencentern ständig auf Standby für den Ernstfall bereitstehen müssen, um die notwendigen Berechnungen sofort ausführen zu können, was jedoch eine große Menge Ressourcen an Energie und Kosten frisst und gerade auch in Entwicklungsländern schwierig zu realisieren ist.
Die Arbeitsgruppe Numerische Methoden in den Geowissenschaften an der Universität Hamburg und Axtrion haben in Kooperation, die Cloud mit ihren Infrastructure-as-a-Service (IaaS)-Diensten speziell für diesen Anwendungsfall durch Nutzung ihrer flexiblen und kostengünstig skalierbaren IT-Ressourcen verwendet. Auf Rechenanlagen, die z.B. Aufgaben aus dem Finanzwesen oder Musikstreaming lösen, müssten im Ernstfall in Sekunden Jobs für eine Tsunami-Simulation gestartet und die Vorhersage der Wellenhöhe je nach Gebiet kurzfristig berechnet werden können.

Projektumsetzung

Mit dieser Idee wurde von der Uni Hamburg und Axtrion eine Machbarkeitsstudie durchgeführt, die aufzeigen soll, dass die benötigten, im Cloud-Netzwerk verteilten Rechenkapazitäten allokiert werden können, um die Berechnung in akzeptabler Zeit (15 Minuten) durchzuführen. Für die Testläufe wurden spezielle Algorithmen genutzt, die Aussagen zu Kennzahlen wie Netzwerk- und Rechnerperformance, Daten-IO treffen können. Die Umsetzung erfolgte auf virtuellen EC2-Maschinen der Amazon Web Services (AWS), indem bestehender Software-Code der Hamburger Arbeitsgruppe auf die Maschinen portiert wurde. Für die Übersetzung des Quellcodes auf den Maschinen wurde eine Optimierung der Compiler-Parameter und eine Anpassung der Message-Passing-Bibliotheken (MPI und OpenMPI) vorgenommen.

Somit stand nach der einfachen Bereitstellung der IT-Ressourcen in der Cloud und der Portierung der Software ein System zum Test der Cloud-IT und Durchführung der Machbarkeitsstudie in nur wenigen Tagen bereit.

Axtrion hat die Universität Hamburg hinsichtlich der Bereitstellung und Nutzung der Cloud-Dienste beraten und unterstützt. Nach der Anpassung der Quellcodes, der MPI-Library und Compiler-Optionen auf die Anforderungen der virtuellen AWS-EC2-Maschinen hat Axtrion die Testläufe durchgeführt, die Ergebnisse analysiert und gemeinsam mit den Wissenschaftlern interpretiert.

Ergebnisse

Für den gewählten Anwendungsfall eignet sich die Cloud hervorragend. Mit den AWS-EC2-Instanzen wurden gute Messergebnisse erzielt. Die eingesetzten Maschinentypen waren zwar teurer als kleinere (und deutlich weniger leistungsfähigere) Maschinentypen, konnten aber aufgrund ihrer bedarfsorientierten Nutzung punkten und eine große Kosteneffizienz aufzeigen. Im Vergleich würden auf dieses Szenario spezialisierte Rechenzentren wesentlich mehr kosten, da bei ihnen ein hohes Vorab-Investment bzgl. Gebäude, Hardware, Klimatechnik, Netzwerktechnik, Personal und hoher Standby-Zeiten anfielen.
 

„Der Benchmark-Vergleich zeigt, dass für komplexe Modellrechnungen ein Einsatz von hochverfügbaren Cloud-Systemen im Bereich des High-Performance-Computing und der Simulation im Ernstfall Sinn macht. Neben der einfachen, je nach Bedarf skalierbaren und ausfallsicheren Nutzung unbegrenzt verfügbarer IT-Ressourcen in der Cloud spielt für uns als Forschungseinrichtung auch der Kostenfaktor eine wesentliche Rolle, da wir auch für größere Simulationsvorhaben keine Investitionen tätigen müssen.“
Prof. Dr. Jörn Behrens

Professor für numerische Methoden in Geowissenschaften, Mathematik, Universität Hamburg