sheldon-Cluster offline aufgrund von Wartungsarbeiten
sheldon
läuft wieder.
News vom 11.03.2024
Der Cluster sheldon
und alle dazugehörigen Systeme sowie das Speichersystem data05
werden am 11.3. um 20:00 Uhr offline genommen in Vorbereitung für Wartungstag am ZIB. Nachdem wir über dessen Abschluss benachrichtigt werden, werden sie wieder gestartet werden.
Update (13.03.): Während wir angefangen haben sheldon
wieder hochzufahren mussten wir feststellen, dass einer unserer InfiniBand-Switche nicht mit uns redet. Leider ist der Switch für das Funktionieren des scrach-Dateisystems notwendig. Wir werden ihn morgen genauer untersuchen, sobald wir physischen Zugang zu ihm haben. data05
ist weiterhin offline während wir es auf ein neues System umziehen, dies hat zu dem anderen Problem keinen Bezug und war von vornherein so geplant.
Update #2 (13.03.): data05
ist wieder verfügbar.
Update (14.03.): sheldon
läuft wieder. Einige Nodes sind immernoch offline, die den Reboot nicht vertragen haben. Wir werden sie online bringen sobald wir sie fixen.