Springe direkt zu Inhalt

sheldon-Cluster offline aufgrund von Wartungsarbeiten

sheldon läuft wieder.

News vom 11.03.2024

Der Cluster sheldon und alle dazugehörigen Systeme sowie das Speichersystem data05 werden am 11.3. um 20:00 Uhr offline genommen in Vorbereitung für Wartungstag am ZIB. Nachdem wir über dessen Abschluss benachrichtigt werden, werden sie wieder gestartet werden.

Update (13.03.): Während wir angefangen haben sheldon wieder hochzufahren mussten wir feststellen, dass einer unserer InfiniBand-Switche nicht mit uns redet. Leider ist der Switch für das Funktionieren des scrach-Dateisystems notwendig. Wir werden ihn morgen genauer untersuchen, sobald wir physischen Zugang zu ihm haben. data05 ist weiterhin offline während wir es auf ein neues System umziehen, dies hat zu dem anderen Problem keinen Bezug und war von vornherein so geplant.

Update #2 (13.03.): data05 ist wieder verfügbar.

Update (14.03.): sheldon läuft wieder. Einige Nodes sind immernoch offline, die den Reboot nicht vertragen haben. Wir werden sie online bringen sobald wir sie fixen.

3 / 60