Informationen zum teilweisen Stromausfall am 5.11.2015 im EUserv Rechenzentrum Jena

13.11.2015 | von Robby | views: 2.531

Am Donnerstag, den 5.11.2015, kam es im EUserv Rechenzentrum auf Grund von technischen Defekten an mehreren PDUs (Power Distribution Units) welche gleichzeitig als Resetsystem arbeiten zu Ausfällen von dedizierten Servern und einigen EUserv Diensten.

 

Nach unserem aktuellen Kenntnisstand gab es in einem Stromkreis auf Grund des Ausfalls einer Platine in einer Kühlanlage eine Überspannung, welche mehrere Resetsysteme und einige wenige Servernetzteile, RAM-Riegel und Festplatten zerstörte.

Der Normalzustand des Rechenzentrums sieht schematisch dargestellt wie folgt aus:

 grafik_dc_normalbetrieb

Bild 1, Normalzustand im RZ

Auf Grund der Überspannung waren einige der PDU’s ausgefallen, welche angeschlossene Server stromlos schalteten. Der Zustand nach der Überspannung ist in der nachfolgenden Darstellung schematisch dargestellt:

 grafik_dc_stoerung

Bild 2, Zustand nach Defekt

Hiermit führen wir Euch stichpunktartig den Ablauf des Tages für die bearbeitenden Techniker auf:

ca. 8.30 Uhr:
Das Monitoring meldet Ausfälle von Systemen in ungewohnter Anzahl. (Eine geringe Anzahl kommt immer vor, z.B. durch Reboots der Kunden oder einem Hardwaredefekt an einem einzelnen Server.)

ca. 9.00 Uhr:
Eine erste remote durchgeführte Diagnose stellt fest, dass es sich um einen teilweisen Ausfall in der Stromversorgung oder Netzwerkkomponenten handeln muss.

ca. 9.05 Uhr:
Der erste Techniker befindet sich bereits auf dem Weg zu den defekten Rackreihen.

ca. 9.10 Uhr:
Die Geschäftsführung, Support und Marketing werden über die Störung informiert. Informationen für anfragende Kunden werden für Telefon und Email zusammengestellt. Nutzer der Twitter-Kanäle @euservsupportde und @euservsupporten erhalten die ersten Informationen.

ca. 9.30 Uhr:
Die Diagnose an den Geräten bestätigt ein Stromproblem.

ca. 10.00 Uhr:
Die Bestandsaufnahme stellt einen Defekt an der Stromversorgung für ca. 200 Server fest. Der Techniker beginnt mit der Analyse des Defektes.

ca. 10.30 Uhr:
Es wird ein Defekt an einem Kühlsystem festgestellt, welches eventuell mehrere Sicherungen ausgelöst hat. Ein externer Dienstleister wird mit der Analyse beauftragt.

ca. 11.00 Uhr:
Weitere Techniker treffen zur Unterstützung ein. Es wird mit der Planung für eine temporäre Lösung zur Überbrückung der defekten PDU’s begonnen, da nicht genügend neue Geräte auf Lager sind.

ca. 11.30 Uhr:
Der externe Dienstleister stellt einen Defekt an der Kühlanlage fest. Diese wird vom Netz getrennt.

ca. 11.45 Uhr:
Die temporäre Lösung wird implementiert. Die Techniker arbeiten nach und nach die Server ab und fahren diese ohne PDU wieder hoch.

ca. 17.00 Uhr:
Weitgehend alle Server sind wieder online. Es werden abschliessende Arbeiten durchgeführt und durch den Stromausfall defekt gegangene Server für die Werkstatt vorbereitet.

ca. 19.00 Uhr:
Finale Checks bestätigen, dass 98% aller betroffenen Server wieder online sind.

ca. 19.45 Uhr:
Die Störung wird als beseitigt angesehen. Aufräumen.

ca. 20.00 Uhr:
Der Geschäftsführer Herr Seidel bedankt sich bei den Technikern und mahnt sie, endlich etwas zu essen und zu trinken.

Nachfolgend wurden mit Kunden defekter Server individuelle Vereinbarungen bis hin zum Servertausch vorgenommen.

Fazit:

Folgende Änderungen und nachträgliche Arbeiten werden wir auf Grund des Vorfalls prüfen und sofern möglich und sinnvoll implementieren:

  • Prüfung und Austausch der defekten Kühlsysteme
  • Technische Realisierbarkeit der Entkoppelung Kühlung / Technik und deren Durchführung (Anmerkung: Wir sind hier technisch auf Grund der Raumsituation eingeschränkt.)
  • Ersatz der defekten PDU’s in Form einer geplanten Wartungsmaßnahme
  • Lagerung von zusätzlichen PDU’s/Resetsystemen, sofern das kommerziell sinnvoll ist
  • Erhöhung des Lagerbestandes an herkömmlichen PDU’s, sofern das kommerziell sinnvoll ist
  • Schaffung einer offline verfügbaren Prioliste für das Reaktivieren von Servern
  • Schaffung einer aktuellen Statusseite, die Kunden über den Stand der Arbeiten informiert
Das klassische Mittagessen vom Pizzalieferanten wurde für alle Mitarbeiter am Freitag von der Firma bezahlt. 🙂

 

Allen betroffenen Kunden möchten wir an dieser Stelle für ihre Geduld danken und uns für eventuelle Unannehmlichkeiten nochmals entschuldigen!

{lang: 'de'}

Tags:


Kommentar schreiben

Kommentar

  • Kategorien




  • Über diesen Blog

    Dies ist der offizielle Weblog der europa-weiten Webhosting- Marke EUserv.
    Er bietet witzige Episo- den aus dem Arbeits- alltag, Fachthemen, sowie Präsentation und Informationen in eige- ner Sache.

    mehr...