Um Ihnen einen besseren Einblick in unsere Arbeit und unser Problemmanagement zu geben, werde ich die Ereignisse des 26.12.05 detailliert in diesem Review aufrollen.
Alles begann mit der Auslösung eines Alarmes durch unser automatisches Überwachungssystem um Viertel vor eins in der Nacht.
Alle wichtigen Serverdienste werden in regelmässigen Zeitabständen durch eine externe Überwachungslösungs auf Ihre Funktionalität überprüft, wobei die Tests je nach Dienst in 1 Minuten- oder 5 Minuten-Intervallen erfolgen. Bei einer Alarmauslösung wird sofort eine SMS an alle eingetragenen Notfallhandys abgesandt um eine unverzügliche Reaktion von unserer Seite zu jeder Tages- oder Nachtzeit sicherzustellen.
So klingelte nun auch mich die Alarm-SMS aus dem Schlaf und informierte mich über ein akutes Problem mit dem cPanel03 Server. Gegen ein Uhr konnte ich mir den ersten Überblick über die Situation machen.
Gleichzeitig trafen auch bereits die ersten Support-Tickets aufgrund des Ausfalls ein, in welchen von mysteriösen Fehlern beim Aufruf der eigenen Webseiten oder gar von leeren Webverzeichnissen gesprochen wurde.
Der erste Schritte in solchen Situationen ist immer den direkten Zugriff auf den Server herzustellen um die Lage beurteilen und weitere Massnahmen einzuleiten zu können. Der Server verweigerte jedoch hartnäckige jegliche Remote Login Versuche und reagierte auch nicht auf die Anweisungen per
KVM.
Für solche Situationen verfügen wir über
ePower Switchs mit welchem sich der Stromnetzanschluss jedes einzelnen Servers fernsteuern lässt. Um den ersten Zugriff auf den Server erhalten, sollte nun ein Hardware Reset mit Hilfe des zuständigen ePower Switch durchgeführt werden.
Leider sind auch diese Geräte nicht ganz frei von Fehlern und der ePower Switch hatte sich bereits zu einem früheren Zeitpunkt aufgehängt. Da diese Geräte nur im äussersten Notfall zur Anwendung kommen, ist uns das Problem mit dem ePower Switch nicht früher aufgefallen.
Das heisst der Hardware Reset konnte nicht wie beabsichtigt mit Hilfe des ePower Switch durchgeführt werden, da dieser erstmal selbst vor Ort reinitialisiert werden musste.
Aus diesem Grund musste bereits zu diesem Zeitpunkt auf Kräfte vor Ort zurück gegriffen werden. Das Rechenzentrum ist rund um die Uhr während 365 Tage im Jahr mit Techniker besetzt, auf welche genau in solchen Situationen sofort zurück gegriffen werden kann. Einer der Techniker vor Ort wurde nun angewiesen ein Hardware-Reset des cPanel03 durchzuführen und sich um den ePower Switch zu kümmern.
Der Restart des Servers verlief ohne Probleme und alle Dienste funktionierten um zwanzig nach eins wieder einwandfrei. Auch eine erste tiefergehende Kontrolle aller Dienste brachte keine Fehlfunktionen zu Tage und es ging nun darum abzuklären, worin die Ursache des vorherigen Problem lag.
Sehr schnell wurde der Verdacht einer defekten Festplatte erhärtet und ich besorgte mir nun aktuelle Statusinformationen zu den einzelnen Festplatten über den Raid-Controller.
Auf dem Server kam ein
Raid-5 mit 4 SCSI U320 Festplatten zum Einsatz. Wenn ein Festplattendefekt auftritt markiert der Raid Controller die betroffene Platte und nimmt sie aus dem laufenden Betrieb. Die restlichen Festplatten übernehmen nun die Aufgabe der ausgefallenen Platte und können die fehlenden Daten aus den vorhandenen Daten rekonstruieren. Zwar nimmt die Leistung des Systems bei einer ausgefallenen Platte deutlich ab, jedoch kommt es weder zu einem Datenverlust noch zu einem Unterbruch des Services.
[ Fortsetzung folgt .. ]