Mitglieder: 674 | Themen: 513 | Beiträge: 1513 | Hits: 858101
Wir begrüssen unser neuestes Mitglied: Chip
Info
» Sie sind nicht angemeldet, Anmelden oder RegistrierenOnline: Keine Mitglieder und 4 Gäste
Ankündigungen
rubas.net Forum    Allgemein
Neuer Newsbeitrag Neuer Newsbeitrag   News abonnieren News abonnieren   Neueste Beiträge Neueste Beiträge   Erweiterte Suche Erweiterte Suche
Aktuelle News über Upgrades, Wartungsarbeiten, Probleme und mehr...
142 Beiträge gefunden.Seite: 1 2 3 4 5 6 7 8
 cPanel03: Ausfall und Transfer
cPanel03 ist wieder in Betrieb!

Die Inkonsistenzen im Filesystem konnten behoben werden und der Server und alle Dienste konnten erfolgreich gestartet werden.
Durch diese Inkonsistenzen im Filesystem können - müssen aber nicht - Dateien beschädigt worden sein, dies können wir aktuell nicht einschätzen.

Sollten Probleme bei Ihrem Account auftreten, nehmen Sie bitte unverzüglich per Ticket mit uns Kontakt auf.
http://www.rubas.ch/kundenbereich/index.php?action=ticket

Unabhängig davon werden wir den Transfer des cPanel03 prioritär behandeln und schnellst möglich vorantreiben.

Näheres erfahren Sie hier und später auch durch eine Rundmail.

---
Alter Teil
Sehr geehrter Kunden/innen,
leider kam es während eines standardmässigen Kernel Upgrade auf dem cPanel03 Server und einem sauberen Reboot zu Inkonsistenzen im Filesystem - diese Probleme waren weder für uns vorhersehbar noch sind sie erklärlich.

Der Reboot am 18.07.2006 verlief noch ohne Probleme, dennoch sind ist Ihnen diese Situation mit dem cPanel03 Server leider nicht unbekannt. Am 16.03.06 und am 26.12.05 mussten wir bereits aufgrund von Inkonsistenzen im Filesystem eine Reinstallation des Servers durchführen.

Wir bedauern diese Situation sehr und möchten uns in aller Form für die Unannehmlichkeiten entschuldigen.

Wie einige von Ihnen schon erfahren haben, planen wir bereits seit mehreren Wochen einen Umzug in ein neues Rechenzentrum (Interxion in Glattbrugg) auf ein komplett neues Equipment. Diesen Umzug und das zur Verfügung stehende zweite Equipment nutzen wir in den letzten Wochen um viele Neuerungen und Verbesserung zu entwickeln. Diese Arbeiten sind aktuell noch nicht abgeschlossen und der eigentliche Transfer sollte in den nächsten 3-4 Wochen durchgeführt werden.

Die Situation mit dem aktuellen cPanel03 ist jedoch für uns nicht mehr tragbar. Trotz Austausch im Frühjahr diverser Platten kam es nun erneut zu einem Eklat - wir müssen deshalb von einem schweren Hard- oder Softwaredefekt des Raidcontroller ausgehen, der unter gewissen Umständen auftreten und zu fatalen Folgen führen kann.

Wir bereiten deshalb parallel zu allen möglichen Rettungsaktionen für den cPanel03 Server bereits eines Transfer des Servers auf das neue Equipment vor.
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 21.07.2006 00:48 von Rubas | Geändert: 21.07.2006 08:21 von Rubas
Bearbeiten   Löschen
 Kernel Update: Server Reboot
Nach 23:30 wird heute ein Kernel Update auf den Servern cpanel02 und cpanel03 mit anschliessendem Reboot durchgeführt.

Datum: 20.07.06
Zeit: ab 23:30

Security Advisory: https://rhn.redhat.com/errata/RHSA-2006-0437.html


cPanel02 Erledigt

cPanel03 Erledigt
Der Server kam nach dem Reboot nicht mehr hoch und wir arbeiten vor Ort daran.
Trotz eines sauberen Reboot kam es zu Inkonsistenzen im Filesystem - diese werden nun mit den entsprechend Tools versucht zu korrigieren.

Unabhängig des Ausgang des obigen Repairvorganges wird bereits ein Ersatzserver vorbereitet, da die Situation nicht mehr tragbar ist. Der Transfer auf das neue Equipment sollte in den nächsten 21 Tagen durchgeführt werden und kann wenn nötig auch sofort vorgezogen werden.

Dieses Thema wird aufgrund der schwere des Vorfalles in einem eigenem Beitrag weiter behandelt.
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 20.07.2006 15:58 von Rubas | Geändert: 21.07.2006 01:05 von Rubas
Bearbeiten   Löschen
 cPanel03 : Serverausfall
Der cPanel03 war leider kurze Zeit nicht zu erreichen.

Der Raidcontroller hat sich auf dem System aufgehängt und deshalb kam es zu diesem Stillstand. Das Problem wurde behoben.

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 18.07.2006 01:32 von Rubas | Geändert: 18.07.2006 01:43 von Rubas
Bearbeiten   Löschen
 Kernel Update: Server Reboot
Nach 18:15 wird heute ein sehr dringendes Kernel Update auf dem Server cpanel04 mit anschliessendem Reboot durchgeführt.

Ich bitte um Verständnis für die kurze Vorwarnzeit und die zeitliche Ansetzung in diesem dringend Fall.


Datum: 07.07.06
Zeit: ab 18:15

Security Advisory: https://rhn.redhat.com/errata/RHSA-2006-0574.html

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 07.07.2006 18:12 von Rubas | Geändert: 07.07.2006 18:19 von Rubas
Bearbeiten   Löschen
 cPanel03: Serverausfall
Es kam heute zwischen 03:13 und 03:59 zu einem Ausfall des cPanel03 Servers.

Das Problem konnte behoben werden aber die genauen Untersuchungen zur Fehlerursache wurden noch nicht abgeschlossen.

Datum: 16.06.06
Zeit: 03:13 bis 03:59

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 16.06.2006 04:39 von Rubas
Bearbeiten   Löschen
 Kernel Update: Server Reboot
Nach 23.30 wird heute ein Kernel Update auf dem Server cpanel04 mit anschliessendem Reboot durchgeführt.

Datum: 24.05.06
Zeit: ab 23:30

Security Advisory: https://rhn.redhat.com/errata/RHSA-2006-0493.html

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 24.05.2006 11:45 von Rubas | Geändert: 25.05.2006 00:57 von Rubas
Bearbeiten   Löschen
 Kernel Update: Server Reboot
Nach 23:30 wird morgen ein Kernel Update auf den Servern cpanel02 und cpanel03 mit anschliessendem Reboot durchgeführt.

Datum: 16.03.06
Zeit: ab 23:30

Security Advisory: https://rhn.redhat.com/errata/RHSA-2006-0144.html

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 15.03.2006 19:14 von Rubas | Geändert: 16.03.2006 23:34 von Rubas
Bearbeiten   Löschen
 cPanel03: Ausfall
Der cPanel03 hat leider erneut Probleme. Wir arbeiten an einer Lösung.

Nähere Details folgen sobald bekannt.

Update - 03:08
Da der Server nicht mehr ansprechbar war, mussten wir diesen Rebooten. Beim anschliessenden Bootprozess stellte sich heraus, dass es Inkonsistenzen im Filesystem gibt. Diese versuchen wir nun zu beheben.

Update - 04:20
Der Filecheck konnte zwar abgeschlossen werden. Es wurden hierdurch jedoch zuviele Dateien beschädigt, so dass das System nicht mehr lauffähig ist.
Der Notfallplan sieht nun vor den kompletten Server neu aufzusetzen und die Backups der gestrigen Nacht einzuspielen.

Status
04:45 Installation des Grundsystemes beginnt
05:25 Grundinstallation ist abgeschlossen und cPanel Installation wird gleich gestartet
05:55 die cPanel Grundinstallation ist vollem Gange und daneben werden weitere Konfigurationen am System durchgeführt
06:30 die cPanel Installation läuft noch .. die weiteren Arbeiten wurden bereits abgeschlossen.
07:10 die cPanel Installation ist abgeschlossen
07:45 Die ersten Backups werden in den nächsten Minuten zurückgespielt. Alle Accounts mit eigener IP Adresse werden gesondert behandelt und nachträglich korrigiert.
08:15 Bereits sind 10% aller Accounts wieder zurückgespielt (in Arbeit: Buchstabe B).
08:40 20% Restore - Buchstabe D
09:00 26% Restore - Buchstabe E
09:22 32% Restore - Buchstabe G
09:48 38% Restore - Buchstabe H
10:10 45% Restore - Buchstabe K
10:30 51% Restore - Buchstabe L
10:47 56% Restore - Buchstabe M
11:14 62% Restore - Buchstabe O
11:34 65% Restore - Buchstabe P
11:55 70% Restore - Buchstabe P
12:20 76% Restore - Buchstabe S
12:44 81% Restore - Buchstabe S
13.07 85% Restore - Buchstabe S
13.37 88% Restore - Buchstabe T
13.57 91% Restore - Buchstabe T
14:11 94% Restore - Buchstabe V
14:27 97% Restore - Buchstabe Z


14:37 100% Restore
Alle Accounts wurden auf der Basis des Backups aus der Nacht vom 13.03 auf den 14.03 wiederhergestellt.

Status: Erledigt


Hinweis
Wir kennen aktuell leider noch nicht die Ursache Inkonsistenzen im Filesystem. Die Ursache kann sowohl in der Software wie auch in der Hardware liegen.

Wir planen bereits seit längerem einen Umzug in das Interxion Rechenzentrum (Glattbrugg) und nutzen diese Migration auch gleich um das komplette IT-Equipment zu erneuern. Die Migration der Server wird in den nächsten 18 Wochen stattfinden. Wir werden nun aber sicher die Migration des cPanel03 vorziehen und möglichst bald durchführen (Anfangs April).
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 15.03.2006 02:53 von Rubas | Geändert: 15.03.2006 14:39 von Rubas
Bearbeiten   Löschen
 cPanel03: DoS Attacke
Abschluss
Der Server cPanel03 war am Sonntag Abend (12.03.06) in dem Zeitfenster zwischen 19.00 und 22.00 aufgrund einer DDoS Attacke teilweise gar nicht bzw. sehr schwer zu erreichen.

Das Probleme wurden behoben und der Fall konnte abgeschlossen werden.

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 12.03.2006 20:09 von Rubas | Geändert: 13.03.2006 22:56 von Rubas
Bearbeiten   Löschen
 Kernel Update: Server Reboot
Nach 23:30 wird heute ein Kernel Update auf dem Server cpanel04 mit anschliessendem Reboot durchgeführt.

Datum: 07.03.06
Zeit: ab 23:30

Security Advisory: https://rhn.redhat.com/errata/RHSA-2006-0132.html

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 07.03.2006 17:27 von Rubas | Geändert: 08.03.2006 00:14 von Rubas
Bearbeiten   Löschen
 Switch streicht Einrichtungsgebühr
Per 1. März 2006 streicht Switch die oft kritisierte Einrichtungsgebühr von CHF 40.00 bei Neuregistrierungen und Inhaberwechsel von .ch oder .li Domains. Diese Domains kosten Sie jetzt auch im ersten Jahr CHF 35.00 anstatt wie bisher CHF 75.00.

http://www.rubas.ch/webhosting/domainregistrierung.html
http://www.switch.ch/de/id/terms/
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 01.03.2006 08:34 von Rubas
Bearbeiten   Löschen
 cPanel04: Wartung
In letzter Zeit hatten wir leider kein grosses Glück bei den Festplatten, da die neu ausgetauschen Platten bereits nach kurzer Zeit wieder Anzeichen aufwiesen, die auf zukünftige Probleme schliessen liessen. Um jegliches Risiko bereits im Vorfeld zu vermeiden, wechseln wir auch solche Festplatten unverzüglich aus.

Deshalb werden wir heute abend nochmals eine Festplatte vorsorglich im cPanel04 austauschen. Dies ist eine Routinewartung und führt nur zu einem minimalen Unterbruch (unter 10 Minuten).

Dies ist der letzt geplante Festplattenwechsel für diesen Server.

In den letzten Wochen wären damit 3 der 4 Originalplatten gewechselt worden, wobei auch 2 neu eingebaute Platten nach kurzer Zeit nochmals ausgetauscht wurden um jegliches Risiko zu vermeiden.


Datum: 22.02.06
Zeit: 00:00

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 21.02.2006 11:43 von Rubas | Geändert: 22.02.2006 00:18 von Rubas
Bearbeiten   Löschen
 cPanel04: Wartung
Da es Anzeichen eines nahenden Defekt einer weiteren Festplatte im Server cPanel04 gibt, werden wir die Festplatte erneut vorsorglich austauschen. Dies ist eine Routinewartung und führt nur zu einem minimalen Unterbruch (unter 10 Minuten).

Nach dem Neustart des Servers wird der Raid Controller alle Daten im laufenden Betrieb auch auf die neue Festplatten überspielen und damit die vollständige Redundanz des Systems wiederherstellen.


Datum: 21.02.06
Zeit: 00:00

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 20.02.2006 13:19 von Rubas | Geändert: 21.02.2006 00:19 von Rubas
Bearbeiten   Löschen
 cPanel04: Wartung
Um ganz sicher zu gehen werden wir morgen vorsorglich noch eine eine weitere Festplatte im Server cPanel04 austauschen. Dies ist eine Routinewartung und führt nur zu einem minimalen Unterbruch.

Nach dem Neustart des Servers wird der Raid Controller alle Daten im laufenden Betrieb auch auf die neue Festplatten überspielen und damit die vollständige Redundanz des Systems wiederherstellen.


Update
Leider traten bereits wieder erste Anzeichen einer Fehlfunktion bei der neuen Festplatte vom 18.01.06 auf. Wir werden nun heute diese anstelle der anderen vorgesehen Platte auswechseln müssen.
Die Situation steht aktuell unter Beobachtung und sollte sich die Lage verschlimmern, so kommt auch ein Notfalltausch während des Tages in Frage. Dies würde einen Unterbruch von weniger als 10 Minuten bedeuten.

Die andere zu erst vorgesehene Platte werden wir zu einem späteren Zeitpunkt tauschen. Dieser Wechsel ist nicht dringend und dient nur zur Präventioin, um ein eventuelles Risiko bereits im Vorfeld ausschliessen zu können.



Datum: 15.02.06
Zeit: 00:00

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 14.02.2006 00:24 von Rubas | Geändert: 15.02.2006 00:17 von Rubas
Bearbeiten   Löschen
 cPanel04: Wartung
Da es Anzeichen eines nahenden Defekt einer weiteren Festplatte im Server cPanel04 gibt, werden wir diese Festplatte vorsorglich austauschen. Dies ist eine Routinewartung und führt nur zu einem minimalen Unterbruch.

Nach dem Neustart des Servers wird der Raid Controller alle Daten im laufenden Betrieb auch auf die neue Festplatten überspielen und damit die vollständige Redundanz des Systems wiederherstellen.


Datum: 14.02.06
Zeit: 00:00

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 13.02.2006 11:17 von Rubas | Geändert: 14.02.2006 00:13 von Rubas
Bearbeiten   Löschen
 Kernel Update: Server Reboot
Nach 23:30 wird heute ein Kernel Update auf den Servern cpanel02 und cpanel03 mit anschliessendem Reboot durchgeführt.

Datum: 19.01.06
Zeit: ab 23:30

Security Advisory: https://rhn.redhat.com/errata/RHSA-2006-0140.html

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 19.01.2006 19:01 von Rubas | Geändert: 19.01.2006 23:44 von Rubas
Bearbeiten   Löschen
 cPanel04: Wartung
Da es Anzeichen eines nahenden Defekt einer Festplatte im Server cPanel04 gibt, werden wir diese Festplatte vorsorglich austauschen. Dies ist eine Routinewartung und führt nur zu einem sehr kurzen Unterbruch.

Nach dem Neustart des Servers wird der Raid Controller alle Daten im laufenden Betrieb auch auf die neue Festplatten überspielen und damit die vollständige Redundanz des Systems wiederherstellen.


Datum: 24.01.06
Zeit: 00:00

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 18.01.2006 14:51 von Rubas | Geändert: 24.01.2006 00:16 von Rubas
Bearbeiten   Löschen
 Kernel Update: Server Reboot
Nach 23:30 wird heute ein Kernel Update auf dem Server cpanel04 mit anschliessendem Reboot durchgeführt.

Datum: 17.01.06
Zeit: ab 23:30

Security Advisory: https://rhn.redhat.com/errata/RHSA-2006-0101.html

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 17.01.2006 10:04 von Rubas | Geändert: 17.01.2006 23:34 von Rubas
Bearbeiten   Löschen
 Update: cPanel 10.8.1-STABLE_114
Es wurde eine neue Version des cPanel in den "stable Tree" aufgenommen und nach unseren erfolgreichen Tests, werden nun die Server entsprechend geupdatet.

Status: Erledigt
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 16.01.2006 10:58 von Rubas | Geändert: 16.01.2006 11:26 von Rubas
Bearbeiten   Löschen
 cPanel03: Review 26.12.05
Um Ihnen einen besseren Einblick in unsere Arbeit und unser Problemmanagement zu geben, werde ich die Ereignisse des 26.12.05 detailliert in diesem Review aufrollen.


Alles begann mit der Auslösung eines Alarmes durch unser automatisches Überwachungssystem um Viertel vor eins in der Nacht.
Alle wichtigen Serverdienste werden in regelmässigen Zeitabständen durch eine externe Überwachungslösungs auf Ihre Funktionalität überprüft, wobei die Tests je nach Dienst in 1 Minuten- oder 5 Minuten-Intervallen erfolgen. Bei einer Alarmauslösung wird sofort eine SMS an alle eingetragenen Notfallhandys abgesandt um eine unverzügliche Reaktion von unserer Seite zu jeder Tages- oder Nachtzeit sicherzustellen.

So klingelte nun auch mich die Alarm-SMS aus dem Schlaf und informierte mich über ein akutes Problem mit dem cPanel03 Server. Gegen ein Uhr konnte ich mir den ersten Überblick über die Situation machen.
Gleichzeitig trafen auch bereits die ersten Support-Tickets aufgrund des Ausfalls ein, in welchen von mysteriösen Fehlern beim Aufruf der eigenen Webseiten oder gar von leeren Webverzeichnissen gesprochen wurde.

Der erste Schritte in solchen Situationen ist immer den direkten Zugriff auf den Server herzustellen um die Lage beurteilen und weitere Massnahmen einzuleiten zu können. Der Server verweigerte jedoch hartnäckige jegliche Remote Login Versuche und reagierte auch nicht auf die Anweisungen per KVM.

Für solche Situationen verfügen wir über ePower Switchs mit welchem sich der Stromnetzanschluss jedes einzelnen Servers fernsteuern lässt. Um den ersten Zugriff auf den Server erhalten, sollte nun ein Hardware Reset mit Hilfe des zuständigen ePower Switch durchgeführt werden.
Leider sind auch diese Geräte nicht ganz frei von Fehlern und der ePower Switch hatte sich bereits zu einem früheren Zeitpunkt aufgehängt. Da diese Geräte nur im äussersten Notfall zur Anwendung kommen, ist uns das Problem mit dem ePower Switch nicht früher aufgefallen.
Das heisst der Hardware Reset konnte nicht wie beabsichtigt mit Hilfe des ePower Switch durchgeführt werden, da dieser erstmal selbst vor Ort reinitialisiert werden musste.

Aus diesem Grund musste bereits zu diesem Zeitpunkt auf Kräfte vor Ort zurück gegriffen werden. Das Rechenzentrum ist rund um die Uhr während 365 Tage im Jahr mit Techniker besetzt, auf welche genau in solchen Situationen sofort zurück gegriffen werden kann. Einer der Techniker vor Ort wurde nun angewiesen ein Hardware-Reset des cPanel03 durchzuführen und sich um den ePower Switch zu kümmern.

Der Restart des Servers verlief ohne Probleme und alle Dienste funktionierten um zwanzig nach eins wieder einwandfrei. Auch eine erste tiefergehende Kontrolle aller Dienste brachte keine Fehlfunktionen zu Tage und es ging nun darum abzuklären, worin die Ursache des vorherigen Problem lag.

Sehr schnell wurde der Verdacht einer defekten Festplatte erhärtet und ich besorgte mir nun aktuelle Statusinformationen zu den einzelnen Festplatten über den Raid-Controller.
Auf dem Server kam ein Raid-5 mit 4 SCSI U320 Festplatten zum Einsatz. Wenn ein Festplattendefekt auftritt markiert der Raid Controller die betroffene Platte und nimmt sie aus dem laufenden Betrieb. Die restlichen Festplatten übernehmen nun die Aufgabe der ausgefallenen Platte und können die fehlenden Daten aus den vorhandenen Daten rekonstruieren. Zwar nimmt die Leistung des Systems bei einer ausgefallenen Platte deutlich ab, jedoch kommt es weder zu einem Datenverlust noch zu einem Unterbruch des Services.


[ Fortsetzung folgt .. ]
Diskussion Diskussion (Keine Kommentare)
 
Erstellt: 02.01.2006 20:45 von Rubas | Geändert: 03.01.2006 00:52 von Rubas
Bearbeiten   Löschen
Seite: 1 2 3 4 5 6 7 8
Neuer Newsbeitrag Neuer Newsbeitrag   News abonnieren News abonnieren