Aktuelles

Stromausfall sorgt für große Probleme

veröffentlicht am 18. August 2010 von Markus

Ein großflächiger Stromausfall im gesamten Erfurter Zentrum hat am Montag, dem 16. August, auch bei uns für große Probleme gesorgt. Schuld für die Nichterreichbarkeit aller unserer Server war eine defekte USV-Anlage im Rechenzentrum der KeyWeb AG.

Um 13:18 Uhr am Montag war der Innenstadtbereich Erfurts plötzlich ohne Strom. Lichter gingen aus, Straßenbahnen blieben stehen, und auch alle Server des Erfurter Rechenzentrums gingen kurz nach dem Zusammenbruch der Stromversorgung einfach aus. Grund für den totalen Ausfall waren Bauarbeiten, die scheinbar schief gegangen sind.

Bedingt durch einen Defekt einer von zwei vorhandenen USV-Anlagen konnte das Notstromsystem des dritten Rechenzentrums der KeyWeb AG, in welchem all unsere Server untergebracht sind, nicht eingreifen. Daraus resultierte ein stundenlanger Komplettausfall. Durch den abrupten Stopp der Maschinen wurde das Netzteil unseres Haupt-Servers in Mitleidenschaft gezogen und konnte aufgrund der Menge der von Schäden betroffenen Server erst am späten Nachmittag des 17. Augusts repariert werden. Ein Backupserver hat die Dienste seit circa 22.10 Uhr eingeschränkt übernommen.

Durch einen unglücklichen Umstand wurde die Zwischenverbindung unserer Datenbankserver unterbrochen, was dazu führte, dass die Datenstände der beiden Master-Server auseinander liefen (inf. Split Brain). Die Konsistenz der Daten war somit nicht mehr gewährleistet. Durch den schadensbedingt fehlenden Monitoring-Server konnte diese Situation nicht zeitnah erkannt werden. Die Wiederherstellung der Replikation war sehr zeitaufwändig und hat sich bis vor wenigen Minuten als sehr schwierig gestaltet. In den kommenden Stunden wird ein selbstentwickeltes Tool die Datenstände beider Master-Server ermitteln und gegebenenfalls noch einmal abgleichen.

Über unseren Twitter-Account informieren wir zeitnah über den aktuellen Status unserer Infrastruktur, sowie über allgemeine Informationen rund um picload.org. Es lohnt sich uns über Twitter zu folgen.

Wir möchten uns in aller Form für die entstandenen Unannehmlichkeiten entschuldigen und hoffen auf Verständnis für den stundenlangen Ausfall.

So, das war es erst mal von uns und dem Stromausfall.

Herzliche Grüße,
Markus & Tim

Einfach ausgetauscht

veröffentlicht am 1. Juli 2010 von Markus

Knapp zwei Wochen ist es nun her, dass unsere komplette Datenbank-Replikation einfach ihren Dienst niedergelegt hat. Vor zwei Tagen hat der Master plötzlich schonwieder angefangen zu zucken, und hat einige Datenbestände einfach vergessen, und das obwohl wir so gut wie die komplette Hardware der Server getauscht haben am 17. Juni.

Ich hatte eh schon ein unwohles Gefühl bei der Sache, denn so richtige Hardware-Probleme wie eine abgerauchte CPU oder RAM-Riegel mit defekten Sektoren gab es schließlich nicht. Wenn das Mainboard die Netzwerkkarte aber einfach so nicht mag, dann sind uns da auch leider die Hände gebunden, und jede Woche ins Rechenzentrum fahren, um die Kisten zu streicheln, was nach eigener Erfahrung und auch laut Aussagen eines Technikers im Rechenzentrum bekanntlich zumindest temporär hilft, ist für uns keine wirkliche Lösung.

Also haben wir bereits am 17. Juni wieder einmal mit den beiden netten Damen der Abteilung "Vertrieb Großkunden" Kontakt aufgenommen, um uns über aktuelle Server als Ersatz für die in die Tage gekommen Datenbank-Server zu informieren. Nach ein paar E-Mails und Telefonaten lag uns dann am 24. Juni ein Angebot vor, welches wir sozusagen nicht ablehnen konnten.

Seit zwei Stunden etwa läuft nun unser komplett neuer Datenbank-Cluster mit ganz frischer Hardware. Als Master läuft ein Intel Pentium Core2Quad Q6600 mit vier Kernen je 2.400 MHz und 4 GB Arbeitsspeicher. Im Slave arbeitet sogar ein Intel Pentium Core2Quad Q9300 mit vier Kernen je 2.500 MHz und ebenfalls 4 GB Arbeitsspeicher. Die Engpässe gab es bisher immer beim Rechnen, weswegen wir uns in beiden Maschinen für dickere Prozessoren entschieden haben.

Die angekündigten Optimierungs-Arbeiten haben auch schon erste Erfolge gezeigt. Mittlerweile haben die Server mehr Schreib- als Lesezugriffe, was insofern gut ist, da unsere Software über 90% aller Leseabfragen bereits aus dem Memcache-Speicher bedienen kann. Einige Abfragen, die bis jetzt noch auf die Datenbank direkt gehen, können wir noch abfangen, aber es gab noch keinen Bedarf.

Und nun lehnen wir uns ersteinmal zurück, und verfolgen gespannt auf dem Monitor(ing), wie die beiden Neuen sich an ihrem ersten Tag in der toFOUR-Familie so machen.

Sonnige Grüße aus Thüringen senden euch,
Markus und Tim

Pleiten, Pech und Pannen

veröffentlicht am 17. Juni 2010 von Markus

Jetzt hat uns Murphy aber richtig quer unter der Nase liegen. Am Montag hat er unseren Master Datenbank-Server geschrottet, und am Mittwoch war dann auch noch unser Slave, der seit dem ersten Ausfall die komplette Datenbank-Geschichte übernehmen musste, dran. Ganz ehrlich: Bis jetzt haben wir noch keine Ahnung, was die Server eigentlich so verärgert hat, dass sie ihren Dienst nun komplett verweigern.

Von einer auf die andere Minute ist am Montag der Master Datenbank-Server ausgefallen. Natürlich haben wir gleich zum Telefonhörer gegriffen und Arbeitsspeicher, Netzwerkkarten und was sonst noch so öfter an Hardware kaputt geht wechseln lassen. Leider half das nicht wirklich weiter, weswegen wir ersteinmal den ganzen Datenbankbetrieb auf den verbleibenden Server umgestellt haben, um in Ruhe am Master zu werkeln.

Am Abend wurden dann die Festplatten getauscht und das System neu aufgesetzt, kurz nach 2 Uhr in der früh lief dann auch eigentlich alles wieder zu unserer Zufriedenheit. Das Wörtchen "eigentlich" trifft es dabei ganz passend. Kleinere Aussetzer, die wir als Schluckauf interpretiert haben, gab es noch, bis dann am frühen Mittwoch Abend der Server erneut ausfiel. Diesmal blieb er einfach ganz hängen und zeigte mal etwas andere Fehler-Symtome; verfiel aber recht schnell wieder in alte Muster.

Zu allem Überfluss hat der zweite Datenbank-Server kurz nach 22 Uhr das zeitliche gesegnet, indem er es seinem Bruder einfach nachgemacht hat. Gleiche Symtome, gleiches Problem.

Durch dieses ganze hin und her ist natürlich eine gewisse Inkonsistenz der Daten entstanden, für die wir uns natürlich vielmals entschuldigen wollen. Ein paar Bilder und ein paar neue Benutzer haben es leider nicht rübergeschafft auf den neuen Behelfs-Server.

Da uns so langsam die Datenbank-Server ausgehen, mussten wir uns, um die Seite online zu halten, nun an einem Server vergreifen, der eigentlich alles - außer Datenbanken verwalten - machen muss. Es kann also passieren, dass wir die Zählung der Hits und Besucher auf die Bilder abschalten müssen, da diese Funktionen sehr anstrengend werden könnten für den kleinen Server.

Bis wir vom Rechenzentrum die Gewissheit haben, dass wir keine neueren Daten aus den beiden Servern mehr rausziehen können, um den derzeitigen Datenbestand zu aktualisieren, bleibt der Bilder-Upload geschlossen, da sonst noch mehr durcheinander kommen kann. Wir bitten auch diesen Umstand zu entschuldigen.

Über den aktuellen Status halten wir euch per Twitter und zusammengefasst natürlich hier auf dem Laufendem.

Wir danken euch für euere Geduld und versprechen euch, dass wir wirklich Alles geben, um die Probleme so schnell wie möglich in den Griff zu bekommen.

So. Jetzt wisst ihr Bescheid.
Es grüßen euch,
Markus und Tim

Update 17. Juni 2010, 04:41 Uhr:
Soeben wurden die Mainboards und nochmals der gesamte Arbeitsspeicher getauscht und die Systeme neu aufgesetzt. Die Konfiguration und die Einrichtung der Datenbank-Server wird allerdings noch einige Stunden auf sich warten lassen. Bis zum großen Besucheraufkommen in den Abendstunden haben wir die Last wieder auf den Cluster verteilt.

Update 17. Juni 2010, 18:07 Uhr:
Mittlerweile läuft die Datenbank-Replikation seit 15:50 Uhr wieder stabil auf beiden Servern. Die komplette Neuinstallation des Clusters haben wir gleich genutzt, um unsere Konfiguration abermals zu optimieren.
Feedback
Cookies helfen uns bei der Bereitstellung unserer Dienste. Mit der Nutzung unserer Website stimmst du unserer Verwendung von Cookies zu.