logo lauerturm (35 kb)
news
turniere
termine
download
dwz
pressearchiv
album
links
kontakt
impressum
user
datei
Notiz
Forum


Legende:
- 2 Tage
- 1 Woche
- 4 Wochen
- 8 Wochen
- 6 Monate
älter

7315851 Besucher seit 03/2011

Schachklub 1926 Ettlingen e.V.

Berichte

08.07. Monatsblitzturnier - 09.07. Joß-Fritz-Open - 29.07. offene Vereinsmeisterschaft

Ende Ende
07.06.2022 20:42 homepage KategorietrennerServerausfall Thomas Batton
Der ein oder andere wird es bemerkt haben, wir hatten heute/gestern auch einen mehrstündigen Serverausfallsmilie. Nun, Ausfall ist nicht ganz richtig, das betraf nur die erste Viertelstunde. Danach war es eine Fehlfunktion.

Der Reihe nach. Weil ich gestern abend gut gelaunt war und Zeit hatte, kam ich der Bitte des Ubuntu 21.10 ("impish indri") nach (bis vor kurzem die aktuelle Version), seinen Nachfolger 22.04 ("jammy jellyfish") zu installieren. Die tatsächliche Serverdowntime von 22:00 gestern abend bis etwa 22:15 rührte von der Installation her, irgendwann werden halt die Services runtergefahren und upgedated. Nach dem Neustart um 22:15 hatte ich nur das Problem bemerkt, dass ubuntu mich ausgesperrt hattesmilie, weil der ssh-login mit Zertifikat nicht mehr ging, bin ich halt auf Passwort zurück und gut war'ssmilie. Dachte ich... und ging demnächst smilie

Hab dann heute 11:45 gemerkt, dass die Webseite nicht zu antworten scheint, es erscheint eine leere Seitesmilie. Allerdings, der Server läuft, sieht man sich den Sourcetext an, kommt das php-Original, was nicht der Sinn der Übung ist, aber beweist, dass der apache läuft, bloss der php-Interpreter davor halt nicht. 23 Minuten später informiert mich Klaus Müllersmilie, danke, aber ich war (diesmal! zufällig!) schneller. Nach der ersten Viertelstunde tatsächlichem Ausfall waren jetzt also 13,5 Stunden Serverblindflug aufgelaufen, weil es halt nix nutzt, wenn er läuft, das aber falsch machtsmilie.

Um 11:45 begann dann Phase 3, die Reparatur. Erste Feststellung, es hat ein php-Update gegeben von 8.0.x auf 8.1.y. Das wird als neue Software installiert. Allerdings hat die ubuntu-Installation darauf verzichtet, dem apache2 die neue Version zu konfigurieren und die alte (deinstallierte) in der Apachekonfiguration dringelassen. Möglicherweise hängt das mit meinen Antworten auf die vielen ja/nein-Fragen während des OS-Updates zusammen, wo ich bei jeder Konfiguration, die ubuntu als vom Standard abweichend sieht, "alte behalten" statt "neue übernehmen" ausgewählt habe. Nun ja, es musste für den apache php8.1 enabled werden statt des Vorgängers, das war leicht, half aber (noch) nicht. Dann fehlten dem php ein Sack extensions, auch das war leicht, half aber immer noch nicht. Den entscheidenden Hinweis gab phpinfo(), was ich immer auf einer nicht verlinkten Seite installiert habe und sich mit meiner (nicht 100% aber im Wesentlichen) ähnlichen Testinstallation auf einem Windowsrechner vergleichen lässt, mindestens mit mysqli wurde ein Modul nicht gefunden, obwohl er installiert war, aber nach mehrfachem apache-Neustart immer noch nicht angezeigt wurde. "Boot tut gut" trifft zwar meistens bei Windows zu, diesmal aber auch ubuntu, danach war alles grün, 14:15 und es sieht für mich aktuell nebenwirkungsfrei aussmilie. also 0:15 für OS-update, 13:30 fürs Trödeln, 2:30 für die Reparatursmilie. Das geht noch, kann man aber auch verbessern und ich überleg mir noch ein paar Schrittesmilie.

Zum "auch" im ersten Satz: das bezieht sich auf den Server des SVW, der die Systeme MIVIS (Mitgliederverwaltung) und DEWIS (DWZ-Verwaltung) hostet(esmilie), seit dem 14.05. down ist und bis heute nicht reanimiert istsmiliesmilie, das sind 3,5 Wochensmilie. War für mich unfassbar, bis nach 2,5 Wochen downtime (doch sehr zeitnahsmilie) diese DSB-Meldung erschien. Die Formulierung drückt sich um die Details, sieht aber für mich sehr danach aus, dass weder ein Standbyserver, noch eine Testmaschine vorhanden war und zusätzlich seit (sehr?) vielen Jahren keine Updates gefahren wurden. Das "Neuaufsetzen" eines Servers, von dem vor 3 Wochen die Rede war, kann allein nicht so ein Problem darstellen. Wenn man alle Sourcen überarbeiten muss, weil man seit 10 Jahren alle deprecated-Warnungen ignoriert hat (bloss eine Vermutungsmilie), und keine Methoden hat, das automatisch zu tun (also in allen Sourcen dieselben Stellen passend zu ändern) oder die Idee hat wrapper zu schreiben (die deinstallierte Funktionen schlicht nachbauen), dann wird's übelsmilie.

Ich hab im beruflichen Umfeld Versionen von php4 und php5 vor Kurzem noch im Einsatz gesehen, Datenbank, apache, security mal alles weggelassen, auch Elend. Wer sowas hat und den Server neu aufsetzen muss ohne eine eigene installierbare Sicherung (auf altem Stand!), kriegt vom Provider ein aktuelles ubuntu, (debian,... sonstwas), php 8x, mysql 5x, apache 2.4.viele, und hat danach beim Hochspielen seiner config und Sourcen viel Spass und ersäuft in Fehlermeldungen, falls überhaupt irgendwas zucktsmiliesmiliesmilie.

Was ist unser Stand (SKE)?.
a) Webserver und Mailserver sind getrennt. Der Webserver ist ein rootserver, aber ein vserver würde es tun. Der Mailserver ist ein vserver. Server für verschiedene Zuständigkeiten zu trennen, habe ich anfangs des Jahrtausends gelernt. (Anmerkung des Säzzers: Das Geld sollte der DSB haben, ein vserver, der für DEWIS und MIVIS locker ausreicht ist für ca. 8€/Monat auch bei guten Providern verfügbar. Nimmt man 2, kann man einen Testserver live halten. Bei 3en sogar einen Standbyserver. Die 3 wären noch billiger als unser Rootserver, etwa die Hälftesmilie) Ausserdem haben wir einen 2. vserver als Spielwiese, wird momentan der Blitzmarathon gehostet, kann ich aber jederzeit anders verwenden.

b) tägliche Gesamtsicherung des Web- und Mailservers, 2 Vollversionen werden aufbewahrt. Kann sein, dass das zu wenig ist, die cloud hat genug Platz für mehrsmilie. Die Sicherung geht in die Cloud (2TB für 10€/Monat). 3-stündliche Sicherung der Datenbanken, alle 3 Stunden eines Tages, die letzten 30 Tage und ALLE Wochenanfänge sind gesichert.

c) Testmaschine ist der oben erwähnte Windowsrechner, der aktuell meine private Maschine ist, nicht im Rechenzentrum steht, aber 3 Kumpels hat, die größtenteils synchron sind.

d) das Neuaufspielen eines (ich nehm dann immer die aktuelle Version) ubuntu (mein Favorit seit vielen Jahren) unseres Providers Hetzner macht das Rechenzentrum.

machen wir den worstcase, Maschine reagiert nicht, muss geplättet werden
d1) Zeitachse vielleicht 0-24 Stunden: bis der Webmaster das bemerkt oder mehrere Mails oder Anrufe hat
d2) die nächsten 2 Stunden, um die Schwere des Falles einzuschätzen. Vielleicht ist ja fast nix los, wie bei dem heute Mittag beobachteten Fall. Sieht das nicht leicht aus, dann Auge zu und durch
d3) Hetzner installiert neues Ubuntu und plättet dabei die Maschine, dauert etwa 30 Minuten. Dann kriege ich eine Mail mit dem neuen Rootpasswort.
d4) das OS ist minimal, kann also nix ausser laufen; jetzt werden (Bauernmethode) mit einfachem grep aus den logfiles der letzten Versuche die "apt-get install" commands abgefahren, die ich in der vorigen halben Stunde schon zusammengesucht habe. Könnt man auch mal auf Stand bringen und dokumentieren, aber das ist so easy...smilie Danach ist der apache da, certbot, fail2ban, mariadb, php, meine lieblingsshell tcsh. Zeitdauer, naja vielleicht 30-60 Minuten.
d5) jetzt erst die shell konfigurieren. dann den apache. dann php; am ende die letzte Datenbanksicherung hochladen und importieren. Das alles kostet 1-2 Stunden.
d6) Jetzt kommt die Zeit der Enttäuschungensmiliesmilie. Alles ist richtig, aber es läuft trotzdem irgendwas schief. Da kommen noch 1-4 Stunden Detektivarbeit, wenn zwischendrin keine neuen Softwareversionen aufgelaufen sind und man gut gearbeitet hat, kann das auch nahe null oder richtig null sein, hab ich schon gehabtsmilie. Wenn der Zeitpunkt ungünstig ist, geh ich ins Bett und mach am nächsten Morgen mit frischem Koffein weiter.
d7) Das war's dann aber auch. Vorerst. In den nächsten Tagen tauchen vereinzelte Fehlermeldungen auf. In exotischen Situationen (nicht für Normaluser sichtbar) ist es relevant, dass die xml- und zip- Schnittstellen laufen. Kleinkäse halt. Summa summarum können 24 Stunden für's Bemerken draufgehen und bei schlechtem Lauf das Doppelte zum Wiederanlauf. Ich hab das Elend mehr als 6-mal gehabt, auch im Rechenzentrum rauchen Platten ab, die italienische Mafia hatte vor knapp 20 Jahren schon meinen Rootserver attackiert, Motto ist einfach, be preparedsmilie (Pfadfinder) und strukturiertsmilie.

Falls ich dem DSB was raten wollte, ein eigener vserver für DEWIS/MIVIS (nicht DSB-Server, nicht SVW-Server) mit Testmaschine parallel wäre das Minimum, die updates fährt man alle zeitnah, immer zuerst auf der Testmaschine, logisch, mit wem red ich dennsmilie, wir sind doch alle Profis. Purer Luxus wäre ein Standby-Server, muss nicht mal hot sein, aber anknipsbar. Sicherungen DB und Server zeitnah in Billigcloud (siehe oben). Blockademassnahmen gegen Angriffe (fail2ban u.a.). Beobachtung der Logfiles auf Unregelmässigkeiten, weitere Monitoringoptionen sind sinnvoll, laufen bei uns auch, erzähl ich jetzt aber nicht coram publico.

Auch eine Frage: Was ist der Stand BSV? Vor gut einem halben Jahr (29.11.2021) wurden Helfer für das webteam gesucht, habe mich angeboten, wurde akzeptiert, es gab noch eine Mail (17.02.2022), dass demnächst ein Online-Meeting stattfindet, das war's dann mal bis heute.smiliesmilie
[ 5 Kommentare]
Anfang Anfang

angemeldete Benutzer können Einträge/Kommentare erfassen.

  

home - deep link - Letze Änderung Darstellung: 06.09.2012 20:41:56, Inhalt: 30.06.2022 21:28:47 - Aufrufe: 0

nicht angemeldet - browser: NN/NN OS: NN check: PHP

Laufzeit Server= 0.809 sekunden Uhrzeit Server (Ende)=03.07.2022 16:28:21