TOM 7
Rechenzentrumsausfall, Notfall, Wiederherstellung, Wiederanlauf
1. Versionen
Bearbeiter | Datum | Version | Tätigkeit |
Dieter Dunst | 04.04.2019 | v0.1 | Draft: Erstellung Strukturen |
Dieter Dunst | 08.04.2019 | v0.2 | Draft: Überarbeitung bis Punkt 8 |
Dieter Dunst | 11.04.2019 | v0.3 | Draft: Überarbeitung Punkt 8 |
Dieter Dunst | 19.11.2019 | v0.4 | Draft: Überarbeitung Gesamtdokument |
Patrik Scherer | 20.11.2019 | v1.0 | Prod: Überarbeitung und Veröffentlichung |
2. Notfallplan
2.1. Stromausfall
Bei einem teilweisen Stromausfall bei den Stromkreisen der für die IT-Systeme zuständigen Bereichen ist nicht mit einer Beeinträchtigung der Umgebung zu rechnen, da alle Systeme redundant an der Stromversorgung angeschlossen sind. Dies betrifft sowohl das Rechenzentrim IPC, als auch das Rechenzentrum CIS.
Weiterhin ist die Stromversorgung durch USVs gesichert, welche dafür sorgen, dass der Ausfall einer Anbindung das zweite Netzteil zusätzlich durch den Batteriespeicher gestützt wird.
2.2. Brand
Nach einem Brand im Gebäude, bei dem die komplette IT-Infrastruktur beeinträchtigt bzw. zerstört wurde, kann auf ein vollständiges Backup zurückgegriffen werden. Im Falle der Zerstörung des Gebäudes durch Brand und/oder Löschwasser besteht die Möglichkeit, die Umgebung auf neu zu installierenden Systemen wiederherzustellen. Dies ist aufgrund der Virtualisierung deutlich einfacher, als dies bei physikalischen Systemen der Fall wäre.
Der mögliche Datenverlust (RPO) beträgt 24 Stunden bei der Zerstörung der Infrastruktur im RZ CIS. Der Datenverlust bei der Zerstörung der Infrastruktur RZ ICP kann bis zu 3 Tage betragen, wenn die Replikation der Daten zum RZ CIS noch nicht abgeschlossen wurde.
2.3. Hardwareausfall
Da alle Komponenten, die die geschäftskritischen Systeme beherbergen, redundant ausgelegt sind, ist bei Ausfall einer Hardwarekomponente (Server, Switch, Firewall, Storage-Controller,…) keine Beeinträchtigung der Umgebung im RZ IPC zu erwarten.
Die dedizierten Systeme im RZ CIS sind nur teilweise redundant: Die Server sind Standalone-Systeme, deren Komponenten redundant gehalten sind. Bei Ausfall von systemkritischen Hardwarekomponenten sind alle virtuellen Systeme auf der Virtualisierungsplattform von dem Ausfall betroffen. Sind die Speichersysteme nicht in Mitleidenschaft gezogen worden, ist ein Umbau in einen Ersatzserver möglich, so dass nur mit geringen Datenverlust zu rechnen ist. Sollte das Speichersystem defekt sein, so müssen die Daten aus dem Backup wiederhergestellt werden.
2.4. Virus/Trojaner
Sollte es trotz der installierten Virenscanner, Proxys und Firewalls zu einer Infizierung mit einem Virus oder (Verschlüsselungs-)Trojaner kommen, so können die betroffenen Daten aus dem Backup wiederhergestellt werden.
Hierbei besteht eine maximaler Datenverlust von 24 Stunden.
Datenbanken können nur ganzheitlich zum entsprechenden Backup-Zeitpunkt wiederhergestellt werden. Transaktionsdaten können je nach Anwendung dabei helfen, die wiederhergestellten Daten näher an Verlustzeitpunkt heranzuführen.
3. Wiederherstellungsplan
3.1. Wiederherstellungsdauer virtuelle Systeme
Die Wiederherstellungsdauer der Umgebung bzw. Teilbereichen setzt die funktionsfähige, unter 5.1.3 – Wiederherstellungsbetrieb aufgelistete Umgebung voraus. Die folgende Formel stellt die Wiederherstellungszeit eines kompletten virtuellen Systems dar, wenn die Backupumgebung voll funktionsfähig ist:
t = a * (w/s + b + n)
Variablenbeschreibung:
- t – Wiederherstellungszeit
- a – Serveranzahl
- w – Wiederherstellungsmenge pro Minute
- Hochverfügbarkeitscluster: 5GB
- Dedizierte Kundenumgebung: 2GB
- s – Servergröße in GB
- b – Backupbereitstellung
- bei Verlustzeitpunkt < 4 Wochen
- Hochverfügbarkeitscluster: 1h
- Dedizierte Kundenumgebung: 2h
- bei Verlustzeitpunkt > 4 Wochen
- Hochverfügbarkeitscluster: 2h
- Dedizierte Kundenumgebung: 3h
- bei Verlustzeitpunkt < 4 Wochen
- n Nacharbeiten am System
- Hochverfügbarkeitscluster: 1h
- Dedizierte Kundenumgebung: 2h
3.2. Wiederherstellungsdauer physikalischer Systeme
Hier wird die aus 3.1. bekannte Rechnung angewandt und ergänzt. Für das erste physikalische System eines Kunden wird 1 Arbeitstag und für jeden weiteren Host 4 Stunden addiert.
3.3. Stromausfall
Eine Wiederherstellung der Umgebung aus dem Backup ist bei einem Stromausfall nicht notwendig, da bei Ausfall einzelner Stromanbindungen die Umgebung durch die redundante Stromanbindung nicht beeinträchtigt wird.
Für die Wiederinbetriebnahme der Umgebung müssen die Systeme nach dem Wiederanlaufplan 5.1- Betrieb gestartet werden.
3.4. Brand
Nach dem Ausfall der kompletten Umgebung aufgrund eines Brandes sind folgende Komponenten in der genannten Reihnfolge wiederherzustellen:
- Netzstrukturen:
- Aufbau von Switchen und Wiederherstellen der Konfiguration aus dem Backup
- Aufbau der Firewalls und Wiederherstellen der Konfiguration aus dem Backup
- Internetanbindung durch RZ-Anbieter
- Serversysteme:
- Aufbau von mindestens einem Virtualisierungs-Host
- Installation der Virtualisierungssoftware (VMware)
- Installation eines Systems als VM
- Installation der Backupsoftware (Veeam)
- Einbinden der Backup-Repositorys
- Wiederherstellen der Serversysteme auf die Virtualisierungs-Hosts
3.5. Hardwareausfall
3.5.1. Rechenzentrum „IPC“
Bei einem Ausfall einer der redundant vorhandenen Komponenten ist ein Austausch dieser Komponente ohne Ausfallzeit der Umgebung im RZ IPC möglich. Zusätzlich kann die Unterstützung des Herstellers beauftragt werden, der die ausgefallene Komponente austauscht.
3.5.2. Rechenzentrum „CISDS“
Im CIS-RZ ist bei Ausfall der Serverhardware mit einem Ausfall zu rechnen, bis die Hardware ersetzt wurde. Hierzu sind die Systeme zu berücksichtigen, die unter 3.3 – Brand aufgelistet sind. Die Wiederherstellung der Umgebung ist abhängig von der Verfügbarkeit der Hardware und der unter 3.1 – Wiederherstellungsdauer zu berechnenden Wiederherstellungszeit.
3.6. Virus/Trojaner
Nach einer Infizierung eines oder mehrerer Systeme mit einem Virus oder Trojaner sind nach der Feststellung des Befalls die infizierten Systeme von der restlichen Umgebung zu isolieren. Das System bzw. die Systeme sind dann mit einer aktuellen Antivirenversion oder einer Bereinigungs-CD zu kontrollieren. Hierbei kann nicht auf die Daten zugegriffen werden. Sind die Daten verschlüsselt, so ist das System aus dem Backup wiederherzustellen und sicherzustellen, dass kein Viorus oder Trojaner mehr in der Umgebung vorhanden ist.
4. Wiederanlaufzeit
4.1. Teilausfall
Bei einem Teilausfall der Umgebung müssen Systeme, die nicht redundant vorhanden sind, aus dem Backup wiederhergestellt werden. Die Wiederherstellungszeit richtet sich hierbei nach der wiederherzustellenden Datenmenge und der gegebenenfalls nachträglich zu erbringenden Anpassung/Aktualisierung des Systems auf den aktuellen Stand.
Bei redundant vorhandenen Systemen ist abgesehen von eventuellen Performanceeinbußen nicht mit einer Beeinträchtigung der Umgebung zu rechnen.
4.2. Komplettausfall
Nach einem Komplettausfall der Umgebung mit Zerstörung der vorhandenen Hardware ist die Wiederherstellungszeit abhängig von folgenden Punkten:
- Ersatzbeschaffung der Hardware (Server, Netzkomponenten)
- Wiederherstellung der Infrastrukturen (Firewall- und Switchkonfigurationen)
- Wiederherstellen der virtuellen Infrastrukturen
- Wiederherstellung der Backupstrukturen
- Wiederherstellung der Umgebung aus dem Backup
- Anpassung der wiederhergestellten Umgebung auf den letzten verfügbaren konsistenten Datenbestand
5. Wiederherstellungspunkt & – ziel
5.1. Betrieb
5.1.1. Minimalbetrieb – Erreichbarkeit
Der Minimalbetrieb für die Erreichbarkeit der CIS besteht aus:
- Domänenstrukturen eitie & CIS-RZ
- Telefonanlage
- DHCP
- Mailserver
- Mailgateways
- Anwendungsserver CIS
- Supportserver
Für den Minimalbetrieb sind folgende Systeme notwendig:
- Netzwerkumgebung
- Virtualisierungssysteme
- Domaincontroller
- Telefonserver
- Mailserver
- Mailgateways
- Anwendungsserver CIS (Genesis World – Kundendaten)
- Supportserver
Die Wiederherstellung der Systeme für den Minimalbetrieb wird bei vollständig[1] wiederherzustellenden Systemen mehrere Stunden in Anspruch nehmen, in Abhängigkeit von der wiederherzustellenden Datenmenge. Dies setzt eine funktionierende Infrastruktur voraus (Netzwerkstrukturen, Virtualisierungsumgebung, Support-Server, Backup-Umgebung).
5.1.2. Erweiterter Minimalbetrieb
Der erweiterte Minimalbetrieb umfasst neben der Erreichbarkeit der CIS zusätzlich den Zugang zu den Kundensystemen. Hierzu werden noch folgende zusätzliche Systeme benötigt:
- Kunden-Anwendungsserver
- Kunden-Terminalserver
- Fileserver
- Sessionbroker für mehrfache Kunden-Terminalserver
- Profilserver für mehrfache Kunden-Terminalserver
- Bei dedizierten Systemen:
- Dedizierter Fileserver
- Sessionbroker für mehrfache Kunden-Terminalserver
- Printserver
5.1.3. Wiederherstellungsbetrieb
Für den Wiederherstellungsbetrieb werden diejenigen Systeme benötigt, die zur Rücksicherung der Serverumgebung notwendig sind. Folgende Komponenten sind hierfür notwendig:
- Netzwerkumgebung
- Virtualisierungssysteme
- Domaincontroller
- Backupserver
- Backupstorage
5.2. Vollumfängliche Wiederherstellung
Die Wiederherstellung aller Systeme für die vollständige Wiederherstellung wird bei vollständig wiederherzustellenden Systemen einige Stunden in Anspruch nehmen, in Abhängigkeit von der wiederherzustellenden Datenmenge. Dies setzt eine funktionierende Infrastruktur voraus (Netzwerkstrukturen, Virtualisierungsumgebung, Support-Server, Backup-Umgebung), siehe auch 5.1.3.
Bei der kompletten Wiederherstellung aller Systeme wird nach der Wiederherstellung der für den Minimalbetrieb notwendigen Systeme ein Zwischenziel erreicht, mit dem die CIS-Mitarbeiter zum Teil wieder arbeitsfähig sind. Hierfür ist die Reihenfolge der wiederherzustellenden Systeme zu beachten.
Erst nach der kompletten Wiederherstellung der Kundensysteme sind die Kunden wieder arbeitsfähig. Bei der Reihenfolge ist zu beachten, dass die zentralen Ablagen oder Sessionbroker vorrangig wieder hergestellt werden. Sind die für einen Kunden notwendigen Systeme wiederhergestellt, ist der jeweilige Kunde arbeitsfähig. Hierbei kann nur ein Kunde nach dem Anderen wiederhergestellt werden, so dass es einige Zeit dauern wird bis zur vollen Arbeitsfähigkeit aller Kunden.
6. Notfallsysteme
Für den Notfall ist eine separate VPN-Einwahl auf die Firewall für den Fernzugriff möglich, so dass auch remote Wartungsarbeiten und Notfallmaßnahmen getroffen werden können.
Die Zugriffsmöglichkeiten auf die Serverhardware beschränkt sich auf den physikalischen Zugang zum RZ IPC und RZ CIS und der verschlüsselte Zugriff auf IPMI-Karten in den Servern, über den auch direkt auf die Serversysteme zugegriffen werden kann.
7. Kritische Systeme
Folgende physikalischen Systeme werden als geschäftskritisch eingestuft:
System | Aufgabe |
CIS-IPC-ASA01 CIS-IPC-ASA02 |
Zentrale Firewalls |
CIS-IPC-VPN01 CIS-IPC-VPN02 |
Zentrale Einwahl Kundensysteme |
CISRZ-SW101 CISRZ-SW201 CISRZ-SW202 |
Zentrale Switchinfrastruktur |
CIS-IPC-SW10 | Storage-Switch |
CISRZ-DPV01 CISRZ-QNAS02 CISRZ-QNAS03 |
Storagesysteme |
CISRZ-ESX0x
CISRZ-PVE0x |
Virtualisierungs-Hosts |
CISRZ-SUP01 | Support-Server |
CISRZ-VBS01 | Backupserver |
CISRZ-BNAS01 CISRZ-BNAS02 CISRZ-BNAS03 CISKA-BNAS01 |
Backup-Repositories |
Folgende virtuellen Systeme werden als geschäftskritisch eingestuft:
System | Aufgabe |
CISRZ-ADC01 CISRZ-ADC02 |
Domaincontroller CIS-RZ.net |
EITIE-ADC03 EITIE-ADC04EITIE-ADC05 |
Domaincontroller eitie.de |
EITIE-TK01 | Telefonserver |
EITIE-MX01 | Mailserver Exchange |
EITIE-DHCP01 | DHCP-Server |
CISKA-APP01 | Genesis World |
CIS-KAD-SGW01
CIS-KAD-SGW02 |
Mailgateway |
CISRZ-SUP01 | Supportserver (RZ) |
EITIE-SUP01 | Supportserver |
CISRZ-ADC01
CISRZ-ADC02 |
Domaincontroller Verwaltungsumgebung |
8. Systembeschreibungen
8.1. Systemarchitektur
Die Kunden der CIS arbeiten nach einer Terminalserver-Struktur. Die Server bilden die Grundlage zum Erbringen der Geschäftstätigkeiten.
8.2. Netzwerkelemente
- Internetanbindung:
- Eine redundante 1GBit-Anbindung im RZ ICP
- Eine 10GBit- Glasfaserverbindung zwischen RZ ICP und RZ CIS
- Zentrale Switche:
- Um die Redundanz zu gewährleisten, werden im RZ IPC zwei zentrale Switche eingesetzt.
- Im RZ IPV wird ein Switche mit redundaten Komponenten eingesetzt.
- Firewalls:
- Als Firewalls kommen zwei Cisco ASA zum Einsatz, welche im Cluster für Ausfallsicherheit sorgen.
- Alle Zugriffe zwischen den einzelnen Netzsegmenten wird über die Firewall gesteuert.
- Änderungen an der Konfiguration werden beim Speichern auf einen Server gesichert, so dass diese Änderungen nachvollzogen werden können.
- VPN-Einwahlen:
- Auf einer Cisco ASA terminieren die VPN-Einwahlen für Benutzer.
- Site-to-Site-Verbindungen:
- Auf zwei zu einem Cluster geschaltete Cisco ASA terminieren die statischen VPN-Tunnel aller Kundensysteme.
8.3. Backupumgebung
Das Backup erstellt jeden Tag eine Sicherung aller virtuellen Systeme. Hierbei wird einmal monatlich eine aktive Vollsicherung erstellt und jeden weiteren Tag eine inkrementelle Sicherung auf Blockebene. Die Backupsoftware ist in der Lage, aus einer Vollsicherung und der jeweiligen inkrementellen Sicherung ein vollständiges Image zur Wiederherstellung zu erstellen, so dass immer ein konsistenter Zustand wiederhergestellt werden kann. Die Backups aus dem RZ IPC werden im CISRZ gesichert, während die Backups der Systeme aus dem CISRZ auf Speichersystemen im IPC gesichert werden.
Zusätzlich werden Sicherungen einmal monatlich auf ein externes Storage repliziert, welches alle 2 Monate komplett vom Netz getrennt aufbewahrt wird.
Die Backupumgebung ist vom Produktiv- und Storagenetz durch VLANs getrennt.
8.4. Betriebliche IT-Systeme
Die zum Betrieb notwendigen Systeme sind unter Punkt 5.1 – Betrieb aufgelistet.
8.5. Sicherheit
Folgende Sicherheitsmaßnahmen für die Umgebung wurden getroffen:
- Zugangsschutz Hardware:
- Der Zugriff auf die Hardware kann nur auf zwei Wegen erfolgen:
- Physikalischer Zugriff im jeweiligen RZ
- Remotezugriff auf Verwaltungskarten/-konsolen mittels Login
- Zugangsschutz Software:
- Zugriff auf verwaltungstechnische oder betriebliche Anwendungen werden duch Logindaten geschützt. Die administrativen Zugriffe sind in einer verschlüsselten Kennwortdatenbank (KeePass) hinterlegt.
- Logging:
- Änderungen an der Firewall oder den zentralen Switchen werden bei jeder Speicherung auf einen Server gesichert, so dass Änderungen nachvollzogen werden können. Weiterhin werden Syslog-Daten von einzelnen Komponenten aufgezeichnet.
- Authentifizierung:
- Alle Zugriffe auf die Umgebung werden über das Active Directory der Domäne authentifiziert. Änderungsrechte innerhalb des AD haben nur namentliche Administratorbenutzer. Diese haben keine Domänenadminrechte.
- Alle Authentifizierungen innerhalb des Verwaltungsnetztes werden über einen separaten Domänencontroller gesteuert und sind unabhängig von der Domäne der Kundensysteme.
- Administratoren:
- Administratoren in der Verwaltungsumgebung sind Mitglieder der Gruppe „Protected Users“, welche zusätzlichen Schutz vor Sicherheitsbedrohungen bietet.
- Alle Administratoren sind namentlich erfasst und haben ein eigenes Login.
- Kein namentlicher Administrator hat das Recht „Domänen-Administrator“.
- Berechtigungsstufen:
- Alle administrativen Berechtigungen werden über Gruppen des AD gesteuert. Jeder Benutzer hat die für ihn notwendigen Rechte, um seine Arbeit durchführen zu können.
- Benutzer, die administrative Rechte für bestimmte Arbeiten benötigen, bekommen diese Berechtigungen durch entsprechenden Gruppen im AD.
- Zugriffe auf Dateiebene werden über Berechtigungsgruppen im AD zugewiesen. Benutzer, die auf bestimmte Verzeichnisse keinen Zugriff besitzen, bekommen diese ausgeblendet.
- Antivirus:
- Alle Server- und Clientsysteme haben einen aktuellen Antivirus-Client installiert. Sollte der Client für einen Zeitraum von mehr als 7 Tagen keine aktuellen Updates laden, so wird eine Alarmierung an eine Verteilergruppe gesendet.
- Windowsaktualisierung:
- Alle Server- und Clientsysteme werden durch einen WSUS-Server mit aktuellen Updates von Microsoft versorgt. Die Freigabe der aktuellen Updates erfolgt teilweise automatisch. Für kritische Maschinen wird eine manuelle Freigabe von Updates vorausgesetzt. Diese Updates werden einmal monatlich kontrolliert und nach Kundenrücksprache installiert.
- Sabotage:
- Löschen/Überschreiben von Dateien:
- Der Zugriff auf Dateien ist über Gruppen eingeschränkt.
- Alle Dateien vom Dateiserver werden als Schattenkopie für einige Zeit aufbewahrt, unabhängig vom Backup.
- Alle Serversysteme werden täglich auf ein per VLAN getrenntes System gesichert.
- Netztrennung:
- Alle Netze werden durch VLANs voneinander getrennt.
- Zugriffe von einem Netz in ein anderes erfolgt ausschließlich über die Firewall.
- Zugriff auf das Verwaltungsnetz (IPMI-Karten, Konsolen) haben nur ausgewählte Administratoren, welche namentlich erfasst sind.
- Das Verwaltungsnetzt ist über eine eigene Struktur abgebildet.
- Löschen/Überschreiben von Dateien:
- Der Zugriff auf die Hardware kann nur auf zwei Wegen erfolgen:
[1] Ist das System vorhanden, so kann eine Wiederherstellung im Hochverfügbarkeitscluster auch auf Blockebene durchgeführt werden. Hierzu werden nur Blöcke wiederhergestellt, die sich vom Backup unterscheiden. Dies beschleunigt den Vorgang erheblich. Ist das System nicht mehr vorhanden, so sind die kompletten Daten wiederherzustellen.