Aufbau einer Hochverfügbarkeitslösung für den Bankensektor
Aus Winfwiki
|
Fallstudienarbeit | |
| Hochschule: | Hochschule für Oekonomie & Management |
| Standort: | Düsseldorf |
| Studiengang: | Bachelor Wirtschaftsinformatik |
| Veranstaltung: | IT-Infrastrktur |
| Betreuer: | Dipl-Inf. (FH) Christian Schäfer |
| Typ: | Fallstudienarbeit |
| Themengebiet: | Hochverfügbarkeit |
| Autor(en): | Andreas Heit |
| Studienzeitmodell: | Abendstudium |
| Semesterbezeichnung: | SM11 |
| Studiensemester: | 5 |
| Bearbeitungsstatus: | in Arbeit |
| Prüfungstermin: | |
| Abgabetermin: | |
1 Abkürzungsverzeichnis
| Abkürzung | Bedeutung |
|---|---|
| BaFin | Bundesanstalt für Finanzdienstleistungsaufsicht |
| CPU | Central processing unit |
| HA | Hochverfügbarkeit |
| HRG | Harvard Research Group |
| IEEE | Institute of Electric and Electronic Engineers |
| IT | Informationstechnologie |
| ISO | Internationalen Organisation für Normung |
| KonTrag | Gesetz zur Kontrolle und Transparenz im Unternehmensbereich |
| KWG | Kreditwesengesetz |
| LAG | Link Aggregation Group |
| MaK | Mindestanforderungen an das Betreiben von Kreditwesen |
| NAS | Network Attached Storage |
| OSI | Open System Interconnection |
| OSPF | Open Shortest Path First |
| OpR | Operationellen Risiken |
| RAID | Redudant Array of Independet Disks |
| SAN | Storage Area Network |
| SMTP | Simple Network Management Protocol |
| SolvV | Solvabilitätsverordnung |
| SPoFs | Single Point of Failure |
| USV | Unterbrechungsfreie Stromversorgung |
2 Abbildungsverzeichnis
| Abb.-Nr. | Abbildung | Quelle | Verweis |
|---|---|---|---|
| 1 | IT-Ausfall - Aufflistung der jährlichen Kosten | http://images.cio.de/images/cio/bdb/683946/890x.jpg | http://winfwiki.wi-fom.de/images/thumb/9/9b/Einleitung.jpg/800px-Einleitung.jpg |
| 2 | Kommunikation im ISO-/OSI-Refernezmodell | http://www.its05.de/computerwissen-computerhilfe/pc-netzwerk/osi-modell/osi-modell.html | http://winfwiki.wi-fom.de/images/5/5b/Isoosi.jpg |
| 3 | Regelungskomplex operationelle Risiken | http://www.esprit-consulting.com/SiteCollectionDocuments/10_Industrylines/Banking/Banken-IT.pdf S.2 | http://winfwiki.wi-fom.de/index.php/Bild:Risiken.jpg |
| 4 | Domains einer CPU - vereinfachte Dastellung | http://codinghorror.typepad.com/.a/6a0120a85dcdae970b0120a86db3ea970b-pi | |
| 5 | Übersicht der Rechenzentren der IT GmbH | eigene Darstellung des Unternehmens | |
| 6 | Übersicht der Clusterarchitektur der IT GmbH | eigene Darstellung des Unternehmens |
3 Tabellenverzeichnis
| Tab.-Nr. | Name | Quelle |
|---|---|---|
| 1 | Verfügbarkeitsklassen der Harvard Research Group | Eigene Datstellung nach Liebel O., S.22, Verfügbarkeitsklassen nach IEEE und Liebel S.23 Verfügbarkeitsklassen nach AEC |
| 2 | SLA-Definitionen für Application Operations | nicht angegeben |
| 3 | RAID-Level im stark vereinfachten Überblick | Liebel, Oliver, Linux Hochverfügbarkeit - Einsatzszenarien und Praxislösungen, Galileo Computing, 2011 S. 97 |
4 Einleitung
Am Abend des 12.12.2010 brach für die Amazon.com, Inc. für rund 1 Stunde der komplette westeuropäische Internethandel ein, da vorrübergehend 80% der westeuropäischen Handelsname Amazon.com zugehörigen Retail-Websites für potenzielle Kunden nicht mehr erreichbar waren. Schnell wurde der Verdacht laut, dass vermeintliche Wikileaks-Aktivisten es geschafft hatten, durch eine sogenannte "Denail-of-Service"-Attacke eines der größten kommerziellen Rechenzentren Europas in die Knie gezwungen zu haben und somit die Websites von Amazon Europa zu blockieren.
In den vergangenden Tagen hatte eine Gruppe von Wikileaks-Anhängern es geschafft, durch solche Angriffe die Websites von PayPal, Inc., MasterCard International und VISA International Service Association für mehrere Tage für Intressierte zu sperren.
Die offizielle Stellungnahme von Amazon.com, Inc. besagte, dass der kurze Ausfall der Verfügbarkeit durch einen Hardware-Defekt in einem europäischen Netzwerk-Rechenzentrum zu verschulden gewesen war. Der durch ein Defekt an der IT-Infrastruktur verursachte Schaden sei für das Unternehmen noch nicht zu benennen.
Durch E-Commerce werden mittlerweile 60,5 % des Versandhandels abgewickelt, dies entprach im Jahr 2010 einem Umsatz der Unternehmen von rund 18,3 Mrd. €. Pro Stunde verlor Amazon.com, Inc. dementsprechend die Möglichkeit durchschnittlich 2,1 Mio. € Umsatz zu erzielen[1]. Das Bespiel Amazon.com, Inc. zeigt, wie wichtig ein unterbrechungsfreier Betrieb für den Internethandel ist.
Amazon.com, Inc. ist jedoch nur ein kleines Beispiel in diesem Bereich. Der "Avoidable Cost of Downtime 2010 Report" vom Marktforschungsunternehmen Coleman Parkes beschreibt in ihrer repräsentativen Umfrage, dass allein Deutsche Firmen durch Ausfallzeiten ("Downtime"), verursacht durch fehlerhafter bzw. nicht vorhandener Redundanz, pro Jahr Umsatzverluste in Höhe von vier Milliarden Euro erleiden[2].
Abbildung 1: IT-Ausfall - Aufflistung der jährlichen Kosten
Hochverfügbare und ausfallsichere Rechenzentren sollten in Unternehmen deshalb selbstverständlich sein.
Zieldefinition
In der folgenden Ausarbeitung soll deshalb das Thema Hochverfügbarkeit am Beispiel eines Unternehmens, in der die IT-Infrastruktur essentiell für das Abwickeln der Geschäfte wichtig ist, verdeutlicht werden. Ziel des Dokumentes ist das Aufzeigen einer Hochverfügbarkeitslösung, die den hohen Anforderungen zwischen Sicherheit und Flexibilität im Bankensektor entspricht. Diese Hausarbeit soll dem geneigten Leser das nötige Wissen vermitteln, das Thema Hochverfügbarkeit zu verstehen, die unterschiedlichen Anforderungen aus dem Bankbereich kennenzulernen und dadurch die gezeigte Lösung eigenständig bewerten zu können. Ebenso ist Intension dieser Arbeit, das Thema Hochverfügbarkeit transparenter zu gestalten. Der Bereich Disaster & Recovery bei ungeplanter Downtime soll nicht Gegenstand der Ausarbeitung sein, da die so entstehende Tiefe den Rahmen dieser Hausarbeit sprengen würde.
5 Begriffsdefinition
Das Komparativ „Hochverfügbarkeit“ (engl. high availability, im folgenden HA genannt) steigert das Nomen Verfügbarkeit und beschreibt in Zusammenhang mit Informationstechnologie (im folgenden IT genannt) eine möglichst unterbrechungsfreie Versorgung mit einem bestimmten IT-Services.
Nach dem Bundesamt für Sicherheit in der Informationstechnik ist Vefügbarkeit definiert als "die Wahrscheinlichkeit, dass die Betrachtungseinheit (nach DIN 31051:2003-06) alle zugesicherten Eigenschaften bei den beschriebenen Umgebungsbedingungen zum beliebigen Zeitpunkt einhält oder fehlerfrei funktioniert."[3] Dies bedeutet, dass Verfügbarkeit die Zeiteinheit angibt, in der ein bestimmter Dienst unter den gegebenen Bedingungen genutzt werden kann. Im Gegensatz zur Verfügbarkeit gibt die Ausfallzeit (engl.: downtime) entsprechend die Zeit an, in der der Dienst nicht genutzt werden kann.
Das Institute of Electric and Electronic Engineers (im folgenden IEEE genannt) zur Verwaltung von Normen und Standards im Netzwerkbereich in den USA definiert HA ähnlich.
"High Availability (HA for short) refers to the availability of resources in a computer system, in the wake of component failures in the system."[4]
Diese Definition bezogen auf IT-Systeme soll als Grundlage für diese Hausarbeit genutzt werden.
Im Folgenden wird die Verfügbarkeit von IT-Services näher erläutert und HA weiter spezifiziert. Im weiteren Kapitel werden verschiedene HA-Lösungen theoretisch vorgestellt und abschließend eine spezielle Lösung dargestellt.
5.1 Hochverfügbarkeit
Grundlegende Begriffe im Umfeld hochverfügbarer Systeme sind: Verfügbarkeit, HA, Fehlertoleranz und Single Point of Failure (im folgenden SPOFs genannt).
Ein Service wird als verfügbar bezeichnet, wenn er in der Lage ist, die ihm zugeteilten Aufgaben zu erfüllen. Die Verfügbarkeit, wie in der Definition beschrieben, gibt die dazugehörige Wahrscheinlichkeit an, wie ein System oder Service verfügbar ist.
Das Verhältnis aus Downtime und Uptime eines Systems bemisst die Verfügbarkeit:
Verfügbarkeit = Uptime / (Downtime + Uptime)
Ein System gilt als hochverfügbar, wenn ein Service auch nach einem Fehlerfall weiterhin ohne unmittelbaren menschlichen Eingriff weiter genutzt werden kann. Der Anwender des Systems sollte dementsprechend keine oder nur eine kurze Unterbrechung wahrnehmen. Die Harvard Research Group (im folgenden HRG genannt) bezieht den Begriff HA auf den prozentualen Wert der Verfügbarkeit. Die Verfügbarkeitsklassen sind in Tabelle 2 aufgeführt. Nach dieser Klassifizierung wird ab einer Verfügbarkeit von midnestens 99,99% ein System oder ein Dienst als hochverfügbar bezeichnet.
Die Stufen der Verfügbarkeit zeigen die Ausfallzeiten, gemessen in Zeiteinheiten pro Jahr:[5]
| Verfügbarkeitsklassen | HRG-Klasse | Bezeichnung | Verfügbarkeit in Prozent | tolerierte Downtime pro Jahr | Erklärung |
| 2 | AEC-0 | stabil | 99 | 03,7 Tage | Funktion kann unterbrochen werden, Datenintegrität ist nicht essentiell. |
| 3 | AEC-1 | verfügbar | 99,9 | 08,8 Stunden | Funktion kann unterbrochen werden, Datenintegrität muss jedoch gewährleistet sein. |
| 4 | AEC-2 | hoch verfügbar | 99,99 | 52,2 Minuten | Funktion darf nur innerhalb festgelegter Zeiten oder zur Hauptbetriebszeit minimal unterbrochen werden. |
| 5 | AEC-3 | Fehler unempfindlich | 99,999 | 05,3 Minuten | Funktion muss innerhalb festgelegter Zeiten oder während der Hauptbetriebszeit ununterbrochen aufrechterhalten werden. |
| 6 | AEC-4 | Fehler tolerant | 99,9999 | 32,0 Sekunden | Funktion muss ununterbrochen aufrechterhalten werden, 24*7-Betrieb (24 Stunden, 7 Tage die Woche) muss gewährleistet sein. |
| 7 | AEC-5 | Fehler resistent | 99,99999 | 03,0 Sekunden | Funktion muss unter allen Umständen verfügbar sein. |
Dabei ist zu beachten, dass Downtimes sowohl geplant, als auch ungeplant auftreten können. Z.B. sind Wartungsfenster für Hardware- und Sofwareupgrades geplante Donwtimes und sind im Allgemeinen vom Anwender durch Service Level Agreements (im folgenden SLA genannt) festgelegt und akzeptiert. Ungeplante Downtimes dagegen resultieren zum größten Teil aus fehlertoleranter Hard- und Software. Auch wenn viele hochverfügbare Systeme 24/7 verfügbar sein müssen, bestehen Ausnahmen für bestimmte Zeitausschnitte, in welchen die Systeme einer anderen Verfügbarkeitsklasse zugeordnet werden können. In einer Vielzahl der Unternehmen werden sowohl die Verfügbarkeit, als auch die geplante Downtime in SLA's definiert.
Bevor im folgenden Kapitel auf die Schwerpunkte von HA-Systemen näher eingegangen wird, sollen hier die Grundlagen von HA-Systemen am Beispiel der ersten 3 Schichten des Open System Interconnection-Referenzmodell (im folgenden OSI-Referenzmodell genannt) dargestellt werden. Die ersten 3 Schichten des OSI-Referenzmodell sind Grundlage jeder Netzwerkkommunikation, sowohl am Computer, Switch oder Router.
Abbildung 2: Kommunikation im ISO-/OSI-Refernezmodell
Layer 1 - Bitübertragungsschicht
In der unteresten Schicht des ISO-OSI-Referenzmodell werden die grundlegenden Aspekte der Netzwerkkommunikation betrachtet. Um hier eine HA-Lösung zu erzielen, müssen ähnlich wie nach der Maslowschen Bedürfnispyramide zuerst die Grundbedürfnisse jeden Systems redundant gesichert werden. Dafür wird eine redundante Stromversorgung durch mehrere Netzteile, verbunden mit verschiedenen Versorgungspaden benötigt. Zudem wird versucht, physikalische Redundanzen zu schaffen, aber auch die Absicherung der Standorte von Netzwerkkomponenten, durch z.B Zutrittskontrollen, einem Sicherheitsdienst, Vereinzelungsschleusen, Brand- und Versorgunssysteme, sowie durch eine Kameraüberwachung und Notstromaggregaten zu sichern.
Layer 2 - Sicherungsschicht
Die Sicherungsschicht (oder Datenübertragunsschicht genannt) bietet in Abhängigkeit der eingesetzten Technologie verschiedene Verfahren Redundanzen zu ermöglichen. Bei Ethernet wurde erstmalig Mithilfe des Spanning-Tree-Algorithmus möglich, logisch Redundanzen zu steuern. Ein Spanning-Tree klassifziert, ausgehend von einem Startknoten, die Verbindungen zwischen zwei Netzwerkverbindungen anhand der Pfadkosten. Beim Ausfall einer Verbindung wird automatisch der Pfad mit den geringsten Pfadkosten priorisiert. Eine weitere Methode, die es speziell vermeidet, mehrere physikalische Links zu verwenden, ist die Link Aggregation. Die Link Aggregation obliegt dem Standard IEEE 802.3ad. Durch die Bildung von virtuellen Links entstehen sogenannte Link Aggregation Groups (im folgenden LAG genannt). An diese können an einem physikalischen Port mehrere logische Links verbunden werden. Anschließend kann dieser virtuelle Port in der Konfiguration der Switche, wie ein ganz normaler physikalischer Port genutzt werden. Der Vorteil des Link Aggregation ist zudem, dass durch die Bildung von LAG die Bandbreite des Netzes erhöht wird.
Layer 3 - Vermittlungsschicht
In der Vermittlungsschicht (oder Netzwerkschicht genannt) wird Redundanz hauptsächlich über das hier verwendete TCP/IP-Protokoll und intelligenten Routingprotokollen erreicht. Ein weit verbreitetes ist das Open Shortest Path First - Protokoll (im folgenden OSPF genannt). Das OSPF-Protokoll ist ein hierarchisch aufgebautes Link State Routingprotokoll und hat sich nicht nur als Standard für Interior-Gateway-Protokolle von IPv4 sondern auch für IPv6 durchgesetzt[7].
Markus Nispel, Vice President Solution Architecture beschreibt die Funktion dieser Protokolle: "Link-State-Protokolle arbeiten eventgesteuert, die Informationen über Topologieänderungen werden sofort durch das ganze Netz geflutet. Alle Router reagieren sofort darauf und berechnen bestehende Ersatzwege. Somit haben Link-State-Protokolle nur Konvergenzzeiten im Sekundenbereich. Diese schnellen Berechnungen von Ersatzwegen werden dadurch möglich, dass bei Link-State-Protokollen die gesamte Topologie eines Netzes allen Routern bekannt ist; gespeichert in der Topologie-Datenbank."[8]
5.2 Anforderungen des Bankensektors
Nach bewältigter Finanzkrise müssen sich Banken heute den stets steigeneden regulatorischen Herausforderungen stellen. Auf der anderen Seite ist eine Bank auch stets ein Unternehmen, welches um Kunden und Umsaz wirbt - dieses Spannungsfeld zwischen Innovationsfähigkeit und Regulationen muss gehandelt werden können, um als heutige Bank im Wettberwerb bestehen zu können. Um diese Herausforderung bewältigen zu können, muss die IT einer Bank ihren Beitrag zur Wertschöpfung des Unternehmens beitragen[9].
Im folgenden sollen daher die operationellen Risiken des Banken-IT-Betriebs in zwei Kategorien aufgeteilt und genauer betrachtet werden. Die Aufteilung verdeutlicht zudem das oben genannte Spannungsfeld.
5.2.1 Gesetzliche Vorgaben
Wie in Abbildung 3 zu erkennen sind die in den Fokus geratenen Gesetze zur Sicherstellung adäquater Kontrollmechanismen überwiegend das Kreditwesengesetz (im folgenden KWG genannt) und die Mindestanforderungen an das Betreiben von Kreditwesen (im folgenden MaK gennant; nicht im Bild gezeigt). Parallel dazu sind Basel II, die Verordnung über die angemessene Eigenmittelausstattung von Instituten, Institutsgruppen und Finanzholding-Gruppen (Solvabilitätsverordnung; im folgenden SolvV genannt), sowie das Gesetz zur Kontrolle und Transparenz im Unternehmensbereich (im folgenden KonTrag genannt) die entsprechenden Gesetze für adäquate bilanzieller Rückstellungen[10]. Die im folgenden vorgestellten Gesetze KonTrag, Mak und Basel II bilden die Grundlage, die von der Bundesanstalt für Finanzdienstleistungsaufsicht (im folgenden BaFin genannt) erstellten Satzung. Die BaFin agiert auf nationaler Ebene und setzt die strukturellen Vorgaben der Europäischen Bankenaufseher um[11].
Basel II
Basel II bezeichnet die vom Ausschuss für Bankenaufsicht 2007 eingeführten Eigenkapitalvorschriften zur Absicherung der Stabilität des nationalen und internationalen Bankensystems[12]. Im Dezmeber 2010 wurde das ergänzende Regelwerk zu Basel II, Basel III veröffentlicht. Die Umsetzung der neuen Vorschriften erfolgt planmäßig zum 01.01.2013[13].
Basel II besteht aus drei Säulen:
- den Mindestkapitalanforderungen, zur genauen Quantifizierung des Kredit-, Markt- und der operationellen Risiken,
- ein aufsichtliches Überprüfungsverfahren zur Verstärkung der qualitativen Bankenaufsicht und
- die Förderung der Marktdisziplin, durch die Erweiterung der Publizitätspflichten der Banken[14].
Für die IT einer Bank bedeutet dies nun aktuelle Systemarchitekturen zu überprüfen und ggf. zu modifizieren. Zur Gewährleistung der Säulen muss die IT die nötige Transparenz gewährleisten. Dazu gehört die "Einführung von zukunftsgerichteten Steuerungsinstrumenten, IT-gestützte Tools zur Durchführung zukunftsgerichteter Analysen (Ex ante), die Einrichtung einer optimierten, genormten Kommunikation zwischen Bank und Kunde."[15] Die IT muss Daten konsistenz halten und nach den gegebenen Anforderungen aufbereiten können. Eins der Kernstücke in der Satzung von Basel II ist die Risiko-Gewichtsfunktion. Die drei maßgeblichen Größen: Ausfallwahrscheinlichkeit, Engagementhöhe zum Ausfallzeitpunkt und die Ausfallquote bei einem Ausfall erfordern ein Sicherheiten-Management-System, eine Limitkontroll-Applikation, sowie interne Rating-Systeme, diese werden durch ein Zusammenspiel der operativen Systeme, den dispositiven Systemen und einem Risk-Data Warehouse realisiert.
MaK
Das Ziel der MaK ist grundlegend die Risiken eines Kreditgeschäfts zu begrenzen, zu steuern und zu überwachen. In Abbildung 3 ist das MaK mit den MaRisk gleichzusetzen. Um die MaK zu erfüllen muss das Geschäft der Bank sowohl funktional eigenständig als auch doppelt votiert sein. Dies ist nur gewährleistet, wenn die Risikoüberwachung auf Portfolioebene durch unabhängige Reports beginnt. Gerade Risiken, welche ihren Ursprung in der IT haben müssen nach MaK durch die Prozessanalyse möglichst vorsorglich überwacht werden. Dies erfordert unter anderem ein Limitsystem, ein Frühwarnsystem, ein Berichtwesen als auch eine ausgereifte untersützende IT-Struktur, beispielsweise durch redundante Systeme[16].
KonTrag
Der KonTrag trat bereits am 1. Mai 1998 in Kraft und soll für die grundlegende Transparenz in Unternehmen garantieren. Im Mitellpunkt stehen die Aktionärsinteressen, die Corporate Governance und die Qualität der Abschlussprüfung. Ähnlich wie die MaK steht in der IT die Implementierung eines Überwachungs- und Managementsystems im Zentrum. Der KonTrag stellt aber an dieses System keine weiteren inhaltlichen Anforderungen, diese werden unter anderem durch die MaK konkretisiert. Der KonTrag legt Wert auf die angemessene Aufbereitung der unternehmensrelevanten Daten, welche durch die entsprechenden Systeme erfüllt werden muss[17].
5.2.2 Vorgaben aus dem Geschäftsumfeld
Die andere Seite, die die IT erfüllen muss, resultiert aus dem Geschäftsumfeld einer Bank.
Die IT dient dazu, die geschäftlichen Anforderungen bestmöglich zu unterstützen. Eine gute Bank zeichnet sich durch eine gute Prozessorganisation aus, welche, ob im Kundenmanagement, im Vertrieb oder in der Kreditvergabe, effizient agieren kann. Zur Optimierung der Geschäftsprozesse müssen diese teils voll IT-gesteuerten Prozesse durch eine technische Systemlandschaft strukturiert sein.
Durch die sich immer weiter entwickelnde Schnelllebigkeit im Bankgeschäft nimmt die Anforderung nach Flexibilität stets zu. Gerade im Bankgeschäft haben IT-Systeme seit 20 Jahren das Arbeitsumfeld verändert und sind zu einer essentiellen Grundlage geworden. Diese muss heutzutage in der Lage sein, flexibel auf neue Anforderungen der Fachbereiche reagieren zu können[18].
In einem Interview beschreibt Klaus-Peter Bruns, sellvertretender Vorsitzender des Vorstand der FIDUCIA AG, die Anforderungen an die IT von heute. Für Bruns bilden gerade im Bankenbereich die Themen IT-Sicherheit und Anwendungsverfügbarkeit die zentrale Rolle der IT. In der Konzeption eines neuen Rechenzentrums im Jahr 2008 legte sein Unternehmen selbst alles daran, sowohl eine physikalische Sicherheit der Daten, als auch die logische Sicherheit, durch eine hohe Datenintegrität und Verfügbarkeit zu gewährleisten. Dabei setzt Bruns auf eine komplette redundante Lösung - das eigentliche neu gebaute Rechenzentrum ist mit einem zweiten Backup-Rechenzentrum verbunden. Im Gebäude selbst ist die komplette Infrastruktur, wie zum Beispiel Klimaschränke, die Stromversorgung und die IT-Systeme mindestens doppelt vorhanden. Trotz dieser hohen Investitionskosten sieht Bruns zwei Faktoren als äußerst wichtig an. Zum einen muss die IT den hohen Kostendruck vieler Banken nach der Finanzkrise gewappnet sein, dabei aber auch die äußeren Einflüsse, wie Green-IT gewährleisten und mit den Werten Sicherheit und Hochverfügbarkeit vereinbar sein[19].
5.3 Vorstellung Unternehmen
Im folgenden soll ein Unternehmen vorgestellt werden, auf welches sich, die in Kapitel 7 vorgestellte HA-Lösung bezieht. Aufgrund dessen, dass dieses Kapital unternehmensinterne Daten der realen Firma enthält, wird dieses Unternehmen anonymisiert und als IT GmbH bezeichnet. Sollten Ähnlichkeiten zur realen Firma IT GmbH bestehen, ist dies grundsätzlich nicht beabsichtigt.
Das Unternehmen IT GmbH ist ein mittelständisches IT-Unternehmen, dessen Kerngeschäft der Betrieb und die Bereitstellung von IT-Infrastrukturen ist. Insgesamt werden von der IT GmbH 38 Standorte in Europa betreut. Gegründet wurde die IT GmbH im Jahr 1999, damals noch als hundertprozentige Tochter der Bank AG. Aus der Erfahrung als IT-Dienstleister für die Bank AG, die im Bankenbereich tätig ist, entstanden vor allem Produkte, die durch hohe Sicherheitsanforderungen und Verfügbarkeiten gekennzeichnet sind. Zertifizierungen nach deutschem Datenschutzrecht und TÜV, sowie regelmäßige interne und externe Prüfungen sollen für die Erhaltung und stetige Verbesserung der Servicequalität sorgen.
Die IT GmbH beschäftigt ca. 40 Mitarbeiterinnen und Mitarbeiter an ihrer zentralen Hauptgeschäftstelle in Berlin. Jährlich generiert das Unternehmen einen durchschnittlichen Jahresumsatz von 13 Millionen Euro.
Aufgrund der Finanzkrise im Jahr 2007 - 2008 und den anschließenden Folgen für die Bank AG entstanden der IT GmbH freistehende Ressourcen, welche nun anderweitig genutzt werden mussten. Daraus entstand die Strategie, auch dem Drittmarkt die Dienstleistungen der IT GmbH anzubieten und zu verkaufen.
Bedingt durch Ihre Historie in der Zusammenarbeit mit der Bank AG existieren besondere Anforderungen an die Datenhaltung, Aufbewahrung, Verfügbarkeiten sowie Sicherheit von Daten. Diese hohen Maßstäbe spiegeln sich auch in den Produkten der IT GmbH wieder. Ein hochverfügbares, zertifiziertes Rechenzentrum bildet den Kern der Produkte. Diese Grundlage wird in den weiteren Produkten mit Know-how und weiteren Diensten, auch von externen Kooperationspartnern verknüpft, sodass individuelle Einzellösungen entstehen, die hohen Anforderungen gerecht werden. Unternehmensziel der IT GmbH ist es, sich durch die äußerst hohe Qualität ihrer Leistungen von der Konkurrenz abzugrenzen.
6 Hochverfügbarkeitssysteme
Grundvoraussetzung dass ein IT-Service unterbrechungsfrei läuft ist die physikalsiche Sicherheit der Maschine. Ein abgesicherter Zugang zu den Rechenzentren über mehrfache Sicherungswege sei daher die Grundlage für die Sicherheit. Ebenso zählen die Stromversorgung bzw. Notstromversorgung, wie auch die redundante Netzwerkanbindung zu essentiellen Grundbedürfnissen eines HA-Systems. Wenn diese Grundbedürfnisse gegeben sind, kann auf der nächsten Ebene angefangen werden einen Service hochverfügbar zu gestalten. Im ersten Schritt wird dafür das Single-Server-System betrachtet. Eine HA-Lösung fängt auf dieser Ebene bereits bei den Einzelkomponenten wie Festplatte, Netzwerkkarte oder Netzteilen an. Hierfür wird im folgenden zunächst die Möglichkeit, auf lokaler Ebene einen Service hochverfügbar zur Verfügung zu stellen, erläutert. Irgendwann stößt jede lokal redundant ausgelegte Hard- bzw. Software-Lösung an ihre Grenzen. Daher wird anschließend die Ebene stets weiter vergrößert. Trotzdem ist immer zu beachten, dass auch HA-Cluster nie eine 100%-Verfügbarkeit aller Services zu jeder Zeit garantieren können, aufgrund der Failover-Downtime.
6.1 Lokale Hochverfügbarkeit
Mechanische Bauteile verschleißen am häufigsten durch die Änderungen der Temperatur, welche durch den Wechsel von An und Aus hervorgerufen werden. Der Normalfall eines Server ist aber nicht, dass dieser stets An und Aus betätigt wird. Server werden stets über einen längeren Zeitraum verwendet und haben dadurch ein anderes Problem, nämlich die permanente Wärmeentwicklung durch diesen Dauerbetrieb. Zur Lüftung sollten daher neben den Netzteil- und CPU- Lüfter generell weitere Lüfter im Gehäuse vorhanden sein. Neben der Temperatur müssen am Single-Server-System weitere Komponenten stets überwacht werden. Diese bilden die Kernkomponenten eines Server: Netzteil, CPU und Festplatten.
6.1.1 Netzteil
Als Grundvoraussetzung wurde die Stromversorgung bereits in Kapitel 6 für große Serversysteme beschrieben. Im Single-Server-System muss trotzdem klein aufgesetzt werden. Das Single-Server-System mit einer passiven Backplane muss für jeden Netzwerk-Slot an einen einzelnen Netzanschluss zugeordnet werden. Bei mindestens zwei Anschlüssen kann eines direkt an das Netz angeschlossen, der andere Anschluss an die unterbrechungsfreie Stromversorgung (im folgenden USV geannt) angeschlossen werden. Standardmäßig besitzen USV's eine Remote-Schnittstelle, sodass über eine Abfrage via Simple Network Management Protocol (im folgenden SMTP genannt) ein Status abgefragt werden kann. Zum Schutz der Netzteile muss darauf geachtet werden, dass die Komponenten nicht zwingend am Leistungslimit arbeiten, weil dies die Temperatur wieder erhöhen würde. Durch die Überwachung einer ausreichend dimensionierten USV wird die HA-Lösung initiiert.
6.1.2 Prozessor
Die Central processing unit (im folgenen CPU genannt) soll im folgenden im Hinblick auf Zuverlässigkeit und Einsatzzweck betrachtet werden. Bei CPU's gilt, wie bei anderen Komponenten auch die Regel: Je leisuntgsfähiger eine CPU ist,desto mehr Abwärme wird dadurch produziert. Daher ist je nach Einsatzzweck der entscheidene Faktor einer CPU die Wärme. Je nach Verwendungszweck ist dementsprechend der passende Prozessortyp zu wählen. Da ein Single-Server-System nur in den wenigsten Fällen in der Realität anzufinden ist und im folgenden noch Hochverfügbarkeitsmethoden vorgestellt werden, wie das Cluster (siehe Kapitel 6.2) und die Virtualisierung (siehe Kapitel 6.3) muss darauf geachtet werden, dass die Prozessoren die nötigen Funktionen unterstützen. Bei der Virtualisierung ist zu beachten, dass bei Ausfall einer Hardware-Komponente alle virtuellen Gäste den Service einstellen, wenn der Host ausfällt. Hardwareseitige redundante CPU`s existieren im Speicher programmierbaren Steuerungen bzw. in anderen speziellen Konzepten verschiedener Hersteller. Multi-Core-Systeme müssen zudem gegen einen CPU-Failover gewartet werden. Ein CPU-Failover kann z. B. durch den Ausfall eines einzelnen Kerns verursacht werden, der ohne entsprechende Hardware und passende Software zur Unterbrechung des Serverbetriebs führt.
6.1.3 Storage
Der Ausfall der CPU bei gegebener Spannung und Kühlung ist im Vergleich zu weiteren Komponenten wie dem Storage nur wenig wahrscheinlich. Doch ohne Storage fällt auch die Verbindung zu den Daten ab. Ohne entsprechendes Backup ist die Datenintegrität und der Datenbestand in Gefahr. Im folgenden sollen Möglichkeiten für eine HA-Lösung im lokalen Storage ohne und mit RAID vorgestellt werden. RAID-Systeme sollen mit der Intension beschrieben werden, dem Leser die Technik vorzustellen, ohne jedoch alle Möglichkeiten, Techniken und Funktionen zu vertiefen.
6.1.3.1 Lokaler Storage
Bevor der lokale Storage in unserem Single-Server-System crasht, würde der Anwender, welcher den Server direkt unterm Schreibtisch stehen hat, durch die Hörbarkeit der Geräuschkulisse Verdacht schöpfen. Bei größeren Serverfarmen ist dies jedoch selten der Fall. Self-Monitoring, Analysis and Reporting Technology archivieren alle Disk-bezogenen Error-Meldungen, sodass über dieses Monotoring der Storage überwacht werden kann. Weitere Dienste isolieren defekte Sektoren zusätzlich. Bei der Auswahl des Storage sollte nach Anwendungsfall unterschieden werden. So lassen sich die verschiedenen Architekturen nach Kapazität, Performance, Preis und Hersteller kategorisieren. Damit der Storage in eine HA-Lösung implementiert werden kann, muss auch diese Hardware überwacht werden und ihr Ausfall im besten Fall vorhergesagt werden[20]. Für diese Funktion ist SMART konzeptiert. SMART nutzt die internen Sensoren über fehlerhafte Blöcke, Betriebsdauer und Temperaturen autag und leitet bei Anfrage entsprechende Meldungen weiter. Nach einer Studie aus dem Jahr 2006 konnte SMART 64% aller Festplattenausfälle - im Test wurden etwa 100.000 Festplatten aller größeren Hersteller über einen Zeitraum von neun Monaten getestet vorhersagen[21]. Für den Betrieb in einem Server sind diese Single-Disk-Systeme jedoch in Anbetracht einer HA nicht geeignet. Auch hier müssen redundante Lösungen angewendet werden.
6.1.3.2 Redundant Array of Independet Disks
Ein redundantes Festplattensystem wird auf Disk-Ebene üblicherweise durch Redundant Array of Independet Disks (im folgenden RAID genannt)-Systemen umgesetzt. Ein RAID-System bietet - je nach Hard- oder Softwarelösung und RAID-Level, den besten Ausfallschutz für Festplatten. Ein RAID-System ist ein Verbund mehrerer Festplatten, die entweder über einen speziellen Controller oder über eine Software-Lösung angesteuert werden und durch Spiegelung redundant zur Verfügung stehen. Es existieren die verschiedenen RAID-Lösungen, welche in unterschiedliche Level eingeteilt sind, miteinander aber auch kombiniert werden können.
- RAID 0 - bezeichnet einen Zusammenschluss aus min. zwei Festplatten, auf denen Daten in Stripes eingeteilt gespeichert werden. Die dadurch entstehende Aussplittung der Daten bietet erhöhte Performance, jedoch keine Redundanz
- RAID 1 - zwei oder mehr gleichgroße Festplatten werden parallel mit identischen Daten beschrieben. Bei dem Ausfall einer der Platten dient die zweite als Ausfallsystem. RAID 1 stellt die wohl am kostengünstigste redundante Lösung dar.
- RAID 5 - stellt eine redundante Lösung bestehend aus minimal 3 gleich großen Platten dar. Im Gegensatz zu RAID 1 bietet sie jedoch eine reine Nutz-Kapazität von n-1 Platten. Datenpakete werden dabei in Chunks (Datenblöcke) aufgeteilt und auf Platte 1 und 2 verteilt. Die Platte 3 wird dazu benutzt, um Paritätsinformationen zur Kontrolle der übermittelten Daten zu speichern. Paritätsinformationen enthalten alle Informationen, um jederzeit die Datenblöcke zu rekonstruieren.
- RAID 6 - ergänzt RAID 5, um eine weitere Platte zum redundanten Speichern der Paritätsinformationen. Bei mininmal 4 Platten sind immer nur 2 (n-2) Nutz-Kapazität. Im direkten Vergleich zu RAID 5 bietet RAID 6 weitere Sicherheit, jedoch zu Kosten der Performance, da eine zusätzliche XOR-Berechnung für die redundante Paritätsinformation durchgeführt werden muss.
Um die verschiedenen RAID-Varianten miteinander zu vergleichen, soll folgende Tabelle einen stark vereinfachten Überblick geben.
| Raid-Level | Anzahl der min. Disks | Nutz-Kapazität | Redundanzfaktor | Performance (Read/Write) | für eine Kapazitätserweiterung min. erforderliche Disks |
| 1 | >=2 | =1 | N - 1 | gut ; normal | 2 |
| 01 | >=4 | N/2 | 2 im selben Leg | sehr gut ; gut | 2 |
| 10 | >=4 | N/2 | 1 pro Leg | sehr gut ; gut | 2 |
| 5 | >=3 | N-1 | 1 | sehr gut ; befriedigend | 1 |
| 6 | >=4 | N-2 | 2 | sehr gut ; mangelhaft | 1 |
Zur Auswahl einer passenden HA-Lösung müssen neben den Kosten auch Nutzen und Komplexität des Systems beachtet werden[22].
6.2 Hochverfügbarkeit auf Netzwerkebene
"Ein Team ist eine Gruppe von Personen, die gemeinsam eine Aufgabe erledigen sollen. Meist besteht innerhalb des Teams keine formelle Hierarchie. Grundidee der Arbeit im Team ist das Zusammenwirken ergänzender Fähigkeiten und Fertigkeiten der Teammitglieder, um ein Ergebnis zu erreichen, das für jedes einzelne Teammitglied allein nicht leistbar gewesen wäre."[23] Bezogen auf IT-Systeme bildet ein Cluster ein Team aus verschiedenen Servern. Jeder Server im Cluster dient dafür, spezielle Dienste zu erledigen. Andere Server stellen Joker dar und können jederzeit einen anderen Server innerhalb des Clusters ersetzen. Ein Cluster besteht per Definition aus 2-n Servern, welche als Nodes bezeichnet werden. Je nach Setuptyp sind zur Performanceregulierung oder zur Ausfallsicherheit die Nodes gleichzeitig aktiv oder sie werden erst auf Kommando aktiv. Um einen Single Point of Failure zu vermeiden sind die Nodes untereinander über mindestens zwei Netzwerkverbindungen konnektiert, gleichzeitig wird so auch eine höhere Datentransferrate erzielt. Netzwerkverbindung wird gemäß ihrer Funktion auch als Heartbeatverbindung bezeichnet.
6.2.1 Hochverfügbarkeits-Cluster
Ein HA-Cluster ist typischer Weise zusätzlich noch räumlich separiert, um die Redundanz selbst im Katastrophenfall zu gewährleisten. Wie das Team nun agiert ist in zwei Kategorien aufgeteilt.
- Ein symmetrisches Cluster (Active/Activ-Cluster)bietet verschiedene Dienste auf zwei aktiven Servern an. Bei Ausfall des einen Server werden die Services vom Partner übernommen.
- Bei einem asymmetrsischen Cluster (Active/Passive-Cluster) befindet sich der zweite, passive Node im (Hot-)Standby und springt erst dann als Reserve ein, wenn die erste Node ausfällt[24].
Aufgrund der meist komplexen Anwendungen, die auch auf einen größeren Datenbestand zugreifen müssen werden fast auschließlich Shared Disk Cluster verwendet. In Enterpriseumgebungen, in welchen wir uns im Bankenbereich befinden, haben sich Netzwerkspeichersysteme durchgesetzt, so werden hier Network Attached Storage (im folgenden NAS genannt) oder Storage Area Network (im folgenden SAN genannt) Systeme verwendet, die auch extrem große und komplexe Clusterverbünde zulassen. Die Anwendungsübernahme (Failover) oder -umschaltung durch einen anderen Node soll optimal nur nach einem tatsächlichen Ausfall durchgeführt werden, da die Umschaltung stets auch eine Unterbrechung des IT-Services ist.
Daraus ergeben sich Prinzipien zur Gestaltung der Rechenzentrumsumgebung:
- Redundante Auslegung aller Komponenten (Heartbeatleitungen, Netzkarten, Netzwerkswitche, Kabelverbindungen, Speichersysteme, SAN Switche)
- Kompensation ausgefallener Komponenten auf dem gleichen Knoten durch den Einsatz intelligenter Clustersoftware
- Vermeidung von Split-Brain Situationen (mehreren parallelen logischen Abhängigkeiten zwischen den Knoten, welche beim Ausfall einer Heartbeatleitung durch eine Verkettung zur Flutung einer Anwendung führt).
- Schutz vor Logistikausfällen (Ausfall von Rechenzentrumslogistik wie z.B. Strom, Klima, Räume)
- Beim Einsatz von NAS Technologie muss der Cluster auch die Anbindung der Fileshares mit überwachen und bei Bedarf mit umschalten.
- Bei der Verwendung von Shared Disk Technologie sollte eine Redundanz der vorhandenen Platten mit geplant werden.
Bei weiteren Abhängigkeiten zwischem dem Cluster und Komponenten muss das Cluster befugt sein, diese Schnittstellen ebenso zu überwachen und zu steuern[25].
Die Cluster-Software eines jeden Node ist in erster Linie für die Konnektivität zu den anderen Nodes verantwortlich. Zudem strukturiert sie diese Überwachung und Verwaltung von Ressourcen (Services, Dienste oder Applikationen). Das konzeptionelle Cluster-Modell beschreibt die Arbeitsweise der typischen Cluster-Pakete.
Dementsprechend splittet sich der Cluster konzeptionell in 3 Teile: Die eigentliche Schaltzentrale eines Clusters bildet der Cluster Ressource Manager. Dieser hat die komplette clusterspezifische Steuerung der Cluster-Datenbank, der Konfigurationsänderungen, Eventsteuerung, sowie das Triggern bestimmter Aktionen. Werkzeuge des Cluster Ressource Manager sind der Local Ressource Manager und der Ressource Agent (beides nicht clusterspezifische Komponenten). Der dritte Teil wird durch Signale des Cluster Ressource Manager ausgelöst und ist zuständig für die Kommunikation der Cluster-Nodes untereinander - das Cluster Messaging.
Die interne Kommunikation des Cluster erfolgt nun nach dem technischen Schichtenmodell von Heartbeat. Es besteht aus den drei Schichten:
- Messaging-Layer - ähnlich wie im OSI/ISO-Schichtenmodell der Netzwerkkommunikation (siehe Kapitel 5.1) wird die unterste Ebene des Modells auch als Infrastruktur-Layer bezeichnet. Diese Schicht befasst sich ausschließlich mit der Kommunikation zwischen den einzelnen Schichten.
- Ressource Allocation Layer - Die zweite Schicht kann auch als Verarbeitungsschicht bezeichnet werden. Hier befinden sich Cluster Ressource Manager, Cluster Information Base (Cluster-Datenbank), Policy- und Transition-Engine, sowie der Local Ressource Manager. Der Cluster Ressource Manager nimmt die Kommunikation entgegen und übergibt diese an die nächst höhere Instanz den Designated Coordinater. Dieser berechnet alle erforderlichen Schritte. Durch seine Rechte Änderungen in der Cluster Information Base zu setzen und diese durch die Policy- und Transition-Engine an weitere Nodes zu übergeben initiert er die Synchronisation der neuen Cluster Information Base. Die Cluster Information Base enthält die komplette Konfiguration des Cluster und bildet damit das Herzstück dieses Systems.
- Ressource Layer - Die dritte und letzte Ebene beinhaltet die bereits erläuterten Resource Agents, welche, durch den in einer Ebene höher ansässigen Local Ressource Manager auf dem jeweiligen Node gesteuert wird[26].
6.2.2 Load-Balancing-Cluster
Zentrale Einheit in diesem Clustertyp ist der redundant ausgelegte Load Balancer (Lastverteiler). Dieser Load Balancer hat die Aufgabe eingehende Client-Anfragen an gleichartig konfigurierten Maschinen zu verteilen. Diese Struktur kann im weitesten Sinne als ein Active/Active Cluster angesehen werden. Statt durch Aufrüstung einzelner Computer wird der Performancebedarf hier durch das Hinzufügen zusätzlicher Computer erfüllt. Die Lastverteilung erfolgt in der Regel über eine redundant ausgelegte, zentrale Instanz, den Load Balancer. Ein Load-Balancer erfüllt wesentliche Anforderungen des IT-Bedarfs. Er kann mit hohen oder wechselnden Anforderungen an die Computerperformance umgehen und so die Systeme auch in kritischen Zeiten, wie dem Monats- oder Jahresabschluss, optimal ausnutzen[27].
6.2.3 Active/Passive (Hot-) Failover-Cluster
Active/Passive-Cluster mit 2 oder mehr Nodes dienen der IT ausschließlich zur Schaffung von HA bzw. Ausfallsicherheit. Die redundante Anbindung ganzer Server, die Anbindung der Festplatten durch SAN lassen einen IT-Service bestmöglich zur Verfügung stehen.
Das Active/Passive Cluster bietet neben der klassischen Variante der Serviceübernahme (nach einem Fehler die zweite Node zu Starten) eine der HA angepasste Lösung, die innerhalb von wenigen Sekunden die Services übernehmen kann. Die klassische Variante hatte aufgrund des Startvorgangs eines Dienstes hohe Transakionskosten. Die HA-Lösung: Der Service ist bereits auf beiden Nodes gestartet, befindet sich aber auf der zweiten Node im Hot Standby. In dem Zustand muss die zweite Node nach einem Ausfall der ersten Node lediglich die Service-IP des Node übernehmen und ist sofort mit allen Ressourcen aktiv.
Klare Vorteile des Active/Passive (Hot-) Failover-Cluster für eine HA-Lösung sind die hohe Verfügbarkeit der Systeme, die gute Performance und die niedrige Downtime, die nur aus einer IP-Zuweisung an die zweite Node besteht.
6.2.4 Active/Active - Cluster
Beim Active/Active-Cluster stellen alle Nodes unterschiedliche oder gleiche Dienste zur Verfügung. Bei einem Ausfall können die Dienste von einer anderen Node übernommen werden. Das Active/Active-Cluster ist stark vom Loadbalancer abhängig, da bei einem Ausfall die verlorengegangenen Dienste von anderen, bereits aktiven Nodes übernommen werden muss. Anders als bei Active/Passive-Cluster bestehen hier keine komplett freien Ressourcen auf der zweiten Node zur Verfügung, sondern muss vom Loadbalancer bestimmt werden. Dies führt in der Regel zum sinken der Performance. Dafür werden die freien Ressourcen nicht ungenutzt verschwendet, sodass auch mehr Services angeboten werden können (effektive Ressourcennutzung)[26].
6.3 Virtualisierung im Cluster
Was bedeutet Virtualisierung? Die Virtualisierung ermöglicht es, mehrere Software-Systeme auf einer Hardware zu integrieren. Dabei dient ein Hardware-System als Host, mehrere unterschiedliche Betriebssysteme können als Software-Systeme (virtuelle Maschinen), als autage Systeme verwendet werden. Im Hintergrund der virtuellen Maschinen organisiert eine Virtualisierungssoftware Zugriff und Einteilung der Hardware.
Server-Virtualisierung bietet der IT neue Möglichkeiten physikalische Systeme zu ersetzen.
Besonderes Merkmal der Virtualisierung ist die Ausfallsicherheit. Die meisten Server-Abstürze resultieren aus Abstürzen einer Applikation, die das ganze Betriebssystem zum Absturz führt. Bei virtuellen Maschinen können die Services logisch getrennt werden, sodass bei dem Aufall eines Gast-Systems die anderen Gäste ohne Einschränkungen fortgesetzt werden.
Abbildung 4: Domains einer CPU - vereinfachte Darstellung
Jeder weitere Ring ist vollständig unabhängig von den umgebenden Ringen. Services wie Userspace-Programme laufen üblicherweise in Ring 3, Virtualisierungstechniken dagegen nutzen direkt Ring 0. Durch dieses Konzept ist eine effiziente Steuerung des Systems möglich. Im folgenden soll nun eine der bekanntesten Virtualisierungsmethoden vorgestellt werden.
6.3.1 XEN
Xen entstand aus dem Xenoserver-Projekt der Universität Cambridge. Xen besteht aus einer privilegierten Domain 0 (dem Hostsystem) und mehreren User-Domains (virtuellen Gästen). Bevor der eigentliche Kernel geladen wird, wird der sogenante Hypervisor geladen, über ihn erfolgen alle Zugriffe der Xen-Domains auf die Hardware. Bei der Virtualisierung mithilfe von XEN findet keine Hardware-Emulation oder Hardware-Virtualisierung statt (Paravirtualisierung). Die physikalische Hardware wird durch den Hypervisor auf die Gastsysteme beim Zugriff aufgeteilt[28]. Diese Lösung bietet eine erhöhte Performance. Der Xen-Service Remus arbeitet primär als HA-Lösung. Der Dienst repliziert die aktive virtuelle Maschine als fast aktuelle Kopie (200 Millisekunden) auf einen zweiten Host als Shadow-Copy. Bei Ausfall kann diese ohne Verzögerung aktiv werden[29].
Ein Nachteil verbleibt jedoch in einer Cluster-Virtualisierungslösung: Bei einem Ausfall des physikalischen Host fallen auch die logischen Gäste aus, sodass eine größere Clusterlösung ebenso erforderlich bleibt[28].
7 Die Hochverfügbarkeitslösung
Im folgenden Kapitel soll nun eine reale HA-Lösung der IT GmbH vorgestellt werden. Um diese genau verstehen zu können, ist vermeintlich noch weiteres Vorwissen als hier in der Arbeit vermittelt wurde, erforderlich. Die Lösung der IT GmbH erfüllt auf ihre Weise die hohen Anforderungen, welche an eine HA-Lösung und an die IT im Bankensektor (siehe Kapitel 5.3) gestellt werden.
Da die IT-GmbH nach Information Technology Infrastructure Library (kurz ITIL) 3 zertifiziert ist wird diese Thematik im Availability Management dokumentiert. Das Availability Management soll für ein Unternehmen alle verfügbarkeitsrelevanten Themen bei IT-Services und Ressourcen sicher stellen.
7.1 SLA-Bestimmungen
Das Vertragswerk zwischen der IT GmbH und der Bank AG und ihren Töchterunternehmen ist durch einen einheitlichen Rahmenvertrag grundsätzlich festgelegt. Für einzelne Services sind jährlich anzupassende Leistungsscheine dem Rahmenvertrag beigefügt. Die einzelne Service-Qualität ist unterjährig änderbar in den SLA's zwischen Auftraggeber und Auftragnehmer festgehalten. Die einzelnen Tochtergesellschaften haben separate Leistungsscheine und SLA's.
Im folgenden soll ausschließlich auf die SLA's zwischen der IT GmbH und der Bank AG eingegangen werden.
| Service Key | Basis Service Level | |||
| Technical Basic | Technical Advanced | Technical Premium | Technical Premium+ | |
| Systemnutzungszeit | Mo-Fr: 08:00 - 17:00 Uhr | Mo-Fr: 07:00 - 23:00 Uhr Sa: 08:00 - 14:30 Uhr | Mo-Fr: 07:00 - 23:00 Uhr Sa: 08:00 - 14:30 Uhr | 24/7 |
| Verfügbarkeit | 95% pro Monat (2,25 Stunden) | 98% pro Monat (1,73 Stunden) | 99% pro Monat (0,86 Stunden) | 99% pro Monat (0,86 Stunden) |
| Max. Datenverlust | <= 24 Stunden | <= 4 Stunden | <= 5 Minuten | <= 5 Minuten |
| Katastrophen Vorsorge | 1-Standort Konzept | 1-Standort Konzept oder 2-Standort Konzept | 2-Standort Konzept mit Katastrophen-Vorsorge | 2-Standort Konzept mit Katastrophen-Vorsorge |
| Storage | Lokaler gespiegelter Serverstorage mit Filesystemsicherung via LAN | Paritätsgeschützter zentraler Storage mit Online-Sicherungsverfahren (1 Standort) oder Remote mit Online- Sicherungsverfahren (2 Standorte) | Katastrophengeschützter zentraler Storage inkl. der Online Sicherung | Katastrophengeschützter zentraler Storage inkl. der Online Sicherung |
| Recovery | Start Recovery innerhalb 24 Stunden | Start Recovery innerhalb 8 Stunden Datenbank-Konsistenz Check | Start Recovery innerhalb von 4 Stunden in Abhängigkeit von Datenmengen Datenbank: Schattendatenbank Integration | Start Recovery innerhalb von 4 Stunden in Abhängigkeit von Datenmengen Datenbank: Schattendatenbank Integration |
Die IT GmbH hat ihre Service Qualität in 4 Kategorien aufgeteilt, wobei sich Technical Premium und Technical Premium+ ausschließlich in der Systemnutzungszeit unterscheiden. Obwohl die Verfügbarkeit lediglich mit max. 99% in den SLA's definiert wurde, entsprechen die Services der IT GmbH einer Hocherverfügbarkeitslösung.
7.2 Hochverfügbarkeitssystem
Die HA-Lösung der IT GmbH zeichnet sich durch eine mehrstufige, aufeinander abgestimmte Technologie die stets Up-To-Date gehalten werden muss aus.
Die IT GmbH setzt für seine über 1500 Clients auf ein 2-Standort-Konzept. Das primäre Rechenzentrum entstand mit der Gründung an der Hauptniederlassung der Bank AG in Berlin. Das sekundäre Rechenzentrum befindet sich in einem Vorort von Berlin. Die weiteren Niederlassungen in ganz Europa der Bank AG sind via Glasfaser an beide Rechenzentren angebunden. Wie in der Abbildung 5 zu sehen ist, wird trotz einer kompletten Redundanz der Systeme das primäre Rechenzentrum mehr genutzt.Dies resultiert daraus, dass die IT GmbH ihre Services in drei Sicherheitsstufen im Rechenzentrum kategorisiert.
- Standard Rechenzentrum: Die Server sind redundant an einem Standort untergebracht.
- Advanced Rechenzentrum: Redundante Prozessmodule über zwei Standorte erhöhen die Verfügbarkeit der kritischen Dienste.
- Premium Rechenzentrum: Alle kritischen Daten und Systeme werden redundant an zwei Standorten mit Katastrophenvorsorge gehostet.
Beide Rechenzentren sind durch einen vollkommen redundanten Ring, durch einen sogenannten Dark Fibre Multiplexer Trunk, miteinander verbunden und erlauben synchrone Datenspiegelung in Echtzeit, selbst bei intensivster SAN und LAN Nutzung. Durch die komplexe HA-Lösung der IT GmbH kann das Unternehmen, obwohl in den SLA nicht direkt aufgeführt, eine HA von 99,99% garantieren.
7.2.1 Physikalische Grundvoraussetzungen
Die 2 Standorte der IT GmbH beinhalten insgesamt 5 komplett eigenständige Brand- und Versorgungsabschnitte. Die Entfernung von ~20km gewährleistet, dass auch bei größeren Katastrophen ein Rechenzentrum aktiv geschaltet werden kann. Die Rechenzentren sind ausschließlich über mehrfache Sicherungswege zugänglich. So müssen bei Zutritt mehrfach Sicherheitstüren geöffnet werden und auch je eine Vereinzelungsschleuse passiert werden. Zusätzlich werden die Rechenzentren 24 Stunden, 7 Tage die Woche von einem Sicherheitsdienst und einer vollständigen Kameraüberwachung überwacht. Beide Rechenzentren haben mindestens eine WK4 Gebäudesicherung.
Die Stromversorgung geschieht über vier verschiedene Stromzuführungen und jeweils drei Phasen. Die Notstromversorgung hat zusätzliche redundante USV-Inseln sowie zwei redundante Dieselgeneratoren. Die Stromversorgung garantiert eine 99,982%-ige Verfügbarkeit pro Jahr. Innerhalb von 5 Jahren sind nur zwei Ausfälle über vier Stunden garantiert.
Das Klimamodell ist eine selbstentworfene Idee der IT GmbH: Abgeschottete Kalt- und Wärmegänge innerhalb der Serverräume trennen die verschiedenen Serveranforderungen. Durch dieses Klimamodell kann im Leistungsschein der IT GmbH ebenfalls eine Verfügbarkeit von 99,982% garantiert werden.
7.2.2 Storage
Das SAN der IT GmbH besteht aus zwei Symmetrix DMX1000 und zwei CLARiiON DL700. Zur Archivierung sind zwei Centera-Content-Addressed-Storage-Systeme eingebunden. Alle Server im Unix- und Windows-Umfeld basieren auf Hardware von Fujitsu Siemens Computers. Ein EMC ControlCenter 5.2 übernimmt das Speichermanagement. Für das Backup und die Verwaltung der in-Time-Replikas wird der EMC Replication Manager verwendet. Die Technik erlaubt es die verschiedenen SAN-Platten individuell den Cluster-Farmen zuzuordnen. Dies bietet die nötige Flexibilität, die für das Arbeitsumfeld einer Bank geeinget ist. Die zusätzlichen In-Time-Replikate erfüllen die Anforderungen an eine möglichst hohe Verfügbarkeit ohne größeren Datenverlust.
7.2.3 Clusterarchitektur
Die IT GmbH verwendet zur Trennung ganzer Kundennetze eine stufenweise Abgrenzung einer demitalisierten Zone. Auf der Abbildung 6 ist zu erkennen, dass die demitalisierte Zone direkt hinter der äußeren Firewall Kundenanfragen mittels SMTP bzw. https empfängt. In der dahinter liegenden Zone bilden einzelne Clouds die separat getrennten Kundennetze. Obwohl die Kundennetze logisch getrennt sind können sie über die Netzwerkarchitektur die gemeinsamen Ressourcen die Shared Infrastructure Nutzen. Jede einzelne Schicht hat nur durch die Cloud auf die direkt angrenzende Schicht Zugriff.
Die IT GmbH verwendet zur Virtualisierung ein großes Spektrum an Plattformen, so ist neben einer XEN-, VMWare- auch eine Microsoft Hypervisor-Plattform im Unternehmen aktiv. Je nach Software-System wird die passende Plattform verwendet. So betreibt die IT GmbH einen Großteil ihrer Endgeräte als Think Clients, sogenannte Terminal Computer. Jede Sitzung eines Anwenders wird dabei als virtuelle Instanz auf der XEN-Umgebung implementiert.
Die HA der Systeme wird gewährleistet, durch die ausreichende Redundanz der Aktiv / Aktiv Komponenten. Schwachstellen, wie die Überlastung der Nodes bei einem ausgefallenen Dienst (Node) werden durch ausreichende Kapazitäten und dem Load Balancer ausgeglichen.
7.3 Zertifizierung
Das hohe Sicherheitsniveau hat die IT GmbH sich mehrmals von einer unabhängigen Stelle bestätigen lassen: So zertifizierte sich die IT GmbH 2005/2008 (Rechenzentrum 1) und 2008 (Rechenzentrum 2) gemäß der ISO-Norm 27001 vollständig und ohne Einschränkung. Dabei wurden das neue Rechenzentrum und die einzigartige "Green-IT" als vorbildlich durch die Auditoren besonders hervorgehoben. Der ISO Standard 27001 beinhaltet eine umfassende Sammlung von praxisbewährten Verfahren für das Management der Informationssicherheit, wobei der Schwerpunkt auf ganzheitlichen und in der täglichen Praxis gelebten Ansätzen liegt. Die Zertifikate sind drei Jahre lang gültig und werden jährlich durch Audits überprüft. Ebenso hat die IT GmbH sich 2009 zusätzlich durch die DESAG-Zertifizierungsstelle für ihre Leistungen im Bereich Datenschutz zertifiziert. Das DESAG-Zertifikat weist die IT GmbH aus, verantwortungsvoll mit Daten umzugehen. Dieses Zertifikat bestätigt die Anforderungen der Bank AG zur BaFin-konformen Leistungserbringung und garantierter Datenaufbewahrung nach deutschem Bundesdatenschutzgesetz (BDSG).
7.4 Funktion des Control Center
Die IT GmbH wurde speziell dafür ausgezeichnet, eine äußerst gute Überwachung und Verbesserung der Wirksamkeit des Information Security Management Systems implementiert zu haben. Das Information Security Management System ist eine Norm innerhalb eines Unternehmens, welche dazu dient, die Informationssicherheit dauerhaft zu definieren, zu steuern, zu kontrollieren, aufrecht zu erhalten und fortlaufend zu verbessern.
Die Aufgabe obliegt dem Management. Damit ein Information Security Management System jedoch funktioniert, benötigt es es Input der Systeme[30].
Ausgangpunkt für die Überwachung der Systeme ist das Control Center eines jeden Unternehmens.
Diese Schnittstelle zwischen System und Administrator ist in einem HA-System von besonderer Bedeutung, sodass dieser Abschnitt das Thema erneut verdeutlichen soll.
In dem Control Center der IT GmbH laufen alle Informationen zusammen, die verschiedensten Tool überwachen hier die Aktivität der einzelnen Server. Das Control Center ist zudem für die einzelnen Administratoren Anlaufstelle, um Informationen über z.B. Changes, Neustarts oder Systemprobleme zu kommunizieren. Wie in Kapitel 6.1.3 bereits verdeutlicht, ist die Überwachung der Server gleichzeitig Grundlage der Hochverfügbarkeit. Ein Umschwenken in einem Cluster-Verbund wird im Normalfall durch den Load-Balancer und der Cluster-Software eingeleitet, doch ein Problem, in welchem sich ein System in einen undefinierten Zustand versetzt, muss durch manuelle Gegenmaßnahmen abgefangen werden. Ein undefinierter Zustand gibt vor, wenn das System weder abgeschaltet ist, noch die Aufgaben richtig erfüllt. In diesem Fall agiert das Control Center als Initiator des Failovers.
8 Schlussbetrachtung
Die Unterbrechung der westeuropäischen Retail-Websites der Handelsmarken von Amazon, Inc. machte es im vergangenen Jahr wieder deutlich. Die Verfügbarkeit der IT-Systeme ist die essentielle Voraussetzung für den Handel und damit ist das Thema zum Aufbau einer Hochverfügbarkeitslösung gerade im Zeitalter vom Web 2.0 äußerst aktuell.
Nachdem die weltweite Finanzkrise langsam überwunden ist, erholt sich die Weltwirtschaft stetig. Gerade im Bankensektor sind jedoch die Folgen noch lange spürbar. Das große Misstrauen zwischen den einzelnen Tradern lässt die Preise noch immer nicht fallen und damit die Zinsen auch nicht steigen. So kennzeichnet das neue Geschäftumfeld der Bank die IT und stellt hohe Anforderungen an diese. Im Interview mit Klaus-Peter Bruns, sellvertretender Vorsitzender des Vorstand der FIDUCIA AG wurde das Spannungsfeld aus Sicherheit und Flexibilität beschrieben.
In den vorgestellten Basis-Technologien wurde das Thema Hochverfügbarkeit erklärt und versucht durch einfache Ansätze verständlich zu vermitteln. Durch lauter Kombinationen der verschiedenen Technologien, um einen möglichst hohen Grad an Verfügbarkeit zu erreichen, muss gewährleistet sein, dass nicht durch lauter Redundanz die Performance vernachlässigt wird. Außerdem kann eine Hochverfügbarkeit ohne die entsprechende Überwachung (Monotoring) nicht funktionieren. Eine Hochverfügbarkeitslösung muss daher im Gesamtpaket stimmen. Dies beginnt bei den physikalischen Grundbedürfnissen bis zum Information Security Management System und dem Control Center.
Für die Zukunft ist abzusehen, dass durch die rasante Entwicklung der IT es stets neue Weiterentwicklungen geben wird, die neue, effizientere Möglichkeiten bieten, Systeme ausfallsicher zu gestalten. Und so wird dieses Thema für den Bankenbereich stets von Bedeutung bleiben, da aufgrund der besonderen Anforderungen an die Sicherheit der Daten einer Bank, der Verlust (auch nur auf Zeit) einen sehr hohen Schaden verursachen würde.
9 Quellenverzeichnis
- ↑ Bei dieser Aussage wurden, weder andere Markteinflüsse, Markteingrenzungen oder Virale Verbreitungeffekte berücksichtigt.
- ↑ Vgl. Coleman Parkes
- ↑ Vgl. Bundesamt für Sicherheit in der Informationstechnik
- ↑ Siehe IEEE Task Force on Cluster Computing
- ↑ Vgl. Liebel, O., S. 12f
- ↑ Vgl. IT05
- ↑ Vgl. M.Nispel, S.König S. 1-4
- ↑ M. Nispel, S. König in Netzwerk Grundlagen – Standard Based Availability
- ↑ Vgl. Esprit Consulting S.1
- ↑ Esprit Consulting S.3 ff
- ↑ Vgl. BaFin "Die BaFin"
- ↑ Vgl. Competence Center EAI S.20ff
- ↑ Vgl. Bundesfinanzministerium
- ↑ Vgl. Bundesbank zur Bankenaufsicht: Basel II
- ↑ Siehe Competence Center EAI S.24
- ↑ Vgl. Competence Center EAI S.11 ff
- ↑ Vgl. Competence Center EAI S.8 ff
- ↑ Vgl. Die Bank - Das Idealbild der IT
- ↑ Vgl. Bruns, K.
- ↑ Vgl. Liebel,O. S.52 ff
- ↑ Vgl. Failur Trends in an Large Disk Drive Population
- ↑ Vgl. Liebel O. S. 75ff
- ↑ Siehe Projektmagazin
- ↑ Vgl. Liebel O., S.169f
- ↑ Vgl. Greyfrog Information Technology
- ↑ 26,0 26,1 Vgl. Liebel O., S.181ff
- ↑ Vgl. Liebel O., S. 170
- ↑ 28,0 28,1 Vgl. Liebel O., S. 373ff
- ↑ Vgl. Liebel O., S. 399
- ↑ Vgl. Kron G.
10 Literaturverzeichnis
- BaFin,
Die BaFin, http://www.bafin.de/cln_152/nn_724274/DE/BaFin/bafin__node.html?__nnn=true, Zugriff am 10.01.2011 12:44 - Bruns, Klaus-Peter,
Sicher, hochverfügbar und effizient, http://www.geldinstitute.de/data/beitrag/Artikel-Sicher-hochverfuegbar-und-effizient_3327201.html, Zugriff am 12.01.2011 20:30 - Bundesamt für Sicherheit in der Informationstechnik
"Avoidable Cost of Downtime 2010 Report", https://www.bsi.bund.de/cae/servlet/contentblob/483606/publicationFile/30961/1_2_Definitionen_pdf.pdf, Zugriff am 11.01.2011 11:02 - Bundesministerium der Finanzen,
Glossar - Basel II, http://www.bundesfinanzministerium.de/nn_53848/DE/BMF__Startseite/Service/Glossar/B/022__Basel__III.html?__nnn=true?__nnn=true, Zugriff am 12.01.2011 Zugriff um 17:56 - Coleman Parks,
"Avoidable Cost of Downtime 2010 Report", http://www.channelpartner.de/index.cfm?pid=266&pk=296511, Zugriff am 10.01.2011 10:44 - Competence Center EAI,
KontaG, MaK und Basel II - Einflüsse gesetzlicher Anforderungen auf Banken IT und -organisation, Präsentiert durch Stephan Aier, http://www.sysedv.tu-berlin.de/Homepage/SYSEDV.nsf/GetDownload?OpenAgent&ID=1729CDD6D2448C2FC1256D490042C629&FILE=Einfl%FCsse%20gesetzlicher%20Anforderungen%20auf%20Banken-IT%20und%20-organisation.pdf, Zugriff am 11.01.2011 13:00 - die-Bank.de,
Die Bank - Das Idealbild der IT, http://www.die-bank.de/it-und-kommunikation/das-idealbild-der-it-agil-flexibel-effizient, Zugriff am 12.01.2011 20:12 - Esprit Consulting,
Industriefokus Banken - banken IT - Wertschöpfung im Fokus des Aufsichtsrechts, http://www.esprit-consulting.com/SiteCollectionDocuments/10_Industrylines/Banking/Banken-IT.pdf, Zugriff am 10.01.2011 13:15 - Failur Trends in an Large Disk Drive Population,
Langzeitstudie über die Ausfallwahrscheinlichekti vvon Disks, http://labs.google.com/papers/disk_failure.pdf, Zugriff am 20.12.2010 13:10 - Greyfrog - Information Technology,
Hochverfügbarkeit im Rechenzentrum, http://www.greyfrog.eu/cluster.de.htm, Zugriff am 20.01.2011 21:03 - IEEE Task Force on Cluster Computing,
High Availability (HA). http://www.ieeetfcc.org/high-availability.html, Zugriff am 20.01.2011 20:47 - IT05,
OSI - Refernzmodell - Grundbasis zur Kommunkation von Netzwerkgeräten untereinander., http://www.its05.de/computerwissen-computerhilfe/pc-netzwerk/osi-modell/osi-modell.html, Zugriff am 10.01.2011 14:32 - Projektmagazin,
Glossar: Team, http://www.projektmagazin.de/glossar/gl-0122.html Zugriff am 20.01.2011 19:48 - Kron, Gerhard,
Die Risikoanalyse innerhalb eines Information Security Management System (ISMS), http://www.online-artikel.de/article/die-risikoanalyse-innerhalb-eines-information-security-management-system-isms-59140-1.html, Zugriff am 21.01.2011 10:15 - Liebel, Oliver,
Linux Hochverfübarkeit - Einsatzszenarien und Praxislösungen, Galileo Computing, 2011

