Zentrale Massenspeicherlösungen im Enterprise Bereich
Aus Winfwiki
| Name des Autors: | Andreas Lippert |
| Name des Autors: | Bastian Meuter |
| Titel der Arbeit: | "Zentrale Massenspeicherlösungen im Enterprise Bereich" |
| Hochschule und Studienort: | FOM Düsseldorf |
1 Abbildungsverzeichnis
| Abbildung | Bezeichnung |
|---|---|
| Abb. 1 | Direct Attached Storage |
| Abb. 2 | Network Attached Storage |
| Abb. 3 | Vergleich ISO/OSI Schichtenmodell mit Schichten des Fibre Channel Protokolls |
| Abb. 4 | Header eines Fibre Channel Frames |
| Abb. 5 | SAN Topologien |
| Abb. 6 | Serverzentrierte IT-Architektur |
| Abb. 7 | Speicherzentrierte IT-Architektur |
| Abb. 8 | Data Sharing |
| Abb. 9 | Schutz einer wichtigen Datenbank |
| Abb. 10 | Backup-to-Disk |
| Abb. 11 | Backup-to-Tape |
| Abb. 12 | Backup-to-Disk-to-Tape |
| Abb. 13 | Remote Mirroring |
2 Abkürzungsverzeichnis
| Abkürzung | Bedeutung | |
|---|---|---|
| CIFS | Common Internet File System | |
| CPU | Central Processing Unit | |
| CRC | Cyclic Redundancy Check | |
| DAT | Digital Audio Tape | |
| DDS | Digital Data Storage | |
| DCLZ | Data Compression according to Lempel and Ziv | |
| EoF | End of File | |
| FCP | Fibre Channel Protocol | |
| Gbps | Gigabit per second | |
| HBA | Host-Bus-Adapter | |
| iFCP | internet FCP | |
| IFPI | International Federation of the Phonographic Industry | |
| iSCSI | internet Small Computer System Interface | |
| LTO | Linear Tape Open | |
| NFS | Network File System | |
| NIC | Network Interface Card | |
| PCI | Peripheral Component Interconnect | |
| RAM | Random Access Memory | |
| RDMA | Remote Direct Memory Access | |
| SAS | Aerial Attached SCSI | |
| SCSI | Small Computer System Interface | |
| SLA | Service Level Agreement | |
| SOF | Start of File | |
| TOE | TCP/IP Offload Engine | |
| UDP | Uer Data Protocol | |
| ULP | Upper Layer Protocol | |
| WORM | Write Once Read Many |
3 Tabellenverzeichnis
| Tabelle | Bezeichnung |
|---|---|
| Tabelle 1 | DDS Varianten |
| Tabelle 2 | Übersicht LTO |
| Tabelle 3 | Vergleich Instant Copy und Snapshot |
4 Einleitung
Durch das Wachstum von Unternehmen sowie die Änderung und Verabschiedung von nationalen und internationalen Vorschriften wächst das weltweite Datenvolumen ununterbrochen. Alleine im Jahr 2008 wurden weltweit ca. 487 Milliarden Gigabyte Daten zusätzlich zu den bereits bestehenden Datenbeständen generiert.[1] Der Massenspeicherhersteller EMC geht davon aus, dass sich das Datenvolumen alle 1,5 Jahre verdoppeln wird.[2] Gleichzeitig werden jedoch die Budgets für den IT-Bereich immer weiter gekürtzt, so dass es unumgänglich ist, effektivere Speicherlösungen zu entwickeln und einzusetzen, um so das immer weiter steigende Datenvolumen verwalten und speichern zu können. Nicht nur eine effektive und performante Speicherung der Daten, sondern auch zuverlässige Sicherungskonzepte zum Schutz der Unternehmensdaten sind heute die Hauptanforderungen. Dies ermöglicht es Unternehmen, die Daten beim Ausfall eines Massenspeichers die Daten nahezu vollständig wiederherstellen zu können. „80% der Unternehmen, die über keine durchdachte Schutz- und Wiederherstellungsstrategie für ihre Daten verfügen, beenden innerhalb von zwei Jahren nach einer größeren Katastrophe ihre Geschäftstätigkeit.“[3] Hinzu kommt - gerade im Bereich der bilanzführenden Systeme - eine Vielzahl von nationalen und internationalen Richtlinien, Vorschriften und Gesetzen, die eine Sicherung der Daten fordert, die sowohl dem Datenschutz als auch der Revionssicherheit genügen.
Diese Fallstudie soll einen vertieften Überblick über die Anforderungen an Massenspeicherlösungen, sowie die verschiedenen Massenspeicher- und Datensicherungskonzepte geben. Dazu werden zunächst die unterschiedlichen Datenspeicherlösungen und Basisarchitekturen zur Implementierung und im Anschluss Datensicherungslösungen erläutert sowie ein Ausblick auf die zukünftige Entwicklung im Bereich der Massenspeicherlösungen gegeben.
5 Massenspeicherlösungen
5.1 Anforderungen an Massenspeicherlösungen
Eine der wichtigsten Anforderungen an Massenspeicherlösungen ist eine zentrale Erreichbarkeit, sodass keine Abhänigkeit von einem weiteren Endgerät (Server) entsteht. Ebenso ist die Skalierbarkeit - im Hinblick auf das oben erwähnte steigende Datenvolumen - eine der zentralen Anforderungen, da eine Erweiterung des Konzepts mit einer hohen Wahrscheinlichkeit zu einem späteren Zeitpunkt notwendig werden wird.
Eine ausreichende Performanz des Massenspeichers ist notwendig, damit Prozesse und Anwendungen performant und stabil laufen und das Unternehmen somit effektiv arbeiten kann. Eine zentrale Konfigurierbarkeit und die Möglichkeit der Fernwartung tragen neben einer Kostenreduktion auch zur schnellen und einfachen Administration bei. Je nach Anforderungsprofil sollten die Systeme redundant ausgelegt sein, damit bei Ausfall einzelner Komponenten die geschäftskritische Prozesse nicht betroffen sind. Durch SLA (Service Level Agreements) kann eine schnelle Wiederaufnahme nach einem Systemaufall vertraglich festgelegt werden. Die Lösung sollte zukunftssicher sein, d.h. es sollte eine Modellreihenkompatibilität mit Nachfolgeserien geben. Gleichzeitig zu diesen Anforderungen muss die Lösung möglichst kostengünstig bzw. kosteneffektiv sein.
5.2 Direct Attached Storage (DAS)
Ein Direct Attached Storage ist ein Datenspeicher, der ohne ein Speichernetz direkt an den Host angeschlossen ist. Die Skalierbarkeit und Funktionalität von DAS-Systemen ist beschränkt. Wenn die maximale Anzahl an Festplatten erreicht ist, kann ein DAS-System nicht mehr erweitert werden. Ein DAS kann nur einem Server zugeordnet werden. Fällt dieser Server aus, sind auch die auf dem DAS gespeicherten Daten nicht mehr verfügbar.
5.3 Network Attached Storage (NAS)
Über Netzwerk-Dateisysteme können Anwendungen und Benutzer über das Netzwerk auf Verzeichnisse und Dateien zugreifen, die physikalisch an einem anderen Ort, nämlich dem Fileserver, liegen. Die Bedeutung von Fileservern hat in hohem Maße zugenommen, sodass sich vorkonfigurierte Fileserver zu einer eigenen Produktkategorie entwickelten. Diese neue Produktkategorie wird als Network Attached Storage (NAS) bezeichnet.[4] Ein NAS besteht aus einem oder mehreren Servern mit einem angepassten Betriebssystem und mehreren Festplatten, die im Server oder aber in einem externen, meist per SAS mit dem Server verbundenen Festplattengehäuse eingebaut sein können. Ein NAS wird über einen Ethernet Anschluss in ein vorhandenes Netzwerk integriert.[5] Dies ist einerseits vorteilhaft, da die existierende Infrastruktur genutzt werden kann, andererseits nachteilhaft, da zusätzlicher Netzwerk Datenverkehr produziert wird und das Netzwerk so belastet.
NAS-Systeme sind für Datei-lastige Dienste und Anwendungen wie File- oder Webserver optimiert, da sie mit File-basierten Input/Output arbeiten, das heißt, dass Daten in großen Blöcken (Dateien oder Dateifragmente) ausgetauscht werden. Der Austausch der Daten über das Netzwerk erfolgt über Netzwerk Filesharing Protokolle wie CIFS oder NFS. Die Speicherung der Daten auf die Festplatte erfolgt dann in Blöcken z.B. über das SCSI Protokoll. Für die „Umrechnung“ von Datei-basierte in Block-basierte Daten ist das NAS bzw. das dort installierte Betriebssystem zuständig.[6]
Leistungs-Engpässe können auftreten, wenn NAS-Systeme für Input/Output-lastige Dienste wie Datenbanken oder Videoverarbeitung verwendet werden. Daten, die vom Benutzer angefragt werden, werden von der SCSI Festplatte über den SCSI-Bus, den PCI-Bus und den Systembus in den RAM geladen und von dort aus wieder über den Systembus und PCI-Bus an die Netzwerkkarte geleitet. Somit wird der PCI-Bus und Systembus des Fileservers zweimal belastet. Bei hoher Belastung des Fileservers durch I/O-lastige Dienste können so Engpässe in der Performance entstehen. Zusätzlich werden beim Senden die Daten vom Arbeitsspeicher in den Cache der CPU kopiert, bevor diese dann die Daten über den PCI-Bus zur Netzwerkkarte transportiert, wo Sie per TCP/IP an den Benutzer verschickt werden. Dies belastet die CPU und den Systembus zwischen CPU und Arbeitsspeicher. Zusätzlich sind die meisten Netzwerkkarten nicht in der Lage, das TCP/IP-Protokoll vollständig selbstständig abzuarbeiten (d.h. alle Schichten selber abzuarbeiten), sodass dies ebenfalls teilweise von der CPU übernommen werden muss. Meist werden daher TCP/IP Offload Engines (TOEs) eingesetzt, die selbstständig mehr Schichten des TCP/IP Protokolls abarbeiten können als herkömmliche NICs und die CPU so entlasten.[7]
Hier liegt ein Ansatz zur Erhöhung der Performance von NAS Systemen: Das rechenintensive TCP/IP Protokoll könnte gegen ein weniger rechenintensives Protokoll wie beispielsweise das Remote Direct Memory Access (RDMA) Protokoll ausgetauscht werden, welches es erlaubt, Daten vom Arbeitsspeicher eines Computers direkt und ohne Einbeziehung des Betriebssystems in den eines anderes Computers zu transportieren ohne dabei CPU und Cache zu belasten. Hierdurch wird eine hohe Durchsatzrate erreicht und eine geringe Wartezeit bzw. Verzögerung erreicht.
5.4 Storage Area Network (SAN)
Ein SAN (Storage Area Network) ist ein Hochgeschwindigkeitsnetzwerk zwischen Servern und Speichergeräten, dessen primäre Aufgabe der Datentransfer zwischen den Servern und Speichergeräten ist. Durch diese Infrastruktur ist es möglich, die Speichergeräte räumlich getrennt von den Servern aufzustellen, was ein besseres Disaster Planning ermöglicht, wobei die Administrierbarkeit zentral erfolgen kann. Bedingt durch die Infrastruktur ist jedes Storage von jedem Server erreichbar. Der Ausfall eines Servers hat also keine Auswirkung auf die Beständigkeit und Erreichbar der Daten für die anderen Server.
SAN-Konzepte sind für I/O-lastige Anwendungen und Dienste wie Datenbanken optimiert, da die Daten blockweise übertragen werden. Viele SAN-Systeme unterstützen das CIFS und/oder NFS Protokoll und sind daher und auf Grund ihrer hohen Bandbreite bedingt auch für File-Dienste geeignet.[8]
Speichernetze sind schwieriger zu implementieren, da die Konfiguration komplexer ist, als bei NAS-Systemen, wo der größte Teil bereits durch den Hersteller vorkonfiguriert wurde.[9]
5.4.1 Fibre Channel SAN
Speichernetze haben als Anforderungen an die Übertragungstechnik eine hohe Geschwindigkeit der (seriellen) Datenübertragung über weite Distanzen, eine geringe Latenz und ein Übertragungsprotokoll, welches zum großen Teil im HBA abgearbeitet werden kann und somit die CPU entlastet.[10] Fibre Channel, das ursprünglich als Backbone-Technik für die Kopplung von LANs entwickelt, erfüllt diese Vorraussetzungen und wird daher für Storage Area Networks verwendet.[11] Fibre Channel SANs bieten höchste Performance und werden daher in Umgebungen mit höchsten Anforderungen eingesetzt.
Fibre Channel kann sowohl über optische Medien (Lichtwellenleiter) als auch über elektrische Medien (Kupferkabel) realisiert werden, wobei die Variante der optischen Medien Vorteile wie eine höhere Reichweite und Unbeeinflussbarkeit durch elektromagnetische Störungen aufweist. Das Fibre Channel Protokoll besteht aus den fünf Schichten FC-0 bis FC-4, wobei die unteren Schichten FC-0 bis FC-03 für die grundlegende Kommunikation (Übertragung und Adressierung) zuständig sind, während die obere Schicht FC-4 die Anbindung an das Anwendungsprotokoll (Upper Layer Protocol) definiert.[12]
5.4.1.1 Protokoll
Die unterste Schicht des Fibre Channel Protokollturms FC-0 entspricht der Bitübertragungsschicht des ISO/OSI Modells. FC-O definiert das Übertragungsmedium, über das die Daten übertragen werden können. Die Daten werden seriell über eine einzelne Leitung, d.h. nacheinander übertragen. Durch die serielle Übertragung können keine Skews auftreten, sodass eine hohe Übertragungsrate auch über hohe Entfernungen möglich ist. Bei der Point-to-Point- sowie Farbic-Topologie[13] ist die Verbindung bidirektional und voll-duplex, sodass gleichzeitig in beide Richtungen mit voller Geschwindigkeit übertragen werden kann. Fibre Channel definiert unterschiedliche Stecker- sowie Kupfer- und Glasfaserkabeltypen, die verwendet werden können. Mit unterschiedlichen Kabeln und Steckern können unterschiedliche Längen überbrückt werden, so sind mit Kupferkabeln nur Entfernungen bis zu 12m möglich, während mit kurzwelligen Lichtwellenleitern Entfernungen bis zu 300m und mit langwelligen Lichtwellenleitern Entfernungen bis zu 10km realisiert werden können. Die aktuell höchste mögliche Übertragungsrate liegt bei 8Gbit/s, womit bei Vollduplex Datentransferraten von 800MB/s realisiert werden können. Bei Fibre Channel müssen die Datenleitungen auf ihre Fehlerrate gemessen werden. Die Fehlerrate darf einen Maximalwert von einem Fehler pro 1012 übertragenen Bits nicht überschreiten.
Die zweite Schicht FC-1 ist für die Kodierung der übertragenen Daten zuständig. Bei der parallelen Datenübertragung existiert eine extra Datenleitung, die nur dazu vorgesehen ist, die Taktfrequenz des Senders zu übertragen, damit der Empfänger den aktuellen Takt kennt. Bei Fibre Channel wird die Binärkodierung angewandt, d.h. es werden nacheinander Nullen und Einsen gesendet. Dies ist problematisch, da die einzelnen Signale, die beim Empfänger ankommen nicht immer exakt gleich lang sind (Jitter) und der Empfänger den Takt, mit dem der Sender die Daten versendet, nicht kennt. Der Takt kann auch nicht zusätzlich übertragen werden, da nur eine einzige Datenleitung in jede Richtung existiert. Werden beispielsweise 10 Nullen gesendet, kann der Empfänger dies beim Auftreten von Jittern als 9 oder 11 Nullen interpretieren. Dieser Problematik wird durch die 8b/10b-Kodierung, die auch bei Gigabit-Ethernet eingesetzt wird, entgegengewirkt: Eine 8-Bit Binärfolge wird in eine 10-Bit Binärfolge umgewandelt, die maximal fünf gleiche aufeinander folgende Nullen oder Einsen enthält, sodass der Epfänger den Takt einhalten kann.
Die dritte Schicht FC-2 ist für die Datenübertragung verantwortlich. Diese Schicht regelt, wie schnell die Daten übertragen werden dürfen, damit Sie vom Empfänger noch verarbeitet werden können und definiert verschiedene Dienstklassen. Zur Datenübertragung wendet die FC-2 Schicht ein Drei-Schichten-Modell an. Die oberste Schicht ist die Exchange Schicht und stellt eine logische Kommunikationsverbindung zwischen zwei Endgeräten, beispielsweise einen Server und einem Speichergerät dar. Ein Endgerät kann mehrere Exchanges aufbauen (für verschiedene Prozesse bzw. Anwendungen, sodass die FC-2 Schicht beim Empfänger die ankommenden Daten direkt einem Prozess zuordnen kann. In einem Exchange können nacheinander beliebig viele Sequenzen übertragen werden. Sequenzen bilden die zweite Schichten des Drei-Schichten-Modells. Eine Sequenz könnte beispielsweise eine Transaktion eines Prozesses sein, z.B. ein Eintrag in einer Datenbank. Eine Sequenz besteht aus mindestens einem Frame, der die dritte Schicht des Drei-Schichten-Modells darstellt. Ein Frame beinhaltet die Daten, die gesendet werden sollen (maximal 2112 Byte Nutzdaten). Sollen in einer Sequenz mehr als 2112 Byte Nutzdaten versendet werden, so enthält diese Sequenz mehrere Frames. Die folgende Abbildung 4 zeigt den Aufbau eines beim Fibre Channel Protokoll verwendeten Frames.
Ein Fibre Channel Frame besteht aus einem Header, der die Zieladresse, Senderadresse, Identifikationsnummer der jeweiligen Sequenz, Nummer des Frames innerhalb der Sequenz und Identifikationsnummer des Exchanges enthält, der CRC Prüfsumme, die eine Fehlerkorrektur durchführt, und einem Start of Frame (SOF) und End of Frame (EOF) Delimiter, die den Frame umklammern und somit Beginn und Ende des Frames definieren.
Fibre Channel bietet ein sehr effizientes Verhältnis zwischen Nutzdaten und Overhead von 98%. Es werden Durch das CRC Prüfverfahren allerdings nur Fehler bei der Datenübertragung erkannt, wenn die Fehlerrate von 1012 nicht überschritten wird. Wie bereits erwähnt, ist diese Fehlerrate daher bei der Verlegung der Datenleitungen zu messen und einzuhalten.
Die Schichten FC-01 und FC-02 entsprechen gemeinsam der Sicherungsschicht der ISO/OSI Modells.
Die vierte Schicht FC-03 des Fibre Channel Protokolls ist leer. Es werden verschiedene potenzielle Funktionen für diese Schicht diskutiert. Durch Striping könnten bei Mutliport-Geräten, die über mehrere Fibre Channel Ports verfügen, Frames eines einzelnen Exchanges parallel gesendet und empfangen werden. Im Gegensatz dazu könnten durch Mirroring die gleichen Daten über zwei Datenleitungen übertragen werden, um die Fehlerrate zu reduzieren. Multipathing fasst zwei oder mehr physische Datenübertragungsleitungen zu einer logischen Datenübertragungsleitung zusammen. Dadurch kann eine Redundanz bei Ausfall einer der beiden Leitungen erreicht werden und bei Überlastung einer Leitung könnte der Datenverkehr teilweise auf die zweite Leitung ausgelastet werden, sodass die Überlastung einer physischen Leitung für höhere Schichten nicht sichtbar ist und somit kein Problem darstellt. Durch Komprimierung der Daten bzw. der Frames könnte bei letztendlich quantitativ gleicher Datenübertragung die Belastung der Datenleitungen reduziert werden. Ebenfalls denkbar wäre eine Verschlüsselung der Daten auf der FC-3 Schicht.
Die bisherigen unteren Schichten FC-0 bis FC-3 behandelten nur den reinen Datenversand. Die höhere Schicht FC-4 ist dafür zuständig, konkrete Anwendungsprotokolle (Upper Layer Protocols, ULP) für die unteren Schichten so abzubilden, dass die Daten der Anwendungsschichten durch die unteren Schichten des Fibre Channel Protkollturms versendet werden können. Die FC-4 Schicht ist also ein „Übersetzer“ zwischen den Programmierschnittstellen der Anwendungen (application programming interface, API) und den Schnittstellen der unteren Schichten. Das entsprechende Fibre Channel Anwendungsprotokoll für SCSI heißt Fibre Channel Protokoll (FCP) und bildet das SCSI Protokoll auf den unteren Fibre Channel Schichten ab. Dabei muss es das parallele SCSI Signal in eine serielles Signal umwandeln, da Fibre Channel ja, wie bereits erwähnt, die Daten seriell übertragt.
5.4.1.2 Topologien
Das Fibre Channel Protokoll unterstützt die drei Topologien Point-to-Point, Fabric und Abitrated-Loop. Bei der Point-to-Point Topologie existiert eine bidirektionale Verbindung zwischen zwei Geräten. In der Arbitrated-Loop Technologie sind alle Geräte durch eine unidirektionale Ringdatenleitung verbunden, sodass nur jeweils zwei Geräte miteinander kommunizieren können. Bei einem Fabric können alle Geräte gleichzeitig mit voller Bandbreite Verbindungen aufbauen. Zentraler Punkt der Farbic Topologie ist ein Fibre Channel Switch, der als Schaltzentrale fungiert. Es können parallel auch mehrere Switche eingesetzt werden, um z.B. die Verbindung der Geräte untereinander redundant auszulegen. An ein Fabric kann auch ein oder mehrere Abitrated-Loops angeschlossen werden.[14] Bei allen Topologien müssen alle Geräte mit mindestens einem Fibre Channel Port ausgestattet sein, der wiederrum über einen Eingangs- und einen Ausgangskanal verfügt, sodass gleichzeitig Daten gesendet und empfangen werden können. Der bidirektionale Datenverkehr ist jedoch wie bereits erwähnt nur bei den Topologien Fabric und Point-to-Point möglich, beim Abitrated-Loop ist nur ein unidirektionaler Datenverkehr möglich.[15]
5.4.2 IP Storage
Neben Fibre Channel existieren auch weitere Technologien bzw. Protokolle mit denen SANs realisiert werden können. Diese Protokolle basieren auf dem TCP/IP Protokoll. Das folgende Kapitel behandelt die Technologien iSCSI, iFCP, mFCP, FCIP und iSNS.
5.4.2.1 iSCSI
Seit 2004[16] existiert mit Internet SCSI (iSCSI) SANs eine kostengünstige Alternative zu Fibre Channel (FC) SANs. iSCSI verfolgt einen ähnlichen Ansatz wie FC. Das SCSI-Protokoll wird jedoch nicht über das FC Protokoll, sondern über das TCP/IP Protokoll übertragen. Somit können im SAN gewöhnliche Ethernet-Netzwerkkomponenten (HBAs, Switche, Datenübertragungsmedien) verwendet werden, die deutlich günstiger sind als FC Komponenten.[17] Die Konfiguration eines iSCSI SANs ist zudem deutlich simpler als bei einem FC SAN. iSCSI SANs bieten dennoch wie auch Fibre Channel SANs ein hohes Maß an Flexibilität, z.B. bei der Erweiterung des SANs um neue Massenspeichergeräte. iSCSI SANs bieten jedoch mit 1Gbps pro Speichercontrollerport eine geringere Datendurchsatzrate als FC SANs, die 4Gbps bzw. 8Gbps pro Speichercontrollerport zur Verfügung stellen können. iSCSI SANs sind auf Grund ihrer Durchsatzrate durchaus für I/O-lastige Dienste wie Datenbanken einsetzbar, können aber nur bedingt für Datei-lastige Dienste und Anwendungen wie bspw. CIFS verwendet werden.
In den Servern können entweder kostengünstige gewöhnliche Ethernetadapter oder kostenintensivere HBAs verwendet werden. Bei Verwendung gewöhnlicher NICs wird ein zusätzlicher iSCSI Treiber installiert, sodass die „Übersetzung“ des SCSI Protokoll in das TCP/IP Protokoll von der CPU übernommen wird. Beim Einsatz von HBAs wird die Abarbeitung des Protokollturms durch eben diese HBAs übernommen, sodass die CPU deutlich entlastet wird.[18] Bis 2007 wurden iSCSI SANs nur in kleineren Unternehmen oder auf Abteilungsebene eingesetzt sowie für das Booten von Diskless-Nodes von Cluster Rechnern eingesetzt. Heute, 2009, hat sich der Anteil von iSCSI Speicherlösungen weiter erhöht und iSCSI SANs finden auch in größeren Unternehmen Einsatz.
5.4.2.2 iFCP
Beim Internet FCP (iFCP) wird das FC Protokoll auf dem TCP/IP Protokoll abgebildet. Der Grund, das FC Protokoll auf TCP/IP abzubilden, obwohl hierzu keine Notwendigkeit besteht, ist, dass eine Fibre Channel-Infrastruktur durch eine kostengünstigere Ethernet-Infrastruktur ersetzt werden kann, dabei jedoch die Endgeräte, die auf FC basieren, weiterverwenden zu können. Somit wird der Umstieg von einem reinen FC Netz kostengünstiger möglich. Da es mit FC-to-iSCSI-Gateways schon Möglichkeiten gibt, FC Geräte in TCP/IP Umgebungen einzusetzen, bleibt der Nutzen und die Zukunft für iFCP fraglich.[19]
5.4.2.3 mFCP
Das Metro FC Protokoll (mFCP) ist dem Internet FC Protokoll konzeptionell sehr ähnlich. Das FC Protokoll wird jedoch nicht auf dem TCP/IP, sondern auf dem UDP/IP Protokoll abgebildet. Hierdurch wird Performance gewonnen, da UDP ein unzuverlässiges, verbindungsloses Protokoll ist, was jedoch eine höhere Fehlerrate verursacht. Hierdurch entstehende Fehler können jedoch durch höhere Protokolle, beispielsweise NFS, durch Fehlerbehebungsmechanismen korrigiert werden. iFCP bzw. mFCP wertet die Nutzdaten aus den FC Frames aus und verpackt diese Nutzdaten dann als TCP/IP bzw. UDP/IP Frame. Gleichzeitig müssen dabei auch Infrastrukturdienste wie Zoning und Name Services auf TCP/IP bzw. UDP/IP abgebildet werden. Da es wie bereits erwähnt mit FC-to-iSCSI-Gateways schon Möglichkeiten gibt, FC Geräte in TCP/IP Umgebungen einzusetzen, bleibt auch der Nutzen und die Zukunft für mFCP fraglich.
5.4.2.4 FCIP
Zur Realisierung von Datensicherungen auch über sehr weite Distanzen, die normalerweise mit Fibre Channel nicht realisiert werden können, existert das Protokoll Fibre-Channel-over-IP (FCIP). Es verbindet zwei FC SANs über TCP/IP. Dabei ist der der Einsatz von FCIP für die Geräte nicht sichtbar ist und eine Installation von Diensten und Treibern nicht notwendig. FCIP verpackt die Nutzdaten aus den FC Frames in TCP/IP. Die Daten werden dann über einen Tunnel zwischen den beiden SANs ausgetauscht und dabei durch IPSec verschlüsselt.[20] Das FCIP Protokoll findet z.B. beim Remote Mirroring[21] Einsatz.
5.4.2.5 iSNS
Zur Kommunikation zwischen Storagekomponenten in einem iSCSI SAN existiert der Internet Storage Name Server (iSNS), der nach Geräten im IP-Netz scannt, von den verbundenen Clients Informationen bzw. deren Attribute zugeschickt bekommt und diese dann für alle Geräte im SAN zur Verfügung stellt.
5.5 Basisarchitekturen
In diesem Kapitel werden Grundlagen für die Architektur eines Speichernetzes erklärt.
5.5.1 Storage Sharing
Speichernetze bringen den Vorteil mit sich, dass die Ressourcen und Daten innerhalb eines Speichernetzwerkes von mehreren Hosts genutzt werden können. Es existieren unterschiedliche Varianten, die Ressourcen bzw. Daten mehreren Hosts zur Verfügung zu stellen.
5.5.1.1 Disk Storage Pooling
In einer serverzentrierten Serverarchitektur ist jedem Server ein eigener Datenspeicher zugewiesen. In Abbildung 6 ist zu erkennen, dass die Speicherressourcen des Servers 2 ausgeschöpft sind. Zwar sind bei Server 1 und Server 3 freie Ressourcen vorhanden, Server 3 kann jedoch nicht auf diese zugreifen.
In einer speicherzentrierten IT-Architektur existiert ein Disksubsystem, auf das alle Server zugreifen können (siehe Abbildung 7). Bei dieser Variante stehen Server 2 weitere Speicherressourcen zur Verfügung, sodass keine Hardware erweitert werden muss. Es können auch mehrere Disksubsysteme zu einer Speicherressource miteinander verknüpft werden. Durch inkompatible Disksubsysteme verschiedener Hersteller ist das Storage Pooling mit Geräten unterschiedlichen Hersteller teilweise jedoch nicht möglich. Einen Ansatz, diese Inkompatibilitäten zu überwinden, bieten die Speichervirtualisierung.
Das Zentralisieren der lokabel Speicherressourcen der einzelnen Server zu einem großen Speicherpool mit dynamischer Ressourcenzuweisung wird als Disk Storage Pooling bezeichnet.[22]
5.5.1.2 Tape Library Sharing
Ähnlich wie Datenspeicher, können auch Tape Libraries können von mehreren Server genutzt werden, sodass eine zentrale Tape Library mehrere kleine, lokal angeschlossene Tape Labraries ersetzen kann. Das „Teilen“ der Tape Library der Server untereinander wird als „Tape Library Sharing“ bezeichnet. Man unterscheidet zwei grundsätzliche Arten des Tape Library Sharings.
Beim statischen Tape Library Sharing wird die Bandbibliothek in mehrere virtuelle Bandbibliotheken partitioniert, die dann einzelnen Server fest zugewiesen werden. Jedes Bandlaufwerk und jedes Medium ist einer virtuellen Bandbibliothek fest zugeordnet.
Beim Dynamic Tape Library Sharing wird dynamisch ausgehandelt, welcher Server welches Bandlaufwerk und welche Medien benutzt. Es existiert hierbei ein Library-Master, der die Zugriffe der übrigen Server (Library Clients) koordiniert. Diese dynamische Lösung bietet mehr Flexibilität, da ein Bandlaufwerk in verschiedenen Zeiträumen auch von unterschiedlichen Servern genutzt werden kann. Alle Server müssen dabei mit dem gleichen Protokoll auf die Tape Library zugreifen. Der aktuelle einheitliche Standart hierzu ist der IEEE 1244 for Media Management Systems Standard.[23]
5.5.1.3 Data Sharing
Data Sharing beschreibt die Nutzung von Daten durch mehrere Anwender, d.h. mehrere Anwendungen greifen parallel auf den gleichen Datenbestand zu. Im Gegensatz zu Data Copying, bei dem einfach ein Kopie des Datenbestandes für eine zweiten Anwendung erstellt wird, arbeiten alle Anwendungen mit ein und demselben Datenbestand, sodass Speicherplatz eingespart wird und keine Differenzen zwischen verschiedenen Datenbeständen entstehen können. Data Sharing trennt also Datenbestand und Anwendungen. Diese Trennung erleichtert auch die Wartung und Konfiguration des Gesamtsystems. [24]
5.5.2 Ausfallprävention
Um eine möglichst hohe Verfügbarkeit der Unternehmensdaten zu garantieren, können bzw. sollten Komponenten redundant ausgelegt werden, um bei Ausfall einer Hardwarekomponente Dienste und Daten weiterhin zu Verfügung stellen zu können. Sind die Daten lebenswichtig für ein Unternehmen, müssen Datenbanken so ausgelegt sein, dass auch beim Ausfall eines kompletten Rechenzentrums (z.B. durch einen Brand) der Betrieb der Datenbank weiterhin garantiert werden kann. Am folgenden aus Troppens/Erkens/Müller, Speichernetze entnommenen Beispiel wird erläutert, wie eine Datenbank ausfallsicher ausgelegt sein kann.
Alle Server verfügen über redundante HBAs. Im Hauptrechenzentrum sind Disksubsysteme und Switche redundant ausgelegt. Dabei befinden sich die redundanten Komponenten in verschiedenen, durch eine Bandschutzmauer getrennten Räumlichkeiten, sodass durch einen kleinen Brand nur die Hälfte der Komponenten beschädigt wird. Fällt ein Switch oder ein Subsysteme aus, kann der Datenbank-Dienst weiter ausgeführt werden und Daten sind weiterhin verfügbar, da die jeweils zur Redundanz ausgelegte Komponente weiterhin bestehen bleibt. Die logischen Laufwerke der Disksubsysteme sind auf physikalischer Ebene als RAID10 konfiguriert und verfügen über HotSpare Festplatten, sodass ein Ausfall keine Daten verloren gehen.
Die ebenfalls durch die Brandschutzmauer getrennten Server SRV1 und SRV2 bilden gemeinsam ein aktiv/passiv Cluster. Auf Server SRV1 läuft die Datenbank. Server SRV2 läuft im Leerlauf und übernimmt die Dienste des SRV1, falls dieser ausfällt.
Per Remote Mirroring[25] werden die Daten vom Disksubsystem im Hauptrechenzentrum auf das Disksubsystem des Stand-by-Systems im Notfallrechenzentrum gespiegelt. Im Notfallrechenzentrum existiert weiterhin ein Testsystem mit redundanten Switchen. Wird der Betrieb der Datenbank auf das Notfallrechenzentrum verlagert, z.b. weil das komplette Hauptrechenzentrum durch einen Brand zerstört wurde, wird Server SRV4 zum Stand-By Server für Server SRV3. In diesem Fall werden auch die Daten des ersten Disksubsystems auf das zweite Disksubsystem gespiegelt. Somit steht auch im Notrechenzentrum ein vollständig redundantes System zur Verfügung.
Das Beispiel zeigt die Techniken und Möglichkeiten der Ausfallsicherheit für Speichernetze auf. In wie weit eine solche Redundanz sinnvoll bzw. notwendig ist, kommt darauf an, wie wichtig ein Dienst für das Unternehmen ist. [26]
5.5.3 Skalierbarkeit
Wie bereits erwähnt ist die Skalierbarkeit und Anpassbarkeit eine wichtige Anforderung an die IT-Infrastruktur, da sich die IT durch stetig ändernde Anforderungen in einem ständigen Änderungsprozess befindet. Zudem wächst das weltweite Datenaufkommen in einem rasanten Tempo, sodass Speicherressourcen immer wieder aufgestockt werden müssen.
In diesem Kapitel wird die Möglichkeit, die IT-Infrastruktur mit Hilfe von Server Clustern zu erweitern, dargestellt.
Ein Cluster im Zusammenhang mit IT-Infrastrukturen beschreibt einen Verbund von Hosts, die einen gemeinsamen Dienst anbieten. Es existeren zunächst verschiedene Varianten von Clustern.
Die Shared-Null-Konfiguration ist nicht redundant ausgelegt. Auf jedem Server läuft ein dezidierter Dienst und jeder Server ist an ein eigenes Disksubsystem angeschlossen. Fällt ein Host aus, ist der Dienst nicht mehr verfügbar.
Beim Shared-Nothing Cluster bilden zwei Server ein Cluster. Die Server bieten jeweils einen Dienst an und können bei Ausfall des anderen Servers dessen Dienste übernehmen. Diese Variante des Shared-Nothing Clusters wird als active/active bezeichnet, da beide Server im Normalbetrieb Dienste anbieten. Bei der active/passive Variante läuft nur auf einem Server ein Dienst. Der zweite Server existiert, um die Dienste des ersten Servers zu übernehmen, nur für den Fall, dass dieser ausfällt. Wird ein Cluster aus mehr als zwei Servern gebildet, spricht man vom Enhanced Shared-Nothing Cluster. Diese bietet eine bessere Auslastung der Server und mehr Fexibilität: Wenn beispielsweise tagsüber 3 Server verschiedne Dienste anbieten, so könnte nachts, wenn die Auslastung sehr gering ist, ein Server die Dienste der beiden anderen Server übernehmen und die beiden nun „freien“ Server können weitere Aufgaben wie Data Mining, Batch-Prozesse oder Datensicherung übernehmen.
Eine dritte Variante ist das Shared Everything Cluster. Hier werden Shared-Disk-Dateisysteme als lokale Dateisysteme eingesetzt. So können alle Server über das Speichernetz auf die Daten zugreifen. Das Shared-Disk-Dateisystem kann über mehrere Disksubsysteme verteilt sein. Die Server bieten gemeinsam einen Dienst an und sind über das Netzwerk über eine einheitliche Adresse (IP-Adresse) erreichbar. Durch Load-Balancing kann die Last dynamisch auf die Server verteilt werden. Ist das Cluster nicht mehr leistungsfähig genug, kann einfach ein weiterer Server hinzugefügt werden.[27]
6 Datensicherung
Neben der reinen Speicherung, also Aufbewahrung, der Daten muss auch die Wiederherstellung der Daten bei Ausfall eines Massenspeichers durch Hardwarefehler, menschliche Fehler, Viren oder Naturkatastrophen gewährleistet werden. Zur Datensicherung existieren unterschiedliche Kozepte, die im Folgenden erläutert werden.
6.1 Anforderungen an Datensicherungslösungen
Als Anforderungen an Datensicherungslösungen sind einerseits die technischen Anforderungen an die Hardware sowie die Anforderungen an die Sicherung und Sicherungsmedien selbst zu unterscheiden.
Als technischen Anforderungen an die Hardware der Datensicherungslösung werden quasi die gleichen Anforderungen wie an die Massenspeicherlösung gestellt. Das bedeutet, dass die Datensicherungslösung zentral, skalierbar (erweiterbar), performant, möglichst einfach konfigurier- und managebar sein sollte und geringe Ausfallzeiten aufweist. Im Falle eines Ausfalls muss ein schneller Service gewährleistet werden. Die Kosten der Datensicherungslösung und auch die Kosten der verwendeten Medien sind ein wichtiges Kriterium bei der Auswahl der Datensicherungslösung. Zusätzlich muss natürlich die Anbindung an die Massenspeicherlösung mit ausreichende Bandbreite realisierbar sein. Ebenfalls wichtig ist die Geschwindkeit der Datensicherung und die Geschwindigkeit der Datenwiederherstellung.
Des Weiteren existieren Anforderungen an die Datensicherung selbst: Die Datensicherung sollte regelmäßig durchgeführt werden. Die Abstände der Datensicherung sind dabei abhängig von der Anwendung bzw. davon, wie oft die Daten verändert werden. Bei der Auswahl der Abstände zwischen den Sicherungen ist darauf zu achten, dass immer eine möglichst aktuelle Sicherung vorliegt. Die Sicherungsmedien sollten nach Möglichkeit an einem anderen Ort als die Datenspeicher aufbewahrt werden, um einer Zerstörung beider Gerätegruppen bei z.B. Bränden oder Naturkatastrophen vorzubeugen. Es sollte in regelmäßigen Abständen kontrolliert werden, ob automatische Datensicherungsjobs der Datensicherungssoftware ordnungsgemäß durchgeführt wurden. Zur Reduzierung der benötigten Medien und damit der Kosten können Daten komprimiert werden. Dies beeinträchtigt allerdings die Datensicherungsrate und Wiederherstellungsrate. Neben aktuellen Sicherungen sollten auch ältere Sicherungen vorbehalten werden, damit Daten auch zu älteren Zeitpunkten wiederhergestellt werden können.[28]
6.2 Möglichkeiten der Datensicherung
6.2.1 Datensicherungsstrategien
Es Existieren drei grundsätzliche Sicherungsstrategien, die auf Festplatte, Band oder beides sichern.
6.2.1.1 Backup-to-Disk (B2D)
Die Sicherung auf Festplatte (B2D - Backup-to-Disk) ist die Sicherung der Daten von der primären Festplatte auf ein Backup-Disk-System. Die Sicherung und Wiederherstellung auf/von Festplatte ist schneller als die Sicherung auf Band, da die Schreib- und Leseraten höher sind als bei Bandlaufwerken. Die Sicherung auf Festplatte ist außerdem preiswerter, da die Medien günstiger sind (Festplatte anstatt Magnetband). Die Sicherung mit B2D Software wird auf File-Ebene realisiert. Die Sicherung kann mit Hilfe von Open-File Options, mit der auch Dateien, die zur Zeit geändert werden, gesichert werden können, auch während des laufenden Geschäftsbetriebs erfolgen.
Viele Hersteller bieten Virtual Tape Libraries (VTL) an, die Bandbibliotheken und Bandlaufwerke emulieren können und daher von der Backup Software wie ein herkömmliches Bandlaufwerk angesprochen werden können. Die Sicherung mit VTL ist performanter als die klassische Sicherung auf Festplatte, da die Sicherung hier auf Block-Ebene realisiert wird[29]
Die Backup-to-Disk Sicherungsstrategie stellt für den Enterprise Bereich keine vollständige Sicherungsstrategie dar, da die Daten nicht außerhalb des Unternehmens aufbewahrt werden können.
6.2.1.2 Backup-to-Tape (B2T)
Die Sicherung auf Band (B2T – Backup-to-Tape) ist die Sicherung der Dateien auf ein Magnetband. Magnetbänder sind beständiger als Festplatten und können daher über einen längeren Zeitraum und außerhalb des Unternehmens aufbewahrt werden. Letztes schützt vor Datenverlust vor Diebstahl, Bränden und Naturkatastrophen.
Zur automatisierten Verwaltung von Bandmedien existieren Band-Autoloader. Ein Band-Autoloader (auch Bandbibliothek oder Tape-Library) ist ein Laufwerk, dass mehrere Magnetbänder automatisiert in ein Laufwerk einlegen und abspielen kann. Innerhalb des Autoloader unterscheidet man zwischen Slots und Laufwerken. Ein Slot ist ist ein Ablagefach innerhalb des Magnetband-Magazins, das Laufwerk dient zum Lesen und Schreiben der Bänder.
Die Auswahl der richtigen Bänder erfolgt mittels Barcode oder per RFID Tag. Der Strichcode wird in einer speziellen Datenbank abgelegt. Diese steuert teilweise auch automatisiert das Backup von Magnetbändern.
Kleine Autoloader haben oftmals nur ein Laufwerk und bis zu 20 Slots. Der Wechsel der Bänder verursacht dort eine kurze Unterbrechnung im Betrieb. Große Systeme können über 150 Laufwerke sowie mehr als 10.000 Slots haben. Der Wechsel der Bänder erfolgt dort mittels eines Roboterarm (auch Picker). Spezielle Laufwerke ermöglichen einen Bandwechsel im Laufenden Betrieb.
Diese Systeme können bis zu 30.000 Terabyte Daten speichern. Durch den Einsatz von Band-Autoloadern kann eine kontinuierliche Bandsicherung über lange Zeiträume erfolgen, der Verwaltungsaufwand reduziert werden und Benutzerfehler vermieden werden.
Es exististeren Standards für Bandlaufwerke und Bandmedien. Heutzutage wird teilweise der veraltete DAT Standard, meist aber der aktuelle LTO Standard verwendet.
1983 wurde das DAT (Digital Ausdio Tape) als Nachfolge-Standard der Compact Cassette entwicklt. Primär wurde DAT zum Einsatz in der Musik und Audioindustrie entwickelt. Durch das Einschreiten der IFPI wurde ein komplizierter Kopierschutz implementiert. Noch bevor sich DAT durchsetzen konnte, wurde die CD (Compact Disc) Eingeführt.
HP (Hewlett-Packard) und Sony erkannte als erstes Unternehmen die Zuverlässigkeit von DAT und entwickelte daraufhin 1989 den DDS Standard. Dieser ermöglichte die Nutzung von DAT als Datenspeichermedium. Neben der oben genannten Zuverlässigkeit spielte auch die maximale Speichergröße von 24 GB je Band eine Rolle. Der DDS Standard stellt nicht immer sicher das Bänder von Hersteller A mit einem Gerät von Hersteller B beschrieben/gelesen werden können. Dies ist ein eklates Problem und stellt Unternehmen vor das Problem das Laufwerke doppelt vorgehalten werden müssen. (Sollte z.B. ein Unfall die Bänder und Laufwerke in einem Rechenzentrum vernichten).
Die Kompression der Daten erfolgt durch den DCLZ-Algorithmus. In den meisten Fällen wird ein Kompressionsverhältnis von 2:1 empfohlen, aber selten erreicht.
| DDS-Varianten[30] | |||
| Standard | Bandlänge | Kapazität* | Transferrate |
| DDS | 60 m | 1,3 GB | 183 KB/s |
| DDS-DC | 90 m | 2,0 GB | 183 KB/s |
| DDS-2 | 120 m | 4,0 GB | 750 KB/s |
| DDS-3 | 125 m | 12,0 GB | 1,5 MB/s |
| DDS-4 | 150 m | 20,0 GB | 3,0 MB/s |
| DDS-5 | 170 m | 36,0 GB | 3,0 MB/s |
| DDS-6 | 170 m | 80,0 GB | 13,8 MB/s |
| Tabelle 1: DDS Varianten | |||
*Die angegebenen komprimierten Datenmengen sind die theortisch möglichen.
LTO (Linear Tape Open) ist ein Standard sowohl für Magnetbänder als auch für die zugehörigen Bandlaufwerke. Als einer der wenigen Standards wurde er bereits in der Planungsphase durch mehrere Hersteller gemeinsam entwickelt. Federführend bei der Entwicklung waren IBM, Hewlett-Packard sowie Seagate. Dies führt dazu, dass es heute von über 25 Herstellern Bänder gibt. Ebenso gibt es ein Vielzahl von Hersteller von Tape Libaries und Auto-Loadern für das LTO Bandsystem.[31]Der Anschluss an ein SAN kann mittels SCSI, iSCSI oder Fibre Channel erfolgen.
Generell war eine Unterscheidungen zwischen den Formaten Accelis (welches primär zur Archivierung verwendet werden soll) und Ultrium (zur Datensicherung vorgesehen)geplant. Es wurde jedoch nur das Format Ultrium bis zur Einführung weiterentwickelt.[32]
Bislang wurden 4 Generationen von Bändern entwickelt, deren Kapazität und Übertragungsrate sich alle 2 Jahre verdoppelt haben. Alle Generationen sind abwärtskompatibel. Im Rahmen der neuen Spezifikationen der vierten Generation können Bänder auch unabhängig vom Hersteller der Bänder und Hardware verschlüsselt werden. [33]Als weiteres Sicherheitsmerkmal sind seit der dritten Generation auch Bänder mit der Spezifikation WORM erhätlich, die beliebig oft gelesen, jedoch nur einmal beschrieben werden können.[34] Alle Bänder besitzen einen 4 KB großen internen Speicher, auf z.B. die Log-Dateien und die eindeutige Seriennummer gespeichert wird. Die Bänder sind speziell für den Gebrauch mit einem Tape-Roboter optimiert worden.
| Übersicht LTO[35] | ||||
| Generation | Kapazität unkomprimiert | Kapazität komprimiert | Transferrate unkomprimiert | Transferrate komprimiert |
| Ultrium 1 | 100 GB | 200 GB | 20 MB/s | 40 MB/s |
| Ultrium 2 | 200 GB | 400 GB | 40 MB/s | 80 MB/s |
| Ultrium 3 | 400 GB | 800 GB | 80 MB/s | 120 MB/s |
| Ultrium 4 | 800 GB | 1.600 GB | 120 MB/s | 240 MB/s |
| Ultrium 5 | 1.600 GB | 3.200 GB | 180 MB/s | 360 MB/s |
| Ultrium 6 | 3.200 GB | 6.400 GB | 270 MB/s | 540 MB/s |
| Tabelle 2: Übersicht LTO | ||||
6.2.1.3 Backup-to-Disk-to-Tape (B2D2T)
Die Sicherungsstrategie Backup-to-Disk-to-Tape verknüpft B2D und B2T. Die Daten werden erst auf einem Backup Server gesichert. In einem zweiten Schritt erfolgt dann die Sicherung auf Band. Diese Strategie verbindet die Vorteile beider Strategien. Die Datensicherung erfolgt durch B2D schnell auf einen Backup Server und können bei Ausfall eines Servers schnell wiederhergestellt werden. Die auf dem Backup Server gesicherten Daten werden dann in einem zweiten Schritt auf Bänder gesichert und somit somit ortsunabhängig lagerbar.[36]
6.2.2 Klassische Datensicherung
Bei der klassischen Datensicherung werden die zu sichernden Daten auf ein anderes Medium transferiert, um bei Ausfall des Datenträgers die Daten von einer anderen Quelle wiederherstellen zu können.
Es existieren drei grundsätzliche Konzepte, Daten zu sichern.
Bei der vollständigen Datensicherung werden bei jeder Sicherung alle Daten komplett gesichert, sodass mit jeder einzelnen Sicherung das komplette System bzw. alle Daten wiederhergestellt komplett werden können. Eine vollständige Datensicherung nimmt entsprechend viel Speicherplatz in Anspruch.[37]
Bei der inkrementellen Datensicherung werden immer nur die Änderungen, die seit der letzten Datensicherung vorgenommen wurden, gesichert. Dies spart Speicherplatz. Eine Rücksicherung eines weiter hinten liegenden Zeitpunktes ist bei der inkrementellen Datensicherung relativ aufwendig, da alle inkrementellen Sicherungen in umgekehrter Reihenfolge nacheinander zurückgesichert werden müssen.[38]
Die differenzielle Datensicherung sichert die Differenz, also die Änderungen, der letzten Vollsicherung. Hierdurch ist eine Wiederherstellung des Systems bzw. der Daten weniger aufwendig als bei der inkrementelle Datensicherung, dafür wird mehr Speicherplatz benötigt.[39]
Datensicherungen können stattfinden, nachdem eine Anwendung beendet wurde (Cold Backup) oder in Echtzeit, also während des Betriebs einer Anwendungen (Hot Backup). Meist können bzw. müssen zu der Datensicherungssoftware zusätzliche Optionen oder Agenten erworben werden, um ein Hot Backup zu ermöglichen. Ein Hot Backup ist immer dann zwingend notwendig, wenn ein Dienst nicht beendet werden kann. Beispielsweise kann eine Datenbank, die hinter einem Webserver steht, nachts nicht für einen gewissen Zeitraum beendet werden, um dort ein Backup durchzuführen, da weltweit rund um die Uhr Benutzer auf die Website und somit auf die Datenbank zugreifen, sodass die Datenbankdienste nicht beendet werden können. Ein Hot Backup kann automatisch erfolgen. Bei einem Cold Backup muss vorher manuell oder durch einen Schedular der Datenbankdienst beendet und nach Vollendigung des Backups wieder gestartet werden.[40]
6.2.3 Remote Mirroring
Beim Remote Mirroring, teilweise auch Remote Replication, replizieren sich zwei Datenspeicher, sodass bei Ausfall eines Datenspeichers die Anwendungen stets auf dem zweiten Datenspeicher vorhanden sind. Die Daten werden dabei in Echtzeit repliziert und die Replikation kann per WAN über weite Distanzen erfolgen. Die Disksubsysteme, die sich gegenseitig spiegeln beanspruchen keine weiteren Leistungsressourcen des Servers, da sie die Spiegelung selbstständig und für den Server nicht sichtbar durchführen können. Zur Spiegelung wird ein I/O-Kanal mit ausreichend hoher Datendurchsatzrate benötigt.[41] Wie in Abbildung XX dargestellt, kann in der Remotestelle ebenfalls ein Anwendungsserver aufgestellt werden, auf dem die Klienten im Falle eines Fehlers in der Hauptstelle weiterarbeiten können.
Remote Mirroring kann synchron und asynchron stattfinden. Beim synchronen Remote Mirroring werden die Daten, die vom Server gesendet werden, erst an das zweite Disksubsystem gesendet, bevor der Schreibbefehl quittiert wird. Im Gegensatz dazu quittiert asynchrones Remote Mirroring erst den Schreibbefehl und sendet dann die Daten an das zweite Disksubsystem.[42]
Beim synchronen Remote Mirroring sind die Daten des zweiten Datenspeichers stets aktuell, sodass beim Ausfall des ersten Datenspeichers keine Datenverluste entstehen. Da die Daten auf dem ersten Datenspeicher jedoch immer erst geschrieben werden, wenn das Schreiben vom zweiten Datenspeicher quittiert wurde, können hier Verzögerungen entstehen, die die Performance beeinträchtigen können. Die Distanz von synchronem Remote Mirroring ist daher eingeschränkt (ca. 6-10 Kilometer). [43] Asynchrones Remote Mirroring ist im Bezug auf die Distanz der beiden Disksubsysteme nicht eingeschränkt, dafür aber bei einem Ausfall aber nicht auf dem aktuellsten Stand. Ist ein synchrones Remote Mirroring über eine weite Distanz jedoch trotzdem zwingend notwendig, müssen drei Disksubsysteme eingesetzt werden. Die Spiegelung funktioniert dann wie folgt: Zwei Disksubsysteme, zwischen denen nur eine geringe Distanz liegt, spiegeln sich synchron. Das zweite Disksubsystem spiegeln sich dann mit dem dritten Disksubsystem asynchron. So ist auch beim Ausfall des ersten Disksubsystems das dritte Disksubsystem (nach kurzer Zeit) auf dem aktuellsten Stand. [44]
Probleme kann es beim asynchronen Remote Mirroring geben, wenn große Datenmengen – beispielsweise nach dem längeren Ausfall der zum replizieren genutzten Internetverbindung – kopiert werden müssen.
6.2.4 Instant Copy
Instant Copies sind Momentaufnahmen von Datenbeständen. Mit Hilfe von Instant Copies können große Datenbestände binnen Sekunden virtuell kopiert werden. Der zum Ausführungszeitpunkt vorhandene Datenbestand wird eingefroren und über einen weiteren Zugangspfad zugänglich gemacht. Die Daten können dann weiterhin über den ersten, „normalen“ Zugangspfad gelesen und verändert werden. Die Daten des zweiten Zugangspfades bleiben jedoch im eingefrorenen Zustand bestehen. Wichtig ist, dass die Konsistenz der Daten erhalten bleibt, d.h., dass zum Zeitpunkt der Sicherung keine Datenoperationen mehr stattfinden.[45] Um dies sicherzustellen, sollte die Anwendungen bzw. Dienste beendet werden und erst danach die Instant Copy erstellt werden. [46] Idealerweise wird die Instant Copy von der Anwendung selbst initiiert wird, da so die Zeit, in der die Dienste gestoppt sind, minimiert werden kann.
Eine Instant Copy kann auf Anwendungs-, Datei- oder Blockebene erfolgen. Auf Anwendungsebene wird dann von einem Hot Backup gesprochen, das bereits in Kapital 6.2.2 behandelt wurde. Bei Instant Copies auf Dateiebene spricht man von Snapshots, die im nächsten Kapitel erläutert werden.[47] Für das Erstellen einer Instant Copy auf Blockebene existieren unterschiedliche Implementierungsalternativen. Es werden im Folgenden kurz zwei Alternativen erläutert.
Bei der ersten Variante werden die Dateien vor der Sicherung permanent gespiegelt, beispielsweise durch ein RAID1. Wird nun eine Instant Copy erstellt, werden die beiden physikalischen Laufwerke, die vorher ein gespiegeltes logisches Laufwerk darstellten, getrennt. Auf dem zweiten physikalischen Laufwerk befindet sich dann die Instant Copy, auf dem ersten physikalischen Laufwerk können die Produktionsdaten weiterhin gelesen und verändert werden. Bei dieser Variante besteht nach Erstellen einer Instant Copy keine Datenredundanz mehr, d.h. die Daten der produktiven Laufwerke sind nicht mehr gegen Hardwareausfälle geschützt. Aus diesem Grunde wie bei dieser Variante auch ein „Three Way Mirror“, also ein Verbund drei physikalischer Datenträger zu einem logischen Laufwerk, wobei auf jedem physikalischen Laufwerk die gleichen Daten gespeichert sind, verwendet.
Bei der zweiten Variante werden keine Daten gespiegelt. Es existiert jedoch ein verfügbarer Datenbereich, in den bei Erstellen einer Instant Copy die Daten kopiert werden. Dabei können entweder nur die Blöcke, die verändert wurden (Partial Copy) oder alle Blöcke (Full Copy) transferiert werden.[48]
Das Erstellen von Instant Copies kostet Rechenzeit, Cache des Controllers und belastet I/O Kanäle der Festplatten.
6.2.5 Snapshots
Snapshots stellen wie bereits erwähnt die gleiche Funktion wie Instant Copies dar, werden jedoch auf Dateiebene realisiert. Da Snapshots auf Dateiebene realisiert werden, werden CPU und Systembusse belastet. Dafür ist Snapshots hardwareunabhängig und können auf jedem System erstellt realisiert werden. Anwendungen und Benutzer können über einen speziellen Pfad auf die erstellen Snapshots zugreifen. Bei einem einfacheren Snapshot Verfahren, werden nur die Änderungen, die am Dateisystem vorgenommen wurden, gespeichert, um Speicherplatz zu sparen.[49] Die folgende Tabelle stellt dir Unterschiede zwischen Snapshots und Intant Copies als Übersicht dar.
| Vergleich Instant Copy und Snapshot[50] | ||||
| Instant Copy | Snapshot | |||
| Realisierungsort | Disksubsystem | Dateisystem | ||
| Ressourcenverbrauch | Belastet Controller und CPU des Disksubsystems | Belastet CPU des Servers und alle Busse | ||
| Verfügbarkeit | Je nach Disksubsystem (hardwareabhängig) | Je nach Dateisystem (hardwareunabhängig) | ||
| Tabelle 3: Vergleich Instant Copy und Snapshot | ||||
7 Zukünftige Massenspeicherlösungen
Um das stetig wachsende Datenvolumen bewältigen zu können, werden neue Massenspeicher-Technologien entwickelt, die größere Volumina speichern und mit einer hohen Datendurchsatzrate zur Verfügung stellen können.
7.1 Verwendung von SSDs in NAS/SAN Systemen
Zur Erhöhung der Schreib- und Leserate von NAS und SAN Systemen können Festplatten durch Solid State Disks (SSD) ersetzt werden. In Datenbanken mit hohen Transaktionsraten existieren meist nur kleine Datenblöcke mit einer Größe von 4-8 KByte, auf die oft nur selten zugegriffen wird. Diese Datenblöcke sind auf der Festplatte verteilt. Die Disk Access Time, also die Zeit, die benötigt wird, um zum entsprechenden Datenblock zu springen, ist bei Festplatten relativ hoch, was zu einer hohen I/O-Time führt. Um Festplatten mit immer höherer Datenkapazität herzustellen, werden immer mehr Daten auf einer Magnetscheibe in der Festplatte gespeichert. Bei einer 50GB Festplatte, auf der kleine Datenblöcke, wie sie für eine Datenbank benötigt werden, gespeichert sind, kann wegen der hohen Disk Access Time bei zufälligem Zugriff nur auf 0,004% der Daten jede Sekunde zugegriffen werden. SSDs basieren auf einer anderen Technologie und können durch deutlich geringere Zugriffszeiten die Geschwindigkeit von Speichersystemen mit einem hohen I/O verbessern.[51]
7.2 Volumenholographische Datenspeicherung
Eine Möglichkeit zur Erhöhung der Datenkapazität ist die volumenholographische Datenspeicherung, bei der die Daten dreidimensional statt zweidimensional wie bei aktuellen Datenspeichern gespeichert werden. Bei diesem Ansatz werden die Daten in ein lichtempfindliches Medium geschrieben. Dabei können durch unterschiedliche Adressierungsverfahren (Multiplexing) mehrere Datenschichten im gleiche Volumenelement überlagert werden. Diese Ausnutzung des Volumens führt zu einer höhere Datendichte und somit zu einer höheren Speicherkapazität.[52]
8 Fazit
Die zentrale Speicherung und Sicherung von Unternehmensdaten sowie ein gutes Disaster Planing sind Bedingungen für einen reibungslosen Geschäftsablauf in einer Unternehmung. Im Hinblick auf die steigenden Anforderungen an den Datenschutz und die Datensicherheit - neben den stetig steigenden Datenmengen - sind die Administration und Weiterentwicklung von Massenspeicherlösungen eine der zentralen Aufgabe der IT.
Die hier vorliegende Arbeit hat hierzu die entsprechende Möglichkeiten und den aktuellen Stand der Technik dargestellt. Unternehmen müssen ihre Anforderungen sehr genau analysieren und auf dieser Basis ein adäquates Speichernetz mit ausreichenden Redundanzen und Sicherungskonzepten planen und umsetzen.
Vor der Implementierung eines - wie auch immer geartenen - Speichernetzes müssen Kosten und Nutzen abgewägt werden. Sind die Kosten für die Implementierung eines hochverfügbaren Speichernetzes höher als die Verluste, die entstehen, wenn Daten eine gewissen Dauer nicht verfügbar sind, macht es selbstredend keinen Sinn, ein solches hochverfügbares Speichernetz zu implementieren.
Dennoch, sollten sich Unternehmen vor Augen führen, dass eine nicht ausreichend gegen Hardwareausfälle oder Katastrophen gesicherte Infrastruktur, den Fortbestand einer Unternehmung gefährdet.
9 Glossar
| Abkürzung | Bedeutung |
|---|---|
| BUS | „Physikalisches I/O-Medium mit mehreren Leitungen zur parallelen Signalübertragung.[53]“ |
| CIFS | CIFS ist ein von Microsoft entwickeltes Netzwerk-Dateisystem für Windows Betriebssysteme. |
| CRC | Zyklische Renundanzprüfung ist ein Testverfahren um Fehler in einer Datenübertragung festzustellen |
| DAT | Standard für Bandlaufwerke und Magnetbänder |
| DDS | Datenformat zur Speicherung auf DAT-Bändern |
| DCLZ | Kompressionsverfahren für DAT Bänder |
| EoF | Ende einer Datei oder eines Datenstroms |
| FCP | Netzwerkprotokoll |
| Gbps | Einheit der Datenübertragungsrate |
| HBA | Ein HBA ist ein Adapter, der in einen Host eingebaut wird, um über einen bestimmten BUS kommunizieren zu können. SCSI-Controller und FC-Controller sind bspw. HBAs. |
| Host | Ein Rechner, der Dienste und/oder Daten zur Verfügung stellt. |
| IFPI | Die IFPI ist der Intressenverand der Phonoindutrie, welche unter anderem die Urheberrechte der Mitglieder vertritt. |
| iSCSI | iSCSI ist eine Weiterentwicklung von SCSI. |
| LTO | Standard für Bandlaufwerke und Magnetbänder |
| NFS | NFS ist ein von Sun Microsystems entwickeltes Netzwerk-Dateisystem für Unix Systeme. |
| NIC | Adapter für Ethernet Netzwerke |
| PCI | Standard BUS zum Anschluss von Peripheriegeräten |
| RAM | Datenspeicher, bei dem jede Datenzelle direkt angesprochen werden kann - meist als Arbeitsspeicher verwendet |
| RDMA | Ermöglicht lokalen Prozessen, in Speicherbereiche von Prozessen zu schreiben, die auf einem anderen Rechner laufen |
| SAS | SAS überträgt das parallele Protokoll der SCSI-Technik seriell und erzielt dadurch höhere Durchsatzraten. |
| SCSI | SCSI ist eine parallele I/O-Technik. |
| Shared-Disk-Dateisystem | Auf Shared-Disk-Dateisysteme können, anders als bei lokalen Dateisystemen, mehrere Rechner gleichzeitig über das Speichernetz auf die Daten zugreifen |
| Skew | Unterschiedliche Signallaufzeiten verschiedener Datenleitungen bei der parallelen Übertragung |
| SLA | Vertrag, in dem Art und Umfang der Herstellerunterstützung festgelegt sind |
| SOF | Beginn einer Datei oder eines Datenstroms |
| TOE | Netzwerkdapter, der mehr Schichten des TCP/IP Protokolls abarbeitet als herkömmliche Netzwerkadapter und dadurch die CPU entlastet |
| UDP | Verbindungsloses Netzwerkprotokoll |
| ULP | Schnittstellenprotokoll zur Datenübertragung |
| WORM | Standard für Magnetbänder die beliebig oft gelesen, jedoch nur einmal beschrieben werden können |
10 Fußnoten
- ↑ Vgl. IDC (2006)
- ↑ Vgl. ITseccity (2009)
- ↑ Quelle: National Archives and Records Administration
- ↑ Vgl. Troppens (2007) S.144
- ↑ Vgl. Troppens (2007) S.145
- ↑ Vgl. Eischen(2007)
- ↑ Vgl. Troppens (2007) S.148
- ↑ Vgl. Derrington (2007)
- ↑ Vgl. Bakthavathsalam (2007)
- ↑ Vgl. Troppens (2007) S.69
- ↑ Vgl. Troppens (2007) S.68
- ↑ Vgl. Massiglia(2008)
- ↑ Vgl. Kapitel 5.4.1.2
- ↑ Vgl. Troppens (2007) S.71
- ↑ Vgl. Troppens (2007) S.72
- ↑ Vgl. InformationWeek (2006)
- ↑ Vgl. Troppens (2007) S.114 f.
- ↑ Vgl. Troppens (2007) S.115
- ↑ Vgl. Troppens (2007) S.117
- ↑ Vgl. Troppens (2007) S.118
- ↑ Vgl. Kapitel 6.2.3
- ↑ Vgl. Troppens (2007) S.207-209
- ↑ Vgl. Troppens (2007) S.209 f
- ↑ Vgl. Troppens (2007) S.211 ff.
- ↑ Vgl. Kapitel 6.2.3
- ↑ Vgl. Troppens (2007) S.223-227
- ↑ Vgl. Troppens (2007) S.227-234
- ↑ Vgl. Johnson (2008)
- ↑ TecChannel(2009)
- ↑ Vgl. Murphy (2003)
- ↑ Vgl. Tandberg (2009)
- ↑ Vgl. Faulkner (2004)
- ↑ Vgl. FAQ LTO Technology
- ↑ Vgl. LTO WORM
- ↑ Vgl. LTO.org (2008)
- ↑ Vgl. TechChannel (2009)
- ↑ Vgl. Müller (2007) S.202
- ↑ Vgl. Müller (2007) S.203
- ↑ Vgl. Müller (2007) S.203 f.
- ↑ Vgl. Curtis (2007)
- ↑ Vgl. Troppens (2007) S.48
- ↑ Vgl. Troppens (2007) S.48
- ↑ Vgl. Troppens (2007) S.50
- ↑ Vgl. Troppens (2007) S.51
- ↑ Vgl. Troppens (2007) S.267
- ↑ Vgl. Troppens (2007) S.268
- ↑ Vgl. Troppens (2007) S.267 f
- ↑ Vgl. Troppens (2007) S.44-47
- ↑ Vgl. RES (2009)
- ↑ Vgl. Troppens (2007) S.142
- ↑ Solid Data Systems (2009)
- ↑ Vgl. Peuser (2008) passim
- ↑ Troppens (2007) S.484
11 Literatur- und Quellenverzeichnis
| Bakthavathsalam (2007) | Bakthavathsalam, R.: Next generation data center:evolving from physical to virtual infrastructures, Computer Technology Review, Bevery Hills, 2007 (Stand 08.06.2009) |
| Curtis (2007) | Curtis Preston, W. et al.: UNIX: Backup and Recovery Anwendung und Praxis (1st Ed.), O'Reilly, Sebastopol, 2007, ISBN 0-596102-46-1 |
| Derrington(2007) | Derrington, S.: Managing storage resources, Computer Technology Review, Bevery Hills, 2007 (Stand 07.06.2009) |
| Eischen (2008) | Eischen, C.: 2008 forecast: SAS takes storage's center stage,Computer Technology Review, Bevery Hills, 2008 (Stand 06.06.2009) |
| Faulkner (2004) | Faulkner, C.: Networking Foundations: Technology Fundamentals for IT Success, John Wiley & Sons, Hoboken, 2004, ISBN 0-782143-71-7 |
| IDC (2006) | Gantz, J., Reinsel, D.: As the Economy Contracts, the Digital Universe Expands, IDC, 2009 (White Paper)(Stand 04.06.2009) |
| InformationWeek (2006) | Rüdiger, A.:iSCSI noch selten im Einsatz, InformationWeek, Poing, 2006 (Stand 30.05.2009) |
| ITseccity (2009) | o.V.: Explosionsartiges Wachstum des weltweiten digitalen Datenvolumens setzt sich fort, ITSeccity, München, 2009 (Stand 29.05.2009) |
| Johnson (2008) | Johnson, T.: Data recovery completes disaster recovery, Computer Technology Review, Bevery Hills, 2008 (Stand 03.06.2009) |
| LTO.org (2009) | o.V.: LTO WORM-Technoloy, 2009, (Stand 04.06.2009) |
| LTO-Technology (2009) | o.V.: LTO Technology FAQ, LTO, 2008 (Stand 04.06.2009) |
| Massiglia (2008) | Massiglia, P.: Industrial-grade storage for SMBs, Computer Technology Review, Bevery Hills, 2008 (Stand: 29.05.2009) |
| Murphy (2003) | Murphy, D.: From DDS-1 to DAT 72: a brief history of DDS media9, Computer Technology Review, Bevery Hills, 2003 (Stand 06.06.2009) |
| Müller (2007) | Müller, K.-R.: IT-Sicherheit mit System (3., erw. und akt. Aufl.), Vieweg+Teubner, Wiesbaden, 2007, ISBN 0-596102-46-1 |
| Peuser (2008) | Peuser, J.: Schnelle Phasenmodulation für einen volumenholographischen Massenspeicher, TU Darmstadt, 2008 (Stand 12.06.2009) |
| RES (2009) | o.V.:Snapshot Intelligence: Using snapshots to their fullest potential, Real Enterprise Solutions, `s-Hertogenbosch, 2008 (Stand 15.05.2009) |
| Solid Data Systems, Inc. (2009) | Tuma, W.: Comparison of Drive Technologies for High-Transaction Databases, Solid Data Systems, Inc., 2007 (Stand 13.06.2009) |
| Tandberg (2009) | o.V.: Tandberg Storage Systems Produktseiten, Tandberg, 2009 (Stand 11.06.2009) |
| Techchannel (2009) | Lange, C.: Techchannel, Schnelle Datensicherung mit Backup-to-Disk, Techchannel, 2009 (Stand 13.06.2009) |
| Troppens (2007) | Troppens, U. et al.: Speichernetze. Grundlagen und Einsatz von Fibre Channel SAN, NAS, iSCSI und InfiniBand (2., akt. u. erw. Aufl.), dpunkt, Heidelberg, 2007, ISBN 3-898643-93-X |





