Data Deduplication im Backup/Recovery Umfeld

Aus Winfwiki

Wechseln zu: Navigation, Suche
Name der Autoren: Loch, Semerci
Titel der Arbeit: Data Deduplication im Backup/Recovery Umfeld
Hochschule und Studienort: Fachhochschule für Oekonomie und Management in Essen
Studiengang: Diplom-Wirtschaftsinformatik


Inhaltsverzeichnis


1 Abkürzungsverzeichnis

AbkürzungBedeutung
APIApplication Program Interfaces
AITAdvanced Intelligent Tape
B/RBackup/Recovery
BDSGBundesdatenschutzgesetz
CPUCentral Processing Unit
DBDatenbank
DLTDigital Linear Tape
ERPEnterprise Resource Planning
GBGigabyte
HGBHandelsgesetzbuch
ITInformation Technology
ITSCMInformation Technology Service Continuity Management
KMUkleine und mittlere Unternehmen
LANLocal Area Network
LTOLinear Tape Open
MDMessage Digest
MDSMaximum Distance Separable
NASNetwork Attached Storage
OSOperating System
PPTPowerPoint
SANStorage Area Network
SCSISmall Computer System Interface
SLAService Level Agreement
SHASecure Hash Algorithm
TBTerabyte
VTLVirtual Tape Library
WANWide Area Network

2 Abbildungsverzeichnis

Abb.-Nr.Abbildung
1Backup und Recovery Infrastruktur
2Vollsicherung
3Differentielle Sicherung
4Inkrementelle Sicherung
5Datenfluss Local Area Network
6Datenfluss Storage Area Network
7Funktion Deduplication
8Inband-Deduplication
9Outband-Deduplication
10Compression-Ratio
11Ist-Soll Vergleich Data-Deduplication
12WAN-Replizierung
13Ranking Speichertechnologien

3 Tabellenverzeichnis

Tab.-Nr.Tabelle
1Deduplication Szenarien
2Datenerhebung Backup-Volumen

4 Einleitung

Geschäftskritische Daten werden häufig als das „Kapital" eines modernen Unternehmens bezeichnet. Sowohl die Verfügbarkeit als auch die zunehmende Absicherung von geschäftsrelevanten Datenaufkommen gewinnt in entscheidenden Betriebs- und Prozessabläufen an hoher Bedeutung. Und nicht zuletzt durch die Zunahme von externen Bedrohungen, sei es durch kriminelle Energien oder auch durch höhere Gewalten, rückt der Aspekt der Absicherung und Wiederherstellbarkeit von Unternehmensdaten bei IT-Managern und den verantwortlichen Spezialisten in den Vordergrund. Da sämtliche Arbeits- und Dokumentationsergebnisse fast nur noch in elektronischer Form zusammengefasst und ausgewertet werden, gilt es, den informationstechnischen Augenmerk nicht nur auf ein leistungsstarkes Datenerfassungs- bzw. Speichernetzwerk zu legen, sondern insbesondere auch auf eine zuverlässige Backup- und Recovery-Umgebung zu setzen. Unabhängig davon, inwieweit die Daten in den jeweiligen Geschäftsbereichen als weniger oder mehr geschäftskritisch eingestuft werden mögen, stellt die Möglichkeit einer konsistenten Datensicherung einer Art „Konservierung" der vorhandenen Arbeitskraft sowie der gewonnen Erkenntnisse eines Unternehmens bzw. seiner Mitarbeiter dar.

Ähnlich wie bei der Auswahl einer privaten Vermögensbildung nützt jedoch die beste Anlageform des eigenen Geldes nichts, sofern auf das scheinbar abgesicherte Kapital nicht ordnungsgemäß zurückgegriffen werden kann. Vor diesem Hintergrund stehen Unternehmen und ihre IT-Organisationen in der Verantwortung, möglichst effiziente und sichere B/R-Umgebungen zu implementieren, die wichtige Daten als das Kapital ihres Unternehmens vertrauensvoll anlegen und gleichzeitig nach Bedarf lückenlos zur Verfügung stellen.

Neben der möglichst absoluten Sicherheit und der unbegrenzten Verfügbarkeit der gesicherten Daten stehen die meisten IT-Organisationen vor einer weiteren großen Herausforderung. Trotz der wachsenden und immer schneller zu verarbeitenden Datenflut, die gleichzeitig auf Basis von Onlinediensten vorgehalten werden müssen, sind die Verantwortlichen gezwungen, verstärkt auf Kosteneinsparpotentiale zu achten. Es geht kein Weg daran vorbei, dass über Lösungen nachgedacht werden muss, die es ermöglichen, die Daten effizienter abzulegen und zu sichern.

Der wirtschaftliche Aspekt entscheidet bei der Einführung und Implementierung von B/R-Umgebungen mit, wie letztendlich eine entsprechende B/R-Landschaft ausgerichtet werden muss. Diese Komponente beeinflusst mittlerweile zweifelsohne die technische Justierung des B/R-Betriebs. Vor diesem Hintergrund ist der Fokus verstärkt auf neue Technologien zu richten, die nicht nur auf die einmalige Sicherung des vorliegenden Datenbestands ausgerichtet sind, sondern vor allem eine „wasserdichte" Sicherung aller Daten gewährleisten, die über mehrere Jahre hinweg der Änderung und Weiterentwicklung unterworfen sind.[1]

Im Rahmen der vorliegenden Fallstudie wird daher speziell die Technologie der Data-Deduplication in einem B/R-Umfeld untersucht. Dabei handelt es sich um eine Technologie, die für die Bewältigung der genannten Herausforderung näher untersucht werden muss.

5 Grundlagen

5.1 Backup und Recovery

5.1.1 Begriff

Das Thema Backup und Recovery umfasst alle notwendigen technischen und organisatorischen Maßnahmen, die eine konsistente Datensicherung und -wiederherstellung aller unternehmenskritischen Daten gewährleisten sollen. Hierzu gehört nicht nur die Entwicklung von geeigneten B/R-Maßnahmen, sondern auch die zyklische Erprobung hinsichtlich ihrer Effizienz und Zuverlässigkeit unter realen Bedingungen.

Im Falle eines Datenverlustes (logisch und/oder physikalisch) muss das Unternehmen in der Lage sein, die Daten innerhalb einer bestimmten Zeit und zu einem vorher fest definierten Zeitpunkt wieder herzustellen. Die Granularität der vorher festgelegten Eckdaten (SLA), im Falle eines Restores, beeinflusst maßgeblich die Art und Weise der Datensicherung.

5.1.2 Infrastruktur

Um konkrete Maßnahmen zur Sicherstellung der Datensicherung umsetzen zu können, wird eine entsprechende Infrastruktur benötigt. Das Vorhandensein von entsprechendem Fachpersonal zum Betrieb einer B/R-Umgebung wird in der folgenden Betrachtung vorausgesetzt. Die Zusammensetzung der erforderlichen Infrastruktur lässt sich grundsätzlich in Hard- und Softwarekomponenten unterteilen. Diese werden nachfolgend erläutert:

  • B/R-Software
Abbildung 1: Backup und Recovery Infrastruktur
Abbildung 1: Backup und Recovery Infrastruktur

Die B/R-Software ist der elementare Bestandteil der unternehmensweiten Backup/Recovery-Strategie. Überwiegend ist die Software Client / Server orientiert. Dies bedeutet, dass ein Softwareanteil zentral auf einen oder mehreren Sicherungsserver(n) installiert wird. Bei Sicherungsservern handelt es sich um Systeme, welche die gesicherten Daten aufnehmen. Der zweite Softwareanteil wird entsprechend auf den zu sichernden Systemen installiert.[2]

Die eingesetzte B/R-Software sollte unternehmensweit implementiert werden können. Dies setzt voraus, dass sie zum einen in einer heterogenen Systemlandschaft eingesetzt werden kann und zum anderen sollte sie eine Vielzahl an Sicherungsmedien und -technologien unterstützen. Zentrale Verwaltungsmöglichkeiten, eine intuitive Benutzeroberfläche über Systemgrenzen hinweg, sollte die Möglichkeit bieten, das unternehmensspezifische Regelwerk für die Sicherung in der Software abbilden zu können.[2] Neben der Option Applikationen im laufenden Betrieb sichern zu können, sollten Alerting- und Reporting-Fähigkeiten, das Profil einer Enterprise Backup Lösung abrunden. Namhafte Hersteller im Enterprise-Segment sind u.a. IBM Tivoli Storage Manager, Legato Networker, Arcserv und HP Omniback.

  • Backup-Server

Bei einem Backup Server handelt es sich um das System, auf dem der Serverteil der Backupsoftware installiert und konfiguriert ist. Er hat die Aufgabe, die gesicherten Daten aufzunehmen und zu verwalten. Er stellt die zentrale Einheit für sämtliche Backup- und Restoreaktivitäten im Netzwerk dar. Dieser Server sollte hinsichtlich seiner wichtigen Funktion ausfallsicher ausgelegt werden. Neben der hohen Verfügbarkeit, dürfen auch nicht die Performanceanforderungen dieses Rechners unterschätzt werden. Leistungsstarke CPU- und Speichereinheiten sollten für die anfallende Rechenlast ausreichend ausgelegt sein. Darüber hinaus muss der Server über alle weiteren Schnittstellen zu den benötigten LAN- und SAN-Komponenten verfügen.

  • Backup-Client

Der Backup Client repräsentiert den Server bzw. die Applikation die gesichert werden soll. Aus Sicht der Backup Software ist jeder Server im Unternehmen, dessen Daten gesichert werden sollen, ein Backup Client.[2]

  • Backupstorage

Als Backup Storage wird im Allgemeinen die Hardware bezeichnet, auf der die gesicherten Daten physikalisch abgelegt werden. Diese muss unter Berücksichtigung der Kriterien Volumen und Performance ausgewählt bzw. gewichtet werden. Hinsichtlich der Backup Storagekomponenten wird grundsätzlich zwischen zwei Arten der Datenaufzeichnung unterschieden, und zwar zwischen Random-Access und Sequentiell-Access.

Der Begriff random access bezieht sich auf Medien, bei denen eine Reihe von Datenträgerzugriffen parallel schreibend und lesend auf das Medium stattfinden kann. Bei Random access devices handelt es sich üblicherweise um schnelle und teure Datenträger wie Festplatten.[3]

Beim sequentiell access Verfahren kann zu einem bestimmten Zeitpunkt nur ein Datenträgerzugriff auf das Medium stattfinden. Sequentielle Devices stellen u.a. Bandlaufwerke oder optische Geräte dar. Diese zeichnen sich dadurch aus, dass sie unter Berücksichtigung von kostengünstigen Aspekten ein großes Datenvolumen aufnehmen können. Volumen von mehreren Terabyte pro Medium bei Schreibgeschwindigkeiten von 100 MB/s sind gängige Praxis.[3]

5.1.3 Betriebsmodelle

Vor dem Hintergrund unterschiedlicher Anforderungen der zu implementierenden Applikationssysteme muss im Rahmen des Backup/Recovery zwischen verschiedenen Betriebsmodellen differenziert und abgewägt werden. Diese unterscheiden sich in erster Linie zwischen der Sicherungsart und dem Sicherungsweg. In Verbindung mit der Sicherungsart werden grundsätzlich zwei Begriffspaare differenziert.

Die Methode Backup und Restore gehört zu dem Grundverfahren einer B/R-Systemlandschaft. Dazu zählt das Kopieren von Dateien beziehungsweise von vollständigen Dateisystemen von Festplatten auf Medien, wie Magnetbänder, optische Datenträger oder Disc Arrays. Nahezu alle Enterprise Sofwarelösungen unterstützen dabei die gängigen Betriebs- und Dateisysteme, sowie die unterschiedlichen Tape-Medien wie AIT, DLT, und LTO. Alle Applikationen bringen einen eigenen Zeitplaner, den so genannten Scheduler mit. Dieser ermöglicht eine Sicherung zu definierten Zeitpunkten bedarfsgerecht durchzuführen. Grundsätzlich wird zwischen folgenden Sicherungspraktiken unterschieden.

Abbildung 2: Vollsicherung
Abbildung 2: Vollsicherung
Abbildung 3: Differentielle Sicherung
Abbildung 3: Differentielle Sicherung
Abbildung 4: Inkrementelle Sicherung
Abbildung 4: Inkrementelle Sicherung
  • Full

Die effizienteste Methode Daten zu sichern, besteht darin, ein tägliches vollständiges Backup aller Informationen durchzuführen. Dadurch wird der komplette und aktuellste Stand der Dateien auf den Backup-Medien vorgehalten. In nur einem Durchgang können die Daten vollständig wiederhergestellt werden. Möglich ist dieses Verfahren jedoch nur, wenn die Größe des Backupfensters ausreichend ist. Der überwiegende Nachteil des vollständigen Backups ist der hohe Verbrauch an Backup-Medien. In der Praxis ändern sich in der Regel nur wenige Prozent des Gesamtbestandes an Dateien innerhalb eines Backupzyklus.[4]

  • Differentiell

Die Methode der Differentialsicherung besteht aus zwei Teilschritten. Zunächst wird ein vollständiges Backup aller Dateien durchgeführt. Im nächsten Backupzyklus wird eine Sicherung aller veränderten Dateien erstellt. An den darauf folgenden Tagen werden die zum ersten Tag veränderten Daten auf Band gesichert. Auf diese Weise verringert sich der Zeitaufwand für die Datensicherung erheblich. Nachteilig ist im Fehlerfall die Rücksicherung in zwei Stufen. Danach wird zuerst das vollständige Backup vom ersten Tag wieder eingespielt, anschließend wird zur Vervollständigung die letzte Datensicherung ebenfalls zurückgeholt. [4]

  • Inkrementell

Die Form der inkrementellen Datensicherung wird häufig bei Systemen mit kurzen Backupfenstern häufig genutzt. Am Beginn steht, wie beim Differentialbackup eine vollständige Datensicherung. An den folgenden Tagen wird immer nur der Anteil veränderter bzw. neuer Datensätze gesichert. Durch dieses Verfahren wird enorm Zeit und vor allem an Backup-Medien eingespart. Der Rücksicherungsprozess sichert zunächst die initiale Vollsicherung zurück um schließlich sukzessive die Veränderungen zum aktuellen Stand zu aktualisieren. [4]

  • Image

Mit der Disk-Imaging-Technologie können Sicherungen vollständiger Datenträger im laufenden Betrieb durchgeführt werden. Damit werden Abbildungen von gesamten Festplatten oder Partitionen erstellt, die Betriebssystem, installierte Programme, Einstellungen und eigene Dateien enthalten. Im Falle eines Schadens durch einen Festplattendefekt, durch instabile Anwendungen oder durch einen Virusbefall kann das gesamte System in Minuten wiederhergestellt werden.

  • Applikationssicherung

Die Applikationssicherung verfolgt das konsistente Sichern sämtlicher Daten, die zu einer speziellen Anwendung gehören. Diese Sicherung kann im laufenden Prozess einer Anwendung oder auch offline erfolgen.

Bei einer offline Sicherung werden die datenverändernden Applikationsprozesse runtergefahren und damit die Konsistenz der zu sichernden Daten hergestellt werden kann. Allerdings sind heute überwiegend Unternehmensapplikationen vorzufinden, wie z.B. Mail-, Datenbank-, oder ERP Systeme, die 24x7x365 verfügbar sein müssen. Dies hat zur Folge, dass die Sicherung der Daten keinerlei Einfluss auf die Verfügbarkeit der Applikation haben darf. In diesem Fall müssen die Daten online gesichert werden. In diesem Zusammenhang benötigt die Sicherungssoftware eine Schnittstelle (API - Application Programming Interface), die zum Sicherungszeitpunkt mit der Applikation kommuniziert und dadurch die Konsistenz der Daten gewährleistet.[5]

Eine unternehmensweite Sicherungslösung muss geeignete Schnittstellen zu allen gängigen Applikationen aufwarten. Dazu gehören u.a. folgende

  • Datenbanken: Oracle, DB2, Informix ...
  • Mailsysteme: MS Exchange, Lotus Domino ...
  • ERP Systeme: SAP ...

Um die Datensicherung in dem zur Verfügung stehenden Zeitfenster vollständig durchführen zu können, müssen ebenso geeignete Übertragungswege bzw. Netzwerke verfügbar sein oder ggf. zusätzlich implementiert werden.

Für den Fall, dass die zu sichernden Systeme im WAN stehen und gleichzeitig größere Datenmengen gesichert werden müssen, besteht gegebenenfalls die Notwendigkeit, einen dezentralen Sicherungsserver zu implementieren, der das Datenvolumen lokal aufnehmen kann. Diese technische Variante erhöht jedoch den administrativen Aufwand, so dass alternative Lösungen in Betracht gezogen werden sollten.

In komplexen Sicherungsumgebungen haben sich längst dedizierte Backupnetzwerke etabliert. Dabei handelt es sich um Netze, die ausschließlich dazu dienen, Backupdaten zum bzw. vom Backupserver zu übertragen, ohne das Anwendernetz und damit das Kerngeschäft der Firma negativ zu beeinflussen. Nachfolgend werden die gängigen Netzwerke zur Übertragung von Backupdaten dargestellt:

Abbildung 5: Datenfluss Local Area Network
Abbildung 5: Datenfluss Local Area Network
Abbildung 6: Datenfluss Storage Area Network
Abbildung 6: Datenfluss Storage Area Network

LAN (Local Area Network)

Hier werden die Backupdaten vom zu sichernden Server über das IP-Netzwerk auf den Sicherungsserver übertragen. Dabei kann es sich um das vorhandene Anwendernetz oder auch um ein dediziertes LAN handeln.[6]

SAN (Storage Area Network)

Ein SAN ist ein Netzwerk, das zur Anbindung von Storage in Form von Festplatten oder Bandlaufwerken an Server dient. Dieses Netzwerk nutzt hauptsächlich das SCSI-Protokoll und basiert auf der Fibre-Channel-Technologie. In einem SAN sendet der Sicherungsclient seine Daten direkt an ein, ebenfalls im SAN angeschlossenes, Bandlaufwerk. Zum Sicherungsserver werden hierbei nur die Informationen über die gesicherten Daten, die so genannten Metadaten transferiert.

Im SAN werden üblicherweise deutlich höhere Übertragungsraten als im LAN erreicht. Somit ist es die einzig effektive Alternative, wenn es um die Übertragung von Volumina im TB-Bereich innerhalb eines akzeptablen Zeitraums geht. Darüber hinaus werden heute Systeme eingesetzt, die über derart große Volumen verfügen, dass selbst die Geschwindigkeiten in einem SAN nicht mehr als ausreichend erscheinen.

Hier werden Technologien eingesetzt mit denen sog. T0 Backups möglich sind. Dabei werden auf Ebene des Festplatten - Storage bzw. auf der Blockebene innerhalb von Sekundenbruchteilen Matrixtabellen der zu sichernden Daten erstellt, die selbst kaum Platz belegen.

Ändert sich ein Originalblock, wird dieser vor der eigentlichen Veränderung in einen speziellen Bereich kopiert, und dies in der Matrix entsprechend vermerkt. So kann theoretisch eine hohe Anzahl an Sicherungen vorgehalten werden. Eine Ablösung der klassischen Bandsicherung ist diese Vorgehensweise aktuell jedoch nicht.[6]

5.2 Data-Deduplication

5.2.1 Funktion

Data-Deduplication, im deutschen Daten-Deduplizierung genannt, ist eine Speichertechnologie, die überwiegend im Datensicherungsumfeld (Backup) eingesetzt wird und zur Reduzierung der Datenmenge beitragen soll.

Deduplizierung ist eine Form der Kompression und basiert auf ein einfaches Konzept. Der Fokus liegt hierbei auf der schnellen Sicherung und Wiederherstellung sowie der optimalen Ausnutzung der vorhandenen Strukturen und dem ungestörten Betrieb während der Backup-Prozesse. Die Deduplizierung sucht nach allen redundanten Datenkopien und beseitigt beziehungsweise eliminiert diese. Die Redundanz von Informationen bezeichnet mehrfach vorhandene Daten mit identischem Informationsgehalt. Diese doppelte bis mehrfache Auslegung dient der Minimierung von Ausfallzeiten bei Fehlern im Hardwarebereich, führt jedoch zwangsläufig bei der Datensicherung zu multiplen Kopien der gleichen Daten. Die Deduplizierung spiegelt das Gegenteil von Redundanz wieder, indem mehrfach vorhandene Daten nur einmalig zu sichern sind.

Schlagen diese Daten schließlich erneut auf, so wird ein Verweis auf die bereits im Vorfeld erfassten Daten gesetzt. Das heißt, es werden Platzhalter eingesetzt, die auf den Speicherort der Originaldatei hinweisen.

Abbildung 7: Funktion Deduplication
Abbildung 7: Funktion Deduplication

Die Erkennung redundanter Daten kann auf mehreren Ebenen erfolgen. Deduplizierung arbeitet im Gegensatz zu klassischen Kompressionsverfahren auf dem Blocklevel. Das Grundprinzip der Deduplizierung besteht darin, identische Datenblöcke, Datenbruchstücke oder Dateien anhand ausgefeilter Algorithmen zu finden, Duplikate zu löschen und auf diese Weise Speicherplatz zu gewinnen. Die Erkennung erfolgt direkt im Datenstrom und ist unabhängig von Format und Anschluss. Diese Methode erzielt deutlich größere Einsparungen. Ein klassisches Beispiel ist die Powerpoint-Datei, in der lediglich eine Folie geändert wurde. Die Block- und Bit-Level-Techniken speichern nur die geänderten Daten dieser Folie, während es sich für dateiorientierte Lösungen um eine neue Datei handelt, die aufgrund dessen ein zweites Mal vollständig gespeichert werden muss.

Abhängig von der Datenstruktur ergeben sich nach Angaben mancher Hersteller Deduplizierungraten von 1:500. In der Praxis werden je nach Datenformat Kompressionsraten von 1:7 bis 1:12 beobachtet. Die Kompressionsrate wird mit dem sogenannten Deduplizierungsfaktor oder DeDup-Faktor gemessen. Ein DeDup-Faktor von bspw. 25 besagt, dass ein TB physikalischer Speicher 25 TB nominale Datenkapazität repräsentiert. Je länger die Datenvorhaltezeit auf Platte andauert und je geringer die tägliche Änderungsrate und je mehr Full-Backups durchgeführt werden, desto höher ist der DeDup-Faktor.[7]

Die erreichbare Kompressionsrate ist von folgenden Kriterien abhängig:

  • Welche Daten: Redundanzfaktoren, Änderungsrate, Aufbewahrungszeit
  • Anzahl der Quellen und Redundanz über diese Quellen
  • Backup Methode: incremental forever, full+incremental, full+differential+incremental
  • Effizienz von de-duplication ist fraglich, wenn Clients eigene Kompressionsverfahren, Multiplexing oder "zero-block reduction" Methoden verwenden (z.B. Datenbanken),
  • Dedup-Verwendung verbietet sich bei verschlüsselten Daten

Folgende Werte hält BITKOM e.V. für verschiedene Szenarien für möglich:[7]

Deduplication Szenarien
Deduplication Effekte durch Typische Anwendungsbeispiele Typische Ratio =
%-Einsparung könnte sein
Inhaltsgleiche oder -ähnliche
Files in einem Volume

NAS : z.B. mehrfach gespeicherte PPT-File
Incremental Backup: leicht modifiziertes File
ca. 1,2:1 = 16,7%
Ähnlich aufgebaute Systeme
/ Server / Volumes
viele ähnlich Windows-Server
(auch in virtuellen Umgebungen)
ca. 1,5:1 = 33,3%
Halten überwiegend
inhaltsgleicher großer Bestände
VTL: viele Fullbackups
mit geringer Change Rate
ca. 10:1 = 90% bei
12 Fullbackup

Das Verfahren der Deduplizierung bietet offensichtlich Vor- und Nachteile.

Entscheidende Vorteile der Deduplizierung liegen darin, dass mehrfach vorhandene Daten nur ein einziges Mal gespeichert werden und dadurch das Gesamtvolumen der Daten reduziert wird. Infolgedessen entsteht eine geringere Kapazitätsanforderung in der Storageeinheit, womit kostbarer Speicherplatz und gleichzeitig Investitionskosten eingespart werden. Weiterhin sind aufgrund der geringen Datenmenge verkürzte Backup- und Restorezeiten möglich, die im Desaster Recovery Fall eine bedeutende Rolle spielen. Darüber hinaus können bei den Backupmedien, wie Bänder und VTL’s, Einsparungen vorgenommen werden. Ein weiterer Aspekt, der zugunsten der Deduplizierung steht, umfasst dessen Nutzung und transparente Integration in die vorhandene Backup-Infrastruktur.

Allerdings weist diese Methode auch einige Nachteile auf. Nachteilhaft ist zum Beispiel das höhere Risiko bei Datenverlust durch die erwünschte, fehlende Redundanz oder die höheren Anforderungen an Rechenleistung für den Vergleich beziehungsweise die Bildung des Hash-Wertes. Ferner muss eine Index-DB bzw. Referenzliste geführt werden, die die Speicherorte der Daten beinhaltet. Die Dateien sind auch stark fragmentiert und eventuell über zahlreiche Medien verteilt. Eines der größten Probleme, das im Zusammenhang mit der Deduplizierung immer wieder auftaucht, ist das Verhältnis von Kompression, Verschlüsselung und Deduplizierung untereinander. Die klassische Kompression eliminiert Redundanzen in Dateien. Deduplizierung hingegen kann redundante Elemente in Dateien, Datenblöcken und auf Bit-Ebene eliminieren.[8] Und die Verschlüsselung verwandelt diese Daten dann in einen zufälligen Datenstrom. Wenn daher zuerst die Daten verschlüsselt werden, so ist es unmöglich, diese anschließend zu komprimieren oder zu deduplizieren. Im Idealfall sollten Daten zuerst komprimiert und dedupliziert und erst dann z. B. für den Transport über öffentliche Netze verschlüsselt werden. Dazu sollte die Kompression und Deduplizierung mit Backup-Software auf dem Host ausgeführt werden und der so erzeugte Datenstrom auf seinem Weg zum Backup-Target unter Verwendung einer dedizierten Appliance oder vom Ziel selbst, etwa von einem Bandlaufwerk, verschlüsselt werden.[9]

Wird allerdings auf dem Ziel-Speichersystem dedupliziert, lässt sich diese Vorgehensweise nicht realisieren. Ein Deduplizierungs-System, das nicht Blöcke, sondern die gesamte Dateistruktur vergleicht, kann mit verschlüsselten Datenströmen nicht mehr effizient arbeiten.

5.2.2 Methoden

Die Datendeduplizierung bietet, je nach Einsatz, verschiedene Verfahren für die Umsetzung des Konzeptes an. Diese Verfahren sind abhängig von individuellen Gegebenheiten, wie von vorhandenen Datenbeständen und Anwendungsszenarien, im Datensicherungsumfeld. Unterschieden wird die Art der Vorgehensweise, wie die Dateien zerlegt werden. Hierbei wird auf die so genannte Chunk-Einstellung hingewiesen. Folgende Methoden können bei der Umsetzung der Deduplizierung angewendet werden.

  • Blockbasiert: Die Datenblöcke fixer oder variabler Länge werden auf Dubletten untersucht. Statt doppelt oder mehrfach veränderter Datenblöcke werden Zeiger auf das Original gespeichert. Diese sind unabhängig von Format und anderen Faktoren.
  • Objektbasiert: Das komplette Objekt gilt als Chunk (z.B. Office-Datei). Bei dieser Methode werden doppelte Dateien ausgefiltert. Der Inhalt der Dateien ist nicht relevant.
  • Formatbasiert: Das Objekt wird aufgrund seines Formats in seine Bestandteile (z.B. Archivdatei) zerlegt.
  • Fingerprinting: Die identischen Datenmuster in einem Objekt (z.B. Multimedia-Streams) werden identifiziert und in Segmente unterschiedlichster Größe (Chunks) zerlegt. Auf Byte-Ebene wird dann analysiert, welche Segmente die höchste Wiederholungsrate bieten, um durch Referenzierung in Form von Pointern auf das Ursprungselement größtmögliche Datenreduzierungen zu bieten. Je genauer die Änderungen einer Datei bestimmt werden können, desto weniger muss redundant gesichert werden. Allerdings vergrößert sich dadurch der Index bzw. der Bauplan.[10]

6 Implementierung Data-Deduplication im B/R-Umfeld

6.1 Analyse der Datenstruktur

6.1.1 Ist-Aufnahme

Neben den bereits vorgestellten Methoden des Data-Deduplications, ist es im Vorfeld ebenso von elementarer Bedeutung, eine Analyse der vorhandenen Datenstruktur durchzuführen. Der Grad der Effizienz des vorgestellten Verfahrens hängt im Wesentlichen von den zur Verfügung stehenden Sicherungsdaten ab. Die wesentlichen Parameter zur Beschreibung der Sicherungsdaten lauten wie folgt:

  • Backup Profile

Das Backup Profile beschreibt die Applikation bzw. das Betriebssystem des zu sichernden Servers. Dies gibt z.B. Auskunft über Schnittstellen wie die API.

  • Backup Typ

Unter dem Punkt Backup Typ werden die bereits erklärten Sicherungspraktiken (Full, Inkrementell, Image, etc.) verstanden. Anhand dessen kann bereits die Aussage getroffen werden, ob das Data-Deduplication Verfahren für diesen Backup Typ effizient ist oder nicht. Wird bereits das inkrementelle Sicherungsverfahren genutzt, wird die Kompressionsrate der Deduplicationprozesse gering ausfallen, da bereits nur geänderte Datensätze zu der letzten Sicherung gesichert werden. Wird aber z.B. eine Datenbank täglich voll oder als Image gesichert, wird die Kompressionsrate bei diesem Typ sehr hoch ausfallen, da alle Duplikate übergangen werden.

  • Backup Volume

Das Backup Volumen gibt das zu sichernde Volumen des Servers an. Das Volumen bezieht sich jeweils auf einen Sicherungszyklus. Dieser Wert wird mit in die Berechnung des Einsparpotentials gerechnet.

  • Backup Window

Das Zeitfenster, in dem ein Backup idealerweise durchgeführt wird; bei automatisierter Sicherung üblicherweise nachts. Das passende Backup-Window wird im Rahmen von Backup/Recovery-Strategie an Kriterien wie Netz- und Client-Auslastung gemessen und soll möglichst kurz sein, um die Netzverfügbarkeit zu gewährleisten. So können auch verschiedene Backup-Windows für Daten unterschiedlicher Priorität festgelegt werden.

  • Number of Versions

Gibt an, wie viele unterschiedliche Versionen einer Datei auf dem Backup-Server maximal gespeichert werden. Wird die angegebene Zahl durch ein neues Backup überschritten, wird die älteste Version direkt während des Backups gelöscht. Auch dieser Wert ist für die Berechnung der Kompressionsrate von hoher Bedeutung.

  • Expected Compression

Die geschätzte Kompression wird nun aus den zuvor ermittelten Werten errechnet. Dies gibt letztendlich Auskunft darüber, welche Daten sich für den Data-Deduplication Prozess eignen.

  • Annually Growth

Die wirtschaftliche Beplanung von Ressourcen ist eine Aufgabe der Kapazitätsplanung. Um eine langfristige Grobplanung erstellen zu können, ist es erforderlich, das jährliche Wachstum der zu sichernden Server einzuplanen.

Backup Volume Datenerhebung
Backup Profile Backup Typ Volume in GB Backup Window Number of Backups/ Versions Retention Time Expected Compression Anually Growth
  full,diff;incr transferred daily in hours n Days 1:X in TB
Exchange inc 200 2 no limit 60 days 01:05 0,01
Exchange full 2200 12 no limit 60 days 01:10 0,1
Windows OS inc 430 5 no limit 60 days 01:05 0,01
UNIX OS inc 280 4 no limit 30 days 01:05 0,01
Oracle full 100 2 no limit 30 days 01:10 0,005
SAP - produktiv full+logs 11200 12 30 365 days 01:10 2
SAP - test full+logs 13800 24 20 365 days 01:10 4
MSSQL full/incr 320 4 no limit 30 days 01:10 0,02

6.1.2 Klassifizierung

Nach der Datenerhebung müssen nun die Daten nach bestimmten Richtlinien bewertet werden. Die Klassifizierung unterstützt alle Maßnahmen, um die gespeicherten optimal nutzen zu können. Bei der Datenklassifizierung werden die in Gruppen mit bestimmten Attributen aufgegliedert. Jede Gruppe ist durch gemeinsame Eigenschaften definiert. Mit der wird erreicht, dass die Daten entsprechend der Vorgaben in einer geeigneten Speicherinfrastruktur gepflegt werden. Die entsprechenden Vorgaben und Richtlinien ergeben sich im Wesentlichen aus den folgenden Bereichen:

  • Compliance-Vorgaben

Gesetzliche Regulierungen (z.B. HGB, BDSG) verpflichten oft zu Datenschutzmaßnahmen, so dass die Rechte aller Benutzer definiert werden müssen, um Daten gegen unbefugten Zugriff abzusichern. Das Thema hat enorme Auswirkungen auf die IT-Infrastruktur der Unternehmen und dem Datenschutz gilt heutzutage größere Aufmerksamkeit als es in der Vergangenheit der Fall gewesen sein mag. Manager zeigen zudem ein neu entdecktes Interesse an ehemals banalen Themen wie die und fordern entsprechend mehr Informationen ein. Compliance erfordert, dass Daten nicht nur sicher aufbewahrt werden, sondern auch innerhalb fester Zeitfenster wieder auffindbar sind und ordnungsgemäß verwaltet werden. [11]

Ein Unternehmen oder eine Organisation muss sich darüber hinaus noch an regulative Vorgabe halten und nachweisen können, dass diese eingehalten werden. Darunter fallen z.B. technische Normen und Qualitätsstandards.

  • Branchenspezifische Anforderungen

Ein weiterer Klassifizierungspunkt sind die branchenspezifischen Anforderungen. Hier gelten bei Unternehmen, die beispielsweise im Finanz- oder Gesundheitswesen tätig sind, separate Vorgaben, die der Branche vorgeschrieben sind und in der Datenstruktur abgebildet werden müssen. Dies gilt oft insbesondere für die Aufbewahrungszeit der Daten.

  • Anforderungen an Daten (Service Level)

Sofern eine Übereinstimmung mit und Erfüllung von rechtlichen und regulativen Vorgaben gewährleistet ist, müssen die unternehmensinternen Vereinbarung identifiziert werden. Man spricht von einem sogenannten SLA (Service Level Agreement). Ein SLA setzt sich u.a. aus folgenden Punkten zusammen:[12]

- Anforderungen an Performance (Antwortzeiten)
- Verfügbarkeit
- geforderte Sicherheit
- Sicherungszyklus
- maximale Wiederherstellungszeit

Anhand dieser Unterteilung der Daten wird vorgegeben, wie die Daten zu behandeln sind. Dementsprechend können erst die Daten identifiziert werden, die für das Data-Deduplication in Frage kommen.

6.2 Prüfung der Einsatzkonzepte

6.2.1 Hash-Algorithmen

Das Ziel der Deduplizierung ist die Vermeidung von Redundanzen. Diese können anhand von verschiedenen Methoden identifiziert werden. Dabei bedienen sich alle Methoden der so genannten Hash-Funktionen, die die Beseitigung von redundanten Chunks ermöglichen. Hash-Algorithmen sind mathematische Algorithmen, die einen Datensatz durch eine Art Quersumme eindeutig identifizieren. Allgemein gesehen wird Hashing als Konvertierung einer Zeichenkette in einen Wert mit einer kürzeren festen Länge bzw. einen Schlüssel, der für die ursprüngliche Zeichenkette steht, verstanden. Hashing wird zur Indizierung und zum Abrufen von Einträgen in einer Datenbank verwendet, weil die Suche anhand des kürzeren Hash-Schlüssels schneller als die Suche nach dem ursprünglichen Wert dauert. Hashing wird auch in vielen Verschlüsselungsalgorithmen angewandt. Der Hashing-Algorithmus wird als Hash-Funktion bezeichnet. Diese Funktion wird auch für die Ver- und Entschlüsselung von digitalen Signaturen verwendet.[13]

Im Deduplizierungsumfeld werden gängige Algorithmen eingesetzt, um die Daten in fixe oder variable Chunks zu unterteilen. Pro Chunk wird ein Hash generiert, der auf das nächste identische Chunk („hash match") wartet. Die Daten werden anhand ihres gleichen Hash-Wertes erkannt und daher nur einmal gespeichert, ansonsten werden Referenzen in der Index-Datenbank angelegt. Diese Datenbank ist das zentrale Element bei der Deduplizierung. Die Hash-Datenbank wächst linear zum Datenaufkommen, was langfristig zu einem Performance-Verlust führt und die Skalierbarkeit erheblich einschränkt.[13]

Beim Hashing-Verfahren entstehen auch Nachteile, wie zum Beispiel durch Kollisionen. Hash-Kollisionen können zu Datenverlust führen. Hash-Kollisionen entstehen, wenn zwei unterschiedliche Chunks denselben Hash erzeugen. Unter statistischen Gesichtspunkten ist es nahezu ausgeschlossen, dass zwei Datensätze dieselbe Identifikationsnummer erhalten, obwohl sie aus unterschiedlichen Bitfolgen bestehen.

Folgende Hash-Funktionen können eingesetzt werden:

  • SHA-1: Dieses Verfahren wurde ursprünglich entwickelt, um verschlüsselte Signaturen zu erstellen. SHA-1 erzeugt einen 160-Bit-Wert. Haben zwei Chunks denselben SHA-1-Hash, enthalten sie mit höchster Wahrscheinlichkeit auch dieselben Informationen.[14]
  • MD5: Das Verfahren ist ein 128-Bit-Hash, der ebenfalls für die konzipiert wurde, dort aber wegen seiner verhältnismäßig geringen Schlüssellänge nur noch selten verwendet wird, da diese zu wenig Schutz gegen gezielte Angriffe bietet. Für die Daten-Deduplication ist der Schlüsselraum aber groß genug, so dass nichts dagegen spricht, MDS zu verwenden.[14]
  • Custom: Einige Hersteller nutzen speziell von ihnen entwickelte Hash-Funktionen, um Redundanz-Kandidaten zu identifizieren, oder sie vergleichen die Daten auf Bit-Niveau und vermeiden so die Hash-Bildung.[14]
  • Der Bit-Level-Vergleich ist der beste und sicherste Weg, um zu gewährleisten, dass zwei Chunks identisch sind. Hierbei werden zwei Blöcke auf Bit-Niveau analysiert und so die Identität festgestellt. Diese Methode stellt aber wegen der großen Anzahl von I/O-Operationen hohe Anforderungen an das Backup-System.[14]
  • Division/Restglied-Methode: Die Größe einiger Einträge in der Tabelle wird geschätzt. Diese Nummer wird dann als Divisor auf jeden ursprünglichen Wert oder Schlüssel angewandt, um einen Quotienten sowie ein Restglied zu ergeben. Das Restglied ist der Hash-Wert.[13]
  • Faltung: Bei dieser Methode wird der ursprüngliche Wert in verschiedene Abschnitte geteilt, die Teile werden dann addiert und die letzten vier Stellen werden als Hash-Wert oder Schlüssel genutzt.[13]
  • Basiszahl-Transformation: Wo der Wert oder Schlüssel in digitaler Form vorliegt, kann die Zahlenbasis geändert werden, um eine andere Folge von Zahlen zu ergeben. Die Stellen höherer Ordnung könnten verworfen werden, um einen Hash-Wert mit einer Standardlänge zu ergeben.[13]
  • Umstellung: Bei dieser Methode wird der ursprüngliche Wert oder Schlüssel aufgegriffen, beispielsweise Zahlen in den Positionen drei bis sechs, anschließend wird die Reihenfolge umgekehrt und es wird die Sequenz als Hash-Wert oder Schlüssel genutzt.[13]

6.2.2 Reverse- vs. Forward-Referencing

Bei der Deduplizierung wird eine Referenz- bzw. Indextabelle erstellt, die Informationen zu dem Ort der Originaldatei und dem Pointer erhält, sowie Informationen über den Wiederherstellungsort der Daten. Es gibt zwei mögliche Einsatzverfahren, um Redundanzen zu eliminieren. Das erste Verfahren ist das Reverse-Referencing.

Beim Reverse-Referencing (Rückwärtsreferenzierung) wird das erste gemeinsame Chunk gespeichert, alle weiteren identischen erhalten einen Verweis auf das erste. Die Vorteile dieses Verfahrens liegen in der Wiederherstellung von Dateien mit einer älteren Version.[15]

Das zweite Verfahren zur Eliminierung von Redundanzen heißt Forward-Referencing (Vorwärtsreferenzierung). Forward-Referencing legt immer die neueste Chunk-Version ab und referenziert die vorher aufgetretenen Elemente. Das Forward-Referencing benötigt mehr Ressourcen, weil bei dieser Methode sämtliche bestehenden Verweise aktualisiert werden müssen. Vorteilhaft ist jedoch, dass diese Variante mehr Leistungseffekte bei der Wiederherstellung von aktuellen Dateien schafft.[15]

6.2.3 Inband vs. Outband

Bei Deduplizierung sind zwei grundlegende Ansätze möglich. Dabei handelt es sich um folgende Optionen:

  • In-Band-Lösung
  • Out-of-Band-Lösung

In der Informationstechnologie werden für diese Methoden mehrere Synonyme angewendet. Am geläufigsten sind die Begriffe Inband und Outband. Die einzelnen Methoden unterscheiden sich darin, an welcher Stelle im Datenverarbeitungsprozess die Deduplizierung stattfindet, d. h. ob die Daten auf dem Weg zum Backup-Medium oder am Backup-Ort analysiert werden.

Abbildung 8: Inband-Deduplication
Abbildung 8: Inband-Deduplication

Inband, auch Source-Deduplication oder Quell-Deduplizierung genannt, findet auf dem Client statt. Die Software ermittelt auf dem Client die Datenblöcke und sendet dem Sicherungsserver den passenden Hash-Wert zu. Ist dieser Wert in der Referenzliste bereits vorhanden, überträgt der Client keine Daten und der Server kennzeichnet im Datenstrom den Hash-Wert. Ist der Datenblock bekannt, wird er zum Server übertragen und bekommt einen neuen Hash-Wert zugeordnet. Der Vorteil dieser Methode ist der geringere Bedarf an Bandbreite. Da der Vergleich bereits an der Datenquelle vorgenommen wird, ist das zu übertragene Datenvolumen gering. Die Inband-Lösung bietet auch ein zweites Verfahren, dass sowohl auf dem Backup-Client als auch auf dem Backup-Server spezielle Sicherungssoftware fordert. Bei diesem Verfahren identifiziert der Client einen neuen Chunk, also eine bislang noch nicht erkannte Bitfolge, und fordert beim Server den Vergleich dieser Bitfolge mit der Referenztabelle an. Sollte der Server dieses Muster bereits kennen, so teilt er dem Client mit, dass der Datenblock nicht erneut über das Netzwerk zu übertragen ist. Stattdessen wird vermerkt, dass dieser Block woanders gefunden wurde. Andernfalls wird der neu identifizierte Datenblock über das Netzwerk übertragen und der Server vermerkt sich entsprechend die Quelle der Daten. Die Variante der Inband-Lösung hat den Vorteil, dass weniger Storagekapazität benötigt wird und dadurch an Kosten gespart werden kann. Allerdings funktioniert Inband auf Kosten der Sicherungsperformance, da immer nur ein Datenstrom analysiert werden kann. Bei kleinen Zeitfenstern für das Backup kann diese Variante problematisch werden. Dieses Verfahren ist somit für IT-Umgebungen geeignet, in denen eine höhere Bandbreite eine wichtige Rolle spielt, demnach etwa für Unternehmen mit Zweigstellen und mobilen Anwendern.[16]

Abbildung 9: Outband-Deduplication
Abbildung 9: Outband-Deduplication

Im Gegensatz dazu, findet bei Outband, auch Target-Deduplication oder Postprocessing-Deduplizierung genannt, die Deduplizierung durch ein Gerät statt, das zwischen dem Backup-Server und dem Backup-Medium installiert wird. Dieses Konzept sieht eine unveränderte Datenübertragung vor und setzt eine ausreichend dimensionierte Netzwerkbandbreite für das definierte Backup-Fenster voraus. Die Belastung des Produktivnetzes entspricht einem normalen Backup. Bei der Outband-Lösung erfolgt die Deduplizierung nach der Fertigstellung der Datensicherung. Es werden zuerst alle Datenblöcke übertragen und mittels einer dedizierten Dedup-Engine am Ziel dedupliziert. Die nicht optimierten Backup-Daten werden in einen Bereich des Disk-Cache geschrieben. Anschließend wendet die Deduplizierungs-Engine den Optimierungs-Algorithmus an, um Wiederholungen oder Duplizierungen in den Daten zu identifizieren und zu entfernen. Target-Deduplizierung verringert den Speicherbedarf auf dem Zielgerät. Allerdings wird bei diesem Verfahren die Netzwerklast zwischen Quelle und Ziel nicht verringert. Der Nachteil dieser Methode besteht darin, dass die Backupmedien größer ausfallen, denn die Daten müssen erst einmal wie gewohnt abgespeichert werden.[16]

6.3 Durchführung der Performanceanalyse

Die Performance-Analyse dient der Ermittlung des Erfolges der eingesetzten Technologie. Der Erfolg einer Technologie kann anhand mehrerer Kriterien festgesetzt werden. Um den reinen technischen Erfolg darzustellen, ist es erforderlich, Messpunkte zu definieren. Dabei gilt es Schlüsselfaktoren aufzuzeigen, zu ermitteln und diese letztendlich gegenüberzustellen. Auch im Bereich Data-Deduplication kann man aufgrund der Vielzahl von Schnittstellen und Komponenten zahlreiche Messpunkte definieren. Um allerdings die wesentlichen Punkte aufzuzeigen, gilt es das Hauptargument als Messpunkte wiederzuspiegeln.

Abbildung 10: Compression-Ratio
Abbildung 10: Compression-Ratio

In erster Linie wird Data-Deduplication angewandt, um eine Effizienzsteigerung im Datenmanagement zu erreichen. Wie bereits in Kapitel 2.2 erläutert, spiegelt die Compression-Ratio den Faktor wieder, um den die Backupdaten komprimiert auf die Ressourcen gesichert werden können. Deswegen bietet sich die Compression-Ration als Schlüsselfaktor an. Es gibt zwei Möglichkeiten den Bedarf an Kapazität zu ermitteln. Die erste Möglichkeit besteht darin, eine signifikante Anzahl von Backups gegen das Deduplication-System zu senden und die Gesamtgröße dieser Backups mit der auf dem Ziel belegten Speicherkapazität zu vergleichen.

Aus diesem Verhältnis wird dann die beschriebene Compression-Ratio gebildet.[17]

Wie in dem aufgeführten Beispiel zu erkennen ist, wird eine maximale Compression-Ratio von 20:1 erreicht. Zu berücksichtigen ist dabei allerdings, das bei dem Produkttest eine reine Fullbackup-Umgebung betrachtet wurde. Wie bereits erwähnt, ist diese Sicherungsart am effizientesten für den Deduplication-Prozess zu betrachten, da bei jedem Sicherungszyklus alle Datensätze berücksichtigt werden. Da sich aber in einer heterogenen Produktiv-Umgebung eine Vielzahl verschiedener Sicherungsstandards etablieren müssen, wie z.B. die inkrementelle Sicherung, gilt es dementsprechend aufwendige Tests und Auswertungen zu fahren, um letztendlich Aussage über die Effizienz des Verfahrens treffen zu können.

Bei der zweiten Methode werden so lange Backups gegen das Deduplication-System gesendet, bis dessen Speicher voll sind. Es wird festgehalten, wie viele Backups gesendet wurden. Das zweite Verfahren dauert zwar länger, ist aber das einzige, mit dem man feststellen kann, wie sich das System langfristig verhalten wird. [7]

Um eine Rechengrundlage zu schaffen, bieten immer mehr Hersteller (z.B. www.dedupecalc.com) Deduplizierungsrechner online zur Verfügung.

7 Bewertung Data-Deduplication

7.1 Technische Nutzanwendung

In dem Kapitel technische Nutzanwendung soll auf Grundlage der bisher vorgestellten Methoden die praktische Anwendungen aufgezeigt werden. Da die Methoden Gegenstand aktueller Entwicklungen sind, gibt es mittlerweile produktionsreife Lösungen der Hersteller.

Abbildung 11: Ist-Soll Vergleich Data-Deduplication
Abbildung 11: Ist-Soll Vergleich Data-Deduplication

Gerade im Datensicherungsumfeld werden in Zukunft die Kompressionmethoden weiter an Bedeutung gewinnen, um das massive Datenaufkommen händelbar und vor allem finanzierbar zu machen. Der Ansatz des Data-Deduplication im B/R-Umfeld kann je nach Funktionsumfang der Produktivumgebung auf verschiedenste Art und Weise implementiert werden. Die Kernsynergien „effizientes Datenmanagement" und „Disaster/Recovery WAN Replizierung", werden in den kommenden Abschnitten genauer erläutert.

  • Effizientes Datenmanagement

Data-Deduplication kann das Backup-Datenvolumen auf ein Mindestmaß reduzieren. Alle Herstellerangaben entsprechen jedoch meist nur einem im Labor nachgestelltem Testszenario wie bereits in der Performanceanalyse gesehen. Um Data-Deduplication in einer produktiven B/R Umgebung sinnvoll einzusetzen, gilt es nach der Betrachtung der Einsatzkonzepte des Data-Deduplications und Erhebung der vorhandenen Datenstruktur, abzuwägen, welche Daten für den Prozess in Frage kommen und welche weiterhin das konventionelle Backupverfahren in Anspruch nehmen. Sofern die Voraussetzung für Data-Deduplication geschaffen ist, trägt das Verfahren unmittelbar bei aktiven Sicherungsläufen zum effizienten Datenmanagement bei. Wie in der Abbildung zu sehen ist, wird das Speicheraufkommen um die daraus resultierende Compression-Ratio verringert.[18]

  • Disaster/Recovery WAN Replizierung
Abbildung 12: WAN-Replizierung
Abbildung 12: WAN-Replizierung

Im Hinblick auf das Thema Katastrophenschutz unternehmenskritischer Daten spricht man von Disaster/Recovery Konzepten. Hinter solchen Konzepten verbergen sich „Notfallkonzepte", die das Unternehmen in die Lage versetzt, bei längerfristigen Störungen bzw. Ausfällen von IT-Ressourcen im Rahmen vordefinierter „Wiederanlaufszeiten" die Ressourcen wieder zur Verfügung zu stellen. Dafür werden je nach Ausfallszenario verschiedene Ausweichmöglichkeiten geschaffen. Diese Strategie ist meistens Teil eines gesamten "IT-Service-Continuity Management (ITSCM)". Daraus resultierend werden unternehmenskritische Daten identifiziert. Diese Daten werden an sogenannte Ausweichrechenzentren repliziert. Neben lokalen Spiegelungen zwischen räumlich nahestehenden Systemen sind durch eine zusätzliche WAN-Funktionalität auch Spiegelungen über weite Entfernungen möglich. Durch die Skalierbarkeit können sowohl KMUs als auch internationale Unternehmen mit weltweit verteilten Rechenzentren globale Disaster-Recovery-Konzepte umsetzen, in denen beispielsweise Systeme interkontinental abgesichert werden.[19]Da auch diese kritischen Daten einen enormen Zuwachs zu verzeichnen haben, kommt die Funktion des Deduplication zum entscheidenden Vorteil.

Durch Deduplication kann schon im Vorfeld der Replizierung an das Ausweichrechenzentrum, die Duplikate der Datensätze erkannt und eliminiert werden. Wie in der Abbildung zu sehen, wird dann nur noch ein Bruchteil der Datensätze effektiv übertragen. Dadurch werden die benötigten Zeitfenster so gering wie möglich gehalten bzw. durch den Einsatz von Deduplication diese Möglichkeit erst geschaffen.

7.2 Wirtschaftlichkeitsaspekte

Die Anschaffung einer Deduplizierunglösung stellt für das Unternehmen nicht nur einen technischen, sondern auch einen wirtschaftlich berechenbaren Mehrwert dar. Der gezielte Einsatz dieser Technologie senkt die Kosten im Backup-Umfeld erheblich und steigert die Speichereffizienz im Data-Center-Betrieb.

Angesichts der Komprimierung der dedupliziert gesicherten Daten, kann das Speichervolumen um das Vielfache reduziert werden, so dass Kosteneinsparungen im Hardwareumfeld die Folge sind. Die Datensicherung, somit auch die Investition in Storageeinheiten, ist ein wichtiger Kostentreiber, weil für die Bereitstellung von Ressourcen ständig Infrastrukturkosten entstehen. Deduplizierung ermöglicht die vorhandenen Speicherkapazitäten effizienter zu nutzen, so Hardwarekosten und daraus folgend den Energiebedarf zu verringern.

Die Synergie-Effekte lassen sich durch folgende Aspekte darstellen. Effektiv können Investitionen in Hardware, sprich Storageeinheiten und Bänder, vermieden werden. Durch die erreichte Komprimierung wird für die Speicherung der Daten weniger Kapazitäten beansprucht. Das hat die Folge, dass der kurzfristige Erwerb neuer Einheiten verschoben wird. Weiterhin stellt die Berechnung der zu erwartenden Kapazitäts- und Ressourceneinsparungen eine Herausforderung dar, weil die Einspareffekte je nach Datenformat unterschiedlich sind. Wie oben bereits erwähnt, sind in der Praxis Kompressionsraten bis 1:12 möglich. Zum Beispiel Bild-, Video- und Audiodateien werden nur dedupliziert, wenn die Daten identisch auf demselben Ziel gesichert werden. Im Gegensatz dazu lassen sich Textdateien und Datenbanken besser deduplizieren. Verschlüsselte Daten lassen sich vergleichsweise gar nicht deduplizieren. Weiterhin lassen sich durch die ausgefeilte Technologie schnellere Restores durchführen und Ausfallzeiten und auch die wirtschaftlichen Verluste minimieren. Wirtschaftliche Ersparnisse lassen sich auch beim Backup der dezentralen Standorte erzielen. Da die Deduplizierung die zu sichernde Datenmenge erheblich reduziert, kann der Datentransfer zwischen den zentralen und dezentralen Standorten über eine niedrigere und damit kostengünstigere Bandbreite stattfinden.[20]

Abgesehen von den eingesparten Investitionskosten können auch Betriebsausgaben wie etwa für Energie, Kühlung und Stellfläche, sowie Verwaltungsausgaben minimiert werden. Infolgedessen werden auch zukunftsweisende Anforderungen der Green-IT ihre Berücksichtigung finden. Der Rückblick auf diese Fakten bestätigt, dass der Einsatz einer Deduplizierungslösung in vielen Szenarien Kostenersparnisse im Datensicherungsumfeld erreichen lässt. Bevor jedoch diese Synergieeffekte erreicht werden können, müssen natürlich die Kosten für die Implementierung dieses Konzeptes betrachtet werden. Die Implementierung solch einer Lösung ist stark von der vorhandenen Backup-Infrastruktur der Unternehmen und der angebotenen Herstellerlösung abhängig. Vor dem Einsatz einer Deduplicationumgebung müssen vorhandene Konstellationen betrachtet werden. Davon abhängig sind die Lösungsmöglichkeiten zu evaluieren, um anschließend die für den Betrieb solch eines Konzeptes benötigten Anforderungen zu erfüllen. Die Hersteller bieten in diesem Fall Lösungen an, die sich ohne größere Investitionen in das Backup-Umfeld eingliedern lassen oder auch Lösungen die je nach Fall höhere Investitionen erfordern. Beispielsweise sind Konstellationen vorhanden, wo fallsweise die benötigte Hardwareinfrastruktur bereits vorhanden ist und im Vergleich nur geringe Investitionen in Software getätigt werden müssen. Andernfalls existieren auch Konzepte die den kompletten Neuaufbau einer Umgebung erfordern. Zusammengefasst sind die wirtschaftlichen Aspekte des Einsatzes einer Data Deduplication Lösung im Backup/Recovery Umfeld nicht mit einer genauen Kennzahl festzulegen. Die genaue Abschätzung der Ersparnisse oder der Investitionskosten können nur Unternehmensspezifisch berechnet werden. Diese Zahlenwerte sind aber, wie bereits erklärt, stark abhängig von der eingesetzten Hardware und von den individuellen Gegebenheiten des Datensicherungsumfeldes.

7.3 Risikobetrachtung

Neben den in den vorgegangenen Kapiteln sich ergebenden Möglichkeiten gibt es auch im Data-Deduplication Risiken. Die Risiken und Nachteile werden im folgenden Kapitel erläutert, um letztendlich in der Zusammenfassung und Fazit eine mögliche Herangehensweise an die Funktion des Data Deduplication im Backup und Recovery darzustellen.

Das Hauptaugenmerk bei dem Data-Deduplication-Prozess wird auf die Datenreduktion gelegt, indem Duplikate identifiziert, gekennzeichnet und nur noch einmalig gesichert werden. Jede weitere Duplette wird auf die Datei "verlinkt". Wie bereits erörtert, arbeiten die meisten Dedupe Implementierungen zum Auffinden von Gleichheitskandidaten überlicherweise mit Hash Keys. Diese Keys sind wesentlich kürzer als der dazugehörende Datenbereich (z.B 1:50). Daher können entsprechend viele Bitkombinationen des Datenbereichs zum gleichen Hash Key und somit zu "Hash-Kollision" führen. Die Wahrscheinlichkeit von Hash-Kollisionen nimmt mit zunehmender Hash Key Länge und auch mit einem verkürzten Missverhältnis von Hash Key- zur Datenbereichslänge deutlich ab. Die meisten Herstellerlösungen kombinieren Hash-Verfahren, um die Wahrscheinlichkeit zu verkleinern. Einige Lösungen verfolgen die Implementierungen ohne Hash Key Collision Risiko, bei gleichem Hash Key wird der zugehörige Datenbereich verglichen. Dieses Verfahren bringt aufgrund der Rechenprozeduren eine starke Performanceeinbuße mit sich.[7]

Auch ein potenzieller Anstieg von Datenverlust aufgrund von Hardwareausfällen muss beachtet werden. Bei einem Ausfall einer Harddisk, auf dem sich die Backup-Daten befinden, wird der Verlust wesentlich gravierender sein, da unter Umständen die Hash-Keys eines kompletten Systems auf einem Medium liegen könnten. Normalerweise werden die Daten automatisch wiederhergestellt, wenn sie sich auf einem RAID-Array befinden. Jedoch ist zu berücksichtigen, dass alle Daten verloren gehen können, wenn während der Wiederherstellung eines RAID-5-Volumes ein zweites Laufwerk ausfällt. Diese potenzielle zusätzliche Gefährdung ist bei Backup-Bändern nicht gegeben, da sie auch weiterhin im ursprünglichen Format ohne Optimierung durch Deduplizierung beschrieben werden.[20]

Wie schon angerissen spielt die Performance bei dem Deduplication-Prozess eine entscheidende Rolle. Da die Deduplizierung eine prozessorintensive Aufgabe ist, kann der Datendurchsatz beim Backup oder Restore beschränkt sein. Beispielsweise sichert eine VTL Daten normalerweise mit einer Geschwindigkeit von 300 MB/s; bei der Echtzeit-Deduplizierung hingegen verringert sich dieser Durchsatz ggf.auf 80–100 MB/s. Ist während eines Backups ein Restore erforderlich, wird es von der Deduplizierungs-Engine u. U. mit verringerter Performance durchgeführt. Wenn schnelle Restores unerlässlich sind, muss abgewogen werden, welche Auswirkungen die Deduplizierung – verglichen mit einem konventionellen Nearline-Disk-Array – auf den Datendurchsatz hat.[20]

8 Zusammenfassung und Ausblick

Abbildung 13: Ranking Speichertechnologien
Abbildung 13: Ranking Speichertechnologien

Die vorliegende Fallstudie macht darauf aufmerksam, dass ein effizientes Datenmanagement durch Data-Deduplication keine Zukunftsmusik mehr ist. Speziell die Integration in eine vorhandene Backup/ Recovery Infrastruktur macht an richtiger Stelle Sinn. Eine Reihe von Hersteller bieten absolut marktreife Technologien an. Die Herausforderung stellt eindeutig die konzeptionelle Integration der Deduplication-Funktion in eine vorhandene komplexe Infrastruktur. Im Kapitel 7.3 wurden bereits auf die möglichen Risiken eingegangen, die durch den Data-Deduplicationprozess zu Vorschein kommen können. Deswegen gilt in erster Linie auch nochmal an dieser Stelle zu erwähnen, dass die Klassifizierung der Daten eine ganz entscheidende Rolle in der Implementierung spielt. Es gilt zu entscheiden, wie mit hochkritischen Unternehmensdaten umgegangen wird. Kann ein evtl. Datenverlust durch Data-Deduplication getragen werden oder vertraut man an dieser Stelle der konventionellen Datensicherungsmethoden. Existierende Service Level Agreements machen teilweise Technologievorgaben, die eine erforderliche Skalierbarkeit und Flexibilität einer Lösung zur Voraussetzung machen. Sind sinnvolle Einsatzmöglichkeiten erkannt und der richtige Deduplicationansatz implementiert, kann das Unternehmen die Synergieeffekte aus Data-Deduplication und Backup/Recovery sich zu nutzen machen. Das Einsparpotential im Bereich der Ressourcenbereitstellung realisiert nicht nur geringere Gesamtbetriebskosten, sondern steigert auch das betriebliche Leistungspotential.

Im Rahmen dieser Studie wurde gezeigt, dass die Hersteller weiter auf die Technologie Data-Deduplication setzen und das Leistungspotential weiter ausschöpfen. Deduplication wird sich bezüglich Performance, Compression Ratios und breiterem Deduplication-Scope weiter verbessern.In einigen Jahren sollte Data-Deduplication über alle Hersteller hinweg selbstverständlicher und integraler Bestandteil von Storage- und VTL-Appliances, sowie von Backup-Software-Clients werden. Nachdem Deduplication im Kleinen begonnen hatte und derzeit seinen Hauptfokus beim Backup und Recovery setzt, scheint sich ein Trend zum „end2end-Deduplication“ zu verstärken. Sprich Deduplication am Primärstorage beginnen und die Deduplication-Vorteile bei der Übertragung zu Sekundärsystemen bewahren, letztlich bis hin zum Backup.

9 Literatur- und Quellenverzeichnis

Ah (2008) Ah, Marc von: Der neue Stern am Speicher-Himmel (2008), http://www.infoweek.ch/it-management/backup/articles/160502/ (13.06.2009, 21:42)
Damoulakis/Poresky (2007) Damoulakis, James / Poresky, Phil: Compliance-Vorgaben in die Praxis umsetzen (2007), http://www.searchstorage.de/index.cfm?pid=3655&pk=51313 (13.06.2009, 21:48)
Feil (2007) Feil, Thomas: Storage-Management: Daten nur einmal speichern (2007), http://www.computerwoche.de/knowledge_center/datacenter_und_server/591810/index.html (14.06.2009, 01:37)
IBM (2006) IBM (Hrsg.): IBM Tivoli Storage Management Concepts (2006), http://www.redbooks.ibm.com/redbooks/pdfs/sg244877.pdf (13.06.2009, 20:31)
IBM (2007) IBM (Hrsg.): IBM Tivoli Storage Manager Implementation Guide (2007), http://www.redbooks.ibm.com/redbooks/pdfs/sg247235.pdf (13.06.2009, 19:45)
Ilsemann (2008) Ilsemann, Philipp: Deduplizierung macht Backups effizienter (2008), http://www.it-business.de/news/produkte/storage/backup-datensicherung/articles/116257/ (13.06.2009, 22:55)
Kresse (2008) Kresse, Michael: learnITIL v3: Serview GmbH (2008)
Lange (2007) Lange, Christoph: Deduplizierung spart Speicherplatz (2007), http://www.computerwoche.de/virtualdatacenter/connectivity-und-storage/technik-trends/598689/ (14.06.2009, 01:50)
NetApp (2009) NetApp (Hrsg.): Data-Deduplication (2009), http://www.netapp.com/de/company/news/news-rel-20090119-de.html (14.06.2009, 00:26)
Patterson (2008) Patterson, Hugo: Speicher auf Deduplizierungsbasis: Data Domain (2008)
Pospiech (2009) Pospiech, Werner: Datenoptimierung mittels Deduplication und datadomain (2009), http://www.roedl.de/upload/ITC_B_Backupmanagement_datadomain_Whitepaper_6815.pdf (13.06.2009, 19:30)
Preston (2007) Preston, W.Curtis: Backup and Recovery: O'Reilly Media (2007)
Preston (2009) Preston, W.Curtis: Datenkompression bietet hohes Sparpotential (2009), http://www.searchstorage.de/themenbereiche/backup-recovery/deduplizierung/articles/187207/ (13.06.2009, 23:17)
Preston/Schöne (2009) Preston, W. Curtis / Schöne, Bernd: Schlankheitskur für das Backup (2009), http://www.searchstorage.de/themenbereiche/rz-techniken/fundamente/articles/64000/index3.html (13.06.2009, 22:32)
Riess (2008) Riess, Ulrike: Datensicherung: Am Ende steht die kontollierte Löschung (2008), http://www.computerwoche.de/subnet/t-systems/1868976/index4.html (13.06.2009, 18:46)
Sundby (2007) Sundby, Nick: Deduplizierung im Rahmen der Datensicherung (2007), http://whitepaper.computerwoche.de/fileserver/leaddb/downloads/31854_IDC_CG47P_German1836.pdf (14.06.2009, 00:58)
SearchStorage.de (2009) SearchStorage (Hrsg.): Hashing (2009), http://www.searchstorage.de/glossar/Hash/articles/181860/ (13.06.2009, 22:23)
Speicherguide.de (2009) Speicherguide.de (Hrsg.): Datendeduplizierung auch archivtauglich (2009), http://www.speicherguide.de/magazin/archivierung.asp?todo=de&theID=2740&lv=500&mtyp= (14.06.2009, 01:40)
Tecchannel.de (2005) Tecchannel (Hrsg.): Grundlagen: Backup-Software (2005), http://www.tecchannel.de/storage/backup/429770/grundlagen_backup_software/index.html (13.06.2009, 20:39)
Unterseher (2009) Unterseher, Dieter: Data-Deduplication (2009), http://www.bitkom.org/files/documents/Unterseher_Data_Deduplication_2008_11_27d.pdf (13.06.2009, 20:39)
Wald (2002) Wald, Egbert: Backup und Disaster Recovery: mitp-Verlag, Bonn 2002
Wintermann/Gavris (2008) Wintermann, Klaus /Gavris, Lucian: Neue Wege zur effizienten Archivierung durch Deduplizierung von Daten und Dokumenten (2008), http://www.informatik.hs-mannheim.de/aku/aku-daten/heidelberg2008/vortraege/Vortrag_Wintermann_Teil1_20081204.pdf (13.06.2009, 22:14)

10 Fußnoten

  1. Vgl. Pospiech (2009)
  2. 2,0 2,1 2,2 Vgl.Tecchannel.de (2005)
  3. 3,0 3,1 Vgl. IBM (2006)
  4. 4,0 4,1 4,2 Vgl. Wald (2002)
  5. Vgl. IBM (2007)
  6. 6,0 6,1 Vgl. Riess (2008)
  7. 7,0 7,1 7,2 7,3 Vgl. Unterseher (2009)
  8. Vgl. Feil (2007)
  9. Vgl. Speicherguide.de (2009)
  10. Vgl. Ah (2008)
  11. Vgl. Damoulakis/Poresky (2007)
  12. Vgl. Wintermann/Gavris (2008)
  13. 13,0 13,1 13,2 13,3 13,4 13,5 Vgl. SearchStorage (2009)
  14. 14,0 14,1 14,2 14,3 Vgl. Preston/Schöne (2009)
  15. 15,0 15,1 Vgl. Ilsemann (2008)
  16. 16,0 16,1 Vgl. Lange (2007)
  17. Vgl. Preston (2009)
  18. Vgl. Netapp (2009)
  19. Vgl. Kresse (2008)
  20. 20,0 20,1 20,2 Vgl. Sundby (2007)
Persönliche Werkzeuge