Blog

Die Zukunft der Datenaufbewahrung: Vorratsdatenspeicherung in der AWS Cloud

11. September 2023
Picture of Skaylink
Skaylink

Worum geht es bei der Vorratsdatenspeicherung?

Vorratsdatenspeicherung (oder Data Retention) bezieht sich auf den Prozess der langfristigen Speicherung von Daten, in der Regel innerhalb eines Unternehmens oder einer Organisation, um gesetzliche, regulatorische oder geschäftliche Anforderungen zu erfüllen. Dabei kann es sich um Verbindungsdaten, Metadaten zu Anrufen, Textnachrichten oder zur Internetnutzung sowie sonstige Informationen handeln, die zur Aufrechterhaltung der öffentlichen Sicherheit oder zur Unterstützung von Ermittlungen erforderlich sind. Während der Datenaufbewahrungsfrist werden die Daten – auch wenn sie nicht mehr aktiv genutzt werden – aufbewahrt, um sicherzustellen, dass sie bei Bedarf verfügbar sind. 

Die Vorratsdatenspeicherung umfasst die Festlegung von Richtlinien und Verfahren für die Speicherung, Aufbewahrungsdauer, Sicherheit und ggf. Löschung von Daten. Diese Richtlinien können je nach Branche, Gesetzgebung und Unternehmensrichtlinien variieren. Einige Daten müssen möglicherweise für eine bestimmte Anzahl von Jahren aufbewahrt werden, um gesetzliche oder behördliche Anforderungen einzuhalten. 

Die Umsetzung einer effektiven Strategie zur Vorratsdatenspeicherung ist wichtig, um die Integrität von Unternehmensdaten zu gewährleisten, gesetzliche Anforderungen zu erfüllen, Compliance zu wahren und potenziell nützliche Daten für zukünftige Analysen oder gesetzliche Anforderungen bereitzuhalten. Dies kann in physischer oder digitaler Form, einschließlich Cloud-Speicherlösungen, erfolgen.

Datenlebenszyklus: Cold und Hot Data richtig managen

Der Datenlebenszyklus bezieht sich auf die verschiedenen Phasen, die Daten während ihrer Existenz durchlaufen – von ihrer Erstellung oder Erfassung bis zu ihrer endgültigen Löschung oder Archivierung. Er ist wichtig, um ein effizientes Datenmanagement zu gewährleisten. Unterschiedliche Datentypen und ihre Verwendung erfordern unterschiedliche Speicher- und Verarbeitungsanforderungen in jeder Phase. 

Der Begriff Cold Data bezieht sich auf Daten, die selten oder gar nicht aktiv abgefragt oder genutzt werden. Es handelt sich um Daten, die in Anwendungen oder Prozessen nicht mehr regelmäßig verwendet werden und oftmals älter sind. Cold Data unterscheiden sich von Hot Data, auf die häufig zugegriffen wird und die in laufenden Prozessen aktiv verwendet werden. Hot Data werden in der Regel auf schnelleren Speichermedien oder in schnelleren Zugriffsbereichen gehalten, um eine optimale Leistung zu gewährleisten. Cold Data hingegen können auf kostengünstigeren Speichermedien gespeichert werden, da sie geringere Anforderungen an die Zugriffszeit stellen. Dies trägt dazu bei, die Speicherkosten zu senken und gleichzeitig den Zugriff auf die Daten zu gewährleisten, wenn sie benötigt werden. Im Rahmen der Vorratsdatenspeicherung werden sowohl Hot als auch Cold Data gespeichert. 

Herausforderungen: Effektive Datenverwaltung und rechtliche Anforderungen

Bei der Vorratsdatenspeicherung in der Cloud sind einige wichtige Aspekte zu beachten, um sicherzustellen, dass die gespeicherten Daten sowohl den gesetzlichen als auch den geschäftlichen Anforderungen entsprechen. Nachfolgend einige wichtige Überlegungen: 

  • Rechtliche und Compliance-Anforderungen: Prüfen Sie die spezifischen rechtlichen und regulatorischen Anforderungen für die Speicherung von Daten in der Cloud. Je nach Branche und Region können unterschiedliche Fristen und Anforderungen gelten. 
  • Datenschutz und Sicherheit: Stellen Sie sicher, dass die gespeicherten Daten angemessen geschützt sind und den Datenschutzbestimmungen entsprechen. Verschlüsselung, Zugriffskontrolle und Sicherheitsmaßnahmen sind entscheidend, um unbefugten Zugriff auf die gespeicherten Daten zu verhindern. 
  • Aufbewahrungsfristen: Legen Sie klare Aufbewahrungsfristen für Ihre Daten fest. Berücksichtigen Sie dabei gesetzliche Anforderungen, geschäftliche Erfordernisse und mögliche zukünftige Anforderungen. 
  • Datenlöschung: Stellen Sie sicher, dass Daten nach Ablauf der Aufbewahrungsfrist ordnungsgemäß und dauerhaft gelöscht werden. Cloud-Provider bieten häufig Funktionen zur sicheren Datenlöschung an. 
  • Zugriffs- und Wiederherstellungsmechanismen: Planen Sie für den Fall, dass Sie auf gespeicherte Daten zugreifen oder diese wiederherstellen müssen. Stellen Sie sicher, dass Sie über die erforderlichen Werkzeuge und Prozesse verfügen, um die Daten bei Bedarf effizient wiederherstellen zu können. 
  • Data Lifecycle Management: Implementieren Sie eine klare Strategie für den gesamten Lebenszyklus der Daten – von der Erstellung über die Speicherung bis hin zur Löschung. Dies kann automatisiert werden, um sicherzustellen, dass die Daten gemäß den Richtlinien behandelt werden.  
  • Backup- und Wiederherstellungsstrategie: Stellen Sie sicher, dass Sie über eine zuverlässige Backup- und Wiederherstellungsstrategie verfügen, um die Integrität Ihrer Daten im Falle von Datenverlust oder unerwarteten Ereignissen zu gewährleisten. 
  • Regelmäßige Überprüfung und Anpassung: Überprüfen Sie regelmäßig Ihre Strategie zur Aufbewahrung von Daten, um sicherzustellen, dass sie den aktuellen Anforderungen und Veränderungen entspricht. Passen Sie Ihre Strategie bei Bedarf an.

Warum Vorratsdatenspeicherung in der AWS Cloud eine kluge Wahl ist

  • Skalierbarkeit: AWS bietet die Möglichkeit, Speicherressourcen nach Bedarf zu skalieren. Dadurch kann je nach Bedarf mehr oder weniger Speicherplatz für die Vorratsspeicherung von Daten genutzt werden, ohne dass die physische Hardware vergrößert oder verkleinert werden muss. 
  • Kosteneffizienz: AWS ermöglicht es, die Kosten für die Datenspeicherung genau an den tatsächlichen Bedarf anzupassen. Es sind keine großen Investitionen in Hardware erforderlich, und Sie zahlen nur für den tatsächlich genutzten Speicherplatz. 
  • Zuverlässigkeit: AWS verfügt in der Regel über umfangreiche Redundanz- und Failover-Mechanismen, um Datenverluste zu minimieren. Dies trägt dazu bei, dass die gespeicherten Daten sicher und verfügbar bleiben. 
  • Automatisierung: Die meisten AWS-Dienste bieten automatisierte Mechanismen zur Datensicherung, -wiederherstellung und -löschung. Dies vereinfacht den Prozess der Datenaufbewahrung und minimiert menschliche Fehler. 
  • Geografische Verteilung: AWS ermöglicht die Speicherung von Daten in verschiedenen Regionen, um lokale Compliance-Anforderungen zu erfüllen oder Datenzugriffszeiten zu optimieren. 

Kundenbeispiel

Bei einem Kunden aus der ManufacturingBranche fallen während der Produktion eine große Menge an Daten an. Diese Cold Data müssen über einen längeren Zeitraum aufbewahrt werden. Je nach gesetzlichen Vorgaben und Vereinbarungen kann dies zwischen 5 und 30Jahren variieren. Nach der definierten Aufbewahrungsfrist sollen die Daten automatisch gelöscht werden. Wichtig ist hierbei, dass die Daten während der Aufbewahrungsfrist nicht verändert werden dürfen. Der Kunde möchte keine zusätzliche teure OnPremisesSpeicherung, sondern CloudTechnologien nutzen. Die Lösung soll möglichst kostengünstig sein, da aufgrund der langen Aufbewahrungsfristen Petabytes an Daten gespeichert werden. Neue Daten müssen für einen bestimmten Zeitraum sofort verfügbar sein, ältere Daten innerhalb weniger Stunden. 

Die Lösung: AWS S3 und Glacier Deep Archive

Da der Kunde bereits über eine AWS-Infrastruktur verfügt, fiel die Entscheidung leicht, den kostengünstigen Speicher von AWS S3 und Glacier zu nutzen. Die Lösung basiert auf einem Storage Gateway und der Upload der Daten erfolgt über ein File Gateway mit SMB Shares. Nach einer bestimmten Zeit (z. B. 90 Tage) werden die Daten auf Basis einer Lifecycle Policy von S3 nach Glacier Deep Archive transferiert und dort für einen bestimmten Zeitraum (z. B. 30 Jahre) aufbewahrt. Da die Daten während der Aufbewahrungszeit nicht verändert werden dürfen, werden Versioning und Object Lock aktiviert.  

Hier musste jedoch ein Workaround gefunden werden, da das File Gateway in Verbindung mit Object Lock und Versioning nach jedem Upload mindestens zwei Versionen erzeugt (zuerst wird das File geschrieben, danach die Metadaten). Das Storage Gateway benachrichtigt mittels EventBus über abgeschlossene Uploads (d. h. sowohl Daten als auch Metadaten wurden vollständig hochgeladen – zwei Versionen). EventBridge filtert diese Benachrichtigungen über abgeschlossene Uploads und sendet sie an SQS. Von dort werden Lambda-Funktionen angestoßen, die die Nachrichten in einstellbaren Batches verarbeiten, alle Versionen bis auf die neueste löschen und mit einer bestimmten Aufbewahrungsfrist versehen. Die Aufbewahrungsfrist basiert optional z. B. auf dem Tagging des Buckets. Zusammen mit einer Fehlerbehandlung und Benachrichtigung an Operations ist die Lösung komplett und in der Lage, alle Kundenanforderungen zu erfüllen. 

Fazit

Der Kunde verfügt nun über eine Lösung in der AWS Cloud, in der alle Daten aus der Produktion sicher, unveränderbar und für einen definierten Zeitraum gespeichert werden. Der Kunde kann seine Standorte anbinden und mehrere Terabytes an Daten pro Monat zur Aufbewahrung in die AWS Cloud verschieben. Durch die Nutzung des kostengünstigen Glacier Deep ArchiveSpeichers für die Archivierung muss der Kunde keinen teuren On-PremisesSpeicher aufrüsten, den er selbst warten müsste.