Vertriebliche Beratung:
plusserver-Blog-Data Lake Digitization
Blog

|

08.05.2021

Was ist ein Data Lake? Basis für die Analyse von IoT-Daten

Andreas Buhlmann
IoT-Anwendungen wie Predictive Maintenance nutzen Machine Learning für die Analyse von historischen Daten und Echtzeit-Informationen. Basis dafür sind meist Data Lakes. Diese speichern alle Arten von Daten im Rohformat und eignen sich daher sehr gut für unstrukturierte Sensor- und Maschinendaten.

Durch das Internet of Things (IoT) wächst die Menge der verfügbaren Informationen in Unternehmen geradezu exponentiell an. Ein Beispiel dafür ist die moderne, vernetzte Fabrik (Smart Factory). In der digitalisierten Produktion sind Maschinen, Sensoren und smarte Produkte über das IoT miteinander gekoppelt. Dadurch entsteht neben Prozess- und Produktdaten auch eine Fülle unstrukturierter Daten zum Status einer Maschine oder Anlage. Beispielsweise Temperatur, Leistung, Umdrehungen, Feuchtigkeit oder Auslastung.

Ein Anwendungsfall: Predictive Maintenance

Diese Echtzeit-IoT-Daten lassen sich gemeinsam mit historischen Daten zu Maschinen (Wann, wo und wie oft ist dieser Fehler schon bei welchen Bedingungen eingetreten?) beispielsweise für Predictive Maintenance nutzen, sprich vorausschauende Wartung. Eine (Cloud-)Lösung oder IoT-Plattform analysiert all diese aktuellen und historischen Daten per Machine Learning. So lassen sich Abweichungen von den Normwerten erkennen – und damit Fehler oder technische Mängel vorhersagen. Der Service kann dadurch rechtzeitig reagieren und einen kostspieligen Ausfall der Maschine proaktiv verhindern.

Anhand des Maschinenzustands sind auch präzise Prognosen zu Risiken, Ausfällen und Wartungsbedarf möglich. Hier lassen sich auch Wetterdaten und sonstige Umwelteinflüsse integrieren und so etwa Entscheidungen über die Laufzeit und Konditionen bei der Verlängerung von Serviceverträgen treffen.

Voraussetzung: Leistungsfähige Big-Data-Infrastruktur

Grundlegende Voraussetzung für die effiziente Analyse der IoT-Daten ist eine leistungsfähige Big-Data-Infrastruktur, die auch große Datenmengen schnell auswertet. Das System sollte mit einer großen Vielfalt von Datentypen und Formaten zurechtkommen. Auch Daten aus unterschiedlichsten Quellen gilt es zu aggregieren und zu analysieren. Schließlich müssen Firmen etwa für die Produktionssteuerung sämtliche Datenquellen (Maschinen, Prozesse, Produkte, Wetterdaten etc.) und Systeme (ERP, CRM, BI etc.) integrieren.

Der Klassiker: Data Warehouse

Lange Zeit galt ein klassisches Data Warehouse als zentrale Quelle für die Datenanalyse. Dort führen Firmen unternehmensweit Daten aus verschiedensten Systemen zusammen und harmonisieren sie. Die gespeicherten Daten werden bereinigt, transformiert, standardisiert, integriert und angepasst, um sie meist in SQL-Tabellen zu speichern. Das heißt: Alle Daten im Data Warehouse sind strukturiert und in Datenbanken organisiert.

Die Integration der Daten in das vorab definierte Datenmodell ist allerdings sehr aufwändig. Anwender greifen dann über ihre BI-Berichte oder OLAP-Analysen auf diese Informationen zu, um die Daten auszuwerten und Entscheidungen zu treffen.

An seine Grenzen gerät ein klassisches Data Warehouse bei sehr großen und sich oft ändernden Datenmengen. Diese entstehen beispielsweise durch das IoT. Derart große Datenmengen in einem Data Warehouse zu speichern, ist wirtschaftlich oft nicht sinnvoll. Zumal die IoT-Daten nicht immer komplett benötigt werden.

Der Flexible: Data Lake

Eine weitere Herausforderung: Die Informationen aus neuen Datenquellen wie IoT-Sensoren liegen meist unstrukturiert vor. Das Gleiche gilt für Texte wie Mails oder Word-Dokumente, Bilder, Videos oder Social Media. Diese unstrukturierten oder semistrukturierten Daten müssen für das Data Warehouse transformiert werden. Dabei kann es zu Informationsverlusten kommen. Abhilfe schafft hier ein flexibler Data Lake (Datensee), der sich zudem kostengünstiger betreiben lässt als ein Data Warehouse. Da ein Data Lake auf einem verteilten Dateisystem wie etwa Hadoop basiert, lassen sich die Daten über viele unterschiedliche Storage-Lösungen verteilen. Weniger häufig angefragte Daten können dann auch auf günstigen Speichersystemen liegen.

plusserver Blog - Data Lake vs. Data Warehouse
Quelle: TechTarget

Was bringt ein Data Lake?

Ein Data Lake speichert und verwaltet als zentrales und abteilungsübergreifendes Repository sämtliche Daten aus verschiedenen Quellen in ihrem ursprünglichen Rohformat. Seien es strukturierte oder unstrukturierte Daten. Neben text- oder zahlenbasierten Daten kann der Data Lake auch Bilder, Videos oder andere Datenformate aufnehmen – es gibt keinerlei Einschränkung bei den Datentypen. Roh bedeutet, dass die Daten nicht bereinigt, validiert oder transformiert werden; es handelt sich tatsächlich um die Originaldaten im Originalformat. Die Daten können dabei in der Cloud liegen oder lokal gespeichert sein.

Vorteile eines Data Lake

Data Lakes bieten auch wegen des Speicherns der Daten im Rohformat gegenüber Data Warehouses mehrere Vorteile:

  • Die Rohdaten lassen sich einfach mit zusätzlichen Informationen aus beliebigen anderen Datenquellen anreichern, etwa mit Wetterdaten für Smart Grids, die mit Hilfe von IoT-Daten Stromerzeugung, Stromverbrauch und Stromspeicher gezielt steuern und beispielsweise Prognosen über die Strommenge von erneuerbaren Energien benötigen.
  • Data Lakes arbeiten mit Kopien der Daten, die Originaldaten werden nicht verändert.
  • Dadurch sind sie offen für zukünftige Entwicklungen, da sich damit auch Daten etwa von kommenden Sensoren mit geringem Aufwand für künftige, auch neuartige Analysen mit komplexen Algorithmen integrieren lassen. Das heißt: Die Datenbasis von Data Lakes lässt sich dank des Rohformats für jede mögliche künftige Form der Datenanalyse im IoT-Umfeld einsetzen. Es muss beim Speichern noch nicht klar sein, für welchen Zweck die Daten genau eingesetzt werden.
  • Effiziente Verarbeitung von großen Datenmengen und auch von IoT-Datenströmen.
  • Flexibilität: Da die Daten in Rohform vorliegen, werden sie erst bei Bedarf nach ihrer Relevanz für eine bestimmte Aufgabe gefiltert und zeitnah im richtigen Kontext für die geforderte Struktur aufbereitet.

Data Lake in der Cloud

Ein Data Lake in der Cloud zu betreiben bringt einige Vorteile. Wie bei allen Anwendungsfällen für Cloud Computing stehen auch hier die Faktoren flexible Skalierbarkeit und Nutzung nach Bedarf im Fokus. So kann sich eine Cloud-Lösung dynamisch an das Wachstum eines Data Lake anpassen und das Unternehmen zahlt stets nur für Speicherplatz und Rechenleistung nach konkreter Auslastung.

Warum ist das sinnvoll? Data Lakes wachsen schnell. Schon bald haben Unternehmen mehrere Terabyte bis Petabyte an strukturierten und unstrukturierten Daten, von denen nur ein Bruchteil überhaupt analysiert oder genutzt wird. Hier stoßen lokale Lösungen rasch auf Kapazitätsprobleme.

Eine spannende Option für ein Data Lake in der Cloud bietet zudem ein Multi-Cloud-Szenario. Wie oben bereits erwähnt, erlaubt ein Data Lake die Verteilung der Daten auf verschiedene Storage-Lösungen. Eine zentral gemanagte Multi-Cloud bietet genau diese Fülle an möglichen Speicherorten. So vermeiden Unternehmen nicht nur den vielzitierten Vendor Lock-in, sondern können auch ihre Cloud-Kosten noch weiter optimieren. Außerdem kann es die Verfügbarkeit und Sicherheit von Daten erhöhen, wenn diese an mehreren Orten verteilt liegen.

Data Warehouse und Data Lake ergänzen sich

Beim Data Lake liegt der Schwerpunkt eher auf der Integration vielfältiger Datenquellen bei möglichst hoher Flexibilität, beim Data Warehouse geht es eher um die Harmonisierung und Integration der Daten selbst. Das heißt: Die beiden Konzepte ergänzen einander und bedienen unterschiedliche Use Cases. Während das Data Warehouse sich vor allem für BI-Analysen und KPI-Reports sehr gut eignet, sind es beim Data Lake eher komplexere Analytics-Anwendungen mit Machine Learning, die auch IoT-Daten mit einbeziehen. Data Lakes können als zentrales Repository auch die Quelle für Data Warehouses bilden.

Über den Autor

Andreas Buhlmann verantwortet seit November 2022 als Senior Product Director das Storage Portfolio & Services sowie die dazugehörige Strategie bei plusserver. Das Leistungsportfolio umfasst neben hochstandardisierten Cloud-Storage-Produkten u.a. Themen wie Backup as a Service, Fileshare as a Service Strategien bis hin zum Betrieb von Storage Lösungen.

Weiterführende Inhalte

Blog

S3 Object Storage: Flexibel skalierbarer Cloud-Speicher

Object Storage unterstützt Unternehmen und Entwickler, große Datenmengen in einer skalierbaren Umgebung sicher zu speichern.
Warum plusserver

Datenhoheit

Fakten, Strategien und Lösungen rund um Datenhoheit in der Cloud.
Produkte

Storage & Backup

Hochsicher und verfügbar. Weil Ihr Business ohne Daten nicht läuft.