Was ist ein Data Lake?
            

Mit einem IoT Data Lake können Sie, Ihre IoT-Daten langfristig speichern. Später können Sie für historische Analysen auf Ihre IoT-Daten zugreifen. Das Auslagern in einen IoT Data Lake ermöglicht es Ihnen, nicht nur Erkenntnisse aus Daten zu generieren, sondern sie aufzubauen und zu erhalten. Sie können Daten kostengünstig speichern und diese Daten nutzen, ohne die Leistungsfähigkeit Ihrer IoT-Lösung zu beeinträchtigen. Mit historische Analysen in einem IoT Data Lake können Sie:

  • IoT-Daten in einer historischen Übersicht anzeigen und langfristige Trends ermitteln
  • Modelle für Machine Learning (ML) trainieren
  • Änderungen an Fertigungslinien planen

Mit historischer Analytik können Sie Fragen beantworten wie:

  • "Wann ist das zuletzt passiert?"
  • "Wo und wie oft ist das schon vorgekommen?"
  • "Was ist der Durchschnittswert der Messung dieses Geräts über alle Fabriken hinweg über einen bestimmten Zeitraum?"

Wenn Sie historische Analysen zusammen mit Streaming-Analysen in Echtzeit anwenden, können Sie Ihre Prozesse außerdem feinabstimmen. Zum Beispiel können Sie Ihre Versandprozesse verbessern, indem Sie aus vergangenen Sendungen lernen. Oder Trends auswertenund so Geräte zu identifizieren, die eine proaktive Wartung benötigen, und Ausfälle im Betrieb verhindern.

Ein Maschinenbauunternehmen, das Verbrennungsmotoren entwickelt und testet, kombiniert beispielsweise Echtzeit-IoT-Daten mit historischen Daten, um seinen Kunden einzigartige Einblick zu geben. Auf der Grundlage dieser Analyse gibt das Unternehmen Empfehlungen, wie seine Kunden die Betriebsleistung verbessern und Geld sparen können.

Wichtige Überlegungen
Stellen Sie bei der Wahl eines Data Lake für IoT Analytics folgende Fragen:

  • Können Sie Daten On-Premise und an der Edge speichern?
  • Bietet Ihnen ein Data Lake Auswahlmöglichkeiten bei der Speicherung?
  • Wie lange können Sie operative Daten speichern? Bei einigen IoT-Plattformen werden Daten nur für eine begrenzte Zeit aufbewahrt, z. B. für zwei Wochen.
  • Wie viel kostet die Speicherung?
  • Ist der Data Lake für große Datenmengen ausgelegt?
  • Wurde der Data Lake für Datenanalysen oder das Trainieren von ML-Modellen optimiert?
  • Werden verschiedene Business-Intelligence-, Machine-Learning- und SQL-basierte Tools unterstützt?
  • Gibt die Lösung Datenarchitekten die erforderliche Flexibilität und Kontrolle und können Mitarbeiter per Self-Service auf ihre IoT-Daten zugreifen?

Vorteile eines Data Lake für IoT Analytics

Heben Sie das Potential Ihrer IoT-Daten mit dem Cumulocity IoT DataHub von Software AG. Mit DataHub schließen Sie die Lücke zwischen Streaming Analytics und historischen Analysen. Dies vereinfacht die Prozesse für IT-Administratoren und ermöglicht es Ihrem Unternehmen, neue Erkenntnisse über Prozesse und Performance zu gewinnen.

Einfachere Verwaltung der langfristigen Datenspeicherung
DataHub extrahiert in regelmäßigen Abständen Daten aus Ihrem operativen On-Premise- oder Edge-Datenspeicher, wandelt sie in ein kompaktes Format für effiziente analytische Abfragen um und legt sie in einem Analysespeicher im Data Lake ab. DataHub unterstützt eine Vielzahl von Geräten und speichert bei jedem Export alle Alarm-, Ereignis-, Mess- und Bestandsdaten Ihrer Geräte im Data Lake.

Niedrigere Kosten für die Speicherung von IoT-Daten
Hosten Sie den Analysespeicher bei Amazon® S3 oder Microsoft® Azure® Data Lake Storage. Die cloudbasierte Speicherung reduziert Ihre Kosten für die Erstellung und Verwaltung eines Data Lake drastisch. DataHub unterstützt außerdem Dateisystemspeicher und das Hadoop® Distributed File System (HDFS).

Skalierbare SQL-Abfragen Ihrer langfristigen IoT-Daten
Wie Cumulocity IoT unterstützt auch DataHub IoT-Lösungen, die beliebig viele Geräte umfassen, und passt sich flexibel an die jeweils erzeugten Datenmengen an. Zur Analyse dieser Datenflut verwendet DataHub die Abfragesprache SQL, die bereits seit Jahrzehnten erprobt und die Lingua Franca der Datenverarbeitung ist. Mit SQL wandeln sie Rohdaten aus den IoT-Geräten schnell in aussagekräftige Informationen um.

Standardschnittstellen zu BI- und Data-Science-Tools
DataHub fungiert als Integrationsebene und ermöglicht leistungsstarke SQL-Abfragen historischer IoT-Daten, die mit einer Vielzahl von Anwendungen für Business Intelligence, Analytics oder Machine-Learning-Training oder mit anderen Kundenanwendungen auf Basis von Standards wie Arrow Flight, JDBC®, ODBC, REST und SQL verwendet werden können.

Wie ein Data Lake funktioniert

Daten auslagern
Cumulocity IoT DataHub verschiebt Ihre IoT-Daten aus einem operativen Speicher in Cumulocity IoT in einen Data Lake, um IoT-Rohdaten in ein strukturiertes, komprimiertes Format umzuwandeln, das für eine effiziente SQL-Abfrage benötigt wird und die Grundlage für Reports und Analytics ist. Dieser "Offloading"-Prozess hilft Ihnen, ein kostengünstiges und langfristiges Archiv von Gerätedaten aufzubauen.

Wie sehen die Daten im Data Lake aus? Die transformierten, tabellarischen Daten werden im Apache Parquet™-Format gespeichert, das Ihnen eine analysefreundliche und speichereffiziente spaltenförmige Darstellung Ihrer Daten bietet. Apache Parquet ist das De-facto-Standard-Datenformat für"Big Data"-Werkzeuge. Das gibt Ihnen die Freiheit , die Daten zusätzlich zum Cumulocity IoT DataHub mit Werkzeugen wie Apache Spark™ zu verarbeiten. Unter Berücksichtigung gängiger Analysemuster ordnet Cumulocity IoT DataHub die Parquet-Dateien in einer zeitlichen Ordnerhierarchie an. Zusätzliche Housekeeping-Mechanismen im Hintergrund verdichten regelmäßig kleinere Parquet-Dateien, was die Gesamtabfrageleistung steigert (wie wir dies von der Defragmentierung einer Festplatte von früher kennen).

Sobald das Offloading abgeschlossen ist, können Sie Ihre Daten in hohern Geschwindigkeit mit Ihren bevorzugten BI- und Data Science-Tools analysieren und Erkenntnisse daraus ziehen. Sie können wertvolle Einblicke in Ihr Geschäft gewinnen und die Informationen mit denen aus anderen Geschäftssystemen integrieren.

Kombinieren Sie Einblicke aus Geschäftssystemen mit IoT-Daten
Cumulocity IoT DataHub ermöglicht es Ihnen, Ihre BI-Abfrage- und Reporting-Tools mit Ihren IoT-Daten zu verbinden, so dass Sie alle Arten von leistungsstarken Geschäftseinblicken aus den Daten gewinnen können. Es bietet SQL als Abfrageschnittstelle, das die Lingua Franca der Datenverarbeitung und -analyse ist. Dremio™ ist die interne Engine, die die SQL-Abfragen ausführt. Aufgrund seiner hohen Skalierbarkeit kann Dremio problemlos viele analytische Abfragen bewältigen.

Mit Cumulocity IoT DataHub können Sie schnell das Tool oder die Anwendung Ihrer Wahl verbinden:

  • BI-Tools über JDBC oder ODBC
  • Data-Science-Anwendungen mit Python®-Skripten, die sich über ODBC verbinden
  • Benutzerdefinierte Anwendungen mit JDBC für das Java®-Ökosystem, ODBC für .NET, Python usw. und REST für (Cumulocity IoT-)Webanwendungen

Training von Machine-Learning-Modellen
Heutzutage ist maschinelles Lernen eine beliebte Art, um tiefere Einblicke in Geschäfts- und Produktionsprozesse zu gewinnen. Je mehr Daten Sie haben, desto zuverlässiger werden die Erkenntnisse aus Ihren Machine-Learning-Modellen sein. Cumulocity IoT DataHub bereitet den Boden für das Training komplexer Machine-Learning-Modelle, indem es die Gesamtheit Ihrer IoT-Daten in einem gut strukturierten und analysefreundlichen Format verfügbar macht. Schließen Sie einfach Ihr bevorzugtes Data-Science-Tool über ODBC, JDBC oder REST an, und beginnen Sie mit der Verarbeitung Ihrer Daten. Sie können z. B. ein Modell auf die Fehlerzustände eines Ventils trainieren, um zu erfahren, welche Faktoren darauf hinweisen, dass das Ventil bald ausfallen wird. Dann nutzen Sie diese Erkenntnisse in Kombination mit Ihren aktuellen Live-Daten in Cumulocity IoT, um ein Ventil proaktiv auszutauschen, bevor es ausfällt. Dies ist die große Stärke der Kombination von Live-Daten mit historischen Daten.

Cumulocity IoT DataHub Architektur

Cumulocity IoT DataHub bietet folgendes:

  • Automatisches Verschieben von Daten aus dem operativen Datenspeicher in einen Data Lake
  • Komprimierte Daten in einem analysefreundlichen Layout zu speichern
  • Komplexe analytische Abfragen mit hoher Geschwindigkeit auszuführen
  • Einfache Skalierung mit der Menge der zu verarbeitenden IoT-Daten - eine Säule dieser Architektur ist die Trennung von Speicher- und Rechenfunktionen

Mit Cloud Data Lakes können Sie Ihren Datenspeicherbedarf einfach mit dem Wachstum Ihrer Daten von IoT-Sensoren skalieren. Cumulocity IoT DataHub stellt sicher, dass die Daten innerhalb einer zeitlichen Ordnung gut strukturiert sind und durch interne Housekeeping-Mechanismen ergänzt werden, die kompakte Dateidarstellungen gewährleisten. Cumulocity IoT DataHub nutzt Dremio, um Daten in den Data Lake zu verschieben. Dremio ist auch für die Ausführung von Abfragen auf diesem Data Lake zuständig. Durch den Einsatz innovativer Technologien wie Apache Arrow™, Reflections und Columnar Cloud Cache liefert Dremio eine erstklassige Abfrageleistung. Durch die Skalierung der Dremio-Knoten können Sie immer größere Mengen an IoT-Daten in Sekundenschnelle verarbeiten.

Cumulocity IoT DataHub ist als Cloud-native Anwendung konzipiert, bei der alle Komponenten als Microservices/Container in Kubernetes®-Clustern in privaten oder öffentlichen Clouds laufen. Was aber wenn Sie eine lokale Verarbeitung benötigen? Im Shop Floor sind IoT-Geräte oft mit lokalen Rechnern statt mit einer Cloud-Plattformen verbunden und führen lokale Verarbeitung durch, anstatt alle Daten in die Cloud zu verschieben. Cumulocity IoT DataHub bedient diese Anwendungsfälle durch die Bereitstellung einer Edge-Ausgabe. Als Speicherschicht nutzt Cumulocity IoT DataHub Edge den lokalen Speicher des Edge-Geräts. Ansonsten bietet Cumulocity IoT DataHub Edge die gleichen Funktionen wie die Cloud-Edition, mit Ausnahme der horizontalen Skalierbarkeit.

Was Kunden über Cumulocity IoT DataHub sagen
„Mit Cumulocity IoT DataHub konnten wir unseren Kunden ganz neue Analysemöglichkeiten eröffnen. Dank zahlreicher neuer Analysefunktionen können unsere Maschinenführer jetzt viel effizienter arbeiten“, erklärt Michael Schultheis von Dürr Somac.

Software AG und alle Produkte der Software AG sind entweder Marken oder eingetragene Marken der Software AG. Andere Produkte und Namen von Unternehmen, auf die Bezug genommen wird, sind möglicherweise Marken der jeweiligen Unternehmen.
ICS JPG PDF WRD XLS