Was sind Data Lakes?

Veröffentlicht 16. September 2019 •

Ein Data Lake ist eine Art Daten-Repository, mit dem umfassende und unterschiedliche Rohdaten in ihrem nativen Format gespeichert werden können. Er bietet eine Rohansicht Ihrer Daten. Diese Technologie verbreitet sich zunehmend als Datenverwaltungsstrategie von Unternehmen, die ein großes und umfassendes Repository für ihre Daten benötigen.

Rohdaten sind Informationen, die noch zu keinem bestimmten Zweck verarbeitet worden sind. Daten in einem Data Lake werden erst dann strukturiert, wenn sie erstmals abgefragt werden. Data Scientists können bei Bedarf auf Rohdaten zugreifen, und zwar indem sie fortschrittliche Analyse-Tools oder prädiktive Modelle nutzen.

Bei der Verwendung von Data Lakes bleiben sämtliche Informationen erhalten und werden vor der Speicherung weder entfernt noch gefiltert. Die Daten können in naher oder ferner Zukunft oder gar nicht analysiert werden.Sie können aber auch viele Male zu verschiedenen Zwecken eingesetzt werden. Dahingehend ist bei Daten, die für einen spezifischen Zweck strukturiert oder formatiert wurden, eine anderweitige Nutzung praktisch ausgeschlossen.

Der Begriff „Data Lake" wurde von James Dixon, Chief Technology Officer von Pentaho, geprägt. Die Beschreibung dieses Datenspeichertyps als „Lake" macht Sinn, weil damit ein Pool an Daten in seinem natürlichem Zustand gespeichert wird, ähnlich einem Gewässer, das nicht gefiltert oder auf irgendeine Weise kanalisiert wurde. Daten fließen aus unterschiedlichen Quellen in den Data Lake und werden dort im Originalformat gespeichert.

Sie werden erst dann transformiert, wenn sie für eine Analyse benötigt werden und dann ein Schema angewendet wird. Man nennt das auch „Schema on Read" (Schema beim Lesen), weil Daten bis zur Nutzung im Rohzustand verbleiben.

Mithilfe von Data Lakes können Nutzerinnen und Nutzer auf Daten zugreifen und sie auf individuelle Art und Weise analysieren, ohne sie in ein anderes System verschieben zu müssen. Erkenntnisse und Berichte aus diesen Data Lakes werden üblicherweise ad hoc generiert, das heißt, es werden keine regelmäßigen Analyseberichte von anderen Plattformen oder Datenspeichern abgerufen. Allerdings können Nutzerinnen und Nutzer ein Schema und eine Automatisierung anwenden, um einen Bericht bei Bedarf zu duplizieren.

Data Lakes müssen geschützt und regelmäßig gewartet werden, damit die darin enthaltenen Daten nutzbar und zugänglich bleiben. Ohne diese Instandhaltung riskieren Sie, dass Ihre Informationen unzugänglich, unhandlich, teuer und nutzlos, also zu Datenmüll werden. Data Lakes, die für Nutzende nicht mehr zugänglich sind, nennt man auch „Data Swamps" oder Datensümpfe.

Mehr über Data Storage erfahren

Data Lakes verfügen über eine flache Architektur, weil die Daten unstrukturiert, teils strukturiert oder strukturiert sein und aus verschiedenen Quellen der gesamten Organisation erfasst werden können. Data Warehouses dagegen speichern Informationen in Dateien oder Verzeichnissen. Data Lakes können lokal oder in der Cloud ausgeführt werden.

Wegen ihrer Architektur bieten sie eine Skalierbarkeit bis in den Exabyte-Bereich hinein. Dies ist ein wichtiger Aspekt, denn bei der Erstellung eines Data Lakes wissen Sie im Allgemeinen nicht im Voraus, welches Datenvolumen gespeichert werden soll. Mit traditionellen Datenspeichersystemen ist eine solche Skalierung nicht möglich.

Die Architektur von Data Lakes kommt Data Scientists zugute, denn sie können damit Daten-Mining und -analysen im gesamten Unternehmen durchführen, Daten teilen und Querverweise erstellen (auch heterogene Daten aus unterschiedlichen Geschäftsfeldern), Fragen stellen und neue Erkenntnisse sammeln. Dazu können sie Big Data-Analysen und maschinelles Lernen nutzen, um die Informationen in einem Data Lake zu untersuchen.

Auch wenn Informationen vor der Speicherung in einem Data Lake noch über kein festes Schema verfügen, müssen die Daten dennoch geschützt und gesteuert werden, um Datensümpfe zu vermeiden. Daten sollten bei einem solchen Vorgang immer zuerst mit Metadaten getaggt werden, damit später auf sie zugegriffen werden kann.

Optimierung des Managements von KI/ML-Anwendungen

In dieser Webcast-Reihe erfahren Sie von Fachleuten, wie das Deployment und Lifecycle-Management von KI/ML-Anwendungen (Künstliche Intelligenz/maschinelles Lernen) vereinfacht werden, damit Sie ML-Modelle und KI-Apps schneller erstellen und freigeben können.

On-Demand ansehen

Mit den offenen Lösungen von Red Hat, die Software-Defined Storage (SDS) nutzen, können Sie ein größeres Arbeitsvolumen bewältigen und ein schnelleres Wachstum realisieren − und sich dabei darauf verlassen, dass Ihre Daten, von wichtigen Finanzdokumenten bis hin zu Rich Media-Dateien, jederzeit sicher gespeichert werden.

Mit skalierbarem, kostengünstigem Software-Defined Storage lassen sich riesige Data Lakes analysieren und so wertvolle geschäftliche Erkenntnisse gewinnen. Die SDS-Lösungen von Red Hat basieren auch auf Open Source und profitieren damit von einer innovativen Community aus Entwicklerinnen und Entwicklern, Partnern und Kunden. Dadurch können Sie exakt steuern, wie Ihr Storage entsprechend Ihren unternehmensspezifischen Workloads, Umgebungen und Erfordernissen formatiert und verwendet werden soll.

Storage-Lösungen mit Red Hat erkunden

Weiterlesen

Erfahren Sie, was Software Defined Storage ist und wie Sie eine Red Hat SDS-Lösung implementieren können, die Ihnen ausreichend Flexibilität zum Verwalten, Speichern und Teilen von Daten bietet.

Unter Cloud Storage versteht man eine vom Speicherort unabhängige Organisation von Daten, auf die jeder Nutzer mit den entsprechenden Rechten über das Internet zugreifen kann. Erfahren Sie mehr darüber.

Datenservices sind Sammlungen kleiner, unabhängiger und lose gekoppelter Funktionen, die in Data Storage Volumes gesammelte und gespeicherte Informationen verbessern, organisieren, teilen oder berechnen.

Mehr über Storage erfahren

Produkte

Softwaredefinierter Storage sorgt für einen permanenten Datenspeicher, während Container in mehreren Umgebungen hoch- und heruntergefahren werden.

Ein offenes, stark skalierbares SDS-System (Software-Defined Storage) für die effiziente Verwaltung von Daten im Petabyte-Bereich.

Ressourcen

Vereinfachtes Storage-Management mit den Produkten und dem zertifizierten Partnernetzwerk von Red Hat

Die wichtigsten Überlegungen zu cloudnativen Datenbanken und Datenanalysen

Die wichtigsten Gründe für die Ausführung von SAP-Lösungen auf Infrastruktur von Red Hat und IBM

CASE STUDY

Turkcell entwickelt Unified Telco Cloud mit NFV-Lösung von Red Hat

Plattformen

Testen und kaufen

Empfohlen

Nach Kategorie

Nach Branche

Kunden

Services

Training & Zertifizierung

Empfohlen

Themen

Artikel

Mehr erfahren

Für Kunden

Für Partner

Über Red Hat

Open Source

Informationen zum Unternehmen

Communities

Empfehlungen

Wählen Sie eine Sprache

Wählen Sie eine Sprache

Optimierung des Managements von KI/ML-Anwendungen

Produkte

Verwandte Artikel

Ressourcen

ANALYSTENBERICHT

WHITEPAPER

DATENBLATT

Produkte

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Wählen Sie eine Sprache

Red Hat legal and privacy links

Red Hat legal and privacy links