Hadoop Datentechnologien

Seminardauer: 3 Tage

Übersicht
Ziele
Zielgruppe
Voraussetzungen
Lernmethodik
Agenda

Ziele

In dieser 3-tägigen Schulung "Hadoop Datentechnologien" lernen Sie die aktuellen Entwicklungen im Bereich der strukturierten Daten und den wiedererwachten Stellenwert von SQL kennen. Der Fokus liegt auf den Komponenten im Hadoop-Ökosystem, wobei andere NoSQL-Datenbanken wie Cassandra oder MongoDB nicht behandelt werden. Dieser Kurs baut auf dem einführenden Seminar "Big Data Überblick" auf und dient als Bindeglied zu den Vertiefungs-Kursen "Apache HDFS", "Apache HBase", "Apache Hive", "Apache Spark Komplettkurs" und "Apache Impala", die mit vielen praktischen Übungen angereichert sind.

Zielgruppe

(IT-)Architekt
(IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung
Kenntnisse im Einsatz relationaler Datenbanken
Kenntnisse über Big Data

Lernmethodik

Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.

Agenda

Das Dateisystem HDFS – Die Basis

Das Kernstück von Hadoop ist ein leistungsstarkes, robustes und extrem skalierbares Dateisystem (HDFS). Die nachfolgend vorgestellten Komponenten setzen darauf auf, deshalb ist es wichtig, die Funktionsweise von HDFS zu verstehen und welche Möglichkeiten bestehen, den Durchsatz zu vergrößern und Zugriffszeiten zu minimieren. Dies wird anhand praktischer Demonstrationen verdeutlicht.

Die NoSQL-Datenbank HBase

HBase ist die am häufigsten zum Einsatz kommende Datenbank im Hadoop-Umfeld. Die Komponente ist deshalb sehr leistungsstark und entsprechend ausgereift.

HBase steht für den Typ NoSQL-Datenbank, weshalb sich Datenhaltung und Zugriff auf die Daten gänzlich anders darstellen als im relationalen Umfeld. Die Teilnehmer erhalten einen soliden Überblick, der mit zahlreichen praktischen Demos vertieft wird.

Accumulo – Die Alternative für HBase

Die HBase-Alternative Accumulo ist im Kern vergleichbar mit HBase, da sie ebenfalls Googles „Big Table“-Implementierung zum Vorbild hat. Allerdings unterscheidet sie sich in der Implementierung von der von HBase.

In diesem Abschnitt wird auf die Besonderheiten der Implementierung von Accumulo eingegangen und werden Beispiele aufgezeigt, wo der Einsatz von Accumulo Sinn macht.

Der Columnar Store Druid

Druid ist eine verteilte Datenbank, die auf einer spaltenorientierten Speicherung der Daten beruht. Die physische Architektur der Datenhaltung ist optimiert für typische Data Warehouse-Einsatzszenarien mit Filterbedingungen und Gruppierungen über Dimensionen, d.h. Daten werden spaltenorientiert und verdichtet in Segmenten abgespeichert.

Druid-Datenbanken können zeitnah aktualisiert und abgefragt werden. In diesem Abschnitt wird auf die Besonderheiten der Implementierung von Druid eingegangen und gezeigt, wie Druid eingesetzt werden kann.

Kudu – Die Alternative zu Druid

Kudu ist eine relativ junge Open Source-Datenbank, die von Cloudera initiiert wurde und deshalb eher im Umfeld der Hadoop-Distribution von Cloudera vorzufinden ist. Die Implementierung stellt eine gewisse Abkehr von dem sehr flexiblen Ansatz in HBase und Accumulo dar: Tabellen mit typdefinierten Spalten erlauben eine spaltenorientierte, hochverdichtete Speicherung der Daten. In Verbindung mit Impala ist darüber hinaus ein SQL-basierter Zugriff auf die Daten möglich.

HAWQ – Ein neuer Standard?

HAWQ, ursprünglich von Pivotal entwickelt und mittlerweile unter dem Dach der Apache Software Foundation als Open Source veröffentlich, ist ein verteilter Datenspeicher, der den nativen SQL-Zugriff erlaubt. HAWQ ist flexibler im Zugriff auf die Daten und besser am SQL-Standard orientiert als andere SQL-basierte Ansätze in Hadoop, allerdings ist der Aufwand dafür auch signifikant höher.

HAWQ kann recht gut in die Hadoop-Distribution von Hortonworks integriert werden, weshalb die Komponente eher in diesem Umfeld zu finden ist. Die Möglichkeiten von HAWQ werden demonstriert.

Hive – Der SQL-Klassiker in Hadoop

Hive ist der Klassiker für den SQL-basierten Zugriff auf strukturierte Daten in der verteilten Umgebung von Hadoop. Allerdings wird damit keine neue Datenhaltung eingeführt, sondern „nur“ eine Schnittstelle, die die Eingabe von SQL-artigen Abfragen gestattet. Unter der Haube wird die Abfrage in eine Stapelverarbeitung umgeformt, die mit MapReduce, Tez oder neuerdings auch Spark ausgeführt werden kann.

Hive wird vorgestellt und mit verschiedenen Ausführungsalternativen demonstriert.

Spark SQL – Die Abkürzung mit SQL

Spark hat sich sehr schnell zum Schweizer Taschenmesser im Hadoop-Ökosystem entwickelt. Kein Wunder, dass sich diese Engine auch für die Auswertung strukturierter Daten empfiehlt und zwar direkt mit SQL-Abfragen.

In diesem Abschnitt wird Spark SQL vorgestellt und demonstriert.

Phoenix – Aus NoSQL mach SQL

Phoenix ist ein logischer Layer über HBase, der als Erweiterung für Region Server implementiert ist und den Zugriff auf die NoSQL-Datenbank mittels SQL erlaubt. Dies ermöglicht mit einer vergleichsweise schlanken Erweiterung die Kombination der Vorzüge von HBase mit den Möglichkeiten von SQL.

In diesem Abschnitt wird Phoenix vorgestellt und demonstriert. Es werden die Möglichkeiten und Grenzen von Phoenix SQL aufgezeigt.

Impala – Der schnelle Sprinter

Impala, ursprünglich von Cloudera entwickelt und seit einiger Zeit als quelloffene Software unter dem Dach der Apache Software Foundation, geht noch einen Schritt weiter als Phoenix und stellt eine eigene, verteilte Infrastruktur für SQL-basierte Abfragen zur Verfügung. Impala ist deshalb nicht limitiert im Zugriff auf HBase, sondern kann auch mit Kudu sowie mit HDFS direkt kommunizieren.

In diesem Abschnitt wird Impala vorgestellt und demonstriert.

Zusammenfassung

Wer die Wahl hat, hat die Qual. In diesem Kurs wurde eine Vielzahl von möglichen Ansätzen vorgestellt, um strukturierte Daten im Hadoop-Cluster abzuspeichern und abzufragen. In dieser Zusammenfassung wird ein Leitfaden vorgestellt, der helfen kann, die richtige Komponente für die jeweilige Aufgabenstellung auszuwählen.

Open Badge - Ihr digitaler Kompetenznachweis

Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erlangen Sie nicht nur Fachkenntnisse und Fähigkeiten, sondern bekommen zusätzlich zu Ihrem Teilnahmezertifikat ein Open Badge als digitalen Nachweis Ihrer Kompetenz.

Sie können diesen in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com Konto abrufen. Ihre verdienten Badges lassen sich problemlos in sozialen Netzwerken integrieren und weitergeben.

Mehr zu den Vorteilen von Badges

Kurz vor Durchführung

Termin	Standort	Aktion
06.05. - 08.05.2024	Hamburg	Seminar jetzt anfragen
10.06. - 12.06.2024	München	Seminar jetzt anfragen
09.07. - 11.07.2024	Köln	Seminar jetzt anfragen
13.08. - 15.08.2024	Nürnberg	Seminar jetzt anfragen

Hadoop Datentechnologien

Ziele

Zielgruppe

Voraussetzungen

Lernmethodik