Header Background
Virtual Classroom Schulungen
 
 
 
seminar logo

Hadoop Datentechnologien

Seminardauer: 3 Tage

Ziele

Mit der allgemeinen Verfügbarkeit von Hadoop schien eine Epoche Vergangenheit zu werden - Das Ende des Datenbank-Zeitalters wurde eingeläutet, weil die Welt wohl keine Datenstrukturen mehr sehen wollte.

Inzwischen hat sich das Bild grundsätzlich geändert. Strukturierte Daten haben mehr denn je ihre Berechtigung und auch das totgesagte SQL feierte eine Wiederauferstehung. Es vergeht kein Jahr, in dem nicht neue Ansätze für die Speicherung und den Zugriff auf strukturierte Daten vorgestellt werden. Mittlerweile ist das Angebot ziemlich unübersichtlich geworden.

In diesem Kurs wird ausschließlich auf Komponenten im Hadoop-Ökosystem eingegangen, weshalb andere wichtige Datenbanken wie beispielsweise Cassandra oder MongoDB hier nicht reflektiert werden. Für diese NoSQL-Datenbanken wird auf den Kurs „NoSQL Überblick“ bzw. die entsprechenden Vertiefungs-Kurse verwiesen.

Dieser Kurs setzt auf dem einführenden Seminar „Big Data Überblick“ auf und versteht sich als Bindeglied zu den tiefer ins Detail gehenden und mit vielen praktischen Übungen für die Teilnehmer angereicherten Kursen „Apache HDFS Vertiefung“, „Apache HBase Vertiefung“, „Apache Hive Vertiefung“, „Apache Spark Vertiefung“ und „Apache Impala Vertiefung“.

Weitere Seminarinfos:

  • Schwierigkeitsgrad: 200
  • Darreichung: PowerPoint-Präsentation, Live-Demos.
  • Materialien: Präsentation in elektronischer Form (Format .PDF).
  • Credits: Ja (Credits für die Zertifizierung)

Zielgruppe

(IT-)Architekt, (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse im Einsatz relationaler Datenbanken sowie Kenntnisse über Big Data werden vorausgesetzt.

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg

b. Big Data Technologien, Strategien und Trends

c. Hortonworks HDP Einstieg

d. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Apache HDFS Vertiefung

b. Apache HBase Vertiefung

c. Apache Spark Vertiefung

d. Apache Impala Vertiefung

Agenda

Das Dateisystem HDFS – Die Basis

Das Kernstück von Hadoop ist ein leistungsstarkes, robustes und extrem skalierbares Dateisystem (HDFS). Die nachfolgend vorgestellten Komponenten setzen darauf auf, deshalb ist es wichtig, die Funktionsweise von HDFS zu verstehen und welche Möglichkeiten bestehen, den Durchsatz zu vergrößern und Zugriffszeiten zu minimieren. Dies wird anhand praktischer Demonstrationen verdeutlicht.

Die NoSQL-Datenbank HBase

HBase ist die am häufigsten zum Einsatz kommende Datenbank im Hadoop-Umfeld. Die Komponente ist deshalb sehr leistungsstark und entsprechend ausgereift.

HBase steht für den Typ NoSQL-Datenbank, weshalb sich Datenhaltung und Zugriff auf die Daten gänzlich anders darstellen als im relationalen Umfeld. Die Teilnehmer erhalten einen soliden Überblick, der mit zahlreichen praktischen Demos vertieft wird.

Accumulo – Die Alternative für HBase

Die HBase-Alternative Accumulo ist im Kern vergleichbar mit HBase, da sie ebenfalls Googles „Big Table“-Implementierung zum Vorbild hat. Allerdings unterscheidet sie sich in der Implementierung von der von HBase.

In diesem Abschnitt wird auf die Besonderheiten der Implementierung von Accumulo eingegangen und werden Beispiele aufgezeigt, wo der Einsatz von Accumulo Sinn macht.

Der Columnar Store Druid

Druid ist eine verteilte Datenbank, die auf einer spaltenorientierten Speicherung der Daten beruht. Die physische Architektur der Datenhaltung ist optimiert für typische Data Warehouse-Einsatzszenarien mit Filterbedingungen und Gruppierungen über Dimensionen, d.h. Daten werden spaltenorientiert und verdichtet in Segmenten abgespeichert.

Druid-Datenbanken können zeitnah aktualisiert und abgefragt werden. In diesem Abschnitt wird auf die Besonderheiten der Implementierung von Druid eingegangen und gezeigt, wie Druid eingesetzt werden kann.

Kudu – Die Alternative zu Druid

Kudu ist eine relativ junge Open Source-Datenbank, die von Cloudera initiiert wurde und deshalb eher im Umfeld der Hadoop-Distribution von Cloudera vorzufinden ist. Die Implementierung stellt eine gewisse Abkehr von dem sehr flexiblen Ansatz in HBase und Accumulo dar: Tabellen mit typdefinierten Spalten erlauben eine spaltenorientierte, hochverdichtete Speicherung der Daten. In Verbindung mit Impala ist darüber hinaus ein SQL-basierter Zugriff auf die Daten möglich.

HAWQ – Ein neuer Standard?

HAWQ, ursprünglich von Pivotal entwickelt und mittlerweile unter dem Dach der Apache Software Foundation als Open Source veröffentlich, ist ein verteilter Datenspeicher, der den nativen SQL-Zugriff erlaubt. HAWQ ist flexibler im Zugriff auf die Daten und besser am SQL-Standard orientiert als andere SQL-basierte Ansätze in Hadoop, allerdings ist der Aufwand dafür auch signifikant höher.

HAWQ kann recht gut in die Hadoop-Distribution von Hortonworks integriert werden, weshalb die Komponente eher in diesem Umfeld zu finden ist. Die Möglichkeiten von HAWQ werden demonstriert.

Hive – Der SQL-Klassiker in Hadoop

Hive ist der Klassiker für den SQL-basierten Zugriff auf strukturierte Daten in der verteilten Umgebung von Hadoop. Allerdings wird damit keine neue Datenhaltung eingeführt, sondern „nur“ eine Schnittstelle, die die Eingabe von SQL-artigen Abfragen gestattet. Unter der Haube wird die Abfrage in eine Stapelverarbeitung umgeformt, die mit MapReduce, Tez oder neuerdings auch Spark ausgeführt werden kann.

Hive wird vorgestellt und mit verschiedenen Ausführungsalternativen demonstriert.

Spark SQL – Die Abkürzung mit SQL

Spark hat sich sehr schnell zum Schweizer Taschenmesser im Hadoop-Ökosystem entwickelt. Kein Wunder, dass sich diese Engine auch für die Auswertung strukturierter Daten empfiehlt und zwar direkt mit SQL-Abfragen.

In diesem Abschnitt wird Spark SQL vorgestellt und demonstriert.

Phoenix – Aus NoSQL mach SQL

Phoenix ist ein logischer Layer über HBase, der als Erweiterung für Region Server implementiert ist und den Zugriff auf die NoSQL-Datenbank mittels SQL erlaubt. Dies ermöglicht mit einer vergleichsweise schlanken Erweiterung die Kombination der Vorzüge von HBase mit den Möglichkeiten von SQL.

In diesem Abschnitt wird Phoenix vorgestellt und demonstriert. Es werden die Möglichkeiten und Grenzen von Phoenix SQL aufgezeigt.

Impala – Der schnelle Sprinter

Impala, ursprünglich von Cloudera entwickelt und seit einiger Zeit als quelloffene Software unter dem Dach der Apache Software Foundation, geht noch einen Schritt weiter als Phoenix und stellt eine eigene, verteilte Infrastruktur für SQL-basierte Abfragen zur Verfügung. Impala ist deshalb nicht limitiert im Zugriff auf HBase, sondern kann auch mit Kudu sowie mit HDFS direkt kommunizieren.

In diesem Abschnitt wird Impala vorgestellt und demonstriert.

Zusammenfassung

Wer die Wahl hat, hat die Qual. In diesem Kurs wurde eine Vielzahl von möglichen Ansätzen vorgestellt, um strukturierte Daten im Hadoop-Cluster abzuspeichern und abzufragen. In dieser Zusammenfassung wird ein Leitfaden vorgestellt, der helfen kann, die richtige Komponente für die jeweilige Aufgabenstellung auszuwählen.

Schulungsunterlagen

nach Absprache

Hinweise

HADOOP Schulungen


Open Badges - Ihre digitalen Kompetenznachweise

Digital Skills Open Badges

Mit einer erfolgreichen Teilnahme an einer Schulung bei IT-Schulungen.com erwerben Sie nicht nur Wissen und Kompetenz, sondern erhalten auch zusätzlich zum Teilnahmezertifikat Ihr Open Badge als digitalen Kompetenznachweis.

Diesen erhalten Sie in Ihrem persönlichen und kostenlosen Mein IT-Schulungen.com Account. Ihre erworbenen Badges können Sie anschließend in sozialen Medien einbinden und teilen.

Infos zu den Vorteilen unter Badges

 
Anmeldungen vorhanden

1.) Wählen Sie den Seminartyp:




2.) Wählen Sie Ort und Datum:

1.595,00 € Preis pro Person

spacing line1.898,05 € inkl. 19% MwSt
Verpflegung zzgl.
Seminarunterlagen zzgl.

Seminar jetzt anfragen Auf den Merkzettel
PDF IconPDF Icon

Digitale Zertifikate

Digital Skills Open Badge

Digitales Wissen & Kompetenzen erwerben & zeigen.

Mit Badges von IT-Schulungen erhalten Sie - neben dem Teilnahmezertifikat als PDF - ein Open Badge als Nachweis Ihrer Fertigkeiten mit Echtheitszertifikat.

Zeigen Sie Ihre Digital Skills mit Zertifikaten auf Plattformen wie LinkedIn, XING & Facebook, auf Ihrer Website und in E-Mail-Signaturen.

Mehr Infos zu Badges

 

Diese Seite weiterempfehlen:

0
Merkzettel öffnen
0
Besuchsverlauf ansehen
IT-Schulungen.com Control Panel
Warnung Icon Sie haben in Ihrem Browser Javascript deaktiviert! Bitte aktivieren Sie Javascript um eine korrekte Darstellung und Funktionsweise von IT-Schulungen zu gewährleisten. Warnung Icon