Warnung Icon Sie haben in Ihrem Browser Javascript deaktiviert! Bitte aktivieren Sie Javascript um eine korrekte Darstellung und Funktionsweise von IT-Schulungen zu gewährleisten. Warnung Icon
Header Background

Seminar Digital Transformation Manager

09.12.-12.12.2019 in Nürnberg

Seminar Professionelle Führung von IT-Teams

06.11.-07.11.2019 in Nürnberg

Seminar Digitale Transformation in Unternehmen - der Einstieg

19.11.-20.11. 2019 in Nürnberg

Header Image
 
 
 

Apache Impala

Seminardauer: 3 Tage
zur unverbindlichen Anfrage

Ziele

Apache Impala wurde bei Cloudera in Anlehnung an Google F1 erdacht und im Herbst 2016 an die Open-Source-Gemeinde übergeben.

Im Kern handelt es sich um eine SQL-basierte Query-Engine, die sich allerdings signifikant von der aus relationalen Datenbanken bekannten Komponente unterscheidet, weil sie tief in das Hadoop-Ökosystem integriert ist und eine verteilte Arbeitsweise unterstützt.

In diesem Kurs machen sich die Teilnehmer mit den Besonderheiten dieses mächtigen Werkzeuges vertraut und erhalten das notwendige Rüstzeug, um Impala erfolgreich einsetzen zu können.

Da unter Hortonworks HDP die Installation von Impala offiziell nicht unterstützt wird, wird dieser Kurs nur auf der Plattform Cloudera CDH angeboten.

Schwierigkeitsgrad: 300

Darreichung: PowerPoint-Präsentation, Live-Demos sowie eigenständige Übungen (Labs) der Teilnehmer. Der Anteil eigenständiger Übungen beträgt etwa 50 %.

Materialien: Präsentation in elektronischer Form (Format .PDF). Übungsunterlagen in gedruckter und elektronischer Form.

Die für die Übungen erforderliche IT-Infrastruktur wird in virtualisierter Form bereitgestellt.

Credits: Ja (Credits für die Zertifizierung)

Zielgruppe

(IT-)Architekt, (IT-)Entwickler

Voraussetzungen

Praktische Erfahrung in der IT-Informationsverarbeitung erforderlich. Kenntnisse im Einsatz relationaler Datenbanken sowie Kenntnisse über Big Data werden vorausgesetzt.

Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:

1) Einstiegs-Seminare (Schwierigkeitsgrad 100)

a. Big Data Einstieg

b. Big Data Technologien, Strategien und Trends

c. Cloudera CDH Einstieg

2) Überblicks-Seminare (Schwierigkeitsgrad 200)

a. Big Data Architekturen Überblick

b. Hadoop Datentechnologien Überblick

c. NoSQL Überblick

Folgende Kurse können darüber hinaus dieses Angebot ergänzen:

3) Vertiefungs-Kurse (Schwierigkeitsgrad 300)

a. Apache Hive Vertiefung

b. Apache HBase Vertiefung

c. Apache Hadoop und Java – Vertiefung

d. Data Scientist Methoden Vertiefung

4) Spezialisierungskurse (Schwierigkeitsgrad 400)

a. Data Scientist Tools Vertiefung

b. Data Engineer Tools Vertiefung

Agenda

Strukturen – Die Architektur von Impala

Apache Impala besitzt nicht die klassische Master-/Worker-Struktur wie viele andere Hadoop-Komponenten, sondern agiert mit dynamischen Koordinator-Strukturen.

Die Teilnehmer lernen die verschiedenen Rollen der Impala-Komponenten wie Query-Coordinator, Query-Executor, Statestore und Catalog Service kennen und wie man diese in einem Hadoop-Cluster konfiguriert.

Storage und Access – Metadaten und Datenzugriff mit Impala

Impala unterstützt verschiedene Formate wie Delimited Text, Parquet, Avro, SequenceFile oder RCFile im verteilten Dateisystem HDFS sowie den direkten Zugriff auf die Datenbanken HBase und Kudu. Darüber hinaus ist eine Interaktion mit Hive über den gemeinsamen Metastore möglich. Alternativ können Daten direkt aus der Cloud angesprochen werden.

Impala verwendet verschiedene Techniken zur Beschleunigung der Abfragen, die auf einer genauen Kenntnis der zugrundeliegenden Metadaten basieren, die für den schnellen Zugriff im Speicher vorgehalten werden.

In diesem Modul machen sich die Teilnehmer mit den grundsätzlichen Datenformaten vertraut, die mit Impala angesprochen werden können.

Praxis 1 – Der Zugriff auf Daten mit Impala

In diesem Abschnitt lernen die Teilnehmer verschiedene Möglichkeiten kennen, um die Query Engine von Impala zu aktivieren. Dazu wird der Zugriff über die Kommandozeile, über ein Browserbasiertes User Interface sowie über die ODBC-Schnittstelle evaluiert.

Praxis 2 – Die SQL-Abfragesprache in Impala

Die Teilnehmer loten die Möglichkeiten der SQL-Abfragesprache in Impala aus und lernen die Unterschiede zur SQL-ähnlichen Abfragesprache von Hive lernen. Die Besonderheiten im Umgang mit Tabellen aus Kudu oder HBase werden herausgearbeitet.

Impala kennt komplexe Datentypen wie ARRAY, MAP und STRUCT (vergleichbar zu Hive). Die Möglichkeiten dieser Datentypen werden von den Teilnehmern evaluiert.

Auf Grund der vielfältigen Besonderheiten stellt dieser Abschnitt den Schwerpunkt des dreitägigen Kurses dar.

Praxis 3 - Betrieb von Impala im Hadoop Cluster

Bei der Nutzung von Impala in einem Hadoop-Cluster sind nur wenige grundsätzliche Aspekte wie Datendurchsatz, Speicherquoten oder Timeout zu definieren. Die Teilnehmer machen sich anhand praktischer Beispiele mit den Möglichkeiten vertraut.

Als weiterer wichtiger Punkt wird die Authentifizierung und Autorisierung (mit Apacha Sentry) behandelt.

Praxis 4 – Performance-Optimierung für Impala im Hadoop Cluster

In diesem Praxisteil wird ausführlich auf die Möglichkeiten der Performance-Optimierung für Impala im Hadoop-Cluster eingegangen. Dies ist einerseits durch Wahl der geeigneten Hardware möglich, andererseits aber durch die Auswahl oder Anordnung der Daten beeinflussbar.

Die Teilnehmer machen sich mit den Möglichkeiten der Abschätzung der Hardware-Anforderungen für verschiedene Anwendungsszenarien vertraut und evaluieren, wie Daten optimal für eine hohe Abfragegeschwindigkeit anzuordnen sind.

Schulungsunterlagen

nach Absprache
Tags: Apache
 

1.) Wählen Sie den Seminartyp:




2.) Wählen Sie Ort und Datum:

1.595,00 € pro Person

spacing line1.898,05 € inkl. 19% MwSt
Verpflegung zzgl.
Seminarunterlagen zzgl.

Seminar jetzt anfragen Auf den Merkzettel
PDF IconPDF Icon
 

Diese Seite weiterempfehlen:

0
Merkzettel öffnen
0
Besuchsverlauf ansehen
IT-Schulungen.com Control Panel