Warnung Icon Sie haben in Ihrem Browser Javascript deaktiviert! Bitte aktivieren Sie Javascript um eine korrekte Darstellung und Funktionsweise von IT-Schulungen zu gewährleisten. Warnung Icon
Header Background
Header Image
 
 
 

Amazon Elastic MapReduce (EMR) für Entwickler

Seminardauer: 5 Tage

Das Seminar "Amazon Elastic MapReduce (EMR) für Entwickler" wurde abgekündigt. Wir können Ihnen diese Schulung in Form eines Workshops in Ihrem Unternehmen anbieten.

zur unverbindlichen Anfrage

Ziele

In dieser Schulung lernen die Teilnehmer große Datenmengen dynamisch in skalierbaren Amazon EC2-Instanzen zu verteilen und zu verarbeiten. Hierbei lernen sie die Planung eines Amazon EMR Clusters und lernen dabei auch den Einsatz verschiedener Frameworks wie z. B. Apache Spark oder Impala.

Zielgruppe

Entwickler, Daten-Architekten und alle weiteren Mitarbeiter, die für den Entwurf und die Implementierung von Big Data Lösungen verantwortlich sind.

Voraussetzungen

  • Grundkenntnisse mit Big Data Technologien, inkl. Apache Hadoop und HDFS
  • Kenntnisse mit Big Data Technologien wie Pig, Hive und MapReduce sind vorteilhaft, werden jedoch nicht vorausgesetzt.
  • Erfahrung mit AWS Services und Implementierung einer Public Cloud
  • Besuch der Schulung AWS Essentials oder vergleichbare Kenntnisse
  • Grundlegendes Verständnis zu Data Warehousing, relationalen Datenbanksystemen und Datenbankentwurf

Agenda

Einführung

  • Einsatzgebiete
  • Amazon EMR Features
  • Funktionsweise
  • Verfügbare Tools

Planung eines Amazon EMR Clusters

  • Welche Instanzen brauche ich?
  • Wie viele Instanzen brauche ich?
  • Konfiguration
  • Kompatible Datei-Systeme
  • Cluster Lifecycle
  • Vorbereitung der Eingabe-Daten
  • Clusterzugriff konfigurieren
  • Konfiguration von Logging und Debugging
  • Auswahl eines an Amazon VPC Subnets
  • Tagging

Ausführen einer Hadoop Anwendung zur Datenverarbeitung

  • Erstellung von Binaries mit Amazon EMR
  • Anforderungen von JAR
  • Ausführung eines Scripts im Cluster
  • Datenverarbeitung mit Streaming
  • Datenverarbeitung mit Cascading
  • Datenverarbeitung mitJAR

Hive und Amazon EMR

  • Unterschiede zwischen Amazon EMR Hive und Apache Hive
  • Unterstützte Hive Versionen
  • Erstellung eines Hive Metastores außerhalb des Clusters
  • Hive JDBC Treiber

Apache Spark

  • Einsatz von Spark Interaktiv oder im Batch-Modus
  • Erstellung eines Clusters mit Spark
  • Konfiguration von Spark
  • Zugriff auf die Spark Shell
  • Schreiben einer Anwendung mit Spark

Impala

  • Starten und Abfragen eines Impala Clusters
  • Unterstützte Impala Versionen
  • Speicherüberlegungen
  • Impala und JDBC
  • Zugriff auf die Impala Web User Interfaces
  • Impala-unterstützte Datei- und Komprimierungsformate
  • Impala SQL
  • Benutzerdefinierte Funktionen
  • Performance-Test und Abfrage-Optimierung

Apache Pig

  • Unterstützte Pig-Versionen
  • Interaktive und Batch Pig Cluster
  • Abruf von benutzerdefinierten Funktionen aus Pig

Apache HBase

  • Unterstützte HBase Versionen
  • HBase Cluster Anforderungen
  • Installation von HBase auf einem Amazon EMR Cluster
  • Verbindung mit der HBase mit der Command Line
  • Sicherung und Wiederherstellung von HBase
  • Beenden eines HBase Clusters
  • Konfiguration von HBase
  • Zugriff auf HBase Daten mit Hive
  • HBase Benutzeroberfläche
  • HBase Log Files
  • Überwachung von HBase mit CloudWatch
  • Überwachung von HBase mit Ganglia

Konfiguration von Hue zur Ansicht, Abfrage und Anpassung von Daten

  • Einführung in Hue
  • Erstellung eines Clusters
  • Die Hue Web Oberfläche
  • Einsatz von Hue mit einer Remote Database in Amazon RDS
  • Erweiterte Konfiguration
  • Einschränkungen des Metastore Managers

Analyse von Amazon Kinesis Data

  • Planung
  • Analyse von Amazon Kinesis Streams mit Amazon EMR und Hive
  • Analyse von Amazon Kinesis Streams mit Amazon EMR und Pig

Extrahieren, Transformieren und Laden (ETL) von Data mit Amazon EMR

  • Einsatz von S3DistCp
  • Export, Abfragen und Joins in DynamoDB
  • Speicherung von Avro Daten mit Amazon EMR

Clusterverwaltung

  • Clustermonitoring
  • Verbindung mit dem Cluster
  • Steuerung der Cluster Beendigung
  • Größenänderung eines laufenden Clusters
  • Klonen eines Clusters über die Konsole
  • Automatisierung wiederkehrender Cluster mit AWS Data Pipeline

Troubleshooting

  • Verfügbare Tools
  • Bekannte Herausforderungen mit Amazon EMR AMIs
  • Failed Cluster Troubleshooting
  • Slow Cluster Troubleshooting
  • Häufige Fehler

Erstellung von Anwendungen die Cluster starten und verwalten

  • Häufige Konzepte für API Calls
  • Einsatz von SDKs für Amazon EMR APIs

Hadoop Konfiguration

  • JSON Konfigurationsdateien
  • Konfiguration von hadoop-user-env.sh
  • Hadoop 2.2.0 und 2.4.0 Konfiguration
  • Hadoop 1.0.3 Konfiguration

Schulungsunterlagen

nach Absprache
 
 

Europaweit unter den Besten
Unser Education Center wird seit 2012 beim jährlichen Leistungsaudit für das ITCR - International Training Center Rating® jeweils in der höchsten Leistungsstufe mit 5 von 5 Sternen ausgezeichnet.
Das bestätigt unseren langjährigen Premium-Status als Bildungsanbieter und beweist gleichzeitig, dass wir zu den besten Schulungshäusern in Europa gehören.

IT-Schulungen.com 5 Sterne

 Microsoft Learning Partner

Linux Foundation Training Partner

LPI Gold Approved Training Partner

 
 

Diese Seite weiterempfehlen:

Merkzettel Icon
0
Merkzettel öffnen
0
Besuchsverlauf ansehen
IT-Schulungen.com Control Panel

Zuletzt angesehen