Header Background
 
 
 

Apache Spark Kompaktkurs - Daten, Analyse und Optimierung

Seminardauer: 5 Tage

Ziele der Schulung

In dieser 5-tägigen Schulung "Apache Spark Kompaktkurs - Daten, Analyse und Optimierung" erwerben Sie ein fundiertes Verständnis für Big-Data-Verarbeitung mit Apache Spark – von den konzeptionellen Grundlagen bis hin zum produktiven Einsatz. Ziel ist es, die Architektur und Funktionsweise von Spark sicher zu verstehen, zentrale Datenstrukturen wie RDDs, DataFrames und Datasets zielgerichtet einzusetzen sowie Transformationen und Aktionen korrekt zu nutzen. Sie lernen, strukturierte Daten mit Spark SQL zu verarbeiten, Spark-Anwendungen zu analysieren und zu optimieren sowie typische Fehlerquellen zu erkennen und zu beheben. Darüber hinaus werden grundlegende Konzepte zu Caching, Partitionierung, Shuffling, Streaming-Verarbeitung und maschinellem Lernen mit MLlib vermittelt. Praktische Übungen mit realen Daten unterstützen den Transfer des Wissens in die Praxis und befähigen Sie, performante, skalierbare und wartbare Spark-Jobs in produktiven Umgebungen zu entwickeln und zu betreiben.

Zielgruppe Seminar

  • (IT-)Architekt
  • (IT-)Entwickler
  • Software Entwickler
  • Data Scientist
  • Data Engineer

Voraussetzungen

  • Praktische Erfahrung in der IT-Informationsverarbeitung
  • Kenntnisse im Einsatz relationaler Datenbanken
  • Kenntnisse über Big Data

Lernmethodik

Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.

Seminarinhalt

Einführung und Grundlagen

Einführung in Big Data und Spark

  • Motivation und typische Big-Data-Anwendungsfälle
  • Überblick über Spark-Komponenten und Ökosystem

Spark-Architektur und Betriebsmodelle

  • Treiber, Executor, Tasks und Jobs
  • Lokaler Betrieb vs. Clusterbetrieb

Zentrale Spark-Datenstrukturen und Verarbeitung

RDDs, DataFrames, Datasets

  • Erstellung und Transformationen von RDDs
  • Unterschiede und Einsatzmöglichkeiten von DataFrames und Datasets

Transformationen und Aktionen

  • Typische Transformationen (map, filter, join, groupBy)
  • Aktionen und deren Ausführung (collect, count, show)

Arbeiten mit strukturierten Daten

Spark SQL-Grundlagen

  • Einfache SQL-Abfragen auf DataFrames
  • Erstellung und Nutzung von Views

Integration von Spark mit Hadoop und Datenbanken

  • Zugriff und Verarbeitung von Daten aus HDFS, Hive und relationalen Datenbanken
  • Arbeiten mit Parquet, ORC und Delta Lake für effiziente Speicherung

Performance, Optimierung und Stabilität

Optimierung von Spark-Jobs

  • Analyse und Visualisierung von Job-Plänen (Spark UI, DAG)
  • Umgang mit Data Skew und Optimierung von Joins

Caching, Partitioning, Shuffling

  • Strategien für effektives Caching und Persistierung von DataFrames/RDDs
  • Optimierung von Shuffle-Operationen zur Reduzierung von Laufzeiten

Fehlerbehandlung und Logging

  • Typische Fehlerquellen in Spark-Anwendungen
  • Logging und Monitoring einfacher Jobs

Erweiterte Verarbeitung und Analytics

Structured Streaming: Grundlagen und Use Cases

  • Implementierung einfacher Streaming-Pipelines mit Structured Streaming
  • Umgang mit Event-Time, Watermarking und Fensteroperationen

Einführung in MLlib

  • Aufbau und Nutzung von ML-Pipelines für große Datensätze
  • Feature Engineering und Vorbereitung von Daten für ML-Modelle

Praxis und produktiver Einsatz

Praktische Übungen mit realen Daten

  • Aufbau einfacher Spark-Anwendungen

Best Practices für produktive Spark-Umgebungen

  • Monitoring, Logging und Fehlerbehandlung von produktiven Jobs
  • Ressourcenmanagement und Skalierung von Spark-Clustern

Open Badge für dieses Seminar - Ihr digitaler Kompetenznachweis

IT-Schulungen Badge: Apache Spark Kompaktkurs -  Daten, Analyse und Optimierung

Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erhalten Sie zusätzlich zu Ihrem Teilnehmerzertifikat ein digitales Open Badge (Zertifikat) – Ihren modernen Nachweis für erworbene Kompetenzen.

Ihr Open Badge ist jederzeit in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com-Konto verfügbar. Mit wenigen Klicks können Sie diesen digitalen Nachweis in sozialen Netzwerken teilen, um Ihre Expertise sichtbar zu machen und Ihr berufliches Profil gezielt zu stärken.

Übersicht: Apache Spark Schulungen Portfolio

Mehr zu den Vorteilen von Badges

Kundenbewertungen

4,25

4 Teilnehmende
 
0%
 
100%
 
0%
 
0%
 
0%

Seminare kurz vor der Durchführung

       
18.05. - 22.05.2026 Hamburg Anfragen
15.06. - 19.06.2026 Köln Anfragen
22.06. - 26.06.2026 Hamburg Anfragen
20.07. - 24.07.2026 Nürnberg Anfragen
 
Anmeldungen vorhanden
1.) Wählen Sie den Seminartyp:


2.) Wählen Sie Ort und Datum:
2.495,00 € Preis pro Personspacing line2.969,05 € inkl. 19% MwSt
all incl.
zzgl. Verpflegung 30,00 €/Tag bei Präsenz

Anfragen Buchen Merkzettel
 
Diese Seite weiterempfehlen:
0
Merkzettel öffnen
0
Besuchsverlauf ansehen
IT-Schulungen.com Control Panel