Header Background
 
 
 

Apache Spark Advanced – Data Engineering & Performance

Seminardauer: 2 Tage

Ziele der Schulung

In dieser 2-tägigen Schulung „Apache Spark Advanced – Data Engineering & Performance“ lernen Sie, Ihre Kenntnisse in der Spark-Programmierung zu vertiefen und komplexe Workflows effizient zu gestalten. Sie erfahren, wie Sie große Datenmengen performant verarbeiten, Spark-Jobs optimieren und die Performance von Pipelines analysieren. Darüber hinaus lernen Sie die Grundlagen von Structured Streaming zur Verarbeitung von Echtzeitdaten sowie die Erstellung von Machine Learning Pipelines mit MLlib, um skalierbare und produktionsreife Spark-Anwendungen zu entwickeln.

Zielgruppe Seminar

  • Entwickler
  • Data Engineers
  • Analysten mit ersten Spark-Erfahrungen

Voraussetzungen

Teilnehmende sollten Kenntnisse aus dem Apache Spark Grundlagenkurs oder vergleichbare praktische Erfahrung besitzen. Dazu gehören insbesondere:

  • Grundlegendes Verständnis der Spark-Architektur (Treiber, Executor, Jobs, Tasks)
  • Umgang mit RDDs, DataFrames und Datasets sowie grundlegende Transformationen und Aktionen
  • Erfahrung in der Programmierung mit Python, Scala oder Java
  • Grundkenntnisse in der Arbeit mit Datenbanken und SQL
  • Erste praktische Erfahrung im Ausführen und Debuggen einfacher Spark-Anwendungen

Lernmethodik

Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.

Seminarinhalt

Optimierung von Spark-Jobs

  • Analyse und Visualisierung von Job-Plänen (Spark UI, DAG)
  • Umgang mit Data Skew und Optimierung von Joins

Caching, Partitioning, Shuffling

  • Strategien für effektives Caching und Persistierung von DataFrames/RDDs
  • Optimierung von Shuffle-Operationen zur Reduzierung von Laufzeiten

Structured Streaming: Grundlagen und Use Cases

  • Implementierung einfacher Streaming-Pipelines mit Structured Streaming
  • Umgang mit Event-Time, Watermarking und Fensteroperationen

Einführung in MLlib

  • Aufbau und Nutzung von ML-Pipelines für große Datensätze
  • Feature Engineering und Vorbereitung von Daten für ML-Modelle

Integration von Spark mit Hadoop und Datenbanken

  • Zugriff und Verarbeitung von Daten aus HDFS, Hive und relationalen Datenbanken
  • Arbeiten mit Parquet, ORC und Delta Lake für effiziente Speicherung

Best Practices für produktive Spark-Umgebungen

  • Monitoring, Logging und Fehlerbehandlung von produktiven Jobs
  • Ressourcenmanagement und Skalierung von Spark-Clustern

Open Badge für dieses Seminar - Ihr digitaler Kompetenznachweis

Digital Skills Open Badges

Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erhalten Sie zusätzlich zu Ihrem Teilnehmerzertifikat ein digitales Open Badge (Zertifikat) – Ihren modernen Nachweis für erworbene Kompetenzen.

Ihr Open Badge ist jederzeit in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com-Konto verfügbar. Mit wenigen Klicks können Sie diesen digitalen Nachweis in sozialen Netzwerken teilen, um Ihre Expertise sichtbar zu machen und Ihr berufliches Profil gezielt zu stärken.

Übersicht: Apache Spark Schulungen Portfolio

Mehr zu den Vorteilen von Badges

Seminare kurz vor der Durchführung

       
28.04. - 29.04.2026 Hamburg Anfragen
20.05. - 21.05.2026 Köln Anfragen
03.06. - 04.06.2026 Köln Anfragen
28.07. - 29.07.2026 Nürnberg Anfragen
 
1.) Wählen Sie den Seminartyp:


2.) Wählen Sie Ort und Datum:
1.295,00 € Preis pro Personspacing line1.541,05 € inkl. 19% MwSt
all incl.
zzgl. Verpflegung 30,00 €/Tag bei Präsenz

Anfragen Buchen Merkzettel
 
Diese Seite weiterempfehlen:
0
Merkzettel öffnen
0
Besuchsverlauf ansehen
IT-Schulungen.com Control Panel