Apache Spark Kompaktkurs - Daten, Analyse und Optimierung
Ziele der Schulung
In dieser 5-tägigen Schulung "Apache Spark Kompaktkurs - Daten, Analyse und Optimierung" erwerben Sie ein fundiertes Verständnis für Big-Data-Verarbeitung mit Apache Spark – von den konzeptionellen Grundlagen bis hin zum produktiven Einsatz. Ziel ist es, die Architektur und Funktionsweise von Spark sicher zu verstehen, zentrale Datenstrukturen wie RDDs, DataFrames und Datasets zielgerichtet einzusetzen sowie Transformationen und Aktionen korrekt zu nutzen. Sie lernen, strukturierte Daten mit Spark SQL zu verarbeiten, Spark-Anwendungen zu analysieren und zu optimieren sowie typische Fehlerquellen zu erkennen und zu beheben. Darüber hinaus werden grundlegende Konzepte zu Caching, Partitionierung, Shuffling, Streaming-Verarbeitung und maschinellem Lernen mit MLlib vermittelt. Praktische Übungen mit realen Daten unterstützen den Transfer des Wissens in die Praxis und befähigen Sie, performante, skalierbare und wartbare Spark-Jobs in produktiven Umgebungen zu entwickeln und zu betreiben.
Zielgruppe Seminar
- (IT-)Architekt
- (IT-)Entwickler
- Software Entwickler
- Data Scientist
- Data Engineer
Voraussetzungen
- Praktische Erfahrung in der IT-Informationsverarbeitung
- Kenntnisse im Einsatz relationaler Datenbanken
- Kenntnisse über Big Data
Lernmethodik
Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.
Seminarinhalt
Einführung und Grundlagen
Einführung in Big Data und Spark
- Motivation und typische Big-Data-Anwendungsfälle
- Überblick über Spark-Komponenten und Ökosystem
Spark-Architektur und Betriebsmodelle
- Treiber, Executor, Tasks und Jobs
- Lokaler Betrieb vs. Clusterbetrieb
Zentrale Spark-Datenstrukturen und Verarbeitung
RDDs, DataFrames, Datasets
- Erstellung und Transformationen von RDDs
- Unterschiede und Einsatzmöglichkeiten von DataFrames und Datasets
Transformationen und Aktionen
- Typische Transformationen (map, filter, join, groupBy)
- Aktionen und deren Ausführung (collect, count, show)
Arbeiten mit strukturierten Daten
Spark SQL-Grundlagen
- Einfache SQL-Abfragen auf DataFrames
- Erstellung und Nutzung von Views
Integration von Spark mit Hadoop und Datenbanken
- Zugriff und Verarbeitung von Daten aus HDFS, Hive und relationalen Datenbanken
- Arbeiten mit Parquet, ORC und Delta Lake für effiziente Speicherung
Performance, Optimierung und Stabilität
Optimierung von Spark-Jobs
- Analyse und Visualisierung von Job-Plänen (Spark UI, DAG)
- Umgang mit Data Skew und Optimierung von Joins
Caching, Partitioning, Shuffling
- Strategien für effektives Caching und Persistierung von DataFrames/RDDs
- Optimierung von Shuffle-Operationen zur Reduzierung von Laufzeiten
Fehlerbehandlung und Logging
- Typische Fehlerquellen in Spark-Anwendungen
- Logging und Monitoring einfacher Jobs
Erweiterte Verarbeitung und Analytics
Structured Streaming: Grundlagen und Use Cases
- Implementierung einfacher Streaming-Pipelines mit Structured Streaming
- Umgang mit Event-Time, Watermarking und Fensteroperationen
Einführung in MLlib
- Aufbau und Nutzung von ML-Pipelines für große Datensätze
- Feature Engineering und Vorbereitung von Daten für ML-Modelle
Praxis und produktiver Einsatz
Praktische Übungen mit realen Daten
- Aufbau einfacher Spark-Anwendungen
Best Practices für produktive Spark-Umgebungen
- Monitoring, Logging und Fehlerbehandlung von produktiven Jobs
- Ressourcenmanagement und Skalierung von Spark-Clustern
Open Badge für dieses Seminar - Ihr digitaler Kompetenznachweis

Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erhalten Sie zusätzlich zu Ihrem Teilnehmerzertifikat ein digitales Open Badge (Zertifikat) – Ihren modernen Nachweis für erworbene Kompetenzen.
Ihr Open Badge ist jederzeit in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com-Konto verfügbar. Mit wenigen Klicks können Sie diesen digitalen Nachweis in sozialen Netzwerken teilen, um Ihre Expertise sichtbar zu machen und Ihr berufliches Profil gezielt zu stärken.
Übersicht: Apache Spark Schulungen Portfolio
Kundenbewertungen
4 Teilnehmende
Seminare kurz vor der Durchführung
| 18.05. - 22.05.2026 | Hamburg | ||
| 15.06. - 19.06.2026 | Köln | ||
| 22.06. - 26.06.2026 | Hamburg | ||
| 20.07. - 24.07.2026 | Nürnberg |



