
Data Engineering mit Python Praxis – Dask, PySpark & Parquet
Ziele der Schulung
In dieser 2-tägigen Schulung "Data Engineering mit Python Praxis – Dask, PySpark & Parquet" lernen Sie, wie Python gezielt für Data-Engineering-Aufgaben im Big-Data-Umfeld eingesetzt wird. Sie verarbeiten große Datenmengen effizient mit modernen Datenformaten wie Parquet sowie Frameworks wie Dask und PySpark.
Nach Abschluss des Seminars sind Sie in der Lage, Pandas-Ansätze auf Dask und PySpark zu skalieren, große Datenmengen effizient mit Parquet zu verarbeiten, Datenbereinigung und Transformation produktionsreif umzusetzen, Performanceunterschiede zwischen Pandas, Dask und PySpark systematisch zu bewerten und robuste Python-basierte Data-Engineering-Lösungen für große Datenvolumina zu entwerfen.
Zielgruppe Seminar
- Data Engineers
- Data Analysts
- Entwickler
Voraussetzungen
Grundkenntnisse Python
Lernmethodik
Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.
Seminarinhalt
Python für Data Engineering
- Grundlagen Python für Datenverarbeitung
- Unterschied klassische Skripte vs. Big Data Workflows
- Überblick Libraries: NumPy, Pandas, Dask, PySpark
Pandas Performance & Parquet
- DataFrames, Chunking, Sparse/Categorical Coding
- Parquet: Lesen, Schreiben, Vor-/Nachteile
- Übung 1: CSV → Parquet Konvertierung
- Übung 2: Performance CSV vs. Parquet
Fehlerbehandlung & Logging
- Try/Except, Logging Basics
- Best Practices produktive Pipelines
- Übung 3: Logging in Data Pipelines implementieren
Einführung Dask
- Vorteile vs. Pandas, Datentypen, Operationen
- Übung 4: Pandas → Dask DataFrame, Laden, Filtern, Aggregieren
- Performance-Vergleich Pandas vs. Dask
Einführung PySpark
- PySpark im Big Data Ökosystem
- Spark vs. Dask vs. Pandas
- RDDs, DataFrames, Spark SQL Basics
PySpark Performanceoptimierung
- Partitionierung, Persist/Cache, Broadcast Joins
- Lazy Evaluation & DAG Optimierung
- Übung 5: Große Datenmengen mit PySpark verarbeiten
End-to-End Pipeline & Best Practices
- Komplette Data Engineering Pipeline (Parquet → PySpark → Output)
- Performance-Vergleich Dask vs. PySpark
- Logging & Fehlerbehandlung in produktiven Pipelines
- Cloud-Cluster-Workflows, Best Practices
Open Badge für dieses Seminar - Ihr digitaler Kompetenznachweis

Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erhalten Sie zusätzlich zu Ihrem Teilnehmerzertifikat ein digitales Open Badge (Zertifikat) – Ihren modernen Nachweis für erworbene Kompetenzen.
Ihr Open Badge ist jederzeit in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com-Konto verfügbar. Mit wenigen Klicks können Sie diesen digitalen Nachweis in sozialen Netzwerken teilen, um Ihre Expertise sichtbar zu machen und Ihr berufliches Profil gezielt zu stärken.
Übersicht: Python Schulungen Portfolio



