Open Source ETL Engineering: Spark, Airflow & Docker mit Claude für Windows-Profis
Ziele der Schulung
In dieser 2-tägigen Schulung "Entwickeln von ETL mit Opensource und Claude - Seminar für Windows Spezialisten" lernen Sie auf praktische Art, wie eine moderne ETL-Architektur mit Apache Airflow und Apache Spark in einer containerisierten Umgebung aufgebaut wird. Sie erhalten einen Einstieg, wie für diese Umgebung ETL-Prozesse mit Python/PySpark entwickelt und orchestriert werden.
Im technischen Mittelpunkt stehen Apache Airflow zur Workflow-Steuerung und Apache Spark für hochperformante, skalierbare Datentransformationen. Als Infrastruktur kommt eine Umgebung mit Docker/Kubernetes zum Zuge, in der Airflow, Spark (Multi-Node), PostgreSQL, Jupyter Notebook sowie ein Flask/nginx-Setup betrieben werden. Zusätzlich wird gezeigt, wie Claude als KI-Tool sowohl die Entwicklung von Transformationen, als auch den Aufbau der Systeme unterstützen kann.
Die Schulung richtet sich insbesondere an Windows-affine DBAs, SQL- und SSIS-Entwickler sowie ETL-Power-User, die einen schnellen Einstieg in die Open-Source-ETL-Welt suchen.
Der Schwerpunkt liegt klar auf der praktischen Umsetzung. In zahlreichen Hands-on-Labs erstellen Sie Airflow-DAGs, Spark-Jobs und Datenpipelines und arbeiten mit verschiedenen Datenquellen wie CSV, REST-APIs und relationalen Datenbanken. Ergänzend erhalten Sie eine kompakte Einführung in Python sowie in Docker (Dockerfiles, Docker Compose und Skripting).
Am ersten Tag stehen Python-Grundlagen, Docker-Infrastruktur und der Aufbau der Gesamtumgebung im Fokus, am zweiten Tag Airflow und Spark inklusive Datenverarbeitung, Parallelisierung und Orchestrierung. Ziel ist ein ganzheitliches Verständnis moderner, containerisierter ETL-Architekturen, das die direkte Anwendung in Projekten ermöglicht.
Zielgruppe Seminar
- Windows-affine Datenbankadministratoren (DBAs), die in die Open-Source-ETL-Welt einsteigen möchten
- SQL-Entwickler, die moderne Datenverarbeitung mit Apache Airflow und Apache Spark kennenlernen wollen
- SSIS-Entwickler, die ihre bestehenden ETL-Kenntnisse auf cloudnahe und containerisierte Architekturen erweitern möchten
- ETL-Power-User, die Datenprozesse künftig mit modernen Open-Source-Tools umsetzen wollen
- Technisch versierte Anwender, die einen praxisnahen Einstieg in Data Engineering, Docker und Cloud-nahe Architekturen suchen
- Fachkräfte aus dem Datenumfeld, die KI-gestützte Entwicklung und moderne DevOps-/Container-Ansätze verstehen und anwenden möchten
Voraussetzungen
- Grundkenntnisse im Bereich Datenbanken und SQL (z. B. Abfragen, Joins, einfache Datenmodellierung)
- Erste Erfahrung in der Arbeit mit ETL-Prozessen oder Datenintegration von Vorteil (z. B. SSIS, vergleichbare Tools)
- Grundlegendes technisches Verständnis für IT-Systeme und Datenverarbeitung
- Keine oder nur geringe Vorkenntnisse in Python, Apache Airflow, Apache Spark oder Docker erforderlich – diese Inhalte werden im Kurs eingeführt
- Idealerweise Erfahrung im Windows-/Server-Umfeld (z. B. als DBA, Entwickler oder Power-User)
Lernmethodik
Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.
Seminarinhalt
- Hinweis: Alle Infrastruktur-Übungen basieren auf manueller Konfiguration oder dem Einsatz von KI (Claude)
Python
- Kurzübersicht: Ablaufsteuerung und Datentypen
- Arbeiten mit Tupeln und Dictionaries
- Sprachspezifika: zip, map, Comprehensions, Lambda-Expressions
- Überblick: Pandas DataFrames
Docker
- Erstellen von Dockerfiles
- Arbeiten mit Docker Compose
- Einbinden von Shell-Skripten
- Arbeiten in der Container-Shell
- Administration von Docker und Docker Compose
- Aufbau einer Multi-Container-Umgebung mit Airflow, Spark, Jupyter Notebook, PostgreSQL und nginx
- Tools im Docker-Umfeld: PowerShell und Astronomer
Kubernetes
- Erstellung eines Kubernetes-Clusters
- Integration der Schulungs-Container in Kubernetes
- Grundlegende administrative Tätigkeiten
Apache Airflow & Apache Spark
- Erstellung einfacher Airflow DAGs
- Entwicklung einfacher Spark Jobs
- Definition von Airflow Dependencies
- Extraktion und Load (CSV-Dateien, REST-APIs, relationale Datenbanken)
- Übergabe von Parametern und Daten
- Parallelisierung von Workflows und Jobs
- Data Wrangling (Filter, JOIN, Split, Lookup etc.)
- Überblick über Advanced Features und Konzepte
Open Badge für dieses Seminar - Ihr digitaler Kompetenznachweis

Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erhalten Sie zusätzlich zu Ihrem Teilnehmerzertifikat ein digitales Open Badge (Zertifikat) – Ihren modernen Nachweis für erworbene Kompetenzen.
Ihr Open Badge ist jederzeit in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com-Konto verfügbar. Mit wenigen Klicks können Sie diesen digitalen Nachweis in sozialen Netzwerken teilen, um Ihre Expertise sichtbar zu machen und Ihr berufliches Profil gezielt zu stärken.
Übersicht: Big Data Schulungen Portfolio
Seminare kurz vor der Durchführung
| 18.06. - 19.06.2026 | Hamburg | ||
| 07.07. - 08.07.2026 | München | ||
| 10.08. - 11.08.2026 | Köln | ||
| 02.09. - 03.09.2026 | Nürnberg |



