Header Background
 
 
 
Gesicherte Termine
    Alle Hersteller anzeigen
     
     
    seminar logo

    Data Engineering mit Python Praxis – Dask, PySpark & Parquet

    Seminardauer: 2 Tage

    Ziele der Schulung

    In dieser 2-tägigen Schulung "Data Engineering mit Python Praxis – Dask, PySpark & Parquet" lernen Sie, wie Python gezielt für Data-Engineering-Aufgaben im Big-Data-Umfeld eingesetzt wird. Sie verarbeiten große Datenmengen effizient mit modernen Datenformaten wie Parquet sowie Frameworks wie Dask und PySpark.

    Nach Abschluss des Seminars sind Sie in der Lage, Pandas-Ansätze auf Dask und PySpark zu skalieren, große Datenmengen effizient mit Parquet zu verarbeiten, Datenbereinigung und Transformation produktionsreif umzusetzen, Performanceunterschiede zwischen Pandas, Dask und PySpark systematisch zu bewerten und robuste Python-basierte Data-Engineering-Lösungen für große Datenvolumina zu entwerfen.

    Zielgruppe Seminar

    • Data Engineers
    • Data Analysts
    • Entwickler

    Voraussetzungen

    Grundkenntnisse Python

    Lernmethodik

    Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.

    Seminarinhalt

    Python für Data Engineering

    • Grundlagen Python für Datenverarbeitung
    • Unterschied klassische Skripte vs. Big Data Workflows
    • Überblick Libraries: NumPy, Pandas, Dask, PySpark

    Pandas Performance & Parquet

    • DataFrames, Chunking, Sparse/Categorical Coding
    • Parquet: Lesen, Schreiben, Vor-/Nachteile
    • Übung 1: CSV → Parquet Konvertierung
    • Übung 2: Performance CSV vs. Parquet

    Fehlerbehandlung & Logging

    • Try/Except, Logging Basics
    • Best Practices produktive Pipelines
    • Übung 3: Logging in Data Pipelines implementieren

    Einführung Dask

    • Vorteile vs. Pandas, Datentypen, Operationen
    • Übung 4: Pandas → Dask DataFrame, Laden, Filtern, Aggregieren
    • Performance-Vergleich Pandas vs. Dask

    Einführung PySpark

    • PySpark im Big Data Ökosystem
    • Spark vs. Dask vs. Pandas
    • RDDs, DataFrames, Spark SQL Basics

    PySpark Performanceoptimierung

    • Partitionierung, Persist/Cache, Broadcast Joins
    • Lazy Evaluation & DAG Optimierung
    • Übung 5: Große Datenmengen mit PySpark verarbeiten

    End-to-End Pipeline & Best Practices

    • Komplette Data Engineering Pipeline (Parquet → PySpark → Output)
    • Performance-Vergleich Dask vs. PySpark
    • Logging & Fehlerbehandlung in produktiven Pipelines
    • Cloud-Cluster-Workflows, Best Practices

    Open Badge für dieses Seminar - Ihr digitaler Kompetenznachweis

    Digital Skills Open Badges

    Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erhalten Sie zusätzlich zu Ihrem Teilnehmerzertifikat ein digitales Open Badge (Zertifikat) – Ihren modernen Nachweis für erworbene Kompetenzen.

    Ihr Open Badge ist jederzeit in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com-Konto verfügbar. Mit wenigen Klicks können Sie diesen digitalen Nachweis in sozialen Netzwerken teilen, um Ihre Expertise sichtbar zu machen und Ihr berufliches Profil gezielt zu stärken.

    Übersicht: Python Schulungen Portfolio

    Mehr zu den Vorteilen von Badges

     

    1.) Wählen Sie den Seminartyp:




    2.) Wählen Sie Ort und Datum:

    1.495,00 € Preis pro Person

    spacing line1.779,05 € inkl. 19% MwSt
    all incl.
    zzgl. Verpflegung 30,00 €/Tag bei Präsenz

    Anfragen Buchen Merkzettel
    PDF IconPDF Icon
     

    Diese Seite weiterempfehlen:

    0
    Merkzettel öffnen
    0
    Besuchsverlauf ansehen
    IT-Schulungen.com Control Panel