
Roland Mladenovic
Seminarberater/-in
Telefon: 0911-65008-222
Email: info@it-schulungen.com
Apache Spark ist das Herzstück moderner Data-Engineering-Plattformen. Durch seine In-Memory-Architektur ermöglicht das Framework extrem schnelle Batch-Verarbeitung und die Analyse von Echtzeit-Datenströmen. In unseren Trainings lernen Sie, skalierbare Big-Data-Architekturen stabil und performant in der Cloud oder On-Premise umzusetzen.
Besuchen Sie unsere Apache Spark Seminare an über 25 Standorten im DACH-Raum oder nehmen Sie ortsunabhängig per Live-Online-Training teil. Wir sind für Sie da in: München, Nürnberg, Stuttgart, Berlin, Hamburg, Leipzig, Köln, Düsseldorf, Frankfurt und weiteren Städten.
Für Teams bieten wir individuelle Inhouse-Workshops an. Unsere Experten beraten Sie im Vorfeld unverbindlich und kostenfrei, um die Inhalte exakt auf Ihre Projektziele (z. B. Databricks oder Kafka-Integration) zuzuschneiden.
Sie haben das passende Seminar nicht gefunden? Dann fragen Sie uns unverbindlich an.
Für Einsteiger ohne Vorkenntnisse empfiehlt sich der Kurs „Einführung in Apache Spark und SparkSQL“, da er die grundlegenden Konzepte der verteilten Datenverarbeitung vermittelt. Die Teilnehmer lernen hier Schritt für Schritt, wie sie Daten mit SparkSQL abfragen und einfache Daten-Pipelines aufbauen. Wer direkt tiefer einsteigen möchte, findet im „Apache Spark Komplettkurs“ eine umfassende Kombination aus Grundlagen und weiterführenden Techniken.
Der Kurs zu „Structured Streaming“ konzentriert sich spezifisch auf die native Spark-Schnittstelle zur Verarbeitung von Datenströmen in Echtzeit. Im Gegensatz dazu bietet das Seminar zu „Kafka, Kinesis, Flink & Spark Streaming“ einen breiteren architektonischen Überblick über verschiedene Technologien für Event-Driven Systems. Während das eine Training die Tiefe in Spark sucht, vermittelt das andere das Zusammenspiel in komplexen Enterprise-Streaming-Infrastrukturen.
Ja, das Seminar „Apache Spark mit Databricks“ ist speziell auf die Entwicklung und den Betrieb in Cloud-Umgebungen wie Azure oder AWS zugeschnitten. Die Teilnehmer lernen die Besonderheiten der Databricks-Plattform kennen, einschließlich Notebook-Kollaboration und automatisierter Cluster-Verwaltung. Dies ist ideal für Teams, die keine eigene Infrastruktur verwalten möchten, sondern auf Managed Services setzen.
In fast allen Kursen, insbesondere im „Data Engineering mit Python“, ist PySpark der zentrale Standard für die API-Interaktion. Während die Spark-Engine in Scala geschrieben ist, nutzen Data Engineers heute vorwiegend Python, um von der riesigen Auswahl an Bibliotheken wie Pandas oder Scikit-learn zu profitieren. Das Seminar zeigt detailliert, wie man Python-Code effizient auf Clustern verteilt, ohne Performance-Einbußen durch die Serialisierung zu riskieren.
Databricks bietet eine optimierte Version von Apache Spark („Photon Engine“) und Funktionen wie Delta Lake, die im Standard-Spark nicht in diesem Umfang enthalten sind. Im Kurs lernen Sie, wie Sie das Lakehouse-Konzept umsetzen, das die Vorteile von Data Warehouses und Data Lakes vereint. Zudem werden operative Aspekte wie das Job-Scheduling und die Sicherheitskonfiguration in der Cloud (RBAC) behandelt, die für den produktiven Unternehmenseinsatz essenziell sind.