Generative KI auf Big Data: RAG-Pipelines, Multimodale LLMs & Lakehouse
Ziele der Schulung
In dieser 3-tägigen Schulung "Generative KI auf Big Data: RAG-Pipelines, Multimodale LLMs & Lakehouse" lernen Sie, Generative KI-Modelle (LLMs und multimodale Ansätze) effektiv in Big Data-Umgebungen einzusetzen und skalierbare RAG-Pipelines aufzubauen. Sie verstehen den kompletten Workflow von der Datenvorbereitung über Pipeline-Orchestrierung mit Vektordatenbanken bis hin zum produktiven Deployment inklusive Monitoring, Kostenoptimierung und Security Best Practices. Nach dem Kurs können Sie eigenständig End-to-End GenAI-Lösungen für große Datenmengen implementieren, von Batch- bis Streaming-Verarbeitung
Zielgruppe Seminar
- Data Engineers, die Generative KI in ihre Pipelines integrieren möchten
- Data Scientists mit Interesse an skalierbaren LLM-Anwendungen
- Software Engineers, die KI-gestützte Big Data-Lösungen entwickeln
- Business Intelligence Professionals, die Generative KI für Analysen nutzen wollen
- IT-Architekten, die KI-Infrastrukturen planen und umsetzen
Voraussetzungen
- Grundlegende Programmierkenntnisse in Python
- Grundkenntnisse in Big Data und Data Processing
- ML Basiskenttnisse
- Erste Erfahrungen mit Cloud-Plattformen sind von Vorteil
Lernmethodik
Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.
Seminarinhalt
Grundlagen Generative KI & Big Data
- Was sind Large Language Models (LLMs)?
- Multimodale Modelle (Text, Bild, Video)
- Generative KI Use Cases im Big Data Kontext
- Batch vs. Streaming Data
- Herausforderungen bei großen Datenmengen
Datengrundlagen und Vorbereitung
- Datenquellen und -formate (strukturiert & unstruktiert)
- Data Lakes & Data Warehouses
- Text-Preprocessing und Tokenization
- Bild- und Videodaten vorbereiten
- Embeddings erstellen und speichern
- Feature Engineering
Generative KI Modelle nutzen
- APIs nutzen (Open AI und kompatibel, Cloud Service Providers)
- Open Source Modelle per API und lokal (Mistral, Nemo, Qwen)
- LLM-Typen: Reasoning, MoE, Multimodal
- Prompt Engineering Grundlagen
- RAG (Retrieval Augmented Generation)
Big Data Pipelines mit Generative KI
- Batch-Verarbeitung großer Textmengen
- Streaming-Analysen mit LLMs
- Vektordatenbanken (ChromaDB, Weaviate, Azure AI Search)
- Pipeline-Orchestrierung
Deployment, Monitoring und Optimierung
- Cloud-Infrastruktur (AWS, Azure, GCP)
- Kostenoptimierung und Caching-Strategien
- Performance-Metriken und Logging
- Security und Compliance Best Practices
- Monitoring-Daten für Evaluierung nutzen
- A/B-Testing und kontinuierliche Optimierung
- Einführung ins Fine-Tuning mit Produktionsdaten
Praxisprojekt: End-to-End Pipeline
- Aufbau einer skalierbaren Analyse-Pipeline
- Verarbeitung großer Dokumentenmengen (Text und Bild)
- Automatisiertes Reporting mit LLMs
- Visualisierung und Dashboards
Open Badge für dieses Seminar - Ihr digitaler Kompetenznachweis

Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erhalten Sie zusätzlich zu Ihrem Teilnehmerzertifikat ein digitales Open Badge (Zertifikat) – Ihren modernen Nachweis für erworbene Kompetenzen.
Ihr Open Badge ist jederzeit in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com-Konto verfügbar. Mit wenigen Klicks können Sie diesen digitalen Nachweis in sozialen Netzwerken teilen, um Ihre Expertise sichtbar zu machen und Ihr berufliches Profil gezielt zu stärken.
Übersicht: Big Data Schulungen Portfolio



