
KI-Modelle deployen mit vLLM & Runpod
Ziele der Schulung
In dieser 2-tägigen Schulung "KI-Modelle deployen mit vLLM & Runpod" erwerben Sie fundierte Kenntnisse über die professionelle Bereitstellung von Large Language Models (LLMs) in produktiven Umgebungen. Sie lernen die Architektur und Funktionsweise von vLLM als High-Performance Inference Engine kennen und verstehen die Vorteile von GPU-Cloud-Plattformen wie zum Beispiel Runpod für kosteneffizientes KI-Deployment.
Durch praxisorientierte Übungen entwickeln Sie die Fähigkeit, eigene KI-Modelle effizient zu deployen, Inference-Endpoints zu konfigurieren und zu skalieren sowie Performance-Optimierungen durchzuführen. Sie lernen, wie man vLLM-Server konfiguriert, APIs bereitstellt und Monitoring-Lösungen implementiert.
Am Ende des Seminars sind Sie in der Lage, produktionsreife LLM-Deployments zu planen und umzusetzen, Kosten zu optimieren, Skalierungsstrategien anzuwenden und professionelle Inference-Infrastrukturen mit vLLM und Runpod aufzubauen.
Zielgruppe Seminar
- AI/ML Engineers und DevOps-Professionals, die KI-Modelle in Produktion bringen möchten
- Software-Entwickler, die LLM-basierte Anwendungen mit performanten Backend-Lösungen ausstatten wollen
- Data Scientists, die ihre Modelle professionell deployen und skalieren möchten
- IT-Verantwortliche und Architekten, die kosteneffiziente Cloud-Infrastrukturen für KI-Workloads planen
- Unternehmen, die eigene LLM-Infrastrukturen aufbauen und unabhängig von kommerziellen API-Anbietern werden möchten
Voraussetzungen
Erforderlich:
- Grundkenntnisse in Python-Programmierung
- Vertrautheit mit REST APIs und HTTP-Requests
- Basiswissen über Cloud-Computing-Konzepte
- Erfahrung mit der Kommandozeile (Terminal/CLI)
Von Vorteil:
- Grundverständnis von Machine Learning und Large Language Models
- Erfahrung mit Docker und Containerisierung
- Kenntnisse in Linux/Ubuntu-Systemadministration
- Verständnis von GPU-Computing und CUDA
Lernmethodik
Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren. Das Seminar beinhaltet praktische Übungen und Labs, in denen Sie:
- Eigene vLLM-Instanzen aufsetzen und konfigurieren
- Modelle auf Runpod deployen und verwalten
- Performance-Tests durchführen und optimieren
- Ein vollständiges End-to-End-Deployment-Projekt umsetzen
Jeder Teilnehmer erhält Zugang zu einer vorbereiteten Runpod-Umgebung für die praktischen Übungen sowie umfassende Schulungsunterlagen und Code-Beispiele zum Mitnehmen.
Seminarinhalt
Einführung in LLM-Deployment
- Herausforderungen beim Deployment großer Sprachmodelle
- Unterschiede zwischen Training, Finetuning und Inference
- Überblick über Deployment-Optionen: Cloud vs. On-Premise vs. Hybrid
- Kosten-Nutzen-Analyse verschiedener Deployment-Strategien
vLLM Deep Dive
- Was ist vLLM und warum ist es performanter als Standard-Lösungen?
- PagedAttention und kontinuierliches Batching verstehen
- Unterstützte Modellarchitekturen und Quantisierungsformate
- Installation und Konfiguration von vLLM
- Vergleich: vLLM vs. TensorRT-LLM vs. SGLang vs. Ollama
Runpod-Plattform Einführung
- Überblick über die Runpod-Plattform und Preismodelle
- GPU-Typen und deren Eignung für verschiedene Modellgrößen
- Runpod Pods vs. Serverless: Vor- und Nachteile
- Account-Setup, Billing und Ressourcen-Management
- Sicherheitsaspekte und Best Practices
- Alternative Plattformen: Lambda Labs, Vast.ai, etc.
Praxis: Erstes Deployment
- Hands-on: vLLM-Server auf Runpod starten
- Modell-Download und -Konfiguration (z.B. Llama, Mistral, Phi)
- OpenAI-kompatible API einrichten und testen
- Erste API-Requests mit Python durchführen
- Workshop: Deployment eines Chat-Modells
Performance-Optimierung
- GPU-Memory-Management und Batch-Size-Tuning
- Quantisierung: GPTQ, AWQ, GGUF im Vergleich
- Tensor Parallelism für große Modelle
- Konfiguration von vLLM-Parametern für maximale Throughput
- Benchmarking und Performance-Monitoring
Skalierung und Load Balancing
- Horizontal Scaling: Multiple Instances verwalten
- Load Balancing-Strategien für LLM-Endpoints
- Auto-Scaling mit Runpod Serverless
- Fallback-Strategien und High Availability
- Cost-Optimization: Spot-Instances und Reserved GPUs
API-Integration und Deployment-Patterns
- OpenAI-kompatible Endpoints nutzen und erweitern
- Streaming-Responses implementieren
- Authentifizierung und Rate Limiting
- Integration in bestehende Anwendungen
- Multi-Model-Serving-Architekturen
Monitoring, Logging und Troubleshooting
- Logging-Strategien für Production-Deployments
- Metriken erfassen: Latency, Throughput, Token-Usage
- Debugging häufiger Probleme (OOM, CUDA Errors, etc.)
- Health Checks und Alerting einrichten
- Kostenüberwachung und -optimierung
Praxis: Produktions-Deployment
- Workshop: End-to-End-Deployment einer LLM-Anwendung
- Implementierung einer vollständigen Inference-Pipeline
- Load-Testing und Performance-Analyse
- Deployment-Automation mit Scripts
- Best Practices und Lessons Learned
Open Badge für dieses Seminar - Ihr digitaler Kompetenznachweis

Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erhalten Sie zusätzlich zu Ihrem Teilnehmerzertifikat ein digitales Open Badge (Zertifikat) – Ihren modernen Nachweis für erworbene Kompetenzen.
Ihr Open Badge ist jederzeit in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com-Konto verfügbar. Mit wenigen Klicks können Sie diesen digitalen Nachweis in sozialen Netzwerken teilen, um Ihre Expertise sichtbar zu machen und Ihr berufliches Profil gezielt zu stärken.
Übersicht: LLM & Generative KI Schulungen Portfolio
Gesicherte Kurstermine
| Termin | Standort | Aktion |
|---|---|---|
| 24.03. - 25.03.2026 | Nürnberg | |
| 24.03. - 25.03.2026 | Virtual Classroom (online) | |
| 29.06. - 30.06.2026 | Nürnberg | |
| 29.06. - 30.06.2026 | Virtual Classroom (online) |
Seminare kurz vor der Durchführung
| Termin | Standort | Aktion |
|---|---|---|
| 26.01. - 27.01.2026 | Hamburg | |
| 24.02. - 25.02.2026 | München | |
| 11.03. - 12.03.2026 | Köln | |
| 28.04. - 29.04.2026 | Hamburg |



