Cloudera CDH Vertiefung
Ziele der Schulung
In dieser 4-tägigen Schulung "Cloudera CDH Vertiefung" erhalten Sie einen fundierten Einblick in Cloudera, einem der führenden Anbieter von Hadoop Distributionen. Die Distribution zeichnet sich durch die Verwendung von teilweise proprietären Komponenten für das Management und Data Governance aus. Beachten Sie, dass die vollständige Enterprise-Version kostenpflichtig lizenziert werden muss, jedoch gibt es auch eine eingeschränkt frei verfügbare Variante.
Während des Kurses werden die Teilnehmer einen Hadoop-Cluster mit vier Knoten installieren, der als Basis für praktische Übungen dient. Diese Übungen decken sämtliche Aspekte des Betriebs eines Hadoop-Clusters ab, einschließlich Erweiterung, Überwachung, Analyse und Optimierung.
Zielgruppe Seminar
- (IT-)Architekt
- (IT-)Entwickler
- Administratoren
Voraussetzungen
- Kenntnisse über Big Data und Hadoop
- Es wird auf dem Kenntnisstand des Kurses „Cloudera Einstieg“ bzw. „Hadoop im Rechenzentrum Überblick“ aufgesetzt
Lernmethodik
Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.
Seminarinhalt
Überblick zur Hadoop-Distribution HDP von Cloudera
Es wird die aktuelle Version 5.12 von Cloudera (CDH) vorgestellt und ein Überblick über die Bestandteile der Hadoop-Distribution gegeben und demonstriert. Dabei wird auch auf die Unterschiede zur Vorgängerversion 5.11 eingegangen und ausgeführt, ob und unter welchen Bedingungen sich ein Umstieg lohnt.
Planung und Sizing einer Cloudera-Distribution
Der Schwerpunkt dieses Moduls liegt auf der Planung und dem Sizing eines zu installierenden Hadoop-Clusters. Auf der Grundlage der jeweiligen Einsatzszenarien sind die grundsätzlichen Hardware-Anforderungen herauszuarbeiten.
Das Sizing eines Hadoop-Clusters wird im Wesentlichen von der Menge der zu speichernden Daten und des für die einzelnen Komponenten benötigten Hauptspeichers bestimmt. Daraus lässt sich die Zahl der benötigten Data Nodes und die Größe ihres nichtflüchtigen Speichers ableiten. Die Verteilung weiterer Komponenten des Frameworks auf diese und/oder zusätzliche Nodes gestattet eine Abschätzung des benötigten Hauptspeichers.
Die Teilnehmer führen ein Sizing beispielhaft anhand eines Template durch.
Installation einer Cloudera-Distribution mit Cloudera Manager
Cloudera bietet verschiedene Installationspfade an. Die zugrundeliegende Systematik wird zunächst vorgestellt.
Die zentrale Verwaltungskomponente einer Cloudera-Distribution ist der proprietäre Cloudera Manager. Dieses besteht aus einer zentralen Komponente sowie aus Agenten, die zunächst auf den künftigen Clusterknoten installiert werden.
Nach der erfolgreichen Präparation der künftigen Clusterknoten wird Hadoop schrittweise unter der Steuerung von Cloudera Manager installiert. Nach Abschluss der Installation kann der Cluster in Betrieb genommen werden.
Anschließend wird die Installation getestet. Dazu stehen in Hadoop eine Reihe von Testmodulen zur Verfügung, um die ordnungsgemäße Funktion sowie die Leistungsfähigkeit des installierten Clusters einzuschätzen.
Die Teilnehmer planen und installieren die Cloudera-Distribution CDH 5.11 mit ausgewählten Komponenten auf einem Cluster mit vier virtuellen Knoten und nehmen die installierte Hadoop-Umgebung in Betrieb und testen diese.
Upgrade-Aktivitäten mit Cloudera Manager
In einem CDH-Cluster können eine oder mehrere der nachfolgend aufgeführten Upgrade-Aktivitäten anstehen:
- Upgrade des einem Clusterknotens zugrundeliegenden Betriebssystems
- Upgrade der Verwaltungs-Komponente Cloudera Manager
- Upgrade der Cloudera-Distribution
Es werden die für die einzelnen Aktivitäten erforderlichen Schritte vorgestellt und erläutert.
Die Teilnehmer planen und migrieren den Versionstand der Cloudera-Distribution auf die Version 5.12.
Erweitern einer Cloudera-Distribution mit Cloudera Manager
Die Verwaltungs-Komponente Cloudera Manager kann genutzt werden, um weitere Dienste und/oder weitere Hardware-Komponenten einzufügen.
Die Teilnehmer fügen dem Hadoop-Cluster einen neuen Knoten hinzu und aktivieren weitere Komponenten.
Alternativ: Installation, Upgrade oder Erweitern einer Cloudera-Distribution mit der Konsole
Alternativ zur Installation, zum Upgrade oder zum Erweitern einer Cloudera-Distribution mit Cloudera Manager kann die entsprechende Aktivität auch manuell auf der Konsole ausgeführt werden. Die Vorgehensweise wird in diesem Modul erläutert und demonstriert.
Verwaltung einer Cloudera-Distribution mit Cloudera Manager
Der Betrieb eines Hadoop-Clusters erfordert vielfältige Aktivitäten. Neben den klassischen administrativen Aufgaben wie beispielsweise das Backup wichtiger Daten, die Verwaltung von Berechtigungen sowie die Beseitigung von Engpässen ist zusätzliches Augenmerk auf den Ersatz oder Neustart ausgefallener Komponenten, die Vergrößerung des Clusters sowie eine hohe generelle Verfügbarkeit zu richten.
In diesem Modul liegt der Schwerpunkt auf den laufenden Aktivitäten in einem Hadoop-Cluster. Die Teilnehmer sammeln praktische Erfahrungen zu Aktivitäten auf Cluster-Ebene, auf Dienst-Ebene, auf Knoten-Ebene sowie auf Dateisystem-Ebene und lernen die erforderlichen Werkzeuge in der Cloudera-Distribution kennen.
Sichern und Schützen einer Cloudera-Distribution
Das Sichern und Schützen einer Cloudera-Distribution ist eine umfangreiche Thematik, woraus einige wichtige Themen ausgewählt, vorgestellt, demonstriert und praktisch angewendet werden. Dazu gehören
- Das Einrichten von Hochverfügbarkeit für Komponenten in CDH 5.12
- Das Generieren von Snapshots in CDH 5.12
- Notwendige BackUps in CDH 5.12
- Die Replikation wichtiger Inhalte in CDH 5.12
- Das Einrichten und die Anwendung der Komponente Navigator in CDH 5.12
Die Teilnehmer richten die Hochverfügbarkeit für den Name Node ihres Clusters ein, generieren Snapshots aus HDFS-Verzeichnissen, richten die Replikation von Daten für HBase ein und aktivieren die Komponente Navigator.
Überwachen und Analysieren einer Cloudera-Distribution
Jede Hadoop-Distribution generiert eine Vielzahl von Informationen, die in verschiedenen Log-Dateien gespeichert werden. Darüber hinaus werden sowohl vom Betriebssystem als auch von den Komponenten der Distribution permanent Messwerte bereitgestellt.
Zentrale Komponente für die Persistierung und Visualisierung dieser Messwerte ist der Cloudera Manager, die in diesem Modul vorgestellt und von den Teilnehmern genutzt wird. Darüber hinaus lernen die Teilnehmer Möglichkeiten zu nutzen, um mit Hadoop-eigenen Bordmitteln die Daten zu analysieren und Logdateien auszuwerten.
Optimieren einer Cloudera-Distribution
Der Betrieb eines Hadoop-Clusters wird durch Hunderte von Parametern definiert. Die meisten dieser Parameter haben signifikanten Einfluss auf die Leistungsfähigkeit des Systems. Die bei der Installation gewählten Standard-Einstellungen sind für den initialen Start des Clusters hilfreich, in der Regel aber für die Betriebsphase mit individuellen Anforderungen suboptimal.
Die Teilnehmer lernen, die Betriebswerte für ausgewählte Komponenten zu interpretieren und eine Strategie zu entwickeln, um die Parametereinstellungen zu optimieren.
Open Badge für dieses Seminar - Ihr digitaler Kompetenznachweis

Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erhalten Sie zusätzlich zu Ihrem Teilnehmerzertifikat ein digitales Open Badge (Zertifikat) – Ihren modernen Nachweis für erworbene Kompetenzen.
Ihr Open Badge ist jederzeit in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com-Konto verfügbar. Mit wenigen Klicks können Sie diesen digitalen Nachweis in sozialen Netzwerken teilen, um Ihre Expertise sichtbar zu machen und Ihr berufliches Profil gezielt zu stärken.
Übersicht: Cloudera Schulungen Portfolio
Seminare kurz vor der Durchführung
Termin | Standort | Aktion |
---|---|---|
25.02. - 28.02.2025 | Hamburg | |
11.03. - 14.03.2025 | München | |
07.04. - 10.04.2025 | Köln | |
06.05. - 09.05.2025 | Nürnberg |