Data Analyst Tools

Seminardauer: 3 Tage

Übersicht
Ziele
Zielgruppe
Voraussetzungen
Lernmethodik
Agenda

Ziele

In dieser 3-tägigen Schulung "Data Analyst Tools" lernen Sie die Unterschiede zwischen Data Scientist und Data Analyst kennen. Unser Kursprogramm legt den Fokus auf Machine Learning für Data Scientists und abfragebasierte Analysen für Data Analysts. In diesem Seminar werden speziell die Tools und Technologien in Big Data hervorgehoben, die solche Abfragen ermöglichen. Sie erhalten praktische Einblicke in den Einsatz von Analysetools und lernen, wie Sie diese effektiv in Ihrem Berufsfeld nutzen können. Egal ob Sie ein angehender Data Scientist oder Data Analyst sind, dieses Seminar wird Ihnen wertvolle Fähigkeiten vermitteln, um in der Welt der Datenanalyse erfolgreich zu sein.

Zielgruppe

(IT-)Entwickler
(Fach-)Anwender

Voraussetzungen

Praktische Erfahrungen im Umgang mit Business Intelligence
Grundkenntnisse in einer beliebigen Programmiersprache (bevorzugt R oder Python)

Lernmethodik

Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.

Agenda

Modul 1: Data Analysts, Data Scientists, Data Engineers: Worin besteht der Unterschied?

Data Scientists sind allgegenwärtig, auch Data Engineers erfreuen sich wachsender Beliebtheit. Aber was ist macht ein Data Analyst? Wir verstehen den Schwerpunkt der Tätigkeit eines Data Scientist auf dem Feld von Machine Learning, während für den Data Analyst die klassischen abfragebasierten Analysen im Vordergrund stehen. In diesem einführenden Modul wird auf die typischen Tätigkeitsprofile für Data Analysts, Data Scientists und Data Engineers eingegangen.

Modul 2: Die Kernkomponenten von Hadoop: HDFS, YARN und MapReduce

Das Kernkomponenten von Hadoop sind ein leistungsstarkes, robustes und extrem skalierbares Dateisystem (HDFS), eine flexible Ressourcen-Steuerung (YARN) sowie das altbekannte MapReduce.

Von besonderer Bedeutung ist hierbei das Dateisystem. Die Teilnehmer machen sich mit den logischen Prinzipien der Datenhaltung in HDFS vertraut, definieren in einer Übungsumgebung eigene Datenstrukturen und lernen, wie man mit Konsolen-Kommandos Dateien manipuliert. Ein weiterer Schwerpunkt befasst sich mit den unterschiedlichen Formaten für strukturierte Daten in HDFS wie Delimited Text, Parquet, Avro, SequenceFile oder RCFile.

Modul 3: Pig ist ein Mechanismus, um stapelorientierte Datenfluss-Operationen in Hadoop auszuführen.

Gelegentlich wird Pig auch als das ETL-Tool von Hadoop bezeichnet und ist gut geeignet, um Daten zusammenzuführen, zu trennen oder zu transformieren. Die Teilnehmer werden in die Skriptsprache von Pig, dem Pig Latin, eingeführt und erstellen eigene Skripte unterschiedlicher Komplexität für die Aufbereitung von Daten.

Modul 4 Hive – Der SQL-Klassiker in Hadoop

Hive ist der Klassiker für den SQL-basierten Zugriff auf strukturierte Daten in der verteilten Umgebung von Hadoop. Allerdings wird damit keine neue Datenhaltung eingeführt, sondern „nur“ eine Schnittstelle, die die Eingabe von SQL-artigen Abfragen gestattet. Unter der Haube wird die Abfrage in eine Stapelverarbeitung umgeformt, die mit MapReduce, Tez oder neuerdings auch Spark ausgeführt werden kann.

Die Teilnehmer lösen unterschiedliche Aufgabenstellungen unter Verwendung von Hive.

Modul 5: Impala (nur in Verbindung mit der Cloudera-Distribution)

Bei Impala handelt es sich um eine SQL-basierte Query-Engine, die sich allerdings signifikant von der aus relationalen Datenbanken bekannten Komponente unterscheidet, weil sie tief in das Hadoop-Ökosystem integriert ist und eine verteilte Arbeitsweise unterstützt.

Die Teilnehmer lernen verschiedene Möglichkeiten kennen, um die Query Engine von Impala zu aktivieren. Dazu wird der Zugriff über die Kommandozeile, über ein Browserbasiertes User Interface sowie über die ODBC-Schnittstelle evaluiert. In praktischen Beispielen loten die Teilnehmer die Möglichkeiten der SQL-Abfragesprache in Impala aus und lernen die Unterschiede zur SQL-ähnlichen Abfragesprache von Hive lernen.

Modul 5: Phoenix (nur in Verbindung mit der Hortonworks-Distribution)

Phoenix ist eine Erweiterung für die NoSQL-Datenbank HBase, die es gestattet, SQL-Abfragen für den Zugriff auf die Daten in HBase zu verwenden. Dies ermöglicht mit einer vergleichsweise schlanken Erweiterung die Kombination der Vorzüge von HBase mit den Möglichkeiten von SQL.

Die Teilnehmer machen sich mit den Möglichkeiten von Phoenix SQL vertraut und lernen die Unterschiede zur SQL-ähnlichen Abfragesprache von Hive lernen.

Modul 6: Spark SQL – Die Abkürzung mit SQL

Spark hat sich sehr schnell zum Schweizer Taschenmesser im Hadoop-Ökosystem entwickelt. Kein Wunder, dass sich diese Engine auch für die Auswertung strukturierter Daten empfiehlt und zwar direkt mit SQL-Abfragen.

Die Teilnehmer lernen die Konzepte von Spark SQL kennen und lösen unterschiedlichste Aufgabenstellungen zum Persistieren, Selektieren und Aggregieren strukturierter Daten ein einer verteilten Umgebung mit Hilfe von Python.

Test „Data Analyst Tools Vertiefung“.

Voraussetzung für die Teilnahme am Test „Data Analyst Tools Vertiefung“ sind 35 Credits, die in den Modulen 1 bis 6 gesammelt werden konnten.

Open Badge - Ihr digitaler Kompetenznachweis

Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erlangen Sie nicht nur Fachkenntnisse und Fähigkeiten, sondern bekommen zusätzlich zu Ihrem Teilnahmezertifikat ein Open Badge als digitalen Nachweis Ihrer Kompetenz.

Sie können diesen in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com Konto abrufen. Ihre verdienten Badges lassen sich problemlos in sozialen Netzwerken integrieren und weitergeben.

Mehr zu den Vorteilen von Badges

Kurz vor Durchführung

Termin	Standort	Aktion
06.05. - 08.05.2024	Hamburg	Seminar jetzt anfragen
03.06. - 05.06.2024	München	Seminar jetzt anfragen
29.07. - 31.07.2024	Köln	Seminar jetzt anfragen
20.08. - 22.08.2024	Nürnberg	Seminar jetzt anfragen

Data Analyst Tools

Ziele

Zielgruppe

Voraussetzungen

Lernmethodik

Agenda

Modul 1: Data Analysts, Data Scientists, Data Engineers: Worin besteht der Unterschied?

Modul 2: Die Kernkomponenten von Hadoop: HDFS, YARN und MapReduce

Modul 3: Pig ist ein Mechanismus, um stapelorientierte Datenfluss-Operationen in Hadoop auszuführen.

Modul 4 Hive – Der SQL-Klassiker in Hadoop

Modul 5: Impala (nur in Verbindung mit der Cloudera-Distribution)

Modul 6: Spark SQL – Die Abkürzung mit SQL

Test „Data Analyst Tools Vertiefung“.

Open Badge - Ihr digitaler Kompetenznachweis

Kurz vor Durchführung

1.) Wählen Sie den Seminartyp:

2.) Wählen Sie Ort und Datum:

1.595,00 € Preis pro Person

Tagessatz:
1.695,00 €

Tagessatz:
1.525,50 €

Diese Seite weiterempfehlen:

Data Analyst Tools

Ziele

Zielgruppe

Voraussetzungen

Lernmethodik

Agenda

Modul 1: Data Analysts, Data Scientists, Data Engineers: Worin besteht der Unterschied?

Modul 2: Die Kernkomponenten von Hadoop: HDFS, YARN und MapReduce

Modul 3: Pig ist ein Mechanismus, um stapelorientierte Datenfluss-Operationen in Hadoop auszuführen.

Modul 4 Hive – Der SQL-Klassiker in Hadoop

Modul 5: Impala (nur in Verbindung mit der Cloudera-Distribution)

Modul 6: Spark SQL – Die Abkürzung mit SQL

Test „Data Analyst Tools Vertiefung“.

Open Badge - Ihr digitaler Kompetenznachweis

Kurz vor Durchführung

1.) Wählen Sie den Seminartyp:

2.) Wählen Sie Ort und Datum:

1.595,00 € Preis pro Person

Tagessatz:1.695,00 €

Tagessatz:1.525,50 €

Diese Seite weiterempfehlen:

Tagessatz:
1.695,00 €

Tagessatz:
1.525,50 €