
Christine Röppenack
Seminarberaterin
Telefon: 0911 6500 8 222
Email: info@it-schulungen.com
Data Scientist und Data Analyst – was macht den Unterschied? In unserem Kursprogramm legen wir den Schwerpunkt für den Data Scientist auf Machine Learning, während für den Data Analyst die klassischen abfragebasierten Analysen favorisiert werden. Dementsprechend werden in diesem Seminar die Tools und Technologien in Big Data herausgestellt, die derartige Abfragen ermöglichen.
Der Kurs wird mit einem Test abgeschlossen. Nach erfolgreicher Absolvierung dieses Tests wird ein offizielles Zertifikat über die erfolgreiche Teilnahme vom „Big Data Lab e.V.“ ausgereicht.
Weitere Seminarinfos:
(IT-)Entwickler, (Fach-)Anwender
Praktische Erfahrungen im Umgang mit Business Intelligence sowie Grundkenntnisse in einer beliebigen Programmiersprache (bevorzugt R oder Python).
Folgende Seminare und Kurse zur Auffrischung der Kenntnisse um Big Data können hilfreich sein:
a. Big Data Einstieg
b. Big Data Technologien, Strategien und Trends
c. Data Scientist Einstieg
a. Big Data Architekturen Überblick
b. Hadoop Datentechnologien Überblick
Folgende Kurse können darüber hinaus dieses Angebot ergänzen:
a. Apache Hive Vertiefung
b. Apache Impala Vertiefung
c. Apache Spark SQL Vertiefung
Data Scientists sind allgegenwärtig, auch Data Engineers erfreuen sich wachsender Beliebtheit. Aber was ist macht ein Data Analyst? Wir verstehen den Schwerpunkt der Tätigkeit eines Data Scientist auf dem Feld von Machine Learning, während für den Data Analyst die klassischen abfragebasierten Analysen im Vordergrund stehen. In diesem einführenden Modul wird auf die typischen Tätigkeitsprofile für Data Analysts, Data Scientists und Data Engineers eingegangen.
Das Kernkomponenten von Hadoop sind ein leistungsstarkes, robustes und extrem skalierbares Dateisystem (HDFS), eine flexible Ressourcen-Steuerung (YARN) sowie das altbekannte MapReduce.
Von besonderer Bedeutung ist hierbei das Dateisystem. Die Teilnehmer machen sich mit den logischen Prinzipien der Datenhaltung in HDFS vertraut, definieren in einer Übungsumgebung eigene Datenstrukturen und lernen, wie man mit Konsolen-Kommandos Dateien manipuliert. Ein weiterer Schwerpunkt befasst sich mit den unterschiedlichen Formaten für strukturierte Daten in HDFS wie Delimited Text, Parquet, Avro, SequenceFile oder RCFile.
Gelegentlich wird Pig auch als das ETL-Tool von Hadoop bezeichnet und ist gut geeignet, um Daten zusammenzuführen, zu trennen oder zu transformieren. Die Teilnehmer werden in die Skriptsprache von Pig, dem Pig Latin, eingeführt und erstellen eigene Skripte unterschiedlicher Komplexität für die Aufbereitung von Daten.
Hive ist der Klassiker für den SQL-basierten Zugriff auf strukturierte Daten in der verteilten Umgebung von Hadoop. Allerdings wird damit keine neue Datenhaltung eingeführt, sondern „nur“ eine Schnittstelle, die die Eingabe von SQL-artigen Abfragen gestattet. Unter der Haube wird die Abfrage in eine Stapelverarbeitung umgeformt, die mit MapReduce, Tez oder neuerdings auch Spark ausgeführt werden kann.
Die Teilnehmer lösen unterschiedliche Aufgabenstellungen unter Verwendung von Hive.
Bei Impala handelt es sich um eine SQL-basierte Query-Engine, die sich allerdings signifikant von der aus relationalen Datenbanken bekannten Komponente unterscheidet, weil sie tief in das Hadoop-Ökosystem integriert ist und eine verteilte Arbeitsweise unterstützt.
Die Teilnehmer lernen verschiedene Möglichkeiten kennen, um die Query Engine von Impala zu aktivieren. Dazu wird der Zugriff über die Kommandozeile, über ein Browserbasiertes User Interface sowie über die ODBC-Schnittstelle evaluiert. In praktischen Beispielen loten die Teilnehmer die Möglichkeiten der SQL-Abfragesprache in Impala aus und lernen die Unterschiede zur SQL-ähnlichen Abfragesprache von Hive lernen.
Modul 5: Phoenix (nur in Verbindung mit der Hortonworks-Distribution)
Phoenix ist eine Erweiterung für die NoSQL-Datenbank HBase, die es gestattet, SQL-Abfragen für den Zugriff auf die Daten in HBase zu verwenden. Dies ermöglicht mit einer vergleichsweise schlanken Erweiterung die Kombination der Vorzüge von HBase mit den Möglichkeiten von SQL.
Die Teilnehmer machen sich mit den Möglichkeiten von Phoenix SQL vertraut und lernen die Unterschiede zur SQL-ähnlichen Abfragesprache von Hive lernen.
Spark hat sich sehr schnell zum Schweizer Taschenmesser im Hadoop-Ökosystem entwickelt. Kein Wunder, dass sich diese Engine auch für die Auswertung strukturierter Daten empfiehlt und zwar direkt mit SQL-Abfragen.
Die Teilnehmer lernen die Konzepte von Spark SQL kennen und lösen unterschiedlichste Aufgabenstellungen zum Persistieren, Selektieren und Aggregieren strukturierter Daten ein einer verteilten Umgebung mit Hilfe von Python.
Voraussetzung für die Teilnahme am Test „Data Analyst Tools Vertiefung“ sind 35 Credits, die in den Modulen 1 bis 6 gesammelt werden konnten.
Mit einer erfolgreichen Teilnahme an einer Schulung bei IT-Schulungen.com erwerben Sie nicht nur Wissen und Kompetenz, sondern erhalten auch zusätzlich zum Teilnahmezertifikat Ihr Open Badge als digitalen Kompetenznachweis.
Diesen erhalten Sie in Ihrem persönlichen und kostenlosen Mein IT-Schulungen.com Account. Ihre erworbenen Badges können Sie anschließend in sozialen Medien einbinden und teilen.
Anmeldungen vorhanden |
Digitales Wissen & Kompetenzen erwerben & zeigen.
Mit Badges von IT-Schulungen erhalten Sie - neben dem Teilnahmezertifikat als PDF - ein Open Badge als Nachweis Ihrer Fertigkeiten mit Echtheitszertifikat.
Zeigen Sie Ihre Digital Skills mit Zertifikaten auf Plattformen wie LinkedIn, XING & Facebook, auf Ihrer Website und in E-Mail-Signaturen.