Header Background
Gesicherter Termin

Weiterbildung für Ihre Zukunft!

Über 800 Garantie-Termine

Image not available

MOC 55238 SharePoint Online for Administrators

Gesicherter Termin 17. - 19.04.2024

PL-400 Microsoft Power Platform Developer (PL-400T00)

Gesicherter Termin 11. - 15.03.2024

Seminare zu Künstlicher Intelligenz, ChatGPT und Copiltot

CODING BOOTCAMPS

Starten Sie Ihre Entwickler-Karriere!

(Certified) Penetration Testing Specialist (PTS)

Gesicherte Termine: 13. -17.05.2024

EC-Council Certified Ethical Hacker v12 (CEH)

Gesicherter Termin 22. - 26.04.2024

Python Einführungskurs

Gesicherter Termin: 13. - 17.05.2024

Oracle DB - Administration

Gesicherter Termin 08. - 12.04.2024

Architecting on AWS

Gesicherter Termin 03. - 05.04.2024

Netzwerktechnik Kompaktkurs

Gesicherter Termin: 15. - 19.04.2024

Künstliche Intelligenz OpenAI - Einführung in ChatGPT und DALL-E

Gesicherter Termin 16.- 17.04.2024

MD-102 Microsoft 365 Endpoint Administrator

Gesicherter Termin 22. - 26.04.2024

Certified Kubernetes Administrator (CKA)

Gesicherter Termin 22. - 25.04.2024

Linux-LPI - Komplettausbildung zur LPIC-1 (101 und 102: Administrator) 10 Tage

Gesicherter Termin: 10.-21.06.2024

 
 
 

Data Scientist Tools

Seminardauer: 10 Tage

Ziele

In dieser 10-tägigen Schulung "Data Scientist Tools" lernen Sie, wie Sie als Data Scientist in der aktuellen IT-Branche erfolgreich agieren können. Das Tätigkeitsprofil Data Scientist ist gefragter denn je, da Wissenschaftler für die Bewältigung komplexer Datenherausforderungen benötigt werden.

Während nicht alles, was das Profil eines Data Scientist ausmacht, neu ist, gibt es dennoch einige Unterschiede zu früher. Aus diesem Grund setzen wir in diesem Kurs auf die vertrauten "klassischen" Aspekte der Datenhaltung und Auswertung, um Schritt für Schritt die neuen Möglichkeiten und Anforderungen kennenzulernen. Durch intensive praktische Aufgaben werden Sie das Gelernte vertiefen.

Dieser Spezialisierungskurs richtet sich an Auf- und Umsteiger, die bereits Erfahrungen mit der Anwendung von Business Intelligence gesammelt haben. Er stellt eine sinnvolle Ergänzung zum Kurs "Data Scientist Methoden Vertiefung" dar, indem er die dort besprochenen Herangehensweisen mit praktischen Tools umsetzt. Egal ob Sie Ihre bestehenden Kenntnisse erweitern oder sich als Data Scientist spezialisieren möchten, dieser Kurs wird Ihnen wertvolle Einblicke und praxisnahe Fähigkeiten vermitteln, um erfolgreich in der Welt der Datenanalyse zu agieren.

Zielgruppe

  • (IT-)Entwickler
  • (Fach-)Anwender

Voraussetzungen

  • Praktische Erfahrungen im Umgang mit Business Intelligence
  • Grundkenntnisse in einer beliebigen Programmiersprache (bevorzugt R oder Python)

Lernmethodik

Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.

Agenda

Modul 1: Einführung. Was ist Data Science und worin besteht das Profil eines Data Scientist?

Data Science ist als Begrifflichkeit älter als mancher vermutet und wird etwa seit Mitte der 90er Jahre inhaltlich in der Form interpretiert, wie er heute allgemein verwendet wird: Der Ableitung von neuem Wissen aus Daten. Allerdings wurde er in den letzten fünf Jahren in Zusammenhang mit der Zunahme der Bedeutung von Daten stark aufgewertet. In diesem Abschnitt wird auf verschiedene aktuelle Interpretationen und Abgrenzungen eingegangen und Fragen wie beispielsweise: „Was ist ein Data Scientist?“ und „Welche Anforderungen sind an einen Data Scientist zu stellen?“ beantwortet.

Modul 2: Moderne Informations-Architekturen im Zeitalter von Big Data.

Die moderne Verarbeitung von Informationen muss nicht nur große Datenmengen handhaben können, sondern unter Umständen auch in der Lage sein, zeitnah Ergebnisse bereit zu stellen. Dies ist mit dem klassischen Architekturansatz nicht lösbar und so sind verschiedene Lösungsansätze entstanden, die alle auf einer verteilten Speicherung und Verarbeitung der Daten beruhen und den unterschiedlichsten Anforderungen gerecht werden.

In diesem Modul lernen die Teilnehmer auf Hadoop basierende Architekturen kennen, die entweder für die Stapelverarbeitung oder die Verarbeitung nahe Echtzeit eingesetzt werden können sowie eine Kombination aus beiden Anforderungen.

Die Teilnehmer aktivieren in einer praktischen Übung ihre individuelle Arbeitsumgebung auf der Grundlage eines virtualisierten Hadoop-Clusters.

Modul 3: Die Speicherung von Daten im Zeitalter von Big Data.

Die traditionelle Speicherung von Daten in „strukturierter“ Form auf einem zentralen Server hat enorm an Bedeutung verloren. Heute speichert man die Daten verteilt und zumeist nur gering strukturiert, immer öfters aber auch in der Cloud.

In diesem Abschnitt lernen die Teilnehmer das verteilte Dateisystem HDFS lernen sowie verschiedene Möglichkeiten der Datenhaltung in NoSQL-Datenbanken.

Die gewonnenen Erkenntnisse werden in praktischen Übungen (Labs) vertieft.

Modul 4: Die Aufbereitung von Daten im Zeitalter von Big Data.

Je nach gewählter Architektur stehen sowohl für die Stapelverarbeitung als auch für die permanente Aufbereitung von Daten unterschiedliche Konzepte und Komponenten zur Verfügung. Für die Stapelverarbeitung kommt immer noch recht häufig MapReduce zum Einsatz, welches entweder direkt oder in Form von darauf aufsetzenden Werkzeugen (wie beispielsweise Pig) genutzt wird. Für die permanente Aufbereitung von Daten wird in der Regel ein Queue-basierter Ansatz auf der Basis von Kafka verfolgt.

Darüber hinaus stehen vollständige IDEs (Integrated Development Environments) für die Aufbereitung von Daten für Big Data zur Verfügung. Neben den traditionellen ETL-Anbietern wie beispielsweise Talend oder Pentaho, die ihre Angebote entsprechend erweitert haben, sind es vor allem neue Konzepte, wie sie zum Beispiel mit der Open Source-Lösung NiFi umgesetzt werden.

Die Teilnehmer machen sich mit den aufgeführten Komponenten vertraut, die ausführlich demonstriert werden. Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer zahlreiche praktische Aufgabenstellungen

Modul 5: Die Evaluierung von Daten im Zeitalter von Big Data.

Für die Evaluierung von Daten im Kontext von Big Data stehen eine Vielzahl von Möglichkeiten je nach Datengrundlage und favorisierter Anwendung zur Verfügung. Die vertrauteste Form bietet immer noch die SQL-basierte Evaluierung, die unter der Voraussetzung von definierten Datenstrukturen mit Werkzeugen wie Hive, Kudu, Phoenix oder Impala möglich ist. Darüber hinaus steht mit Spark SQL eine mächtige Engine zur Verfügung, mit der in einer interaktiven Konsolenanwendung SQL-Abfragen ausgeführt werden können.

Die Teilnehmer machen sich mit den aufgeführten Komponenten vertraut, die ausführlich demonstriert werden. Zusätzlich werden Alternativen im Überblick vorgestellt, die auf einem nicht SQL-basierten Ansatz beruhen.

Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer praktische Aufgabenstellungen neben Hive und Spark SQL mit der Komponente Phoenix (Hortonworks) oder mit Kudu und Impala (Cloudera).

Modul 6: Datenanalysen und Vorhersagen im Zeitalter von Big Data.

Mit Spark steht eine universelle Engine für die Verarbeitung von Daten in einer verteilten Umgebung zur Verfügung. Mit MLLib verfügt die Komponente auch über spezielle Routinen, die für die Analyse und Vorhersage genutzt werden können.

Die Bibliothek MLlib verfügt über Standard-Algorithmen für Clustering, Regressions- und Klassifikations-Verfahren und andere wie auch über Hilfsmittel, um den Prozess der Informationsgewinnung geeignet zu unterstützen (Feature Transformation, Hyperparameter Tuning, Pipelines, …).

Die Teilnehmer machen sich mit den verwendeten Begrifflichkeiten und dem Konzept von und Ablauf in Spark MLlib. In aufeinander aufbauenden Schritten wird die Lösung verschiedener praktischer Aufgabenstellungen demonstriert.

Die gewonnenen Erkenntnisse werden in praktischen Übungen (Labs) vertieft.

Modul 7: Programmierung im Zeitalter von Big Data.

Im Kontext von Big Data haben sich eine Vielzahl von Programmiersprachen etabliert, wovon im produktiven Umfeld die Sprache Java und in bestimmten Umfang auch Scala dominieren. Für den Data Scientist sind dagegen eher interaktive Konsolenanwendungen von Interesse sowie insbesondere die Sprachen Python und „R“.

Da der Zugriff von der Konsole bereits in den Modulen 5 und 6 thematisiert wurde, wird in diesem Modul der Schwerpunkt auf die Sprachen Python und R gelegt.

Die Teilnehmer machen sich mit den Basis-Konstrukten von Python und R vertraut und lernen Notebook-Anwendungen wie beispielsweise Jupyter, Zeppelin oder die Cloudera Data Science Workbench kennen.

Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer praktische Aufgabenstellungen mit dem Notebook Zeppelin (Hortonworks) oder der Cloudera Data Science Workbench (Cloudera).

Modul 8: Die Visualisierung von Daten im Zeitalter von Big Data.

Für die Visualisierung von Daten im Kontext von Big Data stehen je nach gewählter Plattform unterschiedliche Werkzeuge zur Verfügung. Grundsätzlich können mit der gewählten Anwendung wie beispielsweise Zeppelin oder Cloudera Data Science Workbench auch Daten visualisiert werden. Darüber hinaus stehen in Python und „R“ leistungsfähige Bibliotheken für die Visualisierung zur Verfügung. Alternativ ist unter bestimmten Voraussetzungen auch der Einsatz klassischer BI Tools für die Visualisierung möglich, wie am Beispiel von Microsoft Power BI gezeigt wird.

Die Teilnehmer erhalten einen Überblick und machen sich mit den Möglichkeiten der Datenvisualisierung vertraut.

Entsprechend der Orientierung der Lab-Plattform lösen die Teilnehmer praktische Aufgabenstellungen mit dem Notebook Zeppelin (Hortonworks) oder der Cloudera Data Science Workbench (Cloudera).

Open Badge - Ihr digitaler Kompetenznachweis

Digital Skills Open Badges

Durch die erfolgreiche Teilnahme an einem Kurs bei IT-Schulungen.com erlangen Sie nicht nur Fachkenntnisse und Fähigkeiten, sondern bekommen zusätzlich zu Ihrem Teilnahmezertifikat ein Open Badge als digitalen Nachweis Ihrer Kompetenz.

Sie können diesen in Ihrem persönlichen und kostenfreien Mein IT-Schulungen.com Konto abrufen. Ihre verdienten Badges lassen sich problemlos in sozialen Netzwerken integrieren und weitergeben.

Mehr zu den Vorteilen von Badges

Kurz vor Durchführung

TerminStandortAktion
22.04. - 03.05.2024 Hamburg Seminar jetzt anfragen
13.05. - 24.05.2024 München Seminar jetzt anfragen
24.06. - 05.07.2024 Köln Seminar jetzt anfragen
15.07. - 26.07.2024 Nürnberg Seminar jetzt anfragen
 
Anmeldungen vorhanden

1.) Wählen Sie den Seminartyp:




2.) Wählen Sie Ort und Datum:

5.995,00 € Preis pro Person

spacing line7.134,05 € inkl. 19% MwSt
Seminarunterlagen zzgl.
Verpflegung zzgl.

Seminar jetzt anfragen Auf den Merkzettel
PDF IconPDF Icon
 

Diese Seite weiterempfehlen:

0
Merkzettel öffnen
0
Besuchsverlauf ansehen
IT-Schulungen.com Control Panel
Warnung Icon Sie haben in Ihrem Browser Javascript deaktiviert! Bitte aktivieren Sie Javascript um eine korrekte Darstellung und Funktionsweise von IT-Schulungen zu gewährleisten. Warnung Icon