Data Scientists werden überall eingesetzt, wo große Datenmengen generiert werden, um Unternehmen dabei zu unterstützen, die bestehenden Prozesse zu optimieren und Kunden noch besser anzusprechen: Die Einsatzgebiete sind somit zahlreich: Onlineshops mit Algorithmen, personalisierte Werbung, automatisierte Spracherkennungsdienste, öffentliche Verkehrsbetriebe mit Fahrplanoptimierung, Logistikprozesse wie Retouren-Verringerung, Optimierungen in der Energieversorgung, Dienste im Gesundheitswesen und vieles mehr. Das aussagekräftige Zertifikat von alfatraining gibt Ihrem zukünftigen Arbeitgeber detaillierten Einblick in Ihre erworbenen Qualifikationen.
Inhalte
Data Scientist:
Die Weiterbildung zum „Data Scientist“ besteht aus 5 Modulen, deren Reihenfolge variieren kann.
Modul 1: Programmierung mit Python:
Grundlagen Python (ca. 1 Tag):
Geschichte, Konzepte
Verwendung und Einsatzgebiete
Syntax
Erste Schritte mit Python (ca. 5 Tage):
Zahlen
Zeichenketten
Datum und Zeit
Standardeingabe und -ausgabe
list, tuple dict, set
Verzweigungen und Schleifen (if, for, while)
Funktionen (ca. 5 Tage):
Eigene Funktionen definieren
Variablen
Parameter, Rekursion
Funktionale Programmierung
Fehlerbehebung (ca. 0,5 Tage):
try, except
Programmunterbrechungen abfangen
Objektorientierte Programmierung (ca. 4,5 Tage):
Python-Klassen
Methoden
Unveränderliche Objekte
Datenklasse
Vererbung
Grafische Benutzeroberfläche (ca. 1 Tag):
Buttons und Textfelder
grid-Layout
Dateiauswahl
Projektarbeit (ca. 3 Tage):
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse
Modul 2: Big Data Analytics:
Kurzeinführung Big Data (ca. 1 Tag):
Was ist Big Data?
Grundlagen in Python (ca. 4 Tage):
Einführung und grundlegende Funktionen
Datentypen
Zentrale Python-Module im Kontext Big Data Analytics
Big Data Architekturen (ca. 5 Tage):
Big Data Architekturen
Relationale Datenbanken
Grundlagen SQL
Vergleich von SQL und NoSQL Datenbanken
Datenanalyse, Statistik und Data Mining (ca. 5 Tage):
Explorative Datenanalyse mit Python
Daten visualisieren in Python
Statistische Grundlagen
Data Mining Use Cases
Data Mining Algorithmen in Python
Big Data: Datenverarbeiten und Speichern (ca. 2 Tage):
Der MapReduce-Ansatz
Grundlagen des Cloud Computings
Projektarbeit (ca. 3 Tage):
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse
Modul 3: Statistik:
Statistische Grundlagen (ca. 6 Tage):
Messtheoretische Grundlagen (Grundgesamtheit und Stichprobe, Stichprobenarten, Messung und Skalenniveaus)
Univariate Deskriptivstatistik (Häufigkeitsverteilungen, Zentralmaße, Streuungsmaße, Standardwerte, Histogramme, Balkendiagramme, Kreisdiagramme, Liniendiagramme und Boxplots)
Bivariate Deskriptivstatistik (Zusammenhangsmaße, Korrelationskoeffizienten, Kreuztabellen, Streudiagramme und gruppierte Balkendiagramme)
Grundlagen der induktiven Inferenzstatistik (Wahrscheinlichkeitsverteilung, Normalverteilung, Mittelwerteverteilung, Signifikanztest, Nullhypothesentest nach Fisher, Signifikanz, Effektgröße, Parameterschätzung, Konfidenzintervalle, Fehlerbalkendiagramme, Poweranalysen und Ermittlung des optimalen Stichprobenumfangs)
Methoden zum Vergleich von zwei Gruppen (ca. 5 Tage) :
z- und t-Test für eine Stichprobe (Abweichung von einem vorgegebenen Wert)
t-Test für den Mittelwertsunterschied von zwei unabhängigen/ verbundenen Stichproben
Prüfung der Wirksamkeit von Aktionen, Maßnahmen, Interventionen und anderen Veränderungen mit t-Tests (Pretest-Posttest-Designs mit zwei Gruppen)
Unterstützende Signifikanztests (Anderson-Darling-Test, Ryan-Joiner-Test, Levene-Test, Bonnet-Test, Signifikanztest für Korrelationen)
Nonparametrische Verfahren (Wilcoxon-Test, Vorzeichentest, Mann-Whitney-Test)
Kontingenzanalysen (Binomialtest, Exakter Test nach Fisher, Chi-Quadrat-Test, Kreuztabellen mit Assoziationsmaße)
Methoden zum Mittelwertvergleich von mehreren Gruppen (ca. 5 Tage):
Ein- und zweifaktorielle Varianzanalyse (einfache und balancierte ANOVA)
Mehrfaktorielle Varianzanalyse (Allgemeines Lineares Modell)
Feste, zufällige, gekreuzte und geschachtelte Faktoren
Mehrfachvergleichsverfahren (Tukey-HSD, Dunnett, Hsu-MCB, Games-Howell)
Interaktionsanalyse (Analyse von Wechselwirkungseffekten)
Trennschärfe und Poweranalyse bei Varianzanalysen
Einführung in die Versuchsplanung (DoE, Design of Experiments) (ca. 1 Tag):
Voll- und teilfaktorielle Versuchspläne
Projektarbeit (ca. 3 Tage):
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse
Modul 4: Data Engineer:
Grundlagen Business Intelligence (ca. 3 Tage):
CRISP-DM Referenzmodell
Umgang mit Big Data - Volume, Variety, Velocity, Validity, Value
Abgrenzungen und Aufgaben vom Data Engineer im Kontext zu den andern BI-Berufen
Umgang und Verarbeitung von strukturierten, semi-strukturierten und unstrukturierten Daten im DWH
OLAP
OLTP
Anforderung von Daten (ca. 2 Tage):
Aufgaben, Ziele und Vorgehensweise in der Anforderungsanalyse
Einführung/Modellierung in der UML
· Use-Case Analyse
· Klassendiagramme
· Aktivitätsdiagramme
· Modellierung mit ERM
Datenbanken (ca. 2 Tage):
Grundlagen von Datenbanksystemen
ANSI/SPARC Referenzmodell
Normalformen
Architektur von Datenbankmanagementsystemen
Praktische und theoretische Einführung in SQL
· DDL
· DML
· DSDL
Data Warehouse Modellierung (ca. 4 Tage):
Star Schema
Snowflake Schema
Galaxy Schema
Data Vault 2.0 - Hubs, Satelites, Links im Raw- und Business Vault, Hash Key, Hash Diff
Slowly Changing Dimension Tables Typ 1 bis 5 - Restating, Stacking, Reorganizing, mini dimension und Typ 5
Einführung in normal, causal, mini und monster, heterogeneous und subdimensions
Vergleich von state und transaction oriented Faktentabellen
Density und Storage vom DWH
ETL (ca. 6 Tage):
Data Cleansing
· Null Values
· Aufbereitung von Daten
· Harmonisierung von Daten
· Anwendung von Regular Expressions
Data Understanding
· Datenvalidierung
· Statistische Datenanalyse
Praktischer Aufbau von ETL-Strecken
Praktischer Aufbau eines Data Vault Modells - Business und Raw Vault
Praktische Umsetzung von Hash-Verfahren
Verwendung von verschiedenen Datenbankensqlite, postgressql, json, csv
Projektarbeit (ca. 3 Tage):
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse
Modul 5: Machine Learning:
Grundlagen (ca. 5 Tage) :
Warum Machine Learning?
Anwendungsbeispiele
Überwachtes Lernen, Unüberwachtes Lernen, Teilüberwachtes Lernen, Reinforcement Lernen
Bibliotheken und Werkzeuge
Klassifizierung von Iris-Spezies
Daten kennenlernen
Trainings- und Testdaten
Daten sichten
Vorhersagen treffen
Überwachtes Lernen (ca. 5 Tage) :
Klassifikation und Regression
Verallgemeinerung, Overfitting und Underfitting
Größe des Datensatzes
Algorithmen zum überwachten Lernen
Lineare Modelle
Bayes-Klassifikatoren
Entscheidungsbäume
k-nächste-Nachbarn
Vector Machines
Deep Learning
Entschiedungsfunktion
Wahrscheinlichkeiten
Unüberwachtes Lernen (ca. 5 Tage) :
Arten unüberwachten Lernens
Vorverarbeiten und Skalieren
Datentransformationen
Trainings- und Testdaten skalieren
Dimensionsreduktion
Extraktion von Merkmalen
Manifold Learning
Hauptkomponentenzerlegung (PCA)
Nicht-negative-Matrix-Faktorisierung (NMF)
Manifold Learning mit t-SNE
Clusteranalyse
k-Means-Clustering
Agglomeratives Clustering
DBSCAN
Clusteralgorithmen
Evaluierung und Verbesserung (ca. 2 Tage) :
Kreuzvalidierung
Gittersuche
Evaluationsmetriken
Klassifikation
Projektarbeit (ca. 3 Tage) :
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse