03/03/2022

Zweites Wissenstransfertreffen: Werkzeuge der KI

Beim zweiten Wissenstransfertreffen unseres KI-HUBs am 18. Februar 2022 zum Thema Werkzeuge der KI trafen wir mit Unternehmen und Interessierten in der virtuellen Welt von WonderMe zusammen. Im Fokus stand die Programmiersprache Python, die Einführung in KI-Modelle sowie der interaktive Austausch aller Teilnehmenden.

Python Basics

Das zweite Wissenstransfertreffen startete mit einer Einführung von Tim Sokollek in die Programmiersprache Python. Nach einer Erläuterung über den Aufbau und den Einsatz von Python wurde das Arbeiten mit Python interaktiv vorgestellt. Im Anschluss hatten alle Teilnehmenden die Möglichkeit, sich selbst am Programmieren mit Python-Codes zu versuchen und die Python-Umgebung besser kennenzulernen.

Nähere Informationen und Beispiele zu Python finden Sie in unserem E-Learning Beitrag Python Grundlagen.

Im Anschluss wurden die folgenden Python Bibliotheken für Data Science den Teilnehmenden vorgestellt:

  • NumPy für numerische Berechnungen
  • Pandas für tabellarische Daten
  • Matplotlib für Visualisierung
  • Scikit-learn für maschinelles Lernen
Scikit-learn für maschinelles Lernen.png

Zudem gab Tim Sokollek einen Einblick in die zwei großen Deep Learning Bibliotheken TensorFlow und PyTorch, welche in unterschiedlichen Anwendungsfällen genutzt werden können.

Eine Zusammenfassung zu diesen Bibliotheken finden Sie in unserem E-Learning Beitrag Python Bibliotheken für Data Science.

KI-Modelle und Methoden

Den zweiten Themenblock, die Einführung in Modelle startete Philipp Väth anhand eines Beispiels mit dem Datensatz COVID-19 Data Hub. Hierbei ging es um die mathematische Repräsentation von Daten sowie um Skalare, Vektoren und Matrizen.

Mit dem Datensatz COVID-19 Data Hub werden die Corona-Zahlen abgebildet. Mit Pandas hat man die Möglichkeit aus diesen Informationen die täglichen Neuinfektionen zu bestimmen und den Verlauf grafisch darzustellen. Des Weiteren zeigte Philipp Väth wie man den Datensatz skalieren kann. Bei der Interpretation der Daten kommen die Modelle ins Spiel.

Einführung in Modelle.png

Die Grundlage eines Modells ist die Daten zu beschrieben. Hier kann die Deskriptive Statistik herangezogen werden. Hierfür erklärte Philipp Väth die Anwendungsfälle und die Unterschiede zwischen dem Arithmetischen Mittelwert, Geometrischen Mittelwert, Median und Modus. Um die Daten gut beschreiben zu können und Aussagen treffen zu können, braucht es jedoch weitere Kenngrößen. Hierfür wird die Varianz (Maß der Streuung), Standardabweichung (Durchschnittliche Entfernung zum Mittelwert), Kovarianz (Abhängigkeit zweier Variablen) und Korrelations-Koeffizient (Pearsonkorrelation) verwendet. Die Teilnehmenden hatten die Möglichkeit ihr erlerntes Wissen anzuwenden und eine Visualisierung der Daten mithilfe der statistischen Kenngrößen durchzuführen.

Philipp Väth gab interessante Einblicke in die Modellierung. Durch die Modellierung kann die oft komplexe Realität durch wesentliche Größen beschrieben werden. Die Modelle folgen Annahmen und können dabei Ursachen von Beobachtungen erklären oder sogar vorhersagen. Bei der Modellbildung stehen folgende Schritte im Vordergrund:

  1. Abgrenzung – Was ist das Szenario und was gehört dazu?
  2. Reduktion – Entfernen irrelevanter Merkmale
  3. Aufteilung – Lässt sich das Problem zerteilen?
  4. Abstraktion – Bildung von (Modell-)Klassen

Niklas Reuther fuhr mit der Verarbeitung der Daten fort. Dies ist der erste Schritt nach der Datenaufnahme. Den Teilnehmenden wurde ein mögliches Vorgehen am Beispiel eines Datensatzes eines Partnerunternehmens vorgestellt. Niklas Reuther ging dabei auf das Sichten der Datenbasis, Entfernen unnützer Attribute, Feature Selection und Sichten der Ergebnisse ein.

Im Anschluss stellte Tim Sokollek das Thema Unsupervised Learning and Clustering vor. Unsupervised Learning kann eine optimale Lösung für sehr komplizierte Aufgaben darzustellen. Durch Clustering mit bestimmten Methoden können durch Ähnlichkeiten in den vorhandenen Daten Gruppen erstellt werden. Die Besonderheit an Unsupervised Machine Learning ist, dass dem Lernalgorithmus keine Labels gegeben werden und es ihm somit selbst überlassen ist, eine Struktur seiner Eingabe zu finden. Beispiele für Unsupervised Learning im Kontext des Clustering sind Text-Mining, Data-Mining, Bildverarbeitung und Mustererkennung. Es gibt die folgenden Verfahren für Clustering:

  • Partitionierende Verfahren
  • Wahrscheinlichkeitsbasierte Verfahren
  • Dichtebasierte Verfahren
  • Hierarchische Verfahren

Zum Schluss präsentierte Philipp Väth die Regression und die Klassifikation. Die Regression gibt an, wie Daten zusammenhängen und wie der Verlauf von Daten aussieht. Für eine geeignete Darstellung muss geprüft werden, ob die Daten linear, quadratisch, kubisch oder als Polynome höherer Ordnung vorliegen sowie die Fehlerrate zwischen der Darstellung und dem Verlauf der ursprünglichen Daten.

Klassifikation ist Supervised Learning und unterscheidet sich im Vergleich zum Clustering dadurch, dass nicht nur die Eingabedaten vorhanden sind, sondern auch Klassenlabels. Zu diesem Thema zeigte Philipp Väth vertiefende Videos, in welchen die Vorgehensweise der Klassifikation und der Entscheidungsbaum von Prof. F.-M. Schleif erläutert wurde.


Wir bedanken uns bei allen Teilnehmenden für den interessanten Austausch und freuen uns auf das 4. Netzwerktreffen am 23. März 2022! Wenn Sie auch Teil unseres Netzwerks werden wollen, melden Sie sich gerne bei uns.