03/03/2022

Python Bibliotheken für Data Science

Mithilfe von Python Bibliotheken ist die nummerische Berechnung, die tabellarische Darstellung und Visualisierung von Daten möglich. Zudem gibt es Python Bibliotheken für maschinelles Lernen.

In unserem zweiten Wissenstransfertreffen: Werkzeuge der KI erläuterte Tim Sokollek die Grundlagen von Python sowie die folgenden unterschiedlichen Python Bibliotheken für Data Science.

NumPy für numerische Berechnungen

Mit NumPy ist das effiziente Rechnen mit Matrizen, mehrdimensionalen Arrays und Vektoren möglich. Eine Anleitung finden Sie hier.

NumPy Arrays

import numpy as np

a = np.arange(15).reshape(3, 5)

Pandas für tabellarische Daten

Die Python-Bibliothek Pandas eignet sich für die Bearbeitung und Auswertung tabellarischer Daten und kann Daten verschiedener Formate einlesen und transformieren. Eine Anleitung finden Sie hier.

pandas Series

import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8])

s

pandas DataFrames

dates = pd.date_range("20130101", periods=6)

dates
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))

df

Matplotlib für Visualisierung

Eine geeignete Python-Bibliothek für die Visualisierung ist Matplotlib, insbesondere für die Erstellung von Grafiken auf hohem Niveau. Mit nur wenigen Code-Zeilen kann man mithilfe von Matplotlib vorhandene Daten auf unterschiedlichste Art und Weise visualisieren: Plot, Histogramm, Spektrum, Balkendiagramm, Kuchendiagramm, Scatter und weitere. Für fortgeschrittene Anwender bietet Matplotlib viele Konfigurationsmöglichkeiten, um auch komplexe Darstellungen zu ermöglichen. Eine Anleitung finden Sie hier.

Beispiel

import matplotlib.pyplot as plt

fig, ax = plt.subplots()
ax.plot([1, 2, 3, 4], [1, 4, 2, 3])

Weitere Beispiele: https://mybinder.org/v2/gh/matplotlib/mpl-brochure-binder/main?labpath=MatplotlibExample.ipynb

Scikit-learn für maschinelles Lernen

Scikit-learn arbeitet mit wissenschaftlichen Python-Bibliotheken wie SciPy oder NumPy zusammen. Mithilfe von Scikit-learn ist es möglich, Modelle verschiedener Daten zu klassifizieren und den Classifier mit Trainingsdaten zu trainieren. Eine Anleitung finden Sie hier.

from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(random_state=0)
X = [[ 1, 2, 3], [11, 12, 13]]
y = [0, 1]
clf.fit(X, y)
clf.predict(X)
clf.predict([[4, 5, 6], [14, 15, 16]])

Deep Learning

Zwei große Deep Learning Bibliotheken sind TensorFlow und PyTorch, welche in unterschiedlichen Anwendungsfällen genutzt werden können.

Die Vorlesungsfolien zum Vortrag über Python Bibliotheken für Data Science finden Sie hier.