Data Science: Daten zu Wissen

Einführendes Beispiel

Data Science ist eine Sammlung von Methoden, mit denen das in Daten versteckte Wissen entdeckt werden kann. Als Beispiel versetzen wir uns in eine Firma, die ein neues Produkt veröffentlicht hat und noch nicht weiß, wer die Kunden sind. Leider hatte das Marketing verschlafen, die möglichen Kundensegmente vor der Produkteinführung zu ermitteln. Die Firma möchte jetzt wissen, wer die Kunden sind. Dazu hat die Firma in einem Supermarkt die folgenden Daten gesammelt:

In jeder Zeile finden sich die Daten für einen Kunden. In jeder Spalte die beobachteten Daten. Der Einfachheit halber werden hier sehr grobe „Schubladen“ für die Einteilung der einzelnen Spalten benutzt.

  • Die Kunden wurden anhand ihres Alters in JUNG, MITTEL und RENTNER kategorisiert.
  • Als Tageszeiten wurden VORMITTAG, NACHMITTAG und ABEND benutzt.
  • Die Befüllung des Einkaufswagens wurde mit KEIN, WENIG, MITTEL und VOLL erfasst.
  • Das Wetter wurde vereinfacht zu REGEN, SONNE oder BEWÖLKT.
  • Und am Ende ob das neue Produkt gekauft wurde oder nicht JA oder NEIN.

Jetzt sind das nur Daten von 13 Einkäufen und 5 beobachteten Variablen (den Spalten). Man muss sich jetzt bei einer Datenanalyse als erstes Fragen, welche unbeobachteten Variablen es noch geben könnte. Welche Daten könnten die Datenanalyse verbessern? Spielen hier noch weitere Faktoren in die Kaufentscheidung ein? In der Realität ist das sehr wahrscheinlich. Wie ist es mit der Kleidung des Kunden? Mit der Frisur? Wenn das neue Produkt ein Haarspray ist, ist die Frisur bestimmt ein wichtiges Merkmal. Wie ist das mit dem Wetter? Wenn das Produkt Speiseeis ist, ist das Wetter auch bestimmt wichtig.

Ein Grund für die oftmals in den Medien beklagte „Datensammelei“ der Unternehmen liegt ganz einfach darin, dass man vor der Analyse gar nicht weiß, welche Merkmale wichtig sind. Also sammelt man erst mal alles auf Vorrat nach dem Motto „Es könnte ja noch nützlich sein“. Das macht aus informationstheoretischer Sicht auch Sinn, denn um die Unsicherheit zu reduzieren, braucht man Informationen.

Die Daten in unserem Beispiel befinden sich schon in einem guten Zustand. Sie sind alle einheitlich. In der Realität müssen Daten, wie im Kapitel 6.4 besprochen, erst bereinigt und standardisiert werden. Ansonsten heißt es bei einer Datenanalyse „Garbage in, Garbage out“.

Eine erste Analyse von Daten macht man gewöhnlich mit Statistiken und Visualisierungen. Hier haben sich die Pivot-Tabellen und -Charts von Excel sehr verbreitet. Wenn man mit neuen Daten arbeitet, ist es sinnvoll, sich mit diesen erstmal Daten vertraut zu machen, in dem man sich die üblichen statistischen Kennzahlen anguckt.

Klassifikation und Regression

Seit den 90er-Jahren wird an der automatischen Extraktion von Wissen aus Daten gearbeitet. Das Gebiet hieß früher „Knowledge Discovery in Databases“ (KDD), wurde dann oft auch als „Data Mining“ bezeichnet und wird heute „Data Science“ genannt.

Im obigen Beispiel ist das Problem, eine Verbindung zwischen den Verkäufen und den anderen Daten zu finden, um die Frage „wer sind unsere Kunden“ zu beantworten. Man möchte die Spalte „Produkt Gekauft“ anhand der Werte in den anderen Spalten vorhersagen. Hierzu eignen sich sog. Entscheidungsbäume. Diese Bäume können anhand der Beispieldaten nach informationstheoretischen Gesichtspunkten durch Software optimal erstellt werden. Der folgende Entscheidungsbaum sagt z. B. die Ergebnisse der Spalte „Produkt Gekauft“ anhand der Spalten „Einkaufswagen“ und „Tageszeit“ voraus.

Dieser Baum wird auf jeden Datensatz angewendet. Ein solcher Baum ist von oben nach unten zu lesen. Die länglichen Knoten, die ein Fragezeichen enthalten, sind Entscheidungen, die Knoten ohne Nachfolger sind Ergebnisse. Der obige Baum entspricht der folgenden Logik „Wenn der Wert in der Spalte ‚Einkaufswagen‘ gleich ‚KEIN‘ ist, dann ‚Nein‘, wenn er ‚MITTEL‘ ist, dann auch ‚NEIN‘, wenn er ‚WENIG‘ ist, dann überprüfe die Spalte ‚Tageszeit‘, usw.“ Ein Entscheidungsbaum entspricht geschachtelten IF-THEN-ELSE-Regeln. Der obige Baum ist z. B. gleichbedeutend mit

IF (Einkaufswagen = WENIG) THEN
    IF (Tageszeit = NACHMITTAG) THEN Ja
    ELSE Nein
ELSE
    IF (Einkaufswagen = VOLL) THEN Ja
    ELSE Nein

Ein solcher Entscheidungsbaum enthält das „Wissen“ über die Spalte „Produkt Gekauft“. Die Firma weiß jetzt, dass das Produkt von Kunden mit vollen Einkaufswagen oder am Nachmittag gekauft wird. Die Firma weiß auch, dass das „Alter“ und das „Wetter“ nicht benötigt werden. Aus Daten wurde Wissen, das in einer Datenstruktur, in einem Modell gespeichert wurde.

In diesem Beispiel wurde der Wert eine zweiwertigen Variable „Produkt Gekauft“ vorhergesagt. Eine solche Einteilung in diskrete Symbole wird Klassifikation genannt. Weitere Beispiele für die Klassifikation sind z. B. [CM16]

  • Die Erkennung der Vogelart am Gesang eines Vogels
  • Die Erkennung von bösartigen Tumoren und Krankheiten

Wenn die Spalte „Produkt Gekauft“ nicht JA und NEIN, sondern die Anzahl der gekauften Produkte beinhalten würde, wäre es keine Klassifikation mehr, sondern eine Regression. Für Regressionen werden andere Techniken als Entscheidungsbäume benutzt. Da Zahlen vorherzusagen sind, sind die Verfahren meistens mathematischer Natur und haben ihre Wurzeln in der mathematischen Statistik. Die einfachste Regression ist die lineare Regression, die sich sehr anschaulich erklären lässt. In der folgenden Abbildung sind eine Menge von Punkte und die sog. „Regressionsgerade“ eingezeichnet.

Umgangssprachlich gesprochen ist die Gerade so nah wie möglich an allen Punkten. Um dieses Verfahren genauer zu beschreiben, müsste man allerdings sehr viel mathematischer werden. Das würde den Rahmen des Buchs übersteigen. Es reicht zu wissen, dass Regression ein mathematisches statistisches Verfahren ist, um verschiedene Datenpunkte „auf eine Linie zu bringen“. „Pi mal Daumen“ gesehen befinden sich die Punkte alle auf der Geraden. Man könnte jetzt statt den einzelnen Punkten nur noch die Gerade speichern und bei Bedarf die Punkte anhand der Gerade berechnen.

Geraden haben in der Mathematik den Vorteil, das mit ihnen relativ einfach gerechnet werden kann. Sie haben aber den Nachteil, dass sie sehr ungenau approximieren. Wenn man eine Regression mit einem Polynom dritten Grades macht, dann können die Punkte sehr viel näher angeglichen werden, wie in der nächsten Abbildung ersichtlich ist:

Aber die mathematischen Formeln werden schwieriger. Hier gibt es einen Tradeoff zwischen Genauigkeit und mathematischer Komplexität. Eine Gerade kann mit ax + b beschrieben werden, aber ein Polynom dritten Grades benötigt ax^3 + bx^2 + cx + d. Es ist sehr viel einfacher mit linearen Gleichungen zu rechnen. Die polynomiale Regression gehört zu den sog. nichtlinearen Regressionen.

Die Regression wurde schon in sehr vielen Bereichen erfolgreich angewendet, wie z. B. [CM16]:

  • Finde neue Diamanten-Minen anhand der Daten der Umgebungen bisheriger Minen.
  • Welche Teile eines Autos werden wahrscheinlich als nächstes ausfallen?
  • Wieviel Geld wird eine bestimmte Person im nächsten Monat ausgeben?

Die in der Bilderkennung und bei selbstfahrenden Autos verwendeten neuronalen Netze sind Datenstrukturen, die nichtlinearen Regressionen anhand von Beispielen lernen können. Wir werden die neuronalen Netze später in Abschnitt 8.5 genauer erklären.

Data Mining

Der Data-Mining-Prozess

Im obigen Beispiel mit dem Entscheidungsbaum für die Einkäufe im Supermarkt wurde gleich beim ersten Durchlauf ein funktionierendes Modell gefunden. Das ist in der Realität leider oft ganz anders, weil es einerseits sehr viel mehr Daten gibt und andererseits die Daten oft „verrauscht“ sind und Fehler enthalten. Oft hat man die richtigen Daten noch gar nicht und muss sie erst besorgen. Die verschiedenen Klassifikationsverfahren haben viele Parameter und Gewichtungen, die man richtig einstellen muss, um gute Ergebnisse zu erhalten. Entscheidungsbäume kann man z. B. stutzen („pruning“), wenn sie zu groß werden.

Die Erstellung von guten Modellen mit Data-Mining ist ein langwieriger und arbeitsintensiver Prozess, der aus den folgenden Schritten besteht [PF13]:

  1. Analyse der Geschäftssituation und der vorhandenen Daten: Was soll erreicht werden? Was ist das Ziel? Sind die Daten gut genug? („business and data understanding“)
  2. Aufbereitung der Daten („data preparation“): Reinigung, Vereinheitlichung wie im Data-Warehouse und Konvertierung in das „richtige“ Format.
  3. Erstellung des Modells: Das eigentliche „Data Mining“
  4. Überprüfung und Test(„evaluation“): Ist das Modell gut genug?
  5. Einsatz des Modells: Analyse oder Vorhersage

Diese Schritte sind aber nicht immer der Reihe nach abzuarbeiten. Oft merkt man erst nach Schritt 3, dass man eigentlich noch weitere Daten benötigt und man muss bei Schritt 1 weitermachen.

Beim Test wird das gefundene Modell an neuen Daten überprüft. Was würde der gefundene Baum mit dem folgenden Datensatz machen?

Es würde ‚NEIN‘ sagen, weil Einkaufswagen gleich ‚KEIN‘ ist. Aber damit würde er eine falsche Antwort liefern. Die Beispieldaten zum Trainieren des Baums haben diesen Fall nicht enthalten. Wichtig ist es daher, dass die Daten, die zum Trainieren benutzt werden, möglichst viele Kombinationen enthalten. Außerdem werden unterschiedliche Daten zum Trainieren und zum Testen benötigt.

Nehmen wir mal an, das Unternehmen kennt die Kunden des Supermarkts und möchte mit dem Entscheidungsbaum vorhersagen, wie viele Produkte es an den Supermarkt liefern muss. Sie nutzen den Baum zur Vorhersage.

Wenn eine Klassifikation ein falsches Ergebnis liefert, gibt es zwei verschiedene Möglichkeiten:

Wenn das Model ‚NEIN‘ sagt, der Kunde aber kauft, ist die Vorhersage „falsch negativ“. Wenn das Model aber ‚JA‘ sagt, der Kunde aber nicht kauft, ist die Vorhersage „falsch positiv“.

In beiden Fällen kommt es für das Unternehmen zu Unannehmlichkeiten, die aber ganz unterschiedliche Folgen haben. Fehler ist hier nicht gleich Fehler. Bei einem falschen Positiven wurde dem Supermarkt ein Produkt zu viel geliefert, die Einnahmen aber werden geringer sein als erwartet. Bei einem falschen Negativen ist im Lager des Supermarkts ein Produkt zu wenig vorhanden. Man könnte insgesamt mehr verkaufen.

In anderen Szenarien sind die Kosten für die beiden Klassifikationsfehler aber noch größer. Stellen wir uns ein Modell vor, das den Betrug von Checkkarten entdecken soll. Das System untersucht jeden Datensatz und kann Alarm schlagen oder nicht.

Die falschen Positive sind jetzt Fehlalarme. Der normale Betrieb wird unterbrochen, die Polizei gerufen usw. Alles das verursacht Kosten. Die falschen Negative sind unentdeckte Betrugsfälle, die auch immensen Schaden anrichten.

Die Fehlerrate eines Klassifizierers ist die Anzahl der falsch eingeordneten Datensätze. Im Allgemeinen wird versucht, diese Fehlerrate so niedrig wie möglich zu bekommen. Wenn falsche Klassifikationen höhere Kosten verursachen, müssen die Modelle natürlich lange getestet und verfeinert werden.

Wichtig: Data-Mining ist ein iterativer Prozess, bei der die Fehlerrate schrittweise verbessert wird.

Die Erstellung eines funktionierenden Modells zur Vorhersage ist also alles andere als einfach, sondern eine zeit- und arbeitsintensive Aufgabe, die sehr viel Wissen über den Anwendungsbereich und die Verfahren des Data Mining erfordert. Eine weitere Schwierigkeit ist, dass man am einfachsten Lernen kann, wenn man möglichst oft ein Feedback bekommt. Betrachten wir als Beispiel die Wettervorhersage. Hier kann man täglich eine Vorhersage machen und kann das Modell täglich überprüfen. Die Fehlerrate kann täglich verbessert werden. Die Einnahmen im Einzelhandel zur Weihnachtszeit hingegen lassen sich nur einmal pro Jahr vorhersagen und überprüfen. Hier dauert es wahrscheinlich Jahrzehnte, bis das Modell eine gute Fehlerrate hat [TG15].

Oftmals entsteht in den Medien, der Eindruck, das mit Big Data und Künstlicher Intelligenz die Computer plötzlich alles über die Menschen wissen und sie überwachen können. Dieses Wissen aber muss für jede spezielle Frage durch einen aufwendigen Data-Mining-Prozess aus den Rohdaten gewonnen werden. Es ist nicht so, dass man dem Computer einfach nur die Daten zeigen muss und schon „fallen Einsichten und Weisheiten vom Himmel“. Die Data-Mining-Programme sind ein Mittel, um große Datenmengen zu bewältigen. Sie basieren auf statistischen und informationstheoretischen Algorithmen.

Wichtig: Die Intelligenz steckt in den Data Scientists, die die Methoden intelligent auf ausgesuchte Daten anwenden.

Weitere Techniken

Die beiden besprochenen Verfahren Klassifikation und Regression zählen zu den „überwachten Lernverfahren“ („supervised“). Es wird „überwachtes“ Lernen genannt, weil man dem Algorithmus sagt, was er lernen soll. Es ist Lernen anhand eines Beispiels [PF13]. Im obigen Beispiel war es die Spalte „Produkt Gekauft“. Es gibt neben den Entscheidungsbäumen noch sehr viele weitere Techniken für die Klassifikation und die Regression, wie z. B. neuronale Netze, Bayessche-Netze oder Stützvektormaschine („support vector machines“) [PF13, SB14].

Bei den „unüberwachten Lernverfahren“ („unsupervised“) wird kein zu erlernendes Ziel vorgegeben. Diese Verfahren dienen daher eher zur Analyse [PF13].

Bei der Cluster-Analyse wird versucht, die Datensätze in k verschiedene Gruppen einzuteilen. Dabei sollen sich die Datensätze innerhalb einer Gruppe möglichst ähnlich sein. Die Cluster-Analyse wird z. B. bei der Einteilung von Kunden in Kundengruppen eingesetzt.

Beim Profiling wird ein Modell des Verhaltens von Nutzern oder Kunden erstellt, um ihr zukünftiges Verhalten vorherzusagen oder um abweichendes Verhalten festzustellen. Ein typischer Anwendungsfall ist ein Intrusion-Detection-System (IDS), das für jeden Benutzer ein Profil anlegt. Falls ein Hacker in den Computer einbricht und er sich anders verhält als der Benutzer, dann bemerkt das IDS ein untypisches Verhalten und kann Alarm schlagen.

Bei der Warenkorbanalyse („market basket analysis“) wird versucht herauszufinden, welche Produkte zusammen gekauft werden. Diese bildet auch die Basis für Empfehlungsdienste („recommender systems“) nach dem Motto „Kunden, die dieses Produkt kauften, haben sich auch für … interessiert“.

Theorie des maschinellen Lernens

Hinter diesen ganzen Lernverfahren steht eine ausgefeilte mathematische Theorie, die „computational learning theory“ bzw. die Theorie des maschinellen Lernens [SB14]. Diese untersucht z. B. welche Konzepte mit welchen Methoden überhaupt erlernbar sind, wie viele Beispiele dafür erforderlich sind und welche Fehlerrate höchstens erreicht werden kann. Es ist eine sehr mathematische Theorie zwischen der Statistik und der Informatik. Ein Ergebnis der Theorie ist, dass man nicht einfach jedes Konzept einfach erlernen kann, um fehlerfreie Prognosen zu machen. Die Situation ist wesentlich komplizierter. Als Faustregel kann man sagen, je einfacher das zu erlernende Konzept und je umfangreicher die Daten, desto besser die Vorhersage.

Wichtig: Lernen hat informationstheoretische Grenzen. Komplexe Systeme sind auch für maschinelle Lernverfahren komplex und nicht vorhersehbar.

Text-Mining

Bei der Verarbeitung von Texten in natürlicher Sprache werden andere Techniken benötigt als bei der traditionellen Datenanalyse, denn Texte gehören zu den „unstrukturierten“ Daten. Natürlich haben natürliche Sprachen eine Struktur, wie z. B. eine Syntax und Regeln der Grammatik, aber diese Struktur ist nicht auf der semantischen Ebene, also auf der Ebene der Bedeutung. Ein Computer kann die Bedeutung hinter der Sprache (noch?) nicht verstehen. Aber er kann Sprache anhand der Syntax und von Regeln verarbeiten und es wurden in vielen Bereichen schon Teilerfolge erzielt [CM16, PF13].

Bei der Text-Klassifizierung werden z. B. Emails anhand von Schlüsselworten und ihren Auftrittshäufigkeiten in Kategorien eingeteilt. Dieses wird bei der Kundenbetreuung in großen Firmen eingesetzt, um Beschwerden an die richtige Abteilung weiterzuleiten. Bei der Sentimental-Analyse wird versucht, die Stimmung bzw. die Haltung des Autors festzustellen. Mit Text-Mining können Fälschungen und Plagiate erkannt werden oder auch standardisierte Berichte von z. B. Aktienkursen verfasst werden.

Die meisten Werkzeuge, im Bereich Text-Mining sind „ad-hoc“. Sie bauen nicht auf sprachwissenschaftlichen Theorien auf, sondern „tricksen“ ein Verständnis vor. Text-Mining ist heutzutage eine Mischung aus Linguistik, Informatik, Statistik und dem maschinellen Lernen.

Weiteres zur Verarbeitung von natürlicher Sprache gibt es später in Abschnitt 8.2.

Software

Es gibt sehr gute Software-Pakete zum Ausprobieren von Data Science und Data Mining:

Daten-intensive Wissenschaft

Die neuen Möglichkeiten durch Big Data und Data Science haben zur daten-intensive Wissenschaft geführt. Die Wissenschaften haben grob vereinfacht die folgenden Schritte durchlaufen (nach [HTT09]):

  1. Experimentell
  2. Theoretisch
  3. Computerisiert („computational“)
  4. Daten-Intensiv

Vor ca. 1000 Jahren war die Wissenschaft „experimentell“. Natürliche Phänomene wurden beobachtet und in Experimenten nachgestellt. Vor ca. 400 Jahren wurde die Wissenschaft „theoretisch“ und man begann Theorien über die beobachteten Phänomene zu bilden, man erstellte Modelle, Abstraktionen und Verallgemeinerungen. Beispiele hierfür sind die Newtonschen Gesetze und die Maxwell-Gleichungen. Seit den 60er-Jahren wurde die Wissenschaft „computerisiert“: die theoretischen Modelle wurden mit Computern berechnet und überprüft. Man begann mit Simulationen, die u. a. zur agentenbasierten Modellierung führten. Seit ca. 2010 gibt es die „daten-intensive“ Wissenschaft. Daten werden bei Experimenten oder bei Simulationen erfasst und anschließend mit Big Data verarbeitet und mit Data Science analysiert.

Wichtig: Big Data und Data Science sind ein Mittel, um die Unsicherheit zu reduzieren, damit Organisationen bessere Entscheidungen machen können.

Das betrifft alle Organisationen, also sowohl Unternehmen, als auch die Wissenschaft, Umweltschutzorganisationen und staatliche Institutionen.

Kaufen

Unterstützen Sie den Autor, indem Sie das Buch oder das E-Book kaufen:

Diskutieren