Text Mining

Text Mining oder wie arbeite ich mit dem Rohstoff Text?

Text steht uns in unserer multi-optionalen digitalen Gesellschaft in großen Mengen zur Verfügung und dient uns als Wissensrohstoff. Um dieses Wissen zu strukturieren, aufzubereiten und Entscheidungen oder Vorgehensweisen abzuleiten, ist Text Mining erforderlich. [1]

Aber was bedeutet Text Mining? [1]

In einer Datenbank liegen uns die Daten in der Regel in strukturierter Form vor. Texte sind unstrukturiert, d.h. es ist nicht sofort ersichtlich, welche Schlüsselbegriffe relevant sind und in welcher Beziehung verschiedene Texte zueinander stehen. Durch Text Mining Werkzeuge ist es möglich, relevante Inhalte und Zusammenhänge zu extrahieren.
Text Mining bezeichnet daher die semantische Analyse von Texten, die automatisch oder semi-automatisch durch computergestützte Verfahren durchgeführt wird und auf sehr große Mengen von Text angewendet werden kann. Die Grundlagen für diese Verfahren sind statistisch oder musterbasiert.
Die Texte liegen in unterschiedlichen Formaten vor, daher werden sie konvertiert und in Sätze und Wörter zerlegt. Im Anschluss werden Zusammenhänge berechnet und die Ergebnisse in einer relationalen Datenbank abgelegt. Diese dient dann als Grundlage, um weitere Auswertungen durchzuführen. Die folgende Abbildung veranschaulicht die einzelnen Schritte:

Text Mining
Ablaufschema der Auswertungsschritte zum Aufbau der relationalen Datenbank, Quelle: Eigene Darstellung in Anlehnung an [1]

Da die grundlegende Vorgehensweise nun bekannt ist, stellt sich die Frage, welche Anwendungsgebiete es dann für Text Mining gibt und wie wichtig Text Mining in der heutigen digitalisierten Welt ist.

Die häufigsten Anwendungsgebiete von Text Mining [2]

  • Informationsextraktion

    Hier geht es darum, Schlüsselinformationen im Text automatisch zu finden. Verschiedene Informationen können dann in Zusammenhang zueinander gebracht werden.

  • Themenverfolgung (Topic Tracking)

    Beispielsweise über google und yahoo kann der Nutzer Schlüsselwörter eingeben und wird dann informiert, wenn es dazu neue Informationen gibt. Auf diese einfache Art und Weise kann ein Unternehmen Informationen zu einem Produkt, seiner Marke oder sonstigen relevanten Themen einfach filtern und auflisten.

  • Zusammenfassen (Summarization)

    Es sollen mehrere lange Texte so zusammengefasst werden, dass der Leser einen schnellen Überblick erhält und die Hauptaussage schnell erfassen kann.

  • Kategorisieren (Categorize)

    Nach einer inhaltlichen Analyse wird ein Dokument einer Kategorie zugeordnet. Die Einteilung der Kategorien erfolgt mit Trainingsdaten. Ein neues Dokument wird dann automatisch der entsprechenden Kategorie zugeordnet.

  • Clusterbildung (Clustering)

    Es erfolgt eine Kategorisierung einer Sammlung von Dokumenten in verschiedene Cluster. Dies geschieht vollautomatisch, ohne vorher Kategorien festzulegen.

  • Concept Linkage („Themen-Verbindung“)

    Texte mit gemeinsamen Themen werden verbunden und in Zusammenhang gebracht. Diese Zusammenhänge wären mit herkömmlichen Forschungsmethoden nur schwer zu erkennen gewesen.

  • Informationsvisualisierung (Information Visualizing)

    Große Textbestände werden in einer Hierarchie oder Landkarte dargestellt, die der Nutzer aktiv durch zoomen oder skalieren nutzen kann.

  • Frage-Antwort-System (Question Answering)

    Text Mining wird ebenfalls eingesetzt, um natürliche Fragen zu beantworten. Hierfür werden verschiedene Technologien in Kombination eingesetzt.

Im Zusammenhang mit Text Mining ist auch das Social Media Monitoring ein sehr wichtiger Aspekt. Erst im November 2014 konnten Sie hier auf dem Blog in einen Artikel lesen, warum Social Media Monitoring immer wichtiger wird.

Wie sinnvoll Text Mining ist, zeigt ein Praxisbeispiel[3]

In der Medizin gibt es eine Vielzahl an Veröffentlichungen, die es einem Forscher unmöglich machen, alle zu lesen. Hier kann Text Mining helfen, Inhalte zu verknüpfen und somit Analysen durchzuführen. So wurde beispielsweise bei einer Analyse mit dem Keyword „migraine“ ein weiteres Schlüsselwort „spreading depression“ entdeckt. Nachdem mit diesem weitergesucht wurde, konnte noch ein Schlüsselwort identifiziert werden „magnesium defiency“. Dadurch schloss der Forscher, dass Magnesiummangel Migräne zur Folge haben kann. Mit einer empirischen Untersuchung durch wissenschaftliche Experimente konnte er diese These auch bestätigen.
So konnte durch Text Mining Verfahren neues Wissen entdeckt werden, dass isoliert nicht in den Dokumenten auffindbar gewesen wäre.
Ohne Text Mining wäre es also nicht möglich, die großen Datenmengen aus dem World Wide Web zu filtern und zu analysieren, damit die Ergebnisse danach gewinnbringend eingesetzt werden können.

Quellen:
[1] Text Mining: Wissensrohstoff Text, G.Heyer/ U. Quasthoff/ T. Wittig, Herdecke; Bochum : W3L-Verl., 2008
[2] http://wissensexploration.de/textmining-aufgaben.php, aufgerufen am 23.01.2015
[3] http://wissensexploration.de/wissensexploration-artikel-text-mining-beispiele.php, aufgerufen am 23.01.2015

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert