Datensätze schnell und optimal auswerten: Die INFOMOTION Data Science Toolbox

19.02.19

Digitale Transformation

Die Digitalisierung eröffnet bislang ungeahnte Möglichkeiten, aus Daten Informationen zu gewinnen. Ein besonderes Feld sind dabei unstrukturierte Daten, etwa Texte oder Bilder. Die besondere Herausforderung: In jedem einzelnen Anwendungsfall muss bisher in einem aufwendigen Prozess die jeweils optimale Methode zum Auswerten der Datensätze identifiziert werden. Um diesen Prozess erheblich zu beschleunigen und eine hohe Qualität sicherzustellen, haben wir ein eigenes Instrument entwickelt – die INFOMOTION Data Science Toolbox.

Drucken

EINSATZBEREICHE FÜR TEXTKLASSIFIKATIONSMODELLE

Die automatisierte Klassifikation von Texten wird für Unternehmen zunehmend wichtiger, denn damit sparen sie sehr viel manuellen Aufwand und können oftmals sehr viel mehr Daten analysieren und nutzen. Dafür gibt es bereits vielfältige Anwendungen. Die wohl bekannteste ist die Sentimentanalyse, die Stimmungen und Emotionen z. B. in Social Media-Texten erkennt. Weitere Anwendungsbereiche sind das automatische Bewerten von Texten, um Markttrends zu identifizieren, das Aufdecken von Intentionen in der Kundenkommunikation oder auch das Erkennen von Zusammenhängen beispielsweise in wissenschaftlichen Texten.

Neue Machine Learning-Methoden und -Technologien, insbesondere Deep Learning sind die wesentlichen Treiber für die Textklassifikation. Der Begriff Deep Learning bezeichnet dabei Anwendungen von Deep Neural Networks. Diese sind vielschichtiger als ihre Vorgänger und gerade deshalb in der Lage, komplexere Zusammenhänge in Bildern oder Texten zu erkennen. So sind in den vergangenen Jahren neben die herkömmlichen Verfahren der Textklassifikation verschiedene Architekturen von neuronalen Netzen getreten, etwa Recurrent Neural Networks (RNN) oder Long Short Term Memory Networks (LSTM). Auch einfache neuronale Netze und spezielle Wortvektoren kommen erfolgreich zum Einsatz, beispielsweise beim FastText-Algorithmus, der von Facebook entwickelt wurde.

DIE HERAUSFORDERUNG: WAS IST DIE OPTIMALE METHODE?

Nur – die Schlüsselfrage ist damit noch nicht beantwortet: Welche Methode ist die optimale für den jeweiligen konkreten Use Case? Bislang ist das im Vorfeld nicht verlässlich abzuschätzen, weshalb sich in der Praxis ein empirisches Vorgehen etabliert hat. Um die geeignetste Methode zu identifizieren, werden in zahlreichen Optimierungsexperimenten und Evaluationsschritten verschiedene Verfahren gegeneinander getestet. Das ist schon deshalb erforderlich, weil neuronale Netze über viele Konfigurationsparameter verfügen, die einen erheblichen Einfluss auf die Prognosegenauigkeit haben. Diese pragmatische Vorgehensweise hat sich bewährt, aber sie ist rechenintensiv und kann auch schon mal mehrere Tage Zeit beanspruchen.

DIE LÖSUNG: DIE INFOMOTION DATA SCIENCE TOOLBOX

Da wir am Markt kein Instrument gefunden haben, um für unsere Kunden diesen aufwendigen Prozess der Methodenauswahl ohne Einbußen bei der Prognosegenauigkeit zu verkürzen, haben wir selbst etwas entwickelt: Die INFOMOTION Data Science Toolbox. Für verschiedene Data Science-Lösungen – wie eben die Textklassifikation – sind wir jetzt in der Lage, in kürzester Zeit gängige State-of-the-Art-Verfahren auf einem Datensatz zu evaluieren. Wir testen dafür eine Vielzahl der rechenintensiven Modelle und Hyperparameter-Konfigurationen parallel auf einer Clusterarchitektur, wobei die einzelnen Clusterknoten so lange neue Experimente abarbeiten, bis die Modelle keine weitere Verbesserung in der Vorhersagegenauigkeit mehr erreichen.

Die Resultate unserer INFOMOTION Science Data Toolbox decken sich mit den Ergebnissen empirischer Methodenvergleiche für einschlägige Benchmark-Datensätze. Dabei besteht der große Vorteil unserer Toolbox darin, dass wir die Entwicklungszeit für Prototypen stark verkürzen können. Das schont Rechnerkapazitäten und spart Kosten. Und: Wir können zugleich höchste Prognosegenauigkeit gewährleisten. Sie wollen Genaueres zu den Methoden, Technologien und Anwendungsmöglichkeiten der automatisierten Klassifikation von Texten erfahren?  Dann werfen Sie einen Blick in das INFOMOTION Whitepaper „Textklassifikationsmodelle im Vergleich: Uses Cases mit Deep Learning“.

Weiterführende Informationen

Autor

Gert Jan Feick

Business Unit Manager

Gert Jan Feick studierte Informatik mit der Fachrichtung „Language, Knowledge and Interaction“ an der Uni Enschede. Er begann seine Karriere als Projektmanager bei einem Softwareentwicklungsbüro, bei dem er vor allem auf Anforderungsanalyse und Projektmanagement spezialisiert war. Ab 2005 war er verantwortlich für den Aufbau eines Unternehmens im Bereich Software-Entwicklung, Reporting und Analysen. Seit 2011 ist er bei INFOMOTION als Manager tätig und leitet seit 2015 die Business Unit Big Data.

E-Mail senden