Process Mining meets Machine Learning

01.04.19

Process Mining

Ergebnisse einer Abschlussarbeit zum Thema „Process Mining meets Machine Learning - Anwendungspotenziale anhand eines realen Accounts Receivable Prozesses“ mit der Fragestellung, in welchem Maße ein Wechselspiel zwischen beiden Methoden die Planbarkeit eines Accounts Receivable Prozess begünstigt.

Drucken

STEIGENDE DATENMENGEN ERFORDERN NEUE METHODEN UND TECHNIKEN

Die tägliche Nutzung von Informationssystemen lässt die Menge an Daten rasant steigen. Um genau zu sein, befindet sich die jährlich generierte Anzahl an Datenbeständen im Zettabereich, sprich eine 1 mit 21 Nullen. Deshalb rücken Methoden und Techniken zur Nutzung und Analyse dieses impliziten Wissens zunehmend in den Fokus von Industrie und Wissenschaft. Sowohl Machine Learning als auch Process Mining und Data Mining verfolgen das Ziel, aus vorhandenen Daten Wissen zu generieren, um Zustände zu beschreiben und Handlungsempfehlungen abzugeben. Data Mining ist dabei die Forschungsdisziplin, die sich mit der Suche nach Mustern und Beziehungen in großen Datenmengen beschäftigt, um konkrete Fragestellungen zu beantworten. Beim Machine Learning lernt ein System aus den erhobenen Daten und kann aufgrund der gewonnenen Erfahrungen Maßnahmen und Vorhersagen ableiten. Mit der Entwicklung von leistungsstarken Grafikkarten und Prozessoren gewinnt Machine Learning seit circa 2010 wieder zunehmend an Bedeutung, was auch mit der Teildisziplin Deep Learning zusammenhängt. Gegenwärtige Deep Learning-Algorithmen bedienen sich dabei künstlicher neuronaler Netze. Inspiriert durch den Aufbau eines Gehirns können diese menschliches Lernen nachahmen, so dass auch komplexe Fragestellungen beantwortet werden können. Process Mining bietet ergänzend zu Data Mining und Machine Learning eine prozessuale Perspektive: Basierend auf Ereignisprotokollen können intelligente Algorithmen den tatsächlich gelebten Geschäftsprozess rekonstruieren und in einem Prozessmodell visualisieren. Daraus lassen sich dann mit Hilfe von Machine Learning-Anwendungen Handlungsempfehlungen, Verbesserungen und Analysen erstellen, so dass Unternehmen ihre Prozessabläufe optimieren können. 

VIELSEITIGER EINSATZ FÜR NEURONALE NETZE

Ein neuronales Netz besteht aus Neuronen, die in verschiedenen Schichten angeordnet sind. Dabei werden eine Eingangsschicht, mit welcher der Datensatz an das neuronale Netz übergeben wird, eine Ausgangsschicht, welche letztendlich das Ergebnis ausgibt und mehrere verdeckte Schichten (hidden layers) unterschieden. Zwischen den Schichten sind die Neuronen über Kanten miteinander verbunden, die über Gewichtungen die Stärke des Eingangssignals für Folgeneuronen beeinflussen. Über Aktivierungsfunktionen ist es zudem möglich, Neuronen nur dann zu aktivieren, wenn das Signal einen definierten Schwellenwert übersteigt. Das Wissen eines neuronalen Netzes steckt deshalb in den errechneten Gewichtungen der Kanten. Dies kann anschließend beispielsweise dazu genutzt werden, Gesichter auf Bildern zu erkennen. Ein wesentlicher Vorteil solcher Netzwerke ist das Lernen ohne vordefinierte Regeln. Dem Netz wird also nicht mitgeteilt, dass ein Gesicht aus Augen, Mund und Nase besteht, sondern es lernt selbständig, welche Eigenschaften für das Erkennen von Gesichtern wichtig sind. Weitere Aufgabenstellungen liegen je nach Anwendungsgebiet auch in der Erkennung von Handschrift oder Sprache, im autonomen Fahren und Robotik sowie in der Zeitreihenanalyse. Im Bereich Process Mining können neuronale Netzwerke unter anderem dafür verwendet werden, vorherzusagen, welche die nächstbesten Schritte in einem laufenden Prozess sein könnten und bis wann diese durchgeführt werden sollten.

Aufbau neuronaler Netze

ERWEITERUNG VON PROCESS MINING UM MACHINE LEARNING

Während sich erste Ansätze von Process Mining mit der automatisierten Aufdeckung von Prozessabfolgen beschäftigten, vermehren sich derzeit die Bemühungen, Verbesserungspotentiale mit Hilfe von prädikativen Techniken in die Analyse einzubinden. Im Rahmen meiner Masterarbeit untersuchte ich deshalb, inwieweit sich Process Mining und Machine Learning ergänzen, beziehungsweise in welchem Maße ein Wechselspiel zwischen beiden Methoden die Planbarkeit eines Accounts Receivable Prozess begünstigen. Ein erfolgsversprechender Ansatz, um komplexe Vorhersagen über eine Abfolge von mehreren Schritten zu treffen, basiert auf neuronalen Netzen. Neben der Vorhersage der nächsten kommenden Prozessschritte wurden auch Modelle geprüft, welche die voraussichtliche Laufzeit dieser Aktivitäten berechnen. 

Für die Beantwortung der Forschungsfrage wurden reale Daten eines Accounts Receivable Prozess verwendet. Diese mussten vor der Analyse mit Celonis Process Mining zunächst aufbereitet und in ein Eventlog überführt werden. Dazu war es notwendig, Wissen über das Datenmodell der verwendeten Anwendung zur Rechnungsstellung aufzubauen, um anschließend die Aktivitäten erstellen zu können. Im Anschluss wurden die modellierten Aktivitäten zusammen mit weiteren Stamm- und Bewegungsdaten in Celonis eingespielt. Mit dem Ziel relevante Merkmale und neue Einsichten in den As-Is-Prozess zu gewinnen und ein besseres Datenverständnis aufzubauen, wurden erste Analysen mit Fokus auf die Prozessausführung erstellt. Dabei zeigte sich in den Daten innerhalb eines Zeitraums eine starke Varianz in den Prozessabläufen. Es war anzunehmen, dass diese auffällige Varianz einen negativen Einfluss auf die Güte der zu testenden Modelle hat, so dass dieser Zeitraum in der Betrachtung ausgeklammert worden ist. Im Anschluss an die Prozessvalidierung wurden die Daten über die Python API von Celonis exportiert und für den Einsatz von Machine Learning-Algorithmen transformiert. Danach erfolgte die Untersuchung und Potentialbewertung der nachfolgenden Fragestellungen:

  1. Wie gut können Prozessschritte auf Basis der Aktivitäten-Tabelle ohne weitere Stamm- und Bewegungsdaten (Bsp. Kundenstammdaten, Rechnungshöhe, etc.) prognostiziert werden?
  2. Wie gut können Prozessschritte und die verbleibende Restlaufzeit des Prozesses auf Basis der Aktivitäten-Tabelle, sowohl ohne, als auch mit, weiteren Stamm- und Bewegungsdaten (Bsp. Kundenstammdaten, Rechnungshöhe, etc.) prognostiziert werden?
  3. Wie gut kann die Prozessabfolge mit einem neuronalen Netz und anschließend die Restlaufzeit des Prozesses mit Hilfe eines Regressionsmodells prognostiziert werden?
  4. Wie gut kann die Restlaufzeit des Prozesses mit Hilfe eines Regressionsmodells und anschließend die Prozessabfolge mit einem neuronalen Netz prognostiziert werden?

Als bestes Untersuchungsergebnis lieferte die Kombination aus der Prognose der Prozessabfolge mit Hilfe eines neuronalen Netzes und anschließender Prognose der Restlaufzeit des Prozesses mit einem Regressionsmodell. Die jeweils optimierten Modelle lieferten auf den realen Daten eine Genauigkeit von 63 Prozent in der Prognose der noch folgenden Prozessschritte bei einer Varianz in der Restlaufzeit des Prozesses von ± 5 Tagen. Eine Herausforderung war die hohe Anzahl an Prozessvarianten (> 2.000) bei einer vergleichsweise niedrigen Anzahl an Datensätzen (~ 30.000). Deshalb wurde eine weitere Methode entwickelt, die mit stark unterschiedlichen Prozessvarianten über die Zeit umgehen kann. Dazu wurde die Vorhersage auf n-Prozessschritte begrenzt. Die Ergebnisse zeigten, dass sich dabei die Schätzung der nächsten zwei Prozessschritte besonders hervorhebt. Die Anzahl der korrekten Prozessabfolgen lag bei dieser Variante bei 72 Prozent, der mittlere absolute Fehler ist mit 5,62 Tagen gegenüber der vorherigen Methoden gering. Im Vergleich zu Vorgehensweise Nummer drei erzielte die Vorhersage mit einem akzeptablen Fehlerbereich von maximal 5 Tagen einen Wert von 76 Prozent.   

FAZIT: MACHINE LEARNING BIETET EINEN ECHTEN MEHRWERT FÜR DAS PROCESS MINING

Mit Process Mining kann ein Unternehmen den Verlauf seines Accounts Receivable Prozess genau durchleuchten und nachvollziehen wie, warum und wann eine Rechnung gar nicht, zu spät oder innerhalb des Skontos gezahlt wurde. Machine Learning erweitert die datengetriebene Prozessanalyse um prädikative Elemente. Die Ergebnisse dieser Arbeit zeigen, dass Machine Learning einen echten Mehrwert für das Process Mining und somit für die Fachbereiche bietet. Das Zusammenspiel der beiden Themen kann beispielsweise die Planung von ausstehenden Verbindlichkeiten eines Accounts Receivable Prozess durchaus begünstigen und die Liquiditätsplanung ergänzen.

INFOMOTION PODCAST: PROCESS MINING

Weiterführende Informationen

Autor

Oliver Schomaker

Consultant

Oliver Schomaker hat im Rahmen seines Studiums der Wirtschaftsinformatik seine Abschlussarbeit zum Thema „Process Mining meets Machine Learning“ bei INFOMOTION geschrieben. Im Anschluss an sein Studium ist er bei INFOMOTION als Consultant eingestiegen und unterstützt ein Team, das sich auf das Thema Process Mining fokussiert.

E-Mail senden