Nowcasting: Absatzprognose auf partieller Datenbasis

10.08.20

Machine Learning

In meiner Masterthesis zusammen mit der Hochschule Darmstadt stelle ich die gewonnenen Erkenntnisse zum Thema: „Absatzprognose auf partieller Datenbasis“ vor. Es wurden Methoden des maschinellen Lernens für die Anwendung im Nowcasting untersucht.

Drucken

NOWCASTING: DER UMGANG MIT UNVOLLSTÄNDIGEN DATEN

Der Begriff des Nowcastings umfasst das Aufgabenfeld zur Vorhersage vergangener, gegenwärtiger oder naher zukünftiger Kennzahlen. Der Grund für unvollständige Daten ist, dass ein Meldeverzug zwischen dem Auftreten eines Events und dem Dateneingang dieses Events liegt. Mit weiter fortschreitender Zeit komplettiert sich der Datenbestand der Vergangenheit und kann später als vollständig angenommen werden. Ein vollständiger Datenbestand ist die Voraussetzung für die meisten statistischen Modelle. Erfolgt das Anpassen eines statistischen Modells auf unvollständige Daten, resultiert daraus meist ein großer Vorhersagefehler. Das Nowcasting kann somit für zwei verschiedene Fälle angewandt werden:

  1. Vergangene und gegenwärtige Kennzahlen sollen auf einer Teilbasis extrapoliert werden.
  2. Zukünftige Kennzahlen sollen prognostiziert werden. Hierfür müssen die vergangenen Werte vollständig vorliegen.Das Nowcasting gibt durch eine Schätzung mittels Extrapolation die vollständigen Daten an.

Den Ursprung hat das Nowcasting in der Meteorologie, wobei der Begriff hier die Wettervorhersage für die nahe Zukunft auf Basis zeitnaher und empirisch erhobenen Daten beschreibt. Die große Bekanntheit des Nowcasting kam mit der COVID-19-Pandemie
 

NOWCASTING FÜR DAS CORONAVIRUS

Während der COVID-19-Pandemie wurde das Nowcasting für die Schätzung der Infizierten angewandt, um dadurch die Reproduktionszahl R zu bestimmen. Die hierbei vorliegende Problematik ist, dass eine Zeitspanne von mehreren Wochen zwischen der Infektion und dem Dateneingang über diese Infektion beim Robert Koch-Institut (RKI) liegt. Grund hierfür ist zum einen die Inkubationszeit des Virus, dass eine Person schon mehrere Tage bis über eine Woche infiziert sein kann, ohne jegliche Symptome aufzuweisen und zum anderen ist dies bedingt durch die Dauer der Diagnose sowie die Übertragung der Daten der Diagnose an das RKI. Alle Krankenhäuser handhaben die Meldungen unterschiedlich, wodurch das RKI immer nur unvollständige Daten vorliegen hat. Von Bedeutung ist jedoch die Anzahl der infizierten Personen zum gegenwärtigen Zeitpunkt. Hier muss berücksichtigt werden, dass viele Infizierte noch keine Symptome aufweisen und dass einige Krankenhäuser die offiziellen Zahlen noch nicht gemeldet haben. Mit diesem Wissen über die aktuelle Ungewissheit und statistischen Mitteln, kann die Anzahl der aktuell Infizierten geschätzt werden, was eine wissenschaftliche Schätzung für die zugrunde liegende Reproduktionszahl R ermöglicht. Für solch einen Ansatz des Nowcastings können bayes’sche Methoden verwendet. In der Masterarbeit wurden Methoden des maschinellen Lernens verwendet, genauer ein XGBoost-Regressor und ein neuronales Netz. Die Datengrundlage waren die Absätze diverser Getränke einer großen deutschen Brauerei. Auch hier liegt ein Meldeverzug vor, da die Getränke meist nicht an den Endkunden verkauft werden, sondern an Zwischenhändler. Die Brauerei weiß somit auch erst Monate später, wie hoch der Absatz in vergangenen Monaten genau war.

XGBOOST UND NEURONALE NETZE FÜR DAS NOWCASTING

Um maschinelles Lernen für das Nowcasting zu verwenden, muss ein Regressionsproblem erzeugt werden. Dies bedeutet, dass eine numerische Kennzahl aus mehreren weiteren abhängigen Variablen bestimmt wird. Die zu bestimmende Kennzahl ist dabei immer die Kennzahl, die von Relevanz ist. Im Beispiel der Brauerei könnte dies der genaue Absatz eines Artikels für einen bestimmten Monat sein. Die abhängigen Variablen, welche zur Regression verwendet werden, müssen über die Zeit festgehalten werden, damit das Wissen über vergangene Monate zu verschiedenen Zeitpunkten betrachtet werden kann. Der Schlüssel ist hierbei das bereits bekannte Wissen und die verstrichene Zeit in Abhängigkeit zur zukünftigen Zielgröße zu stellen. Somit kann zu jedem Zeitpunkt eine Regression über die vergangenen Monate stattfinden, die umso genauer wird, je mehr Wissen über den Zielzeitpunkt vorliegt. Diesem Regressionsproblem wird sich mit einem XGBoost-Regressor und einem neuronalen Netz angenommen. Die Eingabe ist das bereits bekannte Wissen und der Zeitpunkt in der Zukunft und die Ausgabevariable ist die unbekannte Zielgröße.
Ein vielversprechender Algorithmus ist der XGBoost-Regressor, welcher unter die Kategorie der Gradient Boosting Trees fällt. Hierbei werden eine Vielzahl von Entscheidungsbäumen trainiert, deren Ergebnisse aufsummiert werden und die endgültige Vorhersage bilden. Jeder neue Entscheidungsbaum, der diesem Prozess angefügt wird, versucht den übrigen Fehler zu schätzen und minimiert den Vorhersagefehler durch Addition auf das bisherige Ergebnis.

 

Nowcasting: Absatzprognose auf partieller Datenbasis

 

Ein weiterer verwendeter Algorithmus ist das neuronale Netz. Hier werden künstliche Neuronen in einem gewichteten Graphen zusammengefügt. Die Struktur ist meist so, dass für jede abhängige Variable ein Neuron existiert, was als Eingabeschicht (Input Layer) bezeichnet wird. Für die Ausgabe eines Regressionsproblems wird meist ein Neuron verwendet, dessen Ergebnis die Vorhersage der Regression ist und wird Ausgabeschicht (Output Layer) genannt. Dazwischen befinden sich Neuronen in den sogenannten verdeckten Schichten (Hidden Layer). Das Netz hat über die Kanten die Möglichkeit komplexe Sachverhalte zu abstrahieren, ohne weitere Regeln vorzudefinieren. Im Kontext des Nowcastings und der Brauerei ist dies der Zusammenhang zwischen dem bereits bekannten Absatz eines Getränkes mit der verstrichenen Zeit und dem zukünftigen Absatz.

Nowcasting: Absatzprognose auf partieller Datenbasis

Beide Algorithmen erweisen sich als anwendbar für das Nowcasting in Bezug auf die Absätze einer Brauerei. Dies ist jedoch nicht die einzige Branche, in der das Nowcasting Anwendung findet. Immer wenn ein Meldeverzug in den Daten vorliegt, besteht diese Problematik. Dies könnte z. B. auch genutzt werden in:

  • Epidemiologie
  • Getränkeindustrie
  • Meteorologie
  • Ratingberechnung
  • Rückrufaktionen
  • Versicherungen

FAZIT: ABSCHLUSSARBEITEN UND INFOMOTION SIND EINE GUTE KOMBINATION

Eine Abschlussarbeit in Kooperation mit INFOMOTION ist jedem zu empfehlen. Es wird eine perfekte Flexibilität gegenüber den eigenen Bedürfnissen gestellt. Seien es Tage zur Recherche, die in der Bibliothek verbracht werden, längere Schreibsessions in den eigenen vier Wänden oder praktische und theoretische Hilfestellung durch Kollegen vor Ort. In jeder Lage werden die Hilfe und der nötige Freiraum geboten, die der eigenen Situation und den eigenen Bedürfnissen gerecht werden. 

INFOMOTION Videocast: Machine Learning

Podcast Machine Learning

Weiterführende Informationen

Autor

Julian Reh

Werkstudent Big Data

Julian Reh begann im April 2018 als Werkstudent bei INFOMOTION in der Business Unit für Big Data und Advanced Analytics zu arbeiten. Nebenbei studierte er Data Science an der Hochschule Darmstadt und schrieb seine Abschlussarbeit „Absatzprognose auf partieller Datenbasis“ in Kooperation mit INFOMOTION.

E-Mail senden