Anomalien in mehrdimensionalen Streaming-Daten

27.07.20

Machine Learning

In meiner Masterarbeit zusammen mit der Johannes Gutenberg-Universität Mainz befasste ich mich mit der Erkennung von Anomalien in mehrdimensionalen Streaming-Daten. Hierbei lag der Fokus auf der Untersuchung der Eignung und dem Vergleich unterschiedlich komplexer unüberwachter Verfahren des maschinellen Lernens.

Drucken

AUTOMATISIERTE ERKENNTNISSE VON ANOMALIEN

Ganz allgemein formuliert handelt es sich bei einer Anomalie um eine Beobachtung in Form eines Datenpunktes, die sich in signifikanter Weise von den übrigen beobachteten Datenpunkten unterscheidet.

Anomalien werden durch seltene Ereignisse hervorgerufen und liefern daher häufig nützliche Erkenntnisse über ungewöhnliche, oft kritische Zustände. Im Bereich der Netzwerksicherheit werden beispielsweise Unregelmäßigkeiten im Nutzerverhalten zur Intrusion Detection verwendet. In Produktionsanlagen dient die Identifikation atypischer Muster in Sensordaten zur Optimierung von Wartungsintervallen. Auch die Medizin zeigt zunehmend Interesse an der automatisierten Erkennung von Anomalien etwa zu diagnostischen Zwecken oder für die Patientenüberwachung.

Die genannten Beispiele kennzeichnen sich durch die Eigenschaften der zu untersuchenden Daten. Bei ihnen handelt es sich um fortlaufend generierte Datenströme. Mit einer unbekannten und sich im Zeitverlauf veränderte Datenverteilung, die zum Beispiel durch saisonale Einflüsse oder ein sich änderndes Nutzungsverhalten hervorgerufen wird. 

EIGENSCHAFTEN EINES ANOMALIEDETEKTORS FÜR DATENSTRÖME

Ein Algorithmus zur Identifikation von anomalen Datenpunkten wird auch als Anomaliedetektor bezeichnet. Ein solcher Anomaliedetektor weist jedem untersuchten Datenpunkt einen Wert zu, der eine Unterscheidung in Normal und Anormal ermöglicht.

Ein idealer Anomaliedetektor für oben beschriebene Datenströme sollte nachfolgende Eigenschaften besitzen:

  • Echtzeiterkennung von Anomalien: Der Algorithmus sollte die Entscheidung, ob ein Punkt ein normaler oder anormaler Datenpunkt ist, treffen, bevor der darauffolgende Datenpunkt anfällt. Dies ermöglicht einen schnellen Informationsgewinn und kurze Reaktionszeiten auf ein anormales Ereignis. 
  • Lernen in unüberwachter Weise: Im Machine Learning ist die Wahl einer geeigneten algorithmischen Lernmethode davon abhängig, ob für die Modellbildung ein Datensatz zur Verfügung steht, der sogenannte Label beinhaltet, die (in unserem Fall) angeben, bei welcher Beobachtung es sich um eine Anomalie handelt und bei welcher nicht. Existieren solche Label, kann auf Supervised Machine Learning-Verfahren zurückgegriffen werden. Hierbei werden die Label zum Erlernen der Unterscheidungskriterien zwischen normalen und anormalen Datenpunkten verwendet. Bei praktischen Anwendungen sind jedoch sehr häufig nur „ungelabelte“ Daten verfügbar. Zum einen, da für akkurate Label meist ein manuelles Vorgehen von Domainexperten nötig ist: Ein zeit- und kostenintensives Verfahren. Zum anderen können in den später untersuchten Daten Anomalien neuer Form und Ausmaßes auftreten, die zum Zeitpunkt des Trainings noch nicht berücksichtigt werden konnten. Darüber hinaus ist in unserem Fall durch die geforderte Echtzeitanalyse die Erstellung eines „gelabelten“ Trainingsdatensatzes nicht möglich. Daher muss auf Verfahren des Unsupervised Machine Learning zurückgegriffen werden, die ihr Modell direkt auf den zu untersuchenden Daten bilden und hierfür lediglich die Grundannahme nutzen, dass es sich bei Anomalien um seltene Ereignisse handelt, die signifikant von den mehrheitlich normalen Datenpunkten abweichen.
Machine Learning

 

  • Kontinuierliches Lernen: Die sich im Zeitverlauf veränderte Datenverteilung verlangt von einem Algorithmus, dass er sich an die dynamischen Gegebenheiten anpasst und sein Entscheidungsmodell fortlaufend modifiziert wird. 
  • Lernen auf einer Teilmenge der Daten: Da ein Datenstrom i. d. R. sehr groß wird, ist es nicht möglich bzw. zu teuer diesen vollständig zu persistieren. Daher muss der Algorithmus dazu in der Lage sein, kontinuierlich zu lernen, ohne den gesamten Strom im Speicher zu halten. 
  • Geringe Fehlalarmrate: Eine nicht ausschließlich von Anomaliedetektoren für Datenströme geforderte Eigenschaft, ist eine möglichst geringe Fehlalarmrate, die aufgrund der starken Imbalance zwischen normalen und anomalen Daten ein häufig auftretendes Problem bei der Anomalieerkennung ist.

Durch diese als ideal betrachteten Eigenschaften ist die Komplexität der Algorithmen ein entscheidendes Auswahlkriterium, da sie bei gegebenen Rechenressourcen die Verarbeitungsgeschwindigkeit bestimmt bzw. einen größeren Verbrauch an Rechenressourcen zur Folge hat, was wiederum zu steigenden Kosten der Systemüberwachung führt. Daher ist der Einsatz eines Algorithmus höherer Komplexität nur sinnvoll, wenn dies zu einem besseren Ergebnis führt.

UNTERSUCHUNG UNTERSCHIEDLICH KOMPLEXER ANOMALIE ALGORITHMEN

Aus diesem Grund habe ich in meiner Arbeit drei unterschiedliche komplexe Algorithmen mit den geforderten Eigenschaften theoretisch betrachtet und ihre Performance experimentell verglichen. Der Algorithmus mit der geringsten Komplexität basiert auf einem nichtparametrischen statistischen Verfahren, der nächst komplexere unterscheidet normale von anomalen Datenpunkten durch eine Reihe spezieller Entscheidungsbäume, sogenannte Isolation Trees. Der komplexeste Algorithmus identifiziert Anomalien durch eine aufwendige Dichteschätzung der Datenverteilung.

ERGEBNIS: HÖHERE KOMPLEXITÄT BEDEUTEN KEINE HÖHERE PERFORMANCE

Die Untersuchungsergebnisse zeigten, dass eine höhere Komplexität nicht zwingend mit einer höheren Performance einhergeht und der Einfluss der im vorhinein unbekannten Eigenschaften der Daten überwiegt. Wodurch in Abhängigkeit des Datensatzes und der gewählten Modellparameter einmal der eine und einmal ein anderer Algorithmus die beste Performance zeigte. Daher kann auch keine allgemeingültige Empfehlung ausgesprochen oder Schlüsse gezogen werden, ob eines der betrachten Verfahren dem anderen zu bevorzugen ist. Diese Beobachtungen decken sich mit den Resultaten anderer Studien.

Allerdings waren die Unterschiede in der Erkennungsrate der Anomalien relativ gering und alle der untersuchten Algorithmen konnten eine Erkennungsrate von um die 90 Prozent erzielen. Sodass sie als unterstützende Verfahren zur Identifikation von Anomalien geeignet sind, jedoch vor allem in sicherheitskritischen Anwendungen durch eine manuelle Kontrolle zu ergänzen sind.

Wie in vielen Bereichen des unüberwachten Lernens ist auch im Rahmen der Anomalieerkennung weitere Forschung und die Entwicklung neuer Algorithmen erforderlich, um das Ziel eines vollautomatisierten Prozesses zu verwirklichen.
 

INFOMOTION Videocast: Machine Learning

Podcast Machine Learning

Weiterführende Informationen

Autor

Till Rupprecht

Consultant

Till Rupprecht begann während seines Masterstudiums in Management an der Johannes Gutenberg-Universität Mainz als Werkstudent bei INFOMOTION. Später verfasste er als Masterand seine Abschlussarbeit im Bereich Machine Learning und ist seit seinem erfolgreichen Abschluss als Consultant in der Business Unit Big Data tätig.

E-Mail senden