direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Inhalt des Dokuments

Master Thesis: Natural Language Processing for System Log Analysis

Title:

Natural Language Processing for System Log Analysis

Description:

In dieser Arbeit betrachten wir „Natural Language Processing“-Techniken mit dem Ziel, diese für das Feature-Engineering großer Logdaten im Hinblick auf die Erkennung von Anomalien zu evaluieren. Die zugrundliegenden Daten stammen aus einem Hadoop-Distributed-File-System (HDFS) beziehungsweise dem Blue Gene/L Supercomputer, sind gelabelt und öffentlich zugänglich. Um unser Ziel zu erreichen, wenden wir zunächst die Worteinbettungsmethoden „Word2Vec“und „GloVe“ an, wodurch wir komprimierte Vektoren für das„Vokabular“ der Logdateien erhalten. Diese Wortvektoren werden dann pro Logevent aggregiert. Anschließend werden darauf aufbauend Algorithmen aus den Bereichen des supervised und unsupervised Machine Learnings evaluiert, um die anormalen Logevents zu identifizieren. Darüber hinaus wurde ein Deep-Learning-Modell basierend auf Long short-term Memory (LSTM) und Attention-Mechanismen zur Erkennung von sogenannten kontextuellen bzw. kollektiven Anomalien ausgewertet.

Alle Implementierungen wurden mit Python und zugehörigen Bibliotheken beziehungsweise Frameworks wie PyTorch, Keras und Scikit-Learn vorgenommen. Als Back-End wurden GPUs verwendet, um ein recheneffizientes Lernen zu ermöglichen.

Supervisor: Tanja Hagemann

Type:  Master Thesis

Duration: 6 months

Zusatzinformationen / Extras

Quick Access:

Schnellnavigation zur Seite über Nummerneingabe

TU Berlin - Service-centric Networking - TEL 19
Ernst-Reuter-Platz 7
10587 Berlin, Germany
Phone: +49 30 8353 58811
Fax: +49 30 8353 58409