Machine Learning: Nachrichtenbasierte Frühwarnung im Kontext Kreditrisiko

-
12. Februar 2019
-
Dana Wengrzik, Carsten Demski

Für die automatisierte und systematische Analyse von Texten unter Verwendung von Methoden des Machine Learnings bieten sich in Kreditinstituten vielfältige Einsatzmöglichkeiten, wie beispielsweise die automatisierte Verarbeitung und Interpretation von Vertragsdokumenten, die Vertriebsunterstützung durch Auswertung der Verwendungszwecke im Rahmen des Zahlungsverkehrs der Kunden. Hinzu kommen die Unterstützung des Eigenhandels durch die systematische Auswertung der Textteile von Jahresabschlüssen oder Quartalsberichten und Investorenpräsentationen. Im Kontext Kreditrisiko bieten sich als Anwendungsbereiche konkret die Ergänzung bestehender Ratingverfahren und Frühwarnsysteme auf Basis der Analyse von Nachrichtentexten an.

Vor diesem Hintergrund hat die RSU (Rating Service Unit) in einer Vorstudie überprüft, ob sich im Rahmen Risikofrüherkennung durch eine systematische und automatisierte Analyse von Zeitungs- und Wirtschaftsnachrichten Ausfälle von Unternehmen mit einem zeitlichen Vorlauf von bis zu einem Jahr prognostizieren lassen, und dabei vielversprechende Ergebnisse erzielt.

Datenbasis

Für die Vorstudie wurde zunächst eine repräsentative Stichprobe für deutsche Unternehmen ermittelt, die durch das RSU Ratingverfahren Corporates abgedeckt werden. Die Stichprobe setzte sich insgesamt aus 100 nicht ausgefallenen Unternehmen und 50 ausgefallenen Unternehmen zusammen und umfasste dabei Unternehmen ab 20 Mio. EUR Umsatz. Rund 77 Prozent der Unternehmen waren nicht börsennotiert. Für die Unternehmen der Stichprobe wurden Nachrichten ab dem Jahr 2002 über einen Anbieter beschafft. Nach Datenqualitätssicherungsmaßnahmen, die u. a. die Zuordnung der Nachrichten zu den Unternehmen und die Herausnahme identischer Texte umfassten, konnten letztendlich 68.752 Nachrichten aus 174 verschiedenen Zeitungen, Fachzeitschriften etc. für die weiteren Analysen verwendet werden. 

Vorverarbeitung der Texte

Die Nachrichten wurden unter Anwendung der in der Textanalyse gängigen Vorverarbeitungsschritte vorverarbeitet [vgl. Miner et al. 2012, S. 46-50]. Zunächst wurden die Texte im Hinblick auf Kleinschreibung normalisiert und durch Herausnahme von Satzzeichen, Sonderzeichen, URLs etc. bereinigt. Dann wurden sogenannte Stoppwörter, das heißt besonders häufig vorkommende Wörter, wie beispielsweise Artikel und Präpositionen, die im Hinblick auf die Interpretation des Texts keine Rolle spielen, entfernt. Das Entfernen von Stoppwörtern reduziert die Datenmenge und damit auch die Komplexität bei den weiteren Verarbeitungsschritten. Anschließend wurden die Wörter durch das Entfernen von Präfix, Suffix, Beugung usw. auf ihre Stammform gebracht. Damit wird vermieden, dass Flexionen eines Worts in den weiteren Analysen als verschiedene Wörter interpretiert werden. Für die Ermittlung einer Stammform der Wörter wurde ein gängiger Porter-Stemmer-Algorithmus gewählt. Die auf ihre Stammform gebrachten Wörter werden nachfolgend als n-grams bezeichnet. Analysiert wurden 1-grams (einzelne gestemmte Wörter) und 2-grams (resultierend aus der Kombination zweier gestemmter Wörter). Da auf Basis der gestemmten Wörter jedoch noch eine sehr große Anzahl von n-grams resultierten, mussten diese für die nachfolgenden Verarbeitungsschritte noch weiter gefiltert werden. Hierfür wurden sehr häufig und sehr selten vorkommende n-grams ausgeschlossen. Trotz dieser Vorfilterung blieben noch 510.000 n-grams übrig. 

(...)

Autoren:
Dana Wengrzik, Geschäftsführerin, RSU Rating Service Unit GmbH & Co. KG, München.
Carsten Demski, Teamleiter Methodik Rating (Finanzinstitute, Länder) & Marktdatenbasierte Verfahren, RSU Rating Service Unit GmbH & Co. KG, München.

[Den vollständigen Artikel lesen Sie in der Fachzeitschrift RISIKO MANAGER 01/2019. Die Ausgabe ist seit dem 30. Januar 2019 lieferbar und kann auch einzeln bezogen werden.]

Bildquelle: ©4X-image | istockphoto.com