Big Data für Risikomanagement im Investment Banking

Teil 2: Proof of Concept – ein Erfahrungsbericht

27. August 2015Dionysis Eliakopoulos

Im ersten Teil meines Artikels „Big Data für Risikomanagement im Investment Banking“ habe ich die Anforderungen an eine Risikomanagement-Applikation definiert und festgestellt, dass ein Big-Data-Ansatz in diesem Kontext wesentliche Vorteile bieten kann. Aus diesen Vorüberlegungen habe ich mit meinem Team ein geeignetes Szenario definiert, das wir daraufhin konkret in einem Proof of Concept (PoC) untersucht haben.

Das Vorhaben

Das Ziel des PoC ist es, Einblicke und Erfahrungen beim Einsatz von Big-Data-Technologien im Risikomanagement-Umfeld zu sammeln. Die Definition des PoC beinhaltet folgende Punkte:

  • Speichern des Expositionsrisikos der Daten in einer Big-Data-Plattform, unabhängig davon, aus welchem Bewertungssystem sie kommen und welches Format sie haben (Data-Lake-Prinzip)
  • Konzepterstellung zur Nutzung der Daten für mehrere Use Cases im Kontext des Counter Party Risk Management
  • Konkrete Nutzung für einen Use Case am Beispiel von PFE-Berechnung
  • Implementieren von Fallback-Strategien für vergangene Tage oder alternative Bewertungssysteme
  • Betrachtung unterschiedlicher Technologien für die Speicherlösung (MongoDB, Cassandra, HBASE)

Blog_2

Die Anforderungen:

  • [REG1] Speichern: 550K Szenarios (1000 Simulation*55 Zeitpunkte für 550K Risikofaktoren) mit ~0,75MB => ~450GB
  • [REG2] Speichern: 2 Millionen Trade-Expositionsrisiken mit ~0.5MB für eine vollen Regressionstest => ~1.000GB
  • [REG3] Zugriff auf die Daten; sequentiell, schlüsselbasiert(zufällig) und gruppiert nach definierten Kriterien
  • [REG4] Remote Netzwerkzugriff [REG3]

Test-Setup & Durchführung:

Wir haben ca. fünf Millionen Datensätze mit Trade-Daten mit einem aktuellen Preis in verschiedenen Währungen generiert. Diese Daten erzeugten als CVS-Datei mehr als 2 GB. Nach dem Import der Daten in die Big-Data-Plattform, haben wir die Trade-Daten ausgelesen und generierte Expositionsrisiko-Matrizen  [55*1000] für jeden Trade hinzugefügt. Schließlich wurden die Metadaten sowie die Statistiken aus den Expositionsrisiko-Matrizen extrahiert.

Der PoC wurde auf Basis der Cloudera Enterprise Distribution durchgeführt und es gab dabei zwei weitere technische Aspekte, die untersucht wurden:

  1. Was ist der Unterschied zwischen physikalischer und virtueller Hardware?
  2. Wie gut sind die Sicherheitskonzepte in einem Enterprise-Umfeld umzusetzen? (Empfohlen wird die Integration von Kerberos Security)

Ergebnisse & Design-Entscheidungen

  • HBASE/Hadoop in Kombination mit Map/Reduce erfüllt alle PoC-Anforderungen
  • Definition einer HBASE-Tabelle/einem Business-Domain-Objekt, z.B. TradeExposure
  • Definition einer “column family”/Subdomäne, z.B. TradeExposureStatus
  • Implementierung eines Schlüssels (z.B. [cobDate, tradeSource, tradeId]) als serialisiertes Java-Objekt
  • Implementierung von Qualifizierern (z.B. aggregatedName) als String
  • Die Daten werden direkt in unveränderter Form gespeichert und dann durch Map/Reduce Jobs in die Metadaten extrahiert
  • Kerberos Security zu implementieren ist aufwendig, aber machbar; es setzt auf jeden Fall voraus, dass root-Zugriffsrechte vorliegen
  • Kerberos Security erzeugt eine nicht unerhebliche Grundlast für die Systeme, so dass es sich lohnt, an alternativen Konzepten zu arbeiten (z.B. eine dedizierte Firewall für das Cluster)
  • Benchmark Tests: (Referenz physikalischer Nodes Cluster mit lokalen Festplatten/CDH 4.4).
    testDFSIO, das die read/write performance des HDFS Dateisystems misst

Blog_1

Fazit

Es wird von Tag zu Tag wichtiger für Finanzdienstleistungsunternehmen, eine ganzheitliche Sicht auf ihre Risiken zu haben und sich dadurch wesentlich vom Wettbewerb zu differenzieren. Vor allem in großen heterogenen Unternehmen mit globaler Reichweite und mit einer großen Menge von verschiedenen Produkten und Dienstleitungen, beschäftigen sich unsere Kunden am Ende mit mehreren Enterprise Data Warehouses, Data Marts und vielen verschiedenen Datensilos, die nicht miteinander verbunden sind und eine effiziente Risikokontrolle erschweren.

Die Konzepte im Big-Data-Umfeld und die Nutzung der verschiedenen Technologien in Kombination mit dem richtigen Vorgehen können viele Probleme in diesem Umfeld lösen.

Die wichtigste Herausforderung besteht darin, eine flexible, agile Architektur zu implementieren, die

  • alle aktuellen regulatorischen Anforderungen effizient erfüllt.
  • eine Integrationsplattform bereitstellt, um die verschiedenen Risikodomänen auf eine einheitliche Daten- & Technologie-Basis zu stellen.
  • schnell und flexibel auf neue Anforderungen (insbesondere regulatorische) reagieren kann.
  • die Risiko-/Bewertungsmodelle, die definiert sind, anwendet, die Ergebnisse analysiert und validiert und diese dadurch kontinuierlich verbessern kann.

Im nächsten großen Schritt können die eigenen Daten mit anderen Quellen wie Social-Media-Daten kombiniert werden, um damit ein noch besseres Verständnis der Risikofaktoren und Modelle zu erreichen und schneller als die Wettbewerber zu handeln.

Der völlig neue Ansatz von Big Data ist es, nicht ein Ziel zu erreichen, sondern eine Reise zu starten, um immer mehr geschäftlichen Nutzen zu erzielen. Je mehr Informationen Sie aus einer großen Datenplattform gewinnen, desto mehr Fragen tauchen auf und die erstaunliche Tatsache ist, dass Sie auch Antworten auf die Fragen finden, die Sie nie gestellt hätten. Big Data basiert auf innovativen neuen Technologien und verändert die Art, wie wir Anwendungen implementieren (verteilte Dateisysteme, In-Memory Computing, Map/Reduce-Algorithmen), die uns völlig neue Architekturen und Anwendungen ermöglichen.

Es liegt eine Menge Wertschöpfungspotenzial darin, Big-Data-Technologien für konkrete Use Cases zu bewerten und festzustellen, ob eine Big-Data-Lösung sinnvoll ist. Haben Sie Fragen dazu? Dann schreiben Sie mir gern. Ich freue mich auf Ihre Kommentare.

Dionysis Eliakopoulos Dionysis Eliakopoulos gehört als Competence Center Leiter Entwicklung zum Führungsteam des LoB Banking und ist ein erfahrener Enterprise Architekt und Senior Projekt Manager mit über 20-jähriger Tätigkeit in internationalen Projekten im Bereich Banking, Logistik, Öffentliche Verwaltung und Energiewirtschaft. Ein wichtiger Schwerpunkt seine Arbeit sind Agile Methoden (Certified Scrum Developer) bei der Softwareentwicklung.
Artikel bewerten:
1 Star2 Stars3 Stars4 Stars5 Stars
Loading...

Kommentare

Bernd 11. Oktober 2015 Website des Autors

Hallo

sehr interessanter Artikel.
Gerade interessant finde ich wie so viele Szenarien durch gespielt werden können.

VG

Kommentar hinzufügen:

Ihr Kommentar: