Data Lake der WienIT für die Wiener Stadtwerke

IÖB-Servicestelle
IÖB-Servicestelle

Erfolgsgeschichten
Informations- und Kommunikationstechnologie

Im Wiener Stadtwerke Konzern laufen vielen verschiedene Datenquellen (z.B.: Kraftwerks- und Photovoltaikdaten, Messdaten der Wien Energie und verschiedene Kundendatenbanken etc.) zusammen. Diese verschiedenartige Data und Data Science Use Cases und den daraus folgenden Anforderungen, ergab die Notwendigkeit zur Beschaffung einer Data Plattform bzw. eines Data Labs und die Initiierung des Data Lake Projekts.

Eckdaten des Projekts

Projektdauer: 17 Monate
Projektträger: WienIT
Projektkosten: 300.000,- EUR

Ausgangssituation

Die Wiener Stadtwerke wollten im Datenmanagement viele Optimierungen erarbeiten und erwirken. Ein Data Lab (Data Science Lab) mit dem dazugehörigen Daten Speicher (Data Lake) war die gewählte Lösung und die Initialzündung für das Projekt.

Des Weiteren existierte die Idee das Datenmanagement durch eine metadatengetriebene Architektur zu steuern und effizient zu gestalten. Anwendungsfälle für eine (near) realtime Datenbeladung und eine tägliche Datenbeladung sollten als Prototyp umgesetzt werden. Dies führte auch zur Entscheidung die Plattform als Private Cloud (on premise) zu beschaffen und den Betrieb im Rechenzentrum der WienIT zu führen.

Innovativer Charakter

Innovativ und beispielgebend wurden Prozesse, die bisher manuell abgearbeitet wurden, wie Inbound-E-Mails von Kunden, via Data Science Modell klassifiziert und automatisiert abgearbeitet. Die frei gewordenen Ressourcen konnten sinnvolleren und mehr fordernden Arbeiten nachgehen.

In anderen Bereichen wurde beispielsweise durch das Sammeln der großen Datenmengen und die demensprechende Aufbereitung im Data Lake ein effizienter, kostengünstiger Betrieb für Photovoltaikanlagen aufgebaut und mit Data Science Modellen optimiert.

Vorgehensweise

Das Projekt wurde von der WienIT initiiert und mit der Unterstützung eines großen Teams, bestehend aus internen und externen Experten umgesetzt. Die Beschaffung wurde im Zuge eines Verhandlungsverfahrens unter Mitwirkung des Betriebes, Architekten, der Rechtsabteilung und des Einkaufes abgewickelt. Dabei wurde die Leistung als Werk (Hardware, Software, Installation & Konfiguration und Wartung) ausgeschrieben. Nach Ende der Verhandlungen erfolgte der Zuschlag auf das technisch und wirtschaftlich beste Angebot, eine Oracle Big Data Appliance (BDA) inklusive Installation & Konfiguration.

Mit der Firma Solicon und der Hilfe von externen Beratern und Entwicklern / Data Engineers wurde die BDA schnellstmöglich genutzt und den Nutzern im Konzern zur Verfügung gestellt.

Ergebnis und Mehrwert

Durch das Data Lake Projekt ergeben sich zahlreiche Vorteile auf unterschiedlichen Ebenen und für unterschiedlichste Nutzergruppen.

Im Rahmen des Projekts wurde die BDA installiert, konfiguriert und den Nutzern zur Verfügung gestellt. Es wurden viele neue Tools installiert und erprobt und die daraus gewonnenen Erkenntnisse wurden und werden für den gesamten Wiener Stadtwerke Konzern genutzt.

Effizienzsteigerungen wurden im Rahmen der Nutzung des Data Labs durch Data Science Methoden und der vorhandenen Rechenkapazität (Parallelisierung) und Prozessautomatisierung und eine kostengünstige Speicheroption erzielt.

Großes Potenzial bietet auch eine datengetriebene Beladungssteuerung – einerseits für die Betriebsoptimierung, andererseits aber auch für ein übersichtliches Monitoring der Prozesse.

Des Weiteren wurde ein Framework aus diversen Komponenten gebaut, die in diversen Projekten wiederverwendet werden können. Beispielsweise können bereits 11 vordefinierte Workflows für die Beladung der BDA genutzt werden (z.B.: JSON 2 BDA) Der modulare Aufbau des Frameworks vereinfacht die Wartung und die Erweiterbarkeit. Das Metadatenkonzept vereinfacht die Nachvollziehbarkeit der Daten. Hier wird beispielsweise in einer Metadaten-DB abgespeichert woher die Daten kommen. Einen weiteren großen Vorteil bieten die Logs der Verarbeitungsschritte der Daten. Diese sind sehr hilfreich für eine effiziente Gestaltung der Fehlerbehebung und mindern somit die operativen Kosten.

Mit einem secured Kafka Service welches konfigurierbar und auch in einem Docker Container eingesetzt werden kann, ist ein einfaches Skalieren möglich. Das Kafka Service ermöglicht ein langes Buffering von Daten und verhindert somit den Datenverlust beim Transport von real-time bzw. near-real-time Daten. Ein verschlüsselter Datentransfer macht die Lösung sicher. Der große Vorteil von Kafka ist, dass sich bei einem Producer mehrere Subscriber anhängen / einschreiben können und die Daten abholen können. Beispielsweise können für Kunden die Daten parallel in die Hive-Datenbank und in eine Timeseries-Datenbank zur besseren Visualisierung geladen werden.

Ansprechpartner

Andreas Polster