Big Data – größer, schneller, vielfältiger

25. Oktober 2012Kai Spichale

Die Herausforderung lautet: Wie können mehr Daten besser und schneller ausgewertet und verfügbar gemacht werden, um möglichst hohen Nutzen aus den Informationen zu ziehen? Größe, Schnelligkeit und Vielfältigkeit von Big Data charakterisieren einen Trend im Datamanagement, der die Möglichkeiten herkömmlicher Datenbanksysteme übersteigt.

Big Data ist groß

Big Data bezeichnet im wahrsten Sinne des Wortes große Datenmengen. Die Größe von „big“ ist jedoch nicht definiert. Was als „big“ bezeichnet werden kann, hängt von vielen technologischen und fachlichen Faktoren ab und ändert sich im Verlauf der Zeit. Gemeint sind in der Regel Daten mit einem Volumen von mehreren Tera- oder sogar Petabytes. In den vergangen Jahrzehnten sind die Preise für Speichermedien in Relation zur Kapazität stark gesunken, so dass das Speichern von immer größeren Datenmengen möglich wurde. Die Menge der weltweit gespeicherten digitalen Informationen wächst exponentiell. Die geeignete Größeneinheit dieses digitalen Universums ist schon heute Zettabyte. Ein Zettabyte besteht aus einer 1 gefolgt von 21 Nullen.
Viele Beispiele sprechen für eine Fortsetzung dieses Wachstumstrends: Transaktionale Daten sammeln sich kontinuierlich über Jahrzehnte in Unternehmensdatenbanken. Nachrichten, Kommentare, Bilder, Musik und Videos strömen unaufhörlich in die riesigen Datenbanken sozialer Netzwerke und Unterhaltungsplattformen. Auch RFID-Daten und andere sensorisch erfasste Daten etwa von Smart Devices sind Gründe für zunehmendes Datenwachstum. Daten wissenschaftlicher Simulationen und bioinformatischer Forschung tun ihr Übriges dazu.
Diese Datenflut stellt eine unmittelbare Herausforderung für konventionelle IT-Strukturen dar. Notwendig sind skalierbare Storage-Lösungen und verteilte Ansätze zur Abwicklung von Lese- und Schreiboperationen wie sie Apache Hadoop, Greenplum und MapR bieten.

Big Data ist schnell

Die Größe der Datenmengen ist ein wichtiger Aspekt von Big Data. Dieser Aspekt allein reicht jedoch nicht aus, um dieses komplexe Thema zu betrachten. Wichtig ist ebenfalls die Geschwindigkeit mit der die Daten verarbeitet und bereitgestellt werden müssen. Schnelle Risikoanalysen,  Marketing- oder Hardwareoptimierungen können zum Wettbewerbsvorteil eines Unternehmens beitragen. Mit schnellen Auswertungen von Webstatistiken kann zum Beispiel Online-Werbung optimiert werden. Für Big Data wird daher Software eingesetzt, die parallel auf Hunderten oder Tausenden von Prozessoren und Servern arbeitet, um die Gesamtzeit der Datenverarbeitung zu verringern. Hadoop MapReduce bietet ein horizontal skalierbares Fundament für viele Big-Data-Lösungen. Bei der horizontalen Skalierung wird die Gesamtleistungsfähigkeit eines Systems durch Hinzufügen zusätzlicher Server erhöht. Ziel ist es die Arbeit auf möglichst viele Server zu verteilen, um die Verarbeitungszeit zu reduzieren oder das System fit für größere Datenmengen bzw. komplexere Abfragen zu machen. Aufgrund des großen Datenumfangs setzt Hadoop MapReduce auf Datenlokalität, denn es ist einfacher das Programm zu den Daten zu bringen als die Daten zum Programm. MapReduce-Programme arbeiten mit einer gewissen Latenz und sind für die Batch-Verarbeitung konzipiert. Zur Ausführung eines MapReduce-Programms arbeitet Apache Hadoop den gesamten Datenbestand durch. Das MapReduce-Programm endet wenn alle Daten verarbeitet wurden. Ändert sich die Datenbasis und die zuvor berechneten Ergebnisse sollen aktualisiert werden, muss das MapReduce-Programm vollständig wiederholt werden. Für Echtzeitberechnungen auf Basis von Datenströmen eignen sich Systeme wie S4 und Twitter Storm. Im Gegensatz zu MapReduce-Programmen läuft ein Programm von Twitter Strom, eine sog. Topologie, ewig. D.h. die Topologie endet nicht, wenn alle Daten aus den Datenströmen verarbeitet sind, sondern sie wartet auf neue. Kontinuierlich und in sehr kurzer Zeit können durch diesen Ansatz aktualisierte Ergebnisse berechnet werden.

Big Data ist mehr als SQL

Auch die Vielfalt der Datenquellen und Datenstrukturen bilden einen wichtigen Aspekt von Big Data. Zunehmend semistrukturierte und unstrukturierte Daten müssen erfasst und durchsucht werden können. Schon heute sind 70% bis 80% der Unternehmensdaten semistrukturiert (http://en.wikipedia.org/wiki/Unstructured_data). NoSQL-Datenbanken wie MongoDB eignen sich sehr gut zur Speicherung von semistrukturierten Daten.

Big Data profitiert von der Cloud

Die rasche Entwicklung von Big Data wird getragen durch die besonderen Eigenschaften der Cloud. Der effiziente Betrieb einer virtualisierten Umgebung gegenüber traditionellen IT-Landschaften bringt deutliche Kostenersparungen durch Skaleneffekte. Die Cloud ist agil, erweiterbar und groß genug für Big Data. Die Cloud fördert die Verbreitung von Big Data, und Big Data wiederum führt zu Erweiterungen und zunehmenden Nutzung der Cloud.
Unternehmen wie Walmart und Google besitzen schon länger die Möglichkeiten, Mehrwert aus Big Data zu schöpfen, jedoch war dies mit enormen Kosten verbunden. Mit kostengünstigen Ressourcen in der Cloud und Open-Source-Software wie Apache Hadoop und Storm beginnt Big Data massentauglich zu werden.

Fazit

Das Speichern, Analysieren und Verfügbar machen immer größerer Datenmengen bedarf alternativer Architekturen und Technologien und wird die IT-Landschaften dauerhaft verändern. Durch die Verwendung besserer Werkzeuge können Unternehmen aus Big Data wertvolle Einsichten gewinnen und sich so einen Wettbewerbsvorteil verschaffen. Daten, die bisher zu groß waren für Analysen, können nun effektiv genutzt werden und die Analyse auch großer Datenmengen ist wesentlich kostengünstiger.

Kai Spichale Kai Spichale ist Software Architect bei der adesso AG. Sein Tätigkeitsschwerpunkt liegt in der Konzeption und Implementierung von Softwaresystemen auf Basis von Spring und Java EE. Er ist Autor verschiedener Fachartikel und regelmäßiger Sprecher auf Konferenzen.
Artikel bewerten:
1 Star2 Stars3 Stars4 Stars5 Stars
Loading...

Kommentar hinzufügen:

Ihr Kommentar: