Big Data - spannend, aber nur für wenige relevant?

Ich war letzte Woche auf der JAX, die dieses Jahr zusammen mit der (neuen) Big Data Conference stattfand. Aus Interesse habe ich mir einige der Big Data Talks angehört. Bottom Line für mich: Ich kann nicht nachvollziehen, wie man den NoSQL-Hype schon wieder als "quasi-out" bezeichnen kann und man "Big Data" als das nächste große Buzzword pusht; technisch ist Big Data sicher ein spannendes Thema, jedoch dürfte der Kontakt damit für die meisten Entwickler maximal "auf Distanz" stattfinden.

Markige Töne waren zu hören: Big Data wird uns alle einholen, jeder von uns wird unweigerlich damit zu tun bekommen - und in wenigen Jahren werden 50% der Daten des Internets im Big-Data-Shootingstar Hadoop gespeichert sein.

Die meisten der Talks, die ich gehört habe, drehten sich auch um Hadoop und das darum entstandene Ökosystem (wer einen Überblick über das Zusammenspiel von Hadoop, HDFS, Zookeeper, HBase, etc. benötigt, dem sei dieser O'Reilly-Radar-Artikel ans Herz gelegt). Cassandra oder Riak spielten nur eine untergeordnete Rolle, typische NoSQL-Vertreter wie MongoDB wurden maximal in Projekt-Erfahrungsberichten am Rande erwähnt.

Mit Hadoop und seinen Seelenverwandten fährt man ein ganz großes Kaliber auf, wenn es um die Datenablage geht - wer vorhat, weniger als mehrere dutzend Knoten (sprich: Rechner) damit zu betreiben oder dessen Datenmengen zwar in Terabyte, aber längst noch nicht in Petabyte gemessen werden, dürfte mit einem kleineren Werkzeug wohl besser fahren. Und selbst im Technologiestack von Youtube sucht man typische Big-Data-Vertreter vergebens. Die Wahl der Waffen will selbst bei ernsthaften Datenmengen offenbar wohl überlegt sein.

Die Aussage mit den "50% der Daten des Internets" beobachte ich mit einer gewissen Sorge, denn sie könnte dennoch nocht allzu weit von der Realität entfernt sein: Den größten Hadoop-Cluster weltweit dürfte Facebook betreiben, Google benutzt mit Bigtable die Technologievorlage von Hadoop, und Amazon dürfte in seiner Cloud ähnliche Technik einsetzen. Der erwähnte Trend könnte tatsächlich wahr werden - weniger aber wegen der technologischen Überlegenheit oder der zunehmenden Datenmengen, sondern wegen der zunehmenden Zentralisierung verschiedener Dienste.

Wo bleiben aber die möglichen Berührpunkte für Entwickler? Wie bereits erwähnt, dürfte die Anzahl der Projekte, in denen man mit solchen Datenmengen zu tun hat, daß sich der Betrieb eines eigenen Big-Data-Clusters lohnt, nicht allzu groß sein. Ich könnte mir aber vorstellen, daß Dienstleister entsprechende Installationen zur gemeinsamen Benutzung anbieten - auch das Buzzword "Cloud" fällt mit in diese Kerbe. Unter diesem Aspekt macht es Sinn, die Entwicklung dieser Technologien zumindest aus dem Augenwinkel weiter zu beobachten; ein Grundverständnis über Map-Reduce und Co. dürfte bei der Entwicklung entsprechender Anwendungen helfen - abgesehen davon, daß es einfach um eine spannende Technologie handelt :-)