Big Data - spannend, aber nur für wenige relevant?

Ich war letz­te Woche auf der JAX, die die­ses Jahr zu­sam­men mit der (neuen) Big Data Con­fe­rence statt­fand. Aus In­ter­es­se habe ich mir ei­ni­ge der Big Data Talks an­ge­hört. Bot­tom Line für mich: Ich kann nicht nach­voll­zie­hen, wie man den NoS­QL-Hype schon wie­der als "qua­si-out" be­zeich­nen kann und man "Big Data" als das nächs­te große Buz­zword pusht; tech­nisch ist Big Data si­cher ein span­nen­des Thema, je­doch dürf­te der Kon­takt damit für die meis­ten Ent­wick­ler ma­xi­mal "auf Dis­tanz" statt­fin­den.

Mar­ki­ge Töne waren zu hören: Big Data wird uns alle ein­ho­len, jeder von uns wird un­wei­ger­lich damit zu tun be­kom­men - und in we­ni­gen Jah­ren wer­den 50% der Daten des In­ter­nets im Big-Da­ta-Shoo­ting­star Ha­doop ge­spei­chert sein.

Die meis­ten der Talks, die ich ge­hört habe, dreh­ten sich auch um Ha­doop und das darum ent­stan­de­ne Öko­sys­tem (wer einen Über­blick über das Zu­sam­men­spiel von Ha­doop, HDFS, Zoo­kee­per, HBase, etc. be­nö­tigt, dem sei die­ser O'Reil­ly-Ra­dar-Ar­ti­kel ans Herz ge­legt). Cas­san­dra oder Riak spiel­ten nur eine un­ter­ge­ord­ne­te Rolle, ty­pi­sche NoS­QL-Ver­tre­ter wie Mon­goDB wur­den ma­xi­mal in Pro­jekt-Er­fah­rungs­be­rich­ten am Rande er­wähnt.

Mit Ha­doop und sei­nen See­len­ver­wand­ten fährt man ein ganz gro­ßes Ka­li­ber auf, wenn es um die Da­ten­ab­la­ge geht - wer vor­hat, we­ni­ger als meh­re­re dut­zend Kno­ten (sprich: Rech­ner) damit zu be­trei­ben oder des­sen Da­ten­men­gen zwar in Te­ra­byte, aber längst noch nicht in Pe­ta­byte ge­mes­sen wer­den, dürf­te mit einem klei­ne­ren Werk­zeug wohl bes­ser fah­ren. Und selbst im Tech­no­lo­gie­stack von Youtube sucht man ty­pi­sche Big-Da­ta-Ver­tre­ter ver­ge­bens. Die Wahl der Waf­fen will selbst bei ernst­haf­ten Da­ten­men­gen of­fen­bar wohl über­legt sein.

Die Aus­sa­ge mit den "50% der Daten des In­ter­nets" be­ob­ach­te ich mit einer ge­wis­sen Sorge, denn sie könn­te den­noch nocht allzu weit von der Rea­li­tät ent­fernt sein: Den grö­ß­ten Ha­doop-Clus­ter welt­weit dürf­te Face­book be­trei­ben, Goog­le be­nutzt mit Big­ta­ble die Tech­no­lo­gie­vor­la­ge von Ha­doop, und Ama­zon dürf­te in sei­ner Cloud ähn­li­che Tech­nik ein­set­zen. Der er­wähn­te Trend könn­te tat­säch­lich wahr wer­den - we­ni­ger aber wegen der tech­no­lo­gi­schen Über­le­gen­heit oder der zu­neh­men­den Da­ten­men­gen, son­dern wegen der zu­neh­men­den Zen­tra­li­sie­rung ver­schie­de­ner Diens­te.

Wo blei­ben aber die mög­li­chen Be­rühr­punk­te für Ent­wick­ler? Wie be­reits er­wähnt, dürf­te die An­zahl der Pro­jek­te, in denen man mit sol­chen Da­ten­men­gen zu tun hat, daß sich der Be­trieb eines ei­ge­nen Big-Da­ta-Clus­ters lohnt, nicht allzu groß sein. Ich könn­te mir aber vor­stel­len, daß Dienst­leis­ter ent­spre­chen­de In­stal­la­tio­nen zur ge­mein­sa­men Be­nut­zung an­bie­ten - auch das Buz­zword "Cloud" fällt mit in diese Kerbe. Unter die­sem As­pekt macht es Sinn, die Ent­wick­lung die­ser Tech­no­lo­gi­en zu­min­dest aus dem Au­gen­win­kel wei­ter zu be­ob­ach­ten; ein Grund­ver­ständ­nis über Map-Re­du­ce und Co. dürf­te bei der Ent­wick­lung ent­spre­chen­der An­wen­dun­gen hel­fen - ab­ge­se­hen davon, daß es ein­fach um eine span­nen­de Tech­no­lo­gie han­delt :-)