Big Data

Der Mitbegründer und langjährige SAP-Lenker Hasso Plattner beschrieb vor einiger Zeit Big Data synonym für große Datenvolumina (engl.: Volume; Petabyte-Bereich, also Millionen Gigabyte oder darüber) aus unterschiedlichsten Quellen bzw. Formaten (Variety), die in Beinahe-/Echtzeit (Velocity für hohe Geschwindigkeit) effizient zu verarbeiten sind.

Dafür benötigt man über konventionelle Business-Intelligence-Ansätze wie Data Warehousing hinausgehende Technologien, etwa um die Problematik der Unstrukturiertheit von Social Media- oder Web-Dateien, die auch widersprüchlich ausfallen können, zu überwinden. Für viele ein Begriff geworden ist in diesem Zusammenhang „Hadoop“, ein Framework für parallele Datenverarbeitung mittels verteilter Rechnerverbünde, wie sie auch in unserem Masterprogramm Verteilte und mobile Anwendungen thematisiert werden. Hierauf basierend lassen sich z. B. Geschmacksgraphen für Personen, Objekte oder deren Beziehungen ableiten, die uns als automatisierte Streaming-Playlist oder Kaufempfehlung im Internet begegnen beziehungsweise zur Servicegestaltung von Firmen genutzt werden.

Neben den bereits beschriebenen drei V-Merkmalen bildet – angesichts der dynamischen Entwicklung der Technologien – gemäß des IT-Branchenverbandes BITKOM mittlerweile auch die Auswertung von Big Data zunehmend ein wichtigeres Charakteristikum: Hinter dem Schlagwort Analytics stecken etwa Technologien des Minings in Texten, für Vorhersagen, Bildanalysen sowie zur Darstellung von Ergebnissen. Dafür verwendet man zum Teil sog. In-Memory-Computing, wie von SAP (HANA) oder Oracle (Exalytics): Analytics ist wegen dieser gestiegenen Bedeutung auch Schwerpunkt des separaten Bachelorstudiums "Business Intelligence und Analytics" der Wilhelm Büchner Hochschule. Hier ist auch die Schnittmenge zu Data Science zu sehen, wo auf Basis von Big Data u. a. durch

maschinelles Lernen,
fortgeschrittene Statistiken und
Algorithmen

ein noch stärkerer und häufig auch nicht mehr nur betrieblicher Fokus auf eine Datenumwandlung zu Wissen gelegt wird. Ein inhaltlich passendes Studienangebot zu Letzteren bietet unser Bachelor in Big Data und Data Science.

Die maßgebliche gleichnamige Arbeitsgruppe des National Institute of Standards and Technology am US-Handelsministerium hebt weiterhin Variability (als viertes V) als charakteristische Anforderung an Big-Data-Architekturen hervor: Hier geht es um die Berücksichtigung der Veränderlichkeit (ggf. könnte man im Deutschen auch von Flüchtigkeit oder Schwankungen sprechen) vieler dieser Daten hinsichtlich ihrer

Größe
Zusammenstellung (z. B. Änderung der Felder eines Internetprofils)
Formate (etwa BMP statt JPEG bei meinem Profilbild) oder
Flussrate

z. B. für möglichen Download. Spätestens hierfür bedarf es im Zuge von Big Data dann des Einsatzes von Cloud Computing.

Weitere, weniger technisch konnotierte V-Charakteristika finden sich in der Literatur hinsichtlich des Wertes der Daten (Value), den Organisationen aus Big Data zum Beispiel zur Geschäftsmodellentwicklung generieren können, sowie deren (zusammengefasst unter Veracy) Zuordenbarkeit, Authentizität, Glaubwürdigkeit oder Quellenseriosität.

Große Hoffnungen auf Potenziale von Big Data setzt man im Zuge personalisierter Gesundheitsversorgung in der Medizinischen Informatik für die Genomforschung, die Krebsversorgung oder schlicht die Möglichkeit der Zusammenführung unterschiedlicher Befunddaten. SAP berichtet von entsprechenden Projekten mit der Berliner Charité oder den Münchener Unikliniken. Daneben werden auch andere Versorgungs- oder Forschungsbereiche sowie Smart Cities als Einsatzfeld von Big Data gehandelt, etwa in einem gleichnamigen Schwerpunktheft der Zeitschrift Informatik-Spektrum der deutschen Gesellschaft für Informatik e. V. (GI).

Dieser Glossarbegriff wurde von Prof. Dr. Breitschwerdt verfasst unter Beteiligung von Marco Wiemer und Prof. Dr. Fuchs, alle tätig am Fachbereich Informatik der WBH.