Data Science

Data Science liefert aussagekräftige Informationen auf der Grundlage großer Mengen komplexer Daten oder großer Datenmengen, den sogenannten Big Data. Data Science kombiniert verschiedene Arbeitsbereiche der Statistik und Berechnung , um Daten für die Entscheidungsfindung zu interpretieren (Datenanalyse).

Die Daten stammen aus verschiedenen Sektoren, Kanälen und Plattformen, darunter

Mobiltelefone
soziale Medien
E-Commerce-Sites
Umfragen im Gesundheitswesen und
Internetrecherchen (Domänenwissen).

Die Zunahme der verfügbaren Datenmenge öffnete die Tür zu einem neuen, auf großen Datenmengen basierenden Untersuchungsfeld – massive Datensätze, die zur Schaffung besserer operativer Instrumente in allen Sektoren beitragen.

Der ständig zunehmende Zugang zu Daten ist aufgrund von Fortschritten in Technologie und Erfassungstechniken (Big Data Processing) möglich. Beispielsweise können das Kaufverhalten und die Kaufgewohnheiten von Einzelpersonen beobachtet und auf Grundlage der gesammelten Informationen Vorhersagen getroffen werden.

Die ständig wachsenden Daten sind jedoch unstrukturiert und erfordern für eine effektive Entscheidungsfindung eine Analyse. Dieser Prozess war für Unternehmen komplex und zeitaufwendig bis Data Science auf die Bildfläche trat.

Abbildung 1: Data Science im Zusammenhang [angelehnt an diverse Quellen, z. B. Yong Cui: "A Minimalism Approach to Understand What Data Science Is", Towards Data Science, Jan, 2016]

Data Science nutzt große Datenmengen und maschinelles Lernen (engl. Machine Learning – ML), um Daten für die Entscheidungsfindung zu interpretieren. Abbildung 1 fasst die Zusammenhänge noch einmal zusammen und ordnet diese auch den Wissenschaftsbereichen Informatik und Mathematik zu. Diese Ordnung war nicht immer so…

Eine kurze Geschichte über Data Science

Der Begriff Data Science existiert seit 60 Jahren und wurde 1960 ursprünglich als Ersatz für „Informatik“ benutzt. Ungefähr 15 Jahre später wurde der Begriff verwendet, um die Übersicht über die in verschiedenen Anwendungen verwendeten Datenverarbeitungsmethoden zu definieren. Im Jahr 2001 wurde Data Science als eigenständige Disziplin eingeführt. Die Harvard Business Review veröffentlichte 2012 einen Artikel, in dem die Rolle des Data Scientist als der "sexiest job of the 21st century" beschrieben wurde.

SCHLÜSSEL-TAKE-AWAYS

Fortschritte in der Technologie, dem Internet, den sozialen Medien und der Nutzung der Technologie haben den Zugang zu großen Datenmengen verbessert.
Data Science nutzt Techniken, wie maschinelles Lernen und künstliche Intelligenz, um aussagekräftige Informationen zu extrahieren und zukünftige Muster und Verhaltensweisen vorherzusagen.
Der Bereich der Data Science wächst mit dem technischen Fortschritt und den immer ausgefeilteren Techniken zur Sammlung und Analyse großer Datenmengen.

Wie wird Data Science angewandt?

Data Science umfasst Werkzeuge aus mehreren Disziplinen, um einen Datensatz zu sammeln, zu verarbeiten und Erkenntnisse aus dem Datensatz abzuleiten, um aussagekräftige Daten aus dem Datensatz zu extrahieren und für die Entscheidungsfindung zu interpretieren. Zu den disziplinären Bereichen, aus denen sich das Feld der Data Science zusammensetzt, gehören Data Mining, Statistik, maschinelles Lernen, Analytik und Programmierung.

Data Mining wendet Algorithmen auf komplexe Datensätze an, um Muster aufzudecken, die dann verwendet werden, um nützliche und relevante Daten aus dem Satz zu extrahieren. Statistische Messungen oder prädiktive Analysen verwenden diese extrahierten Daten, um Ereignisse abzuschätzen, die wahrscheinlich in der Zukunft passieren werden, basierend darauf, was die Daten aus der Vergangenheit zeigen.

Das maschinelle Lernen ist ein Werkzeug der künstlichen Intelligenz, das Massen von Daten verarbeitet, die kein Mensch im Laufe seines Lebens verarbeiten könnte. Das maschinelle Lernen perfektioniert das im Rahmen der prädiktiven Analytik vorgestellte Entscheidungsmodell (in Form einer mathematischen Funktion, formuliert als Algorithmus), indem es die Wahrscheinlichkeit, dass ein Ereignis eintritt, mit dem abgleicht, was zu einem vorhergesagten Zeitpunkt tatsächlich passiert ist.

Mithilfe der Analytik sammelt und verarbeitet der Datenanalytiker die strukturierten Daten aus der Phase des maschinellen Lernens mittels Algorithmen. Der Analytiker interpretiert, konvertiert und verknüpft die Daten zu einer zusammenhängenden Sprache, die das Entscheidungsteam verstehen kann. Data Science wird auf praktisch alle Kontexte angewandt, und daher wird sich mit der Weiterentwicklung der Rolle des Data Scientist das Gebiet auf Datenarchitektur, Datentechnik und Datenverwaltung ausdehnen.

Die Rolle des Data Scientist, der im Bachelor-Studiengang Big Data und Data Science an der Wilhelm Büchner Hochschule ausgebildet wird, kann folgendermaßen beschrieben werden:

Ein Data Scientist sammelt, analysiert und interpretiert in vielen Fällen große Datenmengen, um die Betriebsabläufe eines Unternehmens zu verbessern. Data Scientists entwickeln statistische Modelle, die Daten analysieren und Muster, Trends und Beziehungen in Datensätzen erkennen. Diese Informationen können zur Vorhersage des Verbraucherverhaltens oder zur Identifizierung von Geschäfts- und Betriebsrisiken verwendet werden.

Der Data Scientist ist oft ein sogenannter Storyteller (Literatur hierzu: Nussbaumer, K. C.: Storytelling with Data: A Data Visualization Guide for Business Professionals), der Entscheidungsträgern Dateneinblicke in einer Weise präsentiert, die verständlich und für die Problemlösung anwendbar ist. Seit einigen Jahren gibt es bereits Projektportale, die sich mit der Rolle des Data-Scientist-Profis beschäftigen.

Das Portal http:// edison-project.eu ist das Ergebnis des Projektes EDISON (Education for Data Intensive Science to Open New Science Frontiers).

Data Science im Unternehmen

Unternehmen wenden große Daten und Data Science auf alltägliche Aktivitäten an, um den Verbrauchern einen Mehrwert zu bieten. Bankinstitute nutzen große Datenmengen, um ihre Erfolge bei der Betrugsaufdeckung zu steigern. Vermögensverwaltungsfirmen verwenden große Daten, um die Wahrscheinlichkeit vorherzusagen, mit der sich der Kurs eines Wertpapiers zu einem bestimmten Zeitpunkt nach oben oder unten bewegt.

Unternehmen wie Netflix werten große Daten aus, um zu bestimmen, welche Produkte an die Benutzer geliefert werden sollen. Netflix verwendet auch Algorithmen, um personalisierte Empfehlungen für Benutzer zu erstellen, die auf deren Betrachtungshistorie basieren. Data Science entwickelt sich in rasantem Tempo, und ihre Anwendungen werden auch in Zukunft das Leben verändern.

Dieses Glossar wurde von Prof. Dr.-Ing. Michael Fuchs verfasst unter Beteiligung von Marco Wiemer und Prof. Dr. Breitschwerdt, alle tätig am Fachbereich Informatik der WBH.