ORR2015 - Post04

OpenRheinRuhr 2015
Ein Pott voll Software

Referenten
Sebastian Muszytowski
Programm
Tag 07.11.2015 - 2015-11-07
Raum Vortragsraum 2
Beginn 14:40
Dauer 01:00
Info
ID 403
Veranstaltungstyp Vortrag
Track Programmierung
Sprache der Veranstaltung deutsch

Apache Spark

Big Data für Anfänger

In der Industrie rund um Big Data wird Apache Spark als "das nächste große Ding" nach Apache Hadoop gehandelt - ob das stimmt, findet man am besten selbst heraus. Der Vortrag behandelt die Grundlagen von Big Data, die Grundlagen von Apache Spark und einige interessante Beispiele, die das Leben als Data-Scientist vereinfachen.

Stell dir vor du musst ein Problem lösen, von dem du weißt, das es mehrere Tage, Wochen oder sogar Monate benötigt. Die meisten Probleme dieser Art lassen sich durch Parallelismus beschleunigen. Schneidet man die große Aufgabe, in viele kleine und unabhängige Teilaufgaben, so lässt sich die benötigte Zeit deutlich reduzieren. Diese Erkenntnis ist zum Glück auch in der IT-Welt angekommen und bildet die Basis für unsere heutigen Big Data Herausforderungen.

Mit Apache Spark kann jeder solche parallelen Programme schreiben, ohne genau verstehen zu müssen, wie sowohl Daten als auch Logik über verschiedene Bearbeiter verteilt werden. Da es dennoch hilfreich sein kann, die Architektur hinter Apache Spark zu verstehen, gibt es einen kleinen Exkurs in die Hintergründe von Spark inklusive der genutzten Daten- und Programmiermodelle.