ORR2015 - Post04

OpenRheinRuhr 2015
Ein Pott voll Software

Referenten
	Sebastian Muszytowski

Programm
Tag	07.11.2015 - 2015-11-07
Raum	Vortragsraum 2
Beginn	14:40
Dauer	01:00
Info
ID	403
Veranstaltungstyp	Vortrag
Track	Programmierung
Sprache der Veranstaltung	deutsch

Apache Spark

Big Data für Anfänger

In der Industrie rund um Big Data wird Apache Spark als "das nächste große Ding" nach Apache Hadoop gehandelt - ob das stimmt, findet man am besten selbst heraus. Der Vortrag behandelt die Grundlagen von Big Data, die Grundlagen von Apache Spark und einige interessante Beispiele, die das Leben als Data-Scientist vereinfachen.

Stell dir vor du musst ein Problem lösen, von dem du weißt, das es mehrere Tage, Wochen oder sogar Monate benötigt. Die meisten Probleme dieser Art lassen sich durch Parallelismus beschleunigen. Schneidet man die große Aufgabe, in viele kleine und unabhängige Teilaufgaben, so lässt sich die benötigte Zeit deutlich reduzieren. Diese Erkenntnis ist zum Glück auch in der IT-Welt angekommen und bildet die Basis für unsere heutigen Big Data Herausforderungen.

Mit Apache Spark kann jeder solche parallelen Programme schreiben, ohne genau verstehen zu müssen, wie sowohl Daten als auch Logik über verschiedene Bearbeiter verteilt werden. Da es dennoch hilfreich sein kann, die Architektur hinter Apache Spark zu verstehen, gibt es einen kleinen Exkurs in die Hintergründe von Spark inklusive der genutzten Daten- und Programmiermodelle.