ORR2015 - Post04
OpenRheinRuhr 2015
Ein Pott voll Software
Referenten | |
---|---|
Sebastian Muszytowski |
Programm | |
---|---|
Tag | 07.11.2015 - 2015-11-07 |
Raum | Vortragsraum 2 |
Beginn | 14:40 |
Dauer | 01:00 |
Info | |
ID | 403 |
Veranstaltungstyp | Vortrag |
Track | Programmierung |
Sprache der Veranstaltung | deutsch |
Apache Spark
Big Data für Anfänger
In der Industrie rund um Big Data wird Apache Spark als "das nächste große Ding" nach Apache Hadoop gehandelt - ob das stimmt, findet man am besten selbst heraus. Der Vortrag behandelt die Grundlagen von Big Data, die Grundlagen von Apache Spark und einige interessante Beispiele, die das Leben als Data-Scientist vereinfachen.
Stell dir vor du musst ein Problem lösen, von dem du weißt, das es mehrere Tage, Wochen oder sogar Monate benötigt. Die meisten Probleme dieser Art lassen sich durch Parallelismus beschleunigen. Schneidet man die große Aufgabe, in viele kleine und unabhängige Teilaufgaben, so lässt sich die benötigte Zeit deutlich reduzieren. Diese Erkenntnis ist zum Glück auch in der IT-Welt angekommen und bildet die Basis für unsere heutigen Big Data Herausforderungen.
Mit Apache Spark kann jeder solche parallelen Programme schreiben, ohne genau verstehen zu müssen, wie sowohl Daten als auch Logik über verschiedene Bearbeiter verteilt werden. Da es dennoch hilfreich sein kann, die Architektur hinter Apache Spark zu verstehen, gibt es einen kleinen Exkurs in die Hintergründe von Spark inklusive der genutzten Daten- und Programmiermodelle.