Apache Spark - Einheitliche Analyse-Engine für Big Data

Was ist Apache Spark?

Die Grundeigenschaft von Spark kommt uns bereits sehr entgegen, da Spark nicht für einen konkreten Zweck, sondern allgemeingültig für schnelle Datenverarbeitung entwickelt wurde.
Weder müssen Daten in einem bestimmten Format vorliegen, noch müssen diese gezwungenermaßen in einer bestimmten Art und Weise verarbeitet werden. Der Kern von Spark liefert bereits gängige Möglichkeiten Daten einzulesen und diese zu transformieren, auszuwerten und auch zu analysieren.

Apache Spark

Welche Vorteile bietet mir Apache Spark?

Apache Spark

  • SQL und DataFrames erlauben relationale Abfragen auf Daten, die  ursprünglich komplett unstrukturiert (Text) oder semi-strukturiert sind (z.B. Log- und Sensordaten, Tweets).
  • High-Level-APIs in Java, Scala, Python und R sowie eine optimierte Engine, die allgemeine Ausführungsdiagramme unterstützt.
  • Spark Streaming ist für einen kontinuierlichen Datenstrom einsetzbar, um Anwendungsgebiete wie Fraud Detection oder um Streams mit historischen Daten zu verknüpfen.
  • MLlib ist die Spark-eigene Library für Machine Learning Aufgaben. Dies beinhaltet Algorithmen für Themen wie Klassifikation, Clustering, lineare Regression oder Recommendations.
  • GraphX dient der Verarbeitung von Graphen. Analysen von sozialen Netzwerken, PageRank-Berechnungen oder Ähnliches werden dadurch ermöglicht.

Apache Spark in Kürze:

  • SQL und DataFrames 

  • High-Level-APIs

  • Spark Streaming 

  • MLlib

  • GraphX 

Nutzen Sie das volle Potenzial von Apache Spark

Dadurch, dass Spark in-memory Verarbeitungen ermöglicht, kommt noch ein gewichtiger Geschwindigkeitsfaktor hinzu, der in vielen vergleichbaren Szenarien eine deutlich gesteigerte Performance zum Ergebnis hat. Zudem ist es Cluster-fähig und kann somit für Big Data eingesetzt werden. Spark kann mit anderen Tools und Werkzeugen zusammenarbeiten, mit denen wir uns bereits jahrelang beschäftigen: Apache Solr und Elasticsearch.

Sie interessieren sich für Apache Spark?