SHI GmbH Augsburg - Ihr Starker Partner für Search & Big Data, Apache Solr, IT Commerce Lösungen

27-03-2017 - 28-03-2017
Apache Solr Unleashed
29-03-2017 - 30-03-2017
Apache Solr Under the Hood
04-04-2017 - 05-04-2017
Apache SolrCloud
SHI - Individuelle Anwendungen aus Software-Bausteinen
SHI - Individuelle Anwendungen aus Software-Bausteinen
Bei uns bekommen Sie weder Software von der Stange, noch unerprobte Eigenentwicklungen. Wir setzen auf bewährte Open-Source-Technologien und setzen Ihre individuelle Anwendung
aus passenden
Bausteinen zusammen.
SHI - Fast Forward to Success
SHI - Fast Forward to Success
Geschwindigkeit zählt. Bei den Kosten und bei den Erfolgsaussichten.
Bei uns sorgen professionelles Projektmanagement und modulare Entwicklung
für Ihren raschen und effizienten Software-Projekterfolg.
SHI - Beratung  Entwicklung  Consulting
SHI - Beratung Entwicklung Consulting
Wir beraten unterstützen Sie mit Schulungen, Trainings und Consulting. Von der Strategieberatung bis zur Anwendungsentwicklung helfen wir Ihnen bei der Optimierung Ihrer
Geschäftsprozesse.
SHI - Support und Service
SHI - Support und Service
Wir sind Dienstleister aus Leidenschaft und verstehen unsere Kunden.
Nach dem Projekt ist vor dem Projekt und individuelle, persönliche
Betreuung stehen bei uns ganz weit oben.
SHI - Training
SHI - Training
Schneller am Ziel - Search & Big Data Lösungen erfolgreich entwickeln und betreiben.
SHI - Apache Solr Beratung
SHI - Apache Solr Beratung
Professionelle Beratung rund um Apache Solr - Wir unterstützen Sie vor, während und nach Ihrem Projekt.
SHI - Migration
SHI - Migration
Steigen Sie jetzt auf die Open Source Plattform Apache Solr oder die professionelle Distribution Lucidworks Fusion um
SHI - Integration
SHI - Integration
Insbesondere Big Data Lösungen sind nur mit Integration zahlreicher Plattformen realisierbar: Apache Solr, Hadoop, Mahout, Stanbol, HBase, ZooKeeper, Pig und viele andere mehr.

Universal AJAX Live Search

Warum Spark auch für uns relevant ist


Jeder, der diesen Beitrag liest, weiß vermutlich, dass Apache Spark aktuell das Apache Top-Level-Projekt aus dem Big Data Umfeld ist, das am aktivsten entwickelt wird . Allein das würde schon ausreichen, damit wir uns als Unternehmen in unserem Spezialgebiet „Search und Big Data“ auch mit diesem Projekt auseinander setzen. Doch es gibt weitaus mehr Gründe, warum Spark für uns relevant und auch interessant ist.


Als Hersteller-unabhängiges Unternehmen bewegen wir uns in unterschiedlichsten Branchen, sind also nicht auf einen oder nur wenige Use Cases beschränkt, sondern arbeiten Branchen-übergreifend an Anwendungen und Applikationen. Da kommt uns bereits die Grundeigenschaft von Spark entgegen, nicht für einen konkreten Zweck, sondern allgemeingültig für schnelle Datenverarbeitung entwickelte worden zu sein. Weder müssen Daten in einem bestimmten Format vorliegen, noch müssen diese gezwungenermaßen in einer bestimmten Art und Weise verarbeitet werden, um Spark nutzen zu können. Der Kern von Spark liefert bereits gängige Möglichkeiten Daten einzulesen und diese zu transformieren und auszuwerten bzw. zu analysieren.

 

Spark1 


Doch das ist längst nicht alles: Spark kommt zudem mit folgenden eingebauten Libraries: SQL und DataFrames, Spark Streaming, MLlib und GraphX. Diese können alle für unterschiedliche Zwecke eingesetzt werden. SQL und DataFrames  erlauben relationale Abfragen auf Daten, die ursprünglich komplett unstrukturiert (Text) oder semi-strukturiert sind (z.B. Log- und Sensordaten, Tweets). Nachdem Spark in einem Cluster laufen kann, können diese Daten auch in riesigen Datenmengen vorliegen. Spark Streaming  ist für einen kontinuierlichen Datenstrom einsetzbar, um Anwendungsgebiete wie Fraud Detection oder um Streams mit historischen Daten zu verknüpfen. MLlib  ist die Spark-eigene Library für Machine Learning Aufgaben. Dies beinhaltet Algorithmen für Themen wie Klassifikation, Clustering, lineare Regression oder Recommendations.

 

Spark2 


Zu guter Letzt bleibt GraphX  noch zu erwähnen, welches Verarbeitung von Graphen erlaubt.

Analysen von sozialen Netzwerken, PageRank-Berechnungen oder Ähnliches werden dadurch ermöglicht.

 

spark3
Man muss sich bei der Arbeit mit Spark auch nicht für eine Library entscheiden, es sind beliebige Kombinationen möglich. Dadurch, dass SQL bzw. SQL-ähnliche Abfragen auf allen Arten von Daten ermöglicht werden, werden somit auch alle Entwickler mit ins Boot geholt, die bisher mit klassischen relationalen Datenbanken gearbeitet haben – das dürfte vermutlich immer noch ein beachtlicher Anteil sein.


Dadurch, dass Spark in-memory Verarbeitungen ermöglicht, kommt noch ein gewichtiger Geschwindigkeitsfaktor hinzu, der in vielen vergleichbaren Szenarien eine deutlich gesteigerte Performance zum Ergebnis hat. Ein Punkt, der in diesem Fall erwähnenswert ist, dass im Vergleich zu einem „normalen“ Hadoop-Cluster andere Hardware benötigt wird. Während Hadoop seinen Siegeszug in der Big Data Welt auch dadurch feierte, keine High-End Hardware vorauszusetzen, sondern auf sogenannter Commodity Hardware läuft, ist dies bei Spark aufgrund der In-Memory-Verarbeitung von Daten nicht ganz der Fall. Alles hat eben seinen Preis oder um es wie Robert A. Heinlein zu halten: „There ain’t no such thing as a free lunch“ .


Und nun abschließend der vielleicht allerwichtigste Grund: Spark kann mit anderen Tools und Werkzeugen zusammenarbeiten, mit denen wir uns bereits jahrelang beschäftigen: Solr (ebenfalls aus dem Apache-Umfeld) und Elasticsearch. Wir können mit Spark indexieren, z.B. mittels der Streaming-Komponente, und auch abfragen und die Ergebnisse wiederum für weitere Verarbeitungsschritte verwenden. Und diese Kombinations- bzw. Integrationsmöglichkeiten, die zwischen solchen Projekten bestehen, erlauben neue Sichtweisen auf bestehende Daten, spannende Erkenntnisse aus existierenden Daten und innovative Verarbeitungswege, die wiederum zu anderen Ergebnissen führen.


Es lassen sich generell viele Gründe finden, die pro Spark zu werten sind. Jedoch ist Spark nicht unbedingt ein Deckel, der zu jedem Topf passt, zahlreiche gute und innovative Einsatzmöglichkeiten gibt es aber spätestens durch die mitgelieferten und enthaltenen Libraries. Die Integration im Hadoop Ökosystem, sowie die Zusammenarbeit mit uns bekannten Werkzeugen machen Spark zu einem Tool, das in unserem Sortiment nicht fehlen darf und in Zukunft sicher weiter an Relevanz gewinnen wird.

 

 

Bei der Frage, ob Spark auch Ihnen und Ihrem Unternehmen helfen kann, Potenziale aufzudecken, sei es durch explorative in-Memory Datenanalyse oder auch die Streaming- oder Machine Learning-Fähigkeiten von Spark, unterstützen wir Sie gerne.

Hinsichtlich möglicher Einsatzzwecke von Spark in Ihrem Unternehmen können Sie für ein erstes Gespräch gerne einen Termin mit einem unserer Consultants oder auch einen zielführenden Workshop mit uns vereinbaren.

SEARCH & BIG DATA, BERATUNG, SCHULUNG, ENTWICKLUNG, SUPPORT, PUBLISHER SOLUTIONS
MIT APACHE SOLR, LUCENE, ELASTICSEARCH, SMARTLOGIC SEMAPHORE, SHI INFOPILOT