SHI GmbH Augsburg - Ihr Starker Partner für Search & Big Data, Apache Solr, IT Commerce Lösungen

27-03-2017 - 28-03-2017
Apache Solr Unleashed
29-03-2017 - 30-03-2017
Apache Solr Under the Hood
04-04-2017 - 05-04-2017
Apache SolrCloud
SHI - Beratung  Entwicklung  Consulting
SHI - Beratung Entwicklung Consulting
Wir beraten unterstützen Sie mit Schulungen, Trainings und Consulting. Von der Strategieberatung bis zur Anwendungsentwicklung helfen wir Ihnen bei der Optimierung Ihrer
Geschäftsprozesse.
SHI - Fast Forward to Success
SHI - Fast Forward to Success
Geschwindigkeit zählt. Bei den Kosten und bei den Erfolgsaussichten.
Bei uns sorgen professionelles Projektmanagement und modulare Entwicklung
für Ihren raschen und effizienten Software-Projekterfolg.
SHI - Support und Service
SHI - Support und Service
Wir sind Dienstleister aus Leidenschaft und verstehen unsere Kunden.
Nach dem Projekt ist vor dem Projekt und individuelle, persönliche
Betreuung stehen bei uns ganz weit oben.
SHI - Individuelle Anwendungen aus Software-Bausteinen
SHI - Individuelle Anwendungen aus Software-Bausteinen
Bei uns bekommen Sie weder Software von der Stange, noch unerprobte Eigenentwicklungen. Wir setzen auf bewährte Open-Source-Technologien und setzen Ihre individuelle Anwendung
aus passenden
Bausteinen zusammen.
SHI - Integration
SHI - Integration
Insbesondere Big Data Lösungen sind nur mit Integration zahlreicher Plattformen realisierbar: Apache Solr, Hadoop, Mahout, Stanbol, HBase, ZooKeeper, Pig und viele andere mehr.
SHI - Apache Solr Beratung
SHI - Apache Solr Beratung
Professionelle Beratung rund um Apache Solr - Wir unterstützen Sie vor, während und nach Ihrem Projekt.
SHI - Migration
SHI - Migration
Steigen Sie jetzt auf die Open Source Plattform Apache Solr oder die professionelle Distribution Lucidworks Fusion um
SHI - Training
SHI - Training
Schneller am Ziel - Search & Big Data Lösungen erfolgreich entwickeln und betreiben.

Universal AJAX Live Search

Web-Controlling-Tools wie Google Analytics oder Piwik geben wertvolle Einsichten in Ihre Web-Anwendung, ganz egal, ob es sich hierbei um einen Online-Shop oder ein Customer Support-Portal handelt, über das Ihre Kunden selbständig nach Hilfe suchen oder Ihr Support-Angebot in Anspruch nehmen können. So erhalten Sie Informationen, nach was gesucht wurde, welche Seiten besonders häufig besucht werden, wie Ihre Besucher zu Ihnen kommen (Google-Suche, Banner-Klick etc.), was sich aktuell gut im Online-Shop verkauft, wie hoch die durchschnittlichen Warenkorbwerte sind usw.
Aber was ist mit denjenigen Informationen, die Sie nur aus der Kombination mehrerer voneinander getrennter Datenquellen erhalten? Stagniert Ihr Umsatz, obwohl sich bestimmte Produkte zwar gut verkaufen, aber ebenso häufig zurückgeschickt werden? Hängt die hohe Retourenquote mit langen Lieferzeiten zusammen? Gibt es einen Zusammenhang zwischen den Antwortzeiten Ihres Suchservers und der Bounce Rate?


Cross-Analytics – Ein holistischer Ansatz für alle Daten


Diese und weitere Fragestellungen können Sie nur adressieren, wenn Sie Daten aus mehreren Quellen miteinander verknüpfen, um sie zu analysieren und passende Schlüsse daraus zu ziehen. Es ist also ein holistischer Ansatz vonnöten, der es erlaubt, alle Datensilos miteinander zu kombinieren und analysieren zu können. Dazu zählen einerseits natürlich die traditionellen Datenquellen, wie die bereits erwähnten Web-Controlling-Systeme, aber auch Systeme wie ein Data Warehouse, ein CRM, ERP, POS, Warenwirtschaft etc.
Cross-Analytics – Unabhängigkeit von der Datenstruktur

Daten liegen in diesen Systemen oftmals in strukturierter Form vor und können in der Regel über Schnittstellen und APIs zugegriffen werden. Es spielen jedoch zunehmend auch neue und aufstrebende Datenquellen eine zentrale Rolle: Clickstreams, Log-Daten, Social Media, Kundenrezensionen, Beacons und andere Sensordaten aus dem Internet of Things (IoT). Bei dieser Aufzählung ist bereits zu erkennen, dass ein System, welches solche Datenquellen integrieren kann, auch mit semi-strukturierten und unstrukturierten Daten umgehen können muss.

 

cross analytics platform

Abbildung 1 Eine Plattform für das Speichern und Verarbeiten aller Daten

 

Der Vorteil, alle Daten in einem System zu halten, liegt hierbei auf der Hand: Nur wenn sich alle Daten in einem System befinden, ist eine Analyse, die mehr als eine Datenquelle einbeziehen soll, überhaupt möglich.


Cross-Analytics – Der Treibstoff für den Betrieb aller Applikationen


Doch dies ist nicht der einzige Vorteil, der sich bietet. Die Daten können gleichzeitig für unterschiedliche Use Cases verwendet werden. So kann das User-Verhalten in einem Online-Shop einerseits Grundlage für BI Analysen verwendet werden (Was war der durchschnittliche Warenkorbwert im Vormonat im Vergleich zum gleichen Monat im Vorjahr?) und andererseits mit Hilfe von Algorithmen aus dem Bereich Machine Learning für Recommendations verwendet werden. Oder es kann eine Monitoring-Lösung betrieben werden, die zu jedem Zeitpunkt Auskunft darüber liefert, ob alle Systeme und Anwendungen sich wie gewünscht und erwartet verhalten. Gleichzeitig können Teile der für das Monitoring verwendeten Daten für analytische Zwecke verwendet werden. So kann z. B. eingangs erwähnte Frage nach einem Zusammenhang zwischen Antwortzeiten der Suchmaschine und der Bounce-Rate der Website-Besucher beantwortet werden.
 

cross analytics unabhngigkeit
Abbildung 2 Unabhängigkeit der Daten vom Use Case


Fragestellungen, die sich mittels Analytics beantworten lassen, können in drei Kategorien eingeteilt werden:
•    Descriptive Analytics: Was ist passiert? Hier lassen sich klassische BI-Themen abbilden.
•    Predictive Analytics: Was wird passieren? In diesem Segment spielten Machine Learning oftmals eine Rolle, wo auf Basis historischer Daten Prognosen für die Zukunft getroffen werden.
•    Prescriptive Analytics: Was soll ich tun? Bei dieser Disziplin werden Aktionen spezifiziert, die eintreten müssen, damit ein vorhergesagtes Ereignis (aus einer Predictive Analyse) auch tatsächlich eintritt.

Cross-Analytics – Bessere Vorhersagen treffen erfordert mehrere Iterationen


Der Bereich Predictive Analytics stützt sich auf die Berechnung von Modellen auf Basis historischer Daten. Ein Modell für Recommendations stützt sich z. B. auf die Informationen, welcher Kunde welches Produkt erworben hat. Es werden täglich neue Käufe getätigt, das Produktsortiment verändert sich, Produktempfehlungen kommen für ein bestimmtes Produkt vielleicht besonders gut an – dies alles sind Beispiele dafür, warum ein initial errechnetes Modell nicht dauerhaft Bestand haben kann, sondern immer weiter verfeinert oder auf aktueller Datenbasis berechnet werden muss. Dies geschieht in sogenannten Iterationen. In diese Iterationen zur Modellberechnung können auch Analyseergebnisse aus dem Bereich Descriptive Analytics einfließen. Wird z. B. ein Produkt sehr häufig retourniert, macht es unter Umständen wenig Sinn, dieses Produkt prominent als Empfehlung zu platzieren.
Also ist ein System vonnöten, das einerseits stetig wachsende Datenmengen für iterative Modellberechnungen verarbeiten kann, andererseits auch Analyseergebnisse für Modellverfeinerungen verwenden kann.

 

Cross-Analytics – Zeit ist Geld: Einsichten in Echtzeit


Haben Hadoop und MapReduce Verarbeitung und Analyse von großen Datenmengen erst ermöglicht, geht es heutzutage aber nicht mehr rein um diese Möglichkeit, sondern vielmehr bereits um Geschwindigkeit. Die Latenz zwischen Entstehung der Daten, deren Verarbeitung und dem daraus entstehenden Ergebnis ist durch zahlreiche neue und innovative Technologien, vor allem aus dem Open Source Bereich in den vergangenen Monaten signifikant gesunken. Ob dies Kafka ist, das pro Sekunde mehrere Millionen Datensätze transportieren kann, oder Spark, das im Hauptspeicher verteilte Verarbeitung einer riesigen Datenmenge in einem Bruchteil der Zeit von einem MapReduce-Job schafft, oder Zeppelin, das ein solches Analyseergebnis dann visualisieren kann – die Möglichkeiten, die der Open Source Markt bietet, sind schlichtweg beeindruckend.

Cross-Analytics – Maximale Freiheit bei null Lizenzkosten durch Open Source Software


Aus mehreren Open Source Komponenten lässt sich eine mächtige Plattform bauen, deren Möglichkeiten bei maximaler Flexibilität nahezu grenzenlos sind. Doch Open Source heißt nicht nur maximal flexibel – es bedeutet auch, dass diese Komponenten komplett lizenzkostenfrei sind. Hierbei spielt es auch keine Rolle, mit welchem Datenvolumen umzugehen ist oder zu welchem Zweck die Plattform besteht. Ebenso besteht die freie Wahl, ob der Betrieb in der Cloud oder in einem (eigenen) Rechenzentrum stattfinden soll. Eine hohe Integrierfähigkeit sorgt dafür, dass bestehende Systeme und Infrastrukturen nicht ersetzt oder angepasst werden müssen.

Cross-Analytics – Komponenten im Einsatz


Natürlich sind Plattformen wie die hier beschriebene von vielen Faktoren abhängig:
•    Welche Daten sollen gespeichert werden?
•    Wo und in welcher Struktur liegen die Daten vor?
•    Welche Fragestellungen sollen in welcher Geschwindigkeit beantwortet werden?
•    Welche Verarbeitungsschritte sind notwendig, um die gewünschten Antworten zu erhalten?
•    Welche Data Governance Richtlinien müssen befolgt werden?
•    …

Doch unabhängig von diesen Faktoren ist es immer wieder ein bestimmtes Set an Technologien, das für Cross-Analytics-Plattformen Verwendung findet:


•    Hadoop – Als Technologie, die den verteilten Datenspeicher ermöglicht, unverzichtbar.
•    Spark – Mittlerweiler durch die weite Verbreitung der De Facto Standard für schnelle Datenanalysen. Machine Learning Algorithmen erlauben anspruchsvolle Analysen aus den Bereichen Predictive und Prescriptive Analytics.
•    NiFi und Kafka – Hochskalierbarer und fehlertoleranter Datentransport par excellence.
•    Solr – NoSQL Data Store mit geringen Zugriffszeiten und gewissen Data Analysis Fähigkeiten
•    Zeppelin – Interaktive und explorative Datenanalyse mit Visualisierung.
 

cross analytics startsmall
Abbildung 3 Klein anfangen, dann stark wachsen!


Diese sechs Projekte, die allesamt in die Apache Software Foundation eingegliedert sind, sind nur ein Auszug von möglichen Technologien, die in der Welt von Data Analytics häufige Verwendung finden. Der Vorteil hierbei ist, dass für jeden Analytics-Anwendungsfall auch das passende Technologie-Gespann gefunden und eingesetzt werden kann. Und wer noch nicht überzeugt ist, dass eine Cross-Analytics-Plattform nicht nur Unterstützung, sondern echten Mehrwert bieten kann: Start Small, Grow Tall! Suchen Sie sich einen Use Case heraus und setzen ihn um. Wenn Sie mit diesem ersten Use Case Erfolg haben, werden sich daraus automatisch neue Use Cases herauskristallisieren, die anschließend umgesetzt werden wollen.

Cross-Analytics – Keep it simple as a start


Wichtig für die Projektplanung und -umsetzung ist, zuerst Wissen aufzubauen, mit übersichtlichen Fragestellungen zu beginnen und so rasche Erfolge zu erzielen. Sie werden dann sehr schnell lernen, welche Möglichkeiten sich aus den Informationen und der Technologie noch zusätzlich ergeben. Nach den ersten Erfolgen können Sie Ihre initialen Fragestellungen dann um weitere kleine „Brocken“  zügig ergänzen und erhalten so ein größeres holistischeres Bild Ihrer Analyse oder Vorhersage. Cross-Analytics ist kein fertiges Produkt das einmal installiert wird und dann für immer und ewig auf ein und dieselbe Art und Weise Verwendung findet. Es ist vielmehr die Verwendung und Kombination von Tools, Libraries und Algorithmen, die bereits in unterschiedlichsten Formen, Branchen, Anwendungen weltweit eingesetzt werden. Diese haben wir in einer Architektur und Plattform mit unseren eigenen Folgerungen und Erkenntnissen aus dem Bereich des Open Source zusammengefasst. Mit anderen Worten: wir liefen die Tools, die Sie für Ihre konkreten und einzigartigen Fragestellungen benötigen.


Cross-Analytics in unserem Verständnis ist demnach eher ein Service als ein Produkt. Es ist unsere Stärke, diese verschiedenen Dinge zu verbinden und Ihnen das notwendige Wissen zu vermitteln.

Cross-Analytics – Summary

  • Herstellerunabhängigkeit durch Verwendung von Open Source Komponenten
  • Keinerlei Softwarelizenzkosten
  • Descriptive, Predictive, Prescriptive Analytics
  • Start Small, Grow Tall
  • Unabhängigkeit von der Datenstruktur
  • Grenzenlose Möglichkeiten in der Kombination von Datenquellen
  • Iterative und Interaktive Datenanalyse
  • Betrieb On-Premise oder in der Cloud möglich
  • Reports und Dashboards
  • Maximale Flexibilität
  • Real-Time Visibility
  • Focus auf Service
  • Wiederverwendbarkeit für neue Fragestellungen


Cross-Analytics – Use Case Prescriptive Analytics im E-Commerce


 cross analytics pfad
Abbildung 4 Ein Pfad durch unabhängige Datensilos, strukturiert und unstrukturiert

 

SEARCH & BIG DATA, BERATUNG, SCHULUNG, ENTWICKLUNG, SUPPORT, PUBLISHER SOLUTIONS
MIT APACHE SOLR, LUCENE, ELASTICSEARCH, SMARTLOGIC SEMAPHORE, SHI INFOPILOT