SHI GmbH Augsburg - Ihr Starker Partner für Search & Big Data, Apache Solr, IT Commerce Lösungen

SHI - Fast Forward to Success
SHI - Fast Forward to Success
Geschwindigkeit zählt. Bei den Kosten und bei den Erfolgsaussichten.
Bei uns sorgen professionelles Projektmanagement und modulare Entwicklung
für Ihren raschen und effizienten Software-Projekterfolg.
SHI - Support und Service
SHI - Support und Service
Wir sind Dienstleister aus Leidenschaft und verstehen unsere Kunden.
Nach dem Projekt ist vor dem Projekt und individuelle, persönliche
Betreuung stehen bei uns ganz weit oben.
SHI - Individuelle Anwendungen aus Software-Bausteinen
SHI - Individuelle Anwendungen aus Software-Bausteinen
Bei uns bekommen Sie weder Software von der Stange, noch unerprobte Eigenentwicklungen. Wir setzen auf bewährte Open-Source-Technologien und setzen Ihre individuelle Anwendung
aus passenden
Bausteinen zusammen.
SHI - Beratung  Entwicklung  Consulting
SHI - Beratung Entwicklung Consulting
Wir beraten und unterstützen Sie mit Schulungen, Trainings und Consulting. Von der Strategieberatung bis zur Anwendungsentwicklung helfen wir Ihnen bei der Optimierung Ihrer
Geschäftsprozesse.

Universal AJAX Live Search

Graph your Stream

Veröffentlicht am 17.10.2017 von Patricia Kaufmann

Sie sehen sich vor einem Berg kryptisch formulierter Log-Daten stehen, aus denen Informationen nur schwer zu extrahieren sind? Sie haben eine Idee zur Optimierung Ihrer Systeme, aber wissen nicht, wie Sie diese verifizieren und präsentieren können? Oder wollen Sie einfach mal herausfinden, welche Features Sie in Ihren Online-Shop einbauen könnten? Dann schnappen Sie sich eine Banana, springen Sie in den Zeppelin, browsen Sie durch Graphen und sehen Sie Garbage aus einer anderen View! Wie das geht, was das bringt und wem das hilft, erfahren Sie hier.


Seit Solr in der Version 6 verfügbar ist, werden die sogenannten Streaming Expressions mehr und mehr weiterentwickelt und verbessert. Sie ermöglichen eine Vielzahl an verschiedenen Operationen auf den in Solr gespeicherten Daten. Das reicht von einer einfachen Suche bis hin zu komplexen Verknüpfungen und Aggregationen.

Veröffentlicht am 10.10.2017 von Stefan Langenmaier

Eclipse ist als IDE für Java bekannt und bewährt. Eclipse versteht sich selbst aber als wesentlich mehr. Diese Serie soll Eclipse als Entwicklungsumgebung vorstellen, die als Hilfswerkzeug dient, um schnell Experimente durchzuführen. Es wird sich dabei herausstellen, dass Eclipse hauptsächlich als vereinigendes Element verschiedener anderer Technologien zu sehen ist.
Im ersten Teil der Blog-Serie wurde bereits darauf eingegangen, wie Eclipse mittels eines Plugins dazu in der Lage ist, Dateien in einem ZooKeeper-Ensemble zu verwalten. In diesem Teil geht es nun darum, Eclipse dafür zu verwenden, die Arbeit mit Docker zu vereinfachen.

Testing your Needs – The Apache Nifi Test Framework

07.09.2017 by Johannes Brucher

In this last part of our Nifi blog series, we will have a deeper look into Nifi’s test framework. To demonstrate the key concepts, we will write some JUnit tests for our custom LogCustomMessage processor that we implemented in the second part.


First things First – Integration of Nifi’s Test Framework

To make use of the Nifi test framework, you need the following Maven dependency to be able to run any custom processor in a JUnit style fashion:


<dependency>
    <groupId>org.apache.nifi</groupId>
    <artifactId>nifi-mock</artifactId>
    <version>[the version you are using]</version>
    <scope>test</scope>
</dependency>


Once you have included the above dependency, you gain access to an object called org.apache.nifi.util.TestRunner which enables you the full power to run any processor inside an ordinary JUnit test.

Recycle your Garbage


Veröffentlicht am 28.08.2017 von Patricia Kaufmann

Sie sehen sich vor einem Berg kryptisch formulierter Log-Daten stehen, aus denen Informationen nur schwer zu extrahieren sind? Sie haben eine Idee zur Optimierung Ihrer Systeme, aber wissen nicht, wie Sie diese verifizieren und präsentieren können? Oder wollen Sie einfach mal herausfinden, welche Features Sie in Ihren Online-Shop einbauen könnten? Dann schnappen Sie sich eine Banana, springen Sie in den Zeppelin, browsen Sie durch Graphen und sehen Sie Garbage aus einer anderen View! Wie das geht, was das bringt und wem das hilft, erfahren Sie hier.

Veröffentlicht am 24.08.2017 von Stefan Langenmaier

Eclipse ist als IDE für Java bekannt und bewährt. Eclipse versteht sich selbst aber als wesentlich mehr. Diese Serie soll Eclipse als Entwicklungsumgebung vorstellen, die als Hilfswerkzeug dient, um schnell Experimente durchzuführen. Es wird sich dabei herausstellen, dass Eclipse als vereinigendes Element verschiedener anderer Technologien zu sehen ist.

Eclipse - ZooKeeper Explorer


Jedem, der Solr im Cloud-Modus betreibt, ist ZooKeeper bekannt. Es ist ein einfaches und stabiles Werkzeug, um ausfallsicher und zentral Konfigurationen für Services wie Solr zur Verfügung zu stellen. Allein in der Testphase und beim Erstellen von Prototypen kommt es vor, dass man durch die minimalistische Kommandozeilenschnittstelle ausgebremst wird, wenn man Informationen ad-hoc einsehen oder ändern will. Abhilfe kann hier das ZooKeeper Explorer Plugin für Eclipse schaffen. Es stellt eine grafische Oberfläche für alle herkömmlichen Aufgaben zur Verfügung und bettet dies in die gewohnte Entwicklungsumgebung von Eclipse ein. Aber der Reihe nach. Wie bekommt man das ZooKeeper Explorer Plugin überhaupt installiert?

Veröffentlicht am 16.08.2017 von Daniel Wrigley

Die ersten beiden Teile dieser Serie drehten sich darum, welche Daten innerhalb eines Online-Shops gespeichert werden sollen und wie diese getracked werden können.


In diesem dritten Teil geht es nun um die Nutzung dieser Daten, nachdem an dieser Stelle bereits bekannt ist, welche Daten sich lohnen zu speichern und wie dies umgesetzt werden kann.


Für welche Features können derartige Daten also verwendet werden? Wie bereits in einem vorherigen Teil angekündigt, geht es um folgende Features:


•    Autosuggest
•    Analytics
•    Relevanztuning
•    Personalisierung
•    Recommendations


An dieser Aufzählung wird bereits deutlich, dass es sich teils um essenzielle Dinge handelt, die durch Daten, die aus dem User-Verhalten resultieren, umgesetzt oder verbessert werden können. Wie Die einzelnen Features von solchen Daten profitieren können, wird nachfolgend detaillierter beschrieben.

Browse around

Veröffentlicht am 11.08.2017 von Patricia Kaufmann


Sie sehen sich vor einem Berg kryptisch formulierter Log-Daten stehen, aus denen Informationen nur schwer zu extrahieren sind? Sie haben eine Idee zur Optimierung Ihrer Systeme, aber wissen nicht, wie Sie diese verifizieren und präsentieren können? Oder wollen Sie einfach mal herausfinden, welche Features Sie in Ihren Online-Shop einbauen könnten? Dann schnappen Sie sich eine Banana, springen Sie in den Zeppelin, browsen Sie durch Graphen und sehen Sie Garbage aus einer anderen View! Wie das geht, was das bringt und wem das hilft, erfahren Sie hier.

How Nifi fits into your needs; Part 2

04.08.2017 by Johannes Brucher

In Part 1 of this series we had a look at the general concepts of Nifi and how Nifi can help moving your data a level higher.


In Part 2 we will look at the extension points Nifi is providing, especially the most important one the ‘Processor Extension Point’.
Nifi comes with ~ 225 default processors, but even with this high number there are always situations where a custom solution might not only work better but is absolutely necessary.

Veröffentlicht von Daniel Wrigley am 25.07.2017

Nachdem im ersten Teil der Blog-Serie dargestellt wurde, dass das Tracken von User-Interaktionen innerhalb eines Online-Shops für unterschiedlichste Zwecke lohnenswert ist, geht es in diesem zweiten Teil darum, wie diese am besten mitgeschnitten und gespeichert werden können.

Veröffentlicht am 21.07.2017 von Daniel Wrigley


Mit der exponentiell steigenden Menge an unstrukturierten Daten wird deren Verarbeitung ein immer zentraleres Thema. Als Unternehmen, das sich täglich mit Suche in Daten beschäftigt, ist die Verarbeitung dieser Daten unter dem Gesichtspunkt optimaler Auffindbarkeit von immenser Bedeutung. Die Kerntechnologien, die als Suchmaschinen aus dem Open Source Umfeld eingesetzt werden, beherrschen selbstverständlich bereits einen beträchtlichen Teil von Schritten in diesen Szenarien. Am Beispiel Solr ist dies schnell ersichtlich: Solr kann Text, der indexiert wird, in sogenannten Analyseketten zerlegen (Tokenisierung), sprachwissenschaftliche Operationen durchführen (Stemming), auf Basis des Inhalts die Sprache erkennen, in der ein Text verfasst ist (Sprachenerkennung in UpdateProcessors), oder sogar indexierte Dokumente mittels Streaming Expressions klassifizieren. Alle Operationen sind auf ein hohes Maß an Skalierbarkeit ausgelegt. Hunderte oder tausende Dokumente pro Sekunde indexieren ist ebenso wie hunderte oder tausende Suchanfragen pro Sekunde zu beantworten längst kein Ding der Unmöglichkeit mehr.


Mit modernen Suchmaschinen lassen sich also bereits einige Herausforderungen meistern, die in der heutigen Zeit relevant sind. Doch das Anforderungsprofil von modernen Anwendungen geht immer häufiger weit darüber hinaus, was anhand einiger Beispiele illustriert wird.

Jump into the Zeppelin

Veröffnetlicht von Patricia Kaufmann am 17.07.2017

Sie sehen sich vor einem Berg kryptisch formulierter Log-Daten stehen, aus denen Informationen nur schwer zu extrahieren sind? Sie haben eine Idee zur Optimierung Ihrer Systeme, aber wissen nicht, wie Sie diese verifizieren und präsentieren können? Oder wollen Sie einfach mal herausfinden, welche Features Sie in Ihren Online-Shop einbauen könnten? Dann schnappen Sie sich eine Banana, springen Sie in den Zeppelin, browsen Sie durch Graphen und sehen Sie Garbage aus einer anderen View! Wie das geht, was das bringt und wem das hilft, erfahren Sie hier.


Im zweiten Teil der Blogreihe werden wir uns mit einem heutzutage eher ungewöhnlichen Fortbewegungsmittel befassen, das in der Data Analytics Welt 2015 ein brausendes Comeback gefeiert hat: Zeppelin ab!

What is Nifi and how can it help moving up data a level higher - Part 1

11.07.2017 by Johannes Brucher


Apache Nifi is a powerful system to process and distribute data across different systems. It enables the automation of data flows and can be seen as a data logistic platform.
Data can be processed in real time, in batches and even an event can trigger certain tasks.


Apache Nifi supports powerful and scalable directed graphs of data routing. To build up a data flow we need to understand the core concepts of Nifi first.

Never Ending Story - Teil 1

Veröffentlicht am 05.07.2017 von Daniel Wrigley


Jeder Betreiber eines Online-Shops weiß, dass es einer unendlichen Geschichte gleicht, diesen konstant verbessern und optimieren zu müssen, um den Anschluss an die Konkurrenz nicht zu verlieren und die User und Kunden bei Laune zu halten und nicht zu verlieren.
Diese Blog-Serie soll zeigen, wie die Daten, die die User in Online-Shops hinterlassen gleich in mehrerlei Hinsicht dazu beitragen können, den Online-Shop um neue Features anzureichern oder bereits bestehende zu verbessern.

Der erste Teil dreht sich um das Thema, welche Daten dies genau sind und wozu diese verwendet werden können, bevor in den weiteren Teilen dann detailliert auf diese Bereiche eingegangen wird.

Grab a banana

Veröffentlicht am 29.06.17 von Patricia Kaufmann
Sie sehen sich vor einem Berg kryptisch formulierter Log-Daten stehen, aus denen Informationen nur schwer zu extrahieren sind? Sie haben eine Idee zur Optimierung Ihrer Systeme, aber wissen nicht, wie Sie diese verifizieren und präsentieren können? Oder wollen Sie einfach mal herausfinden, welche Features Sie in Ihren Online-Shop einbauen könnten? Dann schnappen Sie sich eine Banana, springen Sie in den Zeppelin, browsen Sie durch Graphen und sehen Sie Garbage aus einer anderen View! Wie das geht, was das bringt und wem das hilft, erfahren Sie hier.

Veröffentlicht am 18.05.2017 von Patricia Kaufmann


Das Commerce Special der code.talks in Berlin am 27. und 28. April 2017 war eine rundum gelungene Veranstaltung, die sowohl Entwickler als auch Manager mit ausreichend Informationsmaterial versorgte. Angefangen bei der wohlgewählten Kulisse im Kino in der Kulturbrauerei Berlin über eine Vielzahl an interessanten Vorträgen namhafter Referenten bis hin zur After-Conference-Party überzeugte die code.talks auf ganzer Linie.

Veröffentlicht am 10.04.2017 von Patricia Kaufmann


Seit Ende März glänzt Solr wieder in einem neuen Versionsgewand – das Release 6.5 hat einige interessante Zusatzfeatures zu bieten. Dazu gehört die Einführung von PointFields, Verbesserungen des Highlightings und auch der Bereich Streaming Expressions wurde um einige Funktionalitäten wie significantTerms und arithmetische Operationen erweitert. Besonders hervorzuheben ist aber die langersehnte Möglichkeit, Multi-Term-Synonyme zu definieren.

Veröffentlicht am 16.03.2017 von Markus Klose

Dieser Blog ist eine kurze Einführung in das Tool „Marple“, einem neuen Lucene Index Tool. Es wird beschrieben, was Marple kann und was nicht, verglichen mit dem bisherigen Tool Luke.


Bisher war Luke das Tool der Wahl, wenn es darum ging einen Solr/Lucene Index zu untersuchen ohne dabei Apache Solr zu konfigurieren. Seit einiger Zeit wird an einem neuen OpenSource Tool gearbeitet, welches sich Marple nennt. Am 24.02.2017 wurde nun die erste Version von Marple veröffentlicht. Bevor Sie sich nun aber Marple 1.0 herunterladen und ausprobieren folgt nun eine kurze Einführung in Marple.

Veröffentlicht am 09.02.2017 von Markus Klose


Dieser Blog ist eine kurze Einführung in die CDCR (Cross Data Center Replication) Funktionalität von Solr. Es wird beschrieben, was CDCR ist, was CDCR nicht ist und wann man diese Funktionalität einsetzen kann.

Veröffentlicht am 08.02.2017 von Daniel Wrigley

Teil III


Nachdem die beiden vorhergehenden Blogs eine Einführung in die Thematik und vorbereitende Maßnahmen behandelt haben, geht es im abschließenden Teil der Blog-Serie um das große Ziel: Mit Hilfe von Streaming Expressions ein Modell zur Erkennung von Spam-Mails zu trainieren und zu validieren und zu Klassifikationszwecken einzusetzen.

Veröffentlicht am 26.01.2017 von Daniel Wrigley

Teil II


In einem vorherigen Blog wurde eine Einführung in das Thema Klassifikation gegeben, das hiermit mit einem konkreten Use Case fortgeführt wird. Dieser zweite Teil der Blogserie wird die Vorbereitungsmaßnahmen beleuchten, die notwendig sind, um Solr als Klassifikationsmaschine einsetzen zu können. Dieser Blog behandelt also vom Starten von Solr über das Anlegen der notwendigen Collections bis hin zur Indexierung der Trainingsdaten alle Schritte.

Veröffentlicht am 17.01.2017 von Daniel Wrigley

Teil I

Spätestens seit dem letzten Major Release von Solr im April letzten Jahres, der Version 6.0, sind Features und Möglichkeiten eingeführt worden, die nicht mehr unbedingt zum klassischen Repertoire einer Suchmaschine zu zählen sind. Abfragen auf Basis von SQL-Syntax sind hier zu nennen, Graphen-Traversierung oder eben Textklassifikation, ein Bereich des Machine Learning, das in dieser Blogserie näher beleuchtet wird. In diesem ersten Beitrag werden die inhaltlichen Grundlagen der Textklassifikation erläutert, bevor ein konkreter Use Case dargelegt wird.

 

Die sogenannten „Saved Searches“ sind eine Suchtechnik, bei der ein Anwender seine Suche „speichern“ kann. Jede Änderung im Index wird mit den Saved Searches abgeglichen. Sobald ein Produkt auf diese Suche passt, wird der Anwender (beispielsweise durch eine E-Mail) benachrichtigt. Dies ermöglicht ein nachträgliches Finden von Produkten, Artikeln etc. Diese Technik lohnt sich vor allem dann, wenn die Inhalte des Index häufig aktualisiert werden, wie es in Auktionsplattformen der Fall ist. Einige E-Shops bieten diese Funktionalität bereits an und wir können messen, dass das Interesse an Saved Searches kontinuierlich steigt. Daher stehen wir oft den Fragen gegenüber, ob Saved Searches mit Apache Solr umgesetzt werden können.

Dass Suche mittlerweile mehr ist, als nur das Auffinden von Dokumenten, die ein Suchwort beinhalten, ist längst kein Geheimnis mehr. Ebenso ist hinlänglich bekannt, dass es hierfür Lösungen gibt, die sehr weit ausgereift sind. Dies sind nicht nur Lösungen kommerzieller Natur, sondern auch kostenlose Open Source Varianten, wie Apache Solr, die unübertroffene Skalierbarkeit zeigen.

Bei Apache Solr gibt es grundlegend keine Sicherheitsmechanismen. Dies betrifft sowohl den Zugriff auf den Solr-Server selbst, als auch die einzelnen Dokumente. Natürlich gibt viele bewährte Workarounds hierfür. Beispielsweise kann man den Solr-Server im eigenen Netz so absichern, dass nur bestimmte Ports freigeschaltet werden. Für Dokumentsicherheit kann man ACL Informationen mit im Index abspeichern und bei der Suche mit berücksichtigen.

Viele Applikationen, die auf Apache Solr basieren, enthalten Daten, auf die nicht jeder zugreifen soll, und müssen daher besonders gesichert werden. Dies wird im World Wide Web in der Regel über eine Verschlüsselung der Kommunikation und eine Zugriffsbeschränkung mittels TLS/SSL erreicht. Der gleiche Mechanismus ist schon vor einigen Versionen in Apache Solr integriert worden. Seit Solr 4.8 können nun einzelne Solr Installationen technisch mit Zertifikaten abgesichert werden. Dies gilt natürlich auch für verteilte Systeme, wie klassische Master/Slave-Architekturen oder die SolrCloud.

Wie Sie SSL in Ihrer Solr Installation aktivieren können, ist im Apache Solr Reference Guide ausführlich beschrieben.

Diese Woche ist Apache Solr 4.9 veröffentlicht worden. Neben vielen Bug-Fixes und Verbesserungen gab es auch einige neue Funktionalitäten. Eine von den hervorstechenden Neuerungen ist die AnalyticsQuery API, die ich in diesem Blog kurz vorstellen werde.

Apache Solr 4.9 steht in den Startlöchern. Daher wird es Zeit neue und spannende Funktionalitäten unter die Lupe zu nehmen. Eine der kommenden Neuerungen wird das sogenannte Re-Ranking sein, welches ich in diesem Blog beschreiben möchte.

Wie bereits im vergangenen Blog (Monitoring mit Solr) angedeutet, möchte ich hier nun auf die Möglichkeit eingehen, wie man Log-Dateien mittels Logstash verarbeiten kann, so dass diese anstelle in einem Elasticsearch Index in einem Solr Index landen.

Logstash bietet eine Vielzahl von Plugins, sowohl für „input“, „filter“ oder „output“. Das Plugin für den Solr Output ist nicht integraler Bestandteil von Logstash, sondern wurde von der Community entwickelt. Um dieses Plugin zu nutzen, muss es separat installiert werden. Ich verzichte bewusst auf die Beschreibung, wie man dieses Plugin installiert, da ich mich auf die Konfiguration konzentrieren möchte. Weiter unten finden Sie jedoch einen Link mit der Beschreibung zur Plugin-Installation.

In einem früheren Blog habe ich einen kurzen Einblick in Apache Stanbol und Named Entity Recognition (NER) gegeben. Die gezeigte Oberfläche war der Stanbol Enhancer. Er ist dafür zuständig, Entitäten im Fließtext zu erkennen.

In diesem Beitrag will ich etwas näher auf den sogenannten Contenthub eingehen, der ebenfalls Teil von Apache Stanbol ist. Der Contenthub besteht aus zwei Komponenten: Store und Search. Wie die Namen bereits verraten, ist Store für die persistente Datenspeicherung zuständig und Search für die Suche. Führt man den full launcher aus (nicht den stable launcher!), wird im Hintergrund ein Solr Server gestartet. Dieser dient gleichermaßen zur Speicherung angereicherter Daten als auch zur Suche in diesen Daten.

Wird ein Dokument über den Stanbol Contenthub erstellt, wird dessen Inhalt an den Stanbol Enhancer übergeben. Dieser ist dafür zuständig, diesen Inhalt mit Metadaten anzureichern. Dieser Prozess wird auch Enhancement genannt. Optional besteht die Möglichkeit, externe Daten hinzuzufügen. Schließlich wird das Dokument zusammen mit den Metadaten in einem Solr Core indexiert.

Monitoring ist ein wichtiges Thema. Egal ob es sich um die technische Überwachung einer Serverlandschaft handelt oder beispielsweise um das Tracking des Userverhaltens beim Einkauf in einem Onlineshop. Es ist immer wichtig, gezielt nach Informationen wie Conversion-Rate oder CPU-Auslastung zu „suchen“, diese aufzubereiten und darzustellen.

Sehr schnell kommt man bei diesem Thema mit dem ELK-Stack – Elasticsearch, Logstash und Kibana – von Elasticsearch in Berührung. Aber es geht natürlich auch anders.

Dieser Beitrag stellt den Auftakt einer Serie von Beiträgen dar, die sich dem Thema aus der Sicht von Solr widmet. Wir werden an Beispielen zeigen, wie man bereits jetzt Solr für Monitoring Aufgaben nutzen kann, wie man Solr mit bestehenden Tools bzw. Frameworks zusammenbringen kann und was für die Zukunft geplant ist.

Mein Kollege Daniel Wrigley hatte vor gut einem Jahr bereits über das Document-Routing in Solr in einem Blogbeitrag berichtet. In diesem Jahr sind weitere Solr Versionen mit Anpassungen, Erweiterungen und neuen Features veröffentlicht worden. Die Änderungen betreffen auch das mit Solr 4.1 eingeführte Document Routing. Mit der Solr Version 4.5 wurde dieses Feature überarbeitet und vereinfacht. Dies möchte ich nun in diesem Blog vorstellen.

Das “neue” Document Routing

An dem grundlegenden Mechanismus vom Document Routing hat sich nichts geändert. Solr stellt weiterhin die beiden Routing Varianten „implicit“ und „compositeId“ zur Verfügung, wobei „implicit“ weiterhin die Default-Einstellung ist. Ändern kann man diese Variante nun beim Erstellen einer Collection, indem man den Parameter „router.name“ setzt.

http://localhost:8983/solr/admin/collections?action=CREATE&amp;name=myCollection&amp;...amp;router.name=compositeId

Bei der Variante „compositeId“ wertet Solr bei der Indexierung weiterhin die Dokument-IDs aus, um Dokumente mit dem gleichen Präfix im gleichen Shard zu indexieren. Zum Beispiel landen Dokumente mit den IDs „SPORT!123“ und „SPORT!234“ in einem Shard. Es ist dabei weiterhin freigestellt, was die Präfixe sind. Sie müssen nicht zwingend eine Kategorie, wie in meinem Beispiel, widerspiegeln.

Für die Suche wurde der Parameter „shard.keys“ durch „_route_“ ersetzt. Der „shard.keys“ Parameter wird in einer der kommenden Solr Releases entfernt, daher sollte man, wenn möglich, auf „_route“ umsteigen. Dieser neue Parameter reiht sich in die „magischen“ Variablen von Solr wie „_val_“, „_version_“ oder „_root_“ ein und wird zukünftig genutzt, um in der Suchanfrage den Shard zu definieren, in dem gesucht werden soll.

Folgender Request würde in dem Shard suchen, in dem die Sport-Dokumente gelandet sind.

http://localhost:8983/solr/select?q=*:*&amp;_route_=SPORT!

Solche Suchanfragen können die Performance verbessern, da weniger Shards durchsucht werden und somit auch weniger Netzwerklast erzeugt wird.

Fazit

Auch wenn sich augenscheinlich nicht so viel geändert hat, ist die Nutzung vom Document Routing nun etwas intuitiver geworden.

Document Routing ist dabei nicht das Wundermittel, um die Suchperformance zu steigern, aber es hilft definitiv, um die Ressourcen in einem Solr Cluster weise bzw. gezielt zu nutzen.

Weiterführende Informationen:

Blog - Alle Antworten auf einen Blick

SEARCH & BIG DATA, BERATUNG, SCHULUNG, ENTWICKLUNG, SUPPORT, PUBLISHER SOLUTIONS
MIT APACHE SOLR, LUCENE, ELASTICSEARCH, SMARTLOGIC SEMAPHORE, SHI INFOPILOT