SHI GmbH Augsburg - Ihr Starker Partner für Search & Big Data, Apache Solr, IT Commerce Lösungen

SHI - Integration
SHI - Integration
Insbesondere Big Data Lösungen sind nur mit Integration zahlreicher Plattformen realisierbar: Apache Solr, Hadoop, Mahout, Stanbol, HBase, ZooKeeper, Pig und viele andere mehr.
SHI - Apache Solr Beratung
SHI - Apache Solr Beratung
Professionelle Beratung rund um Apache Solr - Wir unterstützen Sie vor, während und nach Ihrem Projekt.
SHI - Training
SHI - Training
Schneller am Ziel - Search & Big Data Lösungen erfolgreich entwickeln und betreiben.
SHI - Migration
SHI - Migration
Steigen Sie jetzt auf die Open Source Plattform Apache Solr oder die professionelle Distribution Lucidworks Fusion um

Universal AJAX Live Search

solr logo

 

lucene logo 75pct

Wir klären gerne mit Ihnen, ob Apache Solr die passende Lösung für Sie ist.

Fordern Sie unverbindlich Informationen an.

Was ist Apache Solr?

Leistungsfähige Volltextsuchtechnologie a la Google erscheint uns heute im Internet fast wie eine Selbstverständlichkeit. Soll Suchtechnologie jedoch im Unternehmen, in Web-Shops oder gar innerhalb von Applikationen zum Einsatz kommen, so sind fertige Module gefragt, die von Softwareentwicklern verwendet werden können.

Apache Lucene - Die Search Engine

An diesem Punkt kommt zunächst Apache Lucene ins Spiel. Mit derzeit ca. 6000 Downloads pro Tag ist Lucene eines der erfolgreichsten Open Source Projekte. Lucene ist eine Search Engine Library, welche alle Kernfunktionen einer Search Engine bereitstellt.
Allerdings erfordert der Umgang mit Lucene einiges an Expertenwissen, und es ist oft erheblicher Implementierungsaufwand nötig, bevor die ersten Dokumente indexiert und die ersten Suchergebnisse sichtbar sind. Gänzlich "explodieren" können die Entwicklungsaufwände dann, wenn auf Basis von Lucene wirklich komplexe Projekte - z.B. mit verteilten Indexen - realisiert werden sollen.

Apache Solr - Der Search Server mit vielen Zusatzfunktionen

Wesentliche Erleichterung bei Entwicklung und Betrieb von Such-Lösungen schafft hier Apache Solr.
Apache Solr ist die "Serverversion" von Lucene. Apache Solr verwendet die Lucene Search Engine Library und erweitert diese um eine Vielzahl von Funktionen und läuft in verbreiteten Servlet Containern wie Tomcat oder Jetty. Mit seinen REST-Schnittstellen und der XML-basierten Konfiguration lassen sich ansprechende Suchlösungen realisieren. Tatsächlich berichten viele Entwickler, dass Sie in Apache Solr die Funktionalitäten gefunden haben, die Sie für Lucene erst hätten entwickeln müssen.

Apache Solr bietet Entwicklern auf Basis von Standard-Webtechnologien eine mächtige und dabei einfach zu integrierende und zu benutzende Search Engine. Apache Solr setzt dabei konsequent auf Konfigurierbarkeit. Die zahlreichen "out of the box"-Module und die offenen Schnittstellen bieten dabei reichhaltige und effiziente Mittel zum Aufbau von Search Solutions.

Für wen eignet sich Apache Solr?

Sie betreiben einen Online Shop oder eine E-Commerce Lösung und Ihre Besucher sollen schnell, einfach und intuitiv alle gesuchten Produkte finden?

Ihr Unternehmen hat unzählige wichtige Dokumente und Informationen in vielen verschiedenen Systemen und Sie möchten dieses Wissen nutzen - so einfach wie bei Google?

Sie haben ein Web-Portal und möchten, dass Ihre Besucher schnell Artikel, Dokumentationen, Produktinformationen durchsuchen und durch tausende Seiten navgieren können?

Sie sind Hersteller einer CRM-, CMS- oder einer Branchen-Lösung und die Datenbanksuche ist zu umständlich, zu langsam oder nicht fehlertolerant genug?

Dann kann Apache Solr die richtige Lösung für Sie sein.

Wie kann ich Apache Solr nutzen?

Viele unterschiedliche Datenquellen - Web, Dateisystem, Datenbanken, Mail Server, ... - und Dateiformate - Office Dokumente, E-Mails, XML, HTML, PDF, ... - zentral durchsuchbar machen.

Tippfehler bei der Eingabe korrigieren.

Suchergebnisse nach deren Relevanz sortiert bereitstellen.

Suchergebnisse nach definierbaren Kriterien weiter einschränken.

Vorschläge für ähnliche Dokumente oder Produkte machen.

Und viels mehr.

Kann ich Apache Solr testen?

Selbstverständlich - kostenfrei und so lange Sie möchten, denn Apache Solr ist Open Source und unterliegt der liberalen Apache License 2.0.

Sie können sich dazu selbst in Apache Solr einarbeiten und zahlreiche Informationsquellen, wie z.B. unser Blog oder eine unsere Schulungen nutzen.

Schneller und sicherer kommen Sie aber zum Ziel, wenn Sie unsere langjährige Erfahrung mit Apache Solr nutzen: In einem gemeinsamen Workshop klären wir individuell, was Apache Solr für Sie tun kann und

können, wenn Sie wünschen, in kürzester Zeit einen ersten Proof of Concept für Sie erstellen.

 

Warum sollten Sie Solr für die Suche erwägen?

  • Solr hat sich in Bezug auf Zuverlässigkeit, Skalierbarkeit und Geschwindigkeit bewährt
  • Solr ist die am häufigsten eingesetzte Suchplattform, und wird von einer großen Community von Open Source Entwicklern und Committern weiterentwickelt
  • Solr ist Opensource und extrem flexibel
  • Solr bietet die notwendigen Kern-Suchfunktionen, auf dem anspruchsvolle Suchanwendungen aufgebaut werden können.

 

Mehr Apache Solr Facts!

Apache Solr hat ein REST API. Dokumente werden dem Index über HTTP als XML, JSON, CSV oder binär hinzugefügt. Die Abfrage erfolgt via HTTP GET und Suchergebnisse werden als XML, JSON, CSV oder binär übertragen.


In Kürze:

  • Hochentwickelte Volltext Suche
  • Optimiert für High Volume Web Traffic
  • Offene, standardisierte Interfaces - XML, JSON, HTTP
  • HTML Administration Interface
  • Serverstatistiken via JMX
  • Linear skalierbar, automatische Indexreplikation, automatischer Failover und Recovery
  • Near Real-Time Indexierung
  • Flexible XML-Konfiguration
  • Erweiterbare Plugin-Architektur


Apache Solr baut auf die Apache Lucene Search Library auf und erweitert diese:

  • Datenschema mit numerischen typen, Dynamic Fields, Unique Keys
  • Mächtige Erweiterungen der Lucene Query Language
  • Facettierte Suche und Filterung
  • Geospatial Search mit Unterstützung mehrfacher Punkte je Dokument und Geo-Polygone
  • Hochentwickelte, konfigurierbare Textanalyse
  • Umfassend konfigurierbares und erweiterbares Caching
  • Optimierte Performance
  • XML-Konfiguration
  • AJAX-basierte Administrationsoberfläche
  • Logging
  • Schnelle, inkrementelle Near Real Time Indexierung und Replikation
  • Hoch skalierbare, verteilte Such mit über mehrere Hosts verteilten Sharded Indexes
  • JSON, XML, CSV und binäre Update-Formate
  • Unkompliziertes Einlesen von Daten aus Datenbanken sowie aus XML-Dateien von lokalen Medien oder HTTP-Quellen.
  • Parsen und Indexieren vieler Dokumentenformate (PDF, Word, HTML, etc) mit Apache Tika
  • Apache UIMA Integration für konfigurierbare Metadaten Extraktion
  • Unterstützung mehrerer Suchindexe


Schema

  • Definiert die Feldtypen und Felder von Dokumenten
  • Dadurch intelligentere Verarbeitung von Feldinhalten
  • Deklarative Lucene Analyzer Spezifikation
  • On-the-fly hinzufügen neuer Felder durch Dynamic Fields
  • CopyField ermöglicht die Indexierung eines Feldes auf verschiedene Weise oder das Zusammenfassen mehrere Felder zu einem einzigen suchbaren Feld
  • Erhöhte Typsicherheit durch Explizite Feldtypen
  • Dateibasierte definition von Stoppwortlisten, Synonymlisten und Protected Word Listen
  • Viele zusätzlich Textanalyse-Komponenten - Word Splitting-, Regex- und Sounds-like Filter
  • Per Feld pluggable Similarity-Modell

Query

  • HTTP-Interface mit konfigurierbaren Response-Formaten (XML/XSLT, JSON, Python, Ruby, PHP, Velocity, CSV, binär)
  • Sortierung mit beliebiger Anzahl an Feldern sowie mittels komplexer Funktionen für numerische Felder
  • DisMax Query Parser für natürlich sprachige Benutzereingaben
  • Treffer Highlighting
  • Facettierte Suche auf Basis von Feldinhalten, expliziten Queries, Datumsbereichen, numerischen Bereichen oder Pivot
  • Multi-Select Faceting
  • Spell Checker, Vorschlagsgenerierung für Benutzereingaben
  • "More Like This" - Vorschläge für ähnliche Dokumente
  • Function Query - Steuerung des Relevanz-Score durch benutzerspezifizierte komplexe Funktionen
  • Range Filter über Function Query Results
  • Datumsarthmetik - Datumsangaben relative zu "NOW" in Queries und Updates
  • Dynamisches Search Results Clustering mit Carrot2
  • Statistikfunktionen für numerische Felder - min, max, average, standard deviation
  • Kombination von Queries in unterschiedlicher Syntax
  • Auto-Suggest zur Vervollständigung von Benutzereingaben
  • Konfigurierbare Top Results, unabhängig von der normalen Sortierung
  • Einfache joins zwischen Dokumententypen types

Core

  • Dynamisches Anlegen und Löschen von Collections ohne Restart
  • Plugin-Architektur für Query Handler und erweiterbares XML-Format
  • Plugin-Architektur für Benutzerfunktionen für Function Queries
  • Anpassbare, modulare Request Handler mit Unterstützung für verteilte Suche
  • Eindeutigkeit von Dokumenten durch Unique Key Feld
  • Doublettenerkennung inkl. Fuzzy Near Duplicates
  • Custom Index Processing Chains zur Dokumentenverarbeitung vor dem Indexieren
  • Ausführen konfigurierbarer Kommandos bei Indexänderungen

Caching

  • Konfigurierbare Query Result, Filter und Document Caches
  • Pluggable, Lock free, high Concurrency Cache Implementierung
  • Autowarming und Cache Warming im Hintergrund
  • Auf neu geöffnete Searcher werden konfigurierbare Abfragen zm Füllen des Cache abgesetzt. Während dieses Warming behandelt der aktuelle Searche Live-Requests.
  • Die zuletzt genutzten Cache-Einträge des aktuellen Searcher warden in den neuen Searcher übertragen, um hohe Cache Hit Raten bei Index- / Searcherwechseln zu gewährleisten.
  • Schnelle, kompakte Filter Implementierung
  • User Level Caching mit Autowarming

SolrCloud

  • Zentrale Apache ZooKeeper basierte Konfiguration
  • Automatisiertes, verteiltes Indexieren und Sharding – Dokumente können an jeden Node gesendet werden und werden automatisch an den korrekten Shard weitergeleitet.
  • Near Raeltime Indexierung mit sofortiger Push Replikation (auch Pull Replikation wird unterstützt)
  • Transaktions Logs stellen sicher, dass keine Updates verloren gehen – auch wenn noch kein Schreiben auf Disk erfolgt ist.
  • Automatischer Query Failover, Index Leader Election und Recovery im Fehlerfall
  • Kein Single point of Failure

Admin Interface

  • Statistiken für Cache Nutzung, Updates und Queries
  • Interaktiver Schema Browser mit Index Statistik
  • Replication Monitoring
  • SolrCloud Dashboard mit graphischem Cluster Node Status
  • Text Analyse Debugger – Anzeige jedes Verarbeitungsschritts im Analyzer
  • Web Query Interface mit Debug Output
  • Parsed Query Ausgabe
  • Lucene explain() – Detaillierte Angeben zum Document Scoring

 

 

EinfhrunginApacheSolr

Einführung in Apache Solr

Praxiseinstieg in die innovative Suchtechnologie

Das erste deutschsprachige Buch zu Apache Solr, geschrieben von unseren Consultants Markus Klose und Daniel Wrigley

 

Ihr Buch ist bei O'Reilly (ISBN-10: 3955614212, ISBN-13: 978-3955614218) erschienen und führt auf über 300 Seiten umfassend in Apache Solr ein.
Mit zahlreichen Ilustrationen und Code-Beispielen wird die komplexe Materie auf gut verständliche Weise erschlossen.

Bestellen können Sie dieses Buch bei O'Reilly, Amazon und vielen weiteren Buchhändlern

Kibana4Solr

State of the Art Loggin with Kibana4Solr

Vortrag von Markus Klose auf der LuceneSolrRevolution 2013 in Dublin.

Motivation of Kibana4Solr.

What is Kibana / Kibana4Solr.

Implementation / Architecture.

Pitfalls / Prospect / Use Cases / Demo

SolrCloud-7deadly

SolrCloud - The 7 deadly sins and how to avoid them

Webinar über Apache Solr 4, SolrCloud und ZooKeeper.

SolrCloud installieren.
SolrCloud und ZooKeeper konfigurieren.
Typische Fehler, bzw. Sünden, und wie man diese vermeidet..

opensourcesolutionecommerce

Apache Solr - the open source search solution for ecommerce

Customers can´t buy, what they can´t find
Therefore search is a key factor for the success of ecommerce sites.

Relevace tuning, facetted search, geospacial search, log analysis....
....Peter Spiske, CEO of SHI Elektronische Medien GmbH (http://www.shi-gmbh.com) and Jay Hill from LucidWorks talk about the challenges for search engines in ecommerce sites.
In the second half of this clip, Jay Hill shows how ebay Kleinanzeigen, Sears, Macys and Zappos have mastered these challenges using the open source search server Apache Solr for their successful ecommerce sites.

apachesolr-als-enterprise-plattform

Apache Solr als Enterprise Search Plattform

Vortrag von Markus Klose, Head of Training & Consulting bei SHI, an der Heinrich-Heine Universität Düsseldorf

Die Suche nach Informationen in den verschiedenen Datenquellen eines Unternehmens kann schnell zur berühmten Suche nach der Nadel im Heuhaufen ausarten. Nach einer Google Studie haben "85% aller Firmen auf weniger als 50% aller ihrer Daten Zugriff". Markus Klose hat in seinem Vortrag die vielfältigen Herausforderungen, die die einheitliche Suche in heterogenen Informationssystemen eines Unternehmens mit sich bringt vorgestellt und gezeigt, wie diese Herausforderungen mit Hilfe des sehr performanten Open Source Suchserver Apache Solr adressiert werden.

Markus erklärte die Architektur des Solrs, der auf Apache Lucene aufbaut und stellte vor, wie verschiedene Datenquellen angebunden werden können um so eine einheitliche unternehmensweite Suche zu realisieren. Solr kann automatisch verschiedenste Eingabeformate verarbeiten, unter anderem Datenbanken, eMail Server, RSS Feeds und auch Rich-Content Formate wie pdf oder Excel Files.

Dass das Thema Suche bei den ca. 80 Zuhörern offenbar auf sehr reges Interesse gestoßen ist, konnte man an den vielen Fragen erkennen, die Markus während des Vortrags und auch noch nachher bei der After-Work Party gestellt wurden.

 

 

 

Apache Solr - Auf einen Blick

SEARCH & BIG DATA, BERATUNG, SCHULUNG, ENTWICKLUNG, SUPPORT, PUBLISHER SOLUTIONS
MIT APACHE SOLR, LUCENE, ELASTICSEARCH, SMARTLOGIC SEMAPHORE, SHI INFOPILOT