SHI GmbH Augsburg - Ihr Starker Partner für Search & Big Data, Apache Solr, IT Commerce Lösungen

27-03-2017 - 28-03-2017
Apache Solr Unleashed
29-03-2017 - 30-03-2017
Apache Solr Under the Hood
04-04-2017 - 05-04-2017
Apache SolrCloud
SHI - Training
SHI - Training
Schneller am Ziel - Search & Big Data Lösungen erfolgreich entwickeln und betreiben.
SHI - Migration
SHI - Migration
Steigen Sie jetzt auf die Open Source Plattform Apache Solr oder die professionelle Distribution Lucidworks Fusion um
SHI - Apache Solr Beratung
SHI - Apache Solr Beratung
Professionelle Beratung rund um Apache Solr - Wir unterstützen Sie vor, während und nach Ihrem Projekt.
SHI - Integration
SHI - Integration
Insbesondere Big Data Lösungen sind nur mit Integration zahlreicher Plattformen realisierbar: Apache Solr, Hadoop, Mahout, Stanbol, HBase, ZooKeeper, Pig und viele andere mehr.

Universal AJAX Live Search

Enterprise Search mit Solr

Enterprise Search mit Fusion

Enterprise Search mit Alert Service

Enterprise Search mit Tika

 

In modernen Unternehmen gibt es zahlreiche verschiedene Datenquellen, in denen unternehmensrelevante Daten gespeichert bzw. abgelegt werden. Dazu zählen Email-Systeme, Datenbanken, SharePoint, Dateisysteme, CRMs oder Wikis. Die verschiedenen Datenquellen befinden sich häufig in verschiedenen Regionen und Ländern, teilweise variiert überdies die Sprache der darin befindlichen Information. Meistens sind für die Zugriffe in den Datenquellen unterschiedliche Nutzergruppen mit unterschiedlichen Rechten vorgesehen. In derartigen Umgebungen sind Recherchen nach verfügbaren Informationen nicht nur zeitintensiv. Häufig werden relevante Informationen auch gar nicht erst gefunden. Dadurch geht entscheidendes Wissen verloren und die Potenziale wissensbasierter Entscheidungen werden nicht ausgereizt.

Wissen ist Erfolg

Monetarisieren Sie Ihr Unternehmens-Wissen durch eine integrative Suchlösung über die verschiedenen Datenquellen Ihres Unternehmens. Ermöglichen Sie fundierte und wissensbasierte Entscheidungen durch die vollständige Erfassung der in Ihrem Unternehmen verfügbaren Informationen. Reduzieren Sie die Kosten von Recherchen und erhöhen Sie deren Effizienz durch eine nutzerfreundliche und auf Ihre Anforderungen zugeschnittene Suche. Wir unterstützen Sie dabei, die optimale Suchlösung für Ihr Unternehmen zu realisieren.

enterprise-search-1

Enterprise Search mit Apache Solr: Hochperformant, hochskalierbar, fehlertolerant, nutzerfreundlich und lizenzfrei

Für die Realisierung einer optimierten Suche ist Apache Solr die ideale Lösung. Durch eine verteilte Architektur mit SolrCloud wird eine hochperformante und hochskalierbare Suche ermöglicht, in der zahlreiche Nutzer bzw. Nutzergruppen mit unterschiedlichen Zugriffsrechten riesige Datenvolumina zeitgleich und dennoch schnell durchsuchen können. Ergänzend gewährleistet Solr ein Höchstmaß an Datensicherheit und Fehlertoleranz, die Nutzung kann Near Real-Time überwacht werden.
Solr stellt zahlreiche "out-of-the-box"-Möglichkeiten zur Definition von Querys und zur Konfiguration von Suchfeatures zur Verfügung. Dadurch werden sowohl schnelle und nutzerfreundliche Suchen im Alltagsgebrauch als auch komplexe Abfragen für Experten (z. B. Data Scientists) ermöglicht. Da Solr zu 100% Open-Source ist, sind sämtliche Features lizenz- und somit kostenfrei bei beliebiger Skalierung nutzbar.

Enterprise Search mit Fusion: Konnektoren, ETL, Security und verteilte Prozesse

Lucidworks Fusion erweitert Solr mittels mehrerer Frameworks, unter anderem ein Connector- und ein Pipeline-Framework. Das Connector-Framework umfasst über 20 Konnektoren, dazu zählen Web-Crawler, File-System-Crawler sowie weitere für Datenbanken, Social Media, Hadoop oder Cloud Services, die "out-of-the-box" direkt verfügbar sind. Mittels des Connector-Frameworks lassen sich überdies Konnektoren an spezielle Anforderungen anpassen oder eigens entwickeln, wenn noch nicht vorhanden und nötig. Damit ist es möglich, kontinuierlich aus verschiedenen externen Datenquellen heraus zu indexieren und für die Solr Enterprise Search Application ein Höchstmaß an Aktualität der Daten zu garantieren.

Für die Datenanalyse in Echtzeit ist Apache Spark in Lucidworks Fusion integriert. Mit Apache Spark wird nicht nur die Datengewinnung und -analyse beschleunigt, sondern auch ein Zugang zu zahlreichen Machine-Learning-Bibliotheken geschaffen.

Für den Indexierungs-Prozess hält Lucidworks Fusion zudem ein umfangreiches Pipeline-Framework bereit, mit dem sämtliche erforderlichen Extract-Transform-Load (ETL) Prozesse auf effiziente und übersichtliche Art teils auf Konfigurationsbasis integriert werden können. Sowohl über die Connectors als auch über die Pipelines erweitert Fusion die Möglichkeiten, Zugriffsbeschränkungen und Datensicherheit zu realisieren. Sämtliche Prozesse sind Teil eines verteilten Systems, wodurch die Datenbeschaffung und -verarbeitung auch bei umfangreichen Datenströmen aus verschiedenen Quellen performant und ausfallsicher sind.

Erweitern Sie Ihre Enterprise Search Application durch einen Alert Service


enterprise-search-2

 

Wenngleich eine optimierte Suche Recherche-Zeiten deutlich senkt und somit Kosten reduziert, verbleibt dennoch eine gewisse restliche Zeitspanne, die für Recherchen aufgewandt werden muss. In Unternehmenskontexten, in denen viel recherchiert wird, ist daher die Nutzung eines Alert-Service zu empfehlen. Alert-Services kategorisieren Dokumente regelbasiert, beispielsweise nach Themen. Nutzer oder Nutzergruppen, die für bestimmte Kategorien (z. B. Themen) registriert sind, bekommen bei entsprechenden neu eintreffenden Dokumenten eine Benachrichtigung, beispielsweise via Email oder RSS. Dadurch werden Recherchezeiten reduziert und dafür aufgewandte Kosten gespart.
Alert Services werden darüber hinaus erfolgreich im Wartungs- und Sicherheitsbereich eingesetzt. Beispielsweise können Administratoren automatisch informiert werden, sobald im System ein bestimmter Typ von Fehlermeldungen registriert wird oder ein Nutzer auf eine gesperrte Seite zugreift.

 

 

 

 

 

 

 

Daten aus unterschiedlichen Quellen und Dateitypen durchsuchbar machen


Eine Herausforderung einer Enterprise Search Applikation ist es häufig, dass die zu indexierenden Inhalte sehr heterogen sind und teilweise a priori nicht bekannt ist, was für Inhalte genau durchsuchbar gemacht werden sollen. Ein Beispiel dafür sind Dateisysteme (z. B. Netzlaufwerke), deren Durchsuchbarkeit in vielen Fällen sehr sinnvoll ist. Wenn Dokumente effizient gefunden werden können, bekommen Mitarbeiter schnell einen Überblick darüber, ob zu einem Thema bereits etwas geschrieben wurde (und ggf. auch wer zu einem Thema etwas geschrieben/dokumentiert hat und sich somit darin auskennt). Dadurch kann Redundanz von Arbeit innerhalb eines Unternehmens reduziert und die Arbeit effizienter gestaltet werden. Neben der Heterogenität der Inhalte ist es häufig ein weiteres Problem, dass Dateien aus verschiedenen Systemen an einer zentralen Stelle durchsuchbar gemacht werden sollen (ergänzend zu Netzlaufwerken beispielsweise noch Sharepoint, Confluence, etc.).

In solchen Systemen können nahezu alle erdenklichen Dateitypen abgelegt worden sein. Dazu zählen Textdateien (ggf. in unterschiedlichen Zeichenkodierungen), Office-Dateien (z. B. Word oder Excel), PDFs oder Archive (z. B. ZIP-Dateien). Um diesen Mix aus verschiedenen Quellen und Datentypen in einem zentralen System durchsuchbar zu machen, bedarf es besonderer Strategien, da alles in ein einheitliches Format überführt werden muss.

Zum einen müssen die unterschiedlichen Datei-Typen erkannt werden und zum anderen bedarf es unterschiedlicher Prozeduren um die unterschiedlichen Dateien zu verarbeiten. Ein für diesen Zweck sehr nützliches Open-Source Tool ist Apache Tika, das auf die Aufgabenbereiche der Datei-Identifizierung und der Datei-Vereinheitlichung spezialisiert ist. Apache Tika ist zu einem gewissen Ausmaß in Apache Solr integriert. Grundsätzlich gibt es zwei verschiedene Möglichkeiten, um Tika in Solr out-of-the-box zu benutzen: Über den Data Import Handler und über Solr Cell. In manchen Fällen ist es jedoch empfehlenswert, Tika außerhalb von Solr einzusetzen, da es speziell angewendet und konfiguriert werden muss.

Die Qualität einer Suchapplikation hängt in diesem Fall stark von der Konzeption und der Ausschöpfung der Potenziale der dafür verwendeten Tools ab. Neben einer soliden Planung ist das Knowhow über die verwendeten Tools dafür von entscheidender Bedeutung.

 

solr tika

 


Erfahren Sie mehr über Apache Solr
Erfahren Sie mehr über Lucidworks Fusion
Erfahren Sie mehr über Analytics
Erfahren Sie mehr über Apache Spark

 

SEARCH & BIG DATA, BERATUNG, SCHULUNG, ENTWICKLUNG, SUPPORT, PUBLISHER SOLUTIONS
MIT APACHE SOLR, LUCENE, ELASTICSEARCH, SMARTLOGIC SEMAPHORE, SHI INFOPILOT