Bild-Schulung-Solr-in-a-Nutshell

Einführung in Apache Stanbol

Apache Stanbol gehört seit Oktober 2012 zu Apache Top-Level-Projekten. Das Projekt ist ein modulares Software-Paket mit einigen Komponenten, die es ermöglichen Inhalte semantisch anzureichern. Es wurde entwickelt, um mit Frameworks wie z.B. Apache Solr (zur semantischen Suche) oder Apache Tika (Extraktion von Inhalten und Metadaten) zusammenzuarbeiten.

Dieser Blog wird eine kurze praktische Einführung hinsichtlich Anreicherung von Text mit Metadaten in Apache Stanbol geben.

Bitte laden Sie den Launcher von Apache Stanbol von der Website von IKS Projekt herunter.
Starten Sie diesen mit

java –xmX1g –jar org.apache.stanbol.launcher.stable-{version_des_launchers}-SNAPSHOT.jar

Nach einer kurzen Weile sollten Sie in Ihrem Terminalfenster die Meldung bekommen, dass die Applikation in einem Jetty-Servlet-Container (bereits im Launcher enthalten) unter dem Port 8080 gestartet ist.
Um die Weboberfläche zu nutzen, können Sie Stanbol Enhancer über https://localhost:8080/enhancer in Ihrem Browser aufrufen. Dort finden Sie ein Fenster, in das Sie Text per Copy&Paste einfügen oder selbst verfassen können (siehe folgende Abbildung).

Mit einem Klick auf „Run engines“ schicken Sie diesen Text an Stanbol und lassen eine Überprüfung stattfinden, die Wissensdatenbanken abfrägt. Für den Beispieltext „The Beatles are a famous band. Germany is a country south of Denmark.“ werden zwei Orte (Germany, Denmark) und eine Organisation (The Beatles) gefunden. Die Lage der beiden Orte wird sogar auf einer Weltkarte angezeigt, was ein ziemlich beeindruckendes Feature ist! Diese Information kommt anhand von Koordinaten aus einer Wissensdatenbank. Das folgende Bild veranschaulicht das Ergebnis von Apache Stanbol:

curl -X POST -H "Accept: text/turtle" -H "Content-type: text/plain" --data "The Beatles are a famous band. Germany is a country south of Denmark." https://localhost:8080/enhancer

Der RDF-Output beinhaltet noch einiges mehr an Informationen al seine grobe Klassifizierung der Entitäten, die hier erkannt wurden: Dänemark grenzt sowohl an die Ost- als auch an die Nordsee, es werden mehrere Links bereitgestellt (Homepage Dänemarks, Link zur Dänischen Flagge), Deutschland gehört zu den G8-Staaten, das Gründungsjahr der Beatles etc. Diese Informationen werden aus Wissensbasen wie DBpedia gewonnen, in der beispielsweise strukturierte Informationen aus Wikipedia vorliegen und abgefragt werden können.
Diese Informationen können in unterschiedlichster Weise verwendet werden: Entitäten können beispielsweise für Facetten verwendet werden, die Informationen zu den jeweiligen Entitäten zur Anreicherung von Inhalten, die Koordinaten in Landkarten oder zu Geodatensuche.
Das war ein kurzer Ausflug in die Welt der semantischen Inhaltsanreicherung mit Apache Stanbol.

Weiterführende Links

Markus Klose