Apache NiFi: das Tool für automatisierten Datenfluss

Projekte mit Suchindizes und für Advanced Analytics benötigen Daten, die meistens aus sehr unterschiedlichen Datenquellen stammen. Doch egal, woher die Daten kommen, ob es strukturierte oder unstrukturierte sind: sie müssen zusammengeführt und konsolidiert werden, um für eine Anwendung nutzbar zu sein. Wir von SHI setzen dafür auf Apache NiFi.

Was ist Apache NiFi?

Apache NiFi ist ein zuverlässiges Tool, das den Datenverkehr zwischen heterogenen Systemen automatisiert. Die Open Source Software nutzt das Konzept „Extrahieren, Transformieren, Laden“ (ETL). Komplexe Datenflüsse können damit reibungslos umgesetzt werden.

Apache NiFi extrahiert aus diversen Datenquellen, transformiert diese in mehreren Schritten und lädt sie dann in unterschiedliche Anwendungen.

National Security Agency (NSA) und Apache Software Foundation

Der amerikanische Geheimdienst NSA hatte die Software unter der Bezeichnung „Niagara Files“ entwickelt, um große Datenmengen zu verarbeiten. 2014 machte er sie quelloffen. Seitdem stellt die Apache Software Foundation den Quellcode von NiFi bereit.

Projekte der SHI mit NiFi

Suchfunktionen in Online-Shops, auf Portalen und Webseiten verbessern die Experten der SHI schon seit 20 Jahren mit Hilfe von Open Source Anwendungen. Die Module des Apache Technology Stack sowie der Elastic Stack haben sich dabei vielfach bewährt. Da Apache NiFi über Konnektoren zu  Apache Solr und Elasticsearch verfügt, ist das Tool bestens geeignet, um Daten für Suchfunktionen verfügbar zu machen.

Ein reibungsloser Datenfluss ist auch bei Analytics-Projekten wichtig. Bei großen Datenmengen, wie zum Beispiel bei KI-Projekten, setzen wir auf NiFi und schaffen damit eine solide Datengrundlage.

Mit Apache NiFi haben wir bereits zahlreiche Projekte erfolgreich realisiert. Hier eine Auswahl:

Fraud Detection und Prevention

Seine Gesprächsmitschnitte speichert ein Finanzdienstleister weltweit auf zahlreichen SQL-Servern. Deren Metadaten indexieren wir kontinuierlich in einen Suchindex. Dadurch kann die Bank Betrugsfälle aufdecken und verhindern.

Zum Aktualisieren der Daten im Suchindex sowie zum Löschen der Daten nach Ablauf der Aufbewahrungsfrist existieren automatische Prozesse. Zudem werden die Quelldaten täglich mit den Daten im Suchindex abgeglichen, um deren Integrität zu gewährleisten. Bei Inkonsistenzen sendet NiFi automatisch eine Benachrichtigung.

Mehr Informationen dazu in unserem Blogbeitrag Compliance in der Finanzbranche.

Datenaufbereitung für die Suche in einem Online-Shop

Mehrere Suchindizes eines B2B Online-Shops stellen sicher, dass die Nutzer finden, was sie suchen. Dafür benötigen die Indizes jederzeit die aktuellen Daten des PIM-Systems.

Über NiFi importieren wir die Daten des PIM-Systems in Near Realtime in die Suchindizes. Dafür nutzen wir unter anderem XSLT zum Transformieren der Shopexporte und teilen diese so in kleinere Pakete auf, die schnell indexierbar sind.

Die Performance in allen Prozessoren von NiFi spielt eine entscheidende Rolle, da mehrere Abfragen an die bestehenden Indizes sowie weitere Zwischenschritte notwendig sind, um die Datensätze zu aktualisieren.

Aufbau eines Knowledge Management Systems

Bei Supportanfragen an einen Maschinenbauer mussten Mitarbeitende alle Informationen, die für die Bearbeitung notwendig waren, über mehrere Systeme hinweg zusammengetragen. Da das sehr aufwändig war, sollten die Supporttickets konsolidiert werden.

Apache NiFi haben wir in diesem Projekt als zentrale Komponente für ein neues Knowledge Management System genutzt. Supportanfragen und deren Lösungsansätze werden über NiFi zusammengeführt und mit weiteren Informationen aus PDF-Dateien angereichert. Eine Suchfunktion ermöglicht dann, alle notwendigen Informationen schnell zu finden.

Automatisierung des Bestellsystems in einem Industrieunternehmen

Bei einem Unternehmen der verarbeitenden Industrie liegen die Daten der Bestellungen im EDI Dateiformat vor. Deren Aufnahme in das Bestellsystem erfolgte manuell und war daher sehr aufwändig.

Ziel des Projektes war es, die Bestellungen automatisiert aus der Datenquelle zu extrahieren und für das Bestellsystem nutzbar zu machen. Dafür haben wir in NiFi eine Übersetzungslogik implementiert, die Daten im EDI Format automatisiert nach JSON umwandelt. Dies erfolgt mit Hilfe eines Custom Prozessors und JOLT-basierten Transformationen.

Indem das Unternehmen seine Kundenanfragen in Echtzeit und fehlerfrei in sein Bestellsystem überträgt, kann es die Anliegen seiner Partner schneller und sicherer bearbeiten.

Wofür eignet sich Apache NiFi?

Apache NiFi sammelt nicht nur Daten aus heterogenen Quellen ein, sondern transformiert sie auch und transportiert sie über viele unterschiedliche Ausgabekanäle in andere Systeme. Integrationen können während des Betriebs einfach überwacht, verändert und erweitert werden. Es ist daher für uns die erste Wahl, wenn es darum geht, Daten zu extrahieren, zu transformieren und zu laden (ETL).

Teaching

Apache NiFi in Kürze:

  • Intuitives und flexibles User-Interface: grafische Steuerung, Flexibilität, hohe Konfigurierbarkeit und Überwachung aller Komponenten
  • Cloud: als Cluster ausfallsicherer Betrieb in der Cloud möglich
  • Skalierbar: im Clusterbetrieb jeder Datenmenge gewachsen
  • Sicherheit: sichere Kommunikation (SSL, SSH, Datenverschlüsselung) und ein optionaler Authentifizierungs-Mechanismus
  • Erweiterbar: Eigene Prozessoren können entwickelt und integriert werden
  • Wiederverwendbar: Durch die NiFi Registry können Templates einfach auf NiFi übertragen und versioniert werden.
  • Reproduzierbar:durch Provenance und Versionierung

Wie einfach es tatsächlich ist, das zu Tool zu nutzen, zeigt das Video am Beispiel von Prozessoren, die hinzugefügt, konfiguriert und verbunden werden:

Für eine clevere Suche und für Predictive Analytics stehen verschiedene Methoden der Künstlichen Intelligenz (KI) zur Verfügung. Dafür benötigen Sie eine gute Datengrundlage. Wie Sie diese mit Hilfe von Apache NiFi schaffen, erfahren Sie im Vortrag von Adrian Hishow bei der tech@media.

Darum SHI für das Dataflow Management mit NiFi

Um für ein Search- oder Analytics-Projekt einen reibungslosen Dataflow zu entwickeln, ist SHI der richtige Dienstleister. Wir setzen unsere Projekte gemeinsam mit unseren Kunden professionell und erfolgreich um. Das bestätigen uns Kunden wie SHS Viveon und viele mehr.

Es gibt jede Menge guter Gründe, warum unsere Kunden mit uns zufrieden sind. Die entscheidenden sind:

Teaching

1 - Beratung

Die SHI ist unabhängig und neutral. Daher beraten wir unsere Kunden immer mit dem Fokus auf deren Nutzen, und müssen keine Rücksicht auf Software-Anbieter nehmen. Zu Beginn der Zusammenarbeit ermitteln wir potentielle Use Cases und prüfen die Machbarkeit. Bei einem Projekt schnell zu scheitern, ist für uns kein Makel. Mehr erfahren Sie unter Beratung durch SHI.

programmer

2 - Software-Entwicklung

Die Open-Source Experten der SHI unterstützen ihre Kunden nicht nur bei der Konfiguration einer neuen Plattform, sondern bei Bedarf auch mit der Programmierung zusätzlicher Prozessoren. Über unsere Expertise in der Software-Entwicklung erfahren Sie mehr unter Individuelle Software von SHI.

shared_workspace

3 - Service

Wenn unsere Kunden mehr benötigen als eine Implementierung, ist das für uns auch kein Problem. Auf Wunsch arbeiten wir auch langfristig mit ihnen zusammen und sorgen dafür, dass die Lösungen ausfallsicher und performant sind. Informationen zu unseren verschiedenen Supportmodellen finden Sie unter Services für Search- & Analytics-Projekte.

Damit Ihr Search- oder Analytics-Projekt über einen reibungslosen Datenfluss verfügt, starten Sie am besten mit einer Schulung oder einem individuellen Workshop mit einem unserer Consultants:

Apache NiFi Training

Sie möchten selbst zum Data Hero werden?

In unserem 2-tägigen Training erwerben Sie nicht nur theoretisches Wissen, sondern lernen mit zahlreichen praktischen Übungen auch die Anwendung von Best Practices kennen.

Individueller Workshop

Wenn Sie spezielle Anforderungen, Anwendungsfälle oder Problemstellungen besprechen möchten, dann ist ein individueller Workshop genau das Richtige für Sie!

Mehr Informationen

Sie benötigen erst noch weitere Informationen zu Apache NiFi? Diese finden Sie in unserem Blog:

In der 3-teiligen Blogserie „What is NiFi“ lernen Sie die Grundlagen des Tools kennen und erhalten einen Einblick in den NiFi Test Framework.

Wichtige Hinweise und Tipps, wie Sie NiFi sicher verwenden, erhalten Sie in dem Beitrag über zertifikatsbasierte Authentifizierung.

Welchen Vorteile NiFi beim Datenimport in Solr bietet, zeigt der Beitrag „NiFi: mehr als ein Ersatz für den DIH in Solr“

Ihre Ansprechpartnerin

Patricia Kraft

Bereichsleitung Search & Analytics

+49 821 – 74 82 633-25

patricia.kraft@shi-gmbh.com

Patricia Kraft, Lead Consultant Search & Analytics