SnapLogic ♥ OpenLineage: Eine ideale Ergänzung für die Datenintegration

Shardul Sardesai Kopfbild
3 Minuten lesen

Snaplogic ist eine visionäre Integrationsplattform, die Unternehmen jeder Größe bedient. Mit einer wachsenden Anzahl von monatlichen Ausführungen bleibt SnapLogic bestrebt, innovative Lösungen einzuführen, die Kunden bei der Verwaltung und Leistung in großem Umfang unterstützen. Je mehr unsere Kunden auf SnapLogic-Systeme setzen, desto mehr verlangen sie eine verbesserte Data Governance. 

Als Antwort darauf investieren wir in eine Data-Lineage-Lösung, die auf dem beliebten offenen Standard OpenLineage basiert. OpenLineage bringt Transparenz in die Transaktionen, die von den No-Code-Pipelines von SnapLogic automatisiert werden, und ermöglicht es Unternehmen, Verbindungen innerhalb ihrer Datensätze zu verstehen. 

Warum ist die Datenherkunft wichtig?

Unternehmen haben in der Regel ein umfassendes Verständnis für ihre Datenbestände. Wenn es jedoch um Pipelines geht , die in SnapLogic erstellt wurden, gibt es manchmal nur eine begrenzte Sicht auf den Datenfluss. Die innovative Streaming-Architektur von SnapLogic ermöglicht es Anwendern, ihre Pipelines umfassend zu parametrisieren, was ein hohes Maß an Anpassung und Flexibilität bei Datenintegrationsprozessen ermöglicht. Durch die Abstraktion von der Komplexität der zugrunde liegenden Infrastruktur und Ausführung vereinfacht SnapLogic die Arbeitsabläufe der Benutzer erheblich. Auf der anderen Seite können Datenflüsse dadurch etwas undurchsichtig werden. 

Häufig leiten diese Pipelines die Daten dynamisch auf der Grundlage der zu verarbeitenden Daten weiter. Infolgedessen fehlt den Benutzern die Echtzeittransparenz der Abhängigkeiten, Transformationen (z. B. Joins, Filter, Aggregationen) und anderer Prozesse, die in ihrer komplexen Datenlandschaft stattfinden. 

Wenn sich ein Bericht beispielsweise auf den Output mehrerer Datenpipelines stützt, kann es schwierig sein, die Genauigkeit oder Aktualität der Daten zu beurteilen, wenn keine klaren Informationen über die Datenquellen, die Herkunft und den Verlauf der Transformation vorliegen. Data Lineage hilft dabei, diese Lücken zu schließen und sorgt für mehr Klarheit und Verständnis des Datenflusses. 

Die Transparenz, die SnapLogic in seinen Datenprozessen bietet, kann dabei helfen:

  • Analyse der Auswirkungen: Identifizierung nachgelagerter Abhängigkeiten einer Datenquelle bis hinunter auf die Spaltenebene
  • Analyse der Grundursache: Ermittlung des Ursprungs eines Problems durch Verfolgung des Datenflusses und der Umwandlungen auf dem Weg dorthin
  • Datenqualität und -integrität: Sicherstellung der Datengenauigkeit und -konsistenz in allen Systemen
  • Datenmigration/Integration: Abbildung von Datenpfaden zur Vereinfachung von Migrationen und Datenintegrationen in verschiedenen Umgebungen bei minimaler Unterbrechung
  • Verwaltung des Lebenszyklus von Daten: Verfolgung von Daten auf Spaltenebene von der Erstellung bis zur Löschung, Unterstützung einer effizienten Aufbewahrung und Archivierung
  • Governance und Einhaltung von Vorschriften: Einrichtung eines Prüfpfads auf Spaltenebene für Datenbestände

Data Lineage ist in jedem Unternehmen, das große Datenmengen verarbeitet, von unschätzbarem Wert, aber besonders wichtig ist sie in Branchen mit spezifischen gesetzlichen Anforderungen. Zwei wichtige Vorschriften, die das Interesse an Data-Lineage-Lösungen erhöht haben, sind die BCBS 239 des Basler Ausschusses für Bankenaufsicht und die Allgemeine Datenschutzverordnung(GDPR) der EU. 

BCBS 239 verlangt von den Banken, dass sie den Datenfluss für ihre Risikoberichterstattung transparent machen, was eine solide Datenverwaltung und eine detaillierte Datenverknüpfung erfordert. Die DSGVO verlangt von Unternehmen, dass sie die Praktiken zur Verwaltung von Verbraucherdaten offenlegen (das "Recht auf Wissen") und den Anträgen der Nutzer auf Löschung ihrer Daten nachkommen (das "Recht auf Vergessenwerden"). Folglich müssen Unternehmen zur Einhaltung der Vorschriften die Datenquellen in Berichten nachverfolgen.

Warum OpenLineage?

OpenLineage ist ein Gemeinschaftsprojekt, das von Mitwirkenden aus beliebten Open-Source-Projekten wie Amundsen, DataHub, Pandas und Spark gepflegt wird. Nach ähnlichen Projekten wie OpenTelemetry und OpenTracing erfreut sich OpenLineage großer Beliebtheit und wird von zahlreichen Anbietern in der Branche aktiv genutzt. 

Wie Julien Le Dem, einer der Mitbegründer von OpenLineage, betont: "Data Lineage ist das Rückgrat von DataOps. Lineage kann dazu beitragen, die Fragmentierung und Doppelarbeit zwischen den Akteuren der Branche zu reduzieren und die Entwicklung verschiedener Tools und Lösungen in Bezug auf Datenbetrieb, Governance und Compliance zu ermöglichen."

Bei der Zusammenarbeit mit Branchenanbietern stieß SnapLogic auf zahlreiche Formate, die jeweils eigene Adapter für die Kommunikation erfordern. Genau dieser Herausforderung begegnet OpenLineage mit einem standardisierten Format, das bereits weit verbreitet ist und von immer mehr Anbietern genutzt wird.

Vor OpenLineage Diagramm
Vor OpenLineage
Mit OpenLineage Diagramm
Mit OpenLineage

In den komplizierten Datenökosystemen von heute ist das Verständnis der Datenabfolge von größter Bedeutung. Unternehmen, die ihre Data Governance verbessern, die Datenqualität und Compliance sicherstellen oder die betriebliche Effizienz und die Auswirkungsanalyse optimieren wollen, benötigen eine standardisierte Methode, um den Weg der Daten und ihre Transformationen über ihre Systeme hinweg zu verfolgen. Die Übernahme von OpenLineage durch Snaplogic liefert eine konsistente Perspektive auf Spaltenebene für die Datenbewegungen im gesamten Unternehmen und fördert so die Transparenz und Integration bei gleichzeitiger Wahrung der Herstellerneutralität. 

Möchten Sie loslegen? Data Lineage ist als Abonnement-Funktion in SnapLabs verfügbar. Kontaktieren Sie Ihren CSM, um es auszuprobieren.

Shardul Sardesai Kopfbild
Leitender Software-Ingenieur bei SnapLogic
Kategorie: Daten
SnapLogic liebt OpenLineage

Wir stellen ein!

Entdecken Sie Ihre nächste große Karrierechance.