SnapLogic ♥ OpenLineage: Un'accoppiata perfetta per l'integrazione dei dati

Shardul Sardesai, foto della testa
3 minuti di lettura

Snaplogic è una piattaforma di integrazione visionaria che serve imprese di tutte le dimensioni. Con un numero crescente di esecuzioni mensili, SnapLogic continua a impegnarsi nell'introduzione di soluzioni innovative che aiutino i clienti a gestire ed eseguire su scala. Man mano che i nostri clienti aumentano la loro dipendenza dai sistemi SnapLogic, richiedono una migliore governance dei dati. 

In risposta, stiamo investendo in una soluzione di data lineage basata sul popolare standard aperto OpenLineage. OpenLineage porterà trasparenza alle transazioni automatizzate dalle pipeline no-code di SnapLogic, consentendo alle aziende di comprendere le connessioni all'interno dei loro set di dati. 

Perché è importante il lineage dei dati?

In genere le aziende hanno una conoscenza approfondita delle proprie risorse di dati. Tuttavia, quando si tratta di pipeline create in SnapLogic, a volte la visibilità del flusso di dati è limitata. L'innovativa architettura di streaming di SnapLogic consente agli utenti di parametrizzare ampiamente le loro pipeline, permettendo un alto grado di personalizzazione e flessibilità nei processi di integrazione dei dati. Astraendo le complessità dell'infrastruttura sottostante e dell'esecuzione, SnapLogic semplifica notevolmente i flussi di lavoro degli utenti. D'altro canto, può rendere i flussi di dati piuttosto opachi. 

Spesso queste pipeline instradano dinamicamente i dati in base ai dati elaborati. Di conseguenza, gli utenti non hanno visibilità in tempo reale sulle dipendenze, sulle trasformazioni (ad esempio, join, filtri, aggregazioni) e su altri processi che avvengono nel loro complesso panorama di dati. 

Ad esempio, se un report si basa sui risultati di più pipeline di dati, la valutazione della loro accuratezza o freschezza può essere difficile senza informazioni chiare sulle fonti dei dati, sulle origini e sulla storia delle trasformazioni. Il data lineage aiuta a colmare queste lacune e fornisce maggiore chiarezza e comprensione del flusso di dati. 

La trasparenza che offre nei processi dei dati di SnapLogic può essere d'aiuto:

  • Analisi dell'impatto: Identificazione delle dipendenze a valle di una fonte di dati fino al livello di colonna.
  • Analisi della causa principale: Individuare l'origine di un problema tracciando il flusso dei dati e le trasformazioni lungo il percorso.
  • Qualità e integrità dei dati: Garantire l'accuratezza e la coerenza dei dati tra i sistemi
  • Migrazione/integrazione dei dati: Mappatura dei percorsi dei dati per semplificare le migrazioni e le integrazioni dei dati tra gli ambienti con un'interruzione minima.
  • Gestione del ciclo di vita dei dati: Tracciamento dei dati a livello di colonna dalla creazione allo smaltimento, per supportare una conservazione e un'archiviazione efficienti.
  • Governance e conformità: Stabilire un audit trail a livello di colonna per le risorse di dati

Il data lineage è prezioso in qualsiasi organizzazione che gestisce grandi volumi di dati, ma è particolarmente cruciale nei settori con requisiti legali specifici. Due normative chiave che hanno aumentato l'interesse per le soluzioni di data lineage sono la BCBS 239 del Comitato di Basilea per la vigilanza bancaria e il Regolamento generale sulla protezione dei dati(GDPR) dell'UE. 

Il BCBS 239 impone alle banche di fornire trasparenza sul flusso di dati che alimenta la loro reportistica sul rischio, richiedendo una solida governance dei dati e una loro dettagliata discendenza. Il GDPR impone alle aziende di divulgare le pratiche di gestione dei dati dei consumatori (il "diritto di sapere") e di onorare le richieste di cancellazione dei dati da parte degli utenti (il "diritto all'oblio"). Di conseguenza, per la conformità alle normative, le organizzazioni devono tracciare le fonti dei dati nei report.

Perché OpenLineage?

OpenLineage è un progetto comunitario gestito da collaboratori di popolari progetti open-source come Amundsen, DataHub, Pandas e Spark. Seguendo iniziative simili come OpenTelemetry e OpenTracing, OpenLineage ha guadagnato popolarità e adozione attiva da parte di numerosi fornitori del settore. 

Come sottolinea Julien Le Dem, uno dei co-fondatori di OpenLineage: "Il data lineage è la spina dorsale del DataOps. Il lineage può aiutare a ridurre la frammentazione e la duplicazione degli sforzi tra gli operatori del settore e consentire lo sviluppo di vari strumenti e soluzioni in termini di operazioni sui dati, governance e conformità".

Collaborando con i fornitori del settore, SnapLogic ha incontrato numerosi formati, ognuno dei quali richiedeva adattatori unici per la comunicazione. È proprio questa la sfida che OpenLineage affronta, con un formato standardizzato già ampiamente adottato e sempre più utilizzato dai vari fornitori.

Prima del diagramma OpenLineage
Prima di OpenLineage
Con il diagramma OpenLineage
Con OpenLineage

Negli intricati ecosistemi di dati di oggi, la comprensione del percorso dei dati è fondamentale. Le organizzazioni che vogliono migliorare la governance dei dati, garantire la qualità e la conformità dei dati o ottimizzare l'efficienza operativa e l'analisi dell'impatto richiedono un metodo standardizzato per tracciare il percorso e le trasformazioni dei dati nei loro sistemi. L'adozione di OpenLineage da parte di Snaplogic offre una prospettiva coerente a livello di colonna sul movimento dei dati all'interno dell'organizzazione, favorendo la trasparenza e l'integrazione e mantenendo la neutralità dei fornitori. 

Volete iniziare? Il data lineage è disponibile come funzione in abbonamento in SnapLabs. Contattate il vostro CSM per provarla.

Shardul Sardesai, foto della testa
Ingegnere software principale presso SnapLogic
Categoria: Dati
SnapLogic ama OpenLineage

Stiamo assumendo!

Scoprite la vostra prossima grande opportunità di carriera.