Il viaggio del dato: primo capitolo
Dalla raccolta, all’hosting alla modellazione. Queste le tappe del percorso che beanTech intraprende insieme al dato al fine di trasformarlo in un grande valore per le realtà aziendali.
In tre capitoli raccontiamo come sfruttare al meglio le informazioni che ciascuno di noi crea ogni giorno per conoscerne tutte le potenzialità.
Cos’è Azure Data Factory?
È un servizio di ETL (Extraction, trandformation and Loading) e integrazione di dati basato sul cloud, che consente di creare flussi di lavoro programmabili e schedulabili per gestire lo spostamento e la trasformazione dei dati su larga scala.
Ogni pipeline, denominazione per flusso di lavoro su dati, può essere pianificata per acquisire dati da innumerevoli fonti eterogenee e trasformarli visivamente attraverso integrazioni di servizi di calcolo come Azure HDInsight Hadoop, Azure Databricks e Database SQL di Azure. Una volta trasformati, è possibile pubblicare i dati in vari archivi per consentirne l’utilizzo con applicazioni di Business intelligence.
Il servizio offre un’interfaccia utente senza codice, con cui progettare e realizzare in maniera intuitiva contenuti attraverso sistemi di drag and drop. La chiara evoluzione da servizi SSIS ne consente la piena compatibilità ed integrazione.
Come Funziona?
Data Factory è preposto alla creazione di ETL attraverso una serie di sistemi interconnessi che forniscono una piattaforma end-to-end per lo sviluppo:
EXTRACTION
Il primo step per la creazione e lo sviluppo di un sistema informativo è quello di connettere tutte le fonti dati e le elaborazioni necessarie, come servizi SaaS, DataBase, Condivisioni file, FTP o servizi Web.
È a questo punto che si rende necessaria l’estrazione dei dati da queste fonti per avere i dati in una posizione centralizzata per la fruibilità immediata e l’elaborazione successiva.
Grazie a Data Factory, un’azienda non deve più ricercare componenti o scrivere servizi custom per lo spostamento dei dati o l’integrazione di fonti ed elaborazioni, servizi spesso costosi e complessi, di non facile manutenzione e con spesso scarsa possibilità di monitoraggio. Sarà sufficiente sfruttare l’attività integrata di copia in una pipeline di dati per occuparsi del trasferimento sia in contesti locali che cloud, centralizzando il tutto in archivi centralizzati per analisi successive.
È ad esempio possibile raccogliere i dati in Azure Data Lake Store e quindi trasformarli in seguito usando un servizio di calcolo di Azure Data Lake Analytics oppure raccogliere i dati in un archivio BLOB di Azure e quindi trasformarli usando un cluster Hadoop Azure HDInsight.
L’attività di copia viene eseguita in un runtime di integrazione. È possibile usare diversi tipi di runtime di integrazione per diversi scenari di copia dei dati:
- Quando si copiano dati tra due archivi dati accessibili pubblicamente tramite Internet da qualsiasi IP, è possibile usare il runtime di integrazione di Azure per l’attività di copia. Questo runtime di integrazione è sicuro, affidabile, scalabile e disponibile a livello globale.
- Quando si copiano dati da e verso archivi dati che si trovano in locale o in una rete con controllo di accesso (ad esempio, una rete virtuale di Azure), è necessario configurare un runtime di integrazione self-hosted.
TRANSFORMATION
Una volta raccolti tutti i dati in un sistema centralizzato è possibile elaborarli e trasformali tramite mapping data flows: sarà possibile quindi creare e sviluppare processi di trasformazione eseguiti in cluster Apache Spark con scalabilità orizzontale (senza la necessita di avere competenze in programmazione o cluster spark) tramite un’esperienza visiva completamente senza necessità di scrivere codice o attraverso la scrittura manuale del codice attraverso vari servizi di calcolo.
I mapping data flows permettono di progettare visivamente le trasformazioni all’interno del portale di sviluppo e possono essere rese operative attraverso le funzionalità di pianificazione, controllo, flusso e monitoraggio.
Tutta la conversione del codice, l’ottimizzazione del percorso e l’esecuzione dei processi del flusso di dati verrà gestita automaticamente da Azure Data Factory.
LOADING
L’attività di caricamento si traduce in attività di integrazione e distribuzione continua (CI/CD) delle pipeline per la pubblicazione dei dati tramite Azure DevOps e GitHub. I processi di ETL possono essere sviluppati e distribuiti in modo incrementale fino alla pubblicazione del prodotto finale con cui poi sarà possibile interagire con i propri strumenti di business intelligence. Azure Data Factory integra, inoltre, il supporto per il monitoraggio delle attività e delle pipeline pianificate per determinare il tasso di riuscita dei task.
Perchè utilizzare un Data Factory?
- Consente l’inserimento di dati con più di 90 connettori predefiniti su datasource eterogenee.
- Gestisce grandi quantità di dati con efficienza. È possibile aumentare facilmente la quantità di potenza di elaborazione con soluzioni server free con prestazioni elevate, resilienza e scalabilità senza limitazioni per il volume di dati o per il numero di file e sfruttando completamente la larghezza di banda di rete e di archiviazione, ottenendo elevate velocità effettive di spostamento dei dati nell’ambiente.
- Offre esperienza di creazione e sviluppo di soluzioni code free con dashboard di monitoraggio integrato.
- Consente il rehosting e l’estensione di pacchetti SSIS in pochi click, aiutando quelle aziende che vogliono spostare le proprie soluzioni in cloud.
- Rende possibile schedulare l’esecuzione di carichi unici e caricamenti incrementali pianificati.
- È sicuro. Dispone di sicurezza di livello aziendale: è possibile utilizzare Windows Installer (MSI) o Service Identity per l’integrazione service-to-service protetta oppure utilizzare Azure Key Vault per la gestione delle credenziali.
- Infine, Azure Data Factory usa un metodo con pagamento in base al consumo, in modo da pagare solo il tempo usato per eseguire la migrazione dei dati in Azure.
Il viaggio continua, a breve uscirà il prossimo capitolo. Nell’attesa, iscriviti all’evento finale del 3 dicembre 2020 qui dove ti mostreremo live di cosa siamo capaci!