Lo Snap Pack ML Data Preparation automatizza molte delle varie operazioni di preparazione dei dati che si presentano durante lo sviluppo di un modello di apprendimento automatico. Offre ai data scientist un'alternativa visiva e drag-and-drop alla noiosa codifica manuale delle operazioni di preparazione dei dati. Gli scienziati dei dati possono dedicare meno tempo alla pulizia dei dati e più tempo al lavoro strategico e divertente, come la creazione di un modello di apprendimento automatico.
Lo snap pack ML Data Preparation comprende i seguenti snap:
- Da categorico a numerico: Convertire le colonne categoriche in colonne numeriche utilizzando una codifica intera o una codifica a caldo.
- Pulire i valori mancanti: Sostituire i valori mancanti nei set di dati eliminando o imputando i valori.
- Estrattore di data e ora: Estrarre componenti da oggetti datetime.
- Sintesi delle caratteristiche: Creazione automatica di caratteristiche da più set di dati che condividono una relazione uno-a-uno o uno-a-molti tra loro.
- Corrispondenza: Abbinare i record di diverse fonti di dati che rappresentano la stessa entità senza basarsi su una chiave comune.
- Da numerico a categorico: Conversione di colonne numeriche in colonne categoriche mediante l'uso di intervalli o binning personalizzati.
- Analisi delle componenti principali: Eseguire l'analisi delle componenti principali per ridurre la dimensionalità.
- Campione: Genera set di dati campione da un set di dati di input utilizzando algoritmi di campionamento.
- Scala: Scala i valori nelle colonne per specificare intervalli o applicare trasformazioni statistiche.
- Mischia: Randomizza l'ordine delle righe di dati nel set di dati.
- Convertitore di tipi: determina i tipi di valori nelle colonne. I tipi supportati sono quattro: intero, virgola mobile, testo e data.
Trasformare i dati categorici in dati numerici
L'addestramento di un modello su dati numerici è spesso più facile che con dati categorici. Ma in molti casi i dati grezzi contengono informazioni categoriali. In questo caso, lo snap da categorico a numerico si rivela utile. Per maggiori informazioni su Categorical to Numeric Snap
Di seguito, abbiamo generato un file CSV utilizzando il generatore CSV Snap. Il file CSV contiene la colonna delle categorie. Utilizziamo lo snap da categorico a numerico per codificare i valori di questa colonna. Applichiamo sia la codifica intera che quella a caldo per vedere le differenze.
La tabella seguente mostra l'output di Snap da categorico a numerico. La prima colonna è costituita dai dati originali di CSV Generator Snap. La colonna in rosso (categoria_int) è il risultato della codifica integrale. Le colonne in blu (categoria_fumetti, categoria_artigianato, categoria_design, categoria_film e video, categoria_cibo, categoria_musica e categoria_editoria) sono il risultato della codifica One Hot. Ora che le colonne categoriali sono in numeri interi o numerici, i data scientist possono facilmente spostare i dati per costruire il loro modello di apprendimento automatico.
Gli Snap Pack ML sono inclusi in SnapLogic Data Science, un'estensione della Intelligent Integration Platform che fornisce un approccio visivo drag-and-drop allo sviluppo e alla distribuzione di modelli di apprendimento automatico. Scoprite gli altri Snap Pack ML: ML Core Snap Pack e ML Analytics Snap Pack.
Per saperne di più sullo Snap Pack ML Data Preparation, consultate il blog post "SnapLogic November 2018 Release: Rivoluziona il tuo business con l'integrazione intelligente".