Startseite Schnappschüsse ML Datenvorbereitung Snap Pack
Symbol für ML-Datenvorbereitung

ML-Datenvorbereitung Snap Pack

Das ML Data Preparation Snap Pack automatisiert verschiedene Datenvorbereitungsaufgaben für ein maschinelles Lernmodell.


Das ML Data Preparation Snap Pack automatisiert viele der verschiedenen Datenvorbereitungsaufgaben, die bei der Entwicklung eines maschinellen Lernmodells anfallen. Es bietet Datenwissenschaftlern eine visuelle Drag-and-Drop-Alternative zur mühsamen manuellen Codierung von Datenvorbereitungsvorgängen. Datenwissenschaftler müssen weniger Zeit für das Bereinigen von Daten aufwenden und haben mehr Zeit für strategische - und unterhaltsame - Aufgaben wie die eigentliche Erstellung eines maschinellen Lernmodells.

Das ML-Datenvorbereitungs-Snap-Pack enthält die folgenden Snaps:

  • Kategorisch in Numerisch: Konvertieren Sie kategorische Spalten in numerische Spalten, indem Sie eine ganzzahlige Kodierung oder eine heiße Kodierung verwenden.
  • Fehlende Werte bereinigen: Ersetzen Sie fehlende Werte in Datensätzen durch Weglassen oder Imputieren von Werten.
  • Datum Zeit Extraktor: Extrahiert Komponenten aus Datetime-Objekten.
  • Merkmalssynthese: Automatische Erstellung von Merkmalen aus mehreren Datensätzen, die in einer eins-zu-eins oder eins-zu-vielen Beziehung zueinander stehen
  • Abgleichen: Abgleich von Datensätzen aus verschiedenen Datenquellen, die dieselbe Entität darstellen, ohne sich auf einen gemeinsamen Schlüssel zu stützen
  • Numerisch zu kategorisch: Konvertieren Sie numerische Spalten in kategorische Spalten, indem Sie benutzerdefinierte Bereiche oder Binning verwenden.
  • Hauptkomponentenanalyse: Führen Sie eine Hauptkomponentenanalyse zur Dimensionalitätsreduktion durch.
  • Stichprobe: Erzeugen von Beispieldatensätzen aus einem Eingabedatensatz unter Verwendung von Stichprobenalgorithmen.
  • Skalieren: Skalieren Sie Werte in Spalten, um Bereiche anzugeben oder statistische Transformationen anzuwenden.
  • Mischen: Die Reihenfolge der Zeilendaten im Datensatz wird zufällig festgelegt.
  • Typkonverter: Bestimmt die Typen von Werten in Spalten. Es gibt vier unterstützte Typen: Ganzzahl, Fließkomma, Text und Datetime.

Wandeln Sie Ihre kategorischen Daten in numerische Daten um

Das Trainieren eines Modells mit numerischen Daten ist oft einfacher als mit kategorischen Daten. In vielen Fällen enthalten Ihre Rohdaten jedoch kategorische Informationen. In solchen Fällen ist die Funktion Kategorisch/Numerisch-Snap sehr nützlich. Für weitere Informationen über Categorical to Numeric Snap

Nachfolgend haben wir mit dem CSV-Generator Snap eine CSV-Datei erstellt. Die CSV-Datei enthält die Spalte Kategorie. Wir verwenden den Categorical to Numeric Snap, um die Werte in dieser Spalte zu kodieren. Wir wenden sowohl die Ganzzahlkodierung als auch eine Hotcodierung an, um die Unterschiede zu sehen.

CSV generiert mit dem CSV Generator Snap

Die folgende Tabelle zeigt die Ausgabe von Categorical to Numeric Snap. Die erste Spalte sind die Originaldaten aus dem CSV-Generator Snap. Die Spalte in Rot (category_int) ist das Ergebnis der Ganzzahlkodierung. Die Spalten in Blau (category_Comics, category_Crafts, category_Design, category_Film & Video, category_Food, category_Music und category_Publishing) sind das Ergebnis von One Hot Encoding. Da die kategoriale Spalte nun in ganzen Zahlen oder numerischen Daten vorliegt, können Datenwissenschaftler die Daten leicht verschieben, um ihr Modell für maschinelles Lernen zu erstellen.

Die folgende Tabelle zeigt die Ausgabe von Categorical to Numeric Snap

Die ML Snap Packs sind in SnapLogic Data Science enthalten, einer Erweiterung der Intelligent Integration Platform, die einen visuellen Drag-and-Drop-Ansatz für die Entwicklung und den Einsatz von Machine-Learning-Modellen bietet. Sehen Sie sich unsere anderen ML Snap Packs an: ML Core Snap Pack und ML Analytics Snap Pack.

Erfahren Sie mehr über das ML Data Preparation Snap Pack im Blogbeitrag "SnapLogic November 2018 Release: Revolutionieren Sie Ihr Geschäft mit intelligenter Integration".