Der Entscheidungsbaum


Problem: Trainieren Sie ein Modell, um: 1) zwischen verschiedenen Arten der Irisblume anhand von vier Merkmalen zu unterscheiden; und 2) anhand von acht verschiedenen Merkmalen vorherzusagen, welche Passagiere auf der Titanic überlebt haben - alles unter Verwendung der Entscheidungsbaummethode.

Der Kontext: Der Entscheidungsbaum ist ein einfacher, aber leistungsstarker Algorithmus für maschinelles Lernen. Er ist leicht zu verstehen und schon seit langem im Umlauf.

Modell-Typ: Entscheidungsbaum

Was wir taten: Bei der Entwicklung des maschinellen Lernmodells begannen wir mit der k-fachen Kreuzvalidierung, bei der wir den Trainingsdatensatz zunächst in k Chunks aufteilten. Anschließend trainierten wir das Modell auf den k-1 Chunks und bewerteten das Modell auf dem letzten Chunk. Wir wiederholten diesen Prozess und berechneten die durchschnittliche Genauigkeit der Modellausgaben. Wenn die Ergebnisse der Kreuzvalidierung zufriedenstellend waren, trainierten wir das Modell mit dem gesamten Trainingsdatensatz.

In dieser Demo haben wir zwei Datensätze: die Irisblume und die Titanic. Für den Irisblumen-Datensatz liest das Modell vier Blumenmaße (auch bekannt als Eingaben oder Merkmale), um zu bestimmen, um welche Art von Irisblume es sich handelt. Die vier Eingaben sind: Kelchblattlänge, Kelchblattbreite, Blütenblattlänge und Blütenblattbreite.

Für den Titanic-Datensatz liest das Modell acht Merkmale über jeden Passagier, um festzustellen, ob ein bestimmter Passagier den Untergang der Titanic überlebt hat oder nicht.

Wählen Sie unten einen Datensatz aus und versuchen Sie dann, das Entscheidungsbaummodell kreuzvalidieren, trainieren und/oder trainieren und testen zu lassen.


Testen Sie maschinelles Lernen im Self-Service noch heute