Constructeur d'arbre de décision

Ce calculateur en ligne construit l'arbre de décision à partir de l'ensemble de formation en utilisant la mesure du gain d'informations

Le calculateur en ligne ci-dessous analyse l'ensemble d'exemples de formation, puis construit l'arbre de décision en utilisant le Gain d'Informations comme critère de scission. Si vous n'êtes pas sûrs de ce que cela concerne, lisez le bref texte sous le calculateur.

Remarque : Les exemples de formation doivent être saisis comme une liste csv, avec des points virgules utilisés comme séparateurs. La première ligne est considérée comme étant la colonne de labels, commençant par les attributs, les caractéristiques des labels puis la classe du label. Toutes les autres lignes sont des exemples. Les données par défaut de ce calculateur sont le célèbre exemple des données pour l'arbre de décision "Jouer au tennis"

PLANETCALC, Constructeur d'arbre de décision

Constructeur d'arbre de décision

Arbre de décision
 

Arbres de décision

Un arbre de décision est une structure en organigramme dans laquelle chaque nœud interne représente un "test" sur un attribut (ex. si le jet d'une pièce résulte en pile ou face), chaque branche représente le résultat du test et chaque feuille du nœud représente une classe de label (décision prise après le calcul de tous lé attributs). Lé chemins depuis la racine jusqu'à la feuille représentent lé règles de classification.1

Regardons les données par défaut du calculateur.

Les attributs à analyser sont :

  • Prévision : Ensoleillé/Couvert/Pluvieux
  • Humidité : Elevée/Normale
  • Vente : Vrai/Faux
  • Température : Chaude/Douce/Fraîche

La classe de label est :

  • Jouer : Oui/Non

Ainsi, en analysant les attributs un par un, l'algorithme doit efficacement répondre à la question : "Devrions-nous jouer au tennis ?" Donc, afin de réaliser le moins d'étapes possibles, nous devons choisir le meilleur attribut de décision à chaque étape. Celui qui donne le maximum d'informations. Cet attribut est utilisé à la première scission. Le processus continue jusqu'à ce qu'il n'y ait plus besoin de scission supplémentaire (après la scission, tous les échantillons restants sont homogènes, en d'autres mots, nous pouvons identifier la classe du label), ou lorsqu'il n'y a plus aucun attribut à diviser.

L'arbre de décision généré divise d'abord sur "Prévision". Si la réponse est "Ensoleillé", alors il vérifie l'attribut "Humidité". Si la réponse est "Elevée", alors c'est "Non" pour "Jouer". Si la réponse est "Normale", alors c'est "Oui" pour "Jouer". Si la "Prévision" est "Couvert", alors c'est immédiatement "Oui" pour "Jouer". Si la "Prévision" est "Pluvieux", alors il faut vérifier l'attribut "Venteux". Notez que cet arbre de décision n'a pas du tout besoin de vérifier la caractéristique "Température" !

Vous pouvez utiliser différentes mesures comme critère de scission, par exemple, Entropie (via le Gain d'informations ou le Rapport de gain), l'Indice Gini, l'Erreur de classification. Ce calculateur particulier utilise le Gain d'informations.

Vous pouvez vous demander pourquoi nous avons besoin d'un arbre de décision si nous pouvons simplement fournir la décision pour chaque combinaison d'attributs. Bien sûr vous pouvez, mais même pour ce petit exemple le nombre total de combinaisons est de 3*2*2*3=36. D'autre part, nous avons juste utilisé un sous-ensemble de combinaisons (14 exemples) pour former notre algorithme (en construisant l'arbre de décision) et maintenant il peut facilement classifier toutes les autres décisions sans notre aide. C'est l'objectif de l'apprentissage des machines. Bien sûr, il y a de nombreuses implication concernant le manque de robustesse, le sur-apprentissage, le biais, etc, et pour plus d'informations vous pouvez consulter l'article Apprentissage de l'arbre de décision sur Wikipédia.

URL copiée dans le presse-papiers
PLANETCALC, Constructeur d'arbre de décision

commentaires