Calculateur du gain d'informations

Ce calculateur en ligne calcule le gain d'informations, le changement de l'entropie informationnelle d'un état antérieur à un état qui a pris les informations telles que données

Cette page existe grâce aux efforts des personnes suivantes :

Timur

Timur

Gaulthier Marrel

Créé: 2020-07-10 08:26:48, Dernière mise à jour: 2020-11-03 14:19:39
Creative Commons Attribution/Share-Alike License 3.0 (Unported)

Ce contenu est sous License Creative Commons Attribution/Partage à l'Identique 3.0(Unported). Cela signifie que vous pouvez redistribuer ou modifier librement ce contenu avec les mêmes modalités de licence et que vous devez créditer l'auteur original en plaçant un lien hypertexte de votre site vers l'œuvre https://fr.planetcalc.com/8421/. Vous ne pouvez pas modifier (le cas échéant) les références dans le contenu de l'œuvre originale.

Le calculateur en ligne ci-dessous analyse l'ensemble d'exemples de formation, puis calcule le gain d'information pour chaque attribut/caractéristique. Si vous n'êtes pas sûrs de ce que cela concerne, lisez le bref texte sous le calculateur.

Remarque : Les exemples de formation doivent être saisis comme une liste csv, avec des points virgules utilisés comme séparateurs. La première ligne est considérée comme étant la colonne de labels, commençant par les attributs, labels des premiers attributs/caractéristiques puis la classe du label. Toutes les autres lignes sont des exemples. Les données par défaut de ce calculateur sont le célèbre exemple des données pour l'arbre de décision "Jouer au tennis"

PLANETCALC, Calculateur du gain d'informations

Calculateur du gain d'informations

Chiffres après la virgule décimale : 3
Le fichier est très volumineux; un ralentissement du navigateur peut se produire pendant le chargement et la création.

Gains d'informations et arbre de décision

Le gain d'informations est la mesure qui est particulièrement utile pour la construction des arbres de décision.
Un arbre de décision est une structure en organigramme dans laquelle chaque nœud interne représente un "test" sur un attribut (ex. si le jet d'une pièce résulte en pile ou face), chaque branche représente le résultat du test et chaque feuille du nœud représente une classe de label (décision prise après le calcul de tous lé attributs). Lé chemins depuis la racine jusqu'à la feuille représentent lé règles de classification.1

Regardons les données par défaut du calculateur.

Les attributs à analyser sont :

  • Prévision : Ensoleillé/Couvert/Pluvieux
  • Humidité : Elevée/Normale
  • Vente : Vrai/Faux
  • Température : Chaude/Douce/Fraîche

La classe de label est :

  • Jouer : Oui/Non

Ainsi, en analysant les attributs un par un, l'algorithme doit efficacement répondre à la question : "Devrions-nous jouer au tennis ?" Donc, afin de réaliser le moins d'étapes possibles, nous devons choisir le meilleur attribut de décision à chaque étape. Celui qui donne le maximum d'informations.

Comment mesure l'information qu'un attribut peut nous donner ? L'une des manières est de mesurer le réduction de l'entropie, est c'est exactement ce que la mesure du _Gain d'informations- fait.

Revenons à l'exemple. Dans notre ensemble de formation, nous avons 5 exemples avec le label "Non" et 9 exemple avec le label "Oui". Selon la formule très connue de Entropie de Shannon, l'entropie actuelle est

H=-\frac{5}{14} \log_2\frac{5}{14} - \frac{9}{14} \log_2\frac{9}{14} = 0.94

Maintenant, imaginons que nous voulions classifier certains exemples. Nous décidons de tester en premier l'attribut "Venteux". Techniquement nous réalisons un scission de l'attribut "Venteux".

Si la valeur de l'attribut "Venteux" est "Vrai", nous avons 6 exemples restants. Trois d'entre eux ont le label "Oui" pour "Jouer" et trois d'entre eux ont le label "Non" pour "Jouer.
Leur entropie est

H=-\frac{3}{6} \log_2\frac{3}{6} - \frac{3}{6} \log_2\frac{3}{6} = 1

Ainsi, si notre exemple lors du test a "Vrai" pour l'attribut "Venteux", nous avons plus d'incertitude qu'auparavant.

Maintenant, si la valeur de l'attribut "Venteux' est "Faux", nous avons 8 exemples restants. Six d'entre eux ont le label "Oui" pour "Jouer" et deux ont le label "Non" pour "Jouer".
Leur entropie est

H=-\frac{6}{8} \log_2\frac{6}{8} - \frac{2}{8} \log_2\frac{2}{8} = 0.81

bien sûr, c'est mieux que notre entropie initiale de 0,94 bits (si nous avons la chance d'obtenir "Faux" dans notre exemple lors du test).

Afin d'estimer la réduction d'entropie en général, nous devons faire la moyenne en utilisant la probabilité d'obtenir les valeurs d'attribut "Vrai" et "Faux". Nous avons 6 exemples avec la valeur "Vrai" pour l'attribut "Venteux" et 8 exemples avec la valeur "Faux" pour l'attribut "Venteux". Ainsi, l'entropie moyenne après la scission devrait être

H_{Windy}=\frac{6}{14} H_{Windy=True} + \frac{8}{14} H_{Windy=False} = 0.429+0.463=0.892

Donc, notre entropie initiale est de 0,94 et l'entropie moyenne après la scission suivant l'attribut "Venteux" est de 0,892. En conséquence le gain d'informations suivant la réduction de l'entropie est

IG=H-H_{Windy}=0.048

La formule générale du gain d'informations pour l'attribut a est

IG(T,a)=\mathrm {H} (T)-\mathrm {H} (T|a),


T - un ensemble d'exemples de formations, chacun sous la forme (\textbf{x},y) = (x_1, x_2, x_3, ..., x_k, y)x_a\in vals(a) est la valeur de a^{\text{th}} attribut ou caractéristique de l'exemple et y est ma classe de label correspondante,
\mathrm {H} (T|a) - l'entropie de T conditionné selon a (Entropie conditionnelle )

la formule de l'entropie conditionnelle est

{\displaystyle \mathrm {H} (T|a)=\sum _{v\in vals(a)}{{\frac {|S_{a}{(v)}|}{|T|}}\cdot \mathrm {H} \left(S_{a}{\left(v\right)}\right)}.}


S_{a}{(v)} - l'ensemble d'exemples de formations de T tel que pour lorsque l'attribut a est égal à v

En utilisant cette approche, nous pouvons trouver le gain d'informations pour chacun des attributs et trouver que l'attribut "Prévision" nous donne le meilleur gain d'informations, 0,247 bits. Maintenant nous pouvons conclure que la première scission suivant l'attribut "Venteux" était une très mauvaise idée et que les exemples de formation donnés suggèrent que nous devrions tester en premier l'attribut "Prévision".

Une dernière remarque. Vous pouvez vous demander pourquoi nous avons besoin d'un arbre de décision si nous pouvons simplement fournir la décision pour chaque combinaison d'attributs. Bien sûr vous pouvez, mais même pour ce petit exemple le nombre total de combinaisons est de 3*2*2*3=36. D'autre part, nous avons juste utilisé un sous-ensemble de combinaisons (14 exemples) pour former notre algorithme (en construisant l'arbre de décision) et maintenant il peut facilement classifier toutes les autres décisions sans notre aide. C'est l'objectif de l'apprentissage des machines.

URL copiée dans le presse-papiers
PLANETCALC, Calculateur du gain d'informations

commentaires