Test de Mann-Whitney
Ce calculateur en ligne réalise le test U de Mann-Whitney (également appelé test de Mann-Whitney-Wilcoxon MWW), test de la somme des rangs de Wilcoxon ou Wilcoxon-Mann-Whitney).
Comme mentionné dans le Test de Student sur deux échantillons, vous pouvez appliquer le test de Student si les hypothèses suivantes sont respectées :
- Les deux échantillons sont indépendants et choisis aléatoirement dans les populations sources.
- L'échelle de mesure des deux échantillons a les propriétés d'une échelle d’intervalle égale.
- Les populations sources peuvent être raisonnablement supposées comme ayant une distribution normale.
Néanmoins, parfois vos données ne répondent pas à la seconde et/ou troisième exigence. Par exemple, rien n'indique qu'il a une distribution normale, ou vous n'avez pas une échelle d'intervalle égale - l'espace entre les valeurs adjacentes ne peut pas être considéré comme étant constant. Mais vous souhaitez toujours trouver si la différence entre les deux échantillons est significative. Dans de tels cas, vous pouvez utiliser le test de Mann-Whitney alternative non paramétrique du test de Student.
En statistiques, le test U de Mann-Whitney (également appelé test de Mann-Whitney-Wilcoxon MWW), test de la somme des rangs de Wilcoxon ou Wilcoxon-Mann-Whitney) est un test non paramétrique de l'hypothèse nulle qui a autant de chance qu'une valeur sélectionnée aléatoirement dans un échantillon soit inférieure ou supérieure à une valeur sélectionnée aléatoirement dans un second échantillon1, ou . Cependant, il est également utilisé comme substitut pour le test de Student pour des groupes indépendants avec l'hypothèse nulle que les deux médianes de la population sont égales.
D'ailleurs, il y a en fait deux tests - le test U de Mann-Whitney et le test de la somme des rangs de Wilcoxon. Ils ont été développées indépendamment, utilisent différentes mesures, mais sont statistiquement équivalents.
Les hypothèses du test de Mann-Whitney sont :
- Les deux échantillons sont choisis aléatoirement et indépendamment ;
- Les mesures au sein des deux échantillons ont les propriétés d'au moins une échelle de mesure ordinale, ainsi il est significatif de parler de "supérieur à", "d'inférieur à" et "d'égal à"."2
Comme vous pouvez le voir, ce test non paramétrique n'assume pas (ou ne nécessite pas) que les échantillons soient issus de populations distribuées normalement. De tels tests sont également appelé tests sans distribution.
Mise en garde
Le test de Wilcoxon-Mann-Whitney est connu depuis un certain temps comme étant affecté par l’hétérogénéité de la variance lorsque la taille de l’échantillon n’est pas égale. Cependant même quand les tailles des échantillons sont égales, de très petites différences entre les variances de la population peuvent faire que le test de Wilcoxon-Mann-Whitney sur un grand échantillon devienne trop libéral, soit, le taux d'erreur de type I pour le test de Wilcoxon-Mann-Whitney sur un grand échantillon augmente lorsque la taille de l'échantillon augmente.3.
Par conséquence, vous devez vous rappeler que ce test est vrai seulement si les distributions des deux populations sont les mêmes (dont l'homogénéité de la variance) mise à part un changement de localisation.
La méthode
La méthode remplace les valeurs brutes par leurs rangs correspondants. Avec ceci, certains résultats peuvent être atteints en utilisant de simple math. Par exemple, la somme totale des rangs est déjà connue à partir de la taille totale et est . par conséquent, le rang moyen est .
L'idée générale est que si l'hypothèse nulle est vraie et si les échantillons ne sont pas significativement différents, alors les rangs sont assez équilibrés entre A et B, et le rang moyen de chaque échantillon doit approximer le rang moyen total, et la somme des rangs doit respectivement approximer et .
Le calcul
Pour réaliser le test, vous devez d'abord calculer une mesure connue comme U pour chaque échantillon.
Vous commencez en combinant toutes les valeurs des deux échantillons en un seul ensemble, en les triant par valeur, et assignez un rang à chaque valeur (en cas d'égalités, chaque valeur reçoit un rang moyen). Les rangs vont de 1 à N, où N est la somme des tailles et . Ensuite, vous calculez la somme des rangs pour les valeurs de chaque échantillon et .
Maintenant vous pouvez calculer U comme
Pour les échantillons de petites tailles vous pouvez utiliser les valeurs tabulées. Vous prenez le minimum de deux U puis vous les comparez avec la valeur critique correspondant aux tailles des échantillons et choisissez le niveau de signification. Les manuels de statistiques listent généralement les valeurs critiques dans des tableaux pour des échantillons de taille jusqu'à 20.
Pour les grandes tailles d'échantillons vous pouvez utiliser le test z. Il a été montré que U est approximativement normalement distribué si les tailles des deux échantillons sont égales ou supérieures à 5 (certaines sources disent si 4).
,
où
En cas d'égalités, la formule pour la déviation standard devient
où g est le nombre de groupes d'égalités , tj est le nombre de rangs égaux dans le groupe j.
Le calculateur ci-dessous utilise le test z. Bien sûr, il y a des limites sur les tailles des échantillons (les tailles des deux échantillons doivent être égales ou supérieures à 5), mais ce n'est probablement pas une véritable limite dans les cas concrets.
commentaires