Aller au contenu

« Test exact de Fisher » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Heribor (discuter | contributions)
bandeau ébauche
ThermoF (discuter | contributions)
m Exemple : syntaxe
 
(21 versions intermédiaires par 14 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
{{ébauche|statistiques}}
{{ébauche|statistiques}}
{{Infobox Méthode scientifique}}


'''Le Test exact de Fisher''' est un test statistique utilisé pour l'analyse des tables de contingence. Ce test est utilisé en général avec des faibles effectifs mais il est valide pour toutes les tailles d'échantillon. Il doit son nom à son inventeur [[Ronald Aylmer Fisher | Ronald Fisher]]. C'est un test qualifié d'exact car les probabilités peuvent être calculées exactement plutôt qu'en s'appuyant sur une approximation qui ne devient correcte qu'asymptotiquement comme pour le [[Test du χ²|test du <math>\chi^2</math>]] utilisé dans les tables de contingence.
''' exact de Fisher''' est un test statistique utilisé pour l'analyse des tables de contingence. Ce test est utilisé en général avec faibles effectifs mais il est valide pour toutes les tailles d'. Il doit son nom à son inventeur [[Ronald Aylmer Fisher|Ronald Fisher]]. C'est un test qualifié d'exact car les probabilités peuvent être calculées exactement plutôt qu'en s'appuyant sur une approximation qui ne devient correcte qu'asymptotiquement comme pour le [[Test du χ²|test du <math>\chi^2</math>]] utilisé dans les tables de contingence.


Les calculs à la main ne sont raisonnables que pour les tables 2 &times; 2 mais le principe du test peut s'étendre au cas général et certains logiciels de statistique permettent le calcul pour le cas général.
Les calculs à la main ne sont raisonnables que pour les tables 2 2 mais le principe du test peut s'étendre au cas général et certains logiciels de statistique permettent le calcul pour le cas général.


Fisher aurait conçu le test à la suite d'un commentaire de [[Muriel Bristol]], qui prétendait pouvoir détecter si le thé ou le lait avait été ajouté en premier à sa tasse<ref>{{Ouvrage|langue=Anglais|auteur1=Ronald Fisher|titre=The Design of Experiments|passage=|lieu=|éditeur=|date=1935|pages totales=|isbn=|lire en ligne=}}</ref>. Il a testé sa revendication dans une expérience appelée « ''[[The lady tasting tea|lady tasting tea]]'' ».


== Explication intuitive ==
==Exemple==


Soit un tableau de contingence entre deux variables qualitatives A et B. La première étape consiste à formuler l'hypothèse nulle d'indépendance entre ces deux variables qualitatives. Si ces deux variables sont indépendantes, on peut alors calculer la probabilité de chaque modalité A1, A2... La probabilité de présenter A1 et B1 est alors égale à P(A1) × P(B1). On peut ainsi calculer la probabilité de se trouver dans chaque case du tableau. Enfin, on peut calculer la probabilité, si l'hypothèse nulle est vraie, d'observer un tableau de contingence donné.
Soit un échantillon d'adolescents on sépare l'échantillon entre filles et garçons et entre ceux qui suivent un régime et ceux qui n'en suivent pas et nous supposons que la proportion de filles qui suivent un régime est supérieure à celle des garçons, et nous voulons tester si la différence de proportions observées est significative.

Voici les données
La deuxième étape consiste alors à calculer, pour tous les tableaux de contingence possibles dont celui étudié, la possibilité d'observer ce tableau de contingence si l'hypothèse nulle est vraie. On range alors les tableaux de contingence en deux catégories : ceux qui sont plus compatibles avec l'hypothèse nulle que le tableau étudié (leur probabilité est plus élevée sous l'hypothèse nulle), et ceux qui sont autant ou moins compatibles.

La p-value est obtenue en sommant les probabilités des tableaux de contingence qui sont moins probables (sous l'hypothèse nulle) que le tableau étudié.

==Exemple==

Soit un échantillon d'adolescents on sépare l'échantillon entre filles et garçons et entre ceux qui suivent un régime et ceux qui n'en suivent pas supposons que la proportion de filles qui suivent un régime est supérieure à celle des garçons, et nous voulons tester si la différence de est significative.
Voici les données


{|class="wikitable"
{|class="wikitable"
Ligne 28 : Ligne 38 :
|}
|}


Ces données ne sont pas adaptées pour une analyse par un test du <math>\chi^2</math>, parce que les valeurs attendues (théoriques) dans la table sont inférieures à 10, et dans une table de contingence 2 &times; 2, le nombre de degrés de liberté est toujours égal à 1.
Ces données ne sont pas adaptées pour une analyse par un test du <math>\chi^2</math>, parce que les valeurs attendues (théoriques) dans la table sont inférieures à 10, et dans une table de contingence 2 2, le nombre de degrés de liberté est toujours égal à 1.


La question que l'on se pose à propos de ces données est : sachant que 10 de ces 24 adolescents pratiquent un régime et que 12 sont des filles, quelle est la probabilité que ces 10 qui pratiquent un régime soient répartis de manière équilibrée entre les filles et les garçons ? Si on choisit 10 adolescents au hasard, quelle est la probabilité que 9 d'entre eux soient parmi les 12 filles et seulement 1 parmi les 12 garçons ?
La question que l'on se pose à propos de ces données est : sachant que 10 de ces 24 adolescents pratiquent un régime et que 12 sont des filles, quelle est la probabilité que ces 10 qui pratiquent un régime soient répartis de manière équilibrée entre les filles et les garçons ? Si on choisit 10 adolescents au hasard, quelle est la probabilité que 9 d'entre eux soient parmi les 12 filles et seulement 1 parmi les 12 garçons ?
Ligne 53 : Ligne 63 :




Fisher a montré que si les totaux marginaux sont fixés, la [[probabilité]] de cette configuration est donnée, sous l'hypothèse nulle d'absence d'association, par la [[loi hypergéometrique ]]:
Fisher a montré que si les totaux marginaux sont fixés, la [[probabilité]] de cette configuration est donnée, sous l'hypothèse nulle d'absence d'association, par la [[loi ]]:


<center>
<center>
<math>p = \frac{ \displaystyle{{a+b}\choose{a}} \displaystyle{{c+d}\choose{c}} }{ \displaystyle{{n}\choose{a+c}} } = \frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!}</math>
<math>p = \frac{ \displaystyle{{a+b}\choose{a}} \displaystyle{{c+d}\choose{c}} }{ \displaystyle{{n}\choose{a+c}} } = \frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!}</math>
</center>
</center>


où <math> \tbinom nk </math> est le [[coefficient binomial]] et le symbole ! indique la [[factorielle]].
où <math \ nk </math> est le [[coefficient binomial]] et le symbole ! indique la [[factorielle]].


Dans l'exemple la probabilité d'obtenir le tableau croisé observé, avec les totaux marginaux donnés, est donc:
Dans l'exemple la probabilité d'obtenir le tableau croisé observé, avec les totaux marginaux donnés, est donc:


<center>
<center>
<math>p = \frac{10!14!12!12!}{1!9!11!3!24!}= \frac{40}{29716}=0,001346...</math>
<math>p = \frac{10!14!12!12!}{1!9!11!3!24!}= \frac{}{}=0,001346</math>
</center>
</center>


De manière à calculer si des données observées sont significativement éloignées de l'indépendance, c'est-à-dire la probabilité d'observer des données aussi ou plus éloignées que celles observées si l'hypothèse nulle (indépendance) est satisfaite, il faut calculer les valeurs de ''p'' pour ces tables et les ajouter. Cela donne un test unilatéral; pour un test bilatéral on doit considérer les tables qui sont extrêmes mais dans l'autre direction. Malheureusement classer les tables pour savoir si elles sont ou non aussi extrêmes est problématique.
De manière à calculer si des données observées sont significativement éloignées de l'indépendance, c'est-à-dire la probabilité d'observer des données aussi ou plus éloignées que celles observées si l'hypothèse nulle (indépendance) est satisfaite, il faut calculer les valeurs de ''p'' pour ces tables et les ajouter. Cela donne un test unilatéral; pour un test bilatéral on doit considérer les tables qui sont extrêmes mais dans l'autre direction. Malheureusement classer les tables pour savoir si elles sont ou non aussi extrêmes est problématique.
Une approche utilisée dans [[R_(langage_de_programmation_et_environnement_statistique) |R]] avec la fonction "fisher.test" calcule la valeur p en sommant les probabilités de toutes les tables ayant une probabilité inférieure ou égale à celle de la table observée.
Une approche utilisée dans [[( |R]] avec la fonction "fisher.test" calcule la valeur p en sommant les probabilités de toutes les tables ayant une probabilité inférieure ou égale à celle de la table observée.


Voici la commande permettant d'entrer le tableau croisé de l'exemple présenté plus haut comme une matrice de R et de calculer la valeur de la probabilité.
Voici la commande permettant d'entrer le tableau croisé de l'exemple présenté plus haut comme une matrice de R et de calculer la valeur de la probabilité
fisher.test(matrix(c(1,9,11,3),nrow=2))

Et voici la valeur de la probabilité obtenue:
fisher.test(matrix(c(1,9,11,3),nrow=2))

Et voici la valeur de la probabilité obtenue:


p-value = 0.002759
p-value = 0.002759


Cette valeur se calcule aussi assez facilement sans logiciel puissant avec le principe exposé. Il y a en tout quatre tables aussi éloignées ou plus éloignées de l'indépendance que la table observée. Il n'y a en tout que onze tables possibles sachant qu'il y a seulement dix adolescents qui suivent un régime, le nombre de garçons suivant un régime peut varier de 0 jusqu'à 10. Une fois que le nombre de garçons suivant un régime est connu tout le reste de la table est connu, ce qui correspond intuitivement au degré de liberté valant 1. Les quatre tables extrêmes correspondent aux valeurs 0,1,9 et 10 pour le nombre de garçons suivant un régime.
Cette valeur se calcule aussi assez facilement sans logiciel puissant avec le principe exposé. Il y a en tout quatre tables aussi éloignées ou plus éloignées de l'indépendance que la table observée. Il n'y a en tout que onze tables possibles sachant qu'il y a seulement dix adolescents qui suivent un régime, le nombre de garçons suivant un régime peut varier de 0 jusqu'à 10. Une fois que le nombre de garçons suivant un régime est connu tout le reste de la table est connu, ce qui correspond intuitivement au degré de liberté valant 1. Les quatre tables extrêmes correspondent aux valeurs 0,1,9 et 10 pour le nombre de garçons suivant un régime.
La probabilité des deux tables plus éloignées de l'indépendance est très faible elle se calcule comme précédemment:
La probabilité des deux tables plus éloignées de l'indépendance est très faible elle se calcule comme précédemment:


<center>
<center>
<math>p = \frac{10!14!12!12!}{0!10!12!2!24!}= \frac{1}{29716}=0,0000336519...</math>
<math>p = \frac{10!14!12!12!}{0!10!12!2!24!}= \frac{1}{29716}=0,0000336519</math>
</center>
</center>


En ajoutant les probabilités des quatre tables on trouve <math>p = \frac{82}{29716}= 0,0027594561...</math>
En ajoutant les probabilités des quatre tables on trouve <math>p = \frac{82}{29716}=0,0027594561</math>


Le test permet de rejeter l'indépendance entre le sexe et le fait de faire un régime.
Le test permet de rejeter l'indépendance entre le sexe et le fait de faire un régime.


Comme cela a été noté plus haut la plupart des logiciels de statistiques modernes calculent le niveau de signification du test exact de Fisher, même si l'approximation du test du <math>\chi^2</math> est acceptable.
Comme cela a été noté plus haut la plupart des logiciels de statistiques modernes calculent le niveau de signification du test exact de Fisher, même si l'approximation du test du math2 est acceptable.
Les calculs faits par les logiciels de statistiques sont différents des règles expliquées plus haut en raison des difficultés numériques dues aux très grandes valeurs des factorielles. Une meilleure approche s'appuie sur une [[fonction gamma]] ou une fonction log-gamma, mais les méthodes de calcul précis pour les probabilités hypergéométriques ou binomiales font encore partie de la recherche.
Les calculs faits par les logiciels de statistiques sont différents des règles expliquées plus haut en raison des difficultés numériques dues aux très grandes valeurs des factorielles. Une meilleure approche s'appuie sur une [[fonction gamma]] ou une fonction log-gamma, mais les méthodes de calcul précis pour les probabilités hypergéométriques ou binomiales font encore partie de la recherche.


=== Notes et références ===
{{Références|taille=|groupe=}}

{{palette|Tests statistiques|Probabilités et statistiques}}
{{Portail|probabilités et statistiques}}
{{Portail|probabilités et statistiques}}

{{DEFAULTSORT:Fisher, test exact de}}
{{DEFAULTSORT:Fisher, test exact de}}
[[Catégorie:Test statistique]]
[[Catégorie:Test statistique]]

Dernière version du 31 mai 2024 à 08:21

Test exact de Fisher
Type
Test statistique, concept mathématique (en)Voir et modifier les données sur Wikidata
Inventeur
Nommé en référence à

En statistique, le test exact de Fisher est un test statistique exact utilisé pour l'analyse des tables de contingence. Ce test est utilisé en général avec de faibles effectifs mais il est valide pour toutes les tailles d'échantillons. Il doit son nom à son inventeur, Ronald Fisher. C'est un test qualifié d'exact car les probabilités peuvent être calculées exactement plutôt qu'en s'appuyant sur une approximation qui ne devient correcte qu'asymptotiquement comme pour le test du utilisé dans les tables de contingence.

Les calculs à la main ne sont raisonnables que pour les tables 2 × 2 mais le principe du test peut s'étendre au cas général et certains logiciels de statistique permettent le calcul pour le cas général.

Fisher aurait conçu le test à la suite d'un commentaire de Muriel Bristol, qui prétendait pouvoir détecter si le thé ou le lait avait été ajouté en premier à sa tasse[1]. Il a testé sa revendication dans une expérience appelée « lady tasting tea ».

Explication intuitive

[modifier | modifier le code]

Soit un tableau de contingence entre deux variables qualitatives A et B. La première étape consiste à formuler l'hypothèse nulle d'indépendance entre ces deux variables qualitatives. Si ces deux variables sont indépendantes, on peut alors calculer la probabilité de chaque modalité A1, A2... La probabilité de présenter A1 et B1 est alors égale à P(A1) × P(B1). On peut ainsi calculer la probabilité de se trouver dans chaque case du tableau. Enfin, on peut calculer la probabilité, si l'hypothèse nulle est vraie, d'observer un tableau de contingence donné.

La deuxième étape consiste alors à calculer, pour tous les tableaux de contingence possibles dont celui étudié, la possibilité d'observer ce tableau de contingence si l'hypothèse nulle est vraie. On range alors les tableaux de contingence en deux catégories : ceux qui sont plus compatibles avec l'hypothèse nulle que le tableau étudié (leur probabilité est plus élevée sous l'hypothèse nulle), et ceux qui sont autant ou moins compatibles.

La p-value est obtenue en sommant les probabilités des tableaux de contingence qui sont moins probables (sous l'hypothèse nulle) que le tableau étudié.

Soit un échantillon d'adolescents, on sépare l'échantillon entre filles et garçons et entre ceux qui suivent un régime et ceux qui n'en suivent pas. Nous supposons que la proportion de filles qui suivent un régime est supérieure à celle des garçons, et nous voulons tester si la différence de proportion observée est significative. Voici les données :

Garçons Filles total ligne
régime 1 9 10
non régime 11 3 14
total colonne 12 12 24

Ces données ne sont pas adaptées pour une analyse par un test du , parce que les valeurs attendues (théoriques) dans la table sont inférieures à 10, et dans une table de contingence 2 × 2, le nombre de degrés de liberté est toujours égal à 1.

La question que l'on se pose à propos de ces données est : sachant que 10 de ces 24 adolescents pratiquent un régime et que 12 sont des filles, quelle est la probabilité que ces 10 qui pratiquent un régime soient répartis de manière équilibrée entre les filles et les garçons ? Si on choisit 10 adolescents au hasard, quelle est la probabilité que 9 d'entre eux soient parmi les 12 filles et seulement 1 parmi les 12 garçons ?

Avant de passer au test de Fisher nous introduisons quelques notations. On représente les cellules par les lettres a, b, c et d et on note n le total général. La table se présente ainsi :

Garçons Filles Total
Régime a b a + b
Non-régime c d c + d
Totaux a + c b + d a + b + c + d (=n)


Fisher a montré que si les totaux marginaux sont fixés, la probabilité de cette configuration est donnée, sous l'hypothèse nulle d'absence d'association, par la loi hypergéométrique :

est le coefficient binomial et le symbole ! indique la factorielle.

Dans l'exemple la probabilité d'obtenir le tableau croisé observé, avec les totaux marginaux donnés, est donc:

De manière à calculer si des données observées sont significativement éloignées de l'indépendance, c'est-à-dire la probabilité d'observer des données aussi ou plus éloignées que celles observées si l'hypothèse nulle (indépendance) est satisfaite, il faut calculer les valeurs de p pour ces tables et les ajouter. Cela donne un test unilatéral; pour un test bilatéral on doit considérer les tables qui sont extrêmes mais dans l'autre direction. Malheureusement classer les tables pour savoir si elles sont ou non aussi extrêmes est problématique. Une approche utilisée dans R avec la fonction "fisher.test" calcule la valeur p en sommant les probabilités de toutes les tables ayant une probabilité inférieure ou égale à celle de la table observée.

Voici la commande permettant d'entrer le tableau croisé de l'exemple présenté plus haut comme une matrice de R et de calculer la valeur de la probabilité :

fisher.test(matrix(c(1, 9, 11, 3), nrow = 2))

Et voici la valeur de la probabilité obtenue:

p-value = 0.002759

Cette valeur se calcule aussi assez facilement sans logiciel puissant avec le principe exposé. Il y a en tout quatre tables aussi éloignées ou plus éloignées de l'indépendance que la table observée. Il n'y a en tout que onze tables possibles sachant qu'il y a seulement dix adolescents qui suivent un régime, le nombre de garçons suivant un régime peut varier de 0 jusqu'à 10. Une fois que le nombre de garçons suivant un régime est connu tout le reste de la table est connu, ce qui correspond intuitivement au degré de liberté valant 1. Les quatre tables extrêmes correspondent aux valeurs 0, 1, 9 et 10 pour le nombre de garçons suivant un régime. La probabilité des deux tables plus éloignées de l'indépendance est très faible elle se calcule comme précédemment:

En ajoutant les probabilités des quatre tables on trouve

Le test permet de rejeter l'indépendance entre le sexe et le fait de faire un régime.

Comme cela a été noté plus haut la plupart des logiciels de statistiques modernes calculent le niveau de signification du test exact de Fisher, même si l'approximation du test du χ2 est acceptable. Les calculs faits par les logiciels de statistiques sont différents des règles expliquées plus haut en raison des difficultés numériques dues aux très grandes valeurs des factorielles. Une meilleure approche s'appuie sur une fonction gamma ou une fonction log-gamma, mais les méthodes de calcul précis pour les probabilités hypergéométriques ou binomiales font encore partie de la recherche.

Notes et références

[modifier | modifier le code]
  1. (en) Ronald Fisher, The Design of Experiments,