La Distribution F o La distribution Fisher-Snedecor est celle utilisée pour comparer les variances de deux populations différentes ou indépendantes, chacune suivant une distribution normale.
La distribution qui suit la variance d'un ensemble d'échantillons provenant d'une seule population normale est la distribution du chi carré (Χdeux) de degré n-1, si chacun des échantillons de l'ensemble comporte n éléments.
Pour comparer les variances de deux populations différentes, il est nécessaire de définir un statistique, c'est-à-dire une variable aléatoire auxiliaire qui nous permet de discerner si les deux populations ont ou non la même variance.
Ladite variable auxiliaire peut être directement le quotient des variances de l'échantillon de chaque population, auquel cas, si ledit quotient est proche de l'unité, il est prouvé que les deux populations ont des variances similaires.
Index des articles
La statistique F ou F à variable aléatoire proposée par Ronald Fisher (1890 - 1962) est la plus fréquemment utilisée pour comparer les variances de deux populations et se définit comme suit:
Être sdeux la variance de l'échantillon et σdeux la variance de la population. Pour distinguer chacun des deux groupes de population, les indices 1 et 2 sont utilisés respectivement..
On sait que la distribution du chi carré avec (n-1) degrés de liberté est celle qui suit la variable auxiliaire (ou statistique) définie ci-dessous:
Xdeux = (n-1) sdeux / σdeux.
Par conséquent, la statistique F suit une distribution théorique donnée par la formule suivante:
Étant OU ALORS la distribution du chi carré avec d1 = n1 - 1 degrés de liberté pour la population 1 et V la distribution du chi carré avec d2 = n2 - 1 degrés de liberté pour la population 2.
Le quotient ainsi défini est une nouvelle distribution de probabilité, connue sous le nom de Distribution F avec d1 degrés de liberté dans le numérateur et d2 degrés de liberté dans le dénominateur.
La moyenne de la distribution F est calculée comme suit:
Où f (x) est la densité de probabilité de la distribution F, qui est représentée sur la figure 1 pour diverses combinaisons de paramètres ou degrés de liberté.
On peut écrire la densité de probabilité f (x) en fonction de la fonction Γ (fonction gamma):
Une fois l'intégrale indiquée ci-dessus réalisée, on conclut que la moyenne de la distribution F avec degrés de liberté (d1, d2) est:
μ = d2 / (d2 - 2) avec d2> 2
Où l'on constate que, curieusement, la moyenne ne dépend pas des degrés de liberté d1 du numérateur.
Par contre, le mode dépend de d1 et d2 et est donné par:
Pour d1> 2.
La variance σdeux de la distribution F est calculée à partir de l'intégrale:
Obtention:
Comme d'autres distributions de probabilités continues qui impliquent des fonctions compliquées, la gestion de la distribution F se fait à l'aide de tables ou de logiciels..
Les tableaux impliquent les deux paramètres ou degrés de liberté de la distribution F, la colonne indique le degré de liberté du numérateur et la ligne le degré de liberté du dénominateur.
La figure 2 montre une coupe du tableau de la distribution F pour le cas d'un niveau de signification de 10%, soit α = 0,1. La valeur de F est mise en évidence lorsque d1 = 3 et d2 = 6 avec un niveau de confiance 1- α = 0,9 soit 90%.
En ce qui concerne le logiciel qui gère la distribution F, il existe une grande variété, à partir de feuilles de calcul telles Exceller à des packages spécialisés comme minitab, SPSS Oui R pour citer quelques-uns des plus connus.
Il est à noter que le logiciel de géométrie et de mathématiques géogèbre dispose d'un outil statistique qui inclut les distributions principales, y compris la distribution F. La figure 3 montre la distribution F pour le cas d1 = 3 et d2 = 6 avec un niveau de confiance de 90%.
Considérons deux échantillons de populations qui ont la même variance de population. Si l'échantillon 1 a la taille n1 = 5 et l'échantillon 2 a la taille n2 = 10, déterminez la probabilité théorique que le quotient de leurs variances respectives soit inférieur ou égal à 2.
Il faut se rappeler que la statistique F est définie comme:
Mais on nous dit que les variances de population sont égales, donc pour cet exercice ce qui suit s'applique:
Comme nous voulons connaître la probabilité théorique que ce quotient de variances d'échantillon soit inférieur ou égal à 2, nous devons connaître l'aire sous la distribution F entre 0 et 2, qui peut être obtenue par des tableaux ou un logiciel. Pour cela, il faut tenir compte du fait que la distribution F requise a d1 = n1 - 1 = 5 - 1 = 4 et d2 = n2 - 1 = 10 - 1 = 9, c'est-à-dire la distribution F avec degrés de liberté ( 4, 9).
En utilisant l'outil statistique de géogèbre Il a été déterminé que cette zone est de 0,82, il est donc conclu que la probabilité que le quotient des variances de l'échantillon soit inférieur ou égal à 2 est de 82%.
Il existe deux procédés de fabrication pour les feuilles minces. La variabilité de l'épaisseur doit être aussi faible que possible. 21 échantillons sont prélevés sur chaque processus. L'échantillon du processus A a un écart type de 1,96 microns, tandis que l'échantillon du processus B a un écart type de 2,13 microns. Lequel des processus présente le moins de variabilité? Utilisez un niveau de rejet de 5%.
Les données sont les suivantes: Sb = 2,13 avec nb = 21; Sa = 1,96 avec na = 21. Cela signifie que nous devons travailler avec une distribution F de (20, 20) degrés de liberté.
L'hypothèse nulle implique que la variance de population des deux processus est identique, c'est-à-dire σa ^ 2 / σb ^ 2 = 1. L'hypothèse alternative impliquerait des variances de population différentes.
Ensuite, sous l'hypothèse de variances de population identiques, la statistique F calculée est définie comme suit: Fc = (Sb / Sa) ^ 2.
Puisque le niveau de rejet a été pris comme α = 0,05, alors α / 2 = 0,025
La distribution F (0,025, 20,20) = 0,406, tandis que F (0,975, 20,20) = 2,46.
Par conséquent, l'hypothèse nulle sera vraie si le F calculé remplit: 0.406≤Fc≤2.46. Sinon, l'hypothèse nulle est rejetée.
Comme Fc = (2,13 / 1,96) ^ 2 = 1,18, on conclut que la statistique Fc est dans la plage d'acceptation de l'hypothèse nulle avec une certitude de 95%. En d'autres termes, avec une certitude de 95%, les deux procédés de fabrication ont la même variance de population..
Personne n'a encore commenté ce post.