Formules de distribution hypergéométrique, équations, modèle

4119
Egbert Haynes

La distribution hypergéométrique est une fonction statistique discrète, appropriée pour calculer la probabilité dans des expériences randomisées avec deux résultats possibles. La condition requise pour l'appliquer est qu'il s'agit de petites populations, dans lesquelles les extractions ne sont pas remplacées et les probabilités ne sont pas constantes.. 

Par conséquent, lorsqu'un élément de la population est choisi pour connaître le résultat (vrai ou faux) d'une certaine caractéristique, ce même élément ne peut pas être choisi à nouveau..

Figure 1. Dans une population de boulons comme celle-ci, il y a sûrement des spécimens défectueux. Source: Pixabay.

Certes, l'élément suivant choisi est donc plus susceptible d'obtenir un résultat vrai, si l'élément précédent avait un résultat négatif. Cela signifie que la probabilité varie au fur et à mesure que les éléments sont extraits de l'échantillon..

Les principales applications de la distribution hypergéométrique sont: le contrôle de la qualité dans les processus peu peuplés et le calcul des probabilités dans les jeux de hasard.

Quant à la fonction mathématique qui définit la distribution hypergéométrique, elle se compose de trois paramètres, qui sont:

- Nombre d'éléments de population (N)

- Taille de l'échantillon (m) 

- Nombre d'événements dans l'ensemble de la population avec un résultat favorable (ou défavorable) de la caractéristique étudiée (n).

Index des articles

  • 1 Formules et équations
    • 1.1 Variables statistiques importantes
  • 2 Modèle et propriétés 
    • 2.1 Principales propriétés de la distribution hypergéométrique
    • 2.2 Approximation par la distribution binomiale
  • 3 exemples
    • 3.1 Exemple 1
    • 3.2 Exemple 2
  • 4 exercices résolus
    • 4.1 Exercice 1
    • 4.2 Exercice 2
    • 4.3 Exercice 3
  • 5 Références

Formules et équations

La formule de la distribution hypergéométrique donne la probabilité P de quoi X des cas favorables d'une certaine caractéristique se produisent. La façon de l'écrire mathématiquement, basée sur les nombres combinatoires est:

Dans l'expression ci-dessus N, n Oui m sont des paramètres et X la variable elle-même. 

-La population totale est N.

-Le nombre de résultats positifs d'une certaine caractéristique binaire par rapport à la population totale est n.

-La quantité d'échantillons d'articles est m.

Dans ce cas, X est une variable aléatoire qui prend la valeur X Oui P (x) indique la probabilité d'apparition de X cas favorables de la caractéristique étudiée.

Variables statistiques importantes

Les autres variables statistiques de la distribution hypergéométrique sont:

- Moitié μ = m * n / N

- Variance σ ^ 2 = m * (n / N) * (1-n / N) * (N-m) / (N-1)

- Déviation typique σ qui est la racine carrée de la variance.

Modèle et propriétés 

Pour arriver au modèle de la distribution hypergéométrique, on part de la probabilité d'obtenir X cas favorables dans une taille d'échantillon m. Ledit échantillon contient des éléments conformes à la propriété étudiée et des éléments non conformes.

Souviens-toi que n représente le nombre de cas favorables dans la population totale de N éléments. Ensuite, la probabilité serait calculée comme ceci:

P (x) = (# de façons d'obtenir x # de manières ayant échoué) / (nombre total de façons de sélectionner)

En exprimant ce qui précède sous la forme de nombres combinatoires, nous arrivons au modèle de distribution de probabilité suivant:

Principales propriétés de la distribution hypergéométrique

Ils sont les suivants:

- L'échantillon doit toujours être petit, même si la population est grande.

- Les éléments de l'échantillon sont extraits un par un, sans les réintégrer dans la population.

- La propriété à étudier est binaire, c'est-à-dire qu'elle ne peut prendre que deux valeurs: 1 ou alors 0, ou bien certain ou alors faux.

À chaque étape d'extraction d'élément, la probabilité change en fonction des résultats précédents.

Approximation à l'aide de la distribution binomiale

Une autre propriété de la distribution hypergéométrique est qu'elle peut être approximée par la distribution binomiale, notée Bi, tant que la population N est grand et au moins 10 fois plus grand que l'échantillon m. Dans ce cas, cela ressemblerait à ceci:

P (N, n, m; x) = Bi (m, n / N, x)           

Applicable tant que N est grand et N> 10m

Exemples

Exemple 1

Supposons qu'une machine produisant des vis et que les données accumulées indiquent que 1% en ressortent avec des défauts. Ensuite, dans une boîte de N = 500 vis, le nombre de défectueux sera:

n = 500 * 1/100 = 5

Probabilités utilisant la distribution hypergéométrique

Supposons qu'à partir de cette boîte (c'est-à-dire de cette population) nous prenons un échantillon de m = 60 boulons.

La probabilité qu'aucune vis (x = 0) de l'échantillon ne soit défectueuse est de 52,63%. Ce résultat est atteint en utilisant la fonction de distribution hypergéométrique:

P (500, 5, 60, 0) = 0,5263

La probabilité que x = 3 vis de l'échantillon soient défectueuses est: P (500, 5, 60, 3) = 0,0129.

Par contre, la probabilité que x = 4 vis sur la soixantaine de l'échantillon soient défectueuses est: P (500, 5, 60; 4) = 0,0008.

Enfin, la probabilité que x = 5 vis de cet échantillon soient défectueuses est: P (500, 5, 60; 5) = 0.

Mais si vous voulez connaître la probabilité que dans cet échantillon il y ait plus de 3 vis défectueuses, vous devez alors obtenir la probabilité cumulée, en ajoutant:

P (3) + P (4) + P (5) = 0,0129 + 0,0008 + 0 = 0,0137.

Cet exemple est illustré sur la figure 2, obtenu en utilisant GeoGebra un logiciel libre largement utilisé dans les écoles, instituts et universités.

Figure 2. Exemple de distribution hypergéométrique. Préparé par F.Zapata avec GeoGebra.

Exemple 2

Un deck de deck espagnol a 40 cartes, dont 10 ont de l'or et les 30 autres n'en ont pas. Supposons que 7 cartes soient tirées au hasard de ce deck, qui ne sont pas réincorporées dans le deck.

Si X est le nombre d'or présents dans les 7 cartes tirées, alors la probabilité qu'il y ait x ors dans un tirage à 7 cartes est donnée par la distribution hypergéométrique P (40,10,7; x).

Voyons ceci comme ceci: pour calculer la probabilité d'avoir 4 or dans un tirage de 7 cartes, nous utilisons la formule de la distribution hypergéométrique avec les valeurs suivantes:

Et le résultat est: 4,57% de probabilité.

Mais si vous voulez connaître la probabilité d'obtenir plus de 4 cartes, alors vous devez ajouter:

P (4) + P (5) + P (6) + P (7) = 5,20%

Exercices résolus

L'ensemble d'exercices suivant est destiné à illustrer et à assimiler les concepts qui ont été présentés dans cet article. Il est important que le lecteur essaie de les résoudre par lui-même, avant de regarder la solution.

Exercice 1

Une usine de préservatifs a découvert que sur 1 000 préservatifs produits par une certaine machine, 5 s'avéraient défectueux. Pour le contrôle qualité, 100 préservatifs sont prélevés au hasard et le lot est rejeté s'il y en a au moins un ou plusieurs défectueux. Répondre:

a) Quelle est la possibilité qu'un lot de 100 soit jeté?

b) Ce critère de contrôle qualité est-il efficace??

Solution

Dans ce cas, de très grands nombres combinatoires apparaîtront. Le calcul est difficile à moins qu'un progiciel approprié ne soit disponible.

Mais comme il s'agit d'une grande population et que l'échantillon est dix fois plus petit que la population totale, il est possible d'utiliser l'approximation de la distribution hypergéométrique par la distribution binomiale:

P (1000,5,100; x) = Bi (100, 5/1000, x) = Bi (100, 0,005, x) = C (100, x) * 0,005 ^ x (1-0,005) ^ (100-x)

Dans l'expression ci-dessus C (100, x) est un nombre combinatoire. Ensuite, la probabilité qu'il y ait plus d'un défectueux sera calculée comme ceci:

P (x> = 1) = 1 - Bi (0) = 1- 0,6058 = 0,3942

C'est une excellente approximation, si on la compare à la valeur obtenue en appliquant la distribution hypergéométrique: 0,4102

On peut dire qu'avec une probabilité de 40%, un lot de 100 agents prophylactiques doit être jeté, ce qui n'est pas très efficace..

Mais, étant un peu moins exigeant dans le processus de contrôle qualité et nous ne rejetterions le lot de 100 que s'il y a deux ou plusieurs défectueux, alors la probabilité de rejeter le lot tomberait à seulement 8%..

Exercice 2

Une machine à bouchons en plastique fonctionne de telle manière que sur 10 pièces, une en ressorte déformée. Dans un échantillon de 5 pièces, quelle est la probabilité qu'une seule pièce soit défectueuse?.

Solution

Population: N = 10

Nombre n de défectueux pour tout N: n = 1

Taille de l'échantillon: m = 5

P (10, 1, 5; 1) = C (1,1) * C (9,4) / C (10,5) = 1 * 126/252 = 0,5

Par conséquent, il y a une probabilité de 50% que dans un échantillon de 5, un signal sortira déformé.

Exercice 3

Dans une réunion de jeunes diplômés du secondaire, il y a 7 dames et 6 messieurs. Parmi les filles, 4 étudient les sciences humaines et 3 les sciences. Dans le groupe de garçons, 1 étudie les sciences humaines et 5 les sciences. Calculez ce qui suit:

a) Choisir trois filles au hasard: quelle est la probabilité qu'elles étudient toutes les sciences humaines?.

b) Si trois participants à la réunion des amis sont choisis au hasard: Quelle est la possibilité que trois d'entre eux, quel que soit leur sexe, étudient les sciences tous les trois, ou les sciences humaines également les trois?.

c) Maintenant, sélectionnez deux amis au hasard et appelez X à la variable aléatoire «nombre de ceux qui étudient les sciences humaines». Entre les deux choisis, déterminez la valeur moyenne ou attendue de X et la variance σ ^ 2.

Solution pour 

La population correspond au nombre total de filles: N = 7. Ceux qui étudient les sciences humaines sont n = 4, du total. L'échantillon aléatoire de filles sera m = 3.

Dans ce cas, la probabilité que tous les trois soient des étudiants en sciences humaines est donnée par la fonction hypergéométrique:

P (N = 7, n = 4, m = 3, x = 3) = C (4, 3) C (3, 0) / C (7, 3) = 0,1143

Il y a donc une probabilité de 11,4% que trois filles choisies au hasard étudient les sciences humaines..

Solution b

Les valeurs à utiliser maintenant sont:

-Population: N = 14

-La quantité qui étudie les lettres est: n = 6 et le

-Taille de l'échantillon: m = 3.

-Nombre d'amis étudiant les sciences humaines: x

Selon cela, x = 3 signifie que les trois étudient les sciences humaines, mais x = 0 signifie qu'aucun d'entre eux n'étudie les sciences humaines. La probabilité que les trois étudient la même chose est donnée par la somme:

P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099

Ensuite, nous avons une probabilité de 21% que trois participants à la réunion, choisis au hasard, étudient la même chose.

Solution c

Ici, nous avons les valeurs suivantes:

N = 14 population totale d'amis, n = 6 nombre total de la population étudiant les sciences humaines, la taille de l'échantillon est m = 2.

L'espoir c'est:

E (x) = m * (n / N) = 2 * (6/14) = 0,8572

Et la variance:

σ (x) ^ 2 =  m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14-2) / (14 -1) =

= 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / (13 )  = 0,4521

Les références

  1. Distributions de probabilité discrètes. Récupéré de: biplot.usal.es
  2. Statistique et probabilité. Distribution hypergéométrique. Récupéré de: projectdescartes.org
  3. CDPYE-UGR. Distribution hypergéométrique. Récupéré de: ugr.es
  4. Geogebra. Géogèbre classique, calcul des probabilités. Récupéré de geogebra.org
  5. Essayez facilement. Résolution des problèmes de distribution hypergéométrique. Récupéré de: probafacil.com
  6. Minitab. Distribution hypergéométrique. Récupéré de: support.minitab.com
  7. Université de Vigo. Principales distributions discrètes. Récupéré de: anapg.webs.uvigo.es
  8. Vitutor. Statistiques et combinatoire. Récupéré de: vitutor.net
  9. Weisstein, Eric W. Distribution hypergéométrique. Récupéré de: mathworld.wolfram.com
  10. Wikipédia. Distribution hypergéométrique. Récupéré de: es.wikipedia.com

Personne n'a encore commenté ce post.