le double échantillonnage est une technique utilisée dans les statistiques inférentielles lorsque vous souhaitez connaître plus de détails et de certitude sur une variable particulière, qui caractérise une certaine population.
Le deuxième échantillon de population est généralement effectué après qu'un premier échantillon a été prélevé et analysé, dont l'analyse n'a pas abouti à une conclusion statistiquement significative sur aucune des variables de l'étude..
Pour cette raison, le double échantillonnage dans Statistics est également appelé échantillonnage en deux étapes. L'utilité du deuxième échantillon est qu'il aide à déterminer avec plus de précision l'estimation des ratios et des régressions d'une certaine variable auxiliaire, qui se pose à la lumière de l'analyse d'un premier échantillon..
Un autre usage qui est donné au double échantillonnage est de collecter des informations pour réaliser un échantillonnage par strates..
Diverses situations où un double échantillonnage est justifié seront décrites ci-dessous..
La méthode du double échantillonnage est fréquemment utilisée dans le contrôle de la qualité industrielle et se fait généralement en deux phases..
Par exemple, supposons une machine industrielle qui fabrique certaines pièces. Quel que soit le réglage de la machine, aucune pièce n'est identique à une autre, car de petites variations peuvent se produire dans ses dimensions et son poids. Il s'agit de déterminer si un lot de pièces fabriquées par ladite machine répond aux critères de tolérance pour être accepté ou rejeté..
Tout d'abord, un échantillon aléatoire de pièces est prélevé avec lequel vous souhaitez vérifier si l'une des variables, par exemple, la longueur de la pièce, est dans la tolérance.
Dans le cas où la longueur moyenne est inférieure ou supérieure au degré de tolérance souhaité pour ladite variable, dans ce premier échantillon, alors on en déduit que le lot est défectueux et il doit être jeté. Dans ce cas, aucun nouvel échantillon n'est requis.
Inversement, si la valeur moyenne se situe dans la plage de tolérance, mais que l'écart type de l'échantillon est suffisamment grand pour que l'addition ou la soustraction de la valeur moyenne tombe en dehors de la plage, un deuxième échantillon plus grand devra être collecté..
Ce deuxième échantillon doit inclure l'échantillon original pour refaire les calculs et ainsi pouvoir prendre une décision finale concernant la variable étudiée. De cette façon, on peut savoir si le lot est défectueux ou non.
Dans de nombreuses occasions, les informations sur l'une des variables à étudier sont difficiles d'accès. Mais il peut y avoir une variable auxiliaire plus facilement pour la collecte de données.
Dans ce cas, deux échantillons sont prélevés, un grand pour la variable auxiliaire, moins coûteux, et un échantillon plus petit, contenu dans l'échantillon le plus grand de la variable la plus chère..
Cette méthode est applicable chaque fois qu'il est déterminé qu'il existe une corrélation entre les deux variables, qui est généralement une relation proportionnelle..
Un exemple de cette situation apparaît en sciences forestières, où l'on souhaite déterminer le pourcentage d'arbres affectés par une plante parasite (teigne).
Comme il s'agit de régions très étendues et difficiles d'accès, l'étude de la population complète d'arbres n'est pas réalisable en temps et en coûts. Ces étapes sont ensuite suivies:
Un échantillonnage préliminaire consisterait à utiliser la photographie aérienne et la forêt est subdivisée en lots. A partir de là, quelques lots sont choisis au hasard et on estime, en analysant les images des lots choisis, combien d'arbres sont affectés par la teigne, puisque la couleur des arbres est affectée par le parasite..
Mais l'analyse photographique peut être imprécise, de sorte que quelques lots du premier échantillon sont choisis, de préférence au hasard, pour effectuer le travail sur le terrain..
Le résultat de terrain est alors comparé au résultat photographique pour l'interception des deux jeux de lots. Cette comparaison peut être réalisée, par exemple, en réalisant un graphique dans lequel l'axe horizontal est la valeur obtenue pour chaque lot par photographie et sur l'axe vertical la valeur obtenue par lot grâce au travail de terrain..
Cette méthode graphique permet d'identifier visuellement s'il existe ou non une corrélation entre les deux résultats et de déterminer, par une analyse de régression, le coefficient de proportionnalité ou le rapport entre les deux échantillons..
Après le plus grand échantillon, c'est-à-dire l'échantillon photographique, la valeur moyenne des arbres infectés et leur écart type sont prélevés. Mais comme le coefficient de proportionnalité et son erreur avec les échantillons de terrain ont été déterminés, il est alors possible de corriger le résultat de l'échantillon le plus grand (celui photographique).
Ce résultat peut ensuite être extrapolé à l'ensemble de la population d'arbres.
Dans les exemples décrits, l'avantage de coût est évident, car le remplacement d'une variable facilement accessible par une autre difficile d'accès permet d'économiser du temps et de l'argent..
Un inconvénient est que, dans le cas d'un double échantillonnage pour le contrôle qualité, il y a un risque de passer par de bons lots de produits hors tolérance..
Nous voulons estimer le nombre d'arbres malades dans une forêt de 162 hectares. La forêt étant très étendue, elle est subdivisée en 100 parcelles de la même superficie. 18 parcelles sont choisies au hasard et au moyen d'une étude photographique, on estime que dans ces 18 parcelles il y a 8,5 arbres malades avec une erreur standard de plus ou moins 4,5 arbres.
Sur ces 18 parcelles, 8 parcelles sont choisies au hasard dans lesquelles l'étude de terrain est réalisée. Pour ces huit parcelles, l'étude photographique montre 10 arbres malades avec une erreur de plus ou moins 5,3 arbres..
Par contre, pour ces huit mêmes parcelles, l'étude de terrain montre 12,4 arbres malades avec une erreur de plus moins 6,3 arbres..
On demande:
Un graphique est fait du nombre d'arbres par dénombrement photographique par rapport au dénombrement sur le terrain pour les huit lots sélectionnés pour les deux études..
Une ligne de tendance est ajustée et sa pente déterminée. Dans ce cas, on obtient que le coefficient de proportionnalité est de 1,23. Autrement dit, si X est le nombre par comptage photographique, alors on estime que le nombre de champs sera Y = 1,23 X.
Le nombre d'arbres malades selon le décompte photographique dans les 18 lots sélectionnés sera:
18 x 8,5 = 153
Mais comme toute la forêt a été divisée en 100 parcelles de la même superficie, le nombre d'arbres malades estimé par la méthode photographique est: (100/18) x 153 = 850.
Le facteur de correction obtenu à partir de la comparaison entre le terrain et l'étude photographique est maintenant appliqué:
Nombre réel estimé d'arbres malades dans la forêt = 1,23 x 850 = 1046.
Personne n'a encore commenté ce post.