Explication, applications et exemples de la règle de Sturges

3134
Anthony Golden

La règle sturges c'est un critère utilisé pour déterminer le nombre de classes ou d'intervalles nécessaires pour représenter graphiquement un ensemble de données statistiques. Cette règle a été énoncée en 1926 par le mathématicien allemand Herbert Sturges.

Sturges a proposé une méthode simple, basée sur le nombre d'échantillons x qui nous permettrait de trouver le nombre de classes et leur largeur de plage. La règle de Sturges est largement utilisée, en particulier dans le domaine des statistiques, notamment pour construire des histogrammes de fréquence..

Index des articles

  • 1 Explication
  • 2 applications
  • 3 Exemple
  • 4 Références

Explication

La règle de Sturges est une méthode empirique largement utilisée dans les statistiques descriptives pour déterminer le nombre de classes qui doivent exister dans un histogramme de fréquence, afin de classer un ensemble de données représentant un échantillon ou une population..

En gros, cette règle détermine la largeur des conteneurs graphiques, des histogrammes de fréquence.

Pour établir sa règle, Herbert Sturges a considéré un diagramme de fréquence idéal, constitué de K intervalles, où le i-ème intervalle contient un certain nombre d'échantillons (i = 0,… k - 1), représentés par:

Ce nombre d'échantillons est donné par le nombre de façons dont un sous-ensemble d'un ensemble peut être extrait; c'est-à-dire par le coefficient binomial, exprimé comme suit:

Pour simplifier l'expression, il a appliqué les propriétés des logarithmes aux deux parties de l'équation:

Ainsi, Sturges a établi que le nombre optimal d'intervalles k est donné par l'expression:

Il peut également être exprimé comme:

Dans cette expression:

- k est le nombre de classes.

- N est le nombre total d'observations dans l'échantillon.

- Log est le logarithme commun de la base 10.

Par exemple, pour construire un histogramme de fréquence exprimant un échantillon aléatoire de la taille de 142 enfants, le nombre d'intervalles ou de classes que la distribution aura est:

k = 1 + 3 322 * Journaldix (N)

k = 1 + 3 322* bûche (142)

k = 1 + 3 322* 2,1523

k = 8,14 ≈ 8

Ainsi, la distribution sera à 8 intervalles.

Le nombre d'intervalles doit toujours être représenté par des nombres entiers. Dans les cas où la valeur est décimale, une approximation doit être faite au nombre entier le plus proche.

Applications

La règle de Sturges est appliquée principalement en statistique, car elle permet une distribution de fréquence à travers le calcul du nombre de classes (k), ainsi que la longueur de chacune d'elles, également appelée amplitude..

L'amplitude est la différence de la limite supérieure et inférieure de la classe, divisée par le nombre de classes, et s'exprime:

Il existe de nombreuses règles empiriques qui vous permettent de faire une distribution de fréquence. Cependant, la règle de Sturges est couramment utilisée car elle se rapproche du nombre de classes, qui varie généralement de 5 à 15..

Ainsi, il considère une valeur qui représente adéquatement un échantillon ou une population; autrement dit, l'approximation ne représente pas des groupements extrêmes, ni ne fonctionne avec un nombre excessif de classes qui ne permettent pas de résumer l'échantillon..

Exemple

Un histogramme de fréquence doit être fait en fonction des données fournies, qui correspondent aux âges obtenus dans une enquête auprès d'hommes qui exercent dans un gymnase local..

Pour déterminer les intervalles, il faut connaître la taille de l'échantillon ou le nombre d'observations; dans ce cas, vous avez 30.

Ensuite, la règle Sturges s'applique:

k = 1 + 3 322 * Journaldix (N)

k = 1 + 3 322* bûche (30)

k = 1 + 3 322* 1,4771

k = 5,90 ≈ 6 intervalles.

A partir du nombre d'intervalles, l'amplitude que ceux-ci vont avoir peut être calculée; c'est-à-dire la largeur de chaque barre représentée dans l'histogramme de fréquence:

La limite inférieure est considérée comme la plus petite valeur des données et la limite supérieure est la plus grande valeur. La différence entre les limites supérieure et inférieure est appelée plage ou plage de la variable (R).

D'après le tableau, nous avons que la limite supérieure est 46 et la limite inférieure est 13; de cette façon, l'amplitude de chaque classe sera:

Les intervalles seront constitués d'une limite supérieure et inférieure. Pour déterminer ces intervalles, on commence par compter à partir de la limite inférieure, en y ajoutant l'amplitude déterminée par la règle (6), comme suit:

Ensuite, la fréquence absolue est calculée pour déterminer le nombre d'hommes correspondant à chaque intervalle; dans ce cas c'est:

- Intervalle 1:13 - 18 = 9

- Intervalle 2:19 - 24 = 9

- Intervalle 3:25 - 30 = 5

- Intervalle 4:31 - 36 = 2

- Intervalle 5:37 - 42 = 2

- Gamme 6:43 - 48 = 3

Lors de l'addition de la fréquence absolue de chaque classe, celle-ci doit être égale au nombre total de l'échantillon; dans ce cas, 30.

Par la suite, la fréquence relative de chaque intervalle est calculée, en divisant sa fréquence absolue par le nombre total d'observations:

- Intervalle 1: fi = 9 ÷ 30 = 0,30

- Intervalle 2: fi = 9 ÷ 30 = 0,30

- Intervalle 3: fi = 5 ÷ 30 = 0,1666

- Intervalle 4: fi = 2 ÷ 30 = 0,0666

- Intervalle 5: fi = 2 ÷ 30 = 0,0666

- Intervalle 4: fi = 3 ÷ 30 = 0,10

Ensuite, vous pouvez créer un tableau qui reflète les données, ainsi que le diagramme de la fréquence relative par rapport aux intervalles obtenus, comme on peut le voir dans les images suivantes:

De cette manière, la règle de Sturges permet de déterminer le nombre de classes ou d'intervalles dans lesquels un échantillon peut être divisé, afin de résumer un échantillon de données par l'élaboration de tableaux et de graphiques..

Les références

  1. Alfonso Urquía, M. V. (2013). Modélisation et simulation d'événements discrets. UNED,.
  2. Altman Naomi, M. K. (2015). «Régression linéaire simple». Méthodes de la nature .
  3. Antúnez, R. J. (2014). Statistiques sur l'éducation. UNITÉ numérique.
  4. Fox, J. (1997.). Analyse de régression appliquée, modèles linéaires et méthodes associées. Publications SAGE.
  5. Humberto Llinás Solano, C. R. (2005). Statistiques descriptives et distributions de probabilité. Université du Nord.
  6. Panteleeva, O. V. (2005). Fondamentaux de la probabilité et des statistiques.
  7. O. Kuehl, M. O. (2001). Conception des expériences: principes statistiques de la conception et de l'analyse de la recherche. Éditeurs Thomson.

Personne n'a encore commenté ce post.