Page d'accueil
Statistiques
Exemples de données regroupées et exercice résolu

Exemples de données regroupées et exercice résolu

3152

417

Simon Doyle

Les données groupées sont ceux qui ont été classés en catégories ou classes, en prenant leur fréquence comme critère. Ceci est fait dans le but de simplifier le traitement de grandes quantités de données et d'établir ses tendances..

Une fois organisées en ces classes par leurs fréquences, les données constituent un distribution de fréquence, dont les informations utiles sont extraites à travers ses caractéristiques.

Figure 1. Avec les données groupées, des graphiques peuvent être construits et des paramètres statistiques qui décrivent les tendances peuvent être calculés. Source: Pixabay.

Voici un exemple simple de données groupées:

Supposons que la taille de 100 étudiantes, sélectionnées parmi tous les cours de physique de base d'une université, soit mesurée et que les résultats suivants soient obtenus:

Les résultats obtenus ont été divisés en 5 classes, qui apparaissent dans la colonne de gauche.

La première classe, entre 155 et 159 cm, compte 6 élèves, la deuxième classe 160-164 cm compte 14 élèves, la troisième classe de 165 à 169 cm a le plus grand nombre de membres: 47. Ensuite, la classe continue 170-174 cm avec 28 élèves et enfin le 175-174 cm avec seulement 5.

Le nombre de membres de chaque classe est précisément le la fréquence ou alors Fréquence absolue et en les ajoutant tous, le total des données est obtenu, qui dans cet exemple est de 100.

Index des articles

1 Caractéristiques de la distribution de fréquence
- 1.1 Fréquence
- 1.2 Limites
- 1.3 Frontières
- 1.4 Amplitude
- 1.5 Note de classe
2 Mesures de la tendance centrale et de la dispersion pour les données groupées
- 2,1 Moyenne
- 2,2 Médiane
- 2.3 Mode
- 2.4 Variance et écart type
3 Exercice résolu
- 3.1 Solution a
- 3.2 Solution b
- 3.3 Solution d
4 Références

Caractéristiques de la distribution de fréquence

La fréquence

Comme nous l'avons vu, la fréquence est le nombre de fois qu'une donnée est répétée. Et pour faciliter les calculs des propriétés de la distribution, telles que la moyenne et la variance, les grandeurs suivantes sont définies:

-Fréquence cumulative: il s'obtient en additionnant la fréquence d'une classe à la fréquence accumulée précédente. La première de toutes les fréquences correspond à celle de l'intervalle en question, et la dernière est le nombre total de données.

-Fréquence relative: calculé en divisant la fréquence absolue de chaque classe par le nombre total de données. Et si vous multipliez par 100, vous avez le pourcentage de fréquence relative.

-Fréquence relative cumulée: est la somme des fréquences relatives de chaque classe avec la précédente accumulée. La dernière des fréquences relatives cumulées doit être égale à 1.

Pour notre exemple, les fréquences ressemblent à ceci:

Limites

Les valeurs extrêmes de chaque classe ou intervalle sont appelées limites de classe. Comme nous pouvons le voir, chaque classe a une limite inférieure et une limite supérieure. Par exemple, la première classe de l'étude sur les hauteurs a une limite inférieure de 155 cm et une limite supérieure de 159 cm..

Cet exemple a des limites qui sont clairement définies, mais il est possible de définir des limites ouvertes: si au lieu de définir les valeurs exactes, disons "hauteur inférieure à 160 cm", "hauteur inférieure à 165 cm" et ainsi de suite.

Limites

La hauteur est une variable continue, on peut donc considérer que la première classe commence réellement à 154,5 cm, car arrondir cette valeur à l'entier le plus proche donne 155 cm.

Cette classe couvre toutes les valeurs jusqu'à 159,5 cm, car après cela, les hauteurs sont arrondies à 160,0 cm. Une hauteur de 159,7 cm appartient déjà à la classe suivante.

Les limites de classe réelles pour cet exemple sont, en cm:

154,5 - 159,5
159,5 - 164,5
164,5 - 169,5
169,5 - 174,5
174,5 - 179,5

Amplitude

La largeur d'une classe est obtenue en soustrayant les limites. Pour le premier intervalle de notre exemple, nous avons 159,5 - 154,5 cm = 5 cm.

Le lecteur peut vérifier que pour les autres intervalles de l'exemple, l'amplitude est également de 5 cm. Cependant, il convient de noter que les distributions peuvent être construites avec des intervalles d'amplitude différente.

Marque de classe

C'est le point médian de l'intervalle et est obtenu par la moyenne entre la limite supérieure et la limite inférieure.

Pour notre exemple, la première note de classe est (155 + 159) / 2 = 157 cm. Le lecteur peut voir que les notes de classe restantes sont: 162, 167, 172 et 177 cm.

La détermination des notes de classe est importante, car elles sont nécessaires pour trouver la moyenne arithmétique et la variance de la distribution.

Mesures de la tendance centrale et de la dispersion pour les données regroupées

Les mesures de tendance centrale les plus couramment utilisées sont la moyenne, la médiane et le mode, et elles décrivent précisément la tendance des données à se regrouper autour d'une certaine valeur centrale..

Moitié

C'est l'une des principales mesures de la tendance centrale. Dans les données groupées, la moyenne arithmétique peut être calculée à l'aide de la formule:

-X est la moyenne

-F_jeest la fréquence de la classe

-m_je est la marque de classe

-g est le nombre de classes

-n est le nombre total de données

Médian

Pour la médiane, il est nécessaire d'identifier l'intervalle où se trouve l'observation n / 2. Dans notre exemple, cette observation porte le numéro 50, car il y a un total de 100 points de données. Cette observation est comprise entre 165-169 cm.

Ensuite, vous devez interpoler pour trouver la valeur numérique qui correspond à cette observation, pour laquelle la formule est utilisée:

Où:

-c = largeur de l'intervalle où se trouve la médiane

-B_M = la borne inférieure de l'intervalle auquel appartient la médiane

-F_m = nombre d'observations contenues dans l'intervalle médian

-n / 2 = la moitié des données totales

-F_BM = nombre total d'observations avant que intervalle médian

mode

Pour le mode, la classe modale est identifiée, celle qui contient le plus d'observations, dont la marque de classe est connue.

Variance et écart type

La variance et l'écart type sont des mesures de dispersion. Si nous notons la variance avec s^deux et l'écart type, qui est la racine carrée de la variance en s, pour les données groupées que nous aurons respectivement:

Oui

Exercice résolu

Pour la répartition des tailles des étudiantes universitaires proposée au début, calculez les valeurs de:

a) Moyenne

b) Médiane

c) Mode

d) Variance et écart type.

Figure 2. Lorsqu'il s'agit d'un grand nombre de valeurs, telles que les hauteurs d'un grand groupe d'élèves, il est préférable de regrouper les données en classes. Source: Pixabay.

Solution pour

Construisons le tableau suivant pour faciliter les calculs:

Substituer des valeurs et effectuer la sommation directement:

X = (6 x 157 + 14 x 162 + 47 x 167 + 28 x 172+ 5 x 177) / 100 cm =

= 167,6 cm

Solution b

L'intervalle auquel appartient la médiane est de 165-169 cm car c'est l'intervalle avec la fréquence la plus élevée.

Identifions chacune de ces valeurs dans l'exemple, à l'aide du tableau 2:

c = 5 cm (voir la section amplitude)

B_M = 164,5 cm

F_m = 47

n / 2 = 100/2 = 50

F_BM = 20

Substituer dans la formule:

L'intervalle qui contient la plupart des observations est de 165-169 cm, dont la marque de classe est de 167 cm.

Solution d

Nous développons le tableau précédent en ajoutant deux colonnes supplémentaires:

Nous appliquons la formule:

Et nous développons la sommation:

s^deux = (6 x 112,36 + 14 x 31,36 + 47 x 0,36 + 28 x 19,36 + 5 x 88,36) / 99 = = 21,35 cm^deux

Donc:

s = √21,35 cm^deux = 4,6 cm

Les références

Berenson, M. 1985. Statistiques de gestion et d'économie. Interamericana S.A.
Canavos, G. 1988. Probabilité et statistiques: applications et méthodes. Mcgraw Hill.
Devore, J. 2012. Probabilité et statistiques pour l'ingénierie et la science. 8ème. Édition. Cengage.
Levin, R. 1988. Statistiques pour les administrateurs. 2ème. Édition. Prentice Hall.
Spiegel, M. 2009. Statistiques. Série Schaum. 4e Édition. Mcgraw Hill.
Walpole, R. 2007. Probabilité et statistiques pour l'ingénierie et les sciences. Pearson.