Coefficients de détermination, formules, calcul, interprétation, exemples

4657
Basil Manning
Coefficients de détermination, formules, calcul, interprétation, exemples

le coefficient de détermination est un nombre compris entre 0 et 1 qui représente la fraction de points (X, Y) qui suivent la droite de régression d'ajustement d'un ensemble de données à deux variables.

Il est également connu sous le nom de qualité de l'ajustement et est noté Rdeux. Pour le calculer, on prend le quotient entre la variance des données Ŷi estimée par le modèle de régression et la variance des données Yi correspondant à chaque Xi des données.

Rdeux = Sŷ / Sy

Figure 1. Coefficient de corrélation pour quatre paires de données. Source: F. Zapata.

Si 100% des données sont sur la ligne de la fonction de régression, alors le coefficient de détermination sera 1.

Au contraire, si pour un ensemble de données et une certaine fonction d'ajustement le coefficient Rdeux s'avère être égal à 0,5, alors on peut dire que l'ajustement est satisfaisant ou bon à 50%. 

De même, lorsque le modèle de régression renvoie les valeurs de Rdeux inférieur à 0,5, cela indique que la fonction de réglage choisie ne s'adapte pas de manière satisfaisante aux données, il est donc nécessaire de rechercher une autre fonction de réglage.

Et quand le covariance ou la Coefficient de corrélation tend vers zéro, alors les variables X et Y dans les données ne sont pas liées, et donc Rdeux aura également tendance à zéro.

Index des articles

  • 1 Comment calculer le coefficient de détermination?
    • 1.1 Cas illustratif
  • 2 Interprétation
  • 3 exemples
    • 3.1 - Exemple 1
    • 3.2 - Exemple 2
    • 3.3 - Exemple 3
    • 3.4 Comparaison d'ajustement
    • 3.5 Conclusions
  • 4 Références

Comment calculer le coefficient de détermination?

Dans la section précédente, il a été dit que le coefficient de détermination est calculé en trouvant le quotient entre les variances:

-Estimé par la fonction de régression de la variable Y 

-Celle de la variable Yi correspondant à chacune des variables Xi des N paires de données. 

Dit mathématiquement, cela ressemble à ceci:

Rdeux = Sŷ / Sy

De cette formule, il s'ensuit que Rdeux représente la proportion de variance expliquée par le modèle de régression. Alternativement, R peut être calculédeux en utilisant la formule suivante, totalement équivalente à la précédente:

Rdeux = 1 - (Sε / Sy)

Où Sε représente la variance des résidus εi = Ŷi - Yi, tandis que Sy est la variance de l'ensemble des valeurs Yi des données. Pour déterminer Ŷi, la fonction de régression est appliquée, ce qui signifie affirmer que Ŷi = f (Xi).

La variance de l'ensemble de données Yi, avec i de 1 à N, est calculée comme suit:

Sy = [Σ (Yi - )deux ) / (N-1)]

Et puis procéder de la même manière pour Sŷ ou pour Sε.

Cas illustratif

Afin de montrer le détail de la façon dont le calcul du coefficient de détermination nous prendrons l'ensemble suivant de quatre paires de données: 

(X, Y): (1, 1); (2,3); (3, 6) et (4, 7).

Un ajustement de régression linéaire est proposé pour cet ensemble de données, qui est obtenu à l'aide de la méthode des moindres carrés:

f (x) = 2,1 x - 1 

En appliquant cette fonction de réglage, les couples sont obtenus:

(X, Ŷ): (1, 1,1); (2, 3,2); (3, 5.3) et (4, 7.4).

Ensuite, nous calculons la moyenne arithmétique pour X et Y:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Variance Sy

Sy = [(1 - 4,25)deux + (3 - 4,25)deux + (6 - 4,25)deux +….…. (7 - 4.25)deux] / (4-1) =

= [(-3,25)deux+ (-1,25)deux + (1,75)deux + (2,75)deux) / (3)] = 7 583

Variance Sŷ

Sŷ = [(1,1 - 4,25)deux + (3,2 - 4,25)deux + (5,3 - 4,25)deux +….…. (7.4 - 4.25)deux] / (4-1) =

= [(-3,25)deux + (-1,25)deux + (1,75)deux + (2,75)deux) / (3)] = 7,35

Coefficient de détermination Rdeux

Rdeux = Sŷ / Sy = 7,35 / 7,58 = 0,97

Interprétation

Le coefficient de détermination pour le cas illustratif considéré dans le segment précédent s'est avéré être de 0,98. En d'autres termes, l'ajustement linéaire via la fonction:

 f (x) = 2,1x - 1

Il est fiable à 98% pour expliquer les données avec lesquelles il a été obtenu en utilisant la méthode des moindres carrés.. 

En plus du coefficient de détermination, il y a le coefficient de corrélation linéaire ou également connu sous le nom de coefficient de Pearson. Ce coefficient, noté r, est calculé par la relation suivante:

r = Sxy / (Sx Sy)

Ici, le numérateur représente la covariance entre les variables X et Y, tandis que le dénominateur est le produit de l'écart type de la variable X et de l'écart type de la variable Y.

Le coefficient de Pearson peut prendre des valeurs comprises entre -1 et +1. Lorsque ce coefficient tend vers +1, il existe une corrélation linéaire directe entre X et Y. S'il tend vers -1 à la place, il y a une corrélation linéaire mais lorsque X augmente Y diminue. Enfin, il est proche de 0 il n'y a pas de corrélation entre les deux variables.

Il convient de noter que le coefficient de détermination coïncide avec le carré du coefficient de Pearson, uniquement lorsque le premier a été calculé sur la base d'un ajustement linéaire, mais cette égalité n'est pas valable pour les autres raccords non linéaires..

Exemples

- Exemple 1

Un groupe d'élèves du secondaire a entrepris de déterminer une loi empirique pour la période d'un pendule en fonction de sa longueur. Pour atteindre cet objectif, ils effectuent une série de mesures dans lesquelles ils mesurent le temps d'une oscillation du pendule pour différentes longueurs en obtenant les valeurs suivantes:

Longueur (m) Période (s)
0,1 0,6
0,4 1,31
0,7 1,78
1 1,93
1,3 2.19
1,6 2,66
1,9 2,77
3 3,62

Il est demandé de faire un nuage de points des données et d'effectuer un ajustement linéaire par régression. Montrez également l'équation de régression et son coefficient de détermination.

Solution

Figure 2. Graphique de la solution pour l'exercice 1. Source: F. Zapata.

Un coefficient de détermination assez élevé peut être observé (95%), on pourrait donc penser que l'ajustement linéaire est optimal. Cependant, si les points sont visualisés ensemble, il apparaît qu'ils ont tendance à se courber vers le bas. Ce détail n'est pas envisagé dans le modèle linéaire.

- Exemple 2

Pour les mêmes données dans l'exemple 1, créez un nuage de points des données. A cette occasion, contrairement à l'exemple 1, un ajustement de régression est demandé à l'aide d'une fonction potentielle.

Figure 3. Graphique de la solution pour l'exercice 2. Source: F. Zapata.

Afficher également la fonction d'ajustement et son coefficient de détermination Rdeux.

Solution

La fonction potentielle est de la forme f (x) = AxB, où A et B sont des constantes déterminées par la méthode des moindres carrés.

La figure précédente montre la fonction potentielle et ses paramètres, ainsi que le coefficient de détermination avec une valeur très élevée de 99%. Notez que les données suivent la courbure de la ligne de tendance.

- Exemple 3

En utilisant les mêmes données de l'exemple 1 et de l'exemple 2, effectuez un ajustement polynomial du second degré. Afficher le graphique, le polynôme d'ajustement et le coefficient de détermination Rdeux correspondant.

Solution

Figure 4. Graphique de la solution pour l'exercice 3. Source: F. Zapata.

Avec l'ajustement polynomial du deuxième degré, vous pouvez voir une ligne de tendance qui s'adapte bien à la courbure des données. De plus, le coefficient de détermination est supérieur à l'ajustement linéaire et inférieur à l'ajustement potentiel..

Comparaison d'ajustement

Parmi les trois ajustements illustrés, celui avec le coefficient de détermination le plus élevé est l'ajustement potentiel (exemple 2).

L'ajustement potentiel coïncide avec la théorie physique du pendule, qui, comme on le sait, établit que la période d'un pendule est proportionnelle à la racine carrée de sa longueur, la constante de proportionnalité étant 2π / √g où g est l'accélération de la gravité.

Ce type d'ajustement de potentiel a non seulement le coefficient de détermination le plus élevé, mais l'exposant et la constante de proportionnalité correspondent au modèle physique.. 

Conclusions

-L'ajustement de régression détermine les paramètres de la fonction destinée à expliquer les données à l'aide de la méthode des moindres carrés. Cette méthode consiste à minimiser la somme de la différence au carré entre la valeur Y de réglage et la valeur Yi des données pour les valeurs Xi des données. Ceci détermine les paramètres de la fonction de réglage.

-Comme nous l'avons vu, la fonction d'ajustement la plus courante est la ligne, mais ce n'est pas la seule, car les ajustements peuvent également être polynomiaux, potentiels, exponentiels, logarithmiques et autres.. 

-Dans tous les cas, le coefficient de détermination dépend des données et du type d'ajustement et est une indication de la qualité de l'ajustement appliqué..

-Enfin, le coefficient de détermination indique le pourcentage de variabilité totale entre la valeur Y des données par rapport à la valeur Ŷ de l'ajustement pour le X donné.

Les références

  1. González C. Statistiques générales. Récupéré de: tarwi.lamolina.edu.pe
  2. IACS. Institut aragonais des sciences de la santé. Récupéré de: ics-aragon.com
  3. Salazar C. et Castillo S. Principes de base de la statistique. (2018). Récupéré de: dspace.uce.edu.ec
  4. Superprof. Coefficient de détermination. Récupéré de: superprof.es
  5. USAC. Manuel de statistiques descriptives. (2011). Récupéré de: statistics.ingenieria.usac.edu.gt.
  6. Wikipédia. Coefficient de détermination. Récupéré de: es.wikipedia.com.

Personne n'a encore commenté ce post.