Chapitre 1 Régressions linéaires

1.1 Moindres Carrés Ordinaires - hypothèses

\[Y_i = \beta_0 + \beta_iX_i + \epsilon_i\] pour \(i = 1,...,n\)

\(Y_i\) est la variable dépendante, selon l’observation \(i\).
\(\beta_0\) est le point à l’origine/l’intercept.
\(\beta_i\) est le coefficient de la variable explicative \(X_i\).
\(\epsilon_i\) est l’erreur-type/le résidu, propre à l’individu \(i\).

Le modèle de régression linéaire est estimé à partir de la méthode des Moindres Carrés Ordinaires (MCO). Cette méthode consiste à minimiser la somme des carrés des écarts⁵, écarts pondérés dans le cas multidimensionnel, entre chaque point du nuage de régression et son projeté, parallèlement à l’axe des ordonnées, sur la droite de régression qui traverse le mieux les points. On estime les paramètres \(\beta_i\) de telle sorte que la somme des résidus \(\Sigma_i\epsilon_i^2\) soit minimale (donc on cherche à réduire la place du hasard dans notre modèle).

Important pour les cours suivants – les MCO suivent 6 hypothèses:

Linéarité des paramètres (relation linéaire entre \(Y\) et \(X\), \(Y\) variable continue).
Absence d’autocorrélation des variables explicatives (il ne faut pas qu’une variable soit le multiple d’une autre, autrement les logiciels d’analyse les confondent et c’est pas top).
Homoscédasticité des erreurs-types (la variance des erreur-types est la même pour toutes les observations).
Absence d’autocorrélation des résidus (les résidus sont indépendants les uns des autres. Sinon voudrait dire que les observations sont corrélées entre elles).
Normalité des résidus (moyenne des résidus égale à 0, indique que les résidus sont aléatoirement distribués).
Absence de corrélation entre les variables explicatives et le résidu dans le modèle théorique (autrement, risque de sur/sous-estimation du coefficient de la variable explicative).

La violation d’une ou plusieurs de ces hypothèses implique un changement de variables, ou l’utilisation d’un différent modèle de régression.

1.2 Régressions linéaires simple et multiple

La régression linéaire prend comme variable dépendante/à expliquer (\(var\_dep\)) une variable quantitative continue, telle que la température, le PIB, la distance…les variables explicatives/indépendantes peuvent être quantitatives ou qualitatives.

Tu lis les coefficients de la régression de la manière suivante : “toutes choses égales par ailleurs, pour une unité de \(x_i\) (\(var\_indep\)) en plus, \(y_i\) (\(var\_dep\)) augmente/diminue de \(\beta_i\) (le coefficient)” ou bien “toutes choses égales par ailleurs, pour un changement de catégorie de \(x\), \(y\) augmente/diminue de {coefficient}”.

# régression linéaire simple (une seule var indep)
model_1 <- lm(var_dep ~ var_indep, data = d)
summary(model_1) # pour observer le modèle (coefficients, p.value [Pr(>|z|)], deviance, etc.)
model_1$coefficients # pour afficher les coefficients seulement

# pour visualiser la régression
plot(d$var_dep, d$var_indep)
abline(model_1)

On interprète les coefficients statistiquement significatifs (avec des petites étoiles) : un coefficient statistiquement significatif veut dire qu’on peut rejeter l’hypothèse que la variable explicative n’influence pas la variable à expliquer. Toutefois ça peut être intéressant de dire “je suis surpris.e que cette variable n’est pas d’effet, ce qui va à l’encontre de mon hypothèse/de la littérature, blabla.”

Il est rare/impossible qu’une seule variable en explique une autre, on a plus souvent recourt à la régression linéaire multiple.

# régression linéaire multiple (plusieurs var indeps) sans interaction
model_2 <- lm(var_dep ~ var_indep1 + var_indep2 + var_indep3, data = d)
# si on souhaite obtenir un modèle pondéré
model_3 <- lm(var_dep ~ var_indep1 + var_indep2 + var_indep3, data = d, weights = poids)
# on peut aussi "mettre à jour" le modèle 2
model_3 <- update(model_2, weights=poids)

# régression linéaire multiple avec interaction
model_4 <- lm(var_dep ~ var_indep1 + var_indep2 + var_indep3 + var_indep1*var_indep2, data = d, weights = poids)
# ou
model_4 <- update(model_3, . ~ . + var_indep1*var_indep2)

Le coefficient d’interaction s’additionne aux coefficients de base des catégories qui correspondent à ce nouveau coef.

Par exemple, on interagit le PIB avec le taux de natalité. Tu obtiens les résultats suivants :

\(\beta_1\) le coefficient du PIB;
\(\beta_2\) le coefficient du taux de natalité;
\(\beta_3\) le coefficient de l’interaction entre les deux variables.

Pour obtenir le vrai effet du PIB et du taux de natalité sur la \(var\_dep\), tu additionnes ces trois coefficients.

1.3 Régression linéaire de probabilité

Pas correct, please disregard. Je corrige ça un jour.

Note KF: voir ici pour compléter cette partie.

Cependant en sociologie, il est rare d’avoir une variable continue à expliquer. On a généralement des variables catégorielles (qui peuvent être une variable quanti transformée en variable quali). Le modèle de régression linéaire ne fonctionne plus dans ce cas, on se tourne vers le modèle de régression linéaire de probabilité qui prend comme variable dépendante une variable dichotomique⁶.

La ligne R reste la même, seule la nature de la \(var\_dep\) change.
Tu lis le coefficient de cette manière : “toutes choses égales par ailleurs, pour une unité de plus/pour un changement de catégorie de \(x\), la probabilité que l’évènement \(y=1\) se passe augmente (resp. diminue)⁷.”

# régression linéaire de probabilité
model_5 <- lm(var_dep_dicho ~ var_indep1 + var_indep2 + var_indep3, data = d, weights = poids)

Écart par rapport à la ligne de régression. On a un nuage de point et une droite qui traverse ces points. La plupart des points ne seront pas sur la droite: la distance entre la droite et le point est le résidu.↩︎
Du coup on viole la première hypothèse des MCO sur la linéarité des paramètres.↩︎
Je suis pas sûre de la lecture exacte du coefficient, mais en gros ça fonctionne comme ça.↩︎