BASE BASE -  volume 9 (2005)  numéro 1 

Conséquences de la sélection de variables sur l’interprétation des résultats en régression linéaire multiple

Arcadius Yves Justin Akossou
Unité de Statistique et Informatique. Faculté universitaire des Sciences agronomiques de Gembloux. Avenue de la Faculté d’Agronomie, 8. B-5030 Gembloux (Belgique).
Rodolphe Palm
Unité de Statistique et Informatique. Faculté universitaire des Sciences agronomiques de Gembloux. Avenue de la Faculté d’Agronomie, 8. B-5030 Gembloux (Belgique). E-mail : palm.r@fsagx.ac.be
Notes de la rédaction :

Reçu le 30 mars 2004, accepté le 14 juillet 2004

Résumé

La sélection de variables, a priori ou a posteriori, est une pratique très courante en régression multiple. L’utilisateur n’est cependant pas toujours conscient des conséquences sur les résultats qu’induit cette sélection. Dans cette note, les notions de biais d’omission et de biais de sélection des variables sont illustrées à partir d’un exemple simulé. Les conséquences de la sélection des variables sur l’estimation des paramètres et sur les prédictions sont ensuite examinées. L’attention de l’utilisateur est attirée sur les risques d’interprétation abusive des coefficients de régression, particulièrement après sélection de variables. Par contre, les conséquences de la sélection des variables sur la qualité des valeurs prédites de la variable à expliquer sont assez limitées, du moins pour l’exemple examiné.

Mots-clés : biais de sélection, biais d’omission, méthode statistique, régression, sélection de variables, simulation

Abstract

Consequences of variable selection on the interpretation of the results in multiple linear regression

A priori or a posteriori variable selection is a common practise in multiple linear regression. The user is however not always aware of the consequences on the results due to this variable selection. In this note, the presence of omission bias and selection bias is explained by means of a Monte Carlo experiment. The consequences of variable selection on the regression coefficients and on the predicted values are then analysed. The user’s attention is drawn to the risk of misinterpretation of the regression coefficients, specially after variable selection. On the other hand, the consequences of variable selection on the predicted values of the response variable are rather limited, at least for the given example.

Keywords : omission bias, regression, selection bias, simulation, statistical method, variable selection

Pour citer cet article

Arcadius Yves Justin Akossou & Rodolphe Palm, «Conséquences de la sélection de variables sur l’interprétation des résultats en régression linéaire multiple», BASE [En ligne], volume 9 (2005), numéro 1, 11-18 URL : https://popups.uliege.be/1780-4507/index.php?id=13847.