Régression linéaire multiple

Dans le domaine de la mesure, il est fréquent de modéliser les corrections d'étalonnage de l'instrument de mesure utilisé au moyen d'une droite des moindres carrés. Dans ce cas, la correction d'étalonnage est déterminée à partir de la valeur de la grandeur indiquée directement par l'instrument de mesure. Ceci étant, la correction d'étalonnage dépend très souvent de plusieurs grandeurs, et quelques fois cette dépendance multiple ne peut pas être négligée. Prenons par exemple le cas d'un hygromètre capacitif. Pour ce type d'appareil, la correction d'étalonnage c_w dépendra évidemment de l'humidité relative U_w — la grandeur mesurée — mais également de la température ambiante θ_s et dans une moindre mesure de la pression ambiante P. En d'autres termes, la fonction la plus simple qui permettra de modéliser la correction sera de la forme :

avec a₀, a₁, a₂ et a₃ des nombres réels que l'on va chercher à déterminer au mieux dans les lignes qui suivent. Dans cet exemple, on détermine la valeur de la correction à partir de l'humidité relative, la température et la pression : ainsi c_w, est appelée couramment variable expliquée ; U_w, θ_s et P sont appelées des variables explicatives.

Soit \( \mathscr{L} \) l'ensemble des variables aléatoires réelles de carré intégrable définies sur un espace probabilisé \( (U,~\mathscr{A},~\mathbb{P}) \). On prend comme variable expliquée le vecteur colonne aléatoire Y dont la k^e composante est la variable aléatoire réelle Y_k. On considère la matrice des variables explicatives (X¹, ..., X^p) dans laquelle Xⁱ i ∈ [1, p] est un vecteur colonne dont la k^e composante est la variable aléatoire réelle \( X_{\text{k}}^{\text{i}} \). On note \( \mathbb{1} \) la variable aléatoire certaine toujours égale à 1. Par définition, la régression linéaire de la variable aléatoire Y par les variables aléatoires X₁, ..., X_p est la projection de Y sur le sous-espace \( \mathscr{F} \) engendré par le système \( \{\mathbb{1},~X_{1}~\ldots~X_{\text{p}} \} \) dans \( [\mathscr{L}^{2} (U)]^{\text{n}} \).

on montre, en supposant que le système \( \{\mathbb{1},~X_{1}~\ldots~X_{\text{p}} \} \) est libre, que la projection de Y sur \( \mathscr{F} \) (cf. figure 1) s'exprime :

Note : la démonstration géométrique de cette formule est similaire à celle effectuée dans la référence [1].

En définitive, le vecteur \( \hat{\beta} \) donnera les coefficients de la régression multiple comme celle de la formule (1) qui s'exprime de manière générale :

Les calculs à effectuer étant fastidieux, le logiciel RLM permet d'automatiser la régression linéaire multiple. Ce logiciel comporte une interface extrêmement simple représentée sur la figure 2.

Les données sont saisies dans un tableau : la première colonne (sur fond bleu) contient la variable expliquée et les autres colonnes contiennent les variables explicatives. Les calculs sont effectuées via le menu 'Projet'. Les résultats sont affichés sur la partie inférieur de l'écran :
- polynôme ;
- coefficients du polynôme ;
- résidus minimum et maximum ;
- moyenne quadratique des résidus.

Les résultats peuvent être récupérés pour d'autres applications (tableur par exemple) par copier / coller.

Supposons que l'on veuille étudier la relation entre les caractères physiques de la population, et plus précisément qu l'on souhaite déterminer la taille d'un individu à partir d'autres caractéristiques morphologiques de l'individu et de ses parents. Pour cela on utilise les données du tableau 1 qui donne la taille TAI, le poids PDS et la pointure PNT d'un groupe de jeunes appelés au service national. Le tableau donne pour chaque individu les mêmes caractéristiques de sont père et de sa mère : TAP et TAM pour les tailles du père et de la mère ; PDP et PDM pour les masses ; PTP et PTM pour les pointures.

TAI	PDS	PNT	TAP	PDP	PTP	TAM	PDM	PTM
184 cm	73 kg	42	180 cm	85 kg	45	164 cm	55 kg	37
175 cm	62 kg	43	170 cm	70 kg	41	159 cm	54 kg	39
189 cm	76 kg	45	171 cm	65 kg	42	170 cm	68 kg	41
173 cm	73 kg	44	167 cm	67 kg	39	156 cm	63 kg	37
169 cm	62 kg	41	166 cm	80 kg	44	161 cm	58 kg	39
175 cm	68 kg	42	170 cm	64 kg	41	165 cm	63 kg	39
164 cm	64 kg	40	163 cm	58 kg	39	162 cm	54 kg	37
190 cm	85 kg	43	180 cm	82 kg	44	168 cm	62 kg	37
174 cm	55 kg	41	171 cm	71 kg	44	154 cm	50 kg	38
184 cm	74 kg	43	182 cm	85 kg	44	169 cm	68 kg	40
168 cm	56 kg	41	167 cm	70 kg	41	155 cm	45 kg	36
179 cm	64 kg	41	171 cm	62 kg	40	164 cm	67 kg	37
174 cm	65 kg	40	155 cm	57 kg	39	156 cm	60 kg	38
163 cm	58 kg	41	163 cm	65 kg	41	160 cm	60 kg	38
172 cm	53 kg	41	160 cm	65 kg	39	153 cm	53 kg	36
176 cm	61 kg	42	174 cm	72 kg	42	154 cm	53 kg	37
190 cm	85 kg	45	174 cm	65 kg	41	163 cm	62 kg	39
172 cm	56 kg	41	169 cm	70 kg	42	150 cm	43 kg	36
178 cm	68 kg	42	180 cm	70 kg	42	157 cm	40 kg	36
173 cm	65 kg	42	182 cm	78 kg	44	166 cm	58 kg	37
175 cm	67 kg	42	170 cm	75 kg	43	163 cm	50 kg	37
168 cm	64 kg	41	170 cm	78 kg	41	162 cm	58 kg	38
180 cm	66 kg	44	170 cm	78 kg	42	165 cm	65 kg	39
175 cm	65 kg	40	162 cm	64 kg	40	163 cm	60 kg	38
184 cm	75 kg	43	165 cm	65 kg	41	162 cm	55 kg	38
181 cm	75 kg	43	173 cm	76 kg	43	159 cm	49 kg	38
169 cm	60 kg	40	161 cm	64 kg	40	155 cm	55 kg	37
174 cm	65 kg	43	175 cm	80 kg	44	166 cm	72 kg	38
175 cm	66 kg	44	172 cm	70 kg	42	160 cm	55 kg	39
175 cm	60 kg	42	176 cm	80 kg	44	160 cm	55 kg	37
180 cm	60 kg	41	176 cm	80 kg	41	158 cm	45 kg	36
172 cm	58 kg	41	168 cm	66 kg	41	164 cm	50 kg	38
179 cm	68 kg	43	177 cm	75 kg	42	175 cm	70 kg	38
183 cm	90 kg	44	190 cm	110 kg	45	160 cm	60 kg	37
170 cm	62 kg	40	165 cm	74 kg	40	165 cm	55 kg	38
178 cm	75 kg	41	171 cm	73 kg	41	154 cm	50 kg	37
168 cm	50 kg	40	164 cm	65 kg	40	158 cm	51 kg	36
188 cm	70 kg	44	166 cm	65 kg	40	167 cm	67 kg	38
177 cm	68 kg	43	170 cm	85 kg	41	163 cm	56 kg	40
165 cm	55 kg	40	160 cm	75 kg	39	150 cm	50 kg	37
172 cm cm	55 kg	40	170 cm	70 kg	41	160 cm	55 kg	38
173 cm	56 kg	42	172 cm	65 kg	42	165 cm	49 kg	39
176 cm	66 kg	43	178 cm	80 kg	43	158 cm	65 kg	38
177 cm	70 kg	42	168 cm	85 kg	41	161 cm	60 kg	38
180 cm	62 kg	42	178 cm	90 kg	46	158 cm	70 kg	39
170 cm	52 kg	42	168 cm	64 kg	42	160 cm	50 kg	37
184 cm	70 kg	44	178 cm	76 kg	42	168 cm	60 kg	38
175 cm	67 kg	41	173 cm	75 kg	42	158 cm	56 kg	36
181 cm	67 kg	40	175 cm	78 kg	41	161 cm	55 kg	37
175 cm	61 kg	42	178 cm	69 kg	41	157 cm	65 kg	39
162 cm	63 kg	40	165 cm	62 kg	42	160 cm	57 kg	38
176 cm	60 kg	40	172 cm	62 kg	41	156 cm	52 kg	37
187 cm	68 kg	45	170 cm	70 kg	42	161 cm	62 kg	39
180 cm	69 kg	43	170 cm	70 kg	42	165 cm	55 kg	38
173 cm	64 kg	42	170 cm	80 kg	42	160 cm	55 kg	36
172 cm	68 kg	41	164 cm	67 kg	40	155 cm	50 kg	37
171 cm	60 kg	41	172 cm	75 kg	42	156 cm	54 kg	38
170 cm	56 kg	41	169 cm	68 kg	42	162 cm	53 kg	36
172 cm	70 kg	44	160 cm	72 kg	42	164 cm	64 kg	40
180 cm	65 kg	41	178 cm	72 kg	41	167 cm	55 kg	38
172 cm	70 kg	40	169 cm	75 kg	43	150 cm	50 kg	37
178 cm	63 kg	42	168 cm	68 kg	41	162 cm	50 kg	38
173 cm	62 kg	40	169 cm	80 kg	42	159 cm	50 kg	36

Avant d'effectuer les calculs, nous allons chercher à simplifier l'expression à obtenir. En effet, il n'est peut-être pas judicieux d'inclure toutes les variables. La méthode de l'analyse en composantes principales sur matrice des corrélations apporte une réponse pratique à ce problème. Les données du tableau 1 ont été saisie dans le logiciel ACPr [2]. Ce logiciel a permis de tracer le cercle des corrélations des variables reproduit sur les figures 3 et 4.

Cette figure fait apparaître trois groupes de variables : 1) les variables associées à l'individu ; 2) les variables associées à la mère ; 3) les variables associées au père. Afin de simplifier l'expression, nous ne garderons qu'une variable associée à la mère et au père. Dans les deux cas nous ne conserverons que la taille qui sont les variables les plus fortement corrélées avec la taille de l'individu. Ainsi, l'expression finale sera de la forme :

Les valeurs de a₀, a₁, a₂, a₃ et a₄ sont déterminées à partir du logiciel RLM comme indiqué sur la figure 1 (le fichier ayant servi au calcul est fourni avec le logiciel sous le nom « données réduites.rlm »). On trouve le système :

Remarque : les valeurs des résidus données par RLM sont comprises entre −8,2 cm et 9,2 cm. En conservant toutes les variables, on aurait trouvé des résidus compris entre −7,7 cm et 9,3 cm. Compte tenu des incertitudes ce n'est pas significativement meilleur : on peut donc penser que la simplification des variables est justifiée.

Très souvent les modèles linéaires sont insuffisants pour traduire des phénomènes physiques avec une bonne exactitude. Afin de contourner ce problème, il est possible de remplacer dans les calculs précédents les variables X₁, ..., X_p par des fonctions f₁(X1), ..., f_p(X_p).

Prenons par exemple, le cas du facteur d'augmentation f utilisé pour déduire la pression de vapeur saturante de l'air humide à partir de la pression de vapeur saturante au dessus de l'eau en phase pure [3]. La formule CIPM-1981/91 pour calculer la masse volumique de l'air utilise une approximation de ce facteur de la forme [4] :

avec p la pression exprimée en pascals, t la température exprimée en degrés Celsius et le système de coefficients suivant :

Les coefficients de cette formule ont été déterminés à l'aide des données de référence figurant dans le tableau 4.

p	t
(Pa)	0 °C	5 °C	10 °C	15 °C	20 °C	25 °C	30 °C
60 000	1,002 4	1,002 5	1,002 5	1,002 6	1,002 8	1,002 9	1,003 1
65 000	1,002 6	1,002 6	1,002 7	1,002 8	1,002 9	1,003 1	1,003 2
70 000	1,002 8	1,002 8	1,002 9	1,002 9	1,003 1	1,003 2	1,003 4
75 000	1,002 9	1,003 0	1,003 0	1,003 1	1,003 2	1,003 4	1,003 5
80 000	1,003 1	1,003 1	1,003 2	1,003 3	1,003 4	1,003 5	1,003 7
85 000	1,003 3	1,003 3	1,003 3	1,003 4	1,003 5	1,003 6	1,003 8
90 000	1,003 5	1,003 5	1,003 5	1,003 6	1,003 7	1,003 8	1,003 9
95 000	1,003 6	1,003 6	1,003 7	1,003 7	1,003 8	1,003 9	1,004 1
100 000	1,003 8	1,003 8	1,003 8	1,003 9	1,004 0	1,004 1	1,004 2
105 000	1,004 0	1,004 0	1,004 0	1,004 0	1,004 1	1,004 2	1,004 4
110 000	1,004 2	1,004 1	1,004 1	1,004 2	1,004 2	1,004 4	1,004 5

Le calcul de ces coefficients est très facile à faire avec RLM : il suffit de saisir les données comme indiqué sur la figure 5 en remplaçant la température par son carré (le fichier contenant ces données est fourni avec le logiciel RLM sous le nom « facteur d'augmentation.rlm »).

Ces résultats sont très proches de ceux de la formule du CIPM : la formule du CIPM donne un résidu quadratique moyen de 4,70 × 10⁻⁵ ; la formule calculée par RLM donne un résidu quadratique moyen de 4,66 × 10⁻⁵.

La méthode présentée ici mérite encore d'être améliorée. Citons simplement comme pistes d'améliorations :
- la pondération des données ;
- le calcul des incertitudes sur les coefficients et sur les estimations de la variable expliquée.

[1]	PLATEL F., « Détermination du polynôme des moindres carrés par une méthode algébrique », MetGen, 2004.
[2]	PLATEL F., « Analyse en composantes principales - Projet ACPr », MetGen, Dossier qualité 2.
[3]	PLATEL F., « Calculs sur l´air humide », MetGen, Dossier métrologie 5.
[4]	DAVIS R.S., « Formule pour la détermination de la masse volumique de l´air humide (1981/1991) », Rapport de la 4^e session du CCM, BIPM, 1991.