Analyse multivariables: cas linéaire

Cas particulier: cas linéaire

Nous n'abordons ici que la régression linéaire multivariables. Pour plus de détails sur la régression linéaire (monovariable: y=ax+b), qui est un cas particulier, voir le chapitre "étalonnage" du document "Incertitude de mesure & Etalonnage"

Les relations entre les X et les Y sont linéaires et les a_p forment une matrice A:

Y=XA + E

soit:

avec:

(On pourra, si nécessaire, consulter les rappels d'algèbre linéaire).
Remarque: La convention chimiométrique pour l'écriture des matrices, sera utilisée: Chaque ligne représentera un échantillon (ou expérience) et chaque colonne, une variable.

On peut montrer facilement que l'équation (1) du paragraphe précédent est équivalente à un système de c équations à n inconnues ak dont la solution, au sens "moindres carrés", est: A = (X'X)-1X'Y (X, à priori non carrée n'est pas inversible, alors que X'X, carrée, peut l'être, c >= b étant une condition nécessaire.)
A est le prédicteur ou matrice de prédiction. On dit que l'on a fait une régression de Y sur X.

Représentations graphiques:
Ces représentations peuvent permettre de mieux comprendre les problemes:

Espace des Xvariables + Yvariables:

ici, 1 Xvariable (ici, A=absorbance),
1 Yvariable (ici, C=concentration),
N échantillons (expériences).

Espace des Xvariables:

ici, 2 variables (X ou Y), N échantillons :

A₁ et A₂ indépendantes A₁ et A₂ non indépendantes

Espace des échantillons:

Dimension = nbre d'échantillons

ici, 3 variables absorbances et 1 variable concentration,
3 échantillons.
2 variables (= vecteurs) indépendants sont orthogonales.

Principe de la regression linéaire multivariable:
Supposons que l'on ait 3 échantillons d'étalonnage caractérisés par 2 variables x1, x2 et une variable y. On peut représenter ces variables dans "l'espace des échantillons" (où dimension du repère représente un échantillon, on a donc ici un espace de dimension 3), par des vecteurs:

On remarque que faire une régression de Y sur X consiste à projeter Y sur le plan des X. A est alors la matrice de projection dans le plan des X.

En effet, on cherche à écrire Y sous forme de combinaison linéaire de X1 et X2: la chose est impossible puisque Y n'est pas dans le plan (X1,X2), mais on va s'en approcher en minimisant le vecteur E, différence entre Y et la combinaison linéaire.

L'étalonnage sera d'autant meilleure que Y sera près du plan des X. E représente les variations de Y non corrélées avec celles de X et donc pas expliquées par le modèle.

Quelques éléments supplémentaires:

Exemple de la loi de Beer Lambert

Reprenons l'exemple de la colorimétrie et de la loi de Beer Lambert. On appelle:

aⁱ_k = absorbance de l'échantillon i à la longueur d'onde lk
cⁱ_j = concentration de l'échantillon i en composé j

La loi de Beer Lambert s'écrit, sous forme matricielle:

La loi de Beer Lambert servira de support pour la suite de l'exposé, mais les applications de l'analyse multivariables ne se limitent pas à la colorimétrie et sont innombrables.

Méthodes de moindres carrés dites "simples":

* Première méthode: CLS (Classic Least Squares) ou Kmatrice:

On recherche une estimation de la matrice K des coefficients de Beer Lambert A=CK+E

On va minimiser E, c'est à dire les erreurs sur les absorbances, on va donc régresser A sur C.
On obtient alors la matrice K:

K=(C'C)^-1C'A

En phase prédiction, on a: A=CK, mais c'est la matrice C que l'on veut déterminer.
Or K est généralement non carrée donc non inversible. On peut quand même écrire:

C = AK'(KK')^-1 = AM

M est alors la matrice de prédiction.
On est amené à effectuer 2 inversions de matrices carrées de faible dimension (dimension = nombre de composés):

C'C: on doit donc avoir: nb composés £ nb échantillons.
KK': on doit donc avoir: nb composés £ nb longueurs d'onde.

Remarque: choix des concentrations:
On remarque que C'C est la matrice de covariance des concentrations. Si 2 colonnes de C sont colinéaires, C'C ne sera pas inversible, d'où des précautions à prendre pour le choix des concentrations des échantillons de calibrage. De même, si 2 colonnes sont presque colinéaires,(C'C)^-1 comprendra de fortes valeurs et on aura alors des instabilités pendant la prédiction.
Si il n'y a qu'un seul composé, C'C est un scalaire égal à la variance des concentrations et le problême ne se pose pas.

Exemple graphique avec 3 échantillons, 2 longueurs d'onde et 1 composé:

On déduit des projections de A1 et A2 sur C les coefficients de Beer Lambert k1 et k2. En fait, si le nombre de longueurs d'onde est supérieur au nombre de composés (ce qui est généralement le cas), l'information est redondante: Le prédicteur M est en fait une "moyenne" des différents opérateurs projection pour les différents Ak, ce qui augmente théoriquement la précision du résultat.

C'est en fait le principe de la régression linéaire où l'on dispose généralement d'un nombre de points supérieur au nombre strictement necessaire, mais ceci permet de créer un meileur modèle.

Application: Détection des nitrates dans l'eau potable:

Avantages de la méthode Kmatrice:

On peut utiliser théoriquement autant de longueurs d'onde que l'on veut. Le fait d'en avoir beaucoup donne un effet de "moyenne" bénéfique au niveau rapport signal / bruit..
Intéressant au niveau compréhension des phénomènes: la matrice K donne directement les coefficients de Berr Lambert

Inconvénients de la méthode:

Le calcul des paramètres de prédiction pour un composé utilise les concentrations de tous les composés: Tous les composés ou interférents susceptibles d'être présents en phase de prédiction devront être introduits pendant le calibrage, et leur concentration devra être connue.

On dit que ce procédé ne résout pas le problème des impuretés.

Pour des raisons similaires, la méthode ne peut pas tenir compte de variation non quantifiées ou non quantifiables (variation de la ligne de base par exemple), ou d'interactions entre les constituants.
Risque de surmodélisation (modélisation des particularités des échantillons de calibrage) si pas assez d'échantillons (voir plus loin), or les échantillons (ou expériences) sont souvent couteux en temps et / ou en argent.

* Deuxième méthode: ILS (Inverse Least Square) ou Pmatrice:

On peut écrire la loi de Beer Lambert de façon inversée en exprimant les concentrations en fonction des absorbances: C = AP + E On minimise ici l'erreur E sur les concentrations, on régresse donc les concentrations sur les absorbances et on peut estimer directement P: P = (A'A)-1A'C qui est la matrice de prédiction

Représentation graphique: 3 échantillons, 2 longueurs et 1 composant.

On projette C sur le plan (A1 A2). La matrice de prédiction P est la matrice de cette projection. E représente la partie de la concentration dont il n'est pas tenu compte dans le calibrage (variations non corrélées avec les variations d'absorbance).

Avantage majeur de cette méthode:
On peut voir facilement que, pendant le calibrage, le calcul des termes de P concernant le composé j (= colonnes de P) ne dépendent pas des concentrations des autres composés.
On n'est donc pas obligé de connaître les concentrations de tous les composés. Les composés présents mais de concentration inconnue pendant le calibrage peuvent être considérés comme des impuretés.

Cette méthode résout donc le problème des impuretés, mais celles-ci doivent être présentes de façon significative dans les échantillons de calibrage.
De façon plus générale, il résoud le problême des variations dues à des causes externes, celles-ci n'ont pas à être quantifiées pendant la phase de calibrage, mais doivent, répétons-le, être présentes de façon "significative".

Application: mesure nitrates dans l'eau avec un interférent: Les acides humiques

Inconvénients:
La matrice A'A , qui est la matrice de covariance des absorbances, doit être inversée:
On doit donc avoir: nbre d'échantillons £ nbre de longueurs d'onde Il faut donc préparer au moins autant d'échantillons qu'il n'y a de longueurs d'onde.

De plus, si des absorbances de longueurs d'onde trop voisines sont "presque" colinéaires (physiquement non inversible), A'A, même si elle est mathématiquement inversible, aura un déterminant faible. La matrice P aura alors de forts coefficients (en valeur absolue) et il y aura des problèmes d'instabilité pendant la prédiction.

Enfin, retrouve ici le probleme de surmodélisation, commun aux 2 méthodes CLS et ILS, notamment lorsque le nombre d'échantillons est faible.

La surmodélisation

La surmodélisation apparait lorsque le modèle est trop précis, on tend alors à modéliser les "particularités des échantillons d'étalonnage, alors que seule l'information "généralisable" nous interesse.

Une premiere solution à ce probleme consiste à avoir un très grand nombre d'échantillons, mais cela est couteux.

Une autre solution consiste en l'utilisation d'un algorithme permettant de n'utiliser autant que possible que la partie utile des informations de calibrage (c'est à dire, dans le cas de Beer Lambert, les variations d'absorbances et de concentration réellement corrélées entre elles) qui au départ sont redondantes.

Une autre façon de voir les choses est de constater que, par les méthodes classiques, on va modéliser le plus d’information possible, qu’elle soit représentative de la réalité physique ou qu’elle soit juste du bruit de mesure. On risque alors de faire de la sur-modélisation: le modèle est trop complexe et ne s’appliquera correctement qu’aux échantillons ayant servi à le créer.

De plus, même si le modèle est correct physiquement, on peut constater, lors de la prédiction, que plus un modèle est complexe, plus les erreurs (relatives) de mesure sur les variables X seront amplifiées lors du calcul des variables Y, d’où les dangers de la sur-modélisation .

Erreur due à l’erreur de mesure sur X: E_mes= où a augmente avec la complexité du modèle
E_mod Erreur avec les échantillons de calibrage: forcément décroissante.
Erreur totale de prédiction: E_tot = E_mes + E_mod
Erreur de modélisation (par rapport au processus réel)

Toutefois, les effets de la sur-modélisation, prépondérant si les échantillons de calibrage sont peu nombreux, tendent à diminuer si l’on en dispose de beaucoup, ce qui n’est pas toujours évident.

A l’opposé, si le modèle est trop simple, il y aura peu de propagation de l’erreur de mesure, mais il sera peu performant en prédiction car il ne reflétera pas suffisamment la réalité physique, on parle alors de sous-modélisation.

Ainsi, cette modélisation aboutit à un compromis entre un modèle simple et robuste (tolérant vis à vis des erreurs de mesure) mais peu précis et un modèle complexe, précis mais fragile.

Il apparaît donc intéressant de pouvoir choisir la complexité du modèle en fonction du phénomène étudié et des qualités métrologiques des mesures.

Remarque: Ces considérations sur la sur ou sous-modélisation, bien que comprises dans le chapitre " linéaire ", on un caractère plus général, comme on pourra le constater avec les réseaux neuronaux.

L'analyse de facteurs:

L'analyse de facteurs consiste à faire un changement de variable au niveau des Xvariables. On prend alors, comme nouvelles Xvariables, des combinaisons linéaires des anciennes Xvariables, en nombre réduit afin de concentrer l'information utile.

Il y a, initialement, n Xvariables, généralement plus ou moins corrélées entre elles. Le but est de trouver de nouvelles variables indépendantes, combinaisons linéaires des anciennes. Ces variables sont appelées facteurs ou variables latentes et leur valeur pour un échantillon donné, score.

Si h=n, il n'y a pas de réduction de données, le problème est équivalent au précédent et la méthode a peu d'intérêt.
Il y a plusieurs méthodes pour déterminer la matrice de changement de base B ("Loadings vecteurs") qui seront explicitées plus loin.
Pendant la prédiction, le changement de base permettant de connaître les scores T se fait comme suit:

T=B*A (B matrice h*n) Il est clair que si h<n, il y aura perte d'information lors du passage de A à T. On va donc faire en sorte que cette information perdue soit le moins possible de l'information utile:

L'intérêt de cette compression de données est que, faute de pouvoir éliminer le bruit de mesure, on s'arrange pour que l'information utile, qui pouvait être initialement répartie sur tout le spectre, se retrouve dans les premiers facteurs qui seront seuls utilisés, donc dans les scores. Or le bruit reste également réparti pour tous les facteurs: l'information "abandonnée" n'est donc pratiquement que du bruit, et on a donc globalement une réduction de celui-ci.

On peut ensuite calculer les concentrations par régression de T à partir d'une matrice de prédiction V déterminée, pendant le calibrage, par ILS à partir des scores:

C = TV + E On fait alors une régression de C sur V.

On élimine ainsi les inconvénients des 2 précédentes méthodes:

Pmatrice: Le nombre de longueurs d'onde utilisées n'est limité que par la puissance de calcul. Il n'y a plus de problèmes de collinéarité puisqu'on ne prend que des combinaisons des absorbances orthogonales entre elles. Le nombre de facteurs doit toutefois être inférieur ou égal au nombre d'échantillons.
Kmatrice: Il n'y a pas de problème d'impuretés puisque le prédicteur des concentrations est déterminé par ILS à partir des scores, donc de façon indépendante pour chaque composé.

Dans les 2 cas, on réduit le risque d'"overfitting" (modélisation du bruit) en réduisant le nombre de variables.
Il existe principalement 2 méthodes d'analyse des facteurs:

* PCR (Principal Component Régression)

Cette méthode utilise la matrice des covariances des absorbances centrées, A'A. Elle part du principe que pour choisir une nouvelle base de variables indépendantes, il suffit, par définition, que les covariances de ces variables entre elles soient nulles. La matrice de changement de base est donc la matrice qui va rendre la matrice de covariance diagonale. Elle est donc construite à partir des vecteurs propres de A'A. Les valeurs propres représentent alors la variance des scores, et donc leur contribution à la modélisation: Pour effectuer la réduction de données, il suffit alors de ne conserver que les h scores correspondant aux plus fortes valeurs propres.

h £ n

Cette méthode est très efficace, mais elle ne tient pas compte dans la première phase de calibrage, (choix de la nouvelle base) des informations concentration, qui ne sont utilisées que dans la phase de régression des concentrations sur les scores.

Il peut pourtant arriver que des effets importants sur les absorbances ne soient absolument pas corrélés avec les concentrations.
On lui préfère donc souvent une méthode plus récente et plus complexe:

* PLS (Partial Least Squares):

Cette méthode, plus récente (1980), consiste à construire ensembles les matrices de changement de base W ("Loadings Vectors") et de prédiction V en utilisant conjointement les absorbances et les concentrations.

Modélisation PLS (1 seule Yvariable)

Prédiction PLS

Cette méthode de prédiction (ainsi que PCR) a l'avantage de fournir, en plus de la concentration, les résidus d'absorbances (information absorbance restant à la fin de la prédiction, donc non utilisée) qui doivent théoriquement être du même ordre de grandeur que ceux obtenus lors du calibrage. L'examen du rapport (résidu de prédiction / résidu de calibrage) pour chaque longueur d'onde peut alors permettre de détecter des anomalies, notamment la présence d'impuretés non présentes lors du calibrage. On peut alors supposer que le calcul de prédiction risque d'être erroné.

Exemple: Détection des nitrates, présence de Cr3 uniquement pendant la prédiction:

En fait, pour chaque calcul de prédiction, on préfère souvent calculer un terme "d'erreur probable" appelé déviation (cf logiciel "Unscrambler"):

(Ce terme est à multiplier par la norme des concentration d'étalonnage si celles-ci ont été normées).
Ce terme a, dans la plupart des cas, la même ordre de grandeur que l'écart type de l'erreur de prédiction.

* Problème commun aux 2 méthodes: Le choix du nombre de facteurs:

Nous avons vu qu'il était nécessaire d'arrêter l'étalonnage pour un nombre de facteurs donnant des résultats de prédiction optimaux. C'est à dire, dans le cas de PLS, quand les résidus d'absorbance deviennent du même ordre de grandeur que le bruit de mesure, l'information utile ayant été extraite.
Le choix du nombre de facteurs permet de régler la complexité du modèle.

Il faut donc, pour chaque nouveau facteur, faire des tests afin de minimiser la variance des erreurs de prédiction. Ces tests ne doivent en aucun cas être faits avec les échantillons d'étalonnage sinon on trouverait un nombre de facteurs optimal égal au nombre maximum de facteurs: On arriverait alors à retrouver les concentrations d'étalonnage avec précision, le bruit de mesure modélisé étant reconstitué. Mais avec d'autres échantillons, les performance seraient mauvaises.

Il est donc nécessaire:

Soit d'avoir un jeu d'échantillons réservés aux tests de prédiction, mais il peut être alors dommage de gaspiller ainsi les échantillons car l'étalonnage est d'autant meilleur que ceux-ci sont nombreux.
Soit de faire les tests avec les échantillons auxquels on ajoute un bruit Gaussien (voir bargraph ci-dessous) de caractéristiques aussi proches que possible que le bruit de mesure. Ces caractéristiques sont relativement difficiles à trouver.
Soit d'utiliser la méthode des validations croisées: Si l'on a m échantillons, on fait m étalonnages avec m-1 échantillons, le dernier étant réservé aux tests. L'étalonnage ultime, avec le nombre de facteur optimal ainsi déterminé, se fait alors avec les m échantillons.

Remarque: nombre de facteurs =

"rang "physique de la matrice de covariance d'absorbance (nombre de valeurs propres de taille significative).
Nombre de phénomènes physiques entrant en compte, souvent connu intuitivement.

Extension aux phénomènes non linéaires:
Les méthodes d’analyse de facteurs peuvent modéliser des phénomènes non linéaires (mais pas trop!). On peut en effet montrer qu’une loi polynomiale de degré n à plusieurs variables peut (sous certaines conditions…) être rigoureusement modélisée à l’aide d’un nombre fini de facteurs, qui peut, hélas, être relativement grand (nombre de termes du polynôme).
Il est donc souvent préférable d'utiliser des méthodes "non linéaires"