p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA
Enquêtes en clientèle dans l automobile Dimensionnement fiabiliste des structures automobiles enquêtes en clientèle. Mesures d accélérations et de vitesse. La route est inconnue modélisation dynamique impossible. p.2/34
p.3/34 Identification de la classe de masse acceleration (m/s 2 ) 6 4 2 2 m2 5% m2 = 331 kg m2 2% acceleration (m/s 2 ) 6 5 4 3 2 1 1 2 m2 5% m2 = 331 kg m2 2% 4 3 11.5 12 12.5 13 13.5 time (sec.) expl. de signaux 6.6 6.65 6.7 6.75 6.8 6.85 6.9 time (sec.) (zoom) Un problème type : identification de la classe de masse d un véhicule à partir des signaux mesurés. Puis, identification des efforts transmis, calcul en fatigue des pièces,....
p.4/34 Données expérimentales 4 minutes d enregistrement sur un circuit routier pour trois masses, et. Mesures des accélérations verticales aux 4 pivots de roues accélérations longitudinales, transverses et verticales au centre de gravité mesures de vitesses longitudinales.
p.5/34 Identification de systèmes x méthode f(;w) expériences nouveau w f(x;w) optimiseur m distance et connus à travers une base d expériences de taille finie Avantages : Seules les entrées et sorties sont nécessaires (utilisable sans modèle physique). Offre un cadre probabiliste à la modélisation. Une fois identifié, la méthode (classeur ici) est d exécution rapide..
p.6/34 Identification de systèmes (2) Mais : Nécessité d une base expérimentale importante. Interprétation physique indirecte : choix des entrées et de la structure du modèle. L. Ljung, System identification: theory for the user, Prentice Hall, 1987. G. Saporta, Probabilités, analyse des données et statistique, Technip, 199. R. O. Duda, P. E. Hart et D. G. Stork, Pattern classification, John Wiley and Sons, 2.
p.7/34 Principe de la discrimination par masses Plus de 1 points de mesures à traiter pour estimer la masse trop de paramètres pour une identification directe. Les mesures sont traitées par intervalles de durée. signaux masses intervalle i-1 intervalle i intervalle i1 M i-1 choix des variables explicatives discrimination M i M i1 cumul (règle du plus grand nombre de votants) M^
p.8/34 Cumul des intervalles La masse finale associée aux mesures est celle la plus représentée dans les intervalles. Si la prob. de succès sur 1 intervalle succès cumulée croît rapidement avec., la prob. de 1 prob. de succès cumulée.8.6 p=.5 p=.6 p=.7 p=.8.4 5 1 15 2 25 3 nb. d intervalles
F ;! 1H G $#" * : # p.9/34 Variables d entrées Les 4 premiers moments statistiques, (vit. uniquement) &(' % &()$ 2 1 / #,.-, La moyenne des minima et maxima des signaux, chaque extremum étant relatif à un horizon de L énergie du signal sur la plage de fréquence A@ <=?> BC Les moments relatifs d ordre 1 à 4 de la DSP,,. BC / A @ <=?> E D / 7 signaux d accélérations et 1 de vitesses, variables d entrées potentielles. 2 1, 81%'9., 763 # 543 et
p.1/34 Des optimisations à 4 niveaux On cherche le meilleur jeu [variables d entrées / classeur] pour identifier la masse. Il y a 4 niveaux d optimisation : 1. Choix des variables explicatives (définition de l espace de recherche). 2. Choix d un critère de discrimination (d une méthode ou classeur). 3. Choix d un niveau de complexité du classeur. 4. Choix des paramètres (autres que ceux qui contrôlent la complexité).
p.11/34 Complexité et variance d un classeur complexité : taille de l espace des. f* f* f* f* x g faible complexité forte complexité x g régularisation : stabilisation de l espace des solutions par introduction d a priori. variance : mesure quadratique de la dépendance de à la base expérimentale. x o x o fonction génératrice g faible variance forte variance I x o
O L M N p.12/34 Contrôle de complexité Contrôle de la structure de polynôme.. Expl. : choix du degré d un Régularisation : ajouter un terme idépendant de l identification du système, dans distance KJ Utilisation d une erreur de validation : les données sont séparées en un ensemble d apprentissage qui sert à règler et un ensemble de validation qui sert à calculer l erreur. But : s affranchir du biais introduit par la taille finie des données, ne pas apprendre le bruit. Validation croisée.,
p.13/34 Contrôle de complexité (2) Exemple d utilisation d erreur de validation : arrêt prématuré dans les réseaux de neurones..45.4 Réseau de Neurones 2 Erreur d Apprentissage Erreur de Validation Erreur Quadratique Moyenne.35.3.25.2.15.1.5 1 2 3 4 5 6 7 Nb d itérations le réseau de la troisième itération est utilisé.
p.14/34 Choix de l espace de recherche 1. Analyse discriminante. 2. Sélection de variables. 3. (Choix de l intervalle de traitement ).
G P & W V/ /U Y Y W Z Z # W # # # Y D \ # \ # Analyse discriminante (Choix de l espace de recherche) Recherche de,, nouvelles variables, combinaisons linéaires des, qui séparent en projection les classes observées. Soient, et 4 la mat. de cov. intraclasses, Q.- @ R 7S /U T > la mat. de cov. interclasses, la mat. de cov. totale,. YJ V/ X W V VU V VU 4> Q.- 4 V/ /U V/ /U 4 /- 4 Trouver interclasse, axes WY[# qui maximisent, après projection, l inertie et minimisent l inertie intraclasse,. D# # 6 D# DZ où M est une métrique ( ). Z^] p.15/34
# _ p.16/34 Analyse discriminante (2) (Choix de l espace de recherche) Les axes discriminants sont les vecteurs propres associés aux plus grandes valeurs propres de _# # YZ] Représentation des données dans R 3 Classe 1 Classe 2 Classe 3 1.5 1 Représentation des données dans l espaces des axes discriminants Classe 1 Classe 2 Classe 3 3.5 2 1.5 z V 2 1 1 1.5 2 2 3 4 2.5 2 y 2 4 6 4 2 x 2 4 3 3.5 4 3 2 1 1 2 3 4 5 V 1
a baaz a ` ` ` ` Sélection de variables (Choix de l espace de recherche) Pour connaître les variables les plus pertinentes et réduire la complexité des classeurs. L évaluation d une sélection par apprentissage est trop coûteuse. On minimise le de Wilks,. 2 méthodes sont comparées. Heuristique d énumération : 1. Sélectionner la variable parmi les dont la suppression induit la plus grande diminution de. 2. La supprimer des, recommencer si seuil. solution peut être sous-optimale, méthode peu coûteuse. Algorithme évolutionnaire : sous-ensembles de7 ` optimisation globale coûteuse. p.17/34
c p.18/34 Méthodes de discrimination Elles sont caractérisées par le critère qu elles utilisent pour apprendre à classer les exemples. Maximisation de marges entre classes : machines à supports vectoriels (MSV). Minimisation d erreur de classement : classeurs Bayésiens. Discrimination par fenêtres de Parzen. Discrimination par régression et seuillage : régression par moindres carrés (linéaire ou neuronale) et -SV régression.
Classement par Marge maximale : Machines à Supports Vectoriels t z jk k { g g p.19/34 x2 4 3 2 1 1 Learning Data and Margin Les MSV créent une frontière de décision qui maximise les distances entre la frontière et les points les plus proches de chaque classe. Frontière de décision linéaire : f ej d 1 1 1 1 1 1 2 3 4 3 2.5 2 1.5 1.5.5 1 1.5 2 x1 Maximisation de la marge h h Apprentissage : oqpn i l m r rs k uv wyx g i, zcard
t } p.2/34 MSV, cas non séparable Lorsque les classes ne sont pas séparables, on introduit des variables d écart et un paramètre de régularisation. Apprentissage : x2 3 2 1 Learning Data and Margin ξ oqpn i l ~~ ~~ m ˆ k uv wyx r rs ƒ > x card.- 1 1 1 1 1 1 1 1 1 2 3 4 3 2 1 1 2 3 4 x1 Un problème quadratique, résolu sous sa forme duale (de Wolfe) par un algorithme QP avec stratégie de contraintes actives.
Œ d Œ Œ Š U p.21/34 Extensions aux MSV non-linéaires Transformation de l espace des données,, puis on applique l algorithme linéaire aux données transformées. Grace à la forme duale, les données apparaissent que sous la forme de produits scalaires, noyau (condition d existence par Mercer). noyau Gaussien de largeur noyau polynômial de degré Contrôle de complexité : C, noyau (,, Œ \e \ Ž Ž5 ]' \ 1 \ej d \ ou ).
Minimisation d erreur de classement : méthodes Bayésiennes C / / p.22/34 si a / C a ce qui est implique, si C a C a La discrimination par fenêtres de Parzen et le seuillage après régression sont des méthodes Bayésiennes.
Q w uš Q Q p.23/34 Discrimination par fenêtres de Parzen Une méthode d histogrammes 2 x 1 3 Densité de Probabilité a posteriori des classes Classe 1 Classe 2 Classe 3 lissés dont les barres sont centrées sur les données. 1.5 1.5 4 2 V 2 2 4 6 4 2 V 1 2 4 = la fréquence d apparition de la classe dans. U 1 ŸT?ž œ @ 1 Q a fenêtre Gaussienne, paramètre d étalement.
Discrimination par régression et seuillage ] N c ] p.24/34 La masse du véhicule est une variable fonction de continue, et physiquement pertinente!, scalaire, régression 6 classe de masse. Les seuils sont ajustés par minimisation du taux d erreur sur la base d apprentissage (énumération de seuils sur une grille). Différentes méthodes en fonction de la construction de : moindres carrés régularisés ou -SV régression.
Régressions par moindres carrés régularisés L ²Q I p.25/34 est un réseau de neurones ou une fonction linéaire. L estimation de la masse est où est solution de 5± ± ª ««card I J ± Q@ ³ U ²Q ³ Puisque peut être non linéaire (réseau de neurones), on effectue la minimisation avec l algorithme de Levenberg-Marquardt. Contrôle de complexité :, contrôle de la structure de (linéaire ou neuronale, combien de neurones dans la couche cachée), arrêt prématuré.
Régressions par Machines à Supports Vectoriels Ð c ÑÌ c ã Ë p.26/34 Les données doivent au plus être à de la fonction, qui doit être la plus plate possible. f ej d y 3 2.8 2.6 2.4 2.2 2 1.8 1.6 1.4 Support Vector Machine Regression Espace des caractéristiques Æ Ê ÌÎÍ É ÈÇ h h Æ Å Â ÂÄÃÀ à À Á ¼¾½ KÀ» ÑÌ Ò ] ÑÌ ÒÚÖÇ Ó Ô Õ µ µ µ µ µ µ µ µ µ µ ¹ µ µ µ µ µ µ µ µ µ µ º sous les contraintes, Ó Ô Õ ÛÜ ƒ ƒì Ï Ì card ÇÙ Ø ÒyÖ ] ÇÙ ÑÌ ÒØ Ð ] àâá ß Ý.Þ card ƒ Ì ƒï Ì ³ ƒï Ì ²ƒ ÇÌ 1.2.1.2.3.4.5.6.7.8.9 1 x Le problème est équivalent aux MSV en classement (même techniques pour le passage au non-linéaire, mêmes algorithmes). Contrôle de complexité : C, noyau ( ou ),.
ø î Ý æ é ä p.27/34 Expériences numériques : contrôle de complexité et calcul des erreurs - Les signaux temporels possèdent une certaine corrélation mesure réaliste de l erreur par validation croisée : plusieurs bases et, qui respectent la chronologie. - La plupart des paramètres exerçant un contrôle sur la complexité des méthodes sont ajustés par minimisation de l erreur de validation croisée. Expl. du des fenêtres de Parzen : åçæ è æ 2 19 18 1. Pour tous les, choisir. 1.1 Pour tous les, apprentissage sur, calcul de l erreur sur. 1.2 Erreur est la moyenne des. 2.. 3. Apprentissage sur. 4. Calcul de l erreur sur,. ïì îì ñ ðêì ôõ òó êþ î ¼¾½Ì êì ñ ðêì ï ëö û úïþ ùëö ëíì îì Nb d erreur en validation 17 16 15 14 13 12 11 1.5 1 1.5 σ
ü ü Ð æ æ ü ü î î î î î ü æ ü ü æ ü î ü Ì Variables explicatives pertinentes Unité Dizaine 1 2 3 4 5 6 7 8 9 CdgV Vitesse Vitesse Vitesse CdgV Vitesse PivArg PivArg CdgV üþ æ Ô ü ÿ ü ÿ üý ü þ ü ý Ì 1 PivAvg Vitesse CdgV CdgV PivAvd PivAvd PivArd PivArd CdgL CdgL ü ý üþ üþ ü ý üþ ü ý üÿ æ Ô 2 CdgL PivAvg PivArg CdgT CdgT Vitesse PivAvd PivArd PivArd PivArg üþ ü ÿ æ Ô æ Ô 3 PivAvd Vitesse CdgT CdgT CdgT PivArd Vitesse PivAvg PivAvg CdgV ü ý Ì Ì 4 Vitesse CdgV PivArg PivAvd PivArd PivAvg PivAvg PivAvg PivArg PivArg üþ üý æ Ô æ Ô Ì 5 PivAvd CdgL CdgL CdgT CdgT CdgV CdgT CdgL Vitesse... ü ÿ ü þ ü ÿ Ì Sélection par heuristique énumérative, 55 variables pour le seuil de [CdgV et Vitesse] / sont les variables prépondérantes. L algorithme évolutionnaire trouve une solution avec 49 variables. choisit, p.28/34
p.29/34 Comparaisons de méthodes 5 méthodes sont comparées : Analyse discriminante fenêtres de Parzen. Analyse discriminante MSV classement (noyau Gaussien). MSV en classement (noyau Gaussien). Régression neuronale seuillage. S1 = 1 neurone linéaire, S2 = 7 neurones sigmoïdaux 1 neurone linéaire, S3 = 8 neurones sigmoïdaux. MSV en régression (noyau polynomial) seuillage.
p.3/34 Exemples de frontières de décisions Régression neuronale (S2) seuillage. 81 variables d entrées. Taux de classification correcte 51.3% 2 Réseau de Neurones 2 : Apprentissage Masse réelle Masse estimée 2 Réseau de Neurones 2 : Test Masse réelle Masse estimée 1.5 1.5 Masse Normalisée 1.5 Masse Normalisée 1.5.5 2 4 6 8 1 12 14 16 Données apprentissage.5 5 1 15 2 25 3 Données test
p.31/34 Exemples de frontières de décisions (2) 2 Régression MSV (noyau polynomial) seuillage. 81 variables d entrées. Taux de classification correcte 68.6%. Regression MSV : Apprentissage Masse réelle Masse Estimée 2 Regression MSV : Test Masse réelle Masse Estimée 1.5 1.5 Masse Normalisée 1.5 Masse Normalisée 1.5.5 5 1 15 2 Données apprentissage.5 5 1 15 2 25 3 Données test
p.32/34 Exemples de frontières de décisions (3) 4 3 Classification par Analyse Discriminante Noyau de Parzen: Test Classe 1 Classe 2 Classe 3 Frontières de décision 4 3 Classification par Analyse Discriminante et MSV: Test Classe 1 Classe 2 Classe 3 Frontières de décision 2 2 Axe de Projection 2 1 1 Axe de Projection 2 1 1 2 2 3 3 4 3 2 1 1 2 3 4 Axe de Projection 1 Analyse discriminante fenêtres de Parzen, 81 variables d entrées, taux de classification correcte 74.7%. 4 3 2 1 1 2 3 4 Axe de Projection 1 Analyse discriminante SVM Gaussien, 81 variables d entrées, taux de classification correcte 74.6%.
p.33/34 Comparaison de méthodes (2) Méthodes B. inf. moy. B. sup. Analyse Discriminante et Parzen 79.25 79.78 8.31 Analyse Discriminante et MSV 8.11 8.61 81.11 MSV à noyau gaussien 49.19 49.63 5.6 Réseaux de neurones 1 63.58 64.16 64.74 Réseaux de neurones 2 52.72 53.38 54.5 Réseaux de neurones 3 5.94 51.9 52.86 MSV à noyau polynomial 71.5 71.78 72.7 Pourcentage de succès de classement pour différentes stratégies en utilisant les 49 variables selectionnées par l algorithme évolutionnaire. Les bornes sont l intervalle de confiance à 8%.
p.34/34 Conclusions La meilleure méthode : analyse discriminante MSV à noyau Gaussien en classement, avec plus de 8% de succès en classement. Importance du pré-traitement des variables par analyse discriminante. Cet effet ne s explique pas seulement par la réduction de dimension des variables d entrées (car AD fait mieux que la sélection de variables), mais par la prise en compte conjointe des dispersions des données. Parmi la régression seuillage, la régression par MSV donne de bons résultats (71.8% de succès), meilleurs que la régression linéaire ou neuronale. Les signaux les plus importants sont l accélération verticale au cdg et la vitesse. Les traitements les plus importants sont les moments spectraux relatifs.