Chapitre 5: Méthodes supervisées

Documents pareils

Résumé du module 6 : Coût et structure du capital

Pour répondre au besoin de sécurité juridique et de prévisibilité, la Loi type devrait traiter des questions suivantes:

FOCUS : LES SYSTÈMES D INFORMATION

Utilisation de RAMSIS dans la conception automobile Lisa Denninger Apports et Limites des Mannequins Virtuels 18 Novembre 2014

Une introduction au contrôle acoustique actif

SYSTEME DE TELERADIAMETRIE H*(10)

MISSIONS COMMERCIALES

CYBERLEARN COURS MOODLE. SUPPORT DE TRAVAIL Pour professeur-es et assistant-es d'enseignement

a) Financement par des tiers : emprunts, crédits bancaires, leasing, crédit spontané (lors d un achat à crédit) ;

Haut Conseil de la santé publique

Project Portfolio Management

Nouveautés apportées à l assessment-tool

Vente de Capacités de Stockage de gaz du 13 mai 2015

FICHE DE POSTE Fonction : Chef de Division Contrôle des opérations Financières FONCTION : CHEF DE DIVISION CONTRÔLE DES OPÉRATIONS FINANCIÈRES

Fiche de projet pour les institutions publiques

Financement des investissements Page 1 sur 6

LE TABLEAU DE BORD REMONTEE DES COMPTES. Outils de gestion prévisionnelle, d'analyse financière et du contrôle de gestion. TABLE DES MATIERES

Chap I : Economie d'entreprises

Terrain de jeu Analogie au sport professionnel

Le dispositif de qualification OPQIBI pour les audits énergétiques (réglementaires)

ITIL V3. Les principes de la conception des services

L'impact économique global des solutions de virtualisation du poste de travail Cisco

MINISTERE DES AFFAIRES SOCIALES ET DE LA SANTE

Guide pour la rédaction d une Spécification Technique de Besoin (STB)

Terminologie. Termes utilisés dans le Système d évaluation et le Guide de référence. Nouvelle terminologie

L'ANALYSE DU BILAN PATRIMONIAL EN VALEURS NETTES. Approfondir l'analyse du bilan financier : retraitements du bilan comptable.

Division des Statistiques du Commerce Extérieur

Dossier Spécial. Les 5 étapes pour vendre ACT! Apprendre à détecter un besoin en Gestion de Contacts

Utiliser les activités de cours de Moodle : le Questionnaire

A toutes les Directrices et à tous les Directeurs des établissements scolaires de l enseignement secondaire et secondaire technique

Meilleures pratiques en matière d'indexation de contenu. Mise à niveau à partir de versions antérieures à la version 6.5

Gestion des Prospects : Adresses à exporter

Archivage et valeur probatoire. Livre blanc

LIVRE BLANC SEM. Google AdWords Le guide ultime du SEM pour votre Boutique en ligne

Programme Eau, Climat et Développement pour l'afrique. Termes de référence pour le recrutement d un Expert Socio/agro-économiste

Sociétés Non Financières - taux endettement - % PIB, valeur nominale

Intégration «SugarCRM Asterisk» Ajouter la Téléphonie à votre CRM

LOGICIELS ET BASES DE DONNÉES PROTECTION ET VALORISATION

Les prix de l électricité en France : évolutions passées et perspectives

Agilité et gestion de projet

Cible de Sécurité - Blancco DataCleaner+ v4.8

Changement de régime fiscal des Mutuelles et des IP : remarques d ordre actuariel

Service de mobilité interbancaire - Règlement

DSP compétences professionnelles région NPC Groupe de travail n 1

Chap 10 : L évaluation et la valorisation du potentiel de l équipe commerciale

Physique Chimie LA GRAVITATION

Service de mobilité interbancaire - Règlement

ITIL V2. La gestion de la capacité

ALL Arts, Lettres, Langues. Information Communication Culture

ÉTAPES CLÉS DE LA RÉPONSE AUX VIOLATIONS DU RESPECT DE LA

PHASE 1 : choix et définition du sujet du TM.

Directive relative au concept énergétique de bâtiment

PROCESSUS DE CERTIFICATION DES MONITEURS JE NAGE INFORMATIONS POUR LES MAITRE ÉVALUATEURS

La participation au QIS 5 : un must dans la préparation à Solvabilité II!

En collaboration avec la direction territoriale du MFA

OBSERVATION DES CLASSES

La pratique. Centre de services et processus associés

Charte de l Association Suisse de Portage des Bébés (ASPB)

Démarche Coaching Individuel

Guide de l utilisateur

Article I - Objet. Article II - Conditions d'utilisation de la eboutique

GUIDE DU CANDIDAT REPRESENTANT EN ASSURANCE DE DOMMAGES DES PARTICULIERS. Préparation aux examens de l AMF. Pour : DESJARDINS ASSURANCES GENERALES

Le scanner laser 3D : reconnaissance de formes et modélisation de déformations

Projet de renouvellement de l infrastructure informatique de la Mairie de Châtel-Guyon. Cahier des charges

,/, Cette communication ne peut etre citee qu'avec l'autorisation prealable des auteurs.

esil PROJET DE MODELISATION ORIENTEE OBJET INFORMATIQUE - 3 ANNEE

Communiqué de lancement : Sage 100 Scanfact Version V15.50

- Le service aux tables. - Le service rapide & commande pour emporter. - Le service à l auto. - La livraison. o Voir le feuillet Livraison.

REGLEMENT COMPLET «3D World Koksijde»

[SIMULATEUR DE CREDIT IMMOBILIER]

Bourse Étienne-Beauclair Banque Nationale

Coalition énergie et construction durable

Guide d aide à la rédaction d un essai

Phase 4 La planification des activités

DETERMINATION DU COUTS DES OPERATIONS DE ETUDE TECHNICO ECONOMIQUE MEMOIRE RESTITUTIF AGENCE DE L EAU RHONE MEDITERRANEE ET CORSE TRANSFERT D EAU

Description des services Dell

Indicateurs de qualité de service fixe relatifs à la décision ARCEP N

Description de service Dell

Promotion Le défi des étoiles Aéroplan Q1. Qu est-ce que la promotion Le défi des étoiles Aéroplan?

PROPOSITION DE CREATION DE SITE INTERNET

SAP SAP ERP SAP ERP FINANCIALS

Microsoft BizTalk Server et Microsoft Dynamics AX : Solutions d intégration pour l entreprise étendue

RÈGLEMENT DE PARTICIPATION DES BOURSES "COOPÉRATIVES CITOYENNES"

GUIDE D ENTRETIEN POUR LA PHASE 1

AC T I V I T É PHYSIQUE

GUIDE INSTALLATION IAS

Coefficient 4. L ACRC est validé par le contrôle des compétences suivantes :

PRIMONIAL SÉRÉNIPIERRE CONTRAT D ASSURANCE VIE

Les stratégies de Backup dans WSS V3

GUIDE DU PROGRAMME DE VÉRIFICATION DE LA CONFORMITÉ ET DE L UTILISATION DES DONNÉES DU FICHIER CENTRAL DES SINISTRES AUTOMOBILES

Description de service Dell

10ème Congrès Français d Acoustique

PREPARATION DE VOTRE PFMP Réalisé et testé par Laurence Martin, enseignante au LP du Toulois et chargée de mission en économie et gestion option vente

Contenu des cours 2015

Dossier de Presse. 1 ier guide Interactif pour créateurs et entrepreneurs

Guide du locataire - Résidentiel. Foire aux questions (FAQ)

Comme nous devons clôturer nos systèmes actuels avant la transition, veuillez noter les dates suivantes :

Ville de Pierrefitte-sur-Seine Centre Technique Municipal

Enquête Sectorielle 2010 ANALYSE DU PRET INDIVIDUEL ET DE L ENDETTEMENT CROISE

Transcription:

Chapitre 5: Méthdes supervisées 2. Descriptin succincte de quelques méthdes de classificatin et de régressin STAT-H-400 Classificatin et régressin 1

Analyse Discriminante Particularités: 2 frmes/utilisatins cmplémentaires: méthde factrielle (au même sens que l'acp): descriptin "gémétrique" de la séparatin inter-classe (encre appelée analyse discriminante factrielle u analyse discriminante linéaire de Fisher) interprétatin bayesienne: classificateur bayesien (ptimum au sens de la prba. de l'erreur) dans des cnditins particulières pur les dnnées. (encre appelée analyse discriminante décisinnelle, linéaire u quadratique) => apprche paramétrique Restrictins d'applicatin: Tutes les variables descriptives X 1, X 2,... X p divent être quantitatives STAT-H-400 Classificatin et régressin 2

Analyse discriminante factrielle: principes de base Objectif: Mise en évidence des différences entre les bservatins appartenant à des classes différentes => descriptin des liaisns entre la variable "classe" et les variables quantitatives: les q classes diffèrent-elles sur l'ensemble des variables numériques? => recherche de facteurs (de directins, d'axes) dans les dnnées mettant en évidence/exacerbant ces différences Méthde: Déterminer un/des facteur(s), cmbinaisn(s) linéaire(s) des variables descriptives, qui prenne(nt) des valeurs les prches pssible pur des éléments de la même classe, et les élignées pssible entre éléments de classes différentes. (= facteurs discriminants) STAT-H-400 Classificatin et régressin 3

Exemple: Y axe discriminant X STAT-H-400 Classificatin et régressin 4

Décmpsitin de l'inertie (variance) ttale et de la matrice variance-cvariance S Ensemble des dnnées séparé en q classes n bservatins x i (à p dimensins) q "sus-nuages" (classes ω ) d'effectif n centre de gravité g q centres de gravité (u centrïdes) g 1 g = xi n i ω matrice variance-cvariance S q matrices variance-cvariance S Suivant le raisnnement dévelppé dans la méthde K-means: Pur tute décmpsitin d'un ensemble de dnnées en sus-ensembles, (ici les classes cnnues a priri) n a: Inertie ttale = Inertie inter-classe Inertie intra-classe Similairement (nn démntré ici), S se décmpse en la smme de 2 matrices S = B etween W ithin STAT-H-400 Classificatin et régressin 5

avec B = matrice de variance inter-classes = matrice variance-cvariance pndérée des centrïdes g : B = 1 n q n T ( g g)( g g) 14424 3 p p 4 = 1 matrice C ( ) ( p p) avec rend cmpte de la dispersin (variance) des centrïdes des classes autur du centre glbal g. c ( ) jj' = ( g j m j )( g j' m j' ) et W = matrice de variance intra-classe = myenne des matrices variance-cvariance des classes: S W p p = 1 n q = 1 n S STAT-H-400 Classificatin et régressin 6

Recherche des facteurs discriminants Cmme en ACP, n travaille en dnnées centrées (g est ramené à l'rigine) Le 1 er facteur discriminant (F 1 ) est une nuvelle variable, cmbinaisn linéaire des variables descriptives (centrées), dnt la variance inter-classe est maximum (u variance intra-classe minimum). Gémétriquement: le 1 er facteur détermine un axe dans le nuage de pints (passant par l'rigine) tel que les prjectins π(x) des pints sur cet axe aient une variance inter-classe max. c - à - d maximise Le 2 ème facteur (F2) est nn crrélé (perpendiculaire) au 1 er et de variance inter-classe max. etc pur le 3 ème... q SS B = n = 1 [ π ( g ) π ( g) ] F 1 F 2 x x x x x xx x x x x xx x x x STAT-H-400 Classificatin et régressin 7 2

Par un raisnnement similaire à celui péré en ACP (nn détaillé ici): Opérateur de prjectin sur un axe: La variance des prjectins se décmpse: s v 2 v T = s S v On a : 2 v( Between) = s v T s B v 2 v( Between) 2 sv 2 v( Within) W v Afin de déterminer v tel que : v T s 2 v( Within) 2 sv = 1 et 0 < Max v v v 2 v( Between) 2 sv B v S v n est ramené à une équatin au valeur prpre : T T s S < 1 1 B v = λ v STAT-H-400 Classificatin et régressin 8

Prpriétés: Les facteurs snt les vecteurs prpres de la matrice S -1 B Il y a au plus (q 1) valeurs prpres λ j nn nulles => le n bre maximum de facteurs discriminants = q 1 La part de variance inter-classe expliquée est décrissante entre les facteurs successifs. Tutes ces prpriétés snt à relier au fait suivant: une analyse discriminante = ACP sur le nuage des q centrïdes, pndérés par l'effectif des classes n, dans un espace R p avec S -1 cmme métrique! Représentatin graphique: Si 2 grupes => 1 seul facteur = axe de prjectin ù la séparatin interclasse est la mieux exprimée => crdnnées sur cet axe = scres discriminants. Si de 2 grupes => 1 er plan discriminant (F 1, F 2 ) = plan de prjectin u la variance inter-classe sera la mieux représentée. STAT-H-400 Classificatin et régressin 9

Interprétatin des facteurs: Cmme en ACP: crrélatins facteurs aux variables initiales cercle des crrélatins avec les 2 premiers facteurs (q > 2) Analyse discriminante décisinnelle => méthde de classificatin: 1) règle gémétrique (règle de Fisher): Les facteurs discriminants dnnent la meilleure représentatin de la séparatin des q centrïdes de classe (dans un espace rthnrmé). => pur un individu x prjeté dans l'espace des facteurs: attribuer la classe dnt le centrïde est le plus prche (au sens de la distance euclidienne): => surfaces de séparatin linéaires = hyperplans médians entre les centrïdes: R 1 R 2 R 3 prjectin de g 2 déterminatin de 3 régins de décisin (R 1, R 2, R 3 ) délimitant les pints 'sensés' appartenir aux différentes classes STAT-H-400 Classificatin et régressin 10

Traductin dans l'espace de départ (variables descriptives): allcatin au centrïde g le plus prche au sens de la métrique S -1 (distance de Mahalanbis) d 2 M (x, g ) = (x - g ) T S -1 (x - g ) Prblèmes: La métrique S -1 est évaluée sur l'ensemble des dnnées => prblème si les classes ne snt pas de même "frme" (dispersin). une classe est représentée par sn centrïde => prblème si le centrïde n'est pas représentatif d'une classe (cas des classes nn ellipsïdales u cmpsées de sus-nuages différents => séparatin frtement nn linéaire). ω 1 ω 1 g 1 x g 2 ω 2 g 1 ω ω 2 g2 2 ω 1 x purra être jugé plus prche de ω 1 que de ω 2 STAT-H-400 Classificatin et régressin 11

2) Interprétatin bayesienne La règle de Fisher crrespnd à un classificateur bayesien (minimisatin de la prba. de l'erreur) dans les cnditins suivantes: chaque classe suit une distributin gaussienne (multivariée) de même matrice variance-cvariance S (les nuages de pints nt la même 'frme'), les classes snt équidistribuées: mêmes prba. a priri En effet: Lrsque les distributins de classes snt gaussiennes de même matrice variancecvariance S, n a: P( ω ) Max P( x y = ω ) = P( ω ) ( 2π ) 1 p / 2 1/ 2 2 T 1 ( x g ) S ( x g ) STAT-H-400 Classificatin et régressin 12 S 1 exp fnctin de densité d'une gaussienne N(g, S) de dim. p [ P( ω ) P( x y = ω )] Max [ ln( P( ω )) ln( P( x y = ω ))] Max ln T 1 ( P( ω )) ( x g ) S ( x g ) 1 2

D'ù, dans ces cnditins, un classificateur bayesien se définit cmme suit: avec: x allué à ω si y (x) > y j (x) pur tut j y (x) = (x - g ) T S -1 (x - g ) 2 ln (P(ω )) <=> x allué à ω si d 2 M (x, g ) 2 ln (P(ω )) est minimum => Règle de Fisher généralisée favrise les classes frtement représentées La règle de Fisher riginale minimise la prbalilité d'erreur myenne par classe (dans les mêmes cnditins) STAT-H-400 Classificatin et régressin 13

3) Généralisatin au cas nn-linéaire Si les matrices variance-cvariance S des classes ne snt pas égales, les fnctins discriminantes du classif. bayesien deviennent: y (x) = ln S (x - g ) T S -1 (x - g ) 2 ln (P(ω )) Dans ce cas, les surfaces de séparatin entre 2 classes définies par y (x) = y j (x) ne snt plus linéaires => analyse discriminante quadratique Cnclusins: L'analyse discriminante est un classificateur bayésien de type paramétrique STAT-H-400 Classificatin et régressin 14

En pratique: La matrice S, u les matrices S, est/snt à évaluer à partir des exemples dispnibles pur chaque classe Idem pur les P(ω ), sauf si cnnaissance sur la prévalence des classes dispnible Lrsqu'n fait l'hypthèse d'égalité des matrices S, la matrice S est btenue par estimatin 'plée': S pl = (n 1 S 1 n 2 S 2... n q S q )/N (N = effectif ttal) L'usage et l'estimatin de matrices particulières S demande des effectifs de classe suffisamment imprtants. Pur des faibles effectifs l'existence de S () -1 n'est pas tjrs assurée, de même S () peut être nul! STAT-H-400 Classificatin et régressin 15

Régressin lgistique Avantages: Recherche directe de séparatins linéaires entre les classes (sans se baser sur les centrïdes et les matrices variances-cvariances). Si les classes snt linéairement séparables (quelque sit leur "frme"), la méthde truvera les séparatins. Si ce n'est pas le cas, la méthde truve la meilleure séparatin linéaire pssible au sens du "maximum de vraissemblance" (cf. ci-après) Surpassée par l'analyse discriminante linéaire uniquement si les distributins de classe snt gaussiennes avec des matrices variance-cvariance très similaires et pur lesquelles de bnnes estimatins snt dispnibles. Permet d'intégrer des variables indépendantes (prédicteurs) qualitatives => l'une des meilleures méthdes de séparatin linéaire! STAT-H-400 Classificatin et régressin 16

Principes de base: apprche semi-paramétrique 1) Mdélisatin des prbabilités a psteriri P(ω x) ( = 1,, q) Utilisatin de fnctins expnentielles nrmalisées, dépendant d'un certain nmbre de paramètres représentés par le vecteur w = (w 0, w 1, w 2,..., w p ) T. Les fcts discriminantes du mdèle, estimant les P(ω x), snt définies par: P(ω x) y (x) = exp(w T x') q j =1 exp(w j T x') ù x'=(1, x 1,x 2,...,x p ) T pur intrduire un terme indépendant Les valeurs de y 1 (x),..., y (x),..., y q (x) (pur tut x fixé) définissent une distributin de prbabilité appelée distributin lgistique. On a effet: 0 y (x) 1 et y (x) = 1 pur chaque x: degrés divers d'appartenance aux différentes classes STAT-H-400 Classificatin et régressin 17

Cnséquences: La régressin lgistique sépare les classes par des hyperplans: T ( w w ) x' = l 0 est l'équatin d'un hyperplan centré à l'rigine. x est du côté de l'hyperplan ù le prduit scalaire est psitif pur tut l STAT-H-400 Classificatin et régressin 18

2) Définitin des vecteurs de valeurs désirées et répnses Valeurs désirées (cf. intrductin): y * (x) = 1 si x appartient à ω et y * (x) = 0 sinn => vecteurs des valeurs désirées: y * i = (y* 1 (x i ),..., y* (x i ),..., y* q (x i ))T => y * i = vecteur (binaire) indicateur de la classe de x i De même: vecteurs répnses: y i = (y 1 (x i ),..., y (x i ),..., y q (x i )) T 3) Déterminatin des valeurs des paramètres w : But: Déterminer les w tels que les y i sient le plus prche pssible des y * i sur l'ensemble d'apprentissage: {x i, y * i ; i:1,..., n}. Méthde: Maximisatin du critère de vraisemblance ('lielihd') calculé sur l'ensemble d'apprentissage {x i, y* i } (sus l'hypthèse d'indépendance des cas d'apprentissage): STAT-H-400 Classificatin et régressin 19

Vraisemblance: n L(x 1,...,x n ;y * 1,...,y * n ) = P( x i,y * i ) = P( y * i x i )P(x i ) i =1 Sus l'hypthèse d'indépendance, et si y (x i ) = P(ω x), n cnsidère n q L' = y i= 1 = 1 En pratique, maximisatin de la frme lgarithmique: ln L' c-à-d n recherche les w qui rendent ln L' maximum Rmq: lnl' est une fnctin strictement cncave => un seul maximum glbal Différents algrithmes peuvent être utilisés, dnt celui de Newtn-Raphsn n i =1 y { ( )} * ( x ) x i car P( x) ne dépend pas des classes n q * = y ( xi )ln( y ( xi )) ù y ( x) = q i= 1 = 1 i exp( w j= 1 T exp( w x') T j x') STAT-H-400 Classificatin et régressin 20

Intégratin de variables qualitatives dans le mdèle: Pas d'hypthèse sur les variables pssibilité de cnsidérer des variables binaires dans le vecteur x intégratin pssible de variables qualitatives (cf. ACM) Remarques: La mdélisatin des P(ω x) par une distributin lgistique est beaucup mins cntraignante que des cnditins de nrmalité avec des matrices var.- cvar. égales apprche plus générale (mais limitée à une séparatin linéaire). exp(w T x') = exp( i w i x' i ) fct expnentielle d'une cmbinaisn linéaire des valeurs des variables. Le pids attribué à une variable renseigne sur l'imprtance de la variable dans le mdèle: s'il est faible => cette variable intervient peu => peut être retirée du mdèle (dans certaines cnditins, il existe des tests statistiques pur statuer sur le fait que w i 0). STAT-H-400 Classificatin et régressin 21

Méthde des plus prches visins Principes de base: -N-N ( nearest neighburs) Règle de classificatin simple sans ajustement d'un mdèle (pas d'apprentissage): utilisatin directe des dnnées d'apprentissage. Règle des plus prches visins ( fixé, généralement impair): Tut vecteur x est allué à la classe majritairement représentée parmi les bservatins les plus prches de x. En cas d'ex æqu entre 2 (u plusieurs) classes, n utilise généralement la smme des distances aux visins de chaque classe cncurrente pur les départager. besin d'une métrique apprpriée àla nature des dnnées (cf méthdes de regrupement). STAT-H-400 Classificatin et régressin 22 '' '' x? x? x? x? x? x?

Avantages () / désavantages ( ): simplicité de la méthde, facilité de mise en euvre, séparatin nn-linéaire (linéaire par mrceaux si = 1, cf. illustratins), apprche gémétrique lcale (s'adapte aux irrégularités du nuage de pints), identificatin de pints 'aberrants' (enturés de pints issus d'autres classes), prpriété assympttique* déterminatin de la valeur de, dépendance des résultats à la métrique, sensible aux prblèmes d'échelle et à la présence de variables irrelevantes (=> travailler sur dnnées standardisées et/u sur les facteurs d'une ACP/M), stcage et temps de calcul pur de grandes bases d'exemples. * Optimalité au sens bayesien (minimisatin de P e ) asympttique: lrsque n (nbre d'exemples de référence) et (nbre de visins) avec /n 0 STAT-H-400 Classificatin et régressin 23

STAT-H-400 Classificatin et régressin 24 Extensins: (pur répndre aux limitatins) méthdes d'éditin / de cndensatin: sélectinner les exemples les plus représentatifs pur maintenir les perfrmances tut en diminuant la base de référence champs de recherche de l' "Instance-based learning" recherche de prttypes: générer de nuveaux vecteurs de référence synthétiques, appelés prttypes (au lieu de sélectinner des exemples de référence), et applicatin de la règle 1-N-N => gain en temps de calcul et en généralisatin (perfrmances). Illustratins: règle 1-N-N 1-N-N sur prttypes

Régressin linéaire multiple Principe de base: ajustement linéaire (cf. rappels sur la Régressin simple) Prblématique: Expliquer u prévir les valeurs d'une variable Y à partir de celles de p variables X 1, X 2,..., X p (variables explicatives u prédicteurs). On pse le mdèle: Y = β 0 β 1 X 1 β 2 X 2... β p X p ε ù les β j snt les paramètres incnnus du mdèle et ε est le terme d'erreur u résidu (partie de Y nn expliquée par les X j ) suppsé aléatire. Objectif: truver les valeurs des paramètres du mdèle qui minimisent l'erreur au sens d'un certain critère. En pratique: n dispse d'un ensemble d'apprentissage {(x i, y * i ); i = 1 à n}. déterminer les valeurs b j des paramètres qui minimisent les résidus e i, Sit ˆ la valeur prédite par le mdèle sur base de x i, n a: y i ˆ y i = b 0 p b j x ij et e i = y * i ˆ y i j =1 STAT-H-400 Classificatin et régressin 25

Critères d'ajustement les plus usités (à minimiser): critère des mindres carrés: i e i2 (critère le plus utilisé: calculs simples, prpriétés gémétriques et statistiques) critère des mindres valeurs abslues: i e i dnne mins de pids aux résidus imprtants => rbuste Ajustement par la méthde des mindres carrés: L'ensemble d'apprentissage (valeurs de Y cnnues) définit un système de n équatins : y * i = b 0 j b j x i j e i En ntatin matricielle, n a: y * nx1 = X nx(p1) b (p1)x1 e 1xn ù b = (b 0, b 1,..., b p ) T X = 1 1 M x ij 1 matrice des bservatins x ij augmentée d'une 1 ere cl. de '1' (prise en cmpte du terme indépendant, cf. régressin lgistique) STAT-H-400 Classificatin et régressin 26

Calcul des cefficients: Déterminer b qui rendent i e i2 = e T e minimum c-à-d (y * Xb) T (y * Xb) minimum b [(y * Xb) T (y * Xb)] = 0 X T Xb= X T y * (p équatins à p incnnues) Une slutin exacte existe si X T X est inversible: On a alrs: b = (X T X) -1 X T y * X T X est inversible si 1) n p (plus d'équatins que d'incnnues) 2) les variables X j snt linéairement indépendantes c-à-d r ij2 << 1 (i j) STAT-H-400 Classificatin et régressin 27

Remarques: Si les X j snt frtement crrélées: l'inversin de X T X est difficile (résultats imprécis et instables) une slutin: réaliser la régressin sur les q premières cmpsantes principales (de variances nn négligeables) extraites de X et réinterpréter le mdèle en fct des variables initiales. Si les variables X j snt centrées: X = matrice des valeurs (x ij m j ) matrice var.-cvar.: S = X T X / (n -1) b 0 = 0 et les autres cefficients b j restent identiques. STAT-H-400 Classificatin et régressin 28

Cefficient de crrélatin multiple et qualité de l'ajustement On a (cf. régressin linéaire simple): n i= 1 n n p * 2 2 * 2 ( yi y) = ( yˆ i y) ( yi yˆ i ) avec yˆ i = b0 i= 1 SS tt = SS reg SS res SS 2 reg Cefficient de déterminatin: R = SStt % de variatin de Y expliquées par la dépendance de Y aux X i i= 1 j= 1 b j x ij! Cefficient de crrélatin multiple: Cmme: Min. i e i 2 Max. R 2. * * cr ( y, yˆ ) = cr( y, Xb) = R => L'ajustement des mindres carrés détermine la cmbinaisn linéaire des variables X j de crrélatin maximale avec Y Rmq.: Ajuter une variable explicative X p1 augmente i e i2 et dnc R => R n'est pas une mesure abslue de qualité d'ajustement (à cmparer à nbre de var. égal) 2 STAT-H-400 Classificatin et régressin 29

Mdèle statistique (inférence) Cmme en régressin simple, n suppse une dépendance linéaire en myenne de Y par rapprt aux valeurs x ij (suppsées fixées) des X j Le mdèle cmplet est déterminé par les n bservatins indépendantes de Y et les valeurs x ij assciées: Y 1 = β 0 β 1 x 11 β 2 x 12... β p x 1p ε 1 Y 2 = β 0 β 1 x 21 β 2 x 22... β p x 2p ε 2 Y n = β 0 β 1 x n1 β 2 x n2... β p x np ε n ù les différents résidus ε i snt suppsés être des variables aléatires: de myenne nulle (E(ε i ) = 0) de même variance (E(ε i2 ) = σ 2 ) nn crrélées (cv(ε i, ε ) = 0 i ) Seuls ces résidus snt respnsables des variatins des Y i (x ij fixés), cnsidérées dnc cmme des variables aléatires. STAT-H-400 Classificatin et régressin 30

En ntatin matricielle: Y nx1 = X nx(p1) β (p1)x1 ε 1xn avec E(ε) = 0 et S ε = σ 2 I (matrice var.-cv. des résidus), et dnc E(Y) = X β et S Y = σ 2 I (généralisatin de la régres. simple) Sus ces hypthèses, les cefficients de régressin b j déterminés par la minimisatin du critère des mindres carrés snt les "meilleurs" estimateurs des cefficients incnnus β j : E(b j ) = β j (estimateurs nn biaisés) et Var(b j ) minimales. Dépendance entre les matrices var-cv: S b = σ 2 (X T X) -1 (= σ 2 S X -1 si n travaille en var. centrées) => la structure des dnnées x ij influence la qualité des ceff. de régressin (cf rmq sur la crrélatin des X i ). STAT-H-400 Classificatin et régressin 31

Tests d'hypthèse et intervalles de cnfiance sur les cefficients β j Prpriété requise: distributin nrmale des résidus: ε ~ N(0, σ 2 I), tests (nn détaillés ici) identifiant: des valeurs β j 0 => variable explicative X j cntributive des valeurs de R 0 => % de variance expliquée nn nul I.C. sur les valeurs de β j et R I.C. pur la valeur de Y intervalle de prédictins (étant dnné les valeurs fixées des variables explicative) STAT-H-400 Classificatin et régressin 32

Analyse des résultats: Objectif: détecter de pssibles anmalies dans le mdèle (par rapprt aux hypthèses de base) Outils: représentatins graphiques pur l'analyse des résidus (erreurs): vérifier la nrmalité des résidus e i (histgramme test): si pas vérifiée, n peut créer le mdèle mais n ne peut pas faire d'inférence! représenter les e i an fnctin des estimatins y ˆ i : permet de vérifier si la variance reste cntante, si une dépendance apparaît et la présence de pints extrêmes ("utliers"). Ex: e e e ˆ y ˆ y ˆ y dépendance => prblèmes de calcul variance nn c ste => demande une transf. des dnnées situatin idéale: pas de dépendance et variance c ste STAT-H-400 Classificatin et régressin 33

autre représentatin pssible: les estimatins en fct des valeurs bservées. Idéalement les pints se distribuent autur de la 1 ere bissectrice: ˆ y y * permet de repérer les "utliers" et les znes ù le mdèle est mins bien ajusté aux dnnées (par ex. à tendance nnlinéaire) => znes de mins bnne perfrmance STAT-H-400 Classificatin et régressin 34