Une approche pour rendre calculable P(Y/X) Ricco RAKOTOMALALA. Ricco Rakotomalala Tutoriels Tanagra -

Dimension: px
Commencer à balayer dès la page:

Download "Une approche pour rendre calculable P(Y/X) Ricco RAKOTOMALALA. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot."

Transcription

1 Une approche pour rendre calculable P(Y/X) Ricco RAKOTOMALALA Tutoriels Tanagra - 1

2 PLAN 1. Fondeents probabilistes, MMV et Estiateurs. Évaluation «epirique» 3. Évaluation «statistique» 4. Interprétation des coefficients 5. Sélection autoatique de variables 6. Quelques coentaires et curiosités Les fichiers XLS associés à ce support sont disponibles en ligne Tutoriels Tanagra -

3 Principe de la axiisation de la vraiseblance Estiation des paraètres Tutoriels Tanagra - 3

4 Théorèe de Bayes Probabilités conditionnelles On se place dans le cadre binaire Y {+, -} Estier la probabilité conditionnelle P ( Y y / X ) k P K k ( Y y k ) P ( X / Y y k ) P ( X ) P ( Y y ) P ( X / Y y ) 1 P k ( Y y ) P ( X / Y y ) k k k Dans le cas à classes P( Y P( Y + / X ) / X ) P( Y P( Y + ) ) P( X / + ) P( X / Y ) La règle d affectation devient Si (ce rapport > 1) Alors Y + Cette quantité est facile à estier à partir des données Quelle hypothèse introduire pour rendre l estiation de ce rapport possible? On parle de éthode sei-paraétrique parce qu on ne fait pas d hypothèses directeent sur la distribution ais sur un rapport de distribution l hypothèse est oins restrictive. Tutoriels Tanagra - 4

5 Hypothèse fondaentale de la régression logistique P( X ln P( X / Y / Y + ) ) b 0 + b 1 X 1 + L+ b J X J Cette hypothèse couvre une très large classe de distributions Loi norale (ide Analyse discriinante) Loi exponentielle Lois discrètes Loi gaa, Beta, Poisson Mélange de variables explicatives binaires (0/1) et nuériques 1. Chap d application théoriqueent plus large que l Analyse Discriinante. Sa capacité à traiter et proposer une interprétation des coefficients pour les explicatives binaires est très intéressante Tutoriels Tanagra - 5

6 Le odèle LOGIT Une autre écriture du rapport de probabilité Écrivons π(x) P(Y+/X) On définit le LOGIT de P(Y+/X) de la anière suivante a J X J X a a X X L ) ( 1 ) ( ln π π 1 - π(x) P(Y - / X) Puisqu on est dans un cadre binaire Tutoriels Tanagra J J J J X a X a a X a X a a e e X L L ) ( π C est la fonction de répartition de la loi Logistique ) / ( ) / ( ) ( 1 ) ( X P X P X X + π π Représente un «odds» c.à.d. un rapport de chances. Ex. odds l individu à fois plus de chances d être positif que d être négatif.

7 La fonction logistique Quelques éléents de lecture Fonction logistique Fonction logistique Pi(X) a0+a1x+...+ajxj A propos de la fonction de transforation C(X) a0+a1.x1+ +aj.xj varie de oo à +oo 0 π(x) 1, c est une probabilité!!! A propos de la règle d affectation π(x) / [1 - π(x)] > 1 Y+ π(x) > 0.5 Y+ C(X) > 0 Y+ Rearques : C(X) et π(x) perettent de classer les individus selon leur propension à être + Sauf que π(x) est une «vraie» probabilité D autres fonctions cuulatives pour transforer C(X). Ex. la loi norale : odèle PROBIT Fonction de transforation non-linéaire : on parle de régression non-linéaire dans la littérature Tutoriels Tanagra - 7

8 Équivalence entre les approches [ ] J J J J X b X b b P X P X P P P X P P X P P X a X a a X X ) ( ln ) / ( ) / ( ln ) ( ) ( ln ) / ( ) ( ) / ( ) ( ln... ) ( 1 ) ( ln π π Tutoriels Tanagra [ ] b J X J X b b P ) ( ln S appuyer sur l hypothèse sei-paraétrique Ou S appuyer sur la définition du LOGIT Aboutissent à la êe forulation (à une constante près) 0 0 ) ( ) ( ln b P P a + + Les cas où la régression logistique est inopérante sont ieux circonscrites : ce sont les cas où les hypothèses de distribution ne sont absoluent crédibles au regard des données (ex. distribution ultiodales)

9 Données exeples pour ce support Détection d une aladie cardiaque a ge t a ux_a x a ngine coe ur pr es ence pr es ence pr es ence pr es ence pr es ence pr es ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence Y : (+ présence, - absence) X1 : age du patient (quantitative) X : taux ax (quantitative) X3 : angine de poitrine (binaire) Tutoriels Tanagra - 9

10 Estiation des paraètres Pourquoi pas les MCO? Ω est notre échantillon ω est une observation Card(Ω)n Dans un cas Y binaire (Positifs vs. Négatifs), nous pouvons coder 1, si y( ω) + z( ω) 0, si y( ω) On constate aiséent E[ Z( )] P[ Y ( ) + ] ω ω Rapportée dans l équation de régression E Z( ω)] P[ Y ( ω) + ] c + c X ( ω) + K+ c J X [ J ( ω) endogène exogènes On devrait donc pouvoir ettre en place une régression qui peret d estier directeent la probabilité d appartenance P(Y+)??? La cobinaison linéaire varie entre et +, ce n est pas une probabilité Dans l échantillon, nous disposons de Y(ω) ais pas de P[Y(ω)+] (Il faudrait que les données soient groupées ou pondérées pour que son estiation soit possible) Les hypothèses de la MCO, notaent l hooscédasticité et la noralité des résidus posent problèe : statistique inférentielle ipossible (évaluation des coefficients, etc.) Tutoriels Tanagra

11 Rearques sur la notation Quelques précisions sur les notations et les expressions Y (ω) est la odalité de Y prise par un individu ω, observé ( X1( ω), L, X ( ω)) J est la description d un individu ω, dans l espace des variables explicatives P [ Y ( ω) + ] p est la probabilité a priori d un individu d être positif ( X ( )) P [ Y ( ω) + / X ] π ω + est la probabilité qu un individu ω quelconque soit +, c est ce qu on veut odéliser π ( X ( ω)) ln a0 + a1 X1( ω) a J X J ( ω) 1 π ( X ( ω)) est le LOGIT d un individu ω ou π ( X ( ω)) ln X 1 π ( ( ω)) X ( ω) a avec a' ( a 0, a 1 X ( ω) (1, X, K, a 1 J ) ( ω), K, X J ( ω)) On veut estier à partir des n observations aˆ ' ( aˆ, ˆ,, ˆ 0 a1 K aj ) X 0 ( ω) 1 Tutoriels Tanagra

12 Estiation des paraètres Définir la vraiseblance Le odèle binoial (1) Parce que Y est binaire {+, -} ou Y {1, 0} pour siplifier () Si Y était d une autre nature, on utiliserait d autres odèles (ex. Poisson, Multinoial, ) Pour un individu ω, on odélise la probabilité P(Y/X) avec le odèle binoial Y ( ω) [ 1 Y ( ω) ] π ( ω) (1 π ( ω)) Y(ω) 1 P(Y1/X) π Y(ω) 0 P(Y0/X) 1-π La vraiseblance (LIKELIHOOD) pour un échantillon Ω (les observations sont i.i.d.) L Y Ππ ω ( 1 π ) [ 1 Y ] Interprétation? Valeur ax.? La log-vraiseblance (LOG- LIKELIHOOD) LL Y ln( π ) + Y ω [ 1 ] ln(1 π ) Tutoriels Tanagra - 1

13 Estiation des paraètres Méthode du axiu de vraiseblance N oublions pas que π ln 1 π Xa On veut estier à partir des n observations â Principe de la axiisation de la vraiseblance : produire les paraètres de anière à axiiser la quantité LL Y ln( π ) + Y ω ( 1 ) ln(1 π ) â est un EMV (estiateur du axiu de vraiseblance) avec toutes ses qualités : asyptotiqueent sans biais variance iniale asyptotiqueent noral (iportant pour l inférence) Rearque : On anipule souvent la quantité [ LL] que l on appelle DEVIANCE (cf. analogie avec la SCR de la régression) Tutoriels Tanagra

14 Un exeple sous EXCEL a0 a1 a a a ge t a ux_a x a ngine coe ur cœ ur C(X) π LL pr es ence pr es ence pr es ence pr es ence pr es ence pr es ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence LL â LL Y ln( π ) + [ 1 Y ] ln(1 π ) ω Valeur de LL obtenue par iniisation avec le SOLVEUR C a0 + a1 X1 + ax a3x π 3 C C + e 1+ e Tutoriels Tanagra

15 Estiation en pratique Méthode de Newton Raphson Il n y a pas de éthode directe pour optiiser L Passer par des éthodes nuériques : la éthode de Newton-Raphson est la plus utilisée Solutions à l étape i et (i+1) a i+ 1 a i L a a. ' 1 L a Matrice des dérivées partielles secondes Matrice hessienne di (J+1)x(J+1)) Son inverse est la atrice de variance co-variance des coefficients H j j1, j) x j ( ω) x ( ω) π ( ω) [1 π ( ω)] ( 1 ω Vecteur des dérivées partielles preières Vecteur gradient di J+1 L a j ω [ y( ω) π ( ω) ] x ( ω) Dont toutes les coposantes sont égales à 0 lorsqu on a trouvé la solution. j Règle d arrêt : nobre d itérations ax., ou décroissante «trop faible» de L, ou écart faible entre les deux estiations successives de a D un logiciel à l autre, les résultats peuvent être différents (précision des calculs, choix de l algorithe d optiisation, règle d arrêt, etc. Beaucoup de calculs coplexes, donc risque d erreur!!! Lorsque la discriination est parfaite, la atrice hessienne n est plus inversible : le logiciel «plante»!!! Tutoriels Tanagra

16 Bilan global de la régression basé sur les prédictions et la déviance Tutoriels Tanagra

17 Preière évaluation La atrice de confusion Coune à toutes les techniques supervisées, peret les coparaisons entre éthodes (ex. Reg. Logistique vs. Arbre de décision, etc.) a0 a1 a a a ge ta u x_a x a n gine coe ur cœ ur C(X)? LL Pré diction pr es ence pre se nce pr es ence pre se nce pr es ence a bse nce Nobre de Prédiction coeur pr es ence a bse nce coeur presence absence Total pr es ence a bse nce presence pr es ence pre se nce absence abs ence a bse nce Total abs ence a bse nce abs ence a bse nce Taux d'err eur abs ence a bse nce Sens ibilité abs ence pre se nce Spécificité abs ence a bse nce Précis ion abs ence a bse nce abs ence a bse nce abs ence a bse nce abs ence a bse nce abs ence a bse nce abs ence a bse nce abs ence a bse nce abs ence a bse nce Si C(X) > 0 Alors Prédiction «présence» Ou, de anière équivalente : Si π(x) > 0.5 Alors Prédiction «présence» Mieux vaut réaliser cette évaluation sur un fichier test, n ayant pas participé à la construction du odèle : les indicateurs sont non-biaisés Tutoriels Tanagra

18 Deuxièe évaluation Les pseudo-r² Modèle de référence : le odèle initial Objectif : Produire des indicateurs siilaires au R², coefficient de déterination de la régression linéaire. Coent? Coparer le odèle avec le odèle initial (trivial) constitué de la seule constante. Modèle trivial : on n utilise pas les X pour prédire Y P ( Y / X ) P( Y ) π LOGIT ( π ) ln a 1 π 0 Estiation a ˆ0 pˆ + ln 1 pˆ + Log-vraiseblance n ln n n ln(1 pˆ ) + n + [ 1 Y( )] LL( 0) Y ( ω) ln( pˆ ) + ω ln(1 pˆ ) ω pˆ + ln 1 pˆ + + Estiation «classique» a0 a1 a a a ge ta ux_a x a ngine coe ur cœ ur C( X) π LL pres ence pres ence pres ence pres ence pres ence pres ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence LL Estiation «directe» 6 aˆ0 ln LL(0) 0 ln(1 0.3) + 6 ln( ) Tutoriels Tanagra

19 Deuxièe évaluation Les pseudo-r² Quelques indicateurs McFadden s R² R MF 1 LL( a) LL(0) Min 0 si LL(a) LL(0) Max 1 si L(a) 1 c.à.d. LL(a) 0 Cf. l analogie avec le R² 1 SCR/SCT de la régression COX and Snell s R² R CS L(0) 1 L( a) n Min 0 Max si L(a) 1 n [ ] ax R CS 1 ( L (0)) Nagelkerke s R² R CS N ax[ RCS R ] Min 0 Max 1 LL(0) L(0) 4.94E-06 Prédiction de aladie cardiaque LL(a) L(a) R² f R²cs R²n Plus on s écarte de 0, ieux c est. Mais on ne sait pas trop quoi conclure, c est «suffisaent» bien ou pas? Tutoriels Tanagra

20 Bilan basé sur la qualité des scores fournis par la régression Tutoriels Tanagra - 0

21 Evaluation des scores Adéquation entre «scores» fournis par le odèle et «scores» observés dans l échantillon La régression fournit pour chaque individu ω le score π(ω) qui est une estiation de la probabilité P(Y + / X). Question : est-ce cette estiation est de bonne qualité? Objectif du test de conforité Confronter les scores estiés par le odèle avec le score observé dans l échantillon Coent? Organiser les données par paquets selon les scores, coparer dans chaque groupe les scores estiés (odèle) et observés (proportion de positifs) Note : Il est d usage de travailler directeent sur l échantillon d apprentissage pour ces calculs, ais on pourrait tout aussi bien fonctionner avec un échantillon test. Tutoriels Tanagra - 1

22 Diagrae de fiabilité (Reliability diagra) Extrait de l ouvrage «Pratique de la régression logistique» (section.) N 100 observations Pour chaque individu ω, on connait sa classe Y(ω) (1 ou 0) Et on a calculé son score π(ω) à partir du odèle Proportion des "+" Moyenne des scores Moyenne de Y Moyenne de PI PI Total PI Total Observations subdivisées en G 4 blocs via les scores (intervalles de largeur égales : 0-0.5, , ), on copare dans un graphique : la oyenne des scores et la proportion des positifs Diagrae de fiabilité Proportion des "+" Si les points sont alignés sur la diagonale principale, les scores sont de bonne qualité Moyenne des scores Tutoriels Tanagra -

23 Test de Hoser & Leeshow Extrait de l ouvrage «Pratique de la régression logistique» (section.3) Exeple : Groupe 1 n 1 10, n 1 (+), n 1 (-) 8 10 Scores 1 (+) Soe(scores 1 ) Scores 1 (-) 10 Scores 1 (+) Statistique (HL) ( )²/ ( )²/ ( )²/ ( )²/ Groupe Décile Effectif Observés Théoriques Observés Théoriques Positifs Négatifs Observations subdivisées en G 10 blocs via les scores (intervalles de fréquences égales : seuils déciles), on copare par calcul la soe des scores (resp. effectifs soe des scores) et le nobre de positifs (resp. négatifs) Sous (H0 : le odèle est copatible avec les données), HL χ² (G - ) Pour notre exeple à 5%, χ² 0.95 (8) ; le odèle est cohérent avec les données. Tutoriels Tanagra - 3

24 Le odèle est-il statistiqueent significatif? Telle ou telles variables sont elles pertinentes? Tutoriels Tanagra - 4

25 Évaluation «statistique» S appuyer sur le odèle probabiliste issu de la axiisation de la vraiseblance Croiser deux points de vue Évaluer globaleent le odèle c.-à-d. H0 : a 1 a a J 0 Aucune variable n est pertinente Coparer les vraiseblances Test du Rapport de vraiseblance Évaluer individuelleent les variables c.- à-d. H0 : a j 0 Évaluer un groupe de «q» variables c.-à-d. H0 : a j a j+q 0 S appuyer sur la noralité asyptotique des estiateurs (on sait calculer la atrice de variance co-variance des coefficients) Tutoriels Tanagra - 5

26 Principe du rapport de vraiseblance Coparer la vraiseblance des odèles eboîtés LR L(odèle réduit) ln L(odèle coplet) [ LL(odèle réduit) ] [ LL(odèle coplet) ] LR est forcéent positif. Pourquoi? Modèle à p variables (p < J) c.-à-d. à (p+1) paraètres estiés D.D.L n-p-1 Modèle à J variables c.-à-d. à (J+1) paraètres estiés D.D.L n-j-1 LR χ ( J p) LR suit asyptotiqueent une loi du KHI- à (J-p) degrés de liberté. Dans notre exeple : -LL(a) Ce sera le odèle «coplet» de référence. Tutoriels Tanagra - 6

27 Test du rapport de vraiseblance Évaluation globale du odèle Coparer le odèle coplet avec le odèle constitué uniqueent de la constante c.-à-d. tester si tous les coefficients (à part la constante) peuvent être siultanéent nuls a0 a1 a a a ge ta ux_a x a ngine coe ur cœ ur C(X) π LL pres ence pres ence pres ence pres ence pres ence (A) : - LL(0) pres ence (B) : -LL(age,taux,angine) abs ence LR : (A) - (B) abs ence d.d.l abs ence p-value abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence LL Le odèle est globaleent significatif à 5% c.-à-d. H0 : a1 a a3 0 n est pas copatible avec les données Tutoriels Tanagra - 7

28 Test du rapport de vraiseblance Évaluer individuelleent les variables Coparer le odèle coplet avec le odèle sans la variable à évaluer c.-à-d. tester si le coefficient associé à la variable est significativeent différent de 0 ex. Tester le rôle de la variable «âge» a0 a1 a a a ge ta ux_a x a ngine coe ur cœ ur C(X) π LL pres ence pres ence pres ence pres ence pres ence (A) : - LL(taux,angine) pres ence (B) : -LL(age,taux,angine) abs ence LR : (A) - (B) abs ence d.d.l abs ence p-value abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence LL La variable «âge» n est pas significative à 5% c.-à-d. H0 : a1 0 est copatible avec les données Tutoriels Tanagra - 8

29 Test du rapport de vraiseblance Évaluer un groupe de variables Coparer le odèle coplet avec le odèle sans les variables à évaluer c.-à-d. tester si les coefficient associés aux variables sont significativeent différents de 0 ex. Tester le rôle siultané des variables «âge» et «taux ax» a0 a1 a a a ge ta ux_a x a ngine coe ur cœ ur C(X) π LL pres ence pres ence pres ence pres ence pres ence (A) : - LL(angine) pres ence (B) : -LL(age,taux,angine) abs ence LR : (A) - (B) abs ence d.d.l abs ence p-value abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence LL 1.74 Les variables «âge» et «taux ax» ne sont pas significatifs à 5% c.-à-d. l hypothèse nulle H0 : a1 a 0 est copatible avec les données Tutoriels Tanagra - 9

30 Tests fondés sur la noralité asyptotique des coefficients Principe Test de Wald EMV asyptotiqueent noraux. Le vecteur des coefficients «a» suit une loi norale ultidiensionnelle de atrice variance covariance inverse de la atrice Hessienne (atrice des dérivées secondes de la vraiseblance / aux coefficients) Matrice des variables H X (J+1)x(J+1) ' VX explicatives, en preière colonne la constante. Matrice diagonale de taille (n X'VX x n), foré par les π (1 - π) estiés par la régression ˆ 1 Σ (J+1) x (J+1) H C est la atrice de variance co-variance des coefficients estiés. En particulier, sur la diagonale principale, nous observons la variance des coefficients inv( X'VX) Eca rt t ype coe f. cons t age taux_ ax angine Tutoriels Tanagra

31 Test de Wald Évaluer la significativité d un groupe de «q» variables H0 : a j a j+1 a j+q 0 La statistique du test (Wald) suit une loi du KHI- à q degrés de liberté. Ex. Tester a1 a 0 H 0 a1 0 : a 0 1 W ˆ' ˆ ( q) a ( q) Σ( q) a( q) χ ( q) Σ(q) Sous-atrice des var-covar des q coefficients à évaluer Sous-vecteur des q coefficients à évaluer Pour rappel, dans notre exeple Cœur f(age,taux ax, angine) â SIGM A Σ () Σ () Calcul de la statistique de Wald W ( ) wald ddl p-value Les coefficients ne sont pas siultanéent significativeent différents de 0 à 5% H0 est copatible avec nos données Tutoriels Tanagra

32 Test de Wald Significativité d une variable H0 : a j 0 W j aˆ j ˆ σ j χ (1) C est la valeur lue sur la diagonale principale de la atrice de var-covar des coefficients estiés Ex. Tester a1 0 SIGM A W ( 0.16) wald ddl 1 p-value A 5%, la variable «âge» n est pas significative Tutoriels Tanagra - 3

33 Test de Wald Significativité globale du odèle H0 : a 1 a a J 0 Tous les coefficients, is à part la constante, peuvent ils être siultanéent égaux à 0? 1 W ˆ' ˆ ( J ) a ( J ) Σ( J ) a( J ) χ ( J ) Généralisation du test de q variables Ex. Tester a1 a a3 0 SIGM A Inversion de la sous-atrice Σ 1 ( J ) Calcul de la statistique de Wald W ( ) w ald ddl 3 p-value Le odèle n est pas globaleent significatif à 5% H0 est copatible avec nos données Tutoriels Tanagra

34 Bilan Évaluation statistique Test de Rapport de vraiseblance + Puissant -- Plus gourand en ressources de calcul (reconstruire le odèle à chaque fois) Test de Wald -- Moins puissant c.-à-d. plus conservateur, favorise H0 -- Quand la valeur du coef. est élevée, l estiation de l écart-type gonfle exagéréent, on éliine à tort la variable -- Pas très bon lorsque les effectifs sont petits (coe c est le cas ici) + Moins gourand en ressources (inversion de atrice quand êe) Tests à 5% Signif. Globale Signif. «âge» Signif. «âge et taux ax» Rapp. Vraiseblance Rejet H0 p-value Accep. H0 p-value Accep. H0 p-value Wald Accep. H0 p-value Accep. H0 p-value Accep. H0 p-value Tutoriels Tanagra

35 Lire les résultats des logiciels Tanagra et R TANAGRA Déviance du odèle réduit à la constante seule Déviance du odèle R KHI- du rapport de vraiseblance Pseudo-R² Tutoriels Tanagra

36 Ce qui fait le succès de la régression logistique Tutoriels Tanagra

37 Risque relatif, odds, odds-ratio Quelques définitions Nobre de coeur angine cœur 1 0 Total Total Y / X a b a+b 0 c d c+d a+c b+d n Risque relatif P( + /1) RR P( + / 0) 3/ 5 3/15 3 a /( a + c) b /( b + d) Indique le surcroît de «chances» d être positif du groupe «exposé» par rapport au groupe «téoin»: les personnes qui ont une angine de poitrine lors des efforts ont 3 fois plus de chances (que les autres) d avoir une aladie cardiaque. Odds Odds-Ratio Odds( + /1) P( + /1) P( /1) a /( a c /( a + + c) c) OR(1/ 0) Odds( + /1) Odds( + / 0) a d b c 3/ 5 / Dans le groupe de personnes ayant une angine de poitrine lors des efforts, on a 1.5 fois plus de chances d avoir une aladie cardiaque que de ne pas en avoir. De la êe anière, on peut définir Odds(+/0) 3/1 0.5 Indique à peu près la êe chose que le risque relatif : dans le groupe exposé, on a 6 fois plus de chances d être positif que dans le groupe téoin. Tutoriels Tanagra

38 Risque relatif, Odds, Odds-Ratio Pourquoi choisir l Odds-ratio? Lorsque p + (prévalence) est très petit, OR ~ RR. Presque toujours, l un ou l autre, c est la êe chose. a << c a + c c b << d b + d d RR a /( a + c) b /( b + d) a / c b / d a d b c OR MAIS l Odds-ratio est invariant selon le ode d échantillonnage Tirage aléatoire RR 3 cœur x angine 1 0 Total Odds(+/1) Odds(+/0) 0.5 Total OR(+) 6 Souvent un vœu pieux : tirage aléatoire à probabilités égales dans la population. Échantillon aléatoire. Tirage retrospectif (presque) équilibré RR 1.8 cœur x angine 1 0 Total Odds(+/1) Odds(+/0) 0.5 Total OR(+) 6 Souvent pratiqué : on choisit l effectif des positifs et des négatifs, et on échantillonne au hasard dans chaque groupe l OR reste de arbre!!! Tutoriels Tanagra

39 Odds-ratio Quel rapport avec la régression logistique? Calcul sur un tableau de contingence Tirage aléatoire cœur x angine 1 0 Total Total OR( 1/ 0) 6 3 Régression logistique cœur f(angine) Model Chi² test Chi-.694 d.f. 1 P(>Chi-) Attributes in the equation Attribute Coef. Std-dev Wald Signif constant angine e Le coefficient de la Reg.Log. s interprète coe le logarithe de l odds-ratio. On peut esurer directeent le surcroît de risque qu introduit chaque facteur explicatif (variable 1/0). A partir de l intervalle de confiance du coefficient (noralité asyptotique) On peut déduire l intervalle de confiance de l odds-ratio Intervalle de confiance de l odds-ratio (ex. à 5%) bb( a) bh( a) bb( OR) bh( OR) e e Si l intervalle contient la valeur «1», cela indique que l influence u du facteur sur la variable dépendante n est pas significative au niveau de risque choisi. Tutoriels Tanagra

40 Odds-Ratio OR partiel et OR des variables continues Équation coportant toutes les variables Pour les variables quantitatives, le coefficient se lit coe le logarithe de l OR consécutive à l augentation d une unité de la variable explicative. Ici, étrangeent, l augentation de l âge d une année, si l on contrôle les valeurs de angine et taux ax, va réduire le risque de présence de aladie OR EXP(-0.16)0.88 A taux ax et age fixés (ou après avoir enlevé l effet du taux ax et de l âge), l OR de la variable angine est EXP(1.779)~5.9 Pour tepérer cette conclusion, on rearquera que la variable n est pas significative, êe à 10% (colinéarité? Effectifs trop faibles?) La êe idée que la corrélation partielle. Mieux vaut quand êe travailler sur des fichiers avec des effectifs plus élevés dans les études réelles!!! Tutoriels Tanagra

41 Odds-Ratio Aller plus loin que les Odds-ratio Lecture en teres de différentiel de probabilités Nobre de coeur angine coeur 1 0 Total général presence absence 1 14 Total général Proba(Présence) Ecart 0.4 P(cœur présence / angine 0) 3/15 0. P(cœur présence / angine 1) 3/5 0.6 Quand «angine 1», la probabilité de la présence de la aladie augente de ( ) 0.4 Coent obtenir ce résultat avec la régression logistique? Attributes in the equation Attribute Coef. Std-dev Wald Signif constant angine P(cœur + / angine 0) 1/(1+EXP[-(-1.386)]) 0. P(cœur + / angine 1) 1/(1+EXP[-( )]) 0.6 Quand «angine 1», la probabilité de la présence de la aladie augente de ( ) 0.4 Tutoriels Tanagra

42 Traiteent des variables explicatives noinales A plus de odalités On utilise un autre fichier avec 09 obs. ici. Que se passe-t-il lorsque la variable explicative est noinale à (K>) odalités? Dans le tableau de contingence, on prend une odalité de référence, et on calcule les odds-ratio par rapport à cette odalité. On traite (K- 1) tableaux x. Calcul direct dans un tableau croisé Nobre de cœur chest_pain cœur typ_angina atyp_angina asypt _non_anginal Total presence absence Total Odds(+/-) OR(x/_non_anginal) Surcroît de risque de présence de aladie lorsque la douleur à la poitrine n est pas de type «non anginale». Traduire cela dans la régression logistique? Utiliser un codage disjonctif 0/1 en prenant une odalité de référence. Les coefficients sont des log(odds-ratio) par rapport à la odalité de référence. Rearque : On peut tester la significativité «globale» de la variable en évaluant : «les 3 coefficients sont siultanéent nuls». Résultat de la régression logistique OR(Reg.Logistic) Attributes in the equation Attribute Coef. Std-dev Wald Signif constant typ_angina atyp_angina asypt Odds ratios and 95% confidence intervals Attribute Coef. Low High typ_angina atyp_angina asypt Il faut choisir le bon codage Tutoriels Tanagra - 4

43 Traiteent des variables explicatives ordinales Un variable qualitative ordinale à K odalités 3 niveaux possibles de SYSTOLIC 1 : noral ; : élevé ; 3 : très élevé On doit tenir copte de l ordre de la odalité cette fois-ci. Dans le tableau de contingence, on calcule l odds-ratio par rapport à la odalité précédente c.- à-d. on quantifie le surcroît de risque en passant d un niveau à l autre Calcul sur un tableau de contingence Nobre de coeur systolic_level coeur 3 1 Total presence absence Total Odds Odds-Ratio(précédent) Surcroît de risque de présence de aladie lorsque l on passe d un niveau de pression artérielle à l autre Régression logistique avec codage eboîté Odds-Ratio Coent traduire cela dans la régression logistique? Utiliser un codage «eboîté» Les coefficients sont des log(odds-ratio) d un passage d une odalité de X à l autre Ex. Sys1 1 si Systolic > 1, 0 sinon ; constante, éliinée Sys 1 si Systolic >, 0 sinon Sys3 1 si Systolic > 3, 0 sinon Attributes in the equation Attribute Coef. Std-dev Wald Signif constant sys sys Odds ratios and 95% confidence intervals Attribute Coef. Low High sys sys Il faut choisir le bon codage Tutoriels Tanagra

44 Tenir copte des interactions Dans le LOGIT, les effets sont initialeent additifs, coent le dépasser? Prendre en copte les interactions entre les variables binaires (ais aussi pour les variables noinales) On crée autant de nouvelles variables qui prennent les valeurs 1/0 selon l interaction que l on veut analyser On parle de odèle «saturé» lorsqu on tient copte de toutes les interactions possibles Régression logistique avec les 3 variables Attributes in the equation Attribute Coef. Std-dev Wald Signif constant high_bpress low_ax_rate bpress_x_laxrate Odds ratios and 95% confidence intervals Attribute Coef. Low High high_bpress low_ax_rate bpress_x_laxrate Ex. Effet conjoint d une tension artérielle élevée et un rythe cardiaque axiu faible sur le diagnostic de la présence d une aladie cardiaque. coeur high_bpress low_ax_rate bpress_x_laxrate positive positive negative positive negative negative negative L effet conjoint pèse dans l explication Il faut choisir le bon codage Une stratégie de odélisation siple serait de coparer des odèles eboîtés : 1. M(bpress, ax_rate). M(bpress, ax_rate, bpress * ax_rate) Cf. Sélection de variables et critères associés Tutoriels Tanagra

45 Coparer le poids relatif des variables Coefficients non-standardisés vs. Coefficients standardisés Cas de la régression linéaire Prédire la consoation à partir du poids et de la puissance d un véhicule Modele Puis s ance Poids Cons o ation Daihats u Cuor e Suzuki Swift 1.0 GLS Fiat Panda Ma bo L VW Polo Opel Cors a 1.i Eco Subaru Vivio 4WD Toyota Corolla Opel As tr a 1.6i 16V Peugeot 306 XS Renault Safrane.. V Seat Ibiza.0 GTI VW Golt.0 GTI Citroen Z X Volcane Fiat Te pr a 1.6 Liberty Fort Es cort 1.4i PT Honda Civic Joker Volvo Ford Fies ta 1. Z etec Hyundai Sonata Lancia K 3.0 LS Mazda Hachtback V Mits ubis hi Galant Opel O ega.5i V Peugeot Nis s an Pri er a Seat Alha br a Toyota Previa s alon Volvo 960 Ko bi aut On sait interpréter ces coefficients (dérivée partielle preière) ais, expriés dans des unités différentes, on ne peut pas coparer leurs rôles (poids) respectifs c.-à-d. quelles sont les variables les plus iportantes dans la régression? Poids Puis s ance Cons tante coe f e ca rt- type t p- va lue Les p-value nous donnent déjà une eilleure idée Solution 1 : Centrer et réduire les données Coefficients s tandardis és à partir des données centrées -réduites Poids Puis s ance Cons tante coe f pas de cons tante! Poids de 1 écart-type Conso. de x é.t. Puissance de 1 é.t. Conso. de x é.t. Solution : Corriger la solution initiale (Sans re-calcul de la régression) ˆ σ std x j aˆ x aˆ j x j ˆ σ y Moyenne Ecart-type Coeff. Standardis és à partir de la for ule de cor rection (cf. Ménard) Poids Puis s ance Cons tante coe f pas de cons tante! Tutoriels Tanagra

46 Coparer le poids relatif des variables Coefficients standardisés pour la régression logistique (1) Cœur f (age,taux_ax) Attributes in the equation Attribute Coef. Std-dev Wald Signif é.t. (attrib.) constant Cas de la régression logistique On veut obtenir une interprétation du type : une augentation de 1 é.t. de la variable X entraîne une variation de é.t. du LOGIT. On veut égaleent coparer les érites respectifs des variables dans la régression. Problèes (1) π 0 LOGIT -oo () π 1 LOGIT +oo (3) Et de toute anière, on ne peut pas calculer le LOGIT sur les données observées La correction des coefficients avec l écarttype du LOGIT n a pas de sens age taux_ax Écart-type du LOGIT estié (prédiction du odèle) e.t. logit Solution 0 : Coprendre le coefficient non standardisé Test age age 40 taux-ax 150 Logit 0.96 age taux-ax 150 Logit Ecart(Logit) Ecart raené à l'écart-type Test age age 40 taux-ax 150 Logit 0.96 age taux-ax 150 Logit é.t. Ecart(Logit) Ecart raené à l'écart-type ? Tutoriels Tanagra

47 Coparer le poids relatif des variables Coef. standardisés pour la rég. logistique () Solution 1 : Standardisation sur les explicatives seuleent aˆ aˆ σˆ std x j x j x j Mais constante non interprétable Sol Standardis ation s ur les explicatives s eule ent Attribut e Coe f. cons tant const. non nulle age taux_ ax Test age age 40 taux-ax 150 Logit 0.96 age taux-ax 150 Logit Ecart(Logit) Ecart raené à l'écart-type é.t. Quantifie l écart absolu. Peret surtout de coparer le poids relatif des variables dans la prédiction de Y Solution : Standardisation sur les explicatives et le LOGIT σ std x aˆ x aˆ j x j ˆ σ j LOGIT Sol. -- Standardis ation avec LOGIT Quantifie l écart en «écart-type». Attribute Coe f. cons tant const. non nulle age taux_ ax Peret aussi de coparer le poids relatif des variables. Solution 3 : Standardisation sur les explicatives et l écart-type théorique que la répartition logistique (Solution SAS) aˆ std x j aˆ x j σ x σ j théorique Sol.3 -- Standardis ation et cor rection par a. Loi logis tique (SAS) E.t. théorique Attribut e Coe f. cons tant const. non nulle age taux_ ax Écart-type théorique de la loi logistique standard :: Moyenne 0 et écart-type σ théorique Peret avant tout de coparer le poids relatif des variables. π CCL : D autres solutions plus ou oins sophistiquées existent Tutoriels Tanagra

48 Choisir les variables pertinentes pour la régression Tutoriels Tanagra

49 Sélection de variables dans la pratique Beaucoup de candidats, peu d élus (souhaitables) Dans les études réelles, beaucoup de variables disponibles, plus ou oins pertinentes, concurrentes Trop de variables tue l interprétation, il y a le danger du sur-apprentissage aussi. Problèe : Sélection «experte» anuelle basé sur Wald ou LR fastidieuse voire ipossible On s interdit de découvrir des relations auxquelles on n a pas pensé Solution : Utiliser des techniques nuériques pour choisir les «eilleures» variables Principe du Rasoir d Occa : à perforances égales, plus un odèle sera siple, plus il sera robuste ; plus aisée sera son interprétation égaleent. Attention : Ne pas prendre pour argent coptant la solution, plutôt se servir de l outil pour bâtir des scénarios (qu on présentera/discutera avec l expert ) Travail exploratoire : cobinaison de variables, construction de nouvelles variables, etc. approches 1. Sélection de variables Optiisation d un critère. S appuyer sur les outils inférentiels Significativité des variables Tutoriels Tanagra

50 Sélection par optiisation Critère AIC (Akaïke) et BIC (Schwartz) Constat Plus le nobre de variables augente, plus la déviance diinue (ou la vraiseblance augente), êe si la variable ajoutée n est pas pertinente Cf. par analogie la SCR ou le R² dans la régression linéaire, le degré de liberté diinue Solution Contrebalancer la réduction de la déviance avec une quantité traduisant la coplexité du odèle Le problèe de sélection devient un problèe d optiisation (iniisation) Critère AKAIKE AIC LL + ( J + 1) Nobre de paraètres du odèle c.-àd. nobre de variables + 1 Critère BIC BIC LL + ln( n) ( J + 1) Plus exigeant, pénalise plus la coplexité sélectionne oins de variables. Procédure On va évaluer des successions de odèles eboîtés : En les ajoutant au fur et à esure FORWARD En les retirant au fur et à esure BACKWARD STEPWISE : En alternant FORWARD / BACKWARD c.-à-d. vérifier que chaque ajout de variable ne provoque pas la sortie d une autre variable Règle d arrêt : l adjonction ou le retrait d une variable n aéliore plus le critère Tutoriels Tanagra

51 Sélection par optiisation Détail sélection FORWARD sous R heart <- read.table(file"heart_for_var_selection.txt",sep"\t",headertrue,dec".") #description des odèles str_constant <- "~1" str_full <- "~age+restbpress+ax_hrate+chest_pain_asypt_1+chest_pain_atyp_angina_1+ " #départ odele avec la seule constante + sélection forward odele <- gl(coeur ~1, data heart, faily binoial) odele.forward <- stepaic(odele,scope list(lower str_constant, upper str_full), trace TRUE, data heart, direction "forward") suary(odele.forward) AIC de départ, odèle initial : 87.9 Meilleure variable : «chest_pain_asypt_1» AIC de M(chest_paint_asypt_1) Point de départ d une nouvelle recherche Deuxièe eilleure variable, acceptée puisque AIC continue à diinuer : «exercice_angina_yes_1» AIC Arrêt lorsque AIC ne diinue plus!!! Tutoriels Tanagra

52 Sélection par optiisation Coparaison des solutions : FORWARD, BACKWARD, BOTH (#STEPWISE) FORWARD BACKWARD Bilan La solution diffère selon le sens de la recherche (noral) STEPWISE Une variable choisie par AIC n est pas forcéent significative dans la régression Gourandise en teps de calcul : chaque variable à tester (intro ou sortie) une régression logistique Tutoriels Tanagra - 5

53 Sélection basée sur des critères statistiques Test du score et Test de Wald Objectif (1) Effectuer une sélection de variables s appuyant sur des critères statistiques sans avoir à réaliser J² régressions : ce serait le cas si on utilisait à tort et à travers le rapport de vraiseblance (LR) critique surtout sur les grandes bases () Produire un résultat cohérent avec les tests classiques de significativité (3) Avec toujours les êes stratégies FORWARD, BACKWARD, STEPWISE Retrait d une variable (1) La statistique de WALD peret de choisir la variable à éliiner sans avoir à relancer la régression () Dans une stratégie BACKAWRD pure, on n aurait que J régressions à effectuer Ajout d une variable : Test du Score (1) Avec le LR : à l étape p, si on veut ajouter la (p+1)-èe variable, il faudrait effectuer (J-p) régressions. A éviter. () Principe du Test du SCORE : Utiliser les résultats de la régression à p variables pour calculer les SCORES de chaque (J-p) variable restantes, choisir celle qui a le eilleur score en FORWARD pur, on aurait au pire J régressions à effectuer Tutoriels Tanagra

54 Principe du Test du Score L idée de(s) la variable(s) suppléentaire(s) Étape courante : effectuer la R.L. avec les p variables déjà sélectionnées Calculer, en intégrant la (p+1)-èe variable à évaluer (coe var. suppléentaire) Le vecteur gradient U La atrice Hessienne H La atrice de variance covariance des coefficients Σ H -1 En déduire la statistique du Score S U Σ U S suit une loi du KHI- à 1 degré de liberté H L U j a j j1, j) x j ( ω) x ( ω) π ( ω) [1 π ( ω)] ( 1 ω j ω [ y( ω) π ( ω) ] x ( ω) j On choisit la variable qui présente le score le plus élevé Et on l intègre dans le odèle si elle est significative au risque α que l on a choisi (1) Il s agit en réalité d un test d hypothèses où H0 : a p+1 0 vs. H1 : a p+1 0 () On peut utiliser le êe principe pour tester l ajout siultané de plusieurs variables (DDL nobre de variables suppléentaires) (3) Le test du Score est donc une alternative au test du rapport de vraiseblance pour évaluer la significativité d une ou d un groupe de variables Tutoriels Tanagra

55 Test du Score Un exeple Évaluer l ajout de «âge» dans un odèle où il y a déjà la constante et taux ax EMV : CONST et TAUX_MAX C( X ) TAUX _ MAX π e 1+ e C( X ) ( X ) P( Y + / X ) C( X ) Vecteur U U(const) 0 et U(Taux_Max) 0 puisque nous avons trouvé un optiu de LL à partir de ces variables. Ce n est pas le cas pour U(age), il ne prenait pas part aux calculs Coe f cons t. ta ux_a x a ge coe ur cœ ur C(X) π LL pr es ence pr es ence pr es ence pr es ence pr es ence pr es ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence abs ence LL U(cons t) U(taux_ ax) U(age) H X'VX SIGM A H^ (- 1 ) Sta tistique du score pour a ge Valeur d.d.l p-value A été optiisé uniqueent sur CONST et TAUX_MAX V est la atrice diagonale forée par les π x (1 - π) X est la atrice des var. explicatives qui intègre aintenant la variable «age» CCL : Au risque 5%, la variable «âge» n est pas significative Tutoriels Tanagra

56 Analyse des résidus Déteriner s il y a des observations très al expliquées Déteriner si certaines observations s écartent forteent des autres Déteriner si certains individus pèsent exagéréent sur les résultats (points influents) Tutoriels Tanagra

57 Exeple de référence Cœur f (age ; taux_ax) Taux_Max Coeur 1 Cœur 0 Confusion atrix presence absence Su presence absence Su Attribute Coef. Std-dev Wald Signif constant age taux_ax Age Nué ro const a ge ta ux_a x QUESTIONS 1. Quels sont les points al odélisés? Résidus. Quels sont les points qui «clochent»? Atypiques 3. Quels sont les points qui pèsent forteent sur le résultat de la odélisation? Leviers 4. Quels sont les points qui, si on les enlevait, nous ferait aboutir à un odèle totaleent différent? Influents Moyenne glob Moyenne cœur Moyenne cœur Tutoriels Tanagra

58 Résidus de Pearson La odélisation de Y {1 ; 0} peut s écrire Y ( ω) π ( ω) + ε ( ω) ε ( ω) 1 π ( ω), avec la probabilit é π ( ω) où ε ( ω) π ( ω), avec la probabilit é 1-π ( ω) E( ε ) π [1 π ] + (1 π ) [ π ] 0 V ( ε ) π (1 π ) De anière à ce que V(r Résidus de Pearson : ˆ P ) # 1 y π r P Suit approxiativeent une loi norale N(0 ; 1) : valeurs critiques (de chaque obs.) ˆ(1 π ˆ π ) à 5% # +/- (très approxiativeent) Statistique KHI- de Pearson : χ r ( ω) ω P Plus petite elle est, eilleure est l ajusteent On verra sa distribution plus loin (cf. les covariate pattern) Coeur 1 Cœur 0 Res.Pears L écart est exagéré par la probabilité prédite π(5) Taux_Max Age Age Res.Pears TAUX_MAX Tutoriels Tanagra

Arrondissage des résultats de mesure. Nombre de chiffres significatifs

Arrondissage des résultats de mesure. Nombre de chiffres significatifs BUREAU NATIONAL DE MÉTROLOGIE COMMISSARIAT À L'ÉNERGIE ATOMIQUE LABORATOIRE NATIONAL HENRI BECQUEREL Note technique LNHB/04-13 Arrondissage des résultats de esure Nobre de chiffres significatifs M.M. Bé,

Plus en détail

PLAN. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2

PLAN. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2 Apprentissage non-supervisé ou apprentissage multi-supervisé? Ricco RAKOTOMALALA Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ PLAN. Classification automatique, typologie, etc.. Interprétation

Plus en détail

ÉTUDE BDC LES CINQ FACTEURS CLÉS ET LES CINQ PIÈGES À ÉVITER POUR RÉUSSIR EN AFFAIRES

ÉTUDE BDC LES CINQ FACTEURS CLÉS ET LES CINQ PIÈGES À ÉVITER POUR RÉUSSIR EN AFFAIRES ÉTUDE BDC LES CINQ FACTEURS CLÉS ET LES CINQ PIÈGES À ÉVITER POUR RÉUSSIR EN AFFAIRES Seaine de la PME BDC 2014 Résué --------------------------------------------------------------------------------------

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Mécanique : Cinématique du point. Chapitre 1 : Position. Vitesse. Accélération

Mécanique : Cinématique du point. Chapitre 1 : Position. Vitesse. Accélération 2 e B et C 1 Position. Vitesse. Accélération 1 Mécanique : Cinéatique du point La écanique est le doaine de tout ce qui produit ou transet un ouveent, une force, une déforation : achines, oteurs, véhicules,

Plus en détail

2.1 Comment fonctionne un site?

2.1 Comment fonctionne un site? Coent fonctionne un site? Dans ce chapitre, nous allons étudier la liste des logiciels nécessaires à la création d un site ainsi que les principes de base indispensables à son bon fonctionneent. 2.1 Coent

Plus en détail

OBJECTIFS. I. A quoi sert un oscilloscope?

OBJECTIFS. I. A quoi sert un oscilloscope? OBJECTIFS Oscilloscope et générateur basse fréquence (G.B.F.) Siuler le fonctionneent et les réglages d'un oscilloscope Utiliser l oscilloscope pour esurer des tensions continues et alternatives Utiliser

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Voyez la réponse à cette question dans ce chapitre. www.alternativesjournal.ca/people-and-profiles/web-exclusive-ela-alumni-make-splash

Voyez la réponse à cette question dans ce chapitre. www.alternativesjournal.ca/people-and-profiles/web-exclusive-ela-alumni-make-splash Une personne de 60 kg est à gauche d un canoë de 5 de long et ayant une asse de 90 kg. Il se déplace ensuite pour aller à droite du canoë. Dans les deux cas, il est à 60 c de l extréité du canoë. De cobien

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

L indice des prix à la consommation

L indice des prix à la consommation L indice des prix à la consoation Base 2004 Direction générale Statistique et Inforation éconoique 2007 L indice des prix à la consoation Base 2004 = 100 La Direction générale Statistique et Inforation

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

L étalonnage par traceur Compton, une nouvelle méthode de mesure primaire d activité en scintillation liquide

L étalonnage par traceur Compton, une nouvelle méthode de mesure primaire d activité en scintillation liquide PH. CASSEE L étalonnage par traceur Copton, une nouvelle éthode de esure priaire d activité en scintillation liquide he Copton source efficiency tracing ethod, a new standardization ethod in liquid scintillation

Plus en détail

THESE. Applications des algorithmes d'auto-organisation à la classification et à la prévision

THESE. Applications des algorithmes d'auto-organisation à la classification et à la prévision UNIVERSITE PARIS I PANTHEON SORBONNE U.F.R. DE MATHEMATIQUES et INFORMATIQUE Année 999 THESE Pour obtenir le rade de DOCTEUR DE L'UNIVERSITE PARIS I Discipline : Mathéatiques Présentée et soutenue publiqueent

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Abstract. Key-words: The flowshop problem, Heuristics, Job scheduling, Total flowtime.

Abstract. Key-words: The flowshop problem, Heuristics, Job scheduling, Total flowtime. Abstract Since the flowshop scheduling proble has found to be an NP-coplete proble, the developent of heuristic algoriths that give better solutions becoe necessary. In this paper we discuss how to resolve

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Équations générales des milieux continus

Équations générales des milieux continus Équations générales des ilieux continus Jean Garrigues 1 ai 212 ii Avant-propos L objectif de ce cours est d établir les équations générales régissant tous les ilieux continus, qu ils soient solides ou

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Pratique de la Régression Logistique

Pratique de la Régression Logistique Ricco Rakotomalala Pratique de la Régression Logistique Régression Logistique Binaire et Polytomique Version 2.0 Université Lumière Lyon 2 Page: 1 job: regression_logistique macro: svmono.cls date/time:

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Utiliser Internet Explorer

Utiliser Internet Explorer 5 Utiliser Internet Explorer 5 Utiliser Internet Explorer Internet Explorer est le plus utilisé et le plus répandu des navigateurs web. En effet, Internet Explorer, couraent appelé IE, est le navigateur

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Réseaux Évidentiels pour la fusion de données multimodales hétérogènes : application à la détection de chutes

Réseaux Évidentiels pour la fusion de données multimodales hétérogènes : application à la détection de chutes Réseaux Évidentiels pour la fusion de données ultiodales hétérogènes : application à la détection de chutes Paulo Arando Cavalcante Aguilar To cite this version: Paulo Arando Cavalcante Aguilar. Réseaux

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

La mémoire C HAPITRE S EPT. 7.1 Qu est-ce que la mémoire? 166. 7.2 L utilisation de la mémoire à court terme 169

La mémoire C HAPITRE S EPT. 7.1 Qu est-ce que la mémoire? 166. 7.2 L utilisation de la mémoire à court terme 169 La éoire C HAPITRE S EPT 7.1 Qu est-ce que la éoire? 166 Les types de éoires 166 Vue d enseble des processus éoriels 168 7.2 L utilisation de la éoire à court tere 169 La éoire iconique 169 La éoire à

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

PLAQUES DE PLÂTRE CLOISONS - DOUBLAGES

PLAQUES DE PLÂTRE CLOISONS - DOUBLAGES CONSEILS ILLUSTRÉS D'ISOLAVA PLAQUES DE PLÂTRE CLOISONS - DOUBLAGES GUIDE DE MISE EN OEUVRE VITE et BIEN FAIT SOMMAIRE 1. Cloison de séparation sur ossature p 3 étallique -Matériaux nécessaires par 2 de

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Consommation de flotte (1989 2012)

Consommation de flotte (1989 2012) Bases et méthodologie de comparaison L Association des importateurs suisses d automobiles «auto-suisse» établit chaque année la consommation moyenne des voitures de tourisme vendues appelée consommation

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

innovation / construction / territoire Crèche modulaire-bois La Rose des Vents GAILLAC (81) COMMUNAUTÉ DE COMMUNES

innovation / construction / territoire Crèche modulaire-bois La Rose des Vents GAILLAC (81) COMMUNAUTÉ DE COMMUNES innovation / construction / territoire Crèche odulaire-bois La Rose des Vents GAILLAC (81) COMMUNAUTÉ DE COMMUNES Présentation de la crèche éco-responsable et odulaire de la Rose des vents à Gaillac La

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

EXERCICE II : LE TELEPHONE "POT DE YAOURT" (5 points)

EXERCICE II : LE TELEPHONE POT DE YAOURT (5 points) USA 2005 EXERCICE II : LE TELEPHONE "POT DE YAOURT" (5 points) A l'ère du téléphone portable, il est encore possible de couniquer avec un systèe bien plus archaïque L'onde sonore produite par le preier

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Autour des nombres et des polynômes de Bernoulli

Autour des nombres et des polynômes de Bernoulli Autour des nobres et des polynôes de Bernoulli Gaëtan Bisson d après un cours de Don Zagier Résué En athéatiques, les nobres de Bernoulli ont d abord été étudiés en cherchant à calculer les soes du type

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Classe de première L

Classe de première L Classe de première L Orientations générales Pour bon nombre d élèves qui s orientent en série L, la classe de première sera une fin d étude en mathématiques au lycée. On a donc voulu ici assurer à tous

Plus en détail

DOSSIER SUR LE SECTEUR DES NOMS DE DOMAINE VOLUME 11 - NUMÉRO 4 - JANVIER 2015

DOSSIER SUR LE SECTEUR DES NOMS DE DOMAINE VOLUME 11 - NUMÉRO 4 - JANVIER 2015 DOSSIER SUR LE SECTEUR DES NOMS DE DOMAINE VOLUME 11 - NUMÉRO - JANVIER 2015 RAPPORT DE VERISIGN SUR LES NOMS DE DOMAINE LEADER MONDIAL DU SECTEUR DES NOMS DE DOMAINE ET DE LA SÉCURITÉ D'INTERNET, VERISIGN

Plus en détail

Échafaudage de façade UNI 70/100

Échafaudage de façade UNI 70/100 Stark gerüstet. Échafaudage de façade 70/100 Français valable à partir du 15.04.2013 Table des atières Montage du systèe / Avantages du systèe 2-3 Châssis 4-5 Planchers 6 Escaliers «intérieurs» 7 Escaliers

Plus en détail

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

Correction du baccalauréat ES/L Métropole 20 juin 2014

Correction du baccalauréat ES/L Métropole 20 juin 2014 Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

Simulation numérique de la réponse d un pieu en cours de battage

Simulation numérique de la réponse d un pieu en cours de battage Siulation nuérique e la réponse un pieu en cours e battage Philippe LEPERT Ingenieur Division Géotechnique et Mécanique es Chaussées Laboratoire Central es Ponts et Chaussées Daniel MEIGNEN Technicien

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Chapitre 5: Oscillations d un pendule élastique horizontal

Chapitre 5: Oscillations d un pendule élastique horizontal 1 re B et C 5 Oscillations d'un pendule élastique horizontal 40 Chapitre 5: Oscillations d un pendule élastique horizontal 1. Définitions a) Oscillateur écanique * Un systèe écanique qui effectue un ouveent

Plus en détail

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle

Plus en détail

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE Par Fatoumata A dite Woybi Touré 11135079 Science de la gestion (Ingénierie financière) Projet supervisé présenté en vue de

Plus en détail

1 Définition de la non stationnarité

1 Définition de la non stationnarité Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Chap17 - CORRECTİON DES EXERCİCES

Chap17 - CORRECTİON DES EXERCİCES Chap17 - CORRECTİON DES EXERCİCES n 3 p528 Le signal a est numérique : il n y a que deux valeurs possibles pour la tension. Le signal b n est pas numérique : il y a alternance entre des signaux divers

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Tolérance aux fautes-2 Serveurs à haute disponibilité

Tolérance aux fautes-2 Serveurs à haute disponibilité École Doctorale de Grenoble Master 2 Recherche Systèes et Logiciel Disponibilité des s Tolérance aux fautes-2 Serveurs à haute disponibilité Sacha Krakowiak Université Joseph Fourier Projet Sardes (INRIA

Plus en détail