Régression logistique. Benoit Crabbé

Dimension: px
Commencer à balayer dès la page:

Download "Régression logistique. Benoit Crabbé"

Transcription

1

2 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

3 Modèles linéaires généralisés et régression logistique Le modèle de régression linéaire que nous avons vu jusqu à présent est un modèle qui s applique à prédire une variable continue en fonction d une variable continue Il arrive souvent que l on veuille prédire une variable binaire à partir d une (ou plusieurs) variable(s) continue(s) (ou nominales), c est ce que permet de faire la régression logistique x R,y {0,1} Cas de prédiction d une variable binomiale. Bresnan prédit le dative vs non dative de cette manière. Terminologie Dans le cas où la variable à prédire Y est une variable nominale (catégorique) on parle de classification. Lorsque la variable Y est continue, on parle de régression.

4 Interpréter la variable Y comme une probabilité de succès Problème : prédire une variable à deux issues Y = {0,1} dont l une est le succès (Y = 1) et l autre un échec (Y = 0). En réutilisant une technique de régression, on peut chercher la probabilité d obtenir le succès P(Y = 1), il est alors possible de déduire la probabilité de l échec : P(Y = 0) = 1 P(Y = 1) On peut se munir d une règle de décision qui pour un seuil θ décide : { 1 si P(Y = 1) > θ Y = 0 sinon avec θ = 0.5 en première approximation

5 Inadéquation de la régression linéaire pour prédire une variable binaire y On pourrait envisager réutiliser la régression linéaire pour prédire des valeurs 0 et 1 avec une règle de décision du type : { 1 si f(x) = α+β(x) > 0.5 Y = 0 sinon Le problème est que la régression linéaire produit des valeurs qui sont inévitablement en dehors de l intervalle [0,1] R et qui ne s interpètent pas comme des probabilités La régression linéaire va en effet prédire des valeurs continues sur R, or on veut uniquement prédire dans l intervalle [0,1] R x

6 Cas d étude : Bresnan John gives Mary recipient an apple theme (Recipient = NP) 2 John gives an apple theme to Mary recipient (Recipient = PP) > library(languager) > data(dative) > exo <- data.frame(lr = dative$lengthofrecipient, LT = dative$lengthoftheme, R = dative$realizationofrecipient) > table(exo$r) Variable à prédire : R, deux valeurs : NP et PP (succès,échec)

7 Interpréter les données comme des probabilités On peut définir la probabilité d avoir le succès pour une valeur x donnée comme suit : C(Y = 1,X = x) P(Y = 1 X = x) = C(X = x) Exemple (on pose arbitrairement le succès comme R = NP) : > t <- table(exo$lt,exo$r) > t #C(LT=1,R=NP) = 380 #C(LT=1) = > prob = 380/( ) #P(R=NP LT=1) # Generalisation > probs <- t[,2]/(t[,1]+t[,2]) #Valeurs de LT > lt <- as.numeric(levels(as.factor(exo$lt))) #Nuage de points P(NP LT) > plot(lt,props)

8 Représentation du nuage de points Proportions de succès en fonction de la valeur de X P(Y=1 X) Représentation Chaque point représente la proportion de succès pour chaque valeur de x, càd f(x) = C(x,succ) C(x) X

9 Fonction logistique Les nuages de points dont la variable Y est une variable à valeurs dans [0,1] ne se résument plus par une droite mais par une fonction qui décrit une courbe en S, la fonction logistique (ou sigmoide) P(Y=1 X) Fonction logistique y = eα+βx 1+e α+βx S interprète comme : P(Y = 1 X = x) = eα+βx 1+e α+βx x

10 Paramètres de la fonction logistique y y Observons ce qu il se passe si on change les valeurs de α et de β β=1/2 β=1 β= α=2 α=1 α= x x α contrôle la translation de la courbe β contrôle l incurvation de la courbe. (Non illustré) le signe de β contôle la direction de la courbe

11 Illustration > x <- seq(-10,10,0.1) > alpha <- 1 > beta <- 1 > y <- exp(alpha+beta * x)/(1+ exp(alpha+beta * x)) > plot(x,y) # Essayer avec les combinaisons: # alpha {-2,0,2} # beta {-2,-1,1,2}

12 Calcul d une régression logistique On a un nuage de points qui se résume par la fonction : ŷ = eα+βx 1+e α+βx Or cette fonction comporte la version linéaire α+βx On sait comment calculer une régression pour une fonction linéaire Idée : projeter la fonction logistique dans un espace linéaire et faire le calcul

13 Fonction logit La fonction logit permet de projeter le problème dans un espace linéaire x logit(x) = ln( 1 x ) Preuve ( ) e α+βx logit 1+e α+βx = ln = ln = ln = ln e α+βx 1+e α+βx 1 eα+βx 1+e α+βx e α+βx 1+e α+βx 1+e α+βx eα+βx 1+e α+βx 1+e α+βx e α+βx 1+e α+βx 1 1+e α+βx (e α+βx) = α+βx

14 illustrée y Nuage de points Espace logit P(Y=1 X) logit(y) X X x Démarche du calcul 1 Nuage de points qui présente une relation non linéaire (logistique). Chaque point = ( C(succès,x) C(x) ) 2 Projeter le nuage dans un espace linéaire (logit link) 3 Calculer la régression dans cet espace linéaire, ce qui nous donne les coefficients α et β

15 Calcul de la régression On cherche à prédire les valeurs du logit: logit(x) = α+βx La valeur ) f(x) de chaque point x observé devient = logit(x) ln( x 1 x Les résidus ne sont habituellement pas distribués normalement Donc on n a pas ǫ N(0,1) Calcul analogue au moindres carrés, maximise la vraisemblance des données Terminologie La fonction logit est la fonction qui projette le problème initial dans l espace linéaire. On l appelle pour cette raison, fonction de lien. On dit que la régression logistique appartient aux modèles linéaires généralisés.

16 Mise en pratique > mod <- glm(r LT,data=exo,family=binomial(link="logit")) #ou > mod <- glm(r LT,data=exo,family=binomial) > summary(mod) glm(formula = R LT, family = binomial, data = exo) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-12 *** LT < 2e-16 *** --- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 3262 degrees of freedom Residual deviance: on 3261 degrees of freedom AIC:

17 Prédire les probabilités Un modèle de régression logistique produit en résultat des probabilités Ainsi si on a le modèle : avec α = 0.44 et β = 0.17 P(Y = NP LT) = eβlt+α 1+e βlt+α Pour LT = 1, on prédit que : P(Y = NP LT =) = e = e

18 Prédire les probabilités : exercice > mod <- glm(r LT, data=exo,family="binomial") > summary(mod) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-12 *** LT < 2e-16 *** --- > newlt <- 1:50 > predlt <- exp( *newLT)/(1+exp( *newLT)) #Alternativement > ndata <- data.frame(lt=newlt) > predict(mod,ndata,type="response") # Meme exercice pour > mod <- glm(r LT+LR, data=exo,family="binomial")

19 Méthodologie Comme pour la régression linéaire, il est important de : Vérifier la validité du modèle Prouver la qualité du fit. Avant d analyser les coefficients Les méthodes diffèrent par endroits

20 Qualité de la régression : graphe de corrélation La régression logistique ne permet pas de calculer une mesure de type R 2 pour mesurer la qualité du fit (les résidus ne sont pas normalement distribués) mais il en existe des approximations Proportions observées Prédiction théorique Corrélation P(Y=1 X) P(Y=1 X) Valeurs observées X X Valeurs Prédites > library(languager) >?plot.logistic.fit.fnc #tells you how to plot the graph

21 Qualité de la régression (accurracy) Pour prédire une valeur binaire on doit se munir d une règle de décision et d un seuil θ : { 1 si P(Y = 1) > θ Y = 0 sinon avec par exemple θ = 0.5 Dans notre cas, 1 = NP (1 représente le succès)

22 Matrice de confusion On peut comparer les valeurs effectivement prédite par le modèle avec les valeurs observées dans les données et reporter les comptes dans une matrice de confusion : Prédit 1 Prédit 0 Observé 1 Correct (VP) Faux positif Observé 0 Faux négatif Correct (VN) On se définit le score d exactitude (accurracy) comme suit: acc = VP +VN N

23 Courbes Roc : TPR et FPR On peut également s intéresser à la capacité du classifieur à discriminer les vrais positifs des faux positifs Prédit 1 Prédit 0 Observé 1 Correct (VP) Faux positif Observé 0 Faux négatif Correct (VN) On peut se définir le taux de vrais positifs (TPR) et le taux de faux positifs (FPR): TPR = FPR = C(vrais positifs) C(vrais positifs) + C(faux négatifs) C(faux positifs) C(faux positifs) + C(vrais négatifs) Et reporter le point ainsi défini sur un graphique (espace Roc) : du taux de vrais positifs en fonction du taux de faux positifs

24 Courbes ROC : Exercice #Model > mod1 <- glm(r LT,data=exo,family="binomial") > ndata <- data.frame(lt=exo$lt) #Predicted Probabilities > ndata$predictlt <- predict(mod1,ndata,type="response") #Decision rule (theta = 0.7) > ndata$decisionlt <- ifelse(ndata$predictlt > 0.7, "NPpred","PPpred") #Add reference column > ndata$ref <- exo$r #Confusion matrix > t <- table(ndata$ref,ndata$decisionlt) #Accurracy, TPR,FPR > acc <- t[1]+t[4] / sum(t) > TPR <- t[1] / t[1]+t[2] > FPR <- t[3] / t[3]+t[4] #Faire pareil avec mod2 tel que: > mod2 <- glm(r LR,data=exo,family="binomial")

25 Courbes ROC : faire varier le seuil θ Pour établir la décision on fixe arbitrairement θ On peut faire varier θ, ce qui change la matrice de confusion au final (essayer manuellement) En reportant sur un graphique les points (Fpr, Tpr) pour toutes les valeurs de θ [0,1] R, on obtient une courbe Roc: True positive rate False positive rate

26 Courbes ROC : comparer les classifieurs Les courbes Roc sont utilisées pour comparer des classifieurs Plus l aire sous la courbe (AUC) est importante plus le classifieur est capable de discriminer les vrais positifs des faux positifs : s interprète comme la probabilité de classer un exemple positif choisi au hasard comme positif True positive rate Classifieur 1 Classifieur 2 Classifieur 3 AUC AUC (mod 1) = 0.92 AUC (mod 2) = 0.87 AUC (mod 3) = False positive rate

27 Courbes ROC : exercice > library(rocr) # Build a prediction object > preds <- prediction(ndata$ltpred,ndata$ref) #Compute the conf matrix for every value of theta > perf <- performance(preds,"tpr","fpr") #Plot the ROC Curve > plot(perf,colorize=t) #Compute AUC > auc <- performance(preds,"auc") > attr(auc,"y.values") #Now do several models of the dative dataset # until your AUC gets decent #Note that the function lrm C value reports the AUC.

28 Validité du modèle Comme pour la régression linéaire on peut tester le surentrainement > mod <- lrm(r LT,data=exo) > validate(mod,b=100) index.orig training test optimism index.corrected n Dxy e R e Intercept e Slope e Emax e D e U e Q e B e

29 Comparer des modèles Dans le cas linéaire, on peut comparer des modèles en utilisant un test F (comparaison de variance) Ce test s applique dans le cas où la distribution des erreurs est normale ǫ N(0,σ). (hypothèse de calcul de la régression linéaire) Dans le cas logistique, le calcul maximise la vraisemblance des données. Le test compare donc la vraisemblance que donne chacun des modèles aux données. Le test qui calcule cela est le test de rapport de log-vraisemblance: pour M subset et M grand : ( ) χ 2 vraisemblancemsubset 2 ln vraisemblancem grand Intution : M grand a toujours une vraisemblance plus grande que M subset le logarithme est négatif ( multiplication par 2)

30 Test d hypothèse Le ratio de vraisemblance est distribué approximativement par une loi de χ 2 à n = dl(m grand ) dl(m ) L hypothèse nulle H 0 pose que M est suffisant pour expliquer les données L hypothèse alternative stipule qu il faut préférer M grand #Avec R > modsmall <- glm(r LT,data=exo,family="binomial") > modlarge <- glm(r LT+LR,data=exo,family="binomial") #Anova > anova(modsmall,modlarge,test="chi") Analysis of Deviance Table Model 2: RealizationOfRecipient LengthOfTheme + LengthOfR Model 1: RealizationOfRecipient LengthOfTheme Resid. Df Resid. Dev Df Deviance P(> Chi ) < 2.2e-16 ***

31 Interprétation des coefficients Les coefficients d une régression logistique sont donnés à échelle logit, ce qui n est pas très intuitif... Cependant ils s interprètent comme des logarithmes de rapports de chance, en effet : ( ) y logit(y) = ln 1 y Donc e coef = rapport de chance Ex. coef = 2 ; e 2 = 7.38 ; signifie : on a 7.38 fois plus de chances d observer le succès pour chaque incrément unitaire de la variable.

32 Exercice Modélisation des données (Dative Shift) Exercice simplifié (modélisation des données sur l alternance dative) : Considérer les variables : LengthOfRecipient AnimacyOfRec DefinOfRec PronomOfRec LengthOfTheme AnimacyOfTheme DefinOfTheme PronomOfTheme AccessOfRec comme prédictrices potentielles (X 1...X n ) Considérer la variable RealizationOfRecipient comme prédite (Y) Analyse simplifiée: 1 Élaborer un modèle qui ne contient que les variables utiles (procéder par comparaison de modèles) 2 Donner le goodness of fit 3 Identifier les corrélations entre les variables 4 Indiquer quelles sont les variables significatives, et quelle variante de l alternance dative elles favorisent. (faire attention aux effets d échelle des variables (!)

33 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

34 Extension au cas multinomial On montre ici comment on généralise le cas où Y est binomiale au cas où la distribution de Y est multinomiale Représentation et codage de Y Cas binomial : la variable Y est codée sur {0,1} Cas multinomial (dummy coding) : Y = rouge, vert, bleu φ 1 (Y) φ 2 (Y) rouge 0 0 vert 1 0 bleu 0 1 Difficulté La difficulté liée à la régression multinomiale est que l interprétation plus fine du modèle est rendue beaucoup plus difficile (énormément de coefficients)

35 Reformulation du cas binomial Pour le cas binaire on a que : et que : P(Y = 1 X) = eα+βx 1+e α+βx P(Y = 0 X) = 1 eα+βx 1+e α+βx = 1+eα+βX eα+βx 1+eα+βX 1+e α+βx = 1 1+e α+βx On a bien que la somme vaut 1 : P(Y = 1 X)+P(Y = 0 X) = 1+eα+βX 1+e α+βx le numérateur = score pour l hypothèse Y = k, le dénominateur = somme des scores pour toutes les hypothèses possibles On peut également représenter la décision comme suit : ŷ = argmaxp(y = k X) k {1,0}

36 multinomiale Pour une variable Y à 0...m valeurs discrètes, on calcule une régression pour les valeurs 1...m : P(Y = k X) = e α k+β k X 1+ m j=1 eα i+β i X Et pour le cas par défaut (Y = 0) on a que: P(Y = 0 X) = 1 1+ m j=1 eα i+β i X Pour prédire une valeur parmi les m possibles : ŷ = argmaxp(y = y X) y

37 multinomiale (exemple) Tagger miniature (unigramme, MaxEnt) Modèle : P(Y = y X) = eα+βx Z(α+βX) avec X = (word,lemma,cat,prev cat,next cat) Décision : Données potentielles P(Y = k X) = argmax k Y e α+βx Z(α+βX) word lemma cat prev cat prev word next word 1 On on CL NONE NONE devrait 2 devrait devoir V CL On y 3 y y CL V devrait voir 4 voir voir V CL y un 5 un un D V voir NONE

38 Exemple (généralisé) Maximum Entropy Markov Model On se souvient que la probabilité d obtenir un étiquetage Y étant donné une séquence d observables X peut se simplifier comme suit (hypothèse de type Markovienne): P(Y 0...Y n X 1...X n ) = n P(Y i X i ) où les X i sont des variables issues de la séquence d observables X i (mots) ou des tags précédents Y 0...i 1 Pour calculer l étiquetage Y 0...Y n d une phrase, on calcule alors : n Y 0...Y n = argmax P(Y i X i ) Y 0...Y n Y n i=0 i=0 Ce que l on fait avec une table de Viterbi (cf épisodes précédents)

39 Remarque (codage des variables en Tal) Dummy coding : R vous binarise implicitement les variables nominales (typiquement une variable comme word) en utilisant le dummy coding En Tal la plupart des paquetages logiciels vous demandent de faire le codage vous même : ex. X = rouge, vert, bleu La présentation habituelle est la suivante (cas de rouge): { 1 six = rouge φ rouge (X) = 0 sinon Les fonctions φ( ) sont appelées fonctions features (elles codent des variables le plus souvent nominales sous forme binaire) En Tal on parle souvent d attribut pour la variable et de valeur pour la valeur considérée.

40 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

41 Modèles à effets aléatoires On parle également de modèles mixtes ou de modèles hiérarchiques L idée est que certaines variables sans intérêt pour la théorie peuvent avoir une influence sur la variance des résultats Par exemple, si on étudie l alternance dative : 1 On veut étudier des variables comme le poids des dépendants 2 Il y a des variables sans intérêt (parasites) pour la généralisation comme le locuteur de la phrase, le type de corpus... 3 Ces variables peuvent créer de la variance. On peut en tenir compte en les incluant explicitement dans le modèle. Il s agit des variables aléatoires. 4 Un modèle qui contient des variables aléatoires est souvent appelé modèle mixte.

42 Exemple Observation graphique pour les temps de lecture > library(languager) > library(lattice) > library(lmer) # Pas de variation due a l age sur f(frequence)=familiarity > xyplot(familiarity WrittenFrequency AgeSubject, data=english) #Avec ligne de regression > xyplot(familiarity WrittenFrequency AgeSubject, data=english,panel=function(x,y){ + panel.xyplot(x,y) + panel.abline(lm(y x),col="red",lwd=3) } ) #Tres claire variabilite due a l age sur f(rtnaming) = Temps de lecture > xyplot(familiarity RTnaming AgeSubject, data=english,panel=function(x,y){ + panel.xyplot(x,y) + panel.abline(lm(y x),col="red",lwd=3) } ) >#Confirmation via le calcul de lmlist > lmlist(familiarity RTnaming AgeSubject,data=english)

43 Illustration (variation de l intercept) La variable AgeSubject fait varier l intercept pour le modèle Familiarity = α+βrtnaming+ǫ old young Familiarity RTnaming

44 Modèle à effet aléatoire Pour tenir compte de cet effet : 1 Deux modèles linéaires différents (un pour chaque valeur de Age??) 2 Modèle à effet aléatoire qui prend en compte le fait que la variable Age a un effet sur l intercept de chacun des deux groupes Dans notre cas, un modèle à intercept aléatoire a la forme suivante: Familiarity i = α+βrtnaming+α AgeSubjecti +ǫ où α AgeSubjecti est une valeur constante ajoutée à α selon la valeur de la variable AgeSubject Comme ǫ N(0,σ 2 ) la variable α est distribuée normalement (α N(0,σ 2 ))

45 Modèle à effets aléatoires en pratique Les modèles à effets aléatoires peuvent être utilisés dans le cas multivarié #Calcul > mod <- lmer(familiarity RTnaming + WrittenFrequency + WordCategory +(1 AgeSubject),data=english) > summary(mod) Linear mixed model fit by REML Formula: Familiarity RTnaming + WrittenFrequency + WordCategory + (1 AgeSubject) Random effects: Groups Name Variance Std.Dev. AgeSubject (Intercept) Residual Number of obs: 4568, groups: AgeSubject, 2 Fixed effects: Estimate Std. Error t value (Intercept) RTnaming WrittenFrequency WordCategoryV # Visualisation des intercepts > ranef(mod) $AgeSubject (Intercept) old young

46 Obtenir les p-values d un modèle à effets aléatoires Controverse entre statisticiens sur la fiabilité des p-valeurs de ce type de modèles Pour obtenir des p-valeurs pour les coefficients : > library(languager) > pvals.fnc(mod) pvals.fnc(mod) $fixed Estimate MCMCmean HPD95lower HPD95upper pmcmc Pr(> t ) (Intercept) RTnaming WrittenFrequency WordCategoryV $random Groups Name Std.Dev. MCMCmedian MCMCmean HPD95lower HPD95upper 1 AgeSubject (Intercept) Residual

47 Modèles à effets aléatoires On peut utiliser également des modèles à effets aléatoires pour modéliser des problèmes binomiaux (régression logistique) La méthodologie est similaire: On formule un modèle logistique à intercept aléatoire comme suit : P(Y = 1 X i ) = eα+βx+αi 1+e α+βx+αi NB: on peut inclure autant d intercepts aléatoires que souhaité Exemple : > mod <- lmer(realizationofrecipient LengthOfTheme +AnimacyOfRecipient +(1 Verb)+(1 Modality),data=dative,family="binomial")

48 Méthodologie La méthodologie de travail est subtantiellement la même que pour les modèles à effets fixes Difficultés pour calculer la goodness of fit Nouveauté : comment décider d inclure des effets aléatoires?

49 Calculer la goodness of fit avec un modèle à effets aléatoires On a pas de fonction prédict générale pour les modèles à effets aléatoires... Il faut le faire à la main : #Coefs des effets fixes > coefs <- fixef(mod) #Construire la sous-table de donnes adequates > donnees <- model.matrix(terms(mod),model.frame(mod)) #Predictions logit (manque les ranefs) > logit <- donnees %*% coefs #produit de matrices #Ajouter les ranefs selon le groupe #A faire pour chaque Ranef > agevector <- model.frame(mod)$agesubject > ageranefs <- ranef(mod)$agesubject[agevector,] > logitr <- logit + ageranefs #Probabilites > probs <- exp(logitr)/(1+exp(logitr)) #Exemple de Decision (theta=0.5) > preds <- ifelse(probs > 0.5,"PP","NP") > preds <- as.factor(preds)

50 Calcul de la goodness of Fit Une fois les prédictions obtenues Calcul de l accurracy (cf. épisodes précédents) Calcul d une AUC (courbe ROC, cf. épisodes précédents) Graphique de corrélation > library(languager) > plot.logistic.fit.fnc(mod,dative)

51 Détecter les effets aléatoires Explorer les données pour voir si une variable cause de variations sur les données (de type intercept) Visualisation/Exploration graphique Faire des régressions simples en listes pour différentes valeurs de la variable catégorique et voir si les coefficients changent... Inclusion d un effet aléatoire (par text de comparaison de modèle : anova() vous calcule un χ 2 )

52 Visualisation des effets aléatoires Les effets aléatoires peuvent se visualiser Distribution de la variable Modality > dotplot(ranef(mod,postvar=t))[["modality"]] Distribution de la variable Verb > dotplot(ranef(mod,postvar=t))[["verb"]] (Intercept) written spoken take issue sell lease sell_back cede read afford prepay resell repay serve write trade sell_off bequeath allocate award leave loan slip present tender submit hand_over carry deal supply run get funnel deliver bring make mail extend send hand offer pay vote allot assign cause lend grant swap float flip pay_back deny show reimburse assess accord net feed refuse give promise permit will quote guarantee assure bet fine owe teach wish allow tell charge do cost (Intercept) On peut également faire des histogrammes pour vérifier que les distributions des variables aléatoires sont bien normales.

53 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

54 But de l entreprise Take home message : Vous pouvez inférer des observations à caractère général sur le langage à partir de corpus richement annotés La méthode introspective n est pas la seule possible Repose sur une inférence statistique (modélisation) Traite un problème de préférence d ordre des mots qui échappe à la démarche générative

55 Question traitée Alternance dative en anglais : 1 John gave a book to Mary (V-NP-PP) 2 John gave Mary a book (dative shift, V-NP-NP) Thème ; Bénéficiaire Problème trop difficile? Choix : quels facteurs interviennent pour préférer tel ou tel ordonnancement?

56 Problèmes classiques de l analyse de corpus 1 Les observations sont corrélées (théories réductrices): par exemple on pourrait expliquer la préférence d ordre des mots en fonction d un seul facteur : la complexité syntaxique (Hawkins 94, corrélé avec l accessibilité des référents (given/new)). on veut pouvoir décorréler différents facteurs. 2 Les données groupées induisent des biais statistiques (regroupements par speaker ici) 3 La théorie syntaxique sera biaisée par des observations liées au seul lexique à disposition dans le corpus. 4 La non représentativité et les différences très fortes entre corpus bloquent toute tentative de généralisation.

57 L alternance dative : une affaire de sémantique? On peut expliquer l alternance dative en termes de sens exprimé : 1 Susan give toys to the children 2 Susan give children toys Où (1) induit un sens changement de place (des jouets) alors que (2) induit un sens changement de propriétaire (des jouets) Dans le cas de verbes comme to give (emploi idiomatique) la théorie prédit qu on ne peut avoir de sens changement de place, donc pas de structure V-NP-PP 1 The lightning here gives me the creep 2 * The lightning here gives the creep to me

58 Contre-exemples Exploration Google: beaucoup de contre-exemples à la théorie Montre que ces contre-exemples ne sont pas du pur bruit de Google Différents facteurs d origines diverses semblent agir contre la théorie : accessibilité, définitude, complexité, pronominalisation des dépendants...

59 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

60 Théorie réductrice Contre les théories réductrices Cite (Hawkins 94) Principe général : le plus court avant le plus long; Comme l accessibilité (et l animacité) corrèlent avec la complexité,on garde la complexité comme facteur explicatif car plus général. Propose une démarche expérimentale dans laquelle les données corrélées sont bien identifiées : régression logistique (modèle mixte).

61 Principales Variables Accessibilité dans le discours (given,new,accessible) (pour le thème et le bénéficiaire) Définitude (pour le thème et le bénéficiaire) Pronominalité des dépendants (pour le thème et le bénéficiaire) Animacité des dépendants (pour le thème et le bénéficiaire) Classe sémantique du verbe abstrait, transfert de possession, futur transfert de possession, prévention de possession,communication Interaction de complexité entre le thème et le bénéficiaire : différence de longueur (manipulée au log() pour écraser les outliers) Personne des dépendants (pour les pronominaux) Parallélisme dans le dialogue priming? (pas compris)

62 Données A extrait de Switchboard exemples de cas de double complémentation (alternances datives) Créé une table de données : chaque ligne une observation, chaque colonne, valeur de la variable pour cette observation. Projet examen 1 Sélectionner la sous table de données orales > dativeo <- dative[dative$modality=="spoken",]

63 Fit du modèle A Note importante : le succès (ce qu elle cherche à prédire est la structure V-NP-PP coefs positifs votent pour la structure non dative) Probability{Response = 1} = 1 1+e Xβ, where X ˆβ = 0.95 (a) (a) (b) (b) (c) (c) (d) (e) 1.34{c} {f} 3.90{p} {t} {accessibility of recipient = nongiven} 1.1{accessibility of theme = nongiven} + 1.2{pronominality of recipient = nonpronoun} 1.2{pronominality of theme = nonpronoun} {definiteness of recipient = indefinite} 1.4{definiteness of theme = indefinite} + 2.5{animacy of recipient = inanimate} {person of recipient = nonlocal} 0.03{number of recipient = plural} + 0.5{number of theme = plural} 0.46{concreteness of theme = nonconcrete} 1.1{parallelism = 1} 1.2 length difference (log scale) and {c} = 1 if subject is in group c, 0 otherwise (and likewise for other categories). Figure 4. The model A formula.

64 Conclusion (modèle A) Conclut que les différents facteurs ne sont pas réductibles à la seule complexité syntaxique (corrélations faibles) Ce que je n ai pas vu (mal lu?) c est qu elle ne propose pas de réduction de modèles (avec tests d hypothèses à l appui) Sa conclusion ne semble pas supportée par une démarche de modélisation exhaustive.

65 Projet examen : modélisation modèle A Projet examen: question 1 La conclusion que les différents facteurs ne se réduisent pas à la seule complexité syntaxique est discutable au vu de ce qu elle montre On propose de faire la modélisation correctement, càd: On prédit que RealizationOfRecipient = PP Exprimer la variable de complexité syntaxique (weights) Tester par comparaison de modèles que les seuls facteurs de complexité syntaxique sont insuffisants pour expliquer les données. Chercher à trouver un modèle plus compact que celui qui comporte tous les facteurs (par comparaison de modèles). Interprétez. Donner une (ou plusieurs) mesures de goodness of fit pour votre modèle Est-ce vrai que les données qu elle analyse ne sont pas corrélées? Note : Vous n avez pas accès à toutes les variables qu elle manipule. Vous devez vous contenter d un modèle un peu réduit.

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

La régression logistique

La régression logistique La régression logistique Présentation pour le cours SOL6210, Analyse quantitative avancée Claire Durand, 2015 1 Utilisation PQuand la variable dépendante est nominale ou ordinale < Deux types selon la

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Le modèle linéaire généralisé avec R : fonction glm()

Le modèle linéaire généralisé avec R : fonction glm() SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

Régression de Poisson

Régression de Poisson ZHANG Mudong & LI Siheng & HU Chenyang 21 Mars, 2013 Plan Composantes des modèles Estimation Qualité d ajustement et Tests Exemples Conclusion 2/25 Introduction de modèle linéaire généralisé La relation

Plus en détail

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés M1 MLG Année 2012 2013 Feuille de TP N 3 : Modèle log-linéaire - Travail guidé 1 Cancers : modèle log-linéaire à deux facteurs croisés Ce premier exercice reprend l exercice 1 de la feuille de TD n 3.

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : Applied Multivariate Statistical Analysis»,

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Modélisation des transports

Modélisation des transports Modélisation des transports Cinzia Cirillo, Eric Cornelis & Philippe TOINT D.E.S. interuniversitaire en gestion des transports Les Modèles de choix discrets Dr. CINZIA CIRILLO Facultés Universitaires Notre-Dame

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail

Econométrie. février 2008. Boutin, Rathelot

Econométrie. février 2008. Boutin, Rathelot 5ème séance Xavier Boutin Roland Rathelot Supélec février 2008 Plan Variables binaires La question y = β 0 + β 1 x 1 +...β k x k + u Que se passe-t-il lorsque y est une variable {0, 1} et non plus une

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Introduction au cours STA 102 Analyse des données : Méthodes explicatives

Introduction au cours STA 102 Analyse des données : Méthodes explicatives Analyse des données - Méthodes explicatives (STA102) Introduction au cours STA 102 Analyse des données : Méthodes explicatives Giorgio Russolillo giorgio.russolillo@cnam.fr Infos et support du cours Slide

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Correction de l épreuve de Statistiques et Informatique appliquées à la Psychologie

Correction de l épreuve de Statistiques et Informatique appliquées à la Psychologie Université de Bretagne Occidentale Année Universitaire 2013-2014 U.F.R. de Lettres et Sciences Humaines CS 93837-29238 BREST CEDEX 3 Section : Psychologie - Licence 3è année Enseignant responsable : F.-G.

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Savoir Faire Excel Niveau 2. 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr

Savoir Faire Excel Niveau 2. 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr Savoir Faire Excel Niveau 2 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr Ce qu on sait faire Entrer et recopier des données numériques Les fonctions de base (somme, moyenne, nb, si) Faire

Plus en détail

Données qualitatives, modèles probit et logit

Données qualitatives, modèles probit et logit Données qualitatives, modèles probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours de Christophe Hurlin. On est confronté à des données qualitatives en micro-économie

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

partie a Introduction à la statistique 1

partie a Introduction à la statistique 1 table des matières F AVANT-PROPOS À L ÉDITION AMÉRICAINE Abréviations viii xiv partie a Introduction à la statistique 1 1. Statistique et probabilité ne sont pas intuitives 3 Nous avons tendance à passer

Plus en détail

Actuariat IARD - ACT2040 Partie 2 - régression logistique et arbres de régression (Y {0, 1})

Actuariat IARD - ACT2040 Partie 2 - régression logistique et arbres de régression (Y {0, 1}) Actuariat IARD - ACT2040 Partie 2 - régression logistique et arbres de régression (Y {0, 1}) Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.hypotheses.org/ Hiver 2013 1 Modèlisation

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Les variables indépendantes catégorielles

Les variables indépendantes catégorielles Les variables indépendantes catégorielles Jean-François Bickel Statistique II SP08 Jusqu à maintenant, nous avons considéré comme variables indépendantes uniquement des variables intervalles (âge) ou traitées

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2 UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 Master d économie Cours de M. Desgraupes MATHS/STATS Document 4 : Les tests statistiques 1 Généralités sur les tests

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

T de Student Khi-deux Corrélation

T de Student Khi-deux Corrélation Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes

Plus en détail

La régression logistique généralisée avec la procédure LOGISTIC

La régression logistique généralisée avec la procédure LOGISTIC La régression logistique généralisée avec la procédure LOGISTIC 1 Sommaire I / Régression logistique généralisée 3 a. Introduction 3 b. Présentation de l exemple à étudier 3 II / Modélisation avec la proc

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 Cours de B. Desgraupes. Simulation Stochastique

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 Cours de B. Desgraupes. Simulation Stochastique UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 L2 MIASHS Cours de B. Desgraupes Simulation Stochastique Séance 04: Nombres pseudo-aléatoires Table des matières 1

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle

Plus en détail

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité 1 CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité Une situation fréquente en pratique est de disposer non pas d un résultat mais de plusieurs. Le cas se présente en assurance, par exemple :

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Cours 1: lois discrétes classiques en probabilités

Cours 1: lois discrétes classiques en probabilités Cours 1: lois discrétes classiques en probabilités Laboratoire de Mathématiques de Toulouse Université Paul Sabatier-IUT GEA Ponsan Module: Stat inférentielles Définition Quelques exemples loi d une v.a

Plus en détail

Evaluation d un test diagnostique - Concordance

Evaluation d un test diagnostique - Concordance Evaluation d un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr Plan 1 Introduction 2 Evaluation

Plus en détail

Analyse de données et méthodes numériques

Analyse de données et méthodes numériques Analyse de données et méthodes numériques Analyse de données: Que faire avec un résultat? Comment le décrire? Comment l analyser? Quels sont les «modèles» mathématiques associés? Analyse de données et

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Théorie de l information : historique

Théorie de l information : historique Théorie de l information : historique Développée dans les années quarante par Claude Shannon. Objectif : maximiser la quantité d information pouvant être transmise par un canal de communication imparfait.

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Modèle mixte non linéaire. Application à la modélisation de processus dynamiques et prise en compte d effets génotypiques et environnementaux

Modèle mixte non linéaire. Application à la modélisation de processus dynamiques et prise en compte d effets génotypiques et environnementaux Modèle mixte non linéaire. Application à la modélisation de processus dynamiques et prise en compte d effets génotypiques et environnementaux Hervé Monod Unité MIA-Jouy en Josas INRA - Dépt Mathématiques

Plus en détail

Régression logistique ou modèle binomial

Régression logistique ou modèle binomial Résumé Régression logistique ou modèle binomial Introduction au modèle linéaire et modèle linéaire général : la régression logistique ou modèle binomial Retour au plan du cours 1 Introduction Dans ce chapitre,

Plus en détail

Heidi WECHTLER. Octobre 2005

Heidi WECHTLER. Octobre 2005 Heidi WECHTLER Le support aux analyses de données Séminaire GREGOR Octobre 2005 Support aux analyse de données du GREGOR Le poste Chargée d étude statistiques au GREGOR, bureau B126 (wechtler.iae@univ-paris1.fr)

Plus en détail

Normalité des rendements?

Normalité des rendements? Normalité des rendements? Daniel Herlemont 31 mars 2011 Table des matières 1 Introduction 1 2 Test de Normalité des rendements 2 3 Graphiques quantile-quantile 2 4 Estimation par maximum de vraisemblance

Plus en détail

Traitement des données avec EXCEL 2007

Traitement des données avec EXCEL 2007 Traitement des données avec EXCEL 2007 Vincent Jalby Octobre 2010 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation (questionnaire),

Plus en détail

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Modèles à Événements Discrets. Réseaux de Petri Stochastiques Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés

Plus en détail

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés Les nouveaux enjeux et défis du marché immobilier : comment y contribuer? Chaire Ivanhoé Cambridge ESG UQÀM Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

TD de statistique : tests du Chi 2

TD de statistique : tests du Chi 2 TD de statistique : tests du Chi 2 Jean-Baptiste Lamy 6 octobre 2008 1 Test du Chi 2 C est l équivalent de la comparaison de moyenne, mais pour les variables qualitatives. 1.1 Cas 1 : comparer les répartitions

Plus en détail

11. Tests d hypothèses (partie 1/2)

11. Tests d hypothèses (partie 1/2) 11. Tests d hypothèses (partie 1/2) MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v1) MTH2302D: tests d hypothèses 1/30 Plan 1. Introduction 2. Hypothèses et erreurs 3. Tests d hypothèses

Plus en détail

REGRESSION LOGISTIQUE ASSURES BELGES

REGRESSION LOGISTIQUE ASSURES BELGES REGRESSION LOGISTIQUE ASSURES BELGES Cte étude concerne l assurance automobile. L échantillon est constitué de 1106 assurés belges observés en 1992 répartis en deux groupes. Les assurés qui n ont eu aucun

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Analyse de la variance

Analyse de la variance M2 Statistiques et Econométrie Fanny MEYER Morgane CADRAN Margaux GAILLARD Plan du cours I. Introduction II. Analyse de la variance à un facteur III. Analyse de la variance à deux facteurs IV. Analyse

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE Les résultats donnés par R et SAS donnent les valeurs des tests, la valeur-p ainsi que les intervalles de confiance. TEST DE COMPARAISON

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Introduction à Rcommander

Introduction à Rcommander Introduction à Rcommander Pauline Scherdel Septembre 2014 Table des matières 1 Introduction à Rcmdr sous R 2 2 Interagir avec R 3 3 Installer et charger le package Rcmdr sous R 3 4 Importation des données

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Quelques révisions de R 1. Manipulation de vecteur. On rappelle que e x = k 0 Créer dans

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

La gestion des ventes.

La gestion des ventes. I. La prévision des ventes. A. Principe. La gestion des ventes. Elle consiste à déterminer les ventes futures à la fois en quantité et en valeur en tenant compte des tendances et contraintes imposées à

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

5. Validité de la méta-analyse

5. Validité de la méta-analyse 5. Validité de la méta-analyse 5.1. Poids de la preuve d une méta-analyse Le poids de la preuve d un résultat scientifique quantifie le degré avec lequel ce résultat s approche de la réalité. Il ne s agit

Plus en détail

Les Meta-analyses. Sibilia Quilici. Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014

Les Meta-analyses. Sibilia Quilici. Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014 Les Meta-analyses Sibilia Quilici Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014 Nombre de publication en méta-analyses 8000 7000 6000 5000 4000

Plus en détail

Statistiques industrielles Management de la production et de la qualité

Statistiques industrielles Management de la production et de la qualité Statistiques industrielles Management de la production et de la qualité Francois.Kauffmann@unicaen.fr Université de Caen Basse-Normandie 9 novembre 2015 Francois.Kauffmann@unicaen.fr UCBN MSP 9 novembre

Plus en détail

Exemple 7.7 : Modèles multiniveaux de croissance expliquant le soutien social perçu par les élèves

Exemple 7.7 : Modèles multiniveaux de croissance expliquant le soutien social perçu par les élèves Exemple 7.7 : Modèles multiniveaux de croissance expliquant le soutien social perçu par les élèves Modèle 1 (modèle vide) : GET FILE='C:\Users\Desktop\donnees stats\soutien.sav'. DATASET ACTIVATE Ensemble_de_données2.

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Économétrie 2 : données qualitatives, probit et logit

Économétrie 2 : données qualitatives, probit et logit URCA Hugo Harari-Kermadec 2008-2009 harari@ecogest.ens-cachan.fr Économétrie 2 : données qualitatives, probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours

Plus en détail

Introduction à l analyse quantitative

Introduction à l analyse quantitative Introduction à l analyse quantitative Vue d ensemble du webinaire Le webinaire sera enregistré. Les diapositives et tous les autres documents seront envoyés aux participants après la séance. La séance

Plus en détail

Introduction aux modèles mixtes Comparaison de k moyennes à partir d échantillons non indépendants. 27 mai 2009 Pierre INGRAND

Introduction aux modèles mixtes Comparaison de k moyennes à partir d échantillons non indépendants. 27 mai 2009 Pierre INGRAND Introduction aux modèles mixtes Comparaison de k moyennes à partir d échantillons non indépendants 27 mai 2009 Pierre INGRAND Position du problème. Exemple On cherche à comparer la réponse pharmacologique

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE

MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE Pierre-Louis Gonzalez 1 I INTRODUCTION 1 variable qualitative. Tri à plat. Représentations graphiques. Modélisation : loi binomiale loi multinomiale

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Introduction à l'analyse statistique des données

Introduction à l'analyse statistique des données INTRODUCTION À L'ANALYSE STATISTIQUE DES DONNÉES CONCEPTS DE BASE Un certain nombre de concepts, préalables indispensables à la compréhension des analyses présentées, sont définis ici. De même pour quelques

Plus en détail

R i = a 0 +b 0 B i +ε i, R = Xβ +ε,

R i = a 0 +b 0 B i +ε i, R = Xβ +ε, Statistiques 2010-2011 TP sur le Modèle linéaire gaussien avec R 1 Les exercices Vous traiterez les exercices suivants avec le logiciel R. Exercice 1 Des photographies aériennes de champs d orge sont analysées

Plus en détail

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Chapitre 3 Dénombrement et représentation d un caractère continu Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Introduction Un caractère quantitatif est continu si ses modalités possibles

Plus en détail

Protocole d étude de l évaluation des résultats des centres de FIV 2011 1. -Activité 2011-

Protocole d étude de l évaluation des résultats des centres de FIV 2011 1. -Activité 2011- Protocole d étude Evaluation des résultats des centres de FIV -Activité 2011- Contexte Depuis 2005, l Agence de la biomédecine a pour mission de suivre et d évaluer les activités cliniques et biologiques

Plus en détail