Régression logistique. Benoit Crabbé

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Régression logistique. Benoit Crabbé"

Transcription

1

2 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

3 Modèles linéaires généralisés et régression logistique Le modèle de régression linéaire que nous avons vu jusqu à présent est un modèle qui s applique à prédire une variable continue en fonction d une variable continue Il arrive souvent que l on veuille prédire une variable binaire à partir d une (ou plusieurs) variable(s) continue(s) (ou nominales), c est ce que permet de faire la régression logistique x R,y {0,1} Cas de prédiction d une variable binomiale. Bresnan prédit le dative vs non dative de cette manière. Terminologie Dans le cas où la variable à prédire Y est une variable nominale (catégorique) on parle de classification. Lorsque la variable Y est continue, on parle de régression.

4 Interpréter la variable Y comme une probabilité de succès Problème : prédire une variable à deux issues Y = {0,1} dont l une est le succès (Y = 1) et l autre un échec (Y = 0). En réutilisant une technique de régression, on peut chercher la probabilité d obtenir le succès P(Y = 1), il est alors possible de déduire la probabilité de l échec : P(Y = 0) = 1 P(Y = 1) On peut se munir d une règle de décision qui pour un seuil θ décide : { 1 si P(Y = 1) > θ Y = 0 sinon avec θ = 0.5 en première approximation

5 Inadéquation de la régression linéaire pour prédire une variable binaire y On pourrait envisager réutiliser la régression linéaire pour prédire des valeurs 0 et 1 avec une règle de décision du type : { 1 si f(x) = α+β(x) > 0.5 Y = 0 sinon Le problème est que la régression linéaire produit des valeurs qui sont inévitablement en dehors de l intervalle [0,1] R et qui ne s interpètent pas comme des probabilités La régression linéaire va en effet prédire des valeurs continues sur R, or on veut uniquement prédire dans l intervalle [0,1] R x

6 Cas d étude : Bresnan John gives Mary recipient an apple theme (Recipient = NP) 2 John gives an apple theme to Mary recipient (Recipient = PP) > library(languager) > data(dative) > exo <- data.frame(lr = dative$lengthofrecipient, LT = dative$lengthoftheme, R = dative$realizationofrecipient) > table(exo$r) Variable à prédire : R, deux valeurs : NP et PP (succès,échec)

7 Interpréter les données comme des probabilités On peut définir la probabilité d avoir le succès pour une valeur x donnée comme suit : C(Y = 1,X = x) P(Y = 1 X = x) = C(X = x) Exemple (on pose arbitrairement le succès comme R = NP) : > t <- table(exo$lt,exo$r) > t #C(LT=1,R=NP) = 380 #C(LT=1) = > prob = 380/( ) #P(R=NP LT=1) # Generalisation > probs <- t[,2]/(t[,1]+t[,2]) #Valeurs de LT > lt <- as.numeric(levels(as.factor(exo$lt))) #Nuage de points P(NP LT) > plot(lt,props)

8 Représentation du nuage de points Proportions de succès en fonction de la valeur de X P(Y=1 X) Représentation Chaque point représente la proportion de succès pour chaque valeur de x, càd f(x) = C(x,succ) C(x) X

9 Fonction logistique Les nuages de points dont la variable Y est une variable à valeurs dans [0,1] ne se résument plus par une droite mais par une fonction qui décrit une courbe en S, la fonction logistique (ou sigmoide) P(Y=1 X) Fonction logistique y = eα+βx 1+e α+βx S interprète comme : P(Y = 1 X = x) = eα+βx 1+e α+βx x

10 Paramètres de la fonction logistique y y Observons ce qu il se passe si on change les valeurs de α et de β β=1/2 β=1 β= α=2 α=1 α= x x α contrôle la translation de la courbe β contrôle l incurvation de la courbe. (Non illustré) le signe de β contôle la direction de la courbe

11 Illustration > x <- seq(-10,10,0.1) > alpha <- 1 > beta <- 1 > y <- exp(alpha+beta * x)/(1+ exp(alpha+beta * x)) > plot(x,y) # Essayer avec les combinaisons: # alpha {-2,0,2} # beta {-2,-1,1,2}

12 Calcul d une régression logistique On a un nuage de points qui se résume par la fonction : ŷ = eα+βx 1+e α+βx Or cette fonction comporte la version linéaire α+βx On sait comment calculer une régression pour une fonction linéaire Idée : projeter la fonction logistique dans un espace linéaire et faire le calcul

13 Fonction logit La fonction logit permet de projeter le problème dans un espace linéaire x logit(x) = ln( 1 x ) Preuve ( ) e α+βx logit 1+e α+βx = ln = ln = ln = ln e α+βx 1+e α+βx 1 eα+βx 1+e α+βx e α+βx 1+e α+βx 1+e α+βx eα+βx 1+e α+βx 1+e α+βx e α+βx 1+e α+βx 1 1+e α+βx (e α+βx) = α+βx

14 illustrée y Nuage de points Espace logit P(Y=1 X) logit(y) X X x Démarche du calcul 1 Nuage de points qui présente une relation non linéaire (logistique). Chaque point = ( C(succès,x) C(x) ) 2 Projeter le nuage dans un espace linéaire (logit link) 3 Calculer la régression dans cet espace linéaire, ce qui nous donne les coefficients α et β

15 Calcul de la régression On cherche à prédire les valeurs du logit: logit(x) = α+βx La valeur ) f(x) de chaque point x observé devient = logit(x) ln( x 1 x Les résidus ne sont habituellement pas distribués normalement Donc on n a pas ǫ N(0,1) Calcul analogue au moindres carrés, maximise la vraisemblance des données Terminologie La fonction logit est la fonction qui projette le problème initial dans l espace linéaire. On l appelle pour cette raison, fonction de lien. On dit que la régression logistique appartient aux modèles linéaires généralisés.

16 Mise en pratique > mod <- glm(r LT,data=exo,family=binomial(link="logit")) #ou > mod <- glm(r LT,data=exo,family=binomial) > summary(mod) glm(formula = R LT, family = binomial, data = exo) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-12 *** LT < 2e-16 *** --- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 3262 degrees of freedom Residual deviance: on 3261 degrees of freedom AIC:

17 Prédire les probabilités Un modèle de régression logistique produit en résultat des probabilités Ainsi si on a le modèle : avec α = 0.44 et β = 0.17 P(Y = NP LT) = eβlt+α 1+e βlt+α Pour LT = 1, on prédit que : P(Y = NP LT =) = e = e

18 Prédire les probabilités : exercice > mod <- glm(r LT, data=exo,family="binomial") > summary(mod) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-12 *** LT < 2e-16 *** --- > newlt <- 1:50 > predlt <- exp( *newLT)/(1+exp( *newLT)) #Alternativement > ndata <- data.frame(lt=newlt) > predict(mod,ndata,type="response") # Meme exercice pour > mod <- glm(r LT+LR, data=exo,family="binomial")

19 Méthodologie Comme pour la régression linéaire, il est important de : Vérifier la validité du modèle Prouver la qualité du fit. Avant d analyser les coefficients Les méthodes diffèrent par endroits

20 Qualité de la régression : graphe de corrélation La régression logistique ne permet pas de calculer une mesure de type R 2 pour mesurer la qualité du fit (les résidus ne sont pas normalement distribués) mais il en existe des approximations Proportions observées Prédiction théorique Corrélation P(Y=1 X) P(Y=1 X) Valeurs observées X X Valeurs Prédites > library(languager) >?plot.logistic.fit.fnc #tells you how to plot the graph

21 Qualité de la régression (accurracy) Pour prédire une valeur binaire on doit se munir d une règle de décision et d un seuil θ : { 1 si P(Y = 1) > θ Y = 0 sinon avec par exemple θ = 0.5 Dans notre cas, 1 = NP (1 représente le succès)

22 Matrice de confusion On peut comparer les valeurs effectivement prédite par le modèle avec les valeurs observées dans les données et reporter les comptes dans une matrice de confusion : Prédit 1 Prédit 0 Observé 1 Correct (VP) Faux positif Observé 0 Faux négatif Correct (VN) On se définit le score d exactitude (accurracy) comme suit: acc = VP +VN N

23 Courbes Roc : TPR et FPR On peut également s intéresser à la capacité du classifieur à discriminer les vrais positifs des faux positifs Prédit 1 Prédit 0 Observé 1 Correct (VP) Faux positif Observé 0 Faux négatif Correct (VN) On peut se définir le taux de vrais positifs (TPR) et le taux de faux positifs (FPR): TPR = FPR = C(vrais positifs) C(vrais positifs) + C(faux négatifs) C(faux positifs) C(faux positifs) + C(vrais négatifs) Et reporter le point ainsi défini sur un graphique (espace Roc) : du taux de vrais positifs en fonction du taux de faux positifs

24 Courbes ROC : Exercice #Model > mod1 <- glm(r LT,data=exo,family="binomial") > ndata <- data.frame(lt=exo$lt) #Predicted Probabilities > ndata$predictlt <- predict(mod1,ndata,type="response") #Decision rule (theta = 0.7) > ndata$decisionlt <- ifelse(ndata$predictlt > 0.7, "NPpred","PPpred") #Add reference column > ndata$ref <- exo$r #Confusion matrix > t <- table(ndata$ref,ndata$decisionlt) #Accurracy, TPR,FPR > acc <- t[1]+t[4] / sum(t) > TPR <- t[1] / t[1]+t[2] > FPR <- t[3] / t[3]+t[4] #Faire pareil avec mod2 tel que: > mod2 <- glm(r LR,data=exo,family="binomial")

25 Courbes ROC : faire varier le seuil θ Pour établir la décision on fixe arbitrairement θ On peut faire varier θ, ce qui change la matrice de confusion au final (essayer manuellement) En reportant sur un graphique les points (Fpr, Tpr) pour toutes les valeurs de θ [0,1] R, on obtient une courbe Roc: True positive rate False positive rate

26 Courbes ROC : comparer les classifieurs Les courbes Roc sont utilisées pour comparer des classifieurs Plus l aire sous la courbe (AUC) est importante plus le classifieur est capable de discriminer les vrais positifs des faux positifs : s interprète comme la probabilité de classer un exemple positif choisi au hasard comme positif True positive rate Classifieur 1 Classifieur 2 Classifieur 3 AUC AUC (mod 1) = 0.92 AUC (mod 2) = 0.87 AUC (mod 3) = False positive rate

27 Courbes ROC : exercice > library(rocr) # Build a prediction object > preds <- prediction(ndata$ltpred,ndata$ref) #Compute the conf matrix for every value of theta > perf <- performance(preds,"tpr","fpr") #Plot the ROC Curve > plot(perf,colorize=t) #Compute AUC > auc <- performance(preds,"auc") > attr(auc,"y.values") #Now do several models of the dative dataset # until your AUC gets decent #Note that the function lrm C value reports the AUC.

28 Validité du modèle Comme pour la régression linéaire on peut tester le surentrainement > mod <- lrm(r LT,data=exo) > validate(mod,b=100) index.orig training test optimism index.corrected n Dxy e R e Intercept e Slope e Emax e D e U e Q e B e

29 Comparer des modèles Dans le cas linéaire, on peut comparer des modèles en utilisant un test F (comparaison de variance) Ce test s applique dans le cas où la distribution des erreurs est normale ǫ N(0,σ). (hypothèse de calcul de la régression linéaire) Dans le cas logistique, le calcul maximise la vraisemblance des données. Le test compare donc la vraisemblance que donne chacun des modèles aux données. Le test qui calcule cela est le test de rapport de log-vraisemblance: pour M subset et M grand : ( ) χ 2 vraisemblancemsubset 2 ln vraisemblancem grand Intution : M grand a toujours une vraisemblance plus grande que M subset le logarithme est négatif ( multiplication par 2)

30 Test d hypothèse Le ratio de vraisemblance est distribué approximativement par une loi de χ 2 à n = dl(m grand ) dl(m ) L hypothèse nulle H 0 pose que M est suffisant pour expliquer les données L hypothèse alternative stipule qu il faut préférer M grand #Avec R > modsmall <- glm(r LT,data=exo,family="binomial") > modlarge <- glm(r LT+LR,data=exo,family="binomial") #Anova > anova(modsmall,modlarge,test="chi") Analysis of Deviance Table Model 2: RealizationOfRecipient LengthOfTheme + LengthOfR Model 1: RealizationOfRecipient LengthOfTheme Resid. Df Resid. Dev Df Deviance P(> Chi ) < 2.2e-16 ***

31 Interprétation des coefficients Les coefficients d une régression logistique sont donnés à échelle logit, ce qui n est pas très intuitif... Cependant ils s interprètent comme des logarithmes de rapports de chance, en effet : ( ) y logit(y) = ln 1 y Donc e coef = rapport de chance Ex. coef = 2 ; e 2 = 7.38 ; signifie : on a 7.38 fois plus de chances d observer le succès pour chaque incrément unitaire de la variable.

32 Exercice Modélisation des données (Dative Shift) Exercice simplifié (modélisation des données sur l alternance dative) : Considérer les variables : LengthOfRecipient AnimacyOfRec DefinOfRec PronomOfRec LengthOfTheme AnimacyOfTheme DefinOfTheme PronomOfTheme AccessOfRec comme prédictrices potentielles (X 1...X n ) Considérer la variable RealizationOfRecipient comme prédite (Y) Analyse simplifiée: 1 Élaborer un modèle qui ne contient que les variables utiles (procéder par comparaison de modèles) 2 Donner le goodness of fit 3 Identifier les corrélations entre les variables 4 Indiquer quelles sont les variables significatives, et quelle variante de l alternance dative elles favorisent. (faire attention aux effets d échelle des variables (!)

33 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

34 Extension au cas multinomial On montre ici comment on généralise le cas où Y est binomiale au cas où la distribution de Y est multinomiale Représentation et codage de Y Cas binomial : la variable Y est codée sur {0,1} Cas multinomial (dummy coding) : Y = rouge, vert, bleu φ 1 (Y) φ 2 (Y) rouge 0 0 vert 1 0 bleu 0 1 Difficulté La difficulté liée à la régression multinomiale est que l interprétation plus fine du modèle est rendue beaucoup plus difficile (énormément de coefficients)

35 Reformulation du cas binomial Pour le cas binaire on a que : et que : P(Y = 1 X) = eα+βx 1+e α+βx P(Y = 0 X) = 1 eα+βx 1+e α+βx = 1+eα+βX eα+βx 1+eα+βX 1+e α+βx = 1 1+e α+βx On a bien que la somme vaut 1 : P(Y = 1 X)+P(Y = 0 X) = 1+eα+βX 1+e α+βx le numérateur = score pour l hypothèse Y = k, le dénominateur = somme des scores pour toutes les hypothèses possibles On peut également représenter la décision comme suit : ŷ = argmaxp(y = k X) k {1,0}

36 multinomiale Pour une variable Y à 0...m valeurs discrètes, on calcule une régression pour les valeurs 1...m : P(Y = k X) = e α k+β k X 1+ m j=1 eα i+β i X Et pour le cas par défaut (Y = 0) on a que: P(Y = 0 X) = 1 1+ m j=1 eα i+β i X Pour prédire une valeur parmi les m possibles : ŷ = argmaxp(y = y X) y

37 multinomiale (exemple) Tagger miniature (unigramme, MaxEnt) Modèle : P(Y = y X) = eα+βx Z(α+βX) avec X = (word,lemma,cat,prev cat,next cat) Décision : Données potentielles P(Y = k X) = argmax k Y e α+βx Z(α+βX) word lemma cat prev cat prev word next word 1 On on CL NONE NONE devrait 2 devrait devoir V CL On y 3 y y CL V devrait voir 4 voir voir V CL y un 5 un un D V voir NONE

38 Exemple (généralisé) Maximum Entropy Markov Model On se souvient que la probabilité d obtenir un étiquetage Y étant donné une séquence d observables X peut se simplifier comme suit (hypothèse de type Markovienne): P(Y 0...Y n X 1...X n ) = n P(Y i X i ) où les X i sont des variables issues de la séquence d observables X i (mots) ou des tags précédents Y 0...i 1 Pour calculer l étiquetage Y 0...Y n d une phrase, on calcule alors : n Y 0...Y n = argmax P(Y i X i ) Y 0...Y n Y n i=0 i=0 Ce que l on fait avec une table de Viterbi (cf épisodes précédents)

39 Remarque (codage des variables en Tal) Dummy coding : R vous binarise implicitement les variables nominales (typiquement une variable comme word) en utilisant le dummy coding En Tal la plupart des paquetages logiciels vous demandent de faire le codage vous même : ex. X = rouge, vert, bleu La présentation habituelle est la suivante (cas de rouge): { 1 six = rouge φ rouge (X) = 0 sinon Les fonctions φ( ) sont appelées fonctions features (elles codent des variables le plus souvent nominales sous forme binaire) En Tal on parle souvent d attribut pour la variable et de valeur pour la valeur considérée.

40 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

41 Modèles à effets aléatoires On parle également de modèles mixtes ou de modèles hiérarchiques L idée est que certaines variables sans intérêt pour la théorie peuvent avoir une influence sur la variance des résultats Par exemple, si on étudie l alternance dative : 1 On veut étudier des variables comme le poids des dépendants 2 Il y a des variables sans intérêt (parasites) pour la généralisation comme le locuteur de la phrase, le type de corpus... 3 Ces variables peuvent créer de la variance. On peut en tenir compte en les incluant explicitement dans le modèle. Il s agit des variables aléatoires. 4 Un modèle qui contient des variables aléatoires est souvent appelé modèle mixte.

42 Exemple Observation graphique pour les temps de lecture > library(languager) > library(lattice) > library(lmer) # Pas de variation due a l age sur f(frequence)=familiarity > xyplot(familiarity WrittenFrequency AgeSubject, data=english) #Avec ligne de regression > xyplot(familiarity WrittenFrequency AgeSubject, data=english,panel=function(x,y){ + panel.xyplot(x,y) + panel.abline(lm(y x),col="red",lwd=3) } ) #Tres claire variabilite due a l age sur f(rtnaming) = Temps de lecture > xyplot(familiarity RTnaming AgeSubject, data=english,panel=function(x,y){ + panel.xyplot(x,y) + panel.abline(lm(y x),col="red",lwd=3) } ) >#Confirmation via le calcul de lmlist > lmlist(familiarity RTnaming AgeSubject,data=english)

43 Illustration (variation de l intercept) La variable AgeSubject fait varier l intercept pour le modèle Familiarity = α+βrtnaming+ǫ old young Familiarity RTnaming

44 Modèle à effet aléatoire Pour tenir compte de cet effet : 1 Deux modèles linéaires différents (un pour chaque valeur de Age??) 2 Modèle à effet aléatoire qui prend en compte le fait que la variable Age a un effet sur l intercept de chacun des deux groupes Dans notre cas, un modèle à intercept aléatoire a la forme suivante: Familiarity i = α+βrtnaming+α AgeSubjecti +ǫ où α AgeSubjecti est une valeur constante ajoutée à α selon la valeur de la variable AgeSubject Comme ǫ N(0,σ 2 ) la variable α est distribuée normalement (α N(0,σ 2 ))

45 Modèle à effets aléatoires en pratique Les modèles à effets aléatoires peuvent être utilisés dans le cas multivarié #Calcul > mod <- lmer(familiarity RTnaming + WrittenFrequency + WordCategory +(1 AgeSubject),data=english) > summary(mod) Linear mixed model fit by REML Formula: Familiarity RTnaming + WrittenFrequency + WordCategory + (1 AgeSubject) Random effects: Groups Name Variance Std.Dev. AgeSubject (Intercept) Residual Number of obs: 4568, groups: AgeSubject, 2 Fixed effects: Estimate Std. Error t value (Intercept) RTnaming WrittenFrequency WordCategoryV # Visualisation des intercepts > ranef(mod) $AgeSubject (Intercept) old young

46 Obtenir les p-values d un modèle à effets aléatoires Controverse entre statisticiens sur la fiabilité des p-valeurs de ce type de modèles Pour obtenir des p-valeurs pour les coefficients : > library(languager) > pvals.fnc(mod) pvals.fnc(mod) $fixed Estimate MCMCmean HPD95lower HPD95upper pmcmc Pr(> t ) (Intercept) RTnaming WrittenFrequency WordCategoryV $random Groups Name Std.Dev. MCMCmedian MCMCmean HPD95lower HPD95upper 1 AgeSubject (Intercept) Residual

47 Modèles à effets aléatoires On peut utiliser également des modèles à effets aléatoires pour modéliser des problèmes binomiaux (régression logistique) La méthodologie est similaire: On formule un modèle logistique à intercept aléatoire comme suit : P(Y = 1 X i ) = eα+βx+αi 1+e α+βx+αi NB: on peut inclure autant d intercepts aléatoires que souhaité Exemple : > mod <- lmer(realizationofrecipient LengthOfTheme +AnimacyOfRecipient +(1 Verb)+(1 Modality),data=dative,family="binomial")

48 Méthodologie La méthodologie de travail est subtantiellement la même que pour les modèles à effets fixes Difficultés pour calculer la goodness of fit Nouveauté : comment décider d inclure des effets aléatoires?

49 Calculer la goodness of fit avec un modèle à effets aléatoires On a pas de fonction prédict générale pour les modèles à effets aléatoires... Il faut le faire à la main : #Coefs des effets fixes > coefs <- fixef(mod) #Construire la sous-table de donnes adequates > donnees <- model.matrix(terms(mod),model.frame(mod)) #Predictions logit (manque les ranefs) > logit <- donnees %*% coefs #produit de matrices #Ajouter les ranefs selon le groupe #A faire pour chaque Ranef > agevector <- model.frame(mod)$agesubject > ageranefs <- ranef(mod)$agesubject[agevector,] > logitr <- logit + ageranefs #Probabilites > probs <- exp(logitr)/(1+exp(logitr)) #Exemple de Decision (theta=0.5) > preds <- ifelse(probs > 0.5,"PP","NP") > preds <- as.factor(preds)

50 Calcul de la goodness of Fit Une fois les prédictions obtenues Calcul de l accurracy (cf. épisodes précédents) Calcul d une AUC (courbe ROC, cf. épisodes précédents) Graphique de corrélation > library(languager) > plot.logistic.fit.fnc(mod,dative)

51 Détecter les effets aléatoires Explorer les données pour voir si une variable cause de variations sur les données (de type intercept) Visualisation/Exploration graphique Faire des régressions simples en listes pour différentes valeurs de la variable catégorique et voir si les coefficients changent... Inclusion d un effet aléatoire (par text de comparaison de modèle : anova() vous calcule un χ 2 )

52 Visualisation des effets aléatoires Les effets aléatoires peuvent se visualiser Distribution de la variable Modality > dotplot(ranef(mod,postvar=t))[["modality"]] Distribution de la variable Verb > dotplot(ranef(mod,postvar=t))[["verb"]] (Intercept) written spoken take issue sell lease sell_back cede read afford prepay resell repay serve write trade sell_off bequeath allocate award leave loan slip present tender submit hand_over carry deal supply run get funnel deliver bring make mail extend send hand offer pay vote allot assign cause lend grant swap float flip pay_back deny show reimburse assess accord net feed refuse give promise permit will quote guarantee assure bet fine owe teach wish allow tell charge do cost (Intercept) On peut également faire des histogrammes pour vérifier que les distributions des variables aléatoires sont bien normales.

53 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

54 But de l entreprise Take home message : Vous pouvez inférer des observations à caractère général sur le langage à partir de corpus richement annotés La méthode introspective n est pas la seule possible Repose sur une inférence statistique (modélisation) Traite un problème de préférence d ordre des mots qui échappe à la démarche générative

55 Question traitée Alternance dative en anglais : 1 John gave a book to Mary (V-NP-PP) 2 John gave Mary a book (dative shift, V-NP-NP) Thème ; Bénéficiaire Problème trop difficile? Choix : quels facteurs interviennent pour préférer tel ou tel ordonnancement?

56 Problèmes classiques de l analyse de corpus 1 Les observations sont corrélées (théories réductrices): par exemple on pourrait expliquer la préférence d ordre des mots en fonction d un seul facteur : la complexité syntaxique (Hawkins 94, corrélé avec l accessibilité des référents (given/new)). on veut pouvoir décorréler différents facteurs. 2 Les données groupées induisent des biais statistiques (regroupements par speaker ici) 3 La théorie syntaxique sera biaisée par des observations liées au seul lexique à disposition dans le corpus. 4 La non représentativité et les différences très fortes entre corpus bloquent toute tentative de généralisation.

57 L alternance dative : une affaire de sémantique? On peut expliquer l alternance dative en termes de sens exprimé : 1 Susan give toys to the children 2 Susan give children toys Où (1) induit un sens changement de place (des jouets) alors que (2) induit un sens changement de propriétaire (des jouets) Dans le cas de verbes comme to give (emploi idiomatique) la théorie prédit qu on ne peut avoir de sens changement de place, donc pas de structure V-NP-PP 1 The lightning here gives me the creep 2 * The lightning here gives the creep to me

58 Contre-exemples Exploration Google: beaucoup de contre-exemples à la théorie Montre que ces contre-exemples ne sont pas du pur bruit de Google Différents facteurs d origines diverses semblent agir contre la théorie : accessibilité, définitude, complexité, pronominalisation des dépendants...

59 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

60 Théorie réductrice Contre les théories réductrices Cite (Hawkins 94) Principe général : le plus court avant le plus long; Comme l accessibilité (et l animacité) corrèlent avec la complexité,on garde la complexité comme facteur explicatif car plus général. Propose une démarche expérimentale dans laquelle les données corrélées sont bien identifiées : régression logistique (modèle mixte).

61 Principales Variables Accessibilité dans le discours (given,new,accessible) (pour le thème et le bénéficiaire) Définitude (pour le thème et le bénéficiaire) Pronominalité des dépendants (pour le thème et le bénéficiaire) Animacité des dépendants (pour le thème et le bénéficiaire) Classe sémantique du verbe abstrait, transfert de possession, futur transfert de possession, prévention de possession,communication Interaction de complexité entre le thème et le bénéficiaire : différence de longueur (manipulée au log() pour écraser les outliers) Personne des dépendants (pour les pronominaux) Parallélisme dans le dialogue priming? (pas compris)

62 Données A extrait de Switchboard exemples de cas de double complémentation (alternances datives) Créé une table de données : chaque ligne une observation, chaque colonne, valeur de la variable pour cette observation. Projet examen 1 Sélectionner la sous table de données orales > dativeo <- dative[dative$modality=="spoken",]

63 Fit du modèle A Note importante : le succès (ce qu elle cherche à prédire est la structure V-NP-PP coefs positifs votent pour la structure non dative) Probability{Response = 1} = 1 1+e Xβ, where X ˆβ = 0.95 (a) (a) (b) (b) (c) (c) (d) (e) 1.34{c} {f} 3.90{p} {t} {accessibility of recipient = nongiven} 1.1{accessibility of theme = nongiven} + 1.2{pronominality of recipient = nonpronoun} 1.2{pronominality of theme = nonpronoun} {definiteness of recipient = indefinite} 1.4{definiteness of theme = indefinite} + 2.5{animacy of recipient = inanimate} {person of recipient = nonlocal} 0.03{number of recipient = plural} + 0.5{number of theme = plural} 0.46{concreteness of theme = nonconcrete} 1.1{parallelism = 1} 1.2 length difference (log scale) and {c} = 1 if subject is in group c, 0 otherwise (and likewise for other categories). Figure 4. The model A formula.

64 Conclusion (modèle A) Conclut que les différents facteurs ne sont pas réductibles à la seule complexité syntaxique (corrélations faibles) Ce que je n ai pas vu (mal lu?) c est qu elle ne propose pas de réduction de modèles (avec tests d hypothèses à l appui) Sa conclusion ne semble pas supportée par une démarche de modélisation exhaustive.

65 Projet examen : modélisation modèle A Projet examen: question 1 La conclusion que les différents facteurs ne se réduisent pas à la seule complexité syntaxique est discutable au vu de ce qu elle montre On propose de faire la modélisation correctement, càd: On prédit que RealizationOfRecipient = PP Exprimer la variable de complexité syntaxique (weights) Tester par comparaison de modèles que les seuls facteurs de complexité syntaxique sont insuffisants pour expliquer les données. Chercher à trouver un modèle plus compact que celui qui comporte tous les facteurs (par comparaison de modèles). Interprétez. Donner une (ou plusieurs) mesures de goodness of fit pour votre modèle Est-ce vrai que les données qu elle analyse ne sont pas corrélées? Note : Vous n avez pas accès à toutes les variables qu elle manipule. Vous devez vous contenter d un modèle un peu réduit.

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

La régression logistique

La régression logistique La régression logistique Présentation pour le cours SOL6210, Analyse quantitative avancée Claire Durand, 2015 1 Utilisation PQuand la variable dépendante est nominale ou ordinale < Deux types selon la

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés M1 MLG Année 2012 2013 Feuille de TP N 3 : Modèle log-linéaire - Travail guidé 1 Cancers : modèle log-linéaire à deux facteurs croisés Ce premier exercice reprend l exercice 1 de la feuille de TD n 3.

Plus en détail

Le modèle linéaire généralisé avec R : fonction glm()

Le modèle linéaire généralisé avec R : fonction glm() SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Régression de Poisson

Régression de Poisson ZHANG Mudong & LI Siheng & HU Chenyang 21 Mars, 2013 Plan Composantes des modèles Estimation Qualité d ajustement et Tests Exemples Conclusion 2/25 Introduction de modèle linéaire généralisé La relation

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Modélisation des transports

Modélisation des transports Modélisation des transports Cinzia Cirillo, Eric Cornelis & Philippe TOINT D.E.S. interuniversitaire en gestion des transports Les Modèles de choix discrets Dr. CINZIA CIRILLO Facultés Universitaires Notre-Dame

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : Applied Multivariate Statistical Analysis»,

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 Cours de B. Desgraupes. Simulation Stochastique

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 Cours de B. Desgraupes. Simulation Stochastique UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 L2 MIASHS Cours de B. Desgraupes Simulation Stochastique Séance 04: Nombres pseudo-aléatoires Table des matières 1

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Les variables indépendantes catégorielles

Les variables indépendantes catégorielles Les variables indépendantes catégorielles Jean-François Bickel Statistique II SP08 Jusqu à maintenant, nous avons considéré comme variables indépendantes uniquement des variables intervalles (âge) ou traitées

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire?

Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire? Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire? Cyril Ferdynus, USM, CHU RECUEIL DE DONNEES Recueil hors ligne Epidata (http://www.epiconcept.fr/html/epidata.html)

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Evaluation d un test diagnostique - Concordance

Evaluation d un test diagnostique - Concordance Evaluation d un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr Plan 1 Introduction 2 Evaluation

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail

La gestion des ventes.

La gestion des ventes. I. La prévision des ventes. A. Principe. La gestion des ventes. Elle consiste à déterminer les ventes futures à la fois en quantité et en valeur en tenant compte des tendances et contraintes imposées à

Plus en détail

Test de Poisson à 1 échantillon et à 2 échantillons

Test de Poisson à 1 échantillon et à 2 échantillons Test de Poisson à 1 échantillon et à 2 échantillons Sous-menus de Minitab 15 : Stat>Statistiques élémentaires>test de Poisson à 1 échantillon Stat>Statistiques élémentaires>test de Poisson à 2 échantillons

Plus en détail

Correction de l épreuve de Statistiques et Informatique appliquées à la Psychologie

Correction de l épreuve de Statistiques et Informatique appliquées à la Psychologie Université de Bretagne Occidentale Année Universitaire 2013-2014 U.F.R. de Lettres et Sciences Humaines CS 93837-29238 BREST CEDEX 3 Section : Psychologie - Licence 3è année Enseignant responsable : F.-G.

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

Savoir Faire Excel Niveau 2. 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr

Savoir Faire Excel Niveau 2. 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr Savoir Faire Excel Niveau 2 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr Ce qu on sait faire Entrer et recopier des données numériques Les fonctions de base (somme, moyenne, nb, si) Faire

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

partie a Introduction à la statistique 1

partie a Introduction à la statistique 1 table des matières F AVANT-PROPOS À L ÉDITION AMÉRICAINE Abréviations viii xiv partie a Introduction à la statistique 1 1. Statistique et probabilité ne sont pas intuitives 3 Nous avons tendance à passer

Plus en détail

Econométrie. février 2008. Boutin, Rathelot

Econométrie. février 2008. Boutin, Rathelot 5ème séance Xavier Boutin Roland Rathelot Supélec février 2008 Plan Variables binaires La question y = β 0 + β 1 x 1 +...β k x k + u Que se passe-t-il lorsque y est une variable {0, 1} et non plus une

Plus en détail

Cours 1: lois discrétes classiques en probabilités

Cours 1: lois discrétes classiques en probabilités Cours 1: lois discrétes classiques en probabilités Laboratoire de Mathématiques de Toulouse Université Paul Sabatier-IUT GEA Ponsan Module: Stat inférentielles Définition Quelques exemples loi d une v.a

Plus en détail

Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages

Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages S. Winandy, R. Palm OCA GxABT/ULg oca.gembloux@ulg.ac.be décembre 2011 1 Introduction La Direction Générale Statistique

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

COMPARAISON GRAHPIQUE DE DEUX VALEURS AVEC INCERTITUDE

COMPARAISON GRAHPIQUE DE DEUX VALEURS AVEC INCERTITUDE COMPARAISON GRAHPIQUE DE DEUX VALEURS AVEC INCERTITUDE Le but d une expérience de laboratoire est souvent de vérifier un résultat théorique à l aide d un montage. Puisqu il est impossible (sinon très rare)

Plus en détail

Introduction au cours STA 102 Analyse des données : Méthodes explicatives

Introduction au cours STA 102 Analyse des données : Méthodes explicatives Analyse des données - Méthodes explicatives (STA102) Introduction au cours STA 102 Analyse des données : Méthodes explicatives Giorgio Russolillo giorgio.russolillo@cnam.fr Infos et support du cours Slide

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité 1 CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité Une situation fréquente en pratique est de disposer non pas d un résultat mais de plusieurs. Le cas se présente en assurance, par exemple :

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Heidi WECHTLER. Octobre 2005

Heidi WECHTLER. Octobre 2005 Heidi WECHTLER Le support aux analyses de données Séminaire GREGOR Octobre 2005 Support aux analyse de données du GREGOR Le poste Chargée d étude statistiques au GREGOR, bureau B126 (wechtler.iae@univ-paris1.fr)

Plus en détail

Analyse de données et méthodes numériques

Analyse de données et méthodes numériques Analyse de données et méthodes numériques Analyse de données: Que faire avec un résultat? Comment le décrire? Comment l analyser? Quels sont les «modèles» mathématiques associés? Analyse de données et

Plus en détail

11. Tests d hypothèses (partie 1/2)

11. Tests d hypothèses (partie 1/2) 11. Tests d hypothèses (partie 1/2) MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v1) MTH2302D: tests d hypothèses 1/30 Plan 1. Introduction 2. Hypothèses et erreurs 3. Tests d hypothèses

Plus en détail

Introduction à l analyse quantitative

Introduction à l analyse quantitative Introduction à l analyse quantitative Vue d ensemble du webinaire Le webinaire sera enregistré. Les diapositives et tous les autres documents seront envoyés aux participants après la séance. La séance

Plus en détail

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN Pôle Informatique de Recherche et d Enseignement en Histoire ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN A. PREMIER PAS 1. INTEGRATION DU TABLEAU

Plus en détail

Master 1 de Psychologie du Travail et des Organisations : Recueil et analyse des données - Corrigés des T.D. ( 2014/2015) -

Master 1 de Psychologie du Travail et des Organisations : Recueil et analyse des données - Corrigés des T.D. ( 2014/2015) - Dominique Ferrieux - Université Paul Valéry - Montpellier III Master de Psychologie du Travail et des Organisations : Recueil et analyse des données - Corrigés des T.D. ( /) - Deuxième partie : Plans :

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous StatEnAction 2009/0/30 :26 page #27 CHAPITRE 0 Machines à sous Résumé. On étudie un problème lié aux jeux de hasard. Il concerne les machines à sous et est appelé problème de prédiction de bandits à deux

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Choix de modèle en régression linéaire

Choix de modèle en régression linéaire Master pro Fouille de données Philippe Besse 1 Objectif Choix de modèle en régression linéaire La construction d un score d appétence sur les données bancaires correspond au choix et à l estimation d un

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Loi normale ou loi de Laplace-Gauss

Loi normale ou loi de Laplace-Gauss LivreSansTitre1.book Page 44 Mardi, 22. juin 2010 10:40 10 Loi normale ou loi de Laplace-Gauss I. Définition de la loi normale II. Tables de la loi normale centrée réduite S il y avait une seule loi de

Plus en détail

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Why Software Projects Escalate: The Importance of Project Management Constructs

Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB

RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB PAR : MAROOF ASIM DAN BENTOLILA WISSAM ESSID GROUPE 1 LM206 Lundi 10H45 INTRODUCTION : ( Ce rapport est un compte

Plus en détail

REGRESSION LOGISTIQUE ASSURES BELGES

REGRESSION LOGISTIQUE ASSURES BELGES REGRESSION LOGISTIQUE ASSURES BELGES Cte étude concerne l assurance automobile. L échantillon est constitué de 1106 assurés belges observés en 1992 répartis en deux groupes. Les assurés qui n ont eu aucun

Plus en détail

TD de statistique : tests du Chi 2

TD de statistique : tests du Chi 2 TD de statistique : tests du Chi 2 Jean-Baptiste Lamy 6 octobre 2008 1 Test du Chi 2 C est l équivalent de la comparaison de moyenne, mais pour les variables qualitatives. 1.1 Cas 1 : comparer les répartitions

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2 Test du Khi 2 Le test du Khi 2 (khi deux ou khi carré) fournit une méthode pour déterminer la nature d'une répartition, qui peut être continue ou discrète. Domaine d application du test : Données qualitatives

Plus en détail

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Chapitre 3 Dénombrement et représentation d un caractère continu Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Introduction Un caractère quantitatif est continu si ses modalités possibles

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Théorie de l information : historique

Théorie de l information : historique Théorie de l information : historique Développée dans les années quarante par Claude Shannon. Objectif : maximiser la quantité d information pouvant être transmise par un canal de communication imparfait.

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Chapitre 3 RÉGRESSION ET CORRÉLATION

Chapitre 3 RÉGRESSION ET CORRÉLATION Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 3 RÉGRESSION ET CORRÉLATION La corrélation est une notion couramment utilisée dans toutes les applications

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Données qualitatives, modèles probit et logit

Données qualitatives, modèles probit et logit Données qualitatives, modèles probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours de Christophe Hurlin. On est confronté à des données qualitatives en micro-économie

Plus en détail

Atradius Buyer Ratings

Atradius Buyer Ratings Atradius Buyer Ratings Le pouvoir de prévoir FAQ A. Questions générales 1. Que signifie le Buyer Rating? Le Buyer Rating d Atradius est un score statistique sur une échelle de 1 à 100 qui a été développé

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2 UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 Master d économie Cours de M. Desgraupes MATHS/STATS Document 4 : Les tests statistiques 1 Généralités sur les tests

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

T de Student Khi-deux Corrélation

T de Student Khi-deux Corrélation Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes

Plus en détail

Installation de la librairie VISP et création du projet

Installation de la librairie VISP et création du projet ESIR3-IN Travaux Pratiques VO 2012-2013 PREAMBULE Copier les données des TPs 1. créez un répertoire VO dans votre homedir cd ~/ mkdir VO cd VO 2. copier le dossier contenant toutes les données pour les

Plus en détail

GUIDE D AIDE STATISTIQUE A LA PREPARATION DE LA THESE

GUIDE D AIDE STATISTIQUE A LA PREPARATION DE LA THESE Département Universitaire de Recherche et d Enseignement en Médecine Générale GUIDE D AIDE STATISTIQUE A LA PREPARATION DE LA THESE Enseignants : Esther GUERY, Julien LE BRETON, Emilie FERRAT, Jacques

Plus en détail

choisir H 1 quand H 0 est vraie - fausse alarme

choisir H 1 quand H 0 est vraie - fausse alarme étection et Estimation GEL-64943 Hiver 5 Tests Neyman-Pearson Règles de Bayes: coûts connus min π R ( ) + ( π ) R ( ) { } Règles Minimax: coûts connus min max R ( ), R ( ) Règles Neyman Pearson: coûts

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Estimateur et Estimation Prof Franck Bonnetain Unité de méthodologie & de qualité de vie en cancérologie (EA3181) CHRU Besançon

Estimateur et Estimation Prof Franck Bonnetain Unité de méthodologie & de qualité de vie en cancérologie (EA3181) CHRU Besançon PACES - APEMK UE 4 Evaluation des méthodes d analyses appliquées aux sciences de la vie et de la santé Estimateur et Estimation Prof Franck Bonnetain Unité de méthodologie & de qualité de vie en cancérologie

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur Excel Avancé Plan Outils de résolution La valeur cible Le solveur Interactivité dans les feuilles Fonctions de recherche (ex: RechercheV) Utilisation de la barre d outils «Formulaires» Outils de simulation

Plus en détail

Le test triangulaire

Le test triangulaire Le test triangulaire Objectif : Détecter l absence ou la présence de différences sensorielles entre 2 produits. «les 2 produits sont-ils perçus comme différents?» Contexte : la différence sensorielle entre

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Simulation Examen de Statistique Approfondie II **Corrigé **

Simulation Examen de Statistique Approfondie II **Corrigé ** Simulation Examen de Statistique Approfondie II **Corrigé ** Ces quatre exercices sont issus du livre d exercices de François Husson et de Jérôme Pagès intitulé Statistiques générales pour utilisateurs,

Plus en détail

Statistiques industrielles Management de la production et de la qualité

Statistiques industrielles Management de la production et de la qualité Statistiques industrielles Management de la production et de la qualité Francois.Kauffmann@unicaen.fr Université de Caen Basse-Normandie 12 novembre 2015 Francois.Kauffmann@unicaen.fr UCBN MSP 12 novembre

Plus en détail

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Université Paris1, Licence 00-003, Mme Pradel : Principales lois de Probabilité 1 DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Notations Si la variable aléatoire X suit la loi L, onnoterax

Plus en détail

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE Les résultats donnés par R et SAS donnent les valeurs des tests, la valeur-p ainsi que les intervalles de confiance. TEST DE COMPARAISON

Plus en détail