Régression logistique. Benoit Crabbé

Dimension: px
Commencer à balayer dès la page:

Download "Régression logistique. Benoit Crabbé"

Transcription

1

2 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

3 Modèles linéaires généralisés et régression logistique Le modèle de régression linéaire que nous avons vu jusqu à présent est un modèle qui s applique à prédire une variable continue en fonction d une variable continue Il arrive souvent que l on veuille prédire une variable binaire à partir d une (ou plusieurs) variable(s) continue(s) (ou nominales), c est ce que permet de faire la régression logistique x R,y {0,1} Cas de prédiction d une variable binomiale. Bresnan prédit le dative vs non dative de cette manière. Terminologie Dans le cas où la variable à prédire Y est une variable nominale (catégorique) on parle de classification. Lorsque la variable Y est continue, on parle de régression.

4 Interpréter la variable Y comme une probabilité de succès Problème : prédire une variable à deux issues Y = {0,1} dont l une est le succès (Y = 1) et l autre un échec (Y = 0). En réutilisant une technique de régression, on peut chercher la probabilité d obtenir le succès P(Y = 1), il est alors possible de déduire la probabilité de l échec : P(Y = 0) = 1 P(Y = 1) On peut se munir d une règle de décision qui pour un seuil θ décide : { 1 si P(Y = 1) > θ Y = 0 sinon avec θ = 0.5 en première approximation

5 Inadéquation de la régression linéaire pour prédire une variable binaire y On pourrait envisager réutiliser la régression linéaire pour prédire des valeurs 0 et 1 avec une règle de décision du type : { 1 si f(x) = α+β(x) > 0.5 Y = 0 sinon Le problème est que la régression linéaire produit des valeurs qui sont inévitablement en dehors de l intervalle [0,1] R et qui ne s interpètent pas comme des probabilités La régression linéaire va en effet prédire des valeurs continues sur R, or on veut uniquement prédire dans l intervalle [0,1] R x

6 Cas d étude : Bresnan John gives Mary recipient an apple theme (Recipient = NP) 2 John gives an apple theme to Mary recipient (Recipient = PP) > library(languager) > data(dative) > exo <- data.frame(lr = dative$lengthofrecipient, LT = dative$lengthoftheme, R = dative$realizationofrecipient) > table(exo$r) Variable à prédire : R, deux valeurs : NP et PP (succès,échec)

7 Interpréter les données comme des probabilités On peut définir la probabilité d avoir le succès pour une valeur x donnée comme suit : C(Y = 1,X = x) P(Y = 1 X = x) = C(X = x) Exemple (on pose arbitrairement le succès comme R = NP) : > t <- table(exo$lt,exo$r) > t #C(LT=1,R=NP) = 380 #C(LT=1) = > prob = 380/( ) #P(R=NP LT=1) # Generalisation > probs <- t[,2]/(t[,1]+t[,2]) #Valeurs de LT > lt <- as.numeric(levels(as.factor(exo$lt))) #Nuage de points P(NP LT) > plot(lt,props)

8 Représentation du nuage de points Proportions de succès en fonction de la valeur de X P(Y=1 X) Représentation Chaque point représente la proportion de succès pour chaque valeur de x, càd f(x) = C(x,succ) C(x) X

9 Fonction logistique Les nuages de points dont la variable Y est une variable à valeurs dans [0,1] ne se résument plus par une droite mais par une fonction qui décrit une courbe en S, la fonction logistique (ou sigmoide) P(Y=1 X) Fonction logistique y = eα+βx 1+e α+βx S interprète comme : P(Y = 1 X = x) = eα+βx 1+e α+βx x

10 Paramètres de la fonction logistique y y Observons ce qu il se passe si on change les valeurs de α et de β β=1/2 β=1 β= α=2 α=1 α= x x α contrôle la translation de la courbe β contrôle l incurvation de la courbe. (Non illustré) le signe de β contôle la direction de la courbe

11 Illustration > x <- seq(-10,10,0.1) > alpha <- 1 > beta <- 1 > y <- exp(alpha+beta * x)/(1+ exp(alpha+beta * x)) > plot(x,y) # Essayer avec les combinaisons: # alpha {-2,0,2} # beta {-2,-1,1,2}

12 Calcul d une régression logistique On a un nuage de points qui se résume par la fonction : ŷ = eα+βx 1+e α+βx Or cette fonction comporte la version linéaire α+βx On sait comment calculer une régression pour une fonction linéaire Idée : projeter la fonction logistique dans un espace linéaire et faire le calcul

13 Fonction logit La fonction logit permet de projeter le problème dans un espace linéaire x logit(x) = ln( 1 x ) Preuve ( ) e α+βx logit 1+e α+βx = ln = ln = ln = ln e α+βx 1+e α+βx 1 eα+βx 1+e α+βx e α+βx 1+e α+βx 1+e α+βx eα+βx 1+e α+βx 1+e α+βx e α+βx 1+e α+βx 1 1+e α+βx (e α+βx) = α+βx

14 illustrée y Nuage de points Espace logit P(Y=1 X) logit(y) X X x Démarche du calcul 1 Nuage de points qui présente une relation non linéaire (logistique). Chaque point = ( C(succès,x) C(x) ) 2 Projeter le nuage dans un espace linéaire (logit link) 3 Calculer la régression dans cet espace linéaire, ce qui nous donne les coefficients α et β

15 Calcul de la régression On cherche à prédire les valeurs du logit: logit(x) = α+βx La valeur ) f(x) de chaque point x observé devient = logit(x) ln( x 1 x Les résidus ne sont habituellement pas distribués normalement Donc on n a pas ǫ N(0,1) Calcul analogue au moindres carrés, maximise la vraisemblance des données Terminologie La fonction logit est la fonction qui projette le problème initial dans l espace linéaire. On l appelle pour cette raison, fonction de lien. On dit que la régression logistique appartient aux modèles linéaires généralisés.

16 Mise en pratique > mod <- glm(r LT,data=exo,family=binomial(link="logit")) #ou > mod <- glm(r LT,data=exo,family=binomial) > summary(mod) glm(formula = R LT, family = binomial, data = exo) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-12 *** LT < 2e-16 *** --- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 3262 degrees of freedom Residual deviance: on 3261 degrees of freedom AIC:

17 Prédire les probabilités Un modèle de régression logistique produit en résultat des probabilités Ainsi si on a le modèle : avec α = 0.44 et β = 0.17 P(Y = NP LT) = eβlt+α 1+e βlt+α Pour LT = 1, on prédit que : P(Y = NP LT =) = e = e

18 Prédire les probabilités : exercice > mod <- glm(r LT, data=exo,family="binomial") > summary(mod) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-12 *** LT < 2e-16 *** --- > newlt <- 1:50 > predlt <- exp( *newLT)/(1+exp( *newLT)) #Alternativement > ndata <- data.frame(lt=newlt) > predict(mod,ndata,type="response") # Meme exercice pour > mod <- glm(r LT+LR, data=exo,family="binomial")

19 Méthodologie Comme pour la régression linéaire, il est important de : Vérifier la validité du modèle Prouver la qualité du fit. Avant d analyser les coefficients Les méthodes diffèrent par endroits

20 Qualité de la régression : graphe de corrélation La régression logistique ne permet pas de calculer une mesure de type R 2 pour mesurer la qualité du fit (les résidus ne sont pas normalement distribués) mais il en existe des approximations Proportions observées Prédiction théorique Corrélation P(Y=1 X) P(Y=1 X) Valeurs observées X X Valeurs Prédites > library(languager) >?plot.logistic.fit.fnc #tells you how to plot the graph

21 Qualité de la régression (accurracy) Pour prédire une valeur binaire on doit se munir d une règle de décision et d un seuil θ : { 1 si P(Y = 1) > θ Y = 0 sinon avec par exemple θ = 0.5 Dans notre cas, 1 = NP (1 représente le succès)

22 Matrice de confusion On peut comparer les valeurs effectivement prédite par le modèle avec les valeurs observées dans les données et reporter les comptes dans une matrice de confusion : Prédit 1 Prédit 0 Observé 1 Correct (VP) Faux positif Observé 0 Faux négatif Correct (VN) On se définit le score d exactitude (accurracy) comme suit: acc = VP +VN N

23 Courbes Roc : TPR et FPR On peut également s intéresser à la capacité du classifieur à discriminer les vrais positifs des faux positifs Prédit 1 Prédit 0 Observé 1 Correct (VP) Faux positif Observé 0 Faux négatif Correct (VN) On peut se définir le taux de vrais positifs (TPR) et le taux de faux positifs (FPR): TPR = FPR = C(vrais positifs) C(vrais positifs) + C(faux négatifs) C(faux positifs) C(faux positifs) + C(vrais négatifs) Et reporter le point ainsi défini sur un graphique (espace Roc) : du taux de vrais positifs en fonction du taux de faux positifs

24 Courbes ROC : Exercice #Model > mod1 <- glm(r LT,data=exo,family="binomial") > ndata <- data.frame(lt=exo$lt) #Predicted Probabilities > ndata$predictlt <- predict(mod1,ndata,type="response") #Decision rule (theta = 0.7) > ndata$decisionlt <- ifelse(ndata$predictlt > 0.7, "NPpred","PPpred") #Add reference column > ndata$ref <- exo$r #Confusion matrix > t <- table(ndata$ref,ndata$decisionlt) #Accurracy, TPR,FPR > acc <- t[1]+t[4] / sum(t) > TPR <- t[1] / t[1]+t[2] > FPR <- t[3] / t[3]+t[4] #Faire pareil avec mod2 tel que: > mod2 <- glm(r LR,data=exo,family="binomial")

25 Courbes ROC : faire varier le seuil θ Pour établir la décision on fixe arbitrairement θ On peut faire varier θ, ce qui change la matrice de confusion au final (essayer manuellement) En reportant sur un graphique les points (Fpr, Tpr) pour toutes les valeurs de θ [0,1] R, on obtient une courbe Roc: True positive rate False positive rate

26 Courbes ROC : comparer les classifieurs Les courbes Roc sont utilisées pour comparer des classifieurs Plus l aire sous la courbe (AUC) est importante plus le classifieur est capable de discriminer les vrais positifs des faux positifs : s interprète comme la probabilité de classer un exemple positif choisi au hasard comme positif True positive rate Classifieur 1 Classifieur 2 Classifieur 3 AUC AUC (mod 1) = 0.92 AUC (mod 2) = 0.87 AUC (mod 3) = False positive rate

27 Courbes ROC : exercice > library(rocr) # Build a prediction object > preds <- prediction(ndata$ltpred,ndata$ref) #Compute the conf matrix for every value of theta > perf <- performance(preds,"tpr","fpr") #Plot the ROC Curve > plot(perf,colorize=t) #Compute AUC > auc <- performance(preds,"auc") > attr(auc,"y.values") #Now do several models of the dative dataset # until your AUC gets decent #Note that the function lrm C value reports the AUC.

28 Validité du modèle Comme pour la régression linéaire on peut tester le surentrainement > mod <- lrm(r LT,data=exo) > validate(mod,b=100) index.orig training test optimism index.corrected n Dxy e R e Intercept e Slope e Emax e D e U e Q e B e

29 Comparer des modèles Dans le cas linéaire, on peut comparer des modèles en utilisant un test F (comparaison de variance) Ce test s applique dans le cas où la distribution des erreurs est normale ǫ N(0,σ). (hypothèse de calcul de la régression linéaire) Dans le cas logistique, le calcul maximise la vraisemblance des données. Le test compare donc la vraisemblance que donne chacun des modèles aux données. Le test qui calcule cela est le test de rapport de log-vraisemblance: pour M subset et M grand : ( ) χ 2 vraisemblancemsubset 2 ln vraisemblancem grand Intution : M grand a toujours une vraisemblance plus grande que M subset le logarithme est négatif ( multiplication par 2)

30 Test d hypothèse Le ratio de vraisemblance est distribué approximativement par une loi de χ 2 à n = dl(m grand ) dl(m ) L hypothèse nulle H 0 pose que M est suffisant pour expliquer les données L hypothèse alternative stipule qu il faut préférer M grand #Avec R > modsmall <- glm(r LT,data=exo,family="binomial") > modlarge <- glm(r LT+LR,data=exo,family="binomial") #Anova > anova(modsmall,modlarge,test="chi") Analysis of Deviance Table Model 2: RealizationOfRecipient LengthOfTheme + LengthOfR Model 1: RealizationOfRecipient LengthOfTheme Resid. Df Resid. Dev Df Deviance P(> Chi ) < 2.2e-16 ***

31 Interprétation des coefficients Les coefficients d une régression logistique sont donnés à échelle logit, ce qui n est pas très intuitif... Cependant ils s interprètent comme des logarithmes de rapports de chance, en effet : ( ) y logit(y) = ln 1 y Donc e coef = rapport de chance Ex. coef = 2 ; e 2 = 7.38 ; signifie : on a 7.38 fois plus de chances d observer le succès pour chaque incrément unitaire de la variable.

32 Exercice Modélisation des données (Dative Shift) Exercice simplifié (modélisation des données sur l alternance dative) : Considérer les variables : LengthOfRecipient AnimacyOfRec DefinOfRec PronomOfRec LengthOfTheme AnimacyOfTheme DefinOfTheme PronomOfTheme AccessOfRec comme prédictrices potentielles (X 1...X n ) Considérer la variable RealizationOfRecipient comme prédite (Y) Analyse simplifiée: 1 Élaborer un modèle qui ne contient que les variables utiles (procéder par comparaison de modèles) 2 Donner le goodness of fit 3 Identifier les corrélations entre les variables 4 Indiquer quelles sont les variables significatives, et quelle variante de l alternance dative elles favorisent. (faire attention aux effets d échelle des variables (!)

33 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

34 Extension au cas multinomial On montre ici comment on généralise le cas où Y est binomiale au cas où la distribution de Y est multinomiale Représentation et codage de Y Cas binomial : la variable Y est codée sur {0,1} Cas multinomial (dummy coding) : Y = rouge, vert, bleu φ 1 (Y) φ 2 (Y) rouge 0 0 vert 1 0 bleu 0 1 Difficulté La difficulté liée à la régression multinomiale est que l interprétation plus fine du modèle est rendue beaucoup plus difficile (énormément de coefficients)

35 Reformulation du cas binomial Pour le cas binaire on a que : et que : P(Y = 1 X) = eα+βx 1+e α+βx P(Y = 0 X) = 1 eα+βx 1+e α+βx = 1+eα+βX eα+βx 1+eα+βX 1+e α+βx = 1 1+e α+βx On a bien que la somme vaut 1 : P(Y = 1 X)+P(Y = 0 X) = 1+eα+βX 1+e α+βx le numérateur = score pour l hypothèse Y = k, le dénominateur = somme des scores pour toutes les hypothèses possibles On peut également représenter la décision comme suit : ŷ = argmaxp(y = k X) k {1,0}

36 multinomiale Pour une variable Y à 0...m valeurs discrètes, on calcule une régression pour les valeurs 1...m : P(Y = k X) = e α k+β k X 1+ m j=1 eα i+β i X Et pour le cas par défaut (Y = 0) on a que: P(Y = 0 X) = 1 1+ m j=1 eα i+β i X Pour prédire une valeur parmi les m possibles : ŷ = argmaxp(y = y X) y

37 multinomiale (exemple) Tagger miniature (unigramme, MaxEnt) Modèle : P(Y = y X) = eα+βx Z(α+βX) avec X = (word,lemma,cat,prev cat,next cat) Décision : Données potentielles P(Y = k X) = argmax k Y e α+βx Z(α+βX) word lemma cat prev cat prev word next word 1 On on CL NONE NONE devrait 2 devrait devoir V CL On y 3 y y CL V devrait voir 4 voir voir V CL y un 5 un un D V voir NONE

38 Exemple (généralisé) Maximum Entropy Markov Model On se souvient que la probabilité d obtenir un étiquetage Y étant donné une séquence d observables X peut se simplifier comme suit (hypothèse de type Markovienne): P(Y 0...Y n X 1...X n ) = n P(Y i X i ) où les X i sont des variables issues de la séquence d observables X i (mots) ou des tags précédents Y 0...i 1 Pour calculer l étiquetage Y 0...Y n d une phrase, on calcule alors : n Y 0...Y n = argmax P(Y i X i ) Y 0...Y n Y n i=0 i=0 Ce que l on fait avec une table de Viterbi (cf épisodes précédents)

39 Remarque (codage des variables en Tal) Dummy coding : R vous binarise implicitement les variables nominales (typiquement une variable comme word) en utilisant le dummy coding En Tal la plupart des paquetages logiciels vous demandent de faire le codage vous même : ex. X = rouge, vert, bleu La présentation habituelle est la suivante (cas de rouge): { 1 six = rouge φ rouge (X) = 0 sinon Les fonctions φ( ) sont appelées fonctions features (elles codent des variables le plus souvent nominales sous forme binaire) En Tal on parle souvent d attribut pour la variable et de valeur pour la valeur considérée.

40 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

41 Modèles à effets aléatoires On parle également de modèles mixtes ou de modèles hiérarchiques L idée est que certaines variables sans intérêt pour la théorie peuvent avoir une influence sur la variance des résultats Par exemple, si on étudie l alternance dative : 1 On veut étudier des variables comme le poids des dépendants 2 Il y a des variables sans intérêt (parasites) pour la généralisation comme le locuteur de la phrase, le type de corpus... 3 Ces variables peuvent créer de la variance. On peut en tenir compte en les incluant explicitement dans le modèle. Il s agit des variables aléatoires. 4 Un modèle qui contient des variables aléatoires est souvent appelé modèle mixte.

42 Exemple Observation graphique pour les temps de lecture > library(languager) > library(lattice) > library(lmer) # Pas de variation due a l age sur f(frequence)=familiarity > xyplot(familiarity WrittenFrequency AgeSubject, data=english) #Avec ligne de regression > xyplot(familiarity WrittenFrequency AgeSubject, data=english,panel=function(x,y){ + panel.xyplot(x,y) + panel.abline(lm(y x),col="red",lwd=3) } ) #Tres claire variabilite due a l age sur f(rtnaming) = Temps de lecture > xyplot(familiarity RTnaming AgeSubject, data=english,panel=function(x,y){ + panel.xyplot(x,y) + panel.abline(lm(y x),col="red",lwd=3) } ) >#Confirmation via le calcul de lmlist > lmlist(familiarity RTnaming AgeSubject,data=english)

43 Illustration (variation de l intercept) La variable AgeSubject fait varier l intercept pour le modèle Familiarity = α+βrtnaming+ǫ old young Familiarity RTnaming

44 Modèle à effet aléatoire Pour tenir compte de cet effet : 1 Deux modèles linéaires différents (un pour chaque valeur de Age??) 2 Modèle à effet aléatoire qui prend en compte le fait que la variable Age a un effet sur l intercept de chacun des deux groupes Dans notre cas, un modèle à intercept aléatoire a la forme suivante: Familiarity i = α+βrtnaming+α AgeSubjecti +ǫ où α AgeSubjecti est une valeur constante ajoutée à α selon la valeur de la variable AgeSubject Comme ǫ N(0,σ 2 ) la variable α est distribuée normalement (α N(0,σ 2 ))

45 Modèle à effets aléatoires en pratique Les modèles à effets aléatoires peuvent être utilisés dans le cas multivarié #Calcul > mod <- lmer(familiarity RTnaming + WrittenFrequency + WordCategory +(1 AgeSubject),data=english) > summary(mod) Linear mixed model fit by REML Formula: Familiarity RTnaming + WrittenFrequency + WordCategory + (1 AgeSubject) Random effects: Groups Name Variance Std.Dev. AgeSubject (Intercept) Residual Number of obs: 4568, groups: AgeSubject, 2 Fixed effects: Estimate Std. Error t value (Intercept) RTnaming WrittenFrequency WordCategoryV # Visualisation des intercepts > ranef(mod) $AgeSubject (Intercept) old young

46 Obtenir les p-values d un modèle à effets aléatoires Controverse entre statisticiens sur la fiabilité des p-valeurs de ce type de modèles Pour obtenir des p-valeurs pour les coefficients : > library(languager) > pvals.fnc(mod) pvals.fnc(mod) $fixed Estimate MCMCmean HPD95lower HPD95upper pmcmc Pr(> t ) (Intercept) RTnaming WrittenFrequency WordCategoryV $random Groups Name Std.Dev. MCMCmedian MCMCmean HPD95lower HPD95upper 1 AgeSubject (Intercept) Residual

47 Modèles à effets aléatoires On peut utiliser également des modèles à effets aléatoires pour modéliser des problèmes binomiaux (régression logistique) La méthodologie est similaire: On formule un modèle logistique à intercept aléatoire comme suit : P(Y = 1 X i ) = eα+βx+αi 1+e α+βx+αi NB: on peut inclure autant d intercepts aléatoires que souhaité Exemple : > mod <- lmer(realizationofrecipient LengthOfTheme +AnimacyOfRecipient +(1 Verb)+(1 Modality),data=dative,family="binomial")

48 Méthodologie La méthodologie de travail est subtantiellement la même que pour les modèles à effets fixes Difficultés pour calculer la goodness of fit Nouveauté : comment décider d inclure des effets aléatoires?

49 Calculer la goodness of fit avec un modèle à effets aléatoires On a pas de fonction prédict générale pour les modèles à effets aléatoires... Il faut le faire à la main : #Coefs des effets fixes > coefs <- fixef(mod) #Construire la sous-table de donnes adequates > donnees <- model.matrix(terms(mod),model.frame(mod)) #Predictions logit (manque les ranefs) > logit <- donnees %*% coefs #produit de matrices #Ajouter les ranefs selon le groupe #A faire pour chaque Ranef > agevector <- model.frame(mod)$agesubject > ageranefs <- ranef(mod)$agesubject[agevector,] > logitr <- logit + ageranefs #Probabilites > probs <- exp(logitr)/(1+exp(logitr)) #Exemple de Decision (theta=0.5) > preds <- ifelse(probs > 0.5,"PP","NP") > preds <- as.factor(preds)

50 Calcul de la goodness of Fit Une fois les prédictions obtenues Calcul de l accurracy (cf. épisodes précédents) Calcul d une AUC (courbe ROC, cf. épisodes précédents) Graphique de corrélation > library(languager) > plot.logistic.fit.fnc(mod,dative)

51 Détecter les effets aléatoires Explorer les données pour voir si une variable cause de variations sur les données (de type intercept) Visualisation/Exploration graphique Faire des régressions simples en listes pour différentes valeurs de la variable catégorique et voir si les coefficients changent... Inclusion d un effet aléatoire (par text de comparaison de modèle : anova() vous calcule un χ 2 )

52 Visualisation des effets aléatoires Les effets aléatoires peuvent se visualiser Distribution de la variable Modality > dotplot(ranef(mod,postvar=t))[["modality"]] Distribution de la variable Verb > dotplot(ranef(mod,postvar=t))[["verb"]] (Intercept) written spoken take issue sell lease sell_back cede read afford prepay resell repay serve write trade sell_off bequeath allocate award leave loan slip present tender submit hand_over carry deal supply run get funnel deliver bring make mail extend send hand offer pay vote allot assign cause lend grant swap float flip pay_back deny show reimburse assess accord net feed refuse give promise permit will quote guarantee assure bet fine owe teach wish allow tell charge do cost (Intercept) On peut également faire des histogrammes pour vérifier que les distributions des variables aléatoires sont bien normales.

53 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

54 But de l entreprise Take home message : Vous pouvez inférer des observations à caractère général sur le langage à partir de corpus richement annotés La méthode introspective n est pas la seule possible Repose sur une inférence statistique (modélisation) Traite un problème de préférence d ordre des mots qui échappe à la démarche générative

55 Question traitée Alternance dative en anglais : 1 John gave a book to Mary (V-NP-PP) 2 John gave Mary a book (dative shift, V-NP-NP) Thème ; Bénéficiaire Problème trop difficile? Choix : quels facteurs interviennent pour préférer tel ou tel ordonnancement?

56 Problèmes classiques de l analyse de corpus 1 Les observations sont corrélées (théories réductrices): par exemple on pourrait expliquer la préférence d ordre des mots en fonction d un seul facteur : la complexité syntaxique (Hawkins 94, corrélé avec l accessibilité des référents (given/new)). on veut pouvoir décorréler différents facteurs. 2 Les données groupées induisent des biais statistiques (regroupements par speaker ici) 3 La théorie syntaxique sera biaisée par des observations liées au seul lexique à disposition dans le corpus. 4 La non représentativité et les différences très fortes entre corpus bloquent toute tentative de généralisation.

57 L alternance dative : une affaire de sémantique? On peut expliquer l alternance dative en termes de sens exprimé : 1 Susan give toys to the children 2 Susan give children toys Où (1) induit un sens changement de place (des jouets) alors que (2) induit un sens changement de propriétaire (des jouets) Dans le cas de verbes comme to give (emploi idiomatique) la théorie prédit qu on ne peut avoir de sens changement de place, donc pas de structure V-NP-PP 1 The lightning here gives me the creep 2 * The lightning here gives the creep to me

58 Contre-exemples Exploration Google: beaucoup de contre-exemples à la théorie Montre que ces contre-exemples ne sont pas du pur bruit de Google Différents facteurs d origines diverses semblent agir contre la théorie : accessibilité, définitude, complexité, pronominalisation des dépendants...

59 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

60 Théorie réductrice Contre les théories réductrices Cite (Hawkins 94) Principe général : le plus court avant le plus long; Comme l accessibilité (et l animacité) corrèlent avec la complexité,on garde la complexité comme facteur explicatif car plus général. Propose une démarche expérimentale dans laquelle les données corrélées sont bien identifiées : régression logistique (modèle mixte).

61 Principales Variables Accessibilité dans le discours (given,new,accessible) (pour le thème et le bénéficiaire) Définitude (pour le thème et le bénéficiaire) Pronominalité des dépendants (pour le thème et le bénéficiaire) Animacité des dépendants (pour le thème et le bénéficiaire) Classe sémantique du verbe abstrait, transfert de possession, futur transfert de possession, prévention de possession,communication Interaction de complexité entre le thème et le bénéficiaire : différence de longueur (manipulée au log() pour écraser les outliers) Personne des dépendants (pour les pronominaux) Parallélisme dans le dialogue priming? (pas compris)

62 Données A extrait de Switchboard exemples de cas de double complémentation (alternances datives) Créé une table de données : chaque ligne une observation, chaque colonne, valeur de la variable pour cette observation. Projet examen 1 Sélectionner la sous table de données orales > dativeo <- dative[dative$modality=="spoken",]

63 Fit du modèle A Note importante : le succès (ce qu elle cherche à prédire est la structure V-NP-PP coefs positifs votent pour la structure non dative) Probability{Response = 1} = 1 1+e Xβ, where X ˆβ = 0.95 (a) (a) (b) (b) (c) (c) (d) (e) 1.34{c} {f} 3.90{p} {t} {accessibility of recipient = nongiven} 1.1{accessibility of theme = nongiven} + 1.2{pronominality of recipient = nonpronoun} 1.2{pronominality of theme = nonpronoun} {definiteness of recipient = indefinite} 1.4{definiteness of theme = indefinite} + 2.5{animacy of recipient = inanimate} {person of recipient = nonlocal} 0.03{number of recipient = plural} + 0.5{number of theme = plural} 0.46{concreteness of theme = nonconcrete} 1.1{parallelism = 1} 1.2 length difference (log scale) and {c} = 1 if subject is in group c, 0 otherwise (and likewise for other categories). Figure 4. The model A formula.

64 Conclusion (modèle A) Conclut que les différents facteurs ne sont pas réductibles à la seule complexité syntaxique (corrélations faibles) Ce que je n ai pas vu (mal lu?) c est qu elle ne propose pas de réduction de modèles (avec tests d hypothèses à l appui) Sa conclusion ne semble pas supportée par une démarche de modélisation exhaustive.

65 Projet examen : modélisation modèle A Projet examen: question 1 La conclusion que les différents facteurs ne se réduisent pas à la seule complexité syntaxique est discutable au vu de ce qu elle montre On propose de faire la modélisation correctement, càd: On prédit que RealizationOfRecipient = PP Exprimer la variable de complexité syntaxique (weights) Tester par comparaison de modèles que les seuls facteurs de complexité syntaxique sont insuffisants pour expliquer les données. Chercher à trouver un modèle plus compact que celui qui comporte tous les facteurs (par comparaison de modèles). Interprétez. Donner une (ou plusieurs) mesures de goodness of fit pour votre modèle Est-ce vrai que les données qu elle analyse ne sont pas corrélées? Note : Vous n avez pas accès à toutes les variables qu elle manipule. Vous devez vous contenter d un modèle un peu réduit.

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Le modèle linéaire généralisé avec R : fonction glm()

Le modèle linéaire généralisé avec R : fonction glm() SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr

Plus en détail

Régression de Poisson

Régression de Poisson ZHANG Mudong & LI Siheng & HU Chenyang 21 Mars, 2013 Plan Composantes des modèles Estimation Qualité d ajustement et Tests Exemples Conclusion 2/25 Introduction de modèle linéaire généralisé La relation

Plus en détail

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés M1 MLG Année 2012 2013 Feuille de TP N 3 : Modèle log-linéaire - Travail guidé 1 Cancers : modèle log-linéaire à deux facteurs croisés Ce premier exercice reprend l exercice 1 de la feuille de TD n 3.

Plus en détail

La régression logistique

La régression logistique La régression logistique Présentation pour le cours SOL6210, Analyse quantitative avancée Claire Durand, 2015 1 Utilisation PQuand la variable dépendante est nominale ou ordinale < Deux types selon la

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : Applied Multivariate Statistical Analysis»,

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Données qualitatives, modèles probit et logit

Données qualitatives, modèles probit et logit Données qualitatives, modèles probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours de Christophe Hurlin. On est confronté à des données qualitatives en micro-économie

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Actuariat IARD - ACT2040 Partie 2 - régression logistique et arbres de régression (Y {0, 1})

Actuariat IARD - ACT2040 Partie 2 - régression logistique et arbres de régression (Y {0, 1}) Actuariat IARD - ACT2040 Partie 2 - régression logistique et arbres de régression (Y {0, 1}) Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.hypotheses.org/ Hiver 2013 1 Modèlisation

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2 UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 Master d économie Cours de M. Desgraupes MATHS/STATS Document 4 : Les tests statistiques 1 Généralités sur les tests

Plus en détail

La régression logistique généralisée avec la procédure LOGISTIC

La régression logistique généralisée avec la procédure LOGISTIC La régression logistique généralisée avec la procédure LOGISTIC 1 Sommaire I / Régression logistique généralisée 3 a. Introduction 3 b. Présentation de l exemple à étudier 3 II / Modélisation avec la proc

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Régression logistique ou modèle binomial

Régression logistique ou modèle binomial Résumé Régression logistique ou modèle binomial Introduction au modèle linéaire et modèle linéaire général : la régression logistique ou modèle binomial Retour au plan du cours 1 Introduction Dans ce chapitre,

Plus en détail

Analyse de données et méthodes numériques

Analyse de données et méthodes numériques Analyse de données et méthodes numériques Analyse de données: Que faire avec un résultat? Comment le décrire? Comment l analyser? Quels sont les «modèles» mathématiques associés? Analyse de données et

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

Introduction aux CRF via l annotation par des modèles graphiques. Isabelle Tellier. LIFO, Université d Orléans

Introduction aux CRF via l annotation par des modèles graphiques. Isabelle Tellier. LIFO, Université d Orléans Introduction aux CRF via l annotation par des modèles graphiques Isabelle Tellier LIFO, Université d Orléans Plan 1. Annoter pour quoi faire 2. Apprendre avec un modèle graphique 3. Annnoter des chaînes

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

Normalité des rendements?

Normalité des rendements? Normalité des rendements? Daniel Herlemont 31 mars 2011 Table des matières 1 Introduction 1 2 Test de Normalité des rendements 2 3 Graphiques quantile-quantile 2 4 Estimation par maximum de vraisemblance

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Quelques révisions de R 1. Manipulation de vecteur. On rappelle que e x = k 0 Créer dans

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Introduction au modèle linéaire général

Introduction au modèle linéaire général Résumé Introductions au modèle linéaire général Retour au plan du cours Travaux pratiques 1 Introduction L objet de ce chapitre est d introduire le cadre théorique global permettant de regrouper tous les

Plus en détail

Économétrie 2 : données qualitatives, probit et logit

Économétrie 2 : données qualitatives, probit et logit URCA Hugo Harari-Kermadec 2008-2009 harari@ecogest.ens-cachan.fr Économétrie 2 : données qualitatives, probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours

Plus en détail

La régression logistique PLS

La régression logistique PLS La régression logistique PLS Michel Tenenhaus Groupe HEC, 78351 Jouy-en-Josas 1 Introduction La régression PLS permet de relier une ou plusieurs variables de réponse y àun ensemble de variables prédictives

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Econométrie. février 2008. Boutin, Rathelot

Econométrie. février 2008. Boutin, Rathelot 5ème séance Xavier Boutin Roland Rathelot Supélec février 2008 Plan Variables binaires La question y = β 0 + β 1 x 1 +...β k x k + u Que se passe-t-il lorsque y est une variable {0, 1} et non plus une

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

FACULTE DE MEDECINE D ANGERS. Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant

FACULTE DE MEDECINE D ANGERS. Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant FACULTE DE MEDECINE D ANGERS Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant Année scolaire 2007-2008 SANTE PUBLIQUE ET MEDECINE SOCIALE Responsable

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

SEMIN- Introduction au modèle linéaire mixte. Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Equipe Eco-Evolution mathématique ENS Ulm, UPMS

SEMIN- Introduction au modèle linéaire mixte. Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Equipe Eco-Evolution mathématique ENS Ulm, UPMS SEMIN- Introduction au modèle linéaire mixte Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Equipe Eco-Evolution mathématique ENS Ulm, UPMS SEMIN-R du MNHN 18 Décembre 2008 Introduction au modèle linéaire

Plus en détail

Introduction au cours STA 102 Analyse des données : Méthodes explicatives

Introduction au cours STA 102 Analyse des données : Méthodes explicatives Analyse des données - Méthodes explicatives (STA102) Introduction au cours STA 102 Analyse des données : Méthodes explicatives Giorgio Russolillo giorgio.russolillo@cnam.fr Infos et support du cours Slide

Plus en détail

Introduction à l'analyse statistique des données

Introduction à l'analyse statistique des données INTRODUCTION À L'ANALYSE STATISTIQUE DES DONNÉES CONCEPTS DE BASE Un certain nombre de concepts, préalables indispensables à la compréhension des analyses présentées, sont définis ici. De même pour quelques

Plus en détail

Modélisation des transports

Modélisation des transports Modélisation des transports Cinzia Cirillo, Eric Cornelis & Philippe TOINT D.E.S. interuniversitaire en gestion des transports Les Modèles de choix discrets Dr. CINZIA CIRILLO Facultés Universitaires Notre-Dame

Plus en détail

Modèle mixte non linéaire. Application à la modélisation de processus dynamiques et prise en compte d effets génotypiques et environnementaux

Modèle mixte non linéaire. Application à la modélisation de processus dynamiques et prise en compte d effets génotypiques et environnementaux Modèle mixte non linéaire. Application à la modélisation de processus dynamiques et prise en compte d effets génotypiques et environnementaux Hervé Monod Unité MIA-Jouy en Josas INRA - Dépt Mathématiques

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

AIDE MÉMOIRE DU PACKAGE NLME DE R

AIDE MÉMOIRE DU PACKAGE NLME DE R AIDE MÉMOIRE DU PACKAGE NLME DE R D. CONCORDET R est un logiciel de statistique professionnel qui permet d'eectuer un grand nombre d'analyses. Il est composé d'un c ur qui est capable d'interpréter et

Plus en détail

Les Meta-analyses. Sibilia Quilici. Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014

Les Meta-analyses. Sibilia Quilici. Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014 Les Meta-analyses Sibilia Quilici Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014 Nombre de publication en méta-analyses 8000 7000 6000 5000 4000

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold

Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold Le site web «The Fast Food Explorer» (www.fatcalories.com) propose des données relatives à la composition des

Plus en détail

Conditions d application des méthodes statistiques paramétriques :

Conditions d application des méthodes statistiques paramétriques : Conditions d application des méthodes statistiques paramétriques : applications sur ordinateur GLELE KAKAÏ R., SODJINOU E., FONTON N. Cotonou, Décembre 006 Conditions d application des méthodes statistiques

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 Cours de B. Desgraupes. Simulation Stochastique

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 Cours de B. Desgraupes. Simulation Stochastique UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 L2 MIASHS Cours de B. Desgraupes Simulation Stochastique Séance 04: Nombres pseudo-aléatoires Table des matières 1

Plus en détail

Statistiques industrielles Management de la production et de la qualité

Statistiques industrielles Management de la production et de la qualité Statistiques industrielles Management de la production et de la qualité Francois.Kauffmann@unicaen.fr Université de Caen Basse-Normandie 9 novembre 2015 Francois.Kauffmann@unicaen.fr UCBN MSP 9 novembre

Plus en détail

Sélection de modèles avec l AIC et critères d information dérivés

Sélection de modèles avec l AIC et critères d information dérivés Sélection de modèles avec l AIC et critères d information dérivés Renaud LANCELOT et Matthieu LESNOFF Version 3, Novembre 2005 Ceci n est pas une revue exhaustive mais une courte introduction sur l'utilisation

Plus en détail

WEKA, un logiciel libre d apprentissage et de data mining

WEKA, un logiciel libre d apprentissage et de data mining WEKA, un logiciel libre d apprentissage et de data mining Yves Lechevallier INRIA-Rocquencourt Présentation de WEKA 3.4 Format ARFF WEKA Explorer WEKA Experiment Environment WEKA KnowledgeFlow E_mail :

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7.

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7. UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre Fiche N 7 (avec corrigé) L objet de ce TD est de vous initier à la démarche et à quelques

Plus en détail

Savoir Faire Excel Niveau 2. 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr

Savoir Faire Excel Niveau 2. 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr Savoir Faire Excel Niveau 2 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr Ce qu on sait faire Entrer et recopier des données numériques Les fonctions de base (somme, moyenne, nb, si) Faire

Plus en détail

R i = a 0 +b 0 B i +ε i, R = Xβ +ε,

R i = a 0 +b 0 B i +ε i, R = Xβ +ε, Statistiques 2010-2011 TP sur le Modèle linéaire gaussien avec R 1 Les exercices Vous traiterez les exercices suivants avec le logiciel R. Exercice 1 Des photographies aériennes de champs d orge sont analysées

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

partie a Introduction à la statistique 1

partie a Introduction à la statistique 1 table des matières F AVANT-PROPOS À L ÉDITION AMÉRICAINE Abréviations viii xiv partie a Introduction à la statistique 1 1. Statistique et probabilité ne sont pas intuitives 3 Nous avons tendance à passer

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Autour des nombres pseudo-aléatoires

Autour des nombres pseudo-aléatoires Lycée Chaptal PCSI-PC* Informatique générale pour l ingénieur Autour des nombres pseudo-aléatoires Introduction Produire des suites de nombres aléatoires est une nécessité dans de nombreux domaines de

Plus en détail

Exercices de simulation 1

Exercices de simulation 1 Licence MIA 2ème année Année universitaire 2009-2010 Simulation stochastique C. Léonard Exercices de simulation 1 Les simulations qui suivent sont à effectuer avec Scilab. Le générateur aléatoire de Scilab.

Plus en détail

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Typologie des consommateurs et Mesure de la loyauté/fidélité Stéphanie Ledauphin-Menard, Sébastien Lê Face aux problèmes de pouvoir d achat

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Chapitre 3 RÉGRESSION ET CORRÉLATION

Chapitre 3 RÉGRESSION ET CORRÉLATION Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 3 RÉGRESSION ET CORRÉLATION La corrélation est une notion couramment utilisée dans toutes les applications

Plus en détail

IBM SPSS Regression 20

IBM SPSS Regression 20 IBM SPSS Regression 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Eléments de statistique Introduction - Analyse de données exploratoire

Eléments de statistique Introduction - Analyse de données exploratoire Eléments de statistique Introduction - Louis Wehenkel Département d Electricité, Electronique et Informatique - Université de Liège B24/II.93 - L.Wehenkel@ulg.ac.be MATH0487-2 : 3BacIng, 3BacInf - 16/9/2014

Plus en détail

Le provisionnement en assurance non-vie prise en compte de la dépendance

Le provisionnement en assurance non-vie prise en compte de la dépendance Le provisionnement en assurance non-vie prise en compte de la dépendance Arthur Charpentier http://freaconometrics.blog.free.fr Séminaire interne Desjardins Assurances Générales, février 2011 Les provisions

Plus en détail

Le regroupement de valeurs continues, ARRONDIR... Notion de discrétisation : groupes ou intervalles de valeurs. Exemple : Glycémie normale :

Le regroupement de valeurs continues, ARRONDIR... Notion de discrétisation : groupes ou intervalles de valeurs. Exemple : Glycémie normale : Variables : samedi 14 novembre 2009 12:54 1. Quelques Exemples : C'est une caractéristique ou un facteur susceptible de prendre des valeurs différentes selon les individus. Exemples : o Couleur des cheveux

Plus en détail

REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE

REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE LES DONNEES OBS KW SURFACE PERS PAVILLON AGE VOL SBAINS 1 4805 130 4 1 65 410 1 2 3783 123 4 1 5 307 2 3 2689 98 3 0 18 254 1 4 5683 178 6 1 77 570 3 5 3750

Plus en détail

Méthodes d analyse empirique

Méthodes d analyse empirique Méthodes d analyse empirique Partie Quantitative Michel Beine (suppl. S. Laurent) michel.beine@uni.lu Université du Luxembourg http://www.michelbeine.be Méthodes d analyse empirique p. 1/? Méthodes d analyse

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

Les données manquantes en statistique

Les données manquantes en statistique Les données manquantes en statistique N. MEYER Laboratoire de Biostatistique -Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Séminaire de Statistique - 7 novembre 2006 Les données manquantes

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

STATISTIQUES. Cours I : Test d hypothèses. Télécom Physique Strasbourg Module 2101. Fabrice Heitz. Octobre 2014

STATISTIQUES. Cours I : Test d hypothèses. Télécom Physique Strasbourg Module 2101. Fabrice Heitz. Octobre 2014 Télécom Physique Strasbourg Module 2101 STATISTIQUES Cours I : Test d hypothèses Fabrice Heitz Octobre 2014 Fabrice Heitz (Télécom PS) Statistiques 2014 1 / 75 Cours I TESTS D HYPOTHÈSES Fabrice Heitz

Plus en détail

Analyse Statistique pour Le Traitement d Enquêtes

Analyse Statistique pour Le Traitement d Enquêtes DAT 104, année 2004-2005 p. 1/90 Analyse Statistique pour Le Traitement d Enquêtes Mastère Développement Agricole Tropical Stéphanie Laffont & Vivien ROSSI UMR ENSAM-INRA Analyse des systèmes et Biométrie

Plus en détail

Modèles références de régression multinomiale.

Modèles références de régression multinomiale. Modèles références de régression multinomiale. Propriétés et applications en classification supervisée. Jean Peyhardi 1,3, Catherine Trottier 1,2 & Yann Guédon 3 1 UM2, Institut de Mathématiques et Modélisation

Plus en détail

Régression logistique avec R

Régression logistique avec R Université Rennes 2, UFR Sciences Sociales Régression logistique avec R Université Rennes 2 Place du Recteur H. le Moal CS 24307-35043 Rennes Tel : 02 99 14 18 06 Mel : laurent.rouviere@univ-rennes2.fr

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Correction de l épreuve de Statistiques et Informatique appliquées à la Psychologie

Correction de l épreuve de Statistiques et Informatique appliquées à la Psychologie Université de Bretagne Occidentale Année Universitaire 2013-2014 U.F.R. de Lettres et Sciences Humaines CS 93837-29238 BREST CEDEX 3 Section : Psychologie - Licence 3è année Enseignant responsable : F.-G.

Plus en détail

Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives

Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives Examen Décembre 00. C. Hurlin Exercice 1 (15 points) : Politique de Dividendes On considère un problème de politique de

Plus en détail

L analyse discriminante

L analyse discriminante L analyse discriminante À Propos de ce document... Introduction... La démarche à suivre sous SPSS... 2. Statistics... 2 2. Classify... 2 Analyse des résultats... 3. Vérification de l existence de différences

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Cours 1: lois discrétes classiques en probabilités

Cours 1: lois discrétes classiques en probabilités Cours 1: lois discrétes classiques en probabilités Laboratoire de Mathématiques de Toulouse Université Paul Sabatier-IUT GEA Ponsan Module: Stat inférentielles Définition Quelques exemples loi d une v.a

Plus en détail

Modèles neuronaux pour la modélisation statistique de la langue

Modèles neuronaux pour la modélisation statistique de la langue Modèles neuronaux pour la modélisation statistique de la langue Introduction Les modèles de langage ont pour but de caractériser et d évaluer la qualité des énoncés en langue naturelle. Leur rôle est fondamentale

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail