Régression logistique. Benoit Crabbé

Dimension: px
Commencer à balayer dès la page:

Download "Régression logistique. Benoit Crabbé"

Transcription

1

2 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

3 Modèles linéaires généralisés et régression logistique Le modèle de régression linéaire que nous avons vu jusqu à présent est un modèle qui s applique à prédire une variable continue en fonction d une variable continue Il arrive souvent que l on veuille prédire une variable binaire à partir d une (ou plusieurs) variable(s) continue(s) (ou nominales), c est ce que permet de faire la régression logistique x R,y {0,1} Cas de prédiction d une variable binomiale. Bresnan prédit le dative vs non dative de cette manière. Terminologie Dans le cas où la variable à prédire Y est une variable nominale (catégorique) on parle de classification. Lorsque la variable Y est continue, on parle de régression.

4 Interpréter la variable Y comme une probabilité de succès Problème : prédire une variable à deux issues Y = {0,1} dont l une est le succès (Y = 1) et l autre un échec (Y = 0). En réutilisant une technique de régression, on peut chercher la probabilité d obtenir le succès P(Y = 1), il est alors possible de déduire la probabilité de l échec : P(Y = 0) = 1 P(Y = 1) On peut se munir d une règle de décision qui pour un seuil θ décide : { 1 si P(Y = 1) > θ Y = 0 sinon avec θ = 0.5 en première approximation

5 Inadéquation de la régression linéaire pour prédire une variable binaire y On pourrait envisager réutiliser la régression linéaire pour prédire des valeurs 0 et 1 avec une règle de décision du type : { 1 si f(x) = α+β(x) > 0.5 Y = 0 sinon Le problème est que la régression linéaire produit des valeurs qui sont inévitablement en dehors de l intervalle [0,1] R et qui ne s interpètent pas comme des probabilités La régression linéaire va en effet prédire des valeurs continues sur R, or on veut uniquement prédire dans l intervalle [0,1] R x

6 Cas d étude : Bresnan John gives Mary recipient an apple theme (Recipient = NP) 2 John gives an apple theme to Mary recipient (Recipient = PP) > library(languager) > data(dative) > exo <- data.frame(lr = dative$lengthofrecipient, LT = dative$lengthoftheme, R = dative$realizationofrecipient) > table(exo$r) Variable à prédire : R, deux valeurs : NP et PP (succès,échec)

7 Interpréter les données comme des probabilités On peut définir la probabilité d avoir le succès pour une valeur x donnée comme suit : C(Y = 1,X = x) P(Y = 1 X = x) = C(X = x) Exemple (on pose arbitrairement le succès comme R = NP) : > t <- table(exo$lt,exo$r) > t #C(LT=1,R=NP) = 380 #C(LT=1) = > prob = 380/( ) #P(R=NP LT=1) # Generalisation > probs <- t[,2]/(t[,1]+t[,2]) #Valeurs de LT > lt <- as.numeric(levels(as.factor(exo$lt))) #Nuage de points P(NP LT) > plot(lt,props)

8 Représentation du nuage de points Proportions de succès en fonction de la valeur de X P(Y=1 X) Représentation Chaque point représente la proportion de succès pour chaque valeur de x, càd f(x) = C(x,succ) C(x) X

9 Fonction logistique Les nuages de points dont la variable Y est une variable à valeurs dans [0,1] ne se résument plus par une droite mais par une fonction qui décrit une courbe en S, la fonction logistique (ou sigmoide) P(Y=1 X) Fonction logistique y = eα+βx 1+e α+βx S interprète comme : P(Y = 1 X = x) = eα+βx 1+e α+βx x

10 Paramètres de la fonction logistique y y Observons ce qu il se passe si on change les valeurs de α et de β β=1/2 β=1 β= α=2 α=1 α= x x α contrôle la translation de la courbe β contrôle l incurvation de la courbe. (Non illustré) le signe de β contôle la direction de la courbe

11 Illustration > x <- seq(-10,10,0.1) > alpha <- 1 > beta <- 1 > y <- exp(alpha+beta * x)/(1+ exp(alpha+beta * x)) > plot(x,y) # Essayer avec les combinaisons: # alpha {-2,0,2} # beta {-2,-1,1,2}

12 Calcul d une régression logistique On a un nuage de points qui se résume par la fonction : ŷ = eα+βx 1+e α+βx Or cette fonction comporte la version linéaire α+βx On sait comment calculer une régression pour une fonction linéaire Idée : projeter la fonction logistique dans un espace linéaire et faire le calcul

13 Fonction logit La fonction logit permet de projeter le problème dans un espace linéaire x logit(x) = ln( 1 x ) Preuve ( ) e α+βx logit 1+e α+βx = ln = ln = ln = ln e α+βx 1+e α+βx 1 eα+βx 1+e α+βx e α+βx 1+e α+βx 1+e α+βx eα+βx 1+e α+βx 1+e α+βx e α+βx 1+e α+βx 1 1+e α+βx (e α+βx) = α+βx

14 illustrée y Nuage de points Espace logit P(Y=1 X) logit(y) X X x Démarche du calcul 1 Nuage de points qui présente une relation non linéaire (logistique). Chaque point = ( C(succès,x) C(x) ) 2 Projeter le nuage dans un espace linéaire (logit link) 3 Calculer la régression dans cet espace linéaire, ce qui nous donne les coefficients α et β

15 Calcul de la régression On cherche à prédire les valeurs du logit: logit(x) = α+βx La valeur ) f(x) de chaque point x observé devient = logit(x) ln( x 1 x Les résidus ne sont habituellement pas distribués normalement Donc on n a pas ǫ N(0,1) Calcul analogue au moindres carrés, maximise la vraisemblance des données Terminologie La fonction logit est la fonction qui projette le problème initial dans l espace linéaire. On l appelle pour cette raison, fonction de lien. On dit que la régression logistique appartient aux modèles linéaires généralisés.

16 Mise en pratique > mod <- glm(r LT,data=exo,family=binomial(link="logit")) #ou > mod <- glm(r LT,data=exo,family=binomial) > summary(mod) glm(formula = R LT, family = binomial, data = exo) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-12 *** LT < 2e-16 *** --- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 3262 degrees of freedom Residual deviance: on 3261 degrees of freedom AIC:

17 Prédire les probabilités Un modèle de régression logistique produit en résultat des probabilités Ainsi si on a le modèle : avec α = 0.44 et β = 0.17 P(Y = NP LT) = eβlt+α 1+e βlt+α Pour LT = 1, on prédit que : P(Y = NP LT =) = e = e

18 Prédire les probabilités : exercice > mod <- glm(r LT, data=exo,family="binomial") > summary(mod) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-12 *** LT < 2e-16 *** --- > newlt <- 1:50 > predlt <- exp( *newLT)/(1+exp( *newLT)) #Alternativement > ndata <- data.frame(lt=newlt) > predict(mod,ndata,type="response") # Meme exercice pour > mod <- glm(r LT+LR, data=exo,family="binomial")

19 Méthodologie Comme pour la régression linéaire, il est important de : Vérifier la validité du modèle Prouver la qualité du fit. Avant d analyser les coefficients Les méthodes diffèrent par endroits

20 Qualité de la régression : graphe de corrélation La régression logistique ne permet pas de calculer une mesure de type R 2 pour mesurer la qualité du fit (les résidus ne sont pas normalement distribués) mais il en existe des approximations Proportions observées Prédiction théorique Corrélation P(Y=1 X) P(Y=1 X) Valeurs observées X X Valeurs Prédites > library(languager) >?plot.logistic.fit.fnc #tells you how to plot the graph

21 Qualité de la régression (accurracy) Pour prédire une valeur binaire on doit se munir d une règle de décision et d un seuil θ : { 1 si P(Y = 1) > θ Y = 0 sinon avec par exemple θ = 0.5 Dans notre cas, 1 = NP (1 représente le succès)

22 Matrice de confusion On peut comparer les valeurs effectivement prédite par le modèle avec les valeurs observées dans les données et reporter les comptes dans une matrice de confusion : Prédit 1 Prédit 0 Observé 1 Correct (VP) Faux positif Observé 0 Faux négatif Correct (VN) On se définit le score d exactitude (accurracy) comme suit: acc = VP +VN N

23 Courbes Roc : TPR et FPR On peut également s intéresser à la capacité du classifieur à discriminer les vrais positifs des faux positifs Prédit 1 Prédit 0 Observé 1 Correct (VP) Faux positif Observé 0 Faux négatif Correct (VN) On peut se définir le taux de vrais positifs (TPR) et le taux de faux positifs (FPR): TPR = FPR = C(vrais positifs) C(vrais positifs) + C(faux négatifs) C(faux positifs) C(faux positifs) + C(vrais négatifs) Et reporter le point ainsi défini sur un graphique (espace Roc) : du taux de vrais positifs en fonction du taux de faux positifs

24 Courbes ROC : Exercice #Model > mod1 <- glm(r LT,data=exo,family="binomial") > ndata <- data.frame(lt=exo$lt) #Predicted Probabilities > ndata$predictlt <- predict(mod1,ndata,type="response") #Decision rule (theta = 0.7) > ndata$decisionlt <- ifelse(ndata$predictlt > 0.7, "NPpred","PPpred") #Add reference column > ndata$ref <- exo$r #Confusion matrix > t <- table(ndata$ref,ndata$decisionlt) #Accurracy, TPR,FPR > acc <- t[1]+t[4] / sum(t) > TPR <- t[1] / t[1]+t[2] > FPR <- t[3] / t[3]+t[4] #Faire pareil avec mod2 tel que: > mod2 <- glm(r LR,data=exo,family="binomial")

25 Courbes ROC : faire varier le seuil θ Pour établir la décision on fixe arbitrairement θ On peut faire varier θ, ce qui change la matrice de confusion au final (essayer manuellement) En reportant sur un graphique les points (Fpr, Tpr) pour toutes les valeurs de θ [0,1] R, on obtient une courbe Roc: True positive rate False positive rate

26 Courbes ROC : comparer les classifieurs Les courbes Roc sont utilisées pour comparer des classifieurs Plus l aire sous la courbe (AUC) est importante plus le classifieur est capable de discriminer les vrais positifs des faux positifs : s interprète comme la probabilité de classer un exemple positif choisi au hasard comme positif True positive rate Classifieur 1 Classifieur 2 Classifieur 3 AUC AUC (mod 1) = 0.92 AUC (mod 2) = 0.87 AUC (mod 3) = False positive rate

27 Courbes ROC : exercice > library(rocr) # Build a prediction object > preds <- prediction(ndata$ltpred,ndata$ref) #Compute the conf matrix for every value of theta > perf <- performance(preds,"tpr","fpr") #Plot the ROC Curve > plot(perf,colorize=t) #Compute AUC > auc <- performance(preds,"auc") > attr(auc,"y.values") #Now do several models of the dative dataset # until your AUC gets decent #Note that the function lrm C value reports the AUC.

28 Validité du modèle Comme pour la régression linéaire on peut tester le surentrainement > mod <- lrm(r LT,data=exo) > validate(mod,b=100) index.orig training test optimism index.corrected n Dxy e R e Intercept e Slope e Emax e D e U e Q e B e

29 Comparer des modèles Dans le cas linéaire, on peut comparer des modèles en utilisant un test F (comparaison de variance) Ce test s applique dans le cas où la distribution des erreurs est normale ǫ N(0,σ). (hypothèse de calcul de la régression linéaire) Dans le cas logistique, le calcul maximise la vraisemblance des données. Le test compare donc la vraisemblance que donne chacun des modèles aux données. Le test qui calcule cela est le test de rapport de log-vraisemblance: pour M subset et M grand : ( ) χ 2 vraisemblancemsubset 2 ln vraisemblancem grand Intution : M grand a toujours une vraisemblance plus grande que M subset le logarithme est négatif ( multiplication par 2)

30 Test d hypothèse Le ratio de vraisemblance est distribué approximativement par une loi de χ 2 à n = dl(m grand ) dl(m ) L hypothèse nulle H 0 pose que M est suffisant pour expliquer les données L hypothèse alternative stipule qu il faut préférer M grand #Avec R > modsmall <- glm(r LT,data=exo,family="binomial") > modlarge <- glm(r LT+LR,data=exo,family="binomial") #Anova > anova(modsmall,modlarge,test="chi") Analysis of Deviance Table Model 2: RealizationOfRecipient LengthOfTheme + LengthOfR Model 1: RealizationOfRecipient LengthOfTheme Resid. Df Resid. Dev Df Deviance P(> Chi ) < 2.2e-16 ***

31 Interprétation des coefficients Les coefficients d une régression logistique sont donnés à échelle logit, ce qui n est pas très intuitif... Cependant ils s interprètent comme des logarithmes de rapports de chance, en effet : ( ) y logit(y) = ln 1 y Donc e coef = rapport de chance Ex. coef = 2 ; e 2 = 7.38 ; signifie : on a 7.38 fois plus de chances d observer le succès pour chaque incrément unitaire de la variable.

32 Exercice Modélisation des données (Dative Shift) Exercice simplifié (modélisation des données sur l alternance dative) : Considérer les variables : LengthOfRecipient AnimacyOfRec DefinOfRec PronomOfRec LengthOfTheme AnimacyOfTheme DefinOfTheme PronomOfTheme AccessOfRec comme prédictrices potentielles (X 1...X n ) Considérer la variable RealizationOfRecipient comme prédite (Y) Analyse simplifiée: 1 Élaborer un modèle qui ne contient que les variables utiles (procéder par comparaison de modèles) 2 Donner le goodness of fit 3 Identifier les corrélations entre les variables 4 Indiquer quelles sont les variables significatives, et quelle variante de l alternance dative elles favorisent. (faire attention aux effets d échelle des variables (!)

33 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

34 Extension au cas multinomial On montre ici comment on généralise le cas où Y est binomiale au cas où la distribution de Y est multinomiale Représentation et codage de Y Cas binomial : la variable Y est codée sur {0,1} Cas multinomial (dummy coding) : Y = rouge, vert, bleu φ 1 (Y) φ 2 (Y) rouge 0 0 vert 1 0 bleu 0 1 Difficulté La difficulté liée à la régression multinomiale est que l interprétation plus fine du modèle est rendue beaucoup plus difficile (énormément de coefficients)

35 Reformulation du cas binomial Pour le cas binaire on a que : et que : P(Y = 1 X) = eα+βx 1+e α+βx P(Y = 0 X) = 1 eα+βx 1+e α+βx = 1+eα+βX eα+βx 1+eα+βX 1+e α+βx = 1 1+e α+βx On a bien que la somme vaut 1 : P(Y = 1 X)+P(Y = 0 X) = 1+eα+βX 1+e α+βx le numérateur = score pour l hypothèse Y = k, le dénominateur = somme des scores pour toutes les hypothèses possibles On peut également représenter la décision comme suit : ŷ = argmaxp(y = k X) k {1,0}

36 multinomiale Pour une variable Y à 0...m valeurs discrètes, on calcule une régression pour les valeurs 1...m : P(Y = k X) = e α k+β k X 1+ m j=1 eα i+β i X Et pour le cas par défaut (Y = 0) on a que: P(Y = 0 X) = 1 1+ m j=1 eα i+β i X Pour prédire une valeur parmi les m possibles : ŷ = argmaxp(y = y X) y

37 multinomiale (exemple) Tagger miniature (unigramme, MaxEnt) Modèle : P(Y = y X) = eα+βx Z(α+βX) avec X = (word,lemma,cat,prev cat,next cat) Décision : Données potentielles P(Y = k X) = argmax k Y e α+βx Z(α+βX) word lemma cat prev cat prev word next word 1 On on CL NONE NONE devrait 2 devrait devoir V CL On y 3 y y CL V devrait voir 4 voir voir V CL y un 5 un un D V voir NONE

38 Exemple (généralisé) Maximum Entropy Markov Model On se souvient que la probabilité d obtenir un étiquetage Y étant donné une séquence d observables X peut se simplifier comme suit (hypothèse de type Markovienne): P(Y 0...Y n X 1...X n ) = n P(Y i X i ) où les X i sont des variables issues de la séquence d observables X i (mots) ou des tags précédents Y 0...i 1 Pour calculer l étiquetage Y 0...Y n d une phrase, on calcule alors : n Y 0...Y n = argmax P(Y i X i ) Y 0...Y n Y n i=0 i=0 Ce que l on fait avec une table de Viterbi (cf épisodes précédents)

39 Remarque (codage des variables en Tal) Dummy coding : R vous binarise implicitement les variables nominales (typiquement une variable comme word) en utilisant le dummy coding En Tal la plupart des paquetages logiciels vous demandent de faire le codage vous même : ex. X = rouge, vert, bleu La présentation habituelle est la suivante (cas de rouge): { 1 six = rouge φ rouge (X) = 0 sinon Les fonctions φ( ) sont appelées fonctions features (elles codent des variables le plus souvent nominales sous forme binaire) En Tal on parle souvent d attribut pour la variable et de valeur pour la valeur considérée.

40 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

41 Modèles à effets aléatoires On parle également de modèles mixtes ou de modèles hiérarchiques L idée est que certaines variables sans intérêt pour la théorie peuvent avoir une influence sur la variance des résultats Par exemple, si on étudie l alternance dative : 1 On veut étudier des variables comme le poids des dépendants 2 Il y a des variables sans intérêt (parasites) pour la généralisation comme le locuteur de la phrase, le type de corpus... 3 Ces variables peuvent créer de la variance. On peut en tenir compte en les incluant explicitement dans le modèle. Il s agit des variables aléatoires. 4 Un modèle qui contient des variables aléatoires est souvent appelé modèle mixte.

42 Exemple Observation graphique pour les temps de lecture > library(languager) > library(lattice) > library(lmer) # Pas de variation due a l age sur f(frequence)=familiarity > xyplot(familiarity WrittenFrequency AgeSubject, data=english) #Avec ligne de regression > xyplot(familiarity WrittenFrequency AgeSubject, data=english,panel=function(x,y){ + panel.xyplot(x,y) + panel.abline(lm(y x),col="red",lwd=3) } ) #Tres claire variabilite due a l age sur f(rtnaming) = Temps de lecture > xyplot(familiarity RTnaming AgeSubject, data=english,panel=function(x,y){ + panel.xyplot(x,y) + panel.abline(lm(y x),col="red",lwd=3) } ) >#Confirmation via le calcul de lmlist > lmlist(familiarity RTnaming AgeSubject,data=english)

43 Illustration (variation de l intercept) La variable AgeSubject fait varier l intercept pour le modèle Familiarity = α+βrtnaming+ǫ old young Familiarity RTnaming

44 Modèle à effet aléatoire Pour tenir compte de cet effet : 1 Deux modèles linéaires différents (un pour chaque valeur de Age??) 2 Modèle à effet aléatoire qui prend en compte le fait que la variable Age a un effet sur l intercept de chacun des deux groupes Dans notre cas, un modèle à intercept aléatoire a la forme suivante: Familiarity i = α+βrtnaming+α AgeSubjecti +ǫ où α AgeSubjecti est une valeur constante ajoutée à α selon la valeur de la variable AgeSubject Comme ǫ N(0,σ 2 ) la variable α est distribuée normalement (α N(0,σ 2 ))

45 Modèle à effets aléatoires en pratique Les modèles à effets aléatoires peuvent être utilisés dans le cas multivarié #Calcul > mod <- lmer(familiarity RTnaming + WrittenFrequency + WordCategory +(1 AgeSubject),data=english) > summary(mod) Linear mixed model fit by REML Formula: Familiarity RTnaming + WrittenFrequency + WordCategory + (1 AgeSubject) Random effects: Groups Name Variance Std.Dev. AgeSubject (Intercept) Residual Number of obs: 4568, groups: AgeSubject, 2 Fixed effects: Estimate Std. Error t value (Intercept) RTnaming WrittenFrequency WordCategoryV # Visualisation des intercepts > ranef(mod) $AgeSubject (Intercept) old young

46 Obtenir les p-values d un modèle à effets aléatoires Controverse entre statisticiens sur la fiabilité des p-valeurs de ce type de modèles Pour obtenir des p-valeurs pour les coefficients : > library(languager) > pvals.fnc(mod) pvals.fnc(mod) $fixed Estimate MCMCmean HPD95lower HPD95upper pmcmc Pr(> t ) (Intercept) RTnaming WrittenFrequency WordCategoryV $random Groups Name Std.Dev. MCMCmedian MCMCmean HPD95lower HPD95upper 1 AgeSubject (Intercept) Residual

47 Modèles à effets aléatoires On peut utiliser également des modèles à effets aléatoires pour modéliser des problèmes binomiaux (régression logistique) La méthodologie est similaire: On formule un modèle logistique à intercept aléatoire comme suit : P(Y = 1 X i ) = eα+βx+αi 1+e α+βx+αi NB: on peut inclure autant d intercepts aléatoires que souhaité Exemple : > mod <- lmer(realizationofrecipient LengthOfTheme +AnimacyOfRecipient +(1 Verb)+(1 Modality),data=dative,family="binomial")

48 Méthodologie La méthodologie de travail est subtantiellement la même que pour les modèles à effets fixes Difficultés pour calculer la goodness of fit Nouveauté : comment décider d inclure des effets aléatoires?

49 Calculer la goodness of fit avec un modèle à effets aléatoires On a pas de fonction prédict générale pour les modèles à effets aléatoires... Il faut le faire à la main : #Coefs des effets fixes > coefs <- fixef(mod) #Construire la sous-table de donnes adequates > donnees <- model.matrix(terms(mod),model.frame(mod)) #Predictions logit (manque les ranefs) > logit <- donnees %*% coefs #produit de matrices #Ajouter les ranefs selon le groupe #A faire pour chaque Ranef > agevector <- model.frame(mod)$agesubject > ageranefs <- ranef(mod)$agesubject[agevector,] > logitr <- logit + ageranefs #Probabilites > probs <- exp(logitr)/(1+exp(logitr)) #Exemple de Decision (theta=0.5) > preds <- ifelse(probs > 0.5,"PP","NP") > preds <- as.factor(preds)

50 Calcul de la goodness of Fit Une fois les prédictions obtenues Calcul de l accurracy (cf. épisodes précédents) Calcul d une AUC (courbe ROC, cf. épisodes précédents) Graphique de corrélation > library(languager) > plot.logistic.fit.fnc(mod,dative)

51 Détecter les effets aléatoires Explorer les données pour voir si une variable cause de variations sur les données (de type intercept) Visualisation/Exploration graphique Faire des régressions simples en listes pour différentes valeurs de la variable catégorique et voir si les coefficients changent... Inclusion d un effet aléatoire (par text de comparaison de modèle : anova() vous calcule un χ 2 )

52 Visualisation des effets aléatoires Les effets aléatoires peuvent se visualiser Distribution de la variable Modality > dotplot(ranef(mod,postvar=t))[["modality"]] Distribution de la variable Verb > dotplot(ranef(mod,postvar=t))[["verb"]] (Intercept) written spoken take issue sell lease sell_back cede read afford prepay resell repay serve write trade sell_off bequeath allocate award leave loan slip present tender submit hand_over carry deal supply run get funnel deliver bring make mail extend send hand offer pay vote allot assign cause lend grant swap float flip pay_back deny show reimburse assess accord net feed refuse give promise permit will quote guarantee assure bet fine owe teach wish allow tell charge do cost (Intercept) On peut également faire des histogrammes pour vérifier que les distributions des variables aléatoires sont bien normales.

53 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

54 But de l entreprise Take home message : Vous pouvez inférer des observations à caractère général sur le langage à partir de corpus richement annotés La méthode introspective n est pas la seule possible Repose sur une inférence statistique (modélisation) Traite un problème de préférence d ordre des mots qui échappe à la démarche générative

55 Question traitée Alternance dative en anglais : 1 John gave a book to Mary (V-NP-PP) 2 John gave Mary a book (dative shift, V-NP-NP) Thème ; Bénéficiaire Problème trop difficile? Choix : quels facteurs interviennent pour préférer tel ou tel ordonnancement?

56 Problèmes classiques de l analyse de corpus 1 Les observations sont corrélées (théories réductrices): par exemple on pourrait expliquer la préférence d ordre des mots en fonction d un seul facteur : la complexité syntaxique (Hawkins 94, corrélé avec l accessibilité des référents (given/new)). on veut pouvoir décorréler différents facteurs. 2 Les données groupées induisent des biais statistiques (regroupements par speaker ici) 3 La théorie syntaxique sera biaisée par des observations liées au seul lexique à disposition dans le corpus. 4 La non représentativité et les différences très fortes entre corpus bloquent toute tentative de généralisation.

57 L alternance dative : une affaire de sémantique? On peut expliquer l alternance dative en termes de sens exprimé : 1 Susan give toys to the children 2 Susan give children toys Où (1) induit un sens changement de place (des jouets) alors que (2) induit un sens changement de propriétaire (des jouets) Dans le cas de verbes comme to give (emploi idiomatique) la théorie prédit qu on ne peut avoir de sens changement de place, donc pas de structure V-NP-PP 1 The lightning here gives me the creep 2 * The lightning here gives the creep to me

58 Contre-exemples Exploration Google: beaucoup de contre-exemples à la théorie Montre que ces contre-exemples ne sont pas du pur bruit de Google Différents facteurs d origines diverses semblent agir contre la théorie : accessibilité, définitude, complexité, pronominalisation des dépendants...

59 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)

60 Théorie réductrice Contre les théories réductrices Cite (Hawkins 94) Principe général : le plus court avant le plus long; Comme l accessibilité (et l animacité) corrèlent avec la complexité,on garde la complexité comme facteur explicatif car plus général. Propose une démarche expérimentale dans laquelle les données corrélées sont bien identifiées : régression logistique (modèle mixte).

61 Principales Variables Accessibilité dans le discours (given,new,accessible) (pour le thème et le bénéficiaire) Définitude (pour le thème et le bénéficiaire) Pronominalité des dépendants (pour le thème et le bénéficiaire) Animacité des dépendants (pour le thème et le bénéficiaire) Classe sémantique du verbe abstrait, transfert de possession, futur transfert de possession, prévention de possession,communication Interaction de complexité entre le thème et le bénéficiaire : différence de longueur (manipulée au log() pour écraser les outliers) Personne des dépendants (pour les pronominaux) Parallélisme dans le dialogue priming? (pas compris)

62 Données A extrait de Switchboard exemples de cas de double complémentation (alternances datives) Créé une table de données : chaque ligne une observation, chaque colonne, valeur de la variable pour cette observation. Projet examen 1 Sélectionner la sous table de données orales > dativeo <- dative[dative$modality=="spoken",]

63 Fit du modèle A Note importante : le succès (ce qu elle cherche à prédire est la structure V-NP-PP coefs positifs votent pour la structure non dative) Probability{Response = 1} = 1 1+e Xβ, where X ˆβ = 0.95 (a) (a) (b) (b) (c) (c) (d) (e) 1.34{c} {f} 3.90{p} {t} {accessibility of recipient = nongiven} 1.1{accessibility of theme = nongiven} + 1.2{pronominality of recipient = nonpronoun} 1.2{pronominality of theme = nonpronoun} {definiteness of recipient = indefinite} 1.4{definiteness of theme = indefinite} + 2.5{animacy of recipient = inanimate} {person of recipient = nonlocal} 0.03{number of recipient = plural} + 0.5{number of theme = plural} 0.46{concreteness of theme = nonconcrete} 1.1{parallelism = 1} 1.2 length difference (log scale) and {c} = 1 if subject is in group c, 0 otherwise (and likewise for other categories). Figure 4. The model A formula.

64 Conclusion (modèle A) Conclut que les différents facteurs ne sont pas réductibles à la seule complexité syntaxique (corrélations faibles) Ce que je n ai pas vu (mal lu?) c est qu elle ne propose pas de réduction de modèles (avec tests d hypothèses à l appui) Sa conclusion ne semble pas supportée par une démarche de modélisation exhaustive.

65 Projet examen : modélisation modèle A Projet examen: question 1 La conclusion que les différents facteurs ne se réduisent pas à la seule complexité syntaxique est discutable au vu de ce qu elle montre On propose de faire la modélisation correctement, càd: On prédit que RealizationOfRecipient = PP Exprimer la variable de complexité syntaxique (weights) Tester par comparaison de modèles que les seuls facteurs de complexité syntaxique sont insuffisants pour expliquer les données. Chercher à trouver un modèle plus compact que celui qui comporte tous les facteurs (par comparaison de modèles). Interprétez. Donner une (ou plusieurs) mesures de goodness of fit pour votre modèle Est-ce vrai que les données qu elle analyse ne sont pas corrélées? Note : Vous n avez pas accès à toutes les variables qu elle manipule. Vous devez vous contenter d un modèle un peu réduit.

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

T de Student Khi-deux Corrélation

T de Student Khi-deux Corrélation Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison Estimation: intervalle de fluctuation et de confiance Mars 2012 IREM: groupe Proba-Stat Estimation Term.1 Intervalle de fluctuation connu : probabilité p, taille de l échantillon n but : estimer une fréquence

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Why Software Projects Escalate: The Importance of Project Management Constructs

Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Analyse de données linguistiques

Analyse de données linguistiques 2011-2012 Slides inspirés des cours de S. Evert et M. Baroni Linguistique expérimentale? Traditionnellement en linguistique formelle, refus de l usage de données comme source d information unique: Méthode

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

choisir H 1 quand H 0 est vraie - fausse alarme

choisir H 1 quand H 0 est vraie - fausse alarme étection et Estimation GEL-64943 Hiver 5 Tests Neyman-Pearson Règles de Bayes: coûts connus min π R ( ) + ( π ) R ( ) { } Règles Minimax: coûts connus min max R ( ), R ( ) Règles Neyman Pearson: coûts

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. Pré-requis : Probabilités : définition, calculs et probabilités conditionnelles ; Notion de variables aléatoires, et propriétés associées : espérance,

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE Par Fatoumata A dite Woybi Touré 11135079 Science de la gestion (Ingénierie financière) Projet supervisé présenté en vue de

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

4 Exemples de problèmes MapReduce incrémentaux

4 Exemples de problèmes MapReduce incrémentaux 4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank

Plus en détail

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le Qui je suis Innovation Utilisation des réseaux sociaux pour le data mining Business & Decision Françoise Soulié Fogelman francoise.soulie@outlook.com Atos KDD_US CNAM Séminaire de Statistique appliquée

Plus en détail

PROGRAMME (Susceptible de modifications)

PROGRAMME (Susceptible de modifications) Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 Tests du χ 2 Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 A. Lourme http://alexandrelourme.free.fr Outline

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Modèle GARCH Application à la prévision de la volatilité

Modèle GARCH Application à la prévision de la volatilité Modèle GARCH Application à la prévision de la volatilité Olivier Roustant Ecole des Mines de St-Etienne 3A - Finance Quantitative Décembre 2007 1 Objectifs Améliorer la modélisation de Black et Scholes

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Faire un semi variograme et une carte krigée avec surfer

Faire un semi variograme et une carte krigée avec surfer Faire un semi variograme et une carte krigée avec surfer Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr avril 2004 Fichier de données Faire un fichier excel avec les données organisée en colonnes:

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Application Form/ Formulaire de demande

Application Form/ Formulaire de demande Application Form/ Formulaire de demande Ecosystem Approaches to Health: Summer Workshop and Field school Approches écosystémiques de la santé: Atelier intensif et stage d été Please submit your application

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Le modèle de régression linéaire

Le modèle de régression linéaire Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L économétrie traite de la construction de modèles. Le premier point de l analyse consiste à se poser la question : «Quel est le modèle?». Le

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Cours 7 : Utilisation de modules sous python

Cours 7 : Utilisation de modules sous python Cours 7 : Utilisation de modules sous python 2013/2014 Utilisation d un module Importer un module Exemple : le module random Importer un module Exemple : le module random Importer un module Un module est

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION À UNE INTERPRÉTATION CAUSALE Arthur Charpentier Professeur d actuariat à l Université du Québec, Montréal Amadou Diogo Barry Chercheur à l Institut de santé

Plus en détail

Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur

Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur Ismaëlh Cissé Directeur : Carlos Ordás Criado Problématique Transports

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité 1 CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité Une situation fréquente en pratique est de disposer non pas d un résultat mais de plusieurs. Le cas se présente en assurance, par exemple :

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail