Régression logistique. Benoit Crabbé
|
|
- Geneviève Mathieu
- il y a 8 ans
- Total affichages :
Transcription
1
2 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)
3 Modèles linéaires généralisés et régression logistique Le modèle de régression linéaire que nous avons vu jusqu à présent est un modèle qui s applique à prédire une variable continue en fonction d une variable continue Il arrive souvent que l on veuille prédire une variable binaire à partir d une (ou plusieurs) variable(s) continue(s) (ou nominales), c est ce que permet de faire la régression logistique x R,y {0,1} Cas de prédiction d une variable binomiale. Bresnan prédit le dative vs non dative de cette manière. Terminologie Dans le cas où la variable à prédire Y est une variable nominale (catégorique) on parle de classification. Lorsque la variable Y est continue, on parle de régression.
4 Interpréter la variable Y comme une probabilité de succès Problème : prédire une variable à deux issues Y = {0,1} dont l une est le succès (Y = 1) et l autre un échec (Y = 0). En réutilisant une technique de régression, on peut chercher la probabilité d obtenir le succès P(Y = 1), il est alors possible de déduire la probabilité de l échec : P(Y = 0) = 1 P(Y = 1) On peut se munir d une règle de décision qui pour un seuil θ décide : { 1 si P(Y = 1) > θ Y = 0 sinon avec θ = 0.5 en première approximation
5 Inadéquation de la régression linéaire pour prédire une variable binaire y On pourrait envisager réutiliser la régression linéaire pour prédire des valeurs 0 et 1 avec une règle de décision du type : { 1 si f(x) = α+β(x) > 0.5 Y = 0 sinon Le problème est que la régression linéaire produit des valeurs qui sont inévitablement en dehors de l intervalle [0,1] R et qui ne s interpètent pas comme des probabilités La régression linéaire va en effet prédire des valeurs continues sur R, or on veut uniquement prédire dans l intervalle [0,1] R x
6 Cas d étude : Bresnan John gives Mary recipient an apple theme (Recipient = NP) 2 John gives an apple theme to Mary recipient (Recipient = PP) > library(languager) > data(dative) > exo <- data.frame(lr = dative$lengthofrecipient, LT = dative$lengthoftheme, R = dative$realizationofrecipient) > table(exo$r) Variable à prédire : R, deux valeurs : NP et PP (succès,échec)
7 Interpréter les données comme des probabilités On peut définir la probabilité d avoir le succès pour une valeur x donnée comme suit : C(Y = 1,X = x) P(Y = 1 X = x) = C(X = x) Exemple (on pose arbitrairement le succès comme R = NP) : > t <- table(exo$lt,exo$r) > t #C(LT=1,R=NP) = 380 #C(LT=1) = > prob = 380/( ) #P(R=NP LT=1) # Generalisation > probs <- t[,2]/(t[,1]+t[,2]) #Valeurs de LT > lt <- as.numeric(levels(as.factor(exo$lt))) #Nuage de points P(NP LT) > plot(lt,props)
8 Représentation du nuage de points Proportions de succès en fonction de la valeur de X P(Y=1 X) Représentation Chaque point représente la proportion de succès pour chaque valeur de x, càd f(x) = C(x,succ) C(x) X
9 Fonction logistique Les nuages de points dont la variable Y est une variable à valeurs dans [0,1] ne se résument plus par une droite mais par une fonction qui décrit une courbe en S, la fonction logistique (ou sigmoide) P(Y=1 X) Fonction logistique y = eα+βx 1+e α+βx S interprète comme : P(Y = 1 X = x) = eα+βx 1+e α+βx x
10 Paramètres de la fonction logistique y y Observons ce qu il se passe si on change les valeurs de α et de β β=1/2 β=1 β= α=2 α=1 α= x x α contrôle la translation de la courbe β contrôle l incurvation de la courbe. (Non illustré) le signe de β contôle la direction de la courbe
11 Illustration > x <- seq(-10,10,0.1) > alpha <- 1 > beta <- 1 > y <- exp(alpha+beta * x)/(1+ exp(alpha+beta * x)) > plot(x,y) # Essayer avec les combinaisons: # alpha {-2,0,2} # beta {-2,-1,1,2}
12 Calcul d une régression logistique On a un nuage de points qui se résume par la fonction : ŷ = eα+βx 1+e α+βx Or cette fonction comporte la version linéaire α+βx On sait comment calculer une régression pour une fonction linéaire Idée : projeter la fonction logistique dans un espace linéaire et faire le calcul
13 Fonction logit La fonction logit permet de projeter le problème dans un espace linéaire x logit(x) = ln( 1 x ) Preuve ( ) e α+βx logit 1+e α+βx = ln = ln = ln = ln e α+βx 1+e α+βx 1 eα+βx 1+e α+βx e α+βx 1+e α+βx 1+e α+βx eα+βx 1+e α+βx 1+e α+βx e α+βx 1+e α+βx 1 1+e α+βx (e α+βx) = α+βx
14 illustrée y Nuage de points Espace logit P(Y=1 X) logit(y) X X x Démarche du calcul 1 Nuage de points qui présente une relation non linéaire (logistique). Chaque point = ( C(succès,x) C(x) ) 2 Projeter le nuage dans un espace linéaire (logit link) 3 Calculer la régression dans cet espace linéaire, ce qui nous donne les coefficients α et β
15 Calcul de la régression On cherche à prédire les valeurs du logit: logit(x) = α+βx La valeur ) f(x) de chaque point x observé devient = logit(x) ln( x 1 x Les résidus ne sont habituellement pas distribués normalement Donc on n a pas ǫ N(0,1) Calcul analogue au moindres carrés, maximise la vraisemblance des données Terminologie La fonction logit est la fonction qui projette le problème initial dans l espace linéaire. On l appelle pour cette raison, fonction de lien. On dit que la régression logistique appartient aux modèles linéaires généralisés.
16 Mise en pratique > mod <- glm(r LT,data=exo,family=binomial(link="logit")) #ou > mod <- glm(r LT,data=exo,family=binomial) > summary(mod) glm(formula = R LT, family = binomial, data = exo) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-12 *** LT < 2e-16 *** --- (Dispersion parameter for binomial family taken to be 1) Null deviance: on 3262 degrees of freedom Residual deviance: on 3261 degrees of freedom AIC:
17 Prédire les probabilités Un modèle de régression logistique produit en résultat des probabilités Ainsi si on a le modèle : avec α = 0.44 et β = 0.17 P(Y = NP LT) = eβlt+α 1+e βlt+α Pour LT = 1, on prédit que : P(Y = NP LT =) = e = e
18 Prédire les probabilités : exercice > mod <- glm(r LT, data=exo,family="binomial") > summary(mod) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-12 *** LT < 2e-16 *** --- > newlt <- 1:50 > predlt <- exp( *newLT)/(1+exp( *newLT)) #Alternativement > ndata <- data.frame(lt=newlt) > predict(mod,ndata,type="response") # Meme exercice pour > mod <- glm(r LT+LR, data=exo,family="binomial")
19 Méthodologie Comme pour la régression linéaire, il est important de : Vérifier la validité du modèle Prouver la qualité du fit. Avant d analyser les coefficients Les méthodes diffèrent par endroits
20 Qualité de la régression : graphe de corrélation La régression logistique ne permet pas de calculer une mesure de type R 2 pour mesurer la qualité du fit (les résidus ne sont pas normalement distribués) mais il en existe des approximations Proportions observées Prédiction théorique Corrélation P(Y=1 X) P(Y=1 X) Valeurs observées X X Valeurs Prédites > library(languager) >?plot.logistic.fit.fnc #tells you how to plot the graph
21 Qualité de la régression (accurracy) Pour prédire une valeur binaire on doit se munir d une règle de décision et d un seuil θ : { 1 si P(Y = 1) > θ Y = 0 sinon avec par exemple θ = 0.5 Dans notre cas, 1 = NP (1 représente le succès)
22 Matrice de confusion On peut comparer les valeurs effectivement prédite par le modèle avec les valeurs observées dans les données et reporter les comptes dans une matrice de confusion : Prédit 1 Prédit 0 Observé 1 Correct (VP) Faux positif Observé 0 Faux négatif Correct (VN) On se définit le score d exactitude (accurracy) comme suit: acc = VP +VN N
23 Courbes Roc : TPR et FPR On peut également s intéresser à la capacité du classifieur à discriminer les vrais positifs des faux positifs Prédit 1 Prédit 0 Observé 1 Correct (VP) Faux positif Observé 0 Faux négatif Correct (VN) On peut se définir le taux de vrais positifs (TPR) et le taux de faux positifs (FPR): TPR = FPR = C(vrais positifs) C(vrais positifs) + C(faux négatifs) C(faux positifs) C(faux positifs) + C(vrais négatifs) Et reporter le point ainsi défini sur un graphique (espace Roc) : du taux de vrais positifs en fonction du taux de faux positifs
24 Courbes ROC : Exercice #Model > mod1 <- glm(r LT,data=exo,family="binomial") > ndata <- data.frame(lt=exo$lt) #Predicted Probabilities > ndata$predictlt <- predict(mod1,ndata,type="response") #Decision rule (theta = 0.7) > ndata$decisionlt <- ifelse(ndata$predictlt > 0.7, "NPpred","PPpred") #Add reference column > ndata$ref <- exo$r #Confusion matrix > t <- table(ndata$ref,ndata$decisionlt) #Accurracy, TPR,FPR > acc <- t[1]+t[4] / sum(t) > TPR <- t[1] / t[1]+t[2] > FPR <- t[3] / t[3]+t[4] #Faire pareil avec mod2 tel que: > mod2 <- glm(r LR,data=exo,family="binomial")
25 Courbes ROC : faire varier le seuil θ Pour établir la décision on fixe arbitrairement θ On peut faire varier θ, ce qui change la matrice de confusion au final (essayer manuellement) En reportant sur un graphique les points (Fpr, Tpr) pour toutes les valeurs de θ [0,1] R, on obtient une courbe Roc: True positive rate False positive rate
26 Courbes ROC : comparer les classifieurs Les courbes Roc sont utilisées pour comparer des classifieurs Plus l aire sous la courbe (AUC) est importante plus le classifieur est capable de discriminer les vrais positifs des faux positifs : s interprète comme la probabilité de classer un exemple positif choisi au hasard comme positif True positive rate Classifieur 1 Classifieur 2 Classifieur 3 AUC AUC (mod 1) = 0.92 AUC (mod 2) = 0.87 AUC (mod 3) = False positive rate
27 Courbes ROC : exercice > library(rocr) # Build a prediction object > preds <- prediction(ndata$ltpred,ndata$ref) #Compute the conf matrix for every value of theta > perf <- performance(preds,"tpr","fpr") #Plot the ROC Curve > plot(perf,colorize=t) #Compute AUC > auc <- performance(preds,"auc") > attr(auc,"y.values") #Now do several models of the dative dataset # until your AUC gets decent #Note that the function lrm C value reports the AUC.
28 Validité du modèle Comme pour la régression linéaire on peut tester le surentrainement > mod <- lrm(r LT,data=exo) > validate(mod,b=100) index.orig training test optimism index.corrected n Dxy e R e Intercept e Slope e Emax e D e U e Q e B e
29 Comparer des modèles Dans le cas linéaire, on peut comparer des modèles en utilisant un test F (comparaison de variance) Ce test s applique dans le cas où la distribution des erreurs est normale ǫ N(0,σ). (hypothèse de calcul de la régression linéaire) Dans le cas logistique, le calcul maximise la vraisemblance des données. Le test compare donc la vraisemblance que donne chacun des modèles aux données. Le test qui calcule cela est le test de rapport de log-vraisemblance: pour M subset et M grand : ( ) χ 2 vraisemblancemsubset 2 ln vraisemblancem grand Intution : M grand a toujours une vraisemblance plus grande que M subset le logarithme est négatif ( multiplication par 2)
30 Test d hypothèse Le ratio de vraisemblance est distribué approximativement par une loi de χ 2 à n = dl(m grand ) dl(m ) L hypothèse nulle H 0 pose que M est suffisant pour expliquer les données L hypothèse alternative stipule qu il faut préférer M grand #Avec R > modsmall <- glm(r LT,data=exo,family="binomial") > modlarge <- glm(r LT+LR,data=exo,family="binomial") #Anova > anova(modsmall,modlarge,test="chi") Analysis of Deviance Table Model 2: RealizationOfRecipient LengthOfTheme + LengthOfR Model 1: RealizationOfRecipient LengthOfTheme Resid. Df Resid. Dev Df Deviance P(> Chi ) < 2.2e-16 ***
31 Interprétation des coefficients Les coefficients d une régression logistique sont donnés à échelle logit, ce qui n est pas très intuitif... Cependant ils s interprètent comme des logarithmes de rapports de chance, en effet : ( ) y logit(y) = ln 1 y Donc e coef = rapport de chance Ex. coef = 2 ; e 2 = 7.38 ; signifie : on a 7.38 fois plus de chances d observer le succès pour chaque incrément unitaire de la variable.
32 Exercice Modélisation des données (Dative Shift) Exercice simplifié (modélisation des données sur l alternance dative) : Considérer les variables : LengthOfRecipient AnimacyOfRec DefinOfRec PronomOfRec LengthOfTheme AnimacyOfTheme DefinOfTheme PronomOfTheme AccessOfRec comme prédictrices potentielles (X 1...X n ) Considérer la variable RealizationOfRecipient comme prédite (Y) Analyse simplifiée: 1 Élaborer un modèle qui ne contient que les variables utiles (procéder par comparaison de modèles) 2 Donner le goodness of fit 3 Identifier les corrélations entre les variables 4 Indiquer quelles sont les variables significatives, et quelle variante de l alternance dative elles favorisent. (faire attention aux effets d échelle des variables (!)
33 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)
34 Extension au cas multinomial On montre ici comment on généralise le cas où Y est binomiale au cas où la distribution de Y est multinomiale Représentation et codage de Y Cas binomial : la variable Y est codée sur {0,1} Cas multinomial (dummy coding) : Y = rouge, vert, bleu φ 1 (Y) φ 2 (Y) rouge 0 0 vert 1 0 bleu 0 1 Difficulté La difficulté liée à la régression multinomiale est que l interprétation plus fine du modèle est rendue beaucoup plus difficile (énormément de coefficients)
35 Reformulation du cas binomial Pour le cas binaire on a que : et que : P(Y = 1 X) = eα+βx 1+e α+βx P(Y = 0 X) = 1 eα+βx 1+e α+βx = 1+eα+βX eα+βx 1+eα+βX 1+e α+βx = 1 1+e α+βx On a bien que la somme vaut 1 : P(Y = 1 X)+P(Y = 0 X) = 1+eα+βX 1+e α+βx le numérateur = score pour l hypothèse Y = k, le dénominateur = somme des scores pour toutes les hypothèses possibles On peut également représenter la décision comme suit : ŷ = argmaxp(y = k X) k {1,0}
36 multinomiale Pour une variable Y à 0...m valeurs discrètes, on calcule une régression pour les valeurs 1...m : P(Y = k X) = e α k+β k X 1+ m j=1 eα i+β i X Et pour le cas par défaut (Y = 0) on a que: P(Y = 0 X) = 1 1+ m j=1 eα i+β i X Pour prédire une valeur parmi les m possibles : ŷ = argmaxp(y = y X) y
37 multinomiale (exemple) Tagger miniature (unigramme, MaxEnt) Modèle : P(Y = y X) = eα+βx Z(α+βX) avec X = (word,lemma,cat,prev cat,next cat) Décision : Données potentielles P(Y = k X) = argmax k Y e α+βx Z(α+βX) word lemma cat prev cat prev word next word 1 On on CL NONE NONE devrait 2 devrait devoir V CL On y 3 y y CL V devrait voir 4 voir voir V CL y un 5 un un D V voir NONE
38 Exemple (généralisé) Maximum Entropy Markov Model On se souvient que la probabilité d obtenir un étiquetage Y étant donné une séquence d observables X peut se simplifier comme suit (hypothèse de type Markovienne): P(Y 0...Y n X 1...X n ) = n P(Y i X i ) où les X i sont des variables issues de la séquence d observables X i (mots) ou des tags précédents Y 0...i 1 Pour calculer l étiquetage Y 0...Y n d une phrase, on calcule alors : n Y 0...Y n = argmax P(Y i X i ) Y 0...Y n Y n i=0 i=0 Ce que l on fait avec une table de Viterbi (cf épisodes précédents)
39 Remarque (codage des variables en Tal) Dummy coding : R vous binarise implicitement les variables nominales (typiquement une variable comme word) en utilisant le dummy coding En Tal la plupart des paquetages logiciels vous demandent de faire le codage vous même : ex. X = rouge, vert, bleu La présentation habituelle est la suivante (cas de rouge): { 1 six = rouge φ rouge (X) = 0 sinon Les fonctions φ( ) sont appelées fonctions features (elles codent des variables le plus souvent nominales sous forme binaire) En Tal on parle souvent d attribut pour la variable et de valeur pour la valeur considérée.
40 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)
41 Modèles à effets aléatoires On parle également de modèles mixtes ou de modèles hiérarchiques L idée est que certaines variables sans intérêt pour la théorie peuvent avoir une influence sur la variance des résultats Par exemple, si on étudie l alternance dative : 1 On veut étudier des variables comme le poids des dépendants 2 Il y a des variables sans intérêt (parasites) pour la généralisation comme le locuteur de la phrase, le type de corpus... 3 Ces variables peuvent créer de la variance. On peut en tenir compte en les incluant explicitement dans le modèle. Il s agit des variables aléatoires. 4 Un modèle qui contient des variables aléatoires est souvent appelé modèle mixte.
42 Exemple Observation graphique pour les temps de lecture > library(languager) > library(lattice) > library(lmer) # Pas de variation due a l age sur f(frequence)=familiarity > xyplot(familiarity WrittenFrequency AgeSubject, data=english) #Avec ligne de regression > xyplot(familiarity WrittenFrequency AgeSubject, data=english,panel=function(x,y){ + panel.xyplot(x,y) + panel.abline(lm(y x),col="red",lwd=3) } ) #Tres claire variabilite due a l age sur f(rtnaming) = Temps de lecture > xyplot(familiarity RTnaming AgeSubject, data=english,panel=function(x,y){ + panel.xyplot(x,y) + panel.abline(lm(y x),col="red",lwd=3) } ) >#Confirmation via le calcul de lmlist > lmlist(familiarity RTnaming AgeSubject,data=english)
43 Illustration (variation de l intercept) La variable AgeSubject fait varier l intercept pour le modèle Familiarity = α+βrtnaming+ǫ old young Familiarity RTnaming
44 Modèle à effet aléatoire Pour tenir compte de cet effet : 1 Deux modèles linéaires différents (un pour chaque valeur de Age??) 2 Modèle à effet aléatoire qui prend en compte le fait que la variable Age a un effet sur l intercept de chacun des deux groupes Dans notre cas, un modèle à intercept aléatoire a la forme suivante: Familiarity i = α+βrtnaming+α AgeSubjecti +ǫ où α AgeSubjecti est une valeur constante ajoutée à α selon la valeur de la variable AgeSubject Comme ǫ N(0,σ 2 ) la variable α est distribuée normalement (α N(0,σ 2 ))
45 Modèle à effets aléatoires en pratique Les modèles à effets aléatoires peuvent être utilisés dans le cas multivarié #Calcul > mod <- lmer(familiarity RTnaming + WrittenFrequency + WordCategory +(1 AgeSubject),data=english) > summary(mod) Linear mixed model fit by REML Formula: Familiarity RTnaming + WrittenFrequency + WordCategory + (1 AgeSubject) Random effects: Groups Name Variance Std.Dev. AgeSubject (Intercept) Residual Number of obs: 4568, groups: AgeSubject, 2 Fixed effects: Estimate Std. Error t value (Intercept) RTnaming WrittenFrequency WordCategoryV # Visualisation des intercepts > ranef(mod) $AgeSubject (Intercept) old young
46 Obtenir les p-values d un modèle à effets aléatoires Controverse entre statisticiens sur la fiabilité des p-valeurs de ce type de modèles Pour obtenir des p-valeurs pour les coefficients : > library(languager) > pvals.fnc(mod) pvals.fnc(mod) $fixed Estimate MCMCmean HPD95lower HPD95upper pmcmc Pr(> t ) (Intercept) RTnaming WrittenFrequency WordCategoryV $random Groups Name Std.Dev. MCMCmedian MCMCmean HPD95lower HPD95upper 1 AgeSubject (Intercept) Residual
47 Modèles à effets aléatoires On peut utiliser également des modèles à effets aléatoires pour modéliser des problèmes binomiaux (régression logistique) La méthodologie est similaire: On formule un modèle logistique à intercept aléatoire comme suit : P(Y = 1 X i ) = eα+βx+αi 1+e α+βx+αi NB: on peut inclure autant d intercepts aléatoires que souhaité Exemple : > mod <- lmer(realizationofrecipient LengthOfTheme +AnimacyOfRecipient +(1 Verb)+(1 Modality),data=dative,family="binomial")
48 Méthodologie La méthodologie de travail est subtantiellement la même que pour les modèles à effets fixes Difficultés pour calculer la goodness of fit Nouveauté : comment décider d inclure des effets aléatoires?
49 Calculer la goodness of fit avec un modèle à effets aléatoires On a pas de fonction prédict générale pour les modèles à effets aléatoires... Il faut le faire à la main : #Coefs des effets fixes > coefs <- fixef(mod) #Construire la sous-table de donnes adequates > donnees <- model.matrix(terms(mod),model.frame(mod)) #Predictions logit (manque les ranefs) > logit <- donnees %*% coefs #produit de matrices #Ajouter les ranefs selon le groupe #A faire pour chaque Ranef > agevector <- model.frame(mod)$agesubject > ageranefs <- ranef(mod)$agesubject[agevector,] > logitr <- logit + ageranefs #Probabilites > probs <- exp(logitr)/(1+exp(logitr)) #Exemple de Decision (theta=0.5) > preds <- ifelse(probs > 0.5,"PP","NP") > preds <- as.factor(preds)
50 Calcul de la goodness of Fit Une fois les prédictions obtenues Calcul de l accurracy (cf. épisodes précédents) Calcul d une AUC (courbe ROC, cf. épisodes précédents) Graphique de corrélation > library(languager) > plot.logistic.fit.fnc(mod,dative)
51 Détecter les effets aléatoires Explorer les données pour voir si une variable cause de variations sur les données (de type intercept) Visualisation/Exploration graphique Faire des régressions simples en listes pour différentes valeurs de la variable catégorique et voir si les coefficients changent... Inclusion d un effet aléatoire (par text de comparaison de modèle : anova() vous calcule un χ 2 )
52 Visualisation des effets aléatoires Les effets aléatoires peuvent se visualiser Distribution de la variable Modality > dotplot(ranef(mod,postvar=t))[["modality"]] Distribution de la variable Verb > dotplot(ranef(mod,postvar=t))[["verb"]] (Intercept) written spoken take issue sell lease sell_back cede read afford prepay resell repay serve write trade sell_off bequeath allocate award leave loan slip present tender submit hand_over carry deal supply run get funnel deliver bring make mail extend send hand offer pay vote allot assign cause lend grant swap float flip pay_back deny show reimburse assess accord net feed refuse give promise permit will quote guarantee assure bet fine owe teach wish allow tell charge do cost (Intercept) On peut également faire des histogrammes pour vérifier que les distributions des variables aléatoires sont bien normales.
53 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)
54 But de l entreprise Take home message : Vous pouvez inférer des observations à caractère général sur le langage à partir de corpus richement annotés La méthode introspective n est pas la seule possible Repose sur une inférence statistique (modélisation) Traite un problème de préférence d ordre des mots qui échappe à la démarche générative
55 Question traitée Alternance dative en anglais : 1 John gave a book to Mary (V-NP-PP) 2 John gave Mary a book (dative shift, V-NP-NP) Thème ; Bénéficiaire Problème trop difficile? Choix : quels facteurs interviennent pour préférer tel ou tel ordonnancement?
56 Problèmes classiques de l analyse de corpus 1 Les observations sont corrélées (théories réductrices): par exemple on pourrait expliquer la préférence d ordre des mots en fonction d un seul facteur : la complexité syntaxique (Hawkins 94, corrélé avec l accessibilité des référents (given/new)). on veut pouvoir décorréler différents facteurs. 2 Les données groupées induisent des biais statistiques (regroupements par speaker ici) 3 La théorie syntaxique sera biaisée par des observations liées au seul lexique à disposition dans le corpus. 4 La non représentativité et les différences très fortes entre corpus bloquent toute tentative de généralisation.
57 L alternance dative : une affaire de sémantique? On peut expliquer l alternance dative en termes de sens exprimé : 1 Susan give toys to the children 2 Susan give children toys Où (1) induit un sens changement de place (des jouets) alors que (2) induit un sens changement de propriétaire (des jouets) Dans le cas de verbes comme to give (emploi idiomatique) la théorie prédit qu on ne peut avoir de sens changement de place, donc pas de structure V-NP-PP 1 The lightning here gives me the creep 2 * The lightning here gives the creep to me
58 Contre-exemples Exploration Google: beaucoup de contre-exemples à la théorie Montre que ces contre-exemples ne sont pas du pur bruit de Google Différents facteurs d origines diverses semblent agir contre la théorie : accessibilité, définitude, complexité, pronominalisation des dépendants...
59 Plan 1 Modèles linéaires généralisés 2 multinomiale 3 Modèles à effets aléatoires 4 Predicting the dative alternation Modèle A (les variables corrélées) Modèle A (variabilité des sujets) Modèle B (variabilité lexicale) Modèle C (Variabilité de corpus)
60 Théorie réductrice Contre les théories réductrices Cite (Hawkins 94) Principe général : le plus court avant le plus long; Comme l accessibilité (et l animacité) corrèlent avec la complexité,on garde la complexité comme facteur explicatif car plus général. Propose une démarche expérimentale dans laquelle les données corrélées sont bien identifiées : régression logistique (modèle mixte).
61 Principales Variables Accessibilité dans le discours (given,new,accessible) (pour le thème et le bénéficiaire) Définitude (pour le thème et le bénéficiaire) Pronominalité des dépendants (pour le thème et le bénéficiaire) Animacité des dépendants (pour le thème et le bénéficiaire) Classe sémantique du verbe abstrait, transfert de possession, futur transfert de possession, prévention de possession,communication Interaction de complexité entre le thème et le bénéficiaire : différence de longueur (manipulée au log() pour écraser les outliers) Personne des dépendants (pour les pronominaux) Parallélisme dans le dialogue priming? (pas compris)
62 Données A extrait de Switchboard exemples de cas de double complémentation (alternances datives) Créé une table de données : chaque ligne une observation, chaque colonne, valeur de la variable pour cette observation. Projet examen 1 Sélectionner la sous table de données orales > dativeo <- dative[dative$modality=="spoken",]
63 Fit du modèle A Note importante : le succès (ce qu elle cherche à prédire est la structure V-NP-PP coefs positifs votent pour la structure non dative) Probability{Response = 1} = 1 1+e Xβ, where X ˆβ = 0.95 (a) (a) (b) (b) (c) (c) (d) (e) 1.34{c} {f} 3.90{p} {t} {accessibility of recipient = nongiven} 1.1{accessibility of theme = nongiven} + 1.2{pronominality of recipient = nonpronoun} 1.2{pronominality of theme = nonpronoun} {definiteness of recipient = indefinite} 1.4{definiteness of theme = indefinite} + 2.5{animacy of recipient = inanimate} {person of recipient = nonlocal} 0.03{number of recipient = plural} + 0.5{number of theme = plural} 0.46{concreteness of theme = nonconcrete} 1.1{parallelism = 1} 1.2 length difference (log scale) and {c} = 1 if subject is in group c, 0 otherwise (and likewise for other categories). Figure 4. The model A formula.
64 Conclusion (modèle A) Conclut que les différents facteurs ne sont pas réductibles à la seule complexité syntaxique (corrélations faibles) Ce que je n ai pas vu (mal lu?) c est qu elle ne propose pas de réduction de modèles (avec tests d hypothèses à l appui) Sa conclusion ne semble pas supportée par une démarche de modélisation exhaustive.
65 Projet examen : modélisation modèle A Projet examen: question 1 La conclusion que les différents facteurs ne se réduisent pas à la seule complexité syntaxique est discutable au vu de ce qu elle montre On propose de faire la modélisation correctement, càd: On prédit que RealizationOfRecipient = PP Exprimer la variable de complexité syntaxique (weights) Tester par comparaison de modèles que les seuls facteurs de complexité syntaxique sont insuffisants pour expliquer les données. Chercher à trouver un modèle plus compact que celui qui comporte tous les facteurs (par comparaison de modèles). Interprétez. Donner une (ou plusieurs) mesures de goodness of fit pour votre modèle Est-ce vrai que les données qu elle analyse ne sont pas corrélées? Note : Vous n avez pas accès à toutes les variables qu elle manipule. Vous devez vous contenter d un modèle un peu réduit.
Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par
Plus en détailDonnées longitudinales et modèles de survie
ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan
Plus en détailUn exemple de régression logistique sous
Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les
Plus en détailUne introduction. Lionel RIOU FRANÇA. Septembre 2008
Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailLe risque Idiosyncrasique
Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailAnalyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin
Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet
Plus en détailEstimation et tests statistiques, TD 5. Solutions
ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailIBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailLa problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites
La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailRégression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr
Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailSAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailExemples d application
AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailIntroduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Plus en détailT de Student Khi-deux Corrélation
Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes
Plus en détailTableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1
UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés
Plus en détailEstimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison
Estimation: intervalle de fluctuation et de confiance Mars 2012 IREM: groupe Proba-Stat Estimation Term.1 Intervalle de fluctuation connu : probabilité p, taille de l échantillon n but : estimer une fréquence
Plus en détailEXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG
Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette
Plus en détailAnalyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Plus en détailLire ; Compter ; Tester... avec R
Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailBaccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e
Plus en détailLES MODELES DE SCORE
LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d
Plus en détailModèles pour données répétées
Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque
Plus en détailEtude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailExemple PLS avec SAS
Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that
Plus en détailLois de probabilité. Anita Burgun
Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailExercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT
Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,
Plus en détail«Cours Statistique et logiciel R»
«Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire
Plus en détailWhy Software Projects Escalate: The Importance of Project Management Constructs
Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailAnalyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)
Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailThéorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailAnalyse de données linguistiques
2011-2012 Slides inspirés des cours de S. Evert et M. Baroni Linguistique expérimentale? Traditionnellement en linguistique formelle, refus de l usage de données comme source d information unique: Méthode
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailchoisir H 1 quand H 0 est vraie - fausse alarme
étection et Estimation GEL-64943 Hiver 5 Tests Neyman-Pearson Règles de Bayes: coûts connus min π R ( ) + ( π ) R ( ) { } Règles Minimax: coûts connus min max R ( ), R ( ) Règles Neyman Pearson: coûts
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailBiostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailFORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
Plus en détailLEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.
LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. Pré-requis : Probabilités : définition, calculs et probabilités conditionnelles ; Notion de variables aléatoires, et propriétés associées : espérance,
Plus en détailUFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailHEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE
HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE Par Fatoumata A dite Woybi Touré 11135079 Science de la gestion (Ingénierie financière) Projet supervisé présenté en vue de
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détailCours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Plus en détail4 Exemples de problèmes MapReduce incrémentaux
4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank
Plus en détailQu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le
Qui je suis Innovation Utilisation des réseaux sociaux pour le data mining Business & Decision Françoise Soulié Fogelman francoise.soulie@outlook.com Atos KDD_US CNAM Séminaire de Statistique appliquée
Plus en détailPROGRAMME (Susceptible de modifications)
Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailStatistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014
Tests du χ 2 Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 A. Lourme http://alexandrelourme.free.fr Outline
Plus en détailChapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Plus en détailRaisonnement probabiliste
Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte
Plus en détailModèle GARCH Application à la prévision de la volatilité
Modèle GARCH Application à la prévision de la volatilité Olivier Roustant Ecole des Mines de St-Etienne 3A - Finance Quantitative Décembre 2007 1 Objectifs Améliorer la modélisation de Black et Scholes
Plus en détailRelation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailFaire un semi variograme et une carte krigée avec surfer
Faire un semi variograme et une carte krigée avec surfer Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr avril 2004 Fichier de données Faire un fichier excel avec les données organisée en colonnes:
Plus en détailFonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
Plus en détailApplication Form/ Formulaire de demande
Application Form/ Formulaire de demande Ecosystem Approaches to Health: Summer Workshop and Field school Approches écosystémiques de la santé: Atelier intensif et stage d été Please submit your application
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailExploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION
Plus en détailUne variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)
CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse
Plus en détailLe modèle de Black et Scholes
Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un
Plus en détailFORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Plus en détaildistribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position
Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons
Plus en détailSoit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.
ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle
Plus en détailCours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions
Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental
Plus en détailTSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Plus en détailLe modèle de régression linéaire
Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L économétrie traite de la construction de modèles. Le premier point de l analyse consiste à se poser la question : «Quel est le modèle?». Le
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailCours 7 : Utilisation de modules sous python
Cours 7 : Utilisation de modules sous python 2013/2014 Utilisation d un module Importer un module Exemple : le module random Importer un module Exemple : le module random Importer un module Un module est
Plus en détailTraitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Plus en détail4. Résultats et discussion
17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailBIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION
BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION À UNE INTERPRÉTATION CAUSALE Arthur Charpentier Professeur d actuariat à l Université du Québec, Montréal Amadou Diogo Barry Chercheur à l Institut de santé
Plus en détailTrafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur
Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur Ismaëlh Cissé Directeur : Carlos Ordás Criado Problématique Transports
Plus en détailIntroduction à MATLAB R
Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d
Plus en détailCNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité
1 CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité Une situation fréquente en pratique est de disposer non pas d un résultat mais de plusieurs. Le cas se présente en assurance, par exemple :
Plus en détailContents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes
Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire
Plus en détailProbabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Plus en détailChapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Plus en détail