Régression linéaire. Nicolas Turenne INRA

Dimension: px
Commencer à balayer dès la page:

Download "Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr"

Transcription

1 Régression linéaire Nicolas Turenne INRA 2005

2 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R 2 Validation du modèle de régression

3 Un exemple Questions : comment relier les dépenses publicitaires aux ventes? Quelles sont les ventes espérées si le coût en frais de publicité sont de 2.2 millions? Quelle confiance apporter à l'estimation? Quel est la qualité de l'ajustement?

4 Le modèle fondamental : régression linéaire Données: (x 1,y 1 ),(x 2,y 2 ),...,(x n,y n ) Modèle de population: y i = β 0 + β 1. x i + ε i ε 1, ε 2,..., ε n sont des variables aléatoires indépendantes, de distribution normale N(0,σ). Ceci est la vraie relation entre x et y mais nous ne connaissons pas les paramètres β 0 et β 1 que nous devons estimer à partir des données. Commentaires: E(y i x i ) = β 0 + β 1. x i SD(y i x i ) = σ La relation est linéaire décrite par une droite β 0 = valeur «baseline» de y (quand x vaut 0) β 1 = pente de x (variation de y par rapport à une variation de x)

5 Comment choisir la ligne qui s'ajuste le mieux aux données? Meilleurs choix: b0=13.82 b1=48.60 Coefficients de régression : b 0 et b 1 sont des estimations de β 0 et β 1 Estimation de la régression pour Y à x i : e i = y i y i y i =b 0 b 1. x i erreur résiduelle : La «meilleure» ligne de régression est celle qui choisit b0 et b1 pour minimiser les erreurs totales (somme des résidus au carré): n SCR= i=1 n e i 2 = i=1 y i y i 2

6 Exemple: Ventes de Nature-Bar en millions de $

7 Régression multiple En général, il y a beaucoup de facteurs qui influencent les ventes en plus des frais de publicité La régression multiple permet de gérer plus d'une variable x Soient les variables (vecteurs) indépendantes: x 1, x 2,..., x k (k parmi elles) Données: (y 1, x 11, x 21,..., x k1 ),..., (y n, x 1n, x 2n,..., x kn ) Modèle de population: y i = β 0 + β 1. x 1i + β 2. x 2i β k. x ki + ε i ε 1, ε 2,..., ε n sont des variables aléatoires indépendantes, de distribution normale N(0,σ) Coefficients de régression : b 0, b 1,..., b k sont des estimations de β 0, β 1,..., β k Estimation de la régression pour Y à x i : y i =b 0 b 1. x 1i... b k. x ki Objectif: choisir b 0, b 1,..., b k pour minimiser la somme des carrés des résidus n SCR= i=1 n e i 2 = i=1 y i y i 2

8 Exemple de sortie d'une régression (sous Excel)

9 Compréhension de la sortie de la régression 1- coefficients de régression : b 0, b 1,..., b k sont des estimations de β 0, β 1,..., β k basées sur les données de l'échantillon. Un fait: E[b j ]=β j Exemple: b0 = (son interprétation est dépendant du contexte) b1 = (l'ajout d'1 million $ en publicité est supposé rendre 49 millions $ de ventes) b2 = (l'ajout d'1 million $ en promotions est supposé rendre 60 millions $ de ventes) b3 = (l'augmentation d'1 million $ en ventes concurrentielles fait diminuer les ventes de 1.8 million $)

10 Compréhension de la sortie de la régression 2- erreur standard : une estimation de s, la variance de chaque ε i. C'est une mesure de la quantité de «bruit» dans le modèle. Exemple : s = degré de liberté : nombre de cas nombre de paramètres lié au phénomène d' overfitting (surajustement ou surapprentissage). 4- erreur standard des coefficients : s b0, s b1,..., s bk Ce sont les variances des estimations b 0, b 1,..., b k Ils sont utiles pour évaluer la qualité de l'estimation des coefficients et pour valider le modèle. 5- coefficient de détermination : R 2

11 R 2 quelle est sa signification? Le paramètre R 2 prend des valeurs entre 0 et 1, c'est un pourcentage. Dans l'exemple sa valeur est R 2 =1; les valeurs de x expliquent toutes les variations des valeurs de Y R 2 =0; les valeurs de x n'expliquent pas toutes les variations des valeurs de Y

12 Le coefficient de détermination est : - une mesure de la qualité générale de la régression - spécifiquement c'est le pourcentage de la variation totale exhibée dans les données y i qui est expliqué par la partie de la ligne de régression La moyenne de l'échantillon de Y : La variation totale dans Y : n i=1 y i y 2 La variation résiduelle (non expliquée) dans Y : R 2 variation expliquée par les variable x = variation totale R 2 variation non expliquée par les variable x =1 variation totale R 2 =1 n i=1 n i=1 y i y i 2 y i y i 2 y= y 1 y 2... y n /n n i=1 n 2 e = i i=1 y i y i 2

13 Coefficient de détermination R 2 Un R 2 élevé signifie que la plupart de la variation que nous observons dans les données y i peut être attribué à leurs valeurs x correspondantes une propriété désirée. Dans une régression simple, le R 2 est plus élevé si les points de données sont mieux alignés le long d'une ligne. Mais on trouve des extrêmes. La façon dont R 2 est suffisamment «correct» dépend de la situation (par exemple, l'utilisation souhaitée de la régression, et la complexité du problème). Les utilisateurs de la régression tendent à se focaliser sur R 2, mais ce n'est pas le fin mot de l'histoire. Il est important que le modèle de régression soit «valide».

14 Coefficient de détermination R 2 On ne devrait pas inclure des variables x non reliées à y dans le modèle, juste pour faire un R 2 fictivement élevé. (Avec plus de variables x il y aurait plus de liberté à choisir les b i pour faire la variation résiduelle plus proche de 0). Le R multiple est la racine carrée de R 2.

15 Validation du modèle de régression Hypothèses sur la population : y i = β 0 + β 1.x 1i β k.x ki + ε i (i=1,...,n) ε 1, ε 2,..., ε n sont des variables indépendantes, ~N(0,σ) 1- linéarité si k=1, cas de la régression simple, on peut vérifier visuellement par un affichage en nuage vérification sanitaire: le signe des coefficients, raison de non-linéarité? 2- normalité de ε i Affichage de l'histogramme des résidus e= y i y i D'habitude les résultats sont vraiment robustes en respectant cette hypothèse

16 3- hétéroscédasticité Est ce que les termes d'erreur ont une variance constante? (i.e. SD(εi) = σ pour tout i) Vérifier l'affichage des résidus versus l'affichage de Y avec X Pas d'évidence d'hétéroscédasticité Évidence d'hétéroscédasticité Peut être réglé en introduisant une transformation Peut être réglé en introduisant ou en éliminant des variables indépendantes

17 4- auto-corrélation : est-ce que les termes d'erreur sont indépendants? On affiche les résidus de façon à vérifier les régularités Pas d'évidence d'auto-corrélation Évidence d'auto-corrélation L'autocorrélation peut être présente si les observations ont un ordre séquentiel naturel (par exemple, le temps). Peut être réglé en introduisant ou en transformant une variable.

18 Pièges et problèmes 1) surspécification inclusion de trop de variables x pour faire R2 fictivement élevé règle du pouce (rule of thumb): on doit veiller à avoir n >= 5.(k+2) 2) extrapolation au delà de la plage des données

19 Pièges et problèmes 3) multicolinéarité Apparaît quand deux variables x sont très fortement corrélées Peut donner de très mauvaises estimations pour les bi Signes rapporteurs - coefficients de régression (bi) ont le «mauvais» signe - addition / suppression d'une variable indépendante peut changer subtantiellement la valeur des coefficients de régression - coefficients (bi) non significativement différents de zéro peut être réglé par suppression d'une ou plusieurs variables indépendantes

20 Exemple

21 Sortie de régression Que s'est-il passé? College GPA et GMAT sont hautement corrélés On élimine GMAT

22 Modèles de régression En régression linéaire, on choisit les «meilleurs» coefficients b 0, b 1,..., b k comme des estimateurs de β 0, β 1,..., β k. On sait qu'en moyenne chaque b j atteint le bon β j Cependant on veut savoir comment on peut avoir confiance en nos estimateurs

23 Retour à la sortie de régression

24 Analyse de la sortie de régression 1) Degré de liberté (df ou dof degree of freedom). dof résiduel = n (k+1) (on a utilisé (k+1) degrés de liberté en formant (k+1) estimateurs d'échantillons b 0, b 1,..., b k ) 2) Erreurs standard des coefficients : s b0, s b1,..., s bk ce sont juste les écarts-types des estimateurs b 0, b 1,..., b k Fait : avant d'observer b j et s bj, b j j s bj obéit à une distribution de Student (t-test) avec dof = (n - k - 1), de même que pour le dof résiduel on utilisera ce fait pour valider la qualité de nos estimateurs b j - quel est l'intervalle de confiance à 95% pour b j? - est-ce que l'intervalle contient 0? pourquoi tenons nous compte de cela?

25 3) t-statistic t j = b j s bj Une mesure de signification statistique de chaque individu xj pour expliquer la variabilité de y Soit c le nombre pour lequel P( -c < T < c ) = α % (par exemple 95%) où [-c, c] est l'intervalle de confiance ou CI (confidence intervalle), et T obéit à une t-distribution avec dof=(n-k-1) ; Si t j > c alors les α % de CI pour les b j ne contient pas 0. Dans ce cas, nous avons α% de confiance que β j est différent de zéro

26 Exemple : prime pour les cadres

27 Variables factices Souvent, quelques variables explicatives dans une régression sont catégorielles davantage que numériques. Si nous pensons que le fait que la possession d'un MBA affecte la prime pour un cadre alors on crée une variable factice en lui donnant 1 si le cadre possède un MBA et 0 sinon Si nous pensons que la saison de l'année influence les ventes, comment allons nous créer une variable factice? Combien? Que se passe-t-il si nous créons 4 variables factices? En général s'il y a m catégories auxquelles une variable x peut appartenir, alors on a besoin de créer m-1 variables factices pour celle-ci

28 Données OILPLUS

29

30

31 La pratique de la régression Choisir quelles variables indépendantes inclure dans le modèle, basé sur le sens commun et les connaissances spécifiques de contexte. Collecter les données (créer des variables factices au besoin). Faire tourner la régression (partie la plus facile) Analyser les résultats de sortie et changer le modèle (c'est là que se trouve l'action) Tester les résultats de sortie sur des données test

32 Checklist 1) Checklist statistique Calculer la corrélation entre paires de variables x identifier des preuves de multicolinéarité Vérifier le signe des coefficients (ont-ils un sens?) Vérifier 95% de CI (utiliser un statistique-t comme analyse rapide) est ce que les coefficients sont significativement différents de 0? R 2 critère de qualité mais pas la seule 2) Checklist résiduel normalité - jeter un oeil sur l'histogramme des résidus hétéroscédasticité - afficher les résidus pour chaque variable x Auto-corrélation : si les données ont un ordre naturel, afficher les résidus et rechercher des régularités.

33 Checklist - subsidiaire 1) linéarité : affichage en nuage (scatter plot), bon sens, et bien connaître votre problème, transformer en incluant des interactions si c'est utile. 2) t-statistique : est-ce que les coefficients sont significativement différents de zéro? Regarder la largeur des intervalles de confiance. 3) F-tests pour les sous-ensembles, égalité des coefficients. 4) R 2 : raisonnablement élevé dans le contexte. 5) Observations influentes, extrêmes de l'espace des prédicteurs, espace des variables dépendant 6) Normalité : afficher l'histogramme des résidus 7) Résidus studentisés (t-statistique) 8) Hétéroscédasticité : afficher les résidus avec chaque variable x, transformersi nécessaire, transformations Box-Cox 9) Auto-corrélation : «affichage en séries temporelles» 10) Multicollinéarité : calculer les corrélations des variables x, est ce que les signes des coefficients sont en accord avec votre intuition? Faire une analyse en composante principale. 11) Valeurs manquantes : quelle influence?

Simulation Examen de Statistique Approfondie II **Corrigé **

Simulation Examen de Statistique Approfondie II **Corrigé ** Simulation Examen de Statistique Approfondie II **Corrigé ** Ces quatre exercices sont issus du livre d exercices de François Husson et de Jérôme Pagès intitulé Statistiques générales pour utilisateurs,

Plus en détail

Module d'analyse des données

Module d'analyse des données *** Année 2007 *** Module d'analyse des données P.L. Toutain, A. Bousquet-Mélou UMR 181 de Physiopathologie et Toxicologie Expérimentales INRA/ENVT Ecole Nationale Vétérinaire de Toulouse 24/04/2007 Avant

Plus en détail

La gestion des ventes.

La gestion des ventes. I. La prévision des ventes. A. Principe. La gestion des ventes. Elle consiste à déterminer les ventes futures à la fois en quantité et en valeur en tenant compte des tendances et contraintes imposées à

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

9. Distributions d échantillonnage

9. Distributions d échantillonnage 9. Distributions d échantillonnage MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v3) MTH2302D: distributions d échantillonnage 1/46 Plan 1. Échantillons aléatoires 2. Statistiques et distributions

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Questions pratiques 4: Transformer la variable dépendante

Questions pratiques 4: Transformer la variable dépendante Questions pratiques 4: Transformer la variable dépendante Jean-François Bickel Statistique II SPO8 Transformer une variable consiste en une opération arithmétique qui vise à construire une nouvelle variable

Plus en détail

Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages

Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages S. Winandy, R. Palm OCA GxABT/ULg oca.gembloux@ulg.ac.be décembre 2011 1 Introduction La Direction Générale Statistique

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

y i = αx i + β + u i,

y i = αx i + β + u i, I.1 ) TD1 L3 Econométrie Rappel : L estimateur ˆα (resp. ˆβ)estaussinotéa (resp. b). 160 150 consommation Y 140 130 10 (x i, ŷ i ) e i 110 100 110 10 130 140 150 160 170 180 )a). Sous forme exacte y i

Plus en détail

Introduction à l analyse quantitative

Introduction à l analyse quantitative Introduction à l analyse quantitative Vue d ensemble du webinaire Le webinaire sera enregistré. Les diapositives et tous les autres documents seront envoyés aux participants après la séance. La séance

Plus en détail

Chapitre 2: Prévisions des ventes

Chapitre 2: Prévisions des ventes Chapitre 2: Prévisions des ventes AVIS IMPORTANT : Ces notes sont basées sur le livre de Steven Nahmias : Production et Operations Analysis, 4 ième édition, McGraw-Hill Irwin 200. Les figures sont issues

Plus en détail

Analyse de la variance

Analyse de la variance M2 Statistiques et Econométrie Fanny MEYER Morgane CADRAN Margaux GAILLARD Plan du cours I. Introduction II. Analyse de la variance à un facteur III. Analyse de la variance à deux facteurs IV. Analyse

Plus en détail

Comment calculer les contributions de chaque mois à la mortalité annuelle par accident?

Comment calculer les contributions de chaque mois à la mortalité annuelle par accident? Comment calculer les contributions de chaque mois à la mortalité annuelle par accident? Le débat sur les conséquences de l affaiblissement du permis à points par un amendement à la LOPPSI2, qui double

Plus en détail

R i = a 0 +b 0 B i +ε i, R = Xβ +ε,

R i = a 0 +b 0 B i +ε i, R = Xβ +ε, Statistiques 2010-2011 TP sur le Modèle linéaire gaussien avec R 1 Les exercices Vous traiterez les exercices suivants avec le logiciel R. Exercice 1 Des photographies aériennes de champs d orge sont analysées

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

La régression logistique

La régression logistique La régression logistique Présentation pour le cours SOL6210, Analyse quantitative avancée Claire Durand, 2015 1 Utilisation PQuand la variable dépendante est nominale ou ordinale < Deux types selon la

Plus en détail

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2 Test du Khi 2 Le test du Khi 2 (khi deux ou khi carré) fournit une méthode pour déterminer la nature d'une répartition, qui peut être continue ou discrète. Domaine d application du test : Données qualitatives

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Les variables indépendantes catégorielles

Les variables indépendantes catégorielles Les variables indépendantes catégorielles Jean-François Bickel Statistique II SP08 Jusqu à maintenant, nous avons considéré comme variables indépendantes uniquement des variables intervalles (âge) ou traitées

Plus en détail

C3 : Manipulations statistiques

C3 : Manipulations statistiques C3 : Manipulations statistiques Dorat Rémi 1- Génération de valeurs aléatoires p 2 2- Statistiques descriptives p 3 3- Tests statistiques p 8 4- Régression linéaire p 8 Manipulations statistiques 1 1-

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

Analyse de variance à un facteur Tests d hypothèses Analyse de variance à deux facteurs. Analyse de la variance ANOVA

Analyse de variance à un facteur Tests d hypothèses Analyse de variance à deux facteurs. Analyse de la variance ANOVA Analyse de la variance ANOVA Terminologie Modèles statistiques Estimation des paramètres 1 Analyse de variance à un facteur Terminologie Modèles statistiques Estimation des paramètres 2 3 Exemple. Analyse

Plus en détail

Test de Poisson à 1 échantillon et à 2 échantillons

Test de Poisson à 1 échantillon et à 2 échantillons Test de Poisson à 1 échantillon et à 2 échantillons Sous-menus de Minitab 15 : Stat>Statistiques élémentaires>test de Poisson à 1 échantillon Stat>Statistiques élémentaires>test de Poisson à 2 échantillons

Plus en détail

Prévision de la demande

Prévision de la demande But : Pour prendre des décisions relatives à la structure et au fonctionnement opérationnel de tout système logistique; il faut s appuyer sur un système de prévision fiable. Concerne le long, moyen et

Plus en détail

Evaluation d un test diagnostique - Concordance

Evaluation d un test diagnostique - Concordance Evaluation d un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr Plan 1 Introduction 2 Evaluation

Plus en détail

Conditions d application des méthodes statistiques paramétriques :

Conditions d application des méthodes statistiques paramétriques : Conditions d application des méthodes statistiques paramétriques : applications sur ordinateur GLELE KAKAÏ R., SODJINOU E., FONTON N. Cotonou, Décembre 006 Conditions d application des méthodes statistiques

Plus en détail

Master 1 de Psychologie du Travail et des Organisations : Recueil et analyse des données - Corrigés des T.D. ( 2014/2015) -

Master 1 de Psychologie du Travail et des Organisations : Recueil et analyse des données - Corrigés des T.D. ( 2014/2015) - Dominique Ferrieux - Université Paul Valéry - Montpellier III Master de Psychologie du Travail et des Organisations : Recueil et analyse des données - Corrigés des T.D. ( /) - Deuxième partie : Plans :

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Exercice : covariance et gestion du risque. Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine

Exercice : covariance et gestion du risque. Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Exercice : covariance et gestion du risque Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Mars 2006 On considère deux actifs dont les rendements et les volatilités sont :

Plus en détail

Introduction au cours STA 102 Analyse des données : Méthodes explicatives

Introduction au cours STA 102 Analyse des données : Méthodes explicatives Analyse des données - Méthodes explicatives (STA102) Introduction au cours STA 102 Analyse des données : Méthodes explicatives Giorgio Russolillo giorgio.russolillo@cnam.fr Infos et support du cours Slide

Plus en détail

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7.

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7. UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre Fiche N 7 (avec corrigé) L objet de ce TD est de vous initier à la démarche et à quelques

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Loi normale ou loi de Laplace-Gauss

Loi normale ou loi de Laplace-Gauss LivreSansTitre1.book Page 44 Mardi, 22. juin 2010 10:40 10 Loi normale ou loi de Laplace-Gauss I. Définition de la loi normale II. Tables de la loi normale centrée réduite S il y avait une seule loi de

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

Statistiques de groupe

Statistiques de groupe Système Méthodologique d Aide à la Réalisation de Tests Statistiques de groupe et analyse des questions de votre épreuve Une unité de soutien de l IFRES Université de Liège L analyse des statistiques de

Plus en détail

Gestion des erreur dans Excel

Gestion des erreur dans Excel Des erreurs apparaissent parfois dans les formules de calcul ou lors de l'exécution d'une macro. Excel renvoie une valeur spécifique à l'erreur rencontrée Ces problèmes ont diverses causes: une faute de

Plus en détail

TD de statistique : tests du Chi 2

TD de statistique : tests du Chi 2 TD de statistique : tests du Chi 2 Jean-Baptiste Lamy 6 octobre 2008 1 Test du Chi 2 C est l équivalent de la comparaison de moyenne, mais pour les variables qualitatives. 1.1 Cas 1 : comparer les répartitions

Plus en détail

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Université Paris1, Licence 00-003, Mme Pradel : Principales lois de Probabilité 1 DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Notations Si la variable aléatoire X suit la loi L, onnoterax

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Chronique R LAtent VAriables ANalysis - Le package lavaan pour les modèles d'équations structurelles

Chronique R LAtent VAriables ANalysis - Le package lavaan pour les modèles d'équations structurelles Chronique R LAtent VAriables ANalysis - Le package lavaan pour les modèles d'équations structurelles Les modèles d'équations structurelles sont des modèles statistiques initialement créés afin de combiner

Plus en détail

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g. PHYSQ 130: Hooke 1 LOI DE HOOKE: CAS DU RESSORT 1 Introduction La loi de Hooke est fondamentale dans l étude du mouvement oscillatoire. Elle est utilisée, entre autres, dans les théories décrivant les

Plus en détail

Sondage stratifié. Myriam Maumy-Bertrand. Master 2ème Année 12-10-2011. Strasbourg, France

Sondage stratifié. Myriam Maumy-Bertrand. Master 2ème Année 12-10-2011. Strasbourg, France 1 1 IRMA, Université de Strasbourg Strasbourg, France Master 2ème Année 12-10-2011 Ce chapitre s appuie essentiellement sur deux ouvrages : «Les sondages : Principes et méthodes» de Anne-Marie Dussaix

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Analyse de la variance à deux facteurs

Analyse de la variance à deux facteurs 1 1 IRMA, Université Louis Pasteur Strasbourg, France Master 1 Psychologie du développement 06-10-2008 Contexte Nous nous proposons d analyser l influence du temps et de trois espèces ligneuses d arbre

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales Transparents Philippe Lambert http : //www.statsoc.ulg.ac.be/quali.html Institut des Sciences Humaines et Sociales

Plus en détail

Savoir Faire Excel Niveau 2. 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr

Savoir Faire Excel Niveau 2. 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr Savoir Faire Excel Niveau 2 5 novembre 2007 Naomi Yamaguchi naomi.yamaguchi@univ-paris3.fr Ce qu on sait faire Entrer et recopier des données numériques Les fonctions de base (somme, moyenne, nb, si) Faire

Plus en détail

Dossier / TD Econométrie. Analyse de la demande d essence aux Etats-Unis entre 1960-1995 fichier : essence.xls

Dossier / TD Econométrie. Analyse de la demande d essence aux Etats-Unis entre 1960-1995 fichier : essence.xls Dossier / TD Econométrie Analyse de la demande d essence aux Etats-Unis entre 1960-1995 fichier : essence.xls Source : Greene "Econometric Analysis" Prentice Hall International, 4 ème édition, 2000 Council

Plus en détail

Agrégation séquentielle d'experts

Agrégation séquentielle d'experts Agrégation séquentielle d'experts avec application à la prévision de consommation électrique Pierre Gaillard pierre-p.gaillard@edf.fr avec Yannig Goude (EDF R&D) et Gilles Stoltz (CNRS, HEC Paris) 27 août

Plus en détail

partie a Introduction à la statistique 1

partie a Introduction à la statistique 1 table des matières F AVANT-PROPOS À L ÉDITION AMÉRICAINE Abréviations viii xiv partie a Introduction à la statistique 1 1. Statistique et probabilité ne sont pas intuitives 3 Nous avons tendance à passer

Plus en détail

Leçon N 1 : Taux d évolution et indices

Leçon N 1 : Taux d évolution et indices Leçon N : Taux d évolution et indices En premier un peu de calcul : Si nous cherchons t [0 ;+ [ tel que x 2 = 0,25, nous trouvons une solution unique x = 0, 25 = 0,5. Nous allons utiliser cette année une

Plus en détail

Refonte du Formulaire Statistique. - Guide d utilisation pour Organismes -

Refonte du Formulaire Statistique. - Guide d utilisation pour Organismes - Refonte du Formulaire Statistique - Guide d utilisation pour Organismes - Sommaire 1. Nouveautés conviviales du Formulaire statistique en ligne de CADAC 1.1 Rationalisation des données selon le type d

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

Facturation annuelle (Avec hydromètres)

Facturation annuelle (Avec hydromètres) Cette annexe est un complément au document «facturation annuelle» et il explique la codification requise aux modules Gestion des hydromètres et Taxation, perception et comptes clients pour produire la

Plus en détail

Georgieva Diana Bourgouin Adrien Licence 3 ~ Faculté des Sciences et des Techniques UML ~ Bibliothèque. Projet UML.

Georgieva Diana Bourgouin Adrien Licence 3 ~ Faculté des Sciences et des Techniques UML ~ Bibliothèque. Projet UML. Projet UML Cas Bibliothèque Page 1 sur 35 S6 ~ 2008-2009 Sommaire I. Introduction 3 II. Modélisation A. Cas d utilisation 1. Première approche 4-6 2. Cas d utilisation avant la modélisation des diagrammes

Plus en détail

MATHÉMATIQUES ET SCIENCES HUMAINES

MATHÉMATIQUES ET SCIENCES HUMAINES MATHÉMATIQUES ET SCIENCES HUMAINES B. MARCHADIER Dépendance et indépendance de deux aléas numériques images Mathématiques et sciences humaines, tome 25 (1969), p. 2534.

Plus en détail

Restauration d images

Restauration d images Restauration d images Plan Présentation du problème. Premières solutions naïves (moindre carrés, inverse généralisée). Méthodes de régularisation. Panorama des méthodes récentes. Problème général Un système

Plus en détail

Analyse de la variance (ANOVA)

Analyse de la variance (ANOVA) Chapitre 7 Analyse de la variance (ANOVA) Introduction L analyse de la variance (ANOVA) a pour objectif d étudier l influence d un ou plusieurs facteurs sur une variable quantitative. Nous nous intéresserons

Plus en détail

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban EXERCICE 1 : 4 Points Cet exercice est un questionnaire à choix multiples. Aucune justification n est demandée. Pour chacune des questions, une

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Exercice 1 Analyse de données de débits et régime hydraulique. Nguyen Ha- Phong. Section génie civil 2012, Prof. Dr A. Schleiss

Exercice 1 Analyse de données de débits et régime hydraulique. Nguyen Ha- Phong. Section génie civil 2012, Prof. Dr A. Schleiss Exercice 1 Analyse de données de débits et régime hydraulique Nguyen Ha- Phong Section génie civil 212, Prof. Dr A. Schleiss A) Analyse hydrologique 1. Estimation des débits moyens journaliers de la station

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Travaux Dirigés de Probabilités - Statistiques, TD 4. Lois limites ; estimation.

Travaux Dirigés de Probabilités - Statistiques, TD 4. Lois limites ; estimation. Travaux Dirigés de Probabilités - Statistiques, TD 4 Lois limites ; estimation. Exercice 1. Trois machines, A, B, C fournissent respectivement 50%, 30%, 20% de la production d une usine. Les pourcentages

Plus en détail

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés Les nouveaux enjeux et défis du marché immobilier : comment y contribuer? Chaire Ivanhoé Cambridge ESG UQÀM Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la

Plus en détail

COMPORTEMENT ASYMPTOTIQUE D UNE FILE D ATTENTE À UN SERVEUR

COMPORTEMENT ASYMPTOTIQUE D UNE FILE D ATTENTE À UN SERVEUR Université Paris VII. Préparation à l Agrégation. (François Delarue) COMPORTEMENT ASYMPTOTIQUE D UNE FILE D ATTENTE À UN SERVEUR Ce texte vise à l étude du temps d attente d un client à la caisse d un

Plus en détail

Master 1 Informatique Éléments de statistique inférentielle

Master 1 Informatique Éléments de statistique inférentielle Master 1 Informatique Éléments de statistique inférentielle Faicel Chamroukhi Maître de Conférences UTLN, LSIS UMR CNRS 7296 email: chamroukhi@univ-tln.fr web: chamroukhi.univ-tln.fr 2014/2015 Faicel Chamroukhi

Plus en détail

Théorie des sondages : cours 5

Théorie des sondages : cours 5 Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur

Plus en détail

Evaluation et tests d une interface graphique

Evaluation et tests d une interface graphique Evaluation et tests d une interface graphique Tâcheconsidérée considérée Utilisateurs Poste de travail Domaine d activité Analyse de la tâche Contexte de travail Stéréotype d utilisateur Critères d utilité

Plus en détail

différence groupe-conseil en statistique

différence groupe-conseil en statistique Vais-je atteindre mon objectif cette année? Par Martin Carignan, associé chez Différence www.difference-gcs.com Contexte Les gestionnaires sont souvent évalués sur des résultats mesurés par des indicateurs

Plus en détail

Validation probabiliste d un Système de Prévision d Ensemble

Validation probabiliste d un Système de Prévision d Ensemble Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste

Plus en détail

Chapitre 4 : Régression linéaire

Chapitre 4 : Régression linéaire Exercice 1 Méthodes statistiques appliquées aux sciences sociales (STAT-D-203) Titulaire : Catherine Vermandele Chapitre 4 : Régression linéaire Le diplôme de Master of Business Administration ou MBA est

Plus en détail

Bac Blanc Terminale ES - Février 2014 Épreuve de Mathématiques (durée 3 heures)

Bac Blanc Terminale ES - Février 2014 Épreuve de Mathématiques (durée 3 heures) Bac Blanc Terminale ES - Février 2014 Épreuve de Mathématiques (durée 3 heures) L attention des candidats est attirée sur le fait que la qualité de la rédaction, la clarté et la précision des raisonnements

Plus en détail

Ressources pour le lycée général et technologique

Ressources pour le lycée général et technologique éduscol Classe terminale - Série STMG L accompagnement personnalisé Ressources pour le lycée général et technologique Approfondir Vers le supérieur La prévision des tendances et l outil statistique Présentation

Plus en détail

Chapitre 1 : Évolution COURS

Chapitre 1 : Évolution COURS Chapitre 1 : Évolution COURS OBJECTIFS DU CHAPITRE Savoir déterminer le taux d évolution, le coefficient multiplicateur et l indice en base d une évolution. Connaître les liens entre ces notions et savoir

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Cahier de vacances - Préparation à la Première S

Cahier de vacances - Préparation à la Première S Cahier de vacances - Préparation à la Première S Ce cahier est destiné à vous permettre d aborder le plus sereinement possible la classe de Première S. Je vous conseille de le travailler pendant les 0

Plus en détail

Étapes du développement et de l utilisation d un modèle de simulation

Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Formulation du problème Cueillette et analyse de données Conception

Plus en détail

Applications linéaires

Applications linéaires Applications linéaires I) Applications linéaires - Généralités 1.1) Introduction L'idée d'application linéaire est intimement liée à celle d'espace vectoriel. Elle traduit la stabilité par combinaison

Plus en détail

L utilisation des statistiques lors de mon stage de. Tuteur pédagogique : M. Coquet

L utilisation des statistiques lors de mon stage de. Tuteur pédagogique : M. Coquet L utilisation des statistiques lors de mon stage de 2nde année à l ENSAI. Réalisée par Ingé Julien Maître de stage : Mme Piercourt-Jost Tuteur pédagogique : M. Coquet PLAN : I) Le stage II) Méthodes M

Plus en détail

«Monsieur, on fait quoi?»

«Monsieur, on fait quoi?» Nous avons le plaisir aujourd hui de vous proposer une séance de travaux pratiques de statistique, c est-à-dire, une séance où vous allez pouvoir mettre les mains dans le cambouis (dans les données) et

Plus en détail

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage des variables auxiliaires à utiliser dans l'estimateur par calage Mohammed El Haj Tirari Institut National de Statistique et d'economie Appliquée - roc Laboratoire de Statistique d'enquêtes, CREST - Ensai

Plus en détail

Gestionnaire du Réseau de Transport d 'Electricité. La prévision de consommation d électricité à RTE

Gestionnaire du Réseau de Transport d 'Electricité. La prévision de consommation d électricité à RTE Gestionnaire du Réseau de Transport d 'Electricité La prévision de consommation d électricité à RTE 2 PLAN DE LA PRESENTATION RTE, le gestionnaire du réseau d électricité Présentation d une méthodologie

Plus en détail

Modélisation des transports

Modélisation des transports Modélisation des transports Cinzia Cirillo, Eric Cornelis & Philippe TOINT D.E.S. interuniversitaire en gestion des transports Les Modèles de choix discrets Dr. CINZIA CIRILLO Facultés Universitaires Notre-Dame

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE

REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE LES DONNEES OBS KW SURFACE PERS PAVILLON AGE VOL SBAINS 1 4805 130 4 1 65 410 1 2 3783 123 4 1 5 307 2 3 2689 98 3 0 18 254 1 4 5683 178 6 1 77 570 3 5 3750

Plus en détail

Séminaire de Statistique

Séminaire de Statistique Master 1 - Economie & Management Séminaire de Statistique Support (2) Variables aléatoires & Lois de probabilité R. Abdesselam - 2013/2014 Faculté de Sciences Economiques et de Gestion Université Lumière

Plus en détail

Le raisonnement par récurrence

Le raisonnement par récurrence Le raisonnement par récurrence Nous notons N l ensemble des entiers naturels : N = {0,,, } Nous dirons naturel au lieu de entier naturel Le principe du raisonnement par récurrence Soit A une partie de

Plus en détail

Comment intégrer des images dans un texte

Comment intégrer des images dans un texte Quoi de plus utile que de pouvoir ajouter une image, un graphique à un commentaire afin d étoffer celui-ci. C est possible de le faire de plusieurs façon dans le forum Météocentre. Cependant il faut limiter

Plus en détail

Econométrie. février 2008. Boutin, Rathelot

Econométrie. février 2008. Boutin, Rathelot 5ème séance Xavier Boutin Roland Rathelot Supélec février 2008 Plan Variables binaires La question y = β 0 + β 1 x 1 +...β k x k + u Que se passe-t-il lorsque y est une variable {0, 1} et non plus une

Plus en détail

Compléments sur Excel. H. HOCQUARD hocquard@labri.fr

Compléments sur Excel. H. HOCQUARD hocquard@labri.fr Compléments sur Excel H. HOCQUARD hocquard@labri.fr Plan Outils de résolution La valeur cible Le solveur Interactivité dans les feuilles Fonctions de recherche (ex: RechercheV) Utilisation de la barre

Plus en détail

«Il utilise les statistiques comme l ivrogne, les lampadaires pour s appuyer plutôt que pour s éclairer.» Andrew Lang PLAN DE COURS

«Il utilise les statistiques comme l ivrogne, les lampadaires pour s appuyer plutôt que pour s éclairer.» Andrew Lang PLAN DE COURS ÉCOLE DE POLITIQUE APPLIQUÉE Faculté des lettres et sciences humaines GEP 111 (GR1) LES STATISTIQUES EN SCIENCES POLITIQUES HIVER 2015 Professeur : Khalid Adnane Disponibilité : jeudi avant-midi Bureau

Plus en détail

L analyse de variance à deux critère de classification

L analyse de variance à deux critère de classification L analyse de variance à deux critère de classification Objectif : comparer l influence de chaque facteur sur la moyenne de plusieurs (k) groupes indépendants d observations La méthode détaillée ci-dessous

Plus en détail

Les graphes d intervalles

Les graphes d intervalles Les graphes d intervalles Complément au chapitre 3 «Vol aux archives cantonales» Considérons un ensemble de tâches ayant chacune une heure de début et une heure de fin bien précises. Supposons qu on demande

Plus en détail

Classes et templates C++

Classes et templates C++ Classes et templates C++ Ce TP propose une application des classes, des templates et du polymorphisme au travers du design de classes permettant de gérer des courbes de Bézier. Contents 1 Bézier unidimensionnelle

Plus en détail

Techniques des prévisions de ventes

Techniques des prévisions de ventes Techniques des prévisions de ventes Introduction Les techniques des prévisions de ventes servent à : Anticiper, à éviter les risques et à maitriser au mieux l avenir dans un contexte concurrentiel. PLAN

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail