COURS DE STATISTIQUES (24h)



Documents pareils
Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Statistique Descriptive Élémentaire

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Introduction au datamining

Biostatistiques : Petits effectifs

Données longitudinales et modèles de survie

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Logiciel XLSTAT version rue Damrémont PARIS

Introduction aux Statistiques et à l utilisation du logiciel R

Statistiques Descriptives à une dimension

La classification automatique de données quantitatives

Un exemple de régression logistique sous

Analyse de la variance Comparaison de plusieurs moyennes

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

MODÈLE CROP DE CALIBRATION DES PANELS WEB

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Introduction à l approche bootstrap

données en connaissance et en actions?

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Élément 424b Introduction à la statistique descriptive

Modèles pour données répétées

1. Vocabulaire : Introduction au tableau élémentaire

Lire ; Compter ; Tester... avec R

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Qu est-ce qu une problématique?

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Table des matières. I Mise à niveau 11. Préface

Principe d un test statistique

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Précision d un résultat et calculs d incertitudes

TABLE DES MATIERES. C Exercices complémentaires 42

Agenda de la présentation

Introduction au Data-Mining

Chapitre 3 : INFERENCE

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Chapitre 1. La démarche statistique appliquée au management. Minicas. Questions :

ESSEC Cours Wealth management

LES DIFFERENTS TYPES DE MESURE

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Chapitre 3. La répartition

23. Interprétation clinique des mesures de l effet traitement

Séries Statistiques Simples

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Aide-mémoire de statistique appliquée à la biologie

Le scoring est-il la nouvelle révolution du microcrédit?

Scénario: Données bancaires et segmentation de clientèle

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Partie Agir : Défis du XXI ème siècle CHAP 20-ACT EXP Convertisseur Analogique Numérique (CAN)

Le risque Idiosyncrasique

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

INTRODUCTION AU DATA MINING

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Estimation et tests statistiques, TD 5. Solutions

Optimisation des ressources des produits automobile première

Statistiques descriptives

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Evaluation générale de la qualité des données par âge et sexe

Théories comptables. Théories normatives

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Comment évaluer une banque?

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

Cours de méthodes de scoring

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Big Data et Marketing : les competences attendues

Date de diffusion publique : lundi 15 décembre 2008, 6h00 heure normale de l Est

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

HIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

La nouvelle planification de l échantillonnage

Probabilités III Introduction à l évaluation d options

Projet de Traitement du Signal Segmentation d images SAR

Nathalie Bulle (1998), Compte-rendu de Rainer Hegselmann, Ulrich Mueller, Klaus G. Troitzsch (eds.).- Modelling and simulation in the social sciences

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

CarrotAge, un logiciel pour la fouille de données agricoles

Cours de Tests paramétriques

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Introduction à la lecture des tableaux statistiques. par Jean-Paul Grémy Professeur honoraire à l université de Paris V

Définition d un Template

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

MODELE A CORRECTION D ERREUR ET APPLICATIONS

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

MATHÉMATIQUES. Mat-4104

POINTS DE VUE DES CANADIENS SUR LA COUVERTURE DES MÉDICAMENTS D ORDONNANCE

Transmission de données. A) Principaux éléments intervenant dans la transmission

Traitement des données avec Microsoft EXCEL 2010

Transcription:

COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h)

Qu est-ce que la statistique? Les statistiques (descriptives) sont nées de l activité de recueil des données répondant aux besoins d organisation et de gouvernement des grands empires (armée, impôts, organisation des richesses). Ex: premiers recensements connus vers 3000 ans avant notre ère en Sumérie. Les statistiques sont aujourd hui utilisées dans tous les secteurs d activité : - Industrie : fiabilité, contrôle qualité,. - Economie et finance: sondages, enquête d opinion, assurance, marketing - Santé, environnement, - Partout où l on dispose de données ont connu un grand essor avec l arrivage des ordinateurs performants

Qu est-ce que la statistique? Vient du latin status = «état». Le terme statisticum apparaît à la fin du XVII siècle. Statistique = ensemble de méthodes permettant de décrire et d analyser des observations (ou données). Ces observations consistent généralement en la mesure d une ou plusieurs caractéristiques communes sur un ensemble de personnes ou d objets équivalents. Remarque : une statistique = grandeur calculée à partir des observations recueillies (ex : moyenne d âge des élèves d une même classe, balance commerciale de la France, etc..)

Quelques définitions de base L ensemble de personnes ou d objets équivalents étudié s appelle la population. Chaque objet d une population s appelle un individus ou unité statistique. Les caractéristique que l on mesure s appellent des variables. Les mesures s appellent des observations. La série d observations recueillies s appelle série statistique. Elle est généralement retranscrite dans un tableau de données. Rq : La statistique traite des propriétés des population plus que des individus particuliers de ces populations.

Quelques définitions de base Exemple 1 : On s intéresse aux débits annuels du Nil entre 1871 et 1970. Variable étudiée=débit annuel ; population= 100 années de 1871 à 1970. Un individu= 1900 par exemple. Série statistique (unidimensionnelle): [1] 1120 1160 963 1210 1160 1160 813 1230 1370 1140 995 935 1110 994 1020 960 1180 799 958 1140 1100 1210 1150 [24] 1250 1260 1220 1030 1100 774 840 874 694 940 833 701 916 692 1020 1050 969 831 726 456 824 702 1120 [47] 1100 832 764 821 768 845 864 862 698 845 744 796 1040 759 781 865 845 944 984 897 822 1010 771 [70] 676 649 846 812 742 801 1040 860 874 848 890 744 749 838 1050 918 986 797 923 975 815 1020 906 [93] 901 1170 912 746 919 718 714 740

Quelques définitions de base Exemple 2 : On s intéresse à la fécondité en relation avec certains indicateurs socioéconomiques dans 47 provinces francophones suisses vers 1888. La série statistique (multidimensionnelles) est donnée dans le tableau de données suivant : population 1 individus Fertility Agriculture Education Catholic Infant.Mortality Courtelary 80.2 17.0 12 9.96 22.2 Delemont 83.1 45.1 9 84.84 22.2 Franches-Mnt 92.5 39.7 5 93.40 20.2 Moutier 85.8 36.5 7 33.77 20.3 Neuveville 76.9 43.5 15 5.16 20.6 Porrentruy 76.1 35.3 7 90.57 26.6 Fertility=indice de fécondité Agriculture= % de males agriculteurs Education= % d individus ayant étudié après le primaire Catholic=% de catholiques Infant.Mortality=% mortalité infantile 1 variable 1 observation

Quelques définitions de base Recensement= Etude de tous les individus d une population. Difficile en pratique lorsque les populations sont grandes pour des questions de coût et de temps. Sondage= recueil d une partie de la population. La partie des individus étudiés s appelle l échantillon. Le recueil d un échantillon à partir de la population initiale se fait par des techniques statistiques, appelées méthodes d échantillonnage.

Quelques définitions de base Il existe différent types de variables Variables quantitatives : caractéristiques numériques (taille, age, ). S expriment par des nombres réels sur lesquels les opérations arithmétiques de base (somme, moyenne, ) ont un sens. Peuvent être discrètes (nombre fini ou dénombrable de valeurs : age,...) ou continues (toutes les valeurs réelles sont susceptibles d être prises : taille, ). Variables qualitatives : caractéristiques non numériques dans le sens où les opérations de base n ont pas de sens. Peuvent être nominales (sexe,..) ou ordinales lorsque l ensemble des catégories est muni d un ordre total (très résistant, assez résistant, peu résistant,..). Les différents niveaux d une variable qualitative s appellent des modalités (ou catégories).

Quelques définitions de base INFO Une variable quantitative peut être mise sous forme qualitative ordinale en constituant des classes d appartenance. Exemple : On considère la population des salariés de France, le salaire mensuel S est une variable quantitative. On peut construire la variable SS qualitative ordinale à quatre modalités (S<6000 : modalité 1 ; 6000<S<10000 : modalité 2 ; 10000<S<20000 : modalité 3 ; S>20000 : modalité 4). La création des amplitudes des classes est un problème délicat, qui nécessite un arbitrage entre information et simplification.

Les différentes problématiques de la statistique La statistique descriptive (ou exploratoire) Objectifs : résumer, synthétiser l information contenue dans une série statistique, mettre en évidence ses propriétés. suggérer des hypothèses relatives à la population dont est issu l échantillon. Outils utilisés : Tableaux (table des fréquences,..) Graphiques (box-plots, histogrammes,..) indicateurs (moyenne, corrélation,..). Méthodes : Statistique descriptive classiques (uni et bidimensionnelles) Méthodes d ADD.

Les différentes problématiques de la statistique Exemple 1 : Graphiques : Series Nile Nile 600 800 1000 1200 1400 ACF -0.2 0.0 0.2 0.4 0.6 0.8 1.0 600 800 1000 1200 1400 1880 1900 1920 1940 1960 Tim e 0 5 10 15 20 Lag Indicateurs : Min. 1st Qu. Median Mean 3rd Qu. Max. 456.0 798.5 893.5 919.4 1033.0 1370.0

Les différentes problématiques de la statistique INFO La statistique descriptive s est enrichie ces dernières années de nombreuses techniques de visualisation de données multidimensionnelles, connues sous le nom d analyse des données, puis de data mining. Parmi ces méthodes on trouve : les méthodes de classification (partitionnement, CAH), visant à réduire la taille de l échantillon en classant les individus dans des groupes de caractéristiques homogènes. les méthodes d analyse factorielle (ACP, AFCM, ) qui cherchent à réduire le nombre de caractéristiques d une population en les résumant par un petit nombre de composantes synthétiques.

Les différentes problématiques de la statistique La statistique inférentielle (ou décisionnelle) Spécificité : La série de données est considéré comme un échantillon d une population suppose un modèle probabiliste sur la population. Nécessite des méthodes d échantillonnage. Inférence. Opération par laquelle on passe d'une vérité à une autre vérité, jugée telle en fonction de son lien avec la première. (Petit Larousse) Objectifs : étendre (inférer) les propriétés constatées sur l échantillon à la population. Valider ou infirmer des hypothèses sur la population énoncées a priori ou formulées après une phase exploratoire. Méthodes : Estimation : approcher des paramètres de la population à partir de l échantillon. Tests : valider ou d infirmer des hypothèses émises sur ces paramètres. Modélisation et de prévision : recherche d une relation entre une variable et plusieurs autres, valable pour l ensemble de la population.

Les différentes problématiques de la statistique Ex 2 : Modélisation par RLM : Residuals: Min 1Q Median 3Q Max -14.6765-6.0522 0.7514 3.1664 16.1422 F 62.1 0.15A 0.98E+ 0.12C+ 1.08I estimations Coefficients: tests Estimate Std. Error t value Pr(> t ) (Intercept) 62.10131 9.60489 6.466 8.49e-08 *** Agriculture -0.15462 0.06819-2.267 0.02857 * Education -0.98026 0.14814-6.617 5.14e-08 *** Catholic 0.12467 0.02889 4.315 9.50e-05 *** Infant.Mortality 1.07844 0.38187 2.824 0.00722 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 7.168 on 42 degrees of freedom Multiple R-Squared: 0.6993, Adjusted R-squared: 0.6707 F-statistic: 24.42 on 4 and 42 DF, p-value: 1.717e-10

Rôle de la théorie des probabilités dans les problèmes de statistique Probabilités = théorie permettant de modéliser des phénomènes aléatoires Statistiques = repose sur l observation de données issues d un phénomène concret. Le rôle des probabilités est nul en statistique descriptive, prépondérant en statistique inférentielle. Les caractéristiques d une grande population peuvent être considérées comme des variables aléatoires (on recode celles sont qualitatives). Les observations recueillies dans une série statistique peuvent être considérées comme des réalisations de ces variables. Lorsque l échantillonnage est bien fait, on pourra approcher les caractéristiques théoriques (probabilistes) de la population (loi de probabilités etc ) à l aide de statistiques calculées à partir d un échantillon.

Rôle de la théorie des probabilités dans les problèmes de statistique Série de 50 observations issue d une population gaussienne Série de 1000 observations issue d une population gaussienne Density 0.0 0.1 0.2 0.3 0.4 Histogram of p Density 0.0 0.1 0.2 0.3 0.4 Histogram of p -2-1 0 1 2 p -4-2 0 2 4 p