Statistiques descriptives
|
|
|
- Victor Jean-Sébastien Blanchette
- il y a 10 ans
- Total affichages :
Transcription
1 Statistiques descriptives L3 Maths-Eco Université de Nantes Frédéric Lavancier F. Lavancier (Univ. Nantes) Statistiques descriptives 1
2 1 Vocabulaire de base F. Lavancier (Univ. Nantes) Statistiques descriptives 2
3 Le vocabulaire est issu de la démographie, domaine d application initial des statistiques. Population : ensemble étudié Exemples : la population française, l ensemble des entreprises d une région, un ensemble de sites géographiques, un ensemble de dates,... Individus : les éléments composant la population Exemples : une personne, une entreprise, un site géographique, une date,... Variables : les caractéristiques observées sur chaque individu Exemples : pour des personnes : sexe, CSP, âge, salaire,... pour des entreprises : nombre de salariés, secteur d activité,... pour des sites géographiques : altitude, type de végétation,... pour des dates : cours d une action, température, ventes journalières,... Lorsqu on on observe une seule variable au cours du temps (par exemple la température journalière), on parle d une série temporelle. Un jeu de données est composé de l observation des variables sur les individus issus de la population. Il se présente généralement sous forme d un tableau dont les lignes sont les individus et les colonnes les variables. F. Lavancier (Univ. Nantes) Statistiques descriptives 3
4 Exemple de jeu de données : Cours d indices boursiers nationaux. DAX SMI CAC FTSE 02/01/ /01/ /01/ /01/ /01/ /01/ /12/ /12/ /12/ /12/ /12/ /12/ Les individus : les 1860 jours ouvrés du 01/01/1991 au 31/12/1998 Les variables : les indices allemands (DAX), suisses (SMI), français (CAC) et anglais (FTSE). F. Lavancier (Univ. Nantes) Statistiques descriptives 4
5 Exemple de jeu de données : Composition chimique de poteries trouvées sur différents sites archéologiques au Royaume Uni. Site Al Fe Mg Ca Na 1 Llanedyrn Llanedyrn Llanedyrn Llanedyrn Caldicot Caldicot IsleThorns IsleThorns IsleThorns IsleThorns AshleyRails AshleyRails AshleyRails Les individus : les poteries numérotées de 1 à 13 Les variables : le site archéologique et différents composés chimiques. F. Lavancier (Univ. Nantes) Statistiques descriptives 5
6 Type de variables Deux grandes catégories déclinées en deux types. Variable quantitative : son observation est une quantité mesurée. Exemples : âge, salaire, nombre d infractions,... On distingue les variables quantitatives discrètes dont les valeurs possibles sont finies ou dénombrables (Exemples : nombre d enfants, nombre d infractions,...) et les variables quantitatives continues qui peuvent prendre toutes les valeurs possibles d un intervalle (Exemples : taille, salaire,...) Variable qualitative (ou facteur): son observation se traduit par une catégorie ou un code. Les observations possibles sont appelées les modalités de la variable qualitative. Exemples : sexe, CSP, nationalité, mention au BAC,... Lorsqu un ordre naturel apparaît dans les modalités, on parle de variable qualitative ordinale (Exemples : mention au BAC,...). Dans le cas contraire on parle de variable qualitative nominale (Exemples : sexe, CSP,...). F. Lavancier (Univ. Nantes) Statistiques descriptives 6
7 Que fait-on à partir d un jeu de données? Quelques exemples : Le reporting : résumer de façon efficace un jeu de données afin de rendre l information lisible facilement et rapidement. Outils : résumés numériques, représentations graphiques. L inférence : les observations sont souvent recueillies auprès d un échantillon et non de toute la population d intérêt. L inférence statistique vise à induire certaines caractéristiques de la population à partir de leur observation sur un échantillon. Outils : estimation, tests statistiques. L étude du lien entre des variables : quantifier le lien, voire le modéliser. Outils : analyse bivariée, analyse multivariée, modèles de régression,... La classification des individus : chercher des regroupements entre individus selon leurs profils. Outils : analyse multivariée, analyse discriminante,... La prévision : prédire des valeurs futures (pour une série temporelle) ou la valeur manquante d une variable pour un individu. Outils : modélisation temporelle, modèles de régression,... F. Lavancier (Univ. Nantes) Statistiques descriptives 7
8 2 Quels logiciels? F. Lavancier (Univ. Nantes) Statistiques descriptives 8
9 Outils informatiques Tableurs (Excel ou Open Office) : Manipulation des données assez aisée (importation; exportation; tri, création, suppression ou modification de variables) Au niveau statistique : quelques graphiques descriptifs (nuage de points, courbe de séries), mais le choix est très limité et manque de souplesse, quelques rares méthodes stat. sont disponibles dans les macros complémentaies (régression linéaire, ANOVA, tests), mais sont peu pratiques à utiliser. Les tableurs sont globalement mal adaptés aux études statistiques. Logiciels spécialisés payants: SPSS, SAS, Statistica, Spad... Logiciel spécialisé gratuit: R On utilisera R... F. Lavancier (Univ. Nantes) Statistiques descriptives 9
10 Le logiciel R Le logiciel R est disponible pour Windows, MacOS ou Linux sur le site L utilisation de R se fait principalement à l aide de commandes que l on entre dans la console R. F. Lavancier (Univ. Nantes) Statistiques descriptives 10
11 R Commander Il existe une interface graphique à R permettant de travailler avec un jeu de données : R Commander Avantages : utilisation clique-boutons, prise en main rapide. Inconvénients : fonctionnalités limitées, parfois instable. On lance R Commander par la commande: library(rcmdr) (On peut le réouvrir après fermeture avec la commande Commander()) L importation et l analyse d un jeu de données se fait à l aide des menus déroulants (cf TP). F. Lavancier (Univ. Nantes) Statistiques descriptives 11
12 3 Analyse univariée Variable qualitative (ou facteur) Résumés numériques Représentations graphiques Variable quantitative Résumés numériques Représentations graphiques F. Lavancier (Univ. Nantes) Statistiques descriptives 12
13 3 Analyse univariée Variable qualitative (ou facteur) Résumés numériques Représentations graphiques Variable quantitative F. Lavancier (Univ. Nantes) Statistiques descriptives 13
14 Variable qualitative : résumés numériques Soit une variable qualitative A ayant k modalités notées A 1,..., A k. L observation de la variable A sur n individus peut se résumer par un tableau des fréquences. Modalités de A A 1 A 2 A k Effectifs observés n 1 n 2 n k Fréquences observées f 1 f 2 f k où n i est l effectif dans la modalité A i et f i = n i /n, pour tout i = 1,..., k. Propriétés : On a k i=1 n i = n et k i=1 f i = 1 Dans R Commander: Statistiques\Résumés\Distributions de fréquences... renvoie l effectif et la fréquence de chaque modalité. Le mode est la modalité la plus fréquente dans l échantillon. F. Lavancier (Univ. Nantes) Statistiques descriptives 14
15 3 Analyse univariée Variable qualitative (ou facteur) Résumés numériques Représentations graphiques Variable quantitative F. Lavancier (Univ. Nantes) Statistiques descriptives 15
16 Variable qualitative : représentations graphiques Les fréquences de chaque modalité peuvent être résumées par : un graphe en barres : chaque modalité en abscisse est représentée par une barre dont la hauteur est proportionnelle à la fréquence de la modalité. Les barres ne sont pas collées les unes aux autres. Dans R Commander : Graphes\Graphe en barres... un diagramme circulaire (ou camembert) : chaque modalité est représentée par un secteur dont l aire est proportionnelle à la fréquence. Dans R Commander : Graphes\Graphe en camembert... Ordre des modalités. Si la variable est ordinale, les modalités sont présentées dans leur ordre naturel. Sinon, les modalités sont classées par ordre décroissant de leur fréquence d apparition. Dans R Commander : l ordre des modalités peut être modifié dans Données\Gérer les variables dans le jeu de données actif\réordonner une variable facteur. F. Lavancier (Univ. Nantes) Statistiques descriptives 16
17 Exemples Distribution de la CSP des clients d une banque (variable qualitative nominale) : Distribution de la classe d âge des clients d une banque (variable qualitative ordinale) : F. Lavancier (Univ. Nantes) Statistiques descriptives 17
18 3 Analyse univariée Variable qualitative (ou facteur) Variable quantitative Résumés numériques Représentations graphiques F. Lavancier (Univ. Nantes) Statistiques descriptives 18
19 Variable quantitative : les mesures de position Dans R Commander : Statistiques\Résumés\Statistiques descriptives... On note x 1,..., x n l échantillon des n valeurs numériques. Les mesures de position d un échantillon Le mode est la valeur la plus fréquente dans l échantillon. La moyenne, notée x n, est x n = 1 n n i=1 x i Propriété (preuve en cours) : x n = argmin n i=1 (x i y) 2 y La médiane est le nombre m séparant l échantillon ordonné en 2 parties égales. Plus précisément, m vérifie : 1 n 1 {xi m} 1 1 n et 1 {xi m} 1 n 2 n 2 i=1 Propriétés (preuve en cours) : 1. m argmin n i=1 x i y y 2. m n est pas nécessairement unique. Calcul en pratique : en notant x (1),..., x (n) l échantillon ordonné, si n = 2k + 1 (n impair), m est unique et vaut m = x (k+1) si n = 2k (n pair), m n est pas unique, on choisit m = 1 2 (x (k) + x (k+1) ) Remarque : la médiane est plus robuste aux valeurs extrêmes que la moyenne F. Lavancier (Univ. Nantes) Statistiques descriptives 19 i=1
20 Les quantiles. Soit p [0, 1], le quantile d ordre p, noté Q(p), sépare l échantillon ordonné en deux parties de taille respective np et n(1 p) approximativement. Plus précisément, Q(p) vérifie 1 n n 1 {xi Q(p)} p et i=1 1 n n 1 {xi Q(p)} 1 p (1) i=1 Propriétés : Pour p = 0.5, on retrouve la définition de la médiane. Q(p) n est pas nécessairement unique. Calcul en pratique : on note x (1),..., x (n) l échantillon ordonné et. la partie entière supérieure 1. Q(p) = x ( np ) : choix qui respecte la définition mais n est pas cohérent avec la convention adoptée pour la médiane (lorsque p = 0.5). 2. Q(p) = x ( np ) si np n est pas un entier, et Q(p) = 1 2 (x (np) + x (np+1) ) sinon. Ce choix respecte la définition et est cohérent avec la convention adoptée pour la médiane. Pour p = 0.25, 0.5, 0.75, les quantiles sont appelés quartiles. Pour p = 0.1,..., 0.9, ce sont les déciles. F. Lavancier (Univ. Nantes) Statistiques descriptives 20
21 Représentation de Q(p) en fonction de p, selon le choix de sa définition. (Exemple pour n = 4) Choix 1 Choix 2 x(1) x(2) x(3) x(4) x(1) x(2) x(3) x(4) 0 1 n 2 n 3 n n 2 n 3 n 1 F. Lavancier (Univ. Nantes) Statistiques descriptives 21
22 Autres choix possibles pour Q(p). R en propose 9 (voir l aide de la fonction quantile). Les deux premiers sont les 2 choix précédents. Le troisième est un autre choix conduisant à Q(p) discontinu. Les six autres sont des choix rendant Q(p) continu mais dans ce cas la propriété initiale (1) n est plus vérifiée. L idée est d interpoler linéairement les points (p k, x (k) ) où k = 1,..., n et où le choix de p k diffère selon les versions: - Le choix p k = k/n correspond à une interpolation linéaire du choix 1 ci-dessus et correspond au choix 4 dans R. - Pour les autres choix, la motivation est inférentielle. En supposant que X 1,..., X n est un échantillon i.i.d dont la loi est de fonction de répartition (f.d.r.) F, le but est d estimer au mieux le quantile théorique de la loi. En notant F n la f.d.r. empirique, on a k/n = F n(x (k) ). Ainsi au lieu de choisir p k = k/n = F n(x (k) ) on considère F (X (k) ). Quelle que soit F, F (X (k) ) est distribué comme la kème statistique d ordre d un échantillon i.i.d suivant la loi uniforme sur [0, 1], qui est une loi Beta(k, n + 1 k). On peut alors choisir par exemple : p k = E(F (X (k) )) ou p k = mode(f (X (k) )) ou p k = mediane(f (X (k) )). Le choix par défaut sous R (choix 7) correspond à p k = mode(f (X (k) )) = k 1 n 1. Si le but n est pas inférentiel mais descriptif, le choix 2 semble plus approprié. F. Lavancier (Univ. Nantes) Statistiques descriptives 22
23 Variable quantitative : les mesures de dispersion Les mesures de dispersion d un échantillon L étendue vaut max min, c est à dire x (n) x (1). La variance est V = 1 n n i=1 (x i x n) 2. On a V = 1 n n i=1 x i 2 x n 2. La variance corrigée est S 2 = 1 n n 1 i=1 (x i x n) 2 L écart-type est σ = V L écart-type corrigé est S = S 2 L écart moyen absolu est EMA = 1 n n i=1 x i m, où m est la médiane. L écart inter-quartile est Q(0.75) Q(0.25) La mesure la plus utilisée est l écart-type, qui peut être interprétée comme suit: Proposition (voir preuve en cours) Soit α 1 et I = [ x n α σ, x n + α σ], alors 1 n n 1 xi I 1 1 α 2 i=1 En particulier (pour α = 2), au moins 3/4 des observations appartiennent à l intervalle [ x n 2σ, x n + 2σ]. Attention : La variance et l écart-type calculés dans R correspondent à leur version corrigée S 2 et S. F. Lavancier (Univ. Nantes) Statistiques descriptives 23
24 Variable quantitative : les mesures de forme Pour mesurer l asymétrie de la répartition des valeurs, on utilise le coefficient d asymétrie ou skewness en anglais. γ 1 = m3 m 3/2 2 où m k = 1 n n i=1 (x i x n) k est le moment centré d ordre k (la variance si k = 2) Dans une optique inférentielle, R propose deux autres expressions du skewness (voir l aide de la fonction skewness du package e1071 ) Skewness positif ( x n > mediane) Skewness négatif ( x n < mediane) F. Lavancier (Univ. Nantes) Statistiques descriptives 24
25 Variable quantitative : les mesures de forme Pour mesurer l aplatissement de la répartition des valeurs, on utilise l excès d aplatissement ou kurtosis normalisé : γ 2 = m4 3 m2 2 où m k = 1 n n i=1 (x i x n) k est le moment centré d ordre k. Rem : le 3 correspond au kurtosis (non normalisé) théorique d une N (0, σ 2 ). γ 2 compare donc l aplatissement de la distribution à celui d une loi normale. Dans une optique inférentielle, R propose deux autres expressions du kurtosis (voir l aide de la fonction kurtosis du package e1071 ) γ 2 > 0 : distribution leptokurtique (en noir). Profil plus pointue qu une normale de même variance (en rouge). C est le cas en présence de nombreuses valeurs extrêmes. Le kurtosis est utilisé en finance pour repérer ce phénomène. γ 2 < 0 : distribution platikurtique (en noir). Profil plus plat qu une normale de même variance (en rouge). F. Lavancier (Univ. Nantes) Statistiques descriptives 25
26 3 Analyse univariée Variable qualitative (ou facteur) Variable quantitative Résumés numériques Représentations graphiques F. Lavancier (Univ. Nantes) Statistiques descriptives 26
27 Variable quantitative discrète Le diagramme en bâtons (pour une variable quantitative discrète). Les bâtons sont placés en abscisse au niveau de chaque valeur possible de la variable discrète et leur hauteur est proportionnelle à la fréquence observée. Exemple : répartition du nombre d enfants par femme dans un échantillon de femmes actives américaines Dans R Commander : le diagramme en bâtons n est pas proposé. Dans R : en ligne de commandes, il faut d abord calculer les fréquences avec la fonction table puis représenter le résultat avec plot. F. Lavancier (Univ. Nantes) Statistiques descriptives 27
28 Variable quantitative continue L histogramme (pour une variable quantitative continue). L ensemble des valeurs possibles est découpé en intervalles disjoints appelés classes. Au niveau de chaque classe s élève un rectangle dont l aire est égale à la fréquence observée de la classe. Exemple : répartition du salaire annuel des femmes actives américaines (en milliers de dollars) Gauche : classes de même taille. Droite : classes de tailles différentes (les 2 dernières) Dans R Commander : Graphes\Histogramme F. Lavancier (Univ. Nantes) Statistiques descriptives 28
29 Variable quantitative continue Le boxplot ou boîte à moustaches ou boite de dispersion. Le rectangle central est délimité par le premier et le troisième quartile et la médiane y est symbolisée par un trait. Les moustaches partent de chaque côté jusqu à la valeur minimale et maximale de l échantillon, sous réserve que leur longueur ne dépasse pas 1.5(Q(0.75) Q(0.25)), soit 1.5 fois la hauteur de la boîte. Sinon, les moustaches s arrêtent à la dernière valeur avant cette limite et les valeurs restantes sont représentées par des points isolés. Exemple : répartition du salaire des femmes actives américaines Dans R Commander : Graphes\Boite de dispersion... F. Lavancier (Univ. Nantes) Statistiques descriptives 29
30 4 Analyse bivariée Variable quantitative/ Variable qualitative Variable qualitative/ Variable qualitative Variable quantitative/ Variable quantitative F. Lavancier (Univ. Nantes) Statistiques descriptives 30
31 4 Analyse bivariée Variable quantitative/ Variable qualitative Variable qualitative/ Variable qualitative Variable quantitative/ Variable quantitative F. Lavancier (Univ. Nantes) Statistiques descriptives 31
32 Variable quantitative/ Variable qualitative : mesure d association On suppose que le facteur admet I modalités contenant chacune n i individus (i = 1,..., I ). On a donc I i=1 n i = n. On note x ij la valeur de la variable quantitative pour l individu j se trouvant dans la modalité i du facteur (i = 1,..., I et j = 1,..., n i ). On note x i la moyenne dans la modalité i et x la moyenne totale, i.e. x i = 1 n i x ij x = 1 n I i x ij = 1 I n i x i n i n n j=1 Le lien entre la variable et le facteur est parfois mesuré par le rapport de corrélation eta: I η 2 i=1 = n i( x i x) 2 ni j=1 (x ij x) 2 I i=1 Propriétés (cf cours) : Formule de décomposition de la variance : La variance totale est la somme de la variance inter-modalités et de la variance intra-modalités. n I i n I I i (x ij x) 2 = n i ( x i x) 2 + (x ij x i ) 2 i=1 j=1 On a ainsi 0 η 1 i=1 i=1 F. Lavancier (Univ. Nantes) Statistiques descriptives 32 j=1 i=1 i=1 j=1
33 Variable quantitative/ Variable qualitative : résumés numériques L option Résumer par groupe...de Statistiques\Résumés\Statistiques descriptives... permet de résumer différentes statistiques d une variable quantitative selon les modalités d un facteur. Exemple : quelques statistiques descriptives du taux de NO2 dans les véhicules en fonction de la fluidité du trafic (jeu de données vu en TP). mean sd 0% 25% 50% 75% 100% data:n A B C D Avec les notations précédentes, on a ici I = 4, n 1 = 79, n 2 = 68, n 3 = 65, n 4 = 74, x 1 = 244, x 2 = 233, x 3 = 235, x 4 = 267. Pour calculer η, on peut utiliser le menu Statistiques\Moyennes\ANOVA à un facteur... : η 2 correspond au rapport des Sum Sq (somme des carrés) pour le facteur sur ceux des Residuals (résidus). Pour l exemple ci-dessus, la sortie de l ANOVA donne: Df Sum Sq Mean Sq F value Pr(>F) fluidite Residuals Ainsi η 2 = 52687, d où η F. Lavancier (Univ. Nantes) Statistiques descriptives 33
34 Variable quantitative/ Variable qualitative : graphes L option Graphe par groupe... de Graphes\Boite de dispersion... permet une comparaison rapide de la répartition d une série selon les modalités d un facteur. Exemple : Pour la série NO2 précédente, classée selon la fluidité du trafic, de fluide ( A ) à congestionné ( D ). F. Lavancier (Univ. Nantes) Statistiques descriptives 34
35 4 Analyse bivariée Variable quantitative/ Variable qualitative Variable qualitative/ Variable qualitative Variable quantitative/ Variable quantitative F. Lavancier (Univ. Nantes) Statistiques descriptives 35
36 Variable qualitative/ Variable qualitative : résumés numériques On suppose que le premier facteur admet I modalités et le second J modalités. n ij : nombre d individus ayant la modalité i pour le premier facteur et j pour le second. n i. : nombre d individus ayant la modalité i pour le premier facteur n.j : nombre d individus ayant la modalité j pour le second facteur n i. = J n ij, n.j = j=1 I n ij, n = i=1 I n i. = i=1 J n.j = Les effectifs n ij sont résumés dans un tableau de contingence. Sous R Commander, on peut le construire automatiquement à l aide du menu Statistiques\Tables de contingence\tri croisé... Exemple : Pour les variables type et fluidite du jeu de données NO2trafic, le tableau de contingence (avec l option par défaut Pas de pourcentages ) est : type fluidite P U A T V Remarque : On peut remplacer les effectifs n ij par les fréquences n ij /n en choisissant l option Pourcentages du total dans l onglet Statistiques. F. Lavancier (Univ. Nantes) Statistiques descriptives 36 j=1 I i=1 J j=1 n ij
37 Variable qualitative/ Variable qualitative : distributions conditionnelles La distribution conditionnelle du second facteur sachant la modalité i du premier facteur est donnée par les fréquences: n ij n i., pour j = 1,..., J. Pour chaque i, on a évidemment : J n ij j=1 n i. = 1. Les profils lignes correspondent à l ensemble de ces distributions conditionnelles pour i = 1,..., I. L intéret des profils lignes est de comparer la distribution du second facteur selon les modalités du premier facteur. S il y a indépendance entre les deux facteurs, les profils lignes doivent être similaires. Dans R Commander, on obtient les profils lignes en choisissant l option Pourcentages des lignes dans l onglet Statistiques du menu Statistiques\Tables de contingence\tri croisé... De même on peut s intéresser aux profils colonnes qui sont les distributions conditionnelles du premier facteur sachant le second. Elles sont données par les fréquences n ij n.j, pour i = 1,..., I. F. Lavancier (Univ. Nantes) Statistiques descriptives 37
38 Variable qualitative/ Variable qualitative : distributions conditionnelles Exemple (suite) : Les profils lignes du tableau précédent sont : Les profils colonnes sont : type fluidite P U A T V Total Count type fluidite P U A T V Total Count On constate peu de différences entre les profils lignes (de même pour les profils colonnes), il ne semble donc pas y avoir de lien entre les deux facteurs. F. Lavancier (Univ. Nantes) Statistiques descriptives 38
39 Variable qualitative/ Variable qualitative : distance du khi-deux Pour mesurer le lien entre les deux facteurs, on calcule la distance du khi-deux. χ 2 = I i=1 J j=1 (n ij n i.n.j n ) 2 n i. n.j n Cette distance mesure la différence entre les effectifs observés n ij et les effectifs théoriques s il y avait indépendance : dans ce cas la fréquence observée dans i et j, n ij, vaudrait le produit des fréquences marginales n i. n.j. n n n Propriétés (voir preuve en cours): 0 χ 2 n [min(i, J) 1] On peut mesurer le lien entre deux variables qualitatives par le V de Cramer : χ V = 2 n [min(i, J) 1] On a 0 V 1. F. Lavancier (Univ. Nantes) Statistiques descriptives 39
40 Variable qualitative/ Variable qualitative : distance du khi-deux Sous R Commander, la distance du χ 2 est donnée dans la sortie du menu Statistiques\Tables de contingence\tri croisé... sous l appellation X-squared, en cochant Test Chi-deux d indépendance dans l onglet Statistiques. Exemple (suite) : on lit dans R Commander X-squared = On en déduit V = /(283 3) = L absence de lien entre les variables type et fluidite se confirme. Pour comprendre plus profondément le lien éventuel entre les deux facteurs : L option Imprimer les fréquences attendues donne le tableau des effectifs (et non fréquences...) théoriques n i.n.j s il y avait eu indépendance. n L option Composants de la statistique du chi-deux donne le tableau des résidus, c est à dire chaque terme composant la somme du χ 2. Un résidu élevé témoigne d une sur-représentation (ou sous-représentation) de la modalité croisée par rapport à une situation d indépendance. F. Lavancier (Univ. Nantes) Statistiques descriptives 40
41 Variable qualitative/ Variable qualitative : graphes On résume le tableau de contingence par des diagrammes en batons croisés, soit par empilement (à gauche), soit côte à côte (à droite). Ces graphes se font en lignes de commande : si le tableau de contingence se nomme tab, il suffit de taper barplot(tab) ou barplot(tab,beside=true) Exemple (suite) : pour le graphe croisant les variables type et fluidite, barplot(tab,legend.text=true) barplot(tab,beside=true,legend.text=true) P U A T V P U A T V Remarque : si on souhaite représenter les fréquences et non les effectifs, il suffit de diviser tab par l effectif total n, barplot(tab/n). F. Lavancier (Univ. Nantes) Statistiques descriptives 41
42 Variable qualitative/ Variable qualitative : graphes On peut de même représenter les distributions conditionnelles. On suppose que les tableaux se nomment : tablig : tableau des profils lignes (sans les colonnes Total et Count) tabcol : tableau des profils colonnes (sans les lignes Total et Count) barplot(t(tablig)) barplot(tabcol) P U A T V Remarque : il faut représenter la transposée du tableau des profils lignes, ce qui explique le t(tablig). F. Lavancier (Univ. Nantes) Statistiques descriptives 42
43 4 Analyse bivariée Variable quantitative/ Variable qualitative Variable qualitative/ Variable qualitative Variable quantitative/ Variable quantitative F. Lavancier (Univ. Nantes) Statistiques descriptives 43
44 Lien entre deux variables quantitatives : nuage de points Soit x 1,..., x n les valeurs de la première variable quantitative X. Soit y 1,..., y n les valeurs de la seconde variable quantitative Y. On visualise le lien entre X et Y grâce au nuage des points (x i, y i ). Dans R Commander : Graphe\Nuage de points...ou Graphe\Matrice de nuages de points... si on en souhaite plusieurs. Exemple : nuage de points entre Al et Ca des données Pottery et matrice des nuages de points entre toutes les variables Ca Al Al Ca Fe Mg Na F. Lavancier (Univ. Nantes) Statistiques descriptives 44
45 Lien entre deux variables quantitatives : corrélation linéaire On définit la covariance entre X et Y par : cov(x, Y ) = 1 n (x i x n)(y i ȳ n) = 1 n n i=1 où x n (resp. ȳ n) désigne la moyenne de X (resp. Y ). n x i y i x nȳ n Le lien linéaire est quantifié par la corrélation linéaire de Pearson : r = cov(x, Y ) σ X σ Y = 1 n 1 i=1 n n i=1 (x i x n)(y i ȳ n) n i=1 (x i x n) 2 1 n n i=1 (y i ȳ n) 2 où σ X (resp. σ Y ) désigne l écart-type de X (resp. Y ). Propriétés (cf cours) : La corrélation r est toujours comprise entre 1 et 1: si r = 1, il y a un lien linéaire parfait positif : r = 1 ssi il existe α 0 et β tel que y i = αx i +β pour tout i = 1,..., n si r = 1, il y a un lien linéaire parfait négatif : r = 1 ssi il existe α 0 et β tel que y i = αx i +β pour tout i = 1,..., n si r = 0, il n y a aucun lien linéaire (mais il peut exister un lien non-linéaire). F. Lavancier (Univ. Nantes) Statistiques descriptives 45
46 Quelques exemples de nuages de points avec la corrélation correspondante. Aucun lien (r 0) Lien linéaire (r 0.4) Lien linéaire (r 0.4) Lien non-linéaire(r 0) Aucun lien (r 0) Lien linéaire (r 0.9) Lien linéaire (r 0.8) Lien non-linéaire (r 0.8) F. Lavancier (Univ. Nantes) Statistiques descriptives 46
47 Ajuster la droite des moindres carrés Droite des moindres carrés : Il s agit de la droite qui passe le mieux au milieu des points (x i, y i ), au sens où la somme des distances en rouge prises au carré est minimale. On dit aussi qu on effectue la régression linéaire de Y sur X X Y X Y L équation de la droite recherchée est donc y = âx + ˆb où â et ˆb vérifient : (â, ˆb) = argmin (a,b) n i=1 (y i ax i b) 2. On trouve, si var(x ) 0 : â = cov(x, Y ) var(x ) = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 et ˆb = ȳ â x F. Lavancier (Univ. Nantes) Statistiques descriptives 47
48 Complément à la régression linéaire Dans R Commander : Statistiques\Ajustement de modèles\régression linéaire La droite des moindres carrés peut servir à prédire une nouvelle valeur de Y : pour X = x, Y est prédit par ŷ = âx + ˆb. Pour mesurer la qualité d ajustement de la droite on considère les résidus : e i = y i (âx i + ˆb). Il s agit des segments rouges du graphique précédent. 1 Pour l ajustement de la droite précédente, on a toujours : n n i=1 e i = 0. Formule de décomposition de la variance: n (y i ȳ) 2 = i=1 n (ŷ i ȳ) 2 + i=1 que l on note généralement SCT = SCE + SCR où SCT : Somme des Carrés Totaux, SCE : SC Expliqués et SCR : SC Résiduels. On définit le coefficient de détermination : R 2 = SCE. On a SCT 0 R 2 1 d après la formule de décomposition de la variance R 2 = r 2 où r est le coefficient de corrélation linéaire entre Y et X (cf cours) L ajustement par la droite est d autant meilleur que R 2 est proche de 1 (car dans ce cas n i=1 e2 i 0) n i=1 e 2 i F. Lavancier (Univ. Nantes) Statistiques descriptives 48
49 5 Aspects temporels Représentation graphique Dépendance temporelle, la fonction d autocorrélation (ACF) Tendance et saisonnalité Estimation de la tendance Estimation de la saisonnalité Série ajustée, Série CVS (Corrigée des Variations Saisonnières) Pour aller plus loin : prévision et modélisation F. Lavancier (Univ. Nantes) Statistiques descriptives 49
50 5 Aspects temporels Représentation graphique Dépendance temporelle, la fonction d autocorrélation (ACF) Tendance et saisonnalité Estimation de la tendance Estimation de la saisonnalité Série ajustée, Série CVS (Corrigée des Variations Saisonnières) Pour aller plus loin : prévision et modélisation F. Lavancier (Univ. Nantes) Statistiques descriptives 50
51 De nombreuses données sont acquises à intervalles réguliers dans le temps : ce sont des séries temporelles. Des méthodes spécifiques permettent : de les représenter graphiquement de décrire leurs tendances temporelles et leurs effets périodiques d étudier leur dépendance temporelle de les prédire F. Lavancier (Univ. Nantes) Statistiques descriptives 51
52 Exemples Représentation graphique : En abscisse : le temps (secondes, jours, mois, années, etc...); En ordonnée : les valeurs des observations. Exemples : PIB des Etats-Unis. Une observation par an. Intervalle d observation : GDP Time F. Lavancier (Univ. Nantes) Statistiques descriptives 52
53 Exemples Consommation d électricité en Australie. Une donnée par demi-heure. Intervalle d observation : 35 jours en juin-juillet F. Lavancier (Univ. Nantes) Statistiques descriptives 53
54 Exemples Trafic aérien. Une donnée par mois de 1949 à F. Lavancier (Univ. Nantes) Statistiques descriptives 54
55 Exemples Production de bière en Australie. Une donnée par mois de 1956 à x Time F. Lavancier (Univ. Nantes) Statistiques descriptives 55
56 Exemples x Maximum journalier d ozone à Rennes. Une donnée par jour de juin à septembre Jun-06 Jul-06 Aug-06 Sep-06 Jours F. Lavancier (Univ. Nantes) Statistiques descriptives 56
57 Sous R L étude sous R se fait par lignes de commandes. Supposons que la série temporelle est la variable var du tableau tab. On commence par définir la série temporelle sous R : x = ts(tab$var, start=1980, freq=12) ts ( time series ) : permet à R de voir la variable comme une série temporelle start (optionnel) : permet de préciser la date de début de la série freq (optionnel) : précise la période de la série, s il y en a une (ici on suppose que la période vaut 12, ce qui est typique de données mensuelles). On peut alors travailler avec la série sous R, notamment la représenter avec plot(x) La légende en abscisse se gère en général toute seule. On peut néanmoins imposer une datation personnelle, par exemple comme ceci : dates=seq(as.posixlt("2006/6/7"),as.posixlt("2006/9/25"),"days") plot(dates, x, type="l", xaxt="n",xlab= Jours ) r = as.posixct(round(range(dates), "days")) axis.posixct(1, at=seq(r[1], r[2], by="month"), format="%b-%y") F. Lavancier (Univ. Nantes) Statistiques descriptives 57
58 5 Aspects temporels Représentation graphique Dépendance temporelle, la fonction d autocorrélation (ACF) Tendance et saisonnalité Estimation de la tendance Estimation de la saisonnalité Série ajustée, Série CVS (Corrigée des Variations Saisonnières) Pour aller plus loin : prévision et modélisation F. Lavancier (Univ. Nantes) Statistiques descriptives 58
59 La dépendance temporelle Dans une série temporelle, il est courant d observer une dépendance entre les différentes valeurs de la série, notamment entre les valeurs voisines. Cela peut se vérifier en calculant la corrélation ou en représentant le nuage de points entre les valeurs de la série et ses valeurs au pas de temps précédent. Exemple : Pour la série des max d ozone, on construit la série des valeurs de la veille. Le nuage de points entre la série initiale et la série des valeurs de la veille est donné ci-contre. La corrélation vaut r = La série est donc corrélée positivement à son passé immédiat. F. Lavancier (Univ. Nantes) Statistiques descriptives 59
60 Les ACF On note x t la valeur de la série à l instant t, observée pour t = 1,..., n. La fonction d autocovariance est définie pour tout entier h de 0 à n par: σ(h) = 1 n h (x t x)(x t+h x), n h où x désigne la moyenne empirique de la série : x = 1 n n t=1 xt. t=1 Remarque : la sommation s arrête à n h car au-delà il n y a plus de valeurs disponibles pour calculer x t+h. σ(0) correspond à la variance de la série. La fonction d autocorrélation (ACF en anglais) est définie pour tout entier h de 0 à n par : ρ(h) = σ(h) σ(0). Remarque : ρ(h) calcule la corrélation entre les valeurs de la série et les valeurs h plus tard. F. Lavancier (Univ. Nantes) Statistiques descriptives 60
61 Les ACF : exemple Sous R : la fonction acf(x) calcule et représente les ACF de la série x. Exemple : les ACF de la série des max d ozone. Chaque baton représente ρ(h) où h = Lag Lag=0 corrélation de la série avec elle-même (elle vaut toujours 1). Lag=1 corrélation de la série avec son passé immédiat (on retrouve r = 0.68). Lag=2 corrélation de la série avec la série des valeurs de l avant-veille. Lag=... etc. Remarque : les batons entre les pointillés peuvent être considérés négligeables. F. Lavancier (Univ. Nantes) Statistiques descriptives 61
62 5 Aspects temporels Représentation graphique Dépendance temporelle, la fonction d autocorrélation (ACF) Tendance et saisonnalité Estimation de la tendance Estimation de la saisonnalité Série ajustée, Série CVS (Corrigée des Variations Saisonnières) Pour aller plus loin : prévision et modélisation F. Lavancier (Univ. Nantes) Statistiques descriptives 62
63 Tendance et saisonnalité On observe généralement dans une série temporelle : une tendance, déterministe, qui représente le comportement moyen de la série au cours du temps. On la note m t. Par exemple, pour une tendance linéaire : m t = at + b. une saisonnalité, déterministe, de période T, qui représente un comportement périodique (ou saisonnier) de la série (par exemple des pics de ventes tous les mois de décembre pour une série mensuelle). On la note s t et on a : s t+t = s t, pour tout t. La connaissance de s 1,..., s T fournit le profil saisonnier. un reste aléatoire, qui contient les variations aléatoires au cours du temps, ces dernières pouvant être liées entre elles dans le temps. La tendance et la saisonnalité (avec sa période T ) sont généralement visibles sur la représentation graphique de la série. On peut également détecter leur présences sur les ACF. Voir les exemples ci-dessous. F. Lavancier (Univ. Nantes) Statistiques descriptives 63
64 Exemple : série et ses ACF PIB des USA de 1929 à 2012 Série avec tendance croissante, non linéaire. tendance croissante visible sur la série. les ACF décroissent lentement et restent non négligeables Series GDP GDP ACF Time Lag F. Lavancier (Univ. Nantes) Statistiques descriptives 64
65 Exemple : série et ses ACF Températures moyennes mensuelles à Dubuque, Iowa, de 1964 à 1975 Série avec saisonnalité de période T = 12. aspect saisonnier de période 12 visible sur la série. les ACF ont également un comportement périodique de période 12 Series Tempdub Températures ACF Time Lag F. Lavancier (Univ. Nantes) Statistiques descriptives 65
66 Exemple : série et ses ACF Concentration de CO2 mensuelle à Hawaï de 1994 à 2004 Série avec tendance et saisonnalité de période T = 12. tendance linéaire et saisonnalité de période 12 visibles sur la série. les ACF ont un comportement périodique et décroissent faiblement. Series CO2 co ACF Time Lag F. Lavancier (Univ. Nantes) Statistiques descriptives 66
67 Exemple : série et ses ACF x Max d ozone journalier à Rennes l été 2006 Série sans tendance ni saisonnalité. aucune structure visible sur la série. les ACF décroissent rapidement pour devenir négligeables Jun-06 Jul-06 Aug-06 Sep-06 Jours F. Lavancier (Univ. Nantes) Statistiques descriptives 67
68 Décomposition additive et multiplicative x On note x t la valeur de la série à l instant t, observée pour différents t. La plupart des séries observées peuvent se décomposer : de façon additive (la plus courante) : x t = m t + s t + r t co Time Time de façon multiplicative : x t = m t s t r t F. Lavancier (Univ. Nantes) Statistiques descriptives 68
69 5 Aspects temporels Représentation graphique Dépendance temporelle, la fonction d autocorrélation (ACF) Tendance et saisonnalité Estimation de la tendance Estimation de la saisonnalité Série ajustée, Série CVS (Corrigée des Variations Saisonnières) Pour aller plus loin : prévision et modélisation F. Lavancier (Univ. Nantes) Statistiques descriptives 69
70 Estimation de la tendance On peut estimer la tendance m t de deux façons. De façon paramétrique. On suppose que m t admet une forme paramétrique spécifique, par exemple m t = at + b pour une tendance linéaire, et on estime les paramètres par la méthode des moindres carrés. De façon non-paramétrique. On effectue des moyennes mobiles de la série, ce qui équivaut à la lisser : le lissage résultant estime la tendance, mais aucune formule exprimant cette tendance n est fournie. F. Lavancier (Univ. Nantes) Statistiques descriptives 70
71 Estimation paramétrique de la tendance Exemple : On considère la série du PIB aux USA. On décide d estimer la tendance m t à l aide de deux modèles paramétriques: 1 En supposant que m t est linéaire : m t = at + b. On en déduit une estimation de a et b par les moindres carrés. La droite estimée est représentée en rouge ci-dessous. 2 En supposant que m t est quadratique : m t = at 2 + bt + c. On estime de même a, b et c par les moindres carrés. La courbe estimée est représentée en vert ci-dessous. Le code R pour la tendance quadratique est donné ci-dessous. temps=as.numeric(time(gdp)) temps2=temps^2 reg=lm(gdp ~ temps + temps2) plot(gdp) lines(temps,reg$fitted.values) GDP Time F. Lavancier (Univ. Nantes) Statistiques descriptives 71
72 Estimation de la tendance par moyenne mobile La moyenne mobile de x associée aux k 1 + k coefficient a k1,..., a k2 est M(t) = k 2 où les poids somment à 1 : k 2 i= k 1 a i = 1. i= k 1 a i x t+i, t = k 1 + 1,..., n k 2, Chaque valeur x t est donc remplacée par la moyenne pondérée des valeurs autour de x t : k 1 valeurs avant, k 2 valeurs après, soit en tout k 1 + k valeurs moyennées. En pratique, M(t) se calcule pour t = k à n k 2 afin que toutes les valeurs à moyenner soient accessibles. F. Lavancier (Univ. Nantes) Statistiques descriptives 72
73 Quelques moyennes mobiles standards: - La moyenne mobile arithmétique d ordre p pour laquelle k 1 = p, k 2 = 0 et a i = 1. Elle n utilise que le passé de xt. p+1 M p(t) = 1 p i= p x t+i = 1 p + 1 p x t i, t = p + 1,..., n. Elle est utilisée en finance afin de comparer la valeur présente d une action x n (à l instant t = n) à sa tendance passée. - La moyenne mobile centrée d ordre p, pour laquelle k 1 = k 2 et si p = 2k + 1, a i = 1 p i=0 pour tout i = k,..., k M 2k+1 (t) = 1 2k + 1 (x t k + + x t+k ) si p = 2k, a k = a k = 1 2p et a i = 1 p pour i = (k 1),..., (k 1). ) M 2k (t) = 1 ( xt k 2k 2 + x t k x t+k 1 + x t+k 2 F. Lavancier (Univ. Nantes) Statistiques descriptives 73
74 Exemple M 3 : Moyenne mobile centrée d ordre 3 M 4 : Moyenne mobile centrée d ordre 4 On considère le lissage par M 3 et M 4 de la série des 9 valeurs suivantes. x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) On obtient : M 3(1) M 3(2) M 3(3) M 3(4) M 3(5) M 3(6) M 3(7) M 3(8) M 3(9) M 4(1) M 4(2) M 4(3) M 4(4) M 4(5) M 4(6) M 4(7) M 4(8) M 4(9) Exemples de calcul : M 3(2) = 1 (x(1) + x(2) + x(3)) = 1 ( ) = M 4(3) = 1 ( x(1) + x(2) + x(3) + x(4) + x(5) ) = 1 ( ) = F. Lavancier (Univ. Nantes) Statistiques descriptives 74
75 Application de M p aux données de production de bières en Australie. Plus l ordre est grand, plus le lissage est important. p = 5 p = 12 beer beer Time Time p = 36 p = 120 beer beer Time Time F. Lavancier (Univ. Nantes) Statistiques descriptives 75
76 Moyenne mobile en présence d une saisonnalité Pour estimer la tendance en présence d un saisonnalité de période T, il est conseillé d utiliser une moyenne mobile centrée d ordre multiple de T, pour atténuer l effet saisonnier. Exemple : le lissage de la série précédente (pour laquelle T = 12) donne pour M 36 (à gauche) et M 37 (à droite) : M36(Beer) M37(Beer) Time Time = Le lissage par M 37, bien que d un ordre supérieur à M 36, est parasité par l effet saisonnier initial. F. Lavancier (Univ. Nantes) Statistiques descriptives 76
77 Sour R : Pour appliquer la moyenne mobile centrée M p à la série x, on utilise la commande filter, en précisant les coefficients de la moyenne mobile. Plus précisément : si p = 2k + 1 filter(x, rep(1/(2*k+1), 2*k+1)) La commande rep(a,n) crée un vecteur contenant n fois la valeur a. si p = 2k filter(x, c(1/(4*k), rep(1/(2*k), 2*k-1), 1/(4*k))) La commande c() permet de concaténer dans un même vecteur un ensemble de valeurs, ici les 2k + 1 coefficients : 1 4k, (2k 1) fois 1 2k, et 1 4k. F. Lavancier (Univ. Nantes) Statistiques descriptives 77
78 5 Aspects temporels Représentation graphique Dépendance temporelle, la fonction d autocorrélation (ACF) Tendance et saisonnalité Estimation de la tendance Estimation de la saisonnalité Série ajustée, Série CVS (Corrigée des Variations Saisonnières) Pour aller plus loin : prévision et modélisation F. Lavancier (Univ. Nantes) Statistiques descriptives 78
79 Pour estimer la saisonnalité, on élimine au préalable la tendance de la série. On travaille donc avec la nouvelle série x t où x t = x t ˆm t si on a supposé une décomposition additive, avec ˆm t une estimation de la tendance. x t = x t/ ˆm t dans le cas d une décomposition multiplicative. Le profil saisonnier s 1,..., s T s estime à partir de x t de manière paramétrique : on suppose généralement que s t = a + b cos(2πt/t ) + c sin(2πt/t ) et les coefficients a, b et c sont estimés par moindres carrés. ou de manière non-paramétrique : Soit k = 1,..., T et soit n k le nombre d instants multiples de k parmi 1,..., n. On estime le profil saisonnier de la manière suivante: ŝ k = 1 n k 1 n k i=0 x i+kt. La série complète ŝ 1,..., ŝ n s obtient par périodicité en répétant ŝ 1,..., ŝ T. Exemple : pour une série mensuelle de période T = 12, ŝ 1 correspond à la moyenne des mois de janvier, ŝ 2 à la moyenne de mois de février, etc. F. Lavancier (Univ. Nantes) Statistiques descriptives 79
80 Estimation de la saisonnalité Exemple : Cas d une décomposition additive La tendance de la série de production de bières a été estimée avec M 36 La série moins sa tendance est représentée à gauche. Le profil saisonnier, à droite, est déduit en moyennant chaque mois. beertilde beertilde Time Mois Si x est la série sans tendance : profil=aggregate(x~cycle(x),fun=mean) F. Lavancier (Univ. Nantes) Statistiques descriptives 80
81 Estimation de la saisonnalité Exemple : Cas d une décomposition multiplicative La tendance de la série de trafic aérien a été estimée avec M 12 La série divisée par sa tendance est représentée à gauche. Le profil saisonnier, à droite, est déduit en moyennant chaque mois. AirPassengersTilde AirPassengersTilde Time Mois F. Lavancier (Univ. Nantes) Statistiques descriptives 81
82 5 Aspects temporels Représentation graphique Dépendance temporelle, la fonction d autocorrélation (ACF) Tendance et saisonnalité Estimation de la tendance Estimation de la saisonnalité Série ajustée, Série CVS (Corrigée des Variations Saisonnières) Pour aller plus loin : prévision et modélisation F. Lavancier (Univ. Nantes) Statistiques descriptives 82
83 Décomposition totale d une série En supposant que la série s écrit x t = m t + s t + r t, on peut estimer chacune des composantes: 1 On estime m t par ˆm t (de façon paramétrique ou par moyennes mobiles) 2 On estime s t à partir de x t ˆm t, ce qui donne ŝ t 3 On en déduit une estimation du reste ˆr t = x t ˆm t ŝ t Decomposition of additive time series Pour obtenir le graphe ci-contre: plot(decompose(x)) Pour récupérer la tendance : decompose(x)$trend Pour récupérer la saisonnalité : decompose(x)$seasonal Pour récupérer le reste : decompose(x)$random Pour récupérer le profil saisonnier : decompose(x)$figure random seasonal trend observed Remarque : le même type de décomposition est possible dans le cas multiplicatif avec plot(decompose(x,"multiplicative")) F. Lavancier (Univ. Nantes) Statistiques descriptives 83 Time
84 Série ajustée et série CVS La série ajustée ˆm t + ŝ t est un lissage de x t qui respecte la tendance et la saisonnalité. beer Time La série CVS (corrigée des variations saisonnières) correspond à x t ŝ t = ˆm t + ˆr t. Elle permet d analyser les variations de la série sans être influencé par l aspect saisonnier. On l utilise parfois pour réestimer m t de façon plus fine. Beer CVS Time F. Lavancier (Univ. Nantes) Statistiques descriptives 84
85 5 Aspects temporels Représentation graphique Dépendance temporelle, la fonction d autocorrélation (ACF) Tendance et saisonnalité Estimation de la tendance Estimation de la saisonnalité Série ajustée, Série CVS (Corrigée des Variations Saisonnières) Pour aller plus loin : prévision et modélisation F. Lavancier (Univ. Nantes) Statistiques descriptives 85
86 On suppose une décomposition additive : x t = m t + s t + r t, où s t est de période T. Une prévision de la série est possible grâce à la série ajustée ˆm t + ŝ t, pourvu que ˆm t ait une forme paramétrique. Exemple : si ˆm t = ât + ˆb, alors la prévision de la série en t = n + 1 est ˆx n+1 = ˆm n+1 + ŝ n+1 = â(n + 1) + ˆb + ŝ n+1 T où la dernière égalité est obtenue par périodicité de ŝ t. Application : série de CO2 à Hawaï. En noir : la série initiale, observée de 1994 à En rouge : la série ajustée ât + ˆb + ŝ t, prolongée en 2005 co2pred tempspred F. Lavancier (Univ. Nantes) Statistiques descriptives 86
87 Pour améliorer la prévision, il convient d essayer de prédire également le reste aléatoire r t, estimé par ˆr t = x t ˆm t ŝ t. Exemple : ˆr t pour la série précédente (série noire - série rouge) et ses ACF Series res res ACF Time Lag Les ACF montre que ˆr t est corrélé avec son passé. On souhaite tirer parti de cette dépendance pour prédire ˆr t et améliorer la prévision en Cela se fait en modélisant la dépendance de ˆr t, par exemple à l aide de modèles ARMA : voir le cours d économétrie. F. Lavancier (Univ. Nantes) Statistiques descriptives 87
1 Importer et modifier des données avec R Commander
Université de Nantes 2015/2016 UFR des Sciences et Techniques Département de Mathématiques TP1 STATISTIQUE DESCRIPTIVE Frédéric Lavancier Avant propos Ouvrir l application R Saisir dans la console library(rcmdr)
Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Chapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Statistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Annexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Statistique : Résumé de cours et méthodes
Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère
Traitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Statistique Descriptive Élémentaire
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier
Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Séries Statistiques Simples
1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &
TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Résumé du Cours de Statistique Descriptive. Yves Tillé
Résumé du Cours de Statistique Descriptive Yves Tillé 15 décembre 2010 2 Objectif et moyens Objectifs du cours Apprendre les principales techniques de statistique descriptive univariée et bivariée. Être
Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2014-2015.
Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2014-2015. Thèmes des séances de TD Thème n.1: Tableaux statistiques et représentations graphiques. Thème
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Introduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :
Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Leçon N 4 : Statistiques à deux variables
Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d
3. Caractéristiques et fonctions d une v.a.
3. Caractéristiques et fonctions d une v.a. MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: fonctions d une v.a. 1/32 Plan 1. Caractéristiques d une distribution 2. Fonctions
Lire ; Compter ; Tester... avec R
Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................
4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE
CHAPITRE Statistiques Population (en milliers) 63 6 6 6 Évolution de la population en France 9 998 999 3 Année Le graphique ci-contre indique l évolution de la population française de 998 à. On constate
Analyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Température corporelle d un castor (une petite introduction aux séries temporelles)
Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
IBM SPSS Statistics Base 20
IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS
Classe de première L
Classe de première L Orientations générales Pour bon nombre d élèves qui s orientent en série L, la classe de première sera une fin d étude en mathématiques au lycée. On a donc voulu ici assurer à tous
Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS
Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES
Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.
ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle
FORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Théorie des sondages : cours 5
Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : [email protected] Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur
UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1
33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est
Relation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader
Terminale STMG O. Lader Table des matières Interrogation 1 : Indice et taux d évolution........................... 2 Devoir maison 1 : Taux d évolution................................ 4 Devoir maison 1
TSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
VI. Tests non paramétriques sur un échantillon
VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases
SINE QUA NON Découverte et Prise en main du logiciel Utilisation de bases Sine qua non est un logiciel «traceur de courbes planes» mais il possède aussi bien d autres fonctionnalités que nous verrons tout
Correction du baccalauréat STMG Polynésie 17 juin 2014
Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé
Aide-mémoire de statistique appliquée à la biologie
Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Correction du baccalauréat ES/L Métropole 20 juin 2014
Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)
SPHINX Logiciel de dépouillement d enquêtes
SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil
Chapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé
Baccalauréat S/L Métropole La Réunion 13 septembre 2013 Corrigé A. P. M.. P. XRCIC 1 Commun à tous les candidats Partie A 1. L arbre de probabilité correspondant aux données du problème est : 0,3 0,6 H
Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)
Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre
Lecture graphique. Table des matières
Lecture graphique Table des matières 1 Lecture d une courbe 2 1.1 Définition d une fonction.......................... 2 1.2 Exemple d une courbe........................... 2 1.3 Coût, recette et bénéfice...........................
STATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
CAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Introduction à la statistique descriptive
Chapitre chapitre 1 Introduction à la statistique descriptive Les méthodes de la statistique descriptive (statistique déductive) permettent de mener des études à partir de données exhaustives, c est-à-dire
Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888
Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques
SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE
SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE 1 Factures de doit p. 9 Processus 1 2 Réductions sur factures de doit p. 11 Processus 1 3 Frais accessoires sur factures p. 13 Processus 1 4 Comptabilisation
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e
Table des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Localisation des fonctions
MODALISA 7 Localisation des fonctions Vous trouverez dans ce document la position des principales fonctions ventilées selon l organisation de Modalisa en onglets. Sommaire A. Fonctions communes à tous
1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Loi binomiale Lois normales
Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli
Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé
Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour [email protected] Une grande partie des illustrations viennent
Exemples d application
AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif
IBM SPSS Direct Marketing 21
IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun
LE PROCESSUS ( la machine) la fonction f. ( On lit : «fonction f qui à x associe f (x)» )
SYNTHESE ( THEME ) FONCTIONS () : NOTIONS de FONCTIONS FONCTION LINEAIRE () : REPRESENTATIONS GRAPHIQUES * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
Biostatistiques : Petits effectifs
Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 [email protected] Plan Données Générales : Définition des statistiques Principe de l
EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05
EXCEL PERFECTIONNEMENT Version 1.0 30/11/05 SERVICE INFORMATIQUE TABLE DES MATIERES 1RAPPELS...3 1.1RACCOURCIS CLAVIER & SOURIS... 3 1.2NAVIGUER DANS UNE FEUILLE ET UN CLASSEUR... 3 1.3PERSONNALISER LA
Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Précision d un résultat et calculs d incertitudes
Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................
2010 Minitab, Inc. Tous droits réservés. Version 16.1.0 Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des
2010 Minitab, Inc. Tous droits réservés. Version 16.1.0 Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des marques déposées de Minitab, Inc. aux Etats-Unis et
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
La survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Les devoirs en Première STMG
Les devoirs en Première STMG O. Lader Table des matières Devoir sur table 1 : Proportions et inclusions....................... 2 Devoir sur table 1 : Proportions et inclusions (corrigé)..................
SERIE 1 Statistique descriptive - Graphiques
Exercices de math ECG J.P. 2 ème A & B SERIE Statistique descriptive - Graphiques Collecte de l'information, dépouillement de l'information et vocabulaire La collecte de l information peut être : directe:
Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1
Premiers pas avec SES-Pegase 1 Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données www.delta-expert.com Mise à jour : Premiers pas avec SES-Pegase
La place de SAS dans l'informatique décisionnelle
La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie
1 Définition de la non stationnarité
Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles
Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061
Value at Risk 27 février & 13 mars 20061 CNAM Gréory Taillard CNAM Master Finance de marché et estion de capitaux 2 Value at Risk Biblioraphie Jorion, Philippe, «Value at Risk: The New Benchmark for Manain
Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN
Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques
Cours 7 : Utilisation de modules sous python
Cours 7 : Utilisation de modules sous python 2013/2014 Utilisation d un module Importer un module Exemple : le module random Importer un module Exemple : le module random Importer un module Un module est
Validation probabiliste d un Système de Prévision d Ensemble
Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste
Rappels sur les suites - Algorithme
DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................
Régression linéaire. Nicolas Turenne INRA [email protected]
Régression linéaire Nicolas Turenne INRA [email protected] 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R
Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement
Séquence 4 Statistiques Sommaire Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement 1 Introduction «Etude méthodique des faits sociaux par des
RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3
RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 Pour construire un graphique : On lance l assistant graphique à l aide du menu Insérer è Diagramme en ayant sélectionné au préalable une cellule vide dans
2 TABLE DES MATIÈRES. I.8.2 Exemple... 38
Table des matières I Séries chronologiques 3 I.1 Introduction................................... 3 I.1.1 Motivations et objectifs......................... 3 I.1.2 Exemples de séries temporelles.....................
Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007
Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................
La fonction exponentielle
DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction
Exercices - Polynômes : corrigé. Opérations sur les polynômes
Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)
UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
TABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne 2012. [email protected]. http ://freakonometrics.blog.free.
Actuariat I ACT2121 septième séance Arthur Charpentier [email protected] http ://freakonometrics.blog.free.fr/ Automne 2012 1 Exercice 1 En analysant le temps d attente X avant un certain événement
Arbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT
Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,
COURS CALCULS FINANCIERS STATISTIQUE
UNIVERSITÉ JOSEPH FOURIER M1 MIAGE UFR IMA COURS DE CALCULS FINANCIERS ET STATISTIQUE Serge Dégerine 4 octobre 2007 INTRODUCTION Ce document comporte trois parties consacrées à deux thèmes très indépendants
Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie
Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même
Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours
Statistique descriptive Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne Notes de cours Dernière mise à jour le mercredi 25 février 2009 1 ère année de Licence Aix & Marseille
