C3 : Manipulations statistiques



Documents pareils
Les fonctions de CALC

Logiciel XLSTAT version rue Damrémont PARIS

Partie 1. Fonctions plus complexes dans Excel. Fonctions Si(), Et(), Ou() et fonctions imbriquées. Opérateurs logiques. I.1.

Valeur cible et solveur. Les calculs effectués habituellement avec Excel utilisent des valeurs numériques qui constituent les données d'un problème.

Annexe commune aux séries ES, L et S : boîtes et quantiles

Introduction à l approche bootstrap

Statistiques Descriptives à une dimension

Traitement des données avec Microsoft EXCEL 2010

Utiliser des fonctions complexes

Modèle de calcul des paramètres économiques

LES GENERATEURS DE NOMBRES ALEATOIRES

TABLE DES MATIERES. C Exercices complémentaires 42

Séance 0 : Linux + Octave : le compromis idéal

Cours Modélisation et Programmation avec tableur

1. Vocabulaire : Introduction au tableau élémentaire

CAPTEURS - CHAINES DE MESURES

Automatisation d'une Facture 4. Liste Déroulante Remises Case à cocher Calculs

Application 1- VBA : Test de comportements d'investissements

1.6- Génération de nombres aléatoires

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Leçon N 4 : Statistiques à deux variables

EXCEL. Isabelle Langlois

Microsoft Excel. Tableur

I. Introduction aux fonctions : les fonctions standards

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Régression linéaire. Nicolas Turenne INRA

POKER ET PROBABILITÉ

Relation entre deux variables : estimation de la corrélation linéaire

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Simulation de variables aléatoires

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Chapitre 3. Les distributions à deux variables

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

1. Introduction Création d'une requête...2

Comment tracer une droite représentative d'une fonction et méthode de calcul de l'équation d'une droite.

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

TSTI 2D CH X : Exemples de lois à densité 1

Correction du baccalauréat ES/L Métropole 20 juin 2014

Chapitre 6 : Fonctions financières et d amortissement

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

POUR ALLER UN PEU PLUS LOIN SUR UN TABLEUR. Version EXCEL

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

La simulation probabiliste avec Excel

Évaluation de la régression bornée

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

Cours 7 : Utilisation de modules sous python

Maîtriser l'utilisation des outils bureautiques. Maîtriser le logiciel de traitement de texte - Word. Maitriser le logiciel tableur - Excel

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

LE TABLEUR OPENOFFICE CALC : CONTRÔLES DE FORMULAIRES ACCÈS AUX BASES DE DONNÉES

Evaluation de la variabilité d'un système de mesure

EXCEL PERFECTIONNEMENT CALCULS AVANCES

IMPORTATION, CRÉATION, MANIPULATION, EXPORTATION DE DONNÉES STATISTIQUES

Découverte du tableur CellSheet

Statistiques 0,14 0,11

3. Caractéristiques et fonctions d une v.a.

Parcours FOAD Formation EXCEL 2010

Raisonnement par récurrence Suites numériques

Statistique Descriptive Élémentaire

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

LES DECIMALES DE π BERNARD EGGER

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Développements limités. Notion de développement limité

C est quoi un tableur?

Chapitre 1 Régime transitoire dans les systèmes physiques

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

données en connaissance et en actions?

NOS FORMATIONS EN BUREAUTIQUE

Correction du bac blanc CFE Mercatique

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Nathalie Barbary SANSTABOO. Excel expert. Fonctions, simulations, Groupe Eyrolles, 2011, ISBN :

Structures algébriques

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Séries Statistiques Simples

Théorie des sondages : cours 5

NOTATIONS PRÉLIMINAIRES

Mesurer les altitudes avec une carte

Initiation à la programmation en Python

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

FORMULAIRE DE STATISTIQUES

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Statistiques à une variable

Pascal Weber - Expert en organisation

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Classe de première L

Note de cours. Introduction à Excel 2007

Recherche dans un tableau

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R

Transcription:

C3 : Manipulations statistiques Dorat Rémi 1- Génération de valeurs aléatoires p 2 2- Statistiques descriptives p 3 3- Tests statistiques p 8 4- Régression linéaire p 8 Manipulations statistiques 1

1- Génération de valeurs aléatoires Fonction de génération de base et construction de générateurs La fonction ALEA() renvoie un nombre aléatoire tiré uniformément dans [0;1]. A partir de cette fonction simple, il est possible de construire différents générateurs aléatoires. Soit par exemple une cellule nommée a qui contient une valeur numérique positive, une cellule nommée b qui contient une valeur numérique positive telle que b>a. Dans ce cas, la fonction a*alea() renvoie un nombre dans [0;a] En continuant, on a (b-a)*alea() qui renvoie un nombre dans [0;b-a] Enfin, la fonction (b-a)*alea()+a renvoie un nombre dans [a;b] Génération de nombres entiers En première approche, pour tirer des valeurs entières, on utilise le générateur de valeurs réelles. Par exemple, pour tirer un nombre entier dans [N;M], on commence par nommer une cellule N qui contient la valeur de la borne inférieure, une cellule M qui contient la valeur de la borne supérieure. Comme fonction de tirage aléatoire d'un nombre entier, on peut proposer : ARRONDI((M-N)*ALEA()+N) qui tire une valeur aléatoire dans [N;M] et arrondit ensuite cette valeur à l'entier le plus proche. Une telle fonction est cependant biaisée, étudions l'évolution de ARRONDI((M-N)*ALEA()+N) en fonction de la valeur de (M-N)*ALEA()+N : La valeur de (M-N)*ALEA()+N est dans : [N;N+0.5[ Valeur de ARRONDI((M-N)*ALEA()+N) N [N+0.5;N+1.5[ N+1 [N+1.5;N+2.5[ N+2...... [M-1.5;M-0.5[ M-1 [M-0.5;M] M On remarque que la taille de l'intervalle qui permet d'obtenir N est 0.5, de même que la taille de l'intervalle qui permet d'obtenir M. En revanche, la taille de l'intervalle permettant d'obtenir K entier dans ]N;M[ est 1. Donc, le générateur aléatoire ARRONDI((M-N)*ALEA()+N) ne produit pas une distribution uniforme sur les entiers. Pour produire une distribution uniforme, on part d'un tirage dans l'ensemble [N-0,5;M+0,5] : les arrondis des valeurs tirées dans cet Manipulations statistiques 2

ensemble sont des entiers dans [N;M]. Le générateur : ARRONDI((M-N+1)*ALEA()+N-0.5) permet de faire le tirage uniforme d'entiers dans [N;M]. Les générateurs d'excel Les générateurs construits proposés dans les paragraphes précédents recoupent des outils d'excel. En effet, non seulement on dispose du générateur de base ALEA(), mais également d'une fonction aléatoire qui permet de tirer des nombres entier dans un intervalle : ALEA.ENTRE.BORNES(2;5) renvoi des entiers tirés au hasard uniformément dans [2;5]. Construction d'un générateur de valeurs Gaussiennes-La méthode de Box-Mueller Une méthode permet de générer des valeurs aléatoires gaussiennes à partir d'un générateur uniforme. Il s'agit de la méthode de Box Mueller. Celle-ci consiste à tirer des valeurs uniformes. Pour un couple x, y de valeurs réelles tirées uniformément dans [ 1;1], en posant s=x 2 y 2, et si s 1, alors les valeurs : s v 0 = x 2 ln s et s v 1 = y 2 ln s sont à la base d'une distribution gaussienne centrée réduite. Par suite, il est possible de générer des tirages aléatoires pour n'importe quelle gaussienne : cf a*n(0,1)+b. Disposer d'un générateur de valeurs aléatoires s'avère nécessaire pour la simulation de processus, les simulations Monte-Carlo etc. 2- Statistiques descriptives Les moments Excel propose une série de fonctions qui permettent d'obtenir les moments de base d'une distribution. On passe une plage de valeurs en paramètres : =MOYENNE(A2:A14) (ou plusieurs plages =MOYENNE(A2:A14;B2;8)). De la même manière, on peut utiliser les fonctions : ECARTYPE VAR pour la variance KURTOSIS D'autres caractérisations classique des distributions : Manipulations statistiques 3

MEDIANE MODE : renvoie la valeur la plus fréquence d'une plage de données. COEFFICIENT.ASYMETRIE MOYENNE.HARMONIQUE Covariance et coefficient de corrélation D'autres coefficients d'évaluation statistique : COVARIANCE : calcul le coefficient de COVARIANCE entre deux séries selon la formule classique : n cov X, Y = x i X y i Y i=1 COEFFICIENT.CORRELATION : calcule le coefficient de corrélation entre deux séries. CoeffCorr X,Y = Cov X, Y X Y Calcul de distributions à partir de données disponibles Pour obtenir une distribution, il existe plusieurs solutions. On en présente deux en parallèle : l'utilisation de la fonction NB.SI qui a été vu dans le cours précédent et l'utilisation de la fonction FREQUENCE : ces deux fonctions produisent un résultat équivalent. Pour la fonction de fréquence, on donne comme premier paramètre la plage des valeurs dont on veut obtenir la distribution et comme second paramètre une plage de valeurs qui détermine la distribution. Par exemple, on suppose avoir la liste des valeurs dont on veut obtenir la distribution dans la plage A1:A300 et la série des valeurs qui déterminent les intervalles dans B1:B11. Dans ce cas, on rentre la formule matricielle =FREQUENCE(A1:A300;B1:B11), on a introduite une telle formule dans la colonne C. Si par exemple on a mis une série de valeurs aléatoires tirées entre 8 et 9 dans la colonne A (=(9-8)*ALEA()+8), alors : Manipulations statistiques 4

On constate qu'en C2, on a l'ensemble des valeurs entre B2 et B1, qu'en C3, on a l'ensemble des valeurs entre B3 et B2 etc. Pour l'autre manière de faire la distribution : on introduit =NB.SI($A$1:$A$300;"<"&B1) dans E1, =NB.SI($A$1:$A $300;"<"&B2) dans E2 etc. Ensuite, dans F2, on met E2-E1, dans F3, on met E3-E2 etc. On obtient donc la même distribution dans la colonne C et dans la colonne F. D'autres fonctions statistiques La fonction QUARTILE. Cette fonction prend deux arguments : une plage de données et une option. Le paramètre d'option peut prendre les valeurs 0, 1, 2, 3 ou 4. Pour 0, la fonction renvoie la valeur minimale. Pour 1, la fonction renvoie la valeur telle que le quart des valeurs sont plus petites, le reste des valeurs étant plus grandes. Pour 2, la fonction renvoie la médiane. Pour 3, la fonction renvoie la valeur telle que un quart des valeurs lui sont supérieures. Pour 4, la valeur renvoie la valeur maximale de la distribution. La fonction CENTILE fonctionne de la même manière que QUARTILE, elle prend en premier paramètre une plage de données et en second paramètre une valeur comprise entre 0 et 1. Soit para2 le second paramètre. La fonction renvoie la valeur V telle qu'une part para2 des valeurs de la plage de données sont inférieures à V, le reste étant supérieur. La fonction GRANDE.VALEUR prend deux paramètres : une plage de données et un entier K, elle renvoie la Kème plus grande valeur de la plage de donnée. De la même manière, il existe une fonction PETITE.VALEUR pour renvoyer la Kème plus petite valeur. Information sur les distributions classiques Excel donne accès à une série de distributions classiques. Pour chacune de ces distributions, le logiciel Manipulations statistiques 5

propose à la fois une fonction permettant, à partir d'une valeur, d'établir sa probabilité, de manière cumulée (ensemble des valeurs inférieures) ou la valeur associée en fonction de la fonction de distribution classique. Par exemple, pour savoir quelle est la probabilité associée à la valeur 2 pour une gaussienne centrée réduite : =LOI.NORMALE(2;0;1;FAUX) Les paramètres fonctionnent de la sorte : 2 est la valeur x pour laquelle on veut connaître la valeur par la fonction de probabilité. 0 est la moyenne de la gaussienne qu'on utilise 1 est l'écart-type de la gaussienne qu'on utilise FAUX signifie que l'on veut la valeur de la fonction de distribution et non pas la somme des f(x) pour tout x inférieur à 2 (la fonction de répartition). Pour une gaussienne centrée réduite, on peut directement utiliser LOI.NORMALE.STANDARD : en lui passant une valeur x*, on obtient la somme des f(x) pour x<x*. Tracer une distribution de probabilité devient alors assez simple. On intruduit : et on obtient : Manipulations statistiques 6

0,45 0,4 0,35 0,3 0,25 0,2 0,15 Série1 0,1 0,05 0-6 -4-2 0 2 4 6 D'autres distributions de probabilité classiques sont utilisables de la même manière (à voir à chaque fois leur paramétrage dans l'aide associée à chaque fonction) : LOI.BETA LOI.BINOMIALE LOI.EXPONENTIELLE LOI.F LOI.GAMMA LOI.HYPERGEOMETRIQUE LOI.KHIDEUX LOI.POISSON LOI.STUDENT LOI.WEIBULL Pour la plupart de ces fonctions, il est également possible d'obtenir l'inverse de la distribution : ie pour une probabilité, il est possible de déterminer la valeur x qui donne cette probabilité par la fonction de distribution. Par exemple, on veut savoir quelle est la valeur x qui donne la probabilité 0,3 par la loi normale : =LOI.NORMALE.INVERSE(0,3;0;1) : 0,3 est la probabilité pour laquelle on veut connaître la valeur qui donne cette probabilité par la fonction de distribution Manipulations statistiques 7

0 est la moyenne de la loi normale utilisée 1 est l'écart type de la loi normale utilisée 3- Tests statistiques http://www.bibmath.net/dico/index.php3?action=affiche&quoi=./c/chideuxtest.html On propose une feuille d'exemple pour un test du CHI-DEUX dans une feuille jointe. Voire le livre et les feuilles qui sont sur le CD. Parler de la fonction PEARSON, parler des renvois de valeur de test. INTERVALLE.CONFIANCE : renvoie l'intervalle de confiance pour la moyenne d'une population TEST.F : à partir de deux ensembles de valeurs, donne la probabilité que la probabilité soit la même. TEST.KHIDEUX TEST.STUDENT TEST.Z 4- Regressions Excel propose un certain nombre de fonctions reposant sur la régression linéaire : des fonctions de prévision, des calculs de tendance etc... Fonction de base pour la régression On se place dans le cas suivant : dans la colonne A, de A1 à A300, on a une série de valeurs pour une variable explicative X, dans la colonne B, de B1 à B300, on a une série de valeurs pour la variable expliquée Y. On suppose que Y=a*X+b et on veut approximer les coefficients a et b. Excel résout ce problème en utilisant la méthode classique des moindres carrés ordinaires. Pour obtenir les coefficients de la régression, on utilise la fonction DROITEREG. Cette fonction prend 4 paramètres dont 3 qui sont optionnels. Le premier paramètre est la plage contenant les y_connus, soit les valeurs connues de la variables expliquées. Si aucun autre argument n'est spécifié, le logiciel utilisera des valeurs de la variable Manipulations statistiques 8

explicative par défaut (1, 2, 3, 4 etc). Le troisième argument possible est soit VRAI ou omis et dans ce cas, le logiciel fera une régression de la forme Y=a*X+b, soit il est FAUX et dans ce cas, le logiciel fera une régression Y=aX (c'est à dire que b sera fixé à 0). Enfin, le 4ème argument est soit FAUX, soit VRAI. S'il est fixé à VRAI, la machine calculera des statistiques complémentaires sur la regression. Le résultat de la fonction est une matrice de régression contenant deux colonnes (une colonne pour le paramètre a, une colonne pour le paramètre b) et contenant 5 lignes si on a demandé le calcul de statistiques complémentaires, 1 ligne sinon. Un exemple de régression vous est proposé dans le classeur C3_TestRegression.xsl. Si on demande l'affichage de statistiques supplémentaires : En première ligne, on a les estimations pour les paramètres a et b En seconde ligne : les valeurs d'erreur type pour l'estimation de a et de la constantes En troisième ligne : le coefficient de détermination r² : ce coefficient est entre 1 (pour une régression parfaite) et 0. En deuxième colonne et troisième ligne : le coefficient d'erreur type pour la valeur y estimée. En quatrième ligne : la statistiques F ou valeur F observée en première colonne, le nombre des degrés de liberté en seconde colonne. En cinquième colonne : la somme de regression des carrés en première colonne, la somme résiduelle des carrés en seconde colonne. Soit le tableau suivant pour le cas d'une régression linéaire à deux paramètres. Estimation a Erreur Type a Coefficient détermination Statistique F Somme de régression des carrés. Estimation b Erreur Type b Erreur type y Degrés de liberté Somme résiduelle des carrés Régression linéaire : le cas de plus d'une variable explicative Il est possible de vouloir faire une régression linéaire selon un schéma : N Y = a i X i b plutôt que selon un schéma i=1 Y =a X b Dans ce cas, le deuxième paramètre de la fonction DROITEREG ne doit pas être une plage de cellules d'une colonne unique, mais une plage de cellules comprenant plusieurs colonnes. Dans ce cas, si l'option Statistiques est à VRAI lors Manipulations statistiques 9

du calcul de la fonction, la matrice de retour contiendra deux lignes de N+1 colonnes, N étant le nombre des colonnes de la matrice, et trois lignes de 2 colonnes. Soit (attention à l'ordre des coefficients estimés) : Estimation a4 Estimation a3 Estimation a2 Estimation a1 Estimation b Erreur Type a4 Erreur Type a3 Erreur Type a2 Erreur Type a1 Erreur Type b Coefficient détermination Statistique F Somme de régression des carrés Erreur type y Degrés de liberté Somme résiduelle des carrés. Un exemple de telle régression est proposée sur le classeur C3_TestRegression.xsl Autres fonctions utilisant la régression linéaire La fonction TENDANCE : cette fonction permet le calcul de valeurs à partir d'une tendance linéaire. La fonction PENTE renvoie la pente obtenue à partir d'une régression linéaire. Enfin, la fonction ORDONNEE ORIGINE calcule le point auquel une droite doit croiser l'axe des ordonnées à partir d'une régression linéaire. La fonction LOGREG : une autre régression que la régression linéaire On ne développe pas l'utilisation de cette fonction qui est identique à la fonction DROITEREG. Manipulations statistiques 10