Notes cours : Analyse de données Statistique descriptive Enseignant : M. KECHICHED Rabah



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

La classification automatique de données quantitatives

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction. Préambule. Le contexte

Chapitre 3. Les distributions à deux variables

1 Complément sur la projection du nuage des individus

Logiciel XLSTAT version rue Damrémont PARIS

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

VI. Tests non paramétriques sur un échantillon

Introduction à l approche bootstrap

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Analyse des correspondances avec colonne de référence

Relation entre deux variables : estimation de la corrélation linéaire

L'analyse des données à l usage des non mathématiciens

FORMULAIRE DE STATISTIQUES

La place de SAS dans l'informatique décisionnelle

Avant-après, amont-aval : les couples de tableaux totalement appariés

Extraction d informations stratégiques par Analyse en Composantes Principales

Projet de Traitement du Signal Segmentation d images SAR

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Chapitre 7. Circuits Magnétiques et Inductance. 7.1 Introduction Production d un champ magnétique

Analyse de la variance Comparaison de plusieurs moyennes

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Couples de variables aléatoires discrètes

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Exercice : la frontière des portefeuilles optimaux sans actif certain

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Mémo d utilisation de ADE-4

ACP Voitures 1- Méthode

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Cours de méthodes de scoring

Modélisation géostatistique des débits le long des cours d eau.

Fonctions de deux variables. Mai 2011

Une introduction aux codes correcteurs quantiques

Initiation à l analyse en composantes principales

Limitations of the Playstation 3 for High Performance Cluster Computing

Cycle de formation certifiante Sphinx

Problème 1 : applications du plan affine

M2 IAD UE MODE Notes de cours (3)

INTRODUCTION. A- Modélisation et paramétrage : CHAPITRE I : MODÉLISATION. I. Paramétrage de la position d un solide : (S1) O O1 X

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Individus et informations supplémentaires

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

CAPTEURS - CHAINES DE MESURES

INF6304 Interfaces Intelligentes

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Optimisation, traitement d image et éclipse de Soleil

Annexe A. Annexe A. Tableaux et données relatifs à la vérification par Eurocode 3 A.3

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Évaluation de la régression bornée

Séries Statistiques Simples

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Exposing a test of homogeneity of chronological series of annual rainfall in a climatic area. with using, if possible, the regional vector Hiez.

Leçon N 4 : Statistiques à deux variables

23. Interprétation clinique des mesures de l effet traitement

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Oscillations libres des systèmes à deux degrés de liberté

Représentation d une distribution

Statistiques descriptives

TP 7 : oscillateur de torsion

Conception de réseaux de télécommunications : optimisation et expérimentations

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Statistique : Résumé de cours et méthodes

TRAVAUX PRATIQUES SCIENTIFIQUES SUR SYSTÈME

10 leçon 2. Leçon n 2 : Contact entre deux solides. Frottement de glissement. Exemples. (PC ou 1 er CU)

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

1. Vocabulaire : Introduction au tableau élémentaire

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

SOMMAIRE. 1. Préambule Le calendrier Trajectoire d un objet lancé Régression linéaire...9

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Calcul intégral élémentaire en plusieurs variables

Traitement des données avec Microsoft EXCEL 2010

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Enjeux mathématiques et Statistiques du Big Data

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Ce document a été mis en ligne par le Canopé de l académie de Montpellier pour la Base Nationale des Sujets d Examens de l enseignement professionnel.

Les Cahiers QSE I) LES ENJEUX D UN SYSTÈME DE MANAGEMENT INTÉGRÉ QUALITÉ - SÉCURITÉ ENVIRONNEMENT. 1) Introduction ) Contexte...

Chapitre 5 : Flot maximal dans un graphe

TSTI 2D CH X : Exemples de lois à densité 1

La (les) mesure(s) GPS

Cours 9 : Plans à plusieurs facteurs

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Exercices Corrigés Premières notions sur les espaces vectoriels

pour la soumission de demandes d approbation d adaptations tarifaires en assurance-maladie complémentaire

SOMMAIRE MONTAGE DU COMPTEUR ET CAPTEURS...3 LE MOT DU CHEF DE PRODUIT...5 L ORGANISATION DE L ECRAN...5 LES PICTOGRAMMES UTILISES...5 LES BOUTONS...

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Equipement. électronique

SIG ET ANALYSE EXPLORATOIRE

Lois de probabilité. Anita Burgun

Quelques éléments de statistique multidimensionnelle

1 Modélisation d être mauvais payeur

Transcription:

Notes cours : Analyse de données Statistique descriptive Enseignant : M. KECHICHED Rabah Département : Sciences de la Terre et de l Univers Université 1. ANALYSE DE DONNEES STATISTIQUES 1. 1. Analyse monovariée Ce traitement permet de déterminer les paramètres statistiques de la distribution de chaque variable, de positions centrales (moyenne, le mode, etc.), et de dispersion (variance, écart type, coefficient de variation etc.) des éléments chimiques. L'histogramme d'une variable donnée visualise la répartition des effectifs dans un certain intervalle de variation prise par cette variable. L'allure générale de l'histogramme et/ou de la courbe des fréquences cumulées permet d'apprécier l'homogénéité ou l'hétérogénéité des données; ainsi que la loi de distribution des variables. 1. 2. Analyse bivariée Le traitement statistique bivarié consiste à étudier deu variables aléatoires simultanément et de déterminer la relation qui eiste entre elles, à l'aide, entre autre du calcul des coefficients de corrélation simples. Elles sont calculées pour chaque couple de variables, où celles-ci montrent clairement les relations mutuelles qui eistent entre les variables. Le coefficient de corrélation est calculé par la formule suivante : = cov(, y)/ y Où : 1

Coefficient de corrélation simple de la population ; et y : Variables ; et : Écart type des variables et y ; y cov(,y) : Covariance de variables et y. Il est à rappeler que : cov(,y) = E(y)-E().E(y) Le coefficient de corrélation est estimé par la relation suivante: R / y XY X Y S.S y Avec : X et Y : Tneurs moyennes des variables X et Y S X et S Y : Ecarts types de l échantillon statistique des variables X et Y. Les coefficients de corrélation simples sont regroupés dans un tableau récapitulatif appelé "matrice de corrélation". Le coefficient de corrélation varie entre -1 et +1. La signification de ce dernier dépend du nombre d individus utilisés pour son calcul. Une façon empirique de calculer la signification c est de calculer la valeur de : R signif 2 n 1 Où n est le nombre des données utilisées. 1. 3. Analyse multivariée : Analyse en Composantes Principales (ACP) L analyse des données multivariée désigne l ensemble des méthodes qui permettent de collecter, d organiser, d analyser et de présenter les données. Ces méthodes utilisent des techniques géométriques permettant de mettre en évidence des groupes d individus homogènes, des liens entre individus et variables, des ressemblances ou des différences entre variables et surtout de représenter les données initiales d un Tableau R (n,p) par un nombre plus petit sans perdre l information. Soit un tableau (matrice) R(n,p) où n est le nombre de lignes et p le nombre de colonnes (Tableau. 40). 2

Tableau. 1 Eemple de données d analyse chimique phosphates de Bled El Hadba. Ech P 2 O 5 CO 2 RI MgO Fe 2 O 3 1 23,84 12 5,06 3,58 0,93 2 24,24 10,34 5,65 1,02 0,93 3 26,01 9,23 3,53 1,53 0,58 Ni N 100 10 10 X(ni,pi) 10 a) Représentation géométrique Les données peuvent être représentées graphiquement en nuage de points-lignes (Représentation R p ) et/ou en nuage de point variables (Représentation dans R n ) (Fig. 1). a b Fig. 1 Représentation géométrique des données. a)- point-lignes R p, b) point-variables R n Dans R n, chaque point est définit par n coordonné. Deu points-lignes apparaissent proche l un de l autre, si les deu lignes ont des mesures semblables des variables ou individus et éloignés l un de l autre si les mesures sont différentes. En présence d un nuage de points dans un espace à n dimensions, on cherchera à saisir et comprendre la dispersion des points c'est-à-dire la signification des différents allongements des nuages de points. L analyse en Composantes Principales (ACP) est l une des plus anciennes méthodes de l analyse factorielle. Elle est utilisée pour l analyse des données qui sont représentées sous formes de tableau de n individus et p variables. Soit R (n,p), ce tableau de donnée de terme générale r ij. 3

En ACP, ce qui important, c est la forme du nuage des points par rapport au aes (droites) qui passent par le centre de gravité du nuage. Il s agit donc de rechercher les droites qui respectent au mieu l ensemble des carrés des distances entre couples : C est celles qui passent par le centre de gravité. D où la nécessité de procéder à un changement de repère en centrant les variables de la matrice de données initiales. Si de plus les unités des variables sont différentes alors il est préférables de les réduire pour supprimer l effet unité c'est-à-dire échelle: ij r Ainsi après cette transformation (changement), la matrice d inertie ne serait autre que la matrice de corrélation linéaire simple: C=X T X ij r n. j j On appel inertie du point N(I) par rapport au point P (Fig. 2), où l'epression suivant: n InP( I ) mi X i P i1 2 Xi P Xi Xi ' Xi " Fig. 2 Représentation géométrique d inertie des points Xi (i=1 à n) par rapport au point P. Après le calcul de C, il est nécessaire de calculer l inertie du nuage de point dans les principau aes d allongement désignés par Fi (i=1 à N) (Fig. 3) en diagonalisant c est à. dire en recherchant les premières valeurs propres (variances) et les vecteurs propres correspondants. 4

Fig. 3 Représentation d un nuage de points et les principau aes d allongement (Aes factoriels). La diagonalisation de la matrice C (matrice d'inertie) permet d'obtenir les p vecteurs propres U α et les p valeurs propres λ α. Le vecteur U α est connu par ces coordonnées dans l'espace R p. Les coordonnées des points X i sur les aes factorielles qui sont obtenus par: F α (i)=x i U α F k ( i) Uj X ij j 1 F α (i) est le facteur de rang α associé à l'individu i : F ( i ) est la coordonnée de l individu (échantillon) i sur l ae factoriel U. Ce dernier a autant de composantes que de variables j. Dans la pratique l inertie epliquée par l ae factoriel: T In( I) P 1 Où In (I) est l inertie totale du nuage de points. Généralement les résultats d une ACP sont représentés sous forme graphique (Fig. 4). Eemple Soit le tableau 41, qui représente les facteurs de charge, les variances : F1= 66,52%, F2= 15,24%, F3= 9,06%. Variances cumulées = F1+F2+F3=90.82% : Les 3 facteurs représentent 90.82% de l information totale. 5

Tableau. 2 Eemple de facteurs de charge. Elément F1 F2 F3 SiO 2-0,4 0,4 0,71 RI -0,92 0,24 0,06 Fe 2 O 3-0,85 0,26 0,38 CaO 0,96 0,14-0,38 P 2 O 5 0,85-0,16-0,05 Fig. 4 Représentation des facteurs de charge d une ACP normée. Les facteurs des individus (facteurs scores) sont les coordonnées des individus sur les aes factoriels représentation dans R p Leur calcul est effectué à l aide de la formule suivante : Fsc X F : Fsc 1 af 1 1P2 O5 bf1mgo cf CaO... N.B : Ce support Notes-cours est inspiré de l annee de : KECHICHED, R (2011) : Typologie géochimique et géostatistique des minerais de phosphate du gisement de phosphate de Bled El Hadba- Djebel Onk (Algérie Orientale), Annees Mém Magister, Univ Annaba, 168p. 6