STRUCTURE DES TABLEAUX DE DONNEES... 2

Documents pareils
Bien choisir sa variété de maïs ensilage

Fiche technique n 1 : le logement construction des boxes.

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

P.L.U. Plan Local d'urbanisme PRESCRIPTION D'ISOLEMENT ACOUSTIQUE AU VOISINAGE DES INFRASTRUCTURES TERRESTRES DOCUMENT OPPOSABLE

L inégale répartition de l énergie solaire est à l origine des courants atmosphériques

Item 169 : Évaluation thérapeutique et niveau de preuve

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

LE MONITORING DE LA BIODIVERSITE EN SUISSE. Hervé LETHIER, EMC2I

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Principes généraux de la modélisation de la dispersion atmosphérique

RÉSUMÉ. Mots-clés: blé variété microflore des semences, combat

Le bien-être animal : fiction ou réalité?

Fiche Technique. Filière Maraichage. Mais doux. Septembre 2008

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Placettes vers de terre. Protocole Fiche «Description spécifique» Fiche «Observations»

23. Interprétation clinique des mesures de l effet traitement

Sorgho grain sucrier ensilage L assurance sécheresses

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Statistiques Descriptives à une dimension

Leçon N 4 : Statistiques à deux variables

Installations classées pour la protection de l'environnement Campagne de mesure de bruit SOMMAIRE I. OBJET DE L ETUDE... 3

Latitude N Longitude E Altitude 376 m RÉSUMÉ MENSUEL DU TEMPS DE JANVIER 2014

Aide à l Utilisation du site «Mon Monitoring»

VITICULTURE 2012 V 12 / PACA 02 STRATEGIE D APPLICATION DU CUIVRE EN VITICULTURE

Fonctions de plusieurs variables

Thermodynamique (Échange thermique)

Travaux d adaptation du logement pour les personnes âgées

...3. Utiliser l'application Paramètres Description. Compatibilité. Déconnexion à jour le Parrot Flower Power

CE QU IL FAUT SAVOIR PARTICIPATION À UN ESSAI CLINIQUE SUR UN MÉDICAMENT

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

Simulation centrée individus

ÉVALUATION DU TYPE DE DOMMAGE CAUSÉ PAR LA PUNAISE PENTATOMIDE VERTE, ACROSTERNUM HILARE (SAY) SELON LE DÉVELOPPEMENT DES FRUITS

Etude de faisabilité

guide immobilier Tout savoir pour se loger ou investir

Les textes et règlements

Chapitre 02. La lumière des étoiles. Exercices :

Associations Dossiers pratiques

SOMMAIRE I. INTRODUCTION 4 II. SOURCES D INFORMATION 5

Recherche sur les appartements intelligents destinés aux personnes présentant une déficience intellectuelle

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

CHOU BIOLOGIQUE. Evaluation d aménagements floristiques sur la répartition intra-parcellaire des auxiliaires

Calculs Computional fluide dynamiques (CFD) des serres à membrane de Van der Heide

MESURES de BRUIT. Chantier A63 Rechargement

Infestation par Dipylidium caninum,

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Institut Informatique de gestion. Communication en situation de crise

de l air pour nos enfants!

PHOTO PLAISIRS. La Lumière Température de couleur & Balance des blancs. Mars 2011 Textes et Photos de Bruno TARDY 1

2014 Plantes d intérieur du monde entier. Qualité / Prix / Choix chaque chaque. chaque

ACOUSTIQUE 3 : ACOUSTIQUE MUSICALE ET PHYSIQUE DES SONS

LE RÉFRIGÉRATEUR PRÊT À INSTALLER

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Le remplacement d un tube fluo T8 par un tube LED dans les écoles : la synthèse pour le directeur

QUI SOMMES-NOUS? Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, disposant ou non d une structure de veille dédiée.

JEUNE CONSEIL DE MONTRÉAL

MEDRIA 2013 DOSSIER DE PRESSE MEDRIA INVESTIT LA SANTÉ ANIMALE ET LANCE SON APPLICATION MOBILE

V112-3,0 MW. Un monde, une éolienne. vestas.com

Alarme domestique- Présentation

GUIDE DE MISE EN ŒUVRE D UN SYSTÈME DE DÉTECTION EXTÉRIEURE ASSOCIÉ À UNE VIDÉOSURVEILLANCE

ÉJECTEURS. CanmetÉNERGIE Juillet 2009

Valérie Roy-Fortin, agr. Bio pour tous! - 6 mars 2015

AA-SO5 KIDA/GSOV/VAMDC

Influence du changement. agronomiques de la vigne

AGROBASE : un système de gestion de données expérimentales

RAPPORT COMPLET D'ETUDE DUALSYS

- un Sigma DP1 Quattro (

Fertiliser le maïs autrement

Bancs publics. Problématiques traitées : FICHE

TEMPÉRATURE DE SURFACE D'UNE ÉTOILE

SERIE 1 Statistique descriptive - Graphiques

Observatoire Economique et Statistique d Afrique Subsaharienne

RESULTATS DE L ESSAI VARIETES D ORGES D HIVER EN AGRICULTURE BIOLOGIQUE CAMPAGNE

SUIVI CINETIQUE PAR SPECTROPHOTOMETRIE (CORRECTION)

CHAPITRE 6 : LE RENFORCEMENT DU MODELE PAR SON EFFICACITE PREDICTIVE

Traits fonctionnels : concepts et caractérisation exemples des prairies Marie-Laure Navas, Eric Garnier, Cyrille Violle, Equipe ECOPAR

CONFÉRENCE. Grande culture biologique et semis direct. Les essais Rodale. Conférence présentée au cégep de Victoriaville, le 28 février 2013

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Bilan d activité 2013 de la surveillance des pollens en Poitou-Charentes

«SERVICES D INGENIERIE»

NOP: Organic System Plan (OSP) / EOS: Description de l Unité Information et documents requis

CORRIGES Plan de la séance

Les bases de données Les systèmes d informations

La drépanocytose. Sikkelcelziekte (Frans)

Evaluation de cépages résistants ou tolérants aux principales maladies cryptogamiques de la vigne

Grille de planification Expédition météo. Spécialiste de la cartographie Graffiti de ce que l équipe sait de la météorologie (10 minutes).

Décrets, arrêtés, circulaires

LTE dans les transports: Au service de nouveaux services

HERBIER NUMERIQUE COLLABORATIF DE MAURICE. enseignants des établissements à programme français de Maurice

TP 2: LES SPECTRES, MESSAGES DE LA LUMIERE

II. REVOD Plongée à l ordinateur. Septembre Plan de l exposé

Chapitre 6 : coloniser de nouveaux milieux

Moyens de production. Engrais

I. BILAN 2013 ET PROSPECTIVE 2014

«Poursuivre au-delà de BEEST : une approche fonctionnelle basée sur les traits de vie des espèces en relation avec l habitat».

Station Météo Sans Fil avec Température / Hygrométrie, Alerte Gel et Horloge Radio Pilotée Modèle : BAR388HG

Sciences de la vie et de la Terre

CHAPITRE 2. Les variables

Ressources pour l école élémentaire

LE TRAVAIL EN HAUTEUR

Transcription:

STRUCTURE DES TABLEAUX DE DONNEES... 2 1.Tableau à une ou deux entrées fixes... 2 2. Tableaux complets et incomplets... 4 3.Tableaux structurés et tableaux non structurés... 4 DONNEES QUANTITATIVES ET QUALITATIVES... 8

STRUCTURE DES TABLEAUX DE DONNEES 1 De façon typique, le type d étude envisagé produit un tableau de données à deux entrées, généralement d assez grandes dimensions. Nous adopterons la notation générale X pour désigner ce tableau, et les éléments qui le composent seront indicés de la façon suivante : Dans la suite du cours, ce tableau de données sera défini comme une matrice, de dimensions n x p. D un point de vue statistique, il peut être considéré comme une table de contingence. 1.Tableau à une ou deux entrées fixes Distinguons deux catégories de problèmes susceptibles de produire un tableau de données présentant les caractéristiques définies ci-dessus: une dimension du tableau est fixée a priori, la seconde étant fonction de l échantillonnage, les deux dimensions sont fixées a priori. 1. L exemple de l anthropologiste illustre la première catégorie de tableau. Au départ, les mesures qu il effectue sont définies : chaque mâchoire sera caractérisée par une série de descripteurs (je préfère ce terme de façon à ne parler de variable que pour désigner la caractéristique numérique mesurée), qui correspondront, par convention, aux colonnes du tableau : p descripteurs. Chaque observation réalisée ajoutera une ligne au tableau, que nous appellerons par convention un objet. Il y aura donc d autant plus de lignes au tableau que l échantillon comprendra d objets. 1 P. Dagnélie. L'analyse statistique à plusieurs variables

2. Envisageons maintenant une autre expérience, qui consiste à étudier le comportement du porcelet en fonction de son environnement d élevage. L expérimentateur définit d une part un ensemble de comportements qu il peut distinguer par son observation de l animal : il mange, il dort, il se roule par terre, il est apathique, agressif, curieux, il mord, il grogne, et d autre part un ensemble de caractéristiques de son environnement : il fait chaud, l éclairage est permanent, les animaux ont trop peu d espace, la litière est souillée, il n y a pas de litière, il y a des objets pour attirer son attention Les descripteurs comportementaux constitueront une entrée du tableau, les descripteurs environnementaux constitueront l autre entrée. Dans ce cas, le nombre de lignes et de colonnes du tableau sont fixées dès le départ, et les observations consistent à mesurer la fréquence des comportements observés dans les différents environnements.

2. Tableaux complets et incomplets Certains types d expériences génèrent naturellement des tableaux complets, d autres des tableaux incomplets. Hormis un problème de donnée manquante accidentel, les deux types d expériences décrites ci-dessus font partie de la première catégorie. Envisageons à présent une expérience menée en clinique, au cours de laquelle on suit un certain nombre de patients (objets) pour une série de paramètres cliniques (pression sanguine, globules blancs, urée, cholestérol, réflexes ) pour différentes périodes : une période d observation ( descripteurs notés A1, A2 ), une période préopératoire (descripteurs notés B1, B2 ), une période postopératoire ( descripteurs notés C1, C2 ) Par principe, cette expérience va générer un tableau incomplet, car une série de patients seront opérés d urgence et n auront pas été caractérisés avant l opération, d autres ne seront pas opérés, d autres éventuellement ne survivront pas à l opération. 3.Tableaux structurés et tableaux non structurés Dans le cadre de ce cours, nous nous limiterons essentiellement à l analyse de tableaux complets, dont une seule dimension est fixée par la définition de l expérience. Parmi ce type de tableaux, nous pouvons encore définir une série de catégories, suivant la structure qui peut être dégagée au sein des lignes et/ou des colonnes : 1- les descripteurs sont subdivisés en plusieurs groupes 2- les objets sont subdivisés en plusieurs groupes 3- il n y a aucune structure dans le tableau 1. Envisageons une étude au cours de laquelle on a mesuré, pour une série d années (objets), plusieurs variables météorologiques (descripteurs) : pluviosité, insolation, température moyenne en juillet et le rendement observé pour une culture de maïs, en moyenne pour la région considérée, exprimé en kg/ha.

Dans cet exemple, deux type de descripteurs sont envisagés : une variable dépendante, le rendement, et un groupe de variables indépendantes, les variables météorologiques. Le but de l expérience est ici d établir une relation entre la variable dépendante et les variables indépendantes, dans le but de pouvoir prédire le rendement, en fonction des données climatiques. Le type d analyse à envisager pour analyser les données est la régression multiple, qui est une généralisation de la régression à deux variables. Ce type d approche peut également être généralisé à un ensemble de variables dépendantes, à mettre en relation à un autre ensemble de variables indépendantes. On parlera alors d un système d équations de régression simultanée. Le tableau associé à ce type de données aura la forme générale suivante : D autres approches qui sont une généralisation de la notion de corrélation, sont associées à ce type de problème. Le coefficient de corrélation multiple permet d apprécier l intensité de la relation qui unit une variable dépendante et un groupe de variable indépendantes. Le coefficient de corrélation partielle permet de déterminer l intensité de la relation qui unit deux variables, abstraction faite de la relation qui les lie chacune à une troisième. Enfin le coefficient de corrélation canonique permet d apprécier l intensité de la relation qui unit un groupe de variables dépendantes et un groupe de variable indépendantes.

2. Envisageons une expérience au cours de laquelle on veut comparer les moyennes de différentes catégories de poissons (objets) vivants dans différentes conditions de température, quant à la longueur, le poids et la fécondité des individus (descripteurs). Les objets sont donc répartis en différentes catégories, qui sont des échantillons représentatifs de chacune de ces populations. La technique appropriée pour analyser les données est une technique d inférence, soit une généralisation du test de t (deux populations) (T 2 ), soit une généralisation de l analyse de la variance, à plusieurs variables (MANOVA). Une autre possibilité est que les objets soient répartis en différents groupes, mais que leur répartition entre ces groupes soit inconnue. Le but de l expérimentateur est d obtenir une classification des objets. Envisageons que l on cherche à établir une typologie des cours d eaux sur base de leur peuplement en invertébrés benthiques. En considérant l abondance des différentes espèces (descripteurs), dans les différentes stations (objets), on établira une classification (cluster analysis) des objets, en déterminant des groupes distincts de stations semblables. Si enfin on dispose d un certain nombre d objets, caractérisés par différents descripteurs, et répartis dans différents groupes connus, le problème peut se poser de classer des individus nouveaux dans un de ces groupes, en fonction de leur plus grande ressemblance avec les individus constituant les groupes. Il s agit alors d un problème de classement, et les techniques appropriées sont les techniques d analyse discriminante.

3. Enfin, une dernière catégorie d analyse se rapporte aux tableaux dans lesquels on ne considère aucune structure a priori ni au niveau des descripteurs, ni au niveau des objets. Cette catégorie répond essentiellement aux analyses que nous avons qualifiées de «génératrices d hypothèses» dans notre introduction. Le but de l expérimentateur est essentiellement de structurer ces données de façon à pouvoir en obtenir une représentation synthétique la plus compréhensible possible, afin de pouvoir les visualiser et les comprendre. Deux techniques se distinguent essentiellement, l analyse en composantes principales, plus spécialement développée pour l analyse de tableaux dont une seule entrée est fixée, et l analyse des correspondances, pour l analyse de tableaux dont les deux entrées sont fixées.

DONNEES QUANTITATIVES ET QUALITATIVES Les mesures expérimentales peuvent générer des données qualitatives ou quantitatives, selon la nature des variables envisagées. Parfois l expérience est conçue de telle façon qu elle implique les deux types de mesure. Envisageons que nous entreprenions de caractériser un grand nombre de variétés de haricots par un maximum de paramètres, afin d en établir une classification qui permettra par la suite de sélectionner la variété la mieux adaptée à être cultivée dans une région déterminée. Les descripteurs vont caractériser d une part les paramètres de l environnement dans laquelle la variété se développe le mieux : altitude, latitude, ensoleillement, humidité, pluviosité, nature du sol et des caractéristiques du plant de haricot : durée de floraison, hauteur du plant, nombre de graines Mais par ailleurs d autres facteurs devront être pris en considération, par exemple parce que dans tel pays d Amérique latine, les indigènes ne mangeront jamais des haricots à grains blancs Envisageons donc également les descripteurs suivants : présence de points colorés sur la graine, couleur de la graine, orientation de la tige Ceci sont les variables qualitatives. Pour être incorporées dans une analyse numérique, elles devront nécessairement être codées, chaque variable posant un problème spécifique à l expérimentateur : présence de points colorés sur la graine : codé par une variable binaire (non : 0, oui : 1) orientation de la tige : codé par une variable ordinale (0 : tige droite, 0.5 : tige légèrement courbée; 1 : tige très courbée) couleur de la graine: codé par un ensemble de variables disjonctives brun 1 0 0 noir 0 1 0 pourpre: 0 0 1 brun&noir 0.5 0.5 0