Master archéologie. Stocker et exploiter des données avec Excel. Thierry Godreau

Documents pareils

Traitement des données avec Microsoft EXCEL 2010

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

Logiciel XLSTAT version rue Damrémont PARIS

Parcours FOAD Formation EXCEL 2010

Université Ibn Zohr Excel Résume de cours

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE LA FORMATION PROFESSIONNELLE. Microsoft. Excel XP

POUR ALLER UN PEU PLUS LOIN SUR UN TABLEUR. Version EXCEL

GUIDE Excel (version débutante) Version 2013

Interface PC Vivago Ultra. Pro. Guide d'utilisation

TABLEAU CROISE DYNAMIQUE

PRISE EN MAIN D UN TABLEUR. Version OPEN OFFICE

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Activité 11 : Nuage de points ou diagramme de dispersion

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons

Note de cours. Introduction à Excel 2007

COURS DE MS EXCEL 2010

Excel 2007 Niveau 3 Page 1

Microsoft Excel Présentation du tableur Excel

Formation tableur niveau 1 (Excel 2013)

EXCEL TUTORIEL 2012/2013

Les tableaux croisés dynamiques

COURS BARDON - EXCEL 2010

Statistiques descriptives sous Excel. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

MEDIAplus elearning. version 6.6

1. Introduction Création d'une requête...2

AGASC / BUREAU INFORMATION JEUNESSE Saint Laurent du Var Tel : bij@agasc.fr Word: Les tableaux.

Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B

Infolettre #18 : Les graphiques avec Excel 2010

SPHINX Logiciel de dépouillement d enquêtes

TD3 - Facturation avec archivage automatisé

Guide de démarrage Janvier 2012

Créer un tableau avec LibreOffice / Calc

Créer une base de données

Introduction : Cadkey

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Leçon N 4 : Statistiques à deux variables

UTILISATIONS D'EXCEL POUR LES SCIENTIFIQUES.

Débuter avec Excel. Excel

Mon aide mémoire traitement de texte (Microsoft Word)

Evaluation de la variabilité d'un système de mesure

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

«Manuel Pratique» Gestion budgétaire

EXCEL PERFECTIONNEMENT CALCULS AVANCES

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Page Paragraphe Modification Mise en page du document Le bouton "Format de page" est maintenant "Page"

Utilisation de l'outil «Open Office TEXTE»

Automatisation d'une Facture 4. Liste Déroulante Remises Case à cocher Calculs

FORMATION EXCEL 2010 Groupe LUCAS LOGICIA

Cours Excel : les bases (bases, texte)

Localisation des fonctions

Relation entre deux variables : estimation de la corrélation linéaire

Alain DI MAGGIO Mise à jour sur le site 11/01/10

La Clé informatique. Formation Excel XP Aide-mémoire

Installation et paramétrage. Accès aux modèles, autotextes et clip- art partagés

1 Gestionnaire de Données WORD A4 F - USB / / 6020 Alco-Connect

Réaliser un PUBLIPOSTAGE

Excel 2010 Intermediaire

GESTION DU LOGO. 1. Comment gérer votre logo? Format de l image Dimensions de l image Taille de l image 9

Styler un document sous OpenOffice 4.0

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

Formation Comptabilité SAGE L 100 FORMATION SAARI SAGE LIGNE 100 COMPTABILITE

PRÉSENTÉ PAR : NOVEMBRE 2007

LibreOffice Calc : introduction aux tableaux croisés dynamiques

Statistique Descriptive Élémentaire

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Tutoriel. Votre site web en 30 minutes

INITIATION A EXCEL Année

SOMMAIRE. Travailler avec les requêtes... 3

Chapitre 3. Les distributions à deux variables

Module 1 : Tableau de bord Excel * 2010 incl.*

Valeur cible et solveur. Les calculs effectués habituellement avec Excel utilisent des valeurs numériques qui constituent les données d'un problème.

Guide de démarrage rapide Centre de copies et d'impression Bureau en Gros en ligne

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Traitement de texte : Quelques rappels de quelques notions de base

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Présentation de lʼoutil Diagnostic Egalité sur le logiciel Excel!

Microsoft Excel. Tableur

Le modèle de données

SOMMAIRE. 1. Préambule Le calendrier Trajectoire d un objet lancé Régression linéaire...9

Découverte du tableur CellSheet

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

1. Vocabulaire : Introduction au tableau élémentaire

Centre de formation: Collège IBN BASSAM - TEMARA. Ce cours est proposé par le professeur d informatique:

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Guide pour la réalisation d'un document avec Open Office Writer 2.2

Guide d usage pour Word 2007

Créer un publipostage avec Word 2007.

les Formulaires / Sous-Formulaires Présentation Créer un formulaire à partir d une table...3

Révision salariale - Manager

DOSSIER D'ACTIVITES SUR LE PHP N 03 Créer une base de données MySQL avec PHPMyAdmin

Planifier et contrôler un projet avec Microsoft Project

Manuel de mise en page de l intérieur de votre ouvrage

A - Créer une Base de données au format dbase

Classe de première L

Manuel M O D U L E D I M P O R T A T I O N

:...2 I.6. :... 2 I.7. :... 2 I.8. :...3 I.9. :... 3 I.10. :... 3 II. 4 II.1.

Transcription:

Master archéologie Stocker et exploiter des données avec Excel Thierry Godreau

Table des matières I. Les tableaux de données dans Excel... 4 I.1. Organiser le tableau de saisie... 4 I.1.1. Un objet : une ligne... 4 I.1.2. Les colonnes... 4 I.1.3. Identification... 4 I.1.4. Les données quantitatives... 5 I.1.5. Les données qualitatives... 5 I.1.6. La saisie... 5 I.2. Cas des objets comportant des sous-objets... 6 I.2.1. Deux tables... 6 I.2.2. Lier les tables... 7 II. Calculer des statistiques...10 II.1. Les différents types de variables...10 II.2. Les statistiques de base...10 II.3. La régression linéaire...12 II.3.1. Principe...12 II.3.2. Conditions d'application...13 II.3.3. Coefficient de détermination...13 II.3.4. Calcul...14 III. Les tests statistiques...15 III.1. Principe des tests statistiques...15 III.2. Mise en œuvre d'un test...15 III.3. Réaliser les calculs avec Excel...17 III.3.1. Le test de Fisher...18 III.3.2. Le test de T Student...19 III.3.3. Le test du Khi 2...21 IV. Fiches techniques...23 Fiche 1 : Commentez une cellule...23 Fiche 2 : Régler le déplacement après validation...23 Fiche 3 : Augmenter ou réduire le nombre de décimales affichées...23 2 / 27

Fiche 4 : Saisie semi-automatique des cellules...24 Fiche 5 : Changez une colonne de place...24 Fiche 6 : Contenu de cellule...24 Fiche 7 : Référence relative et absolue...25 Fiche 8 : Régression linéaire...26 Fiche 9 : Créer une liste incrémentée...27 3 / 27

I. Les tableaux de données dans Excel I.1. Organiser le tableau de saisie I.1.1. Un objet : une ligne Chaque ligne d un tableau Excel ne doit faire référence qu à un seul objet. A faire : saisir un numéro devant chaque ligne (1, 2, etc.) : ce champ permettra à tout moment de restaurer l ordre de saisie des informations. Plus important encore, il constituera une clef unique de chaque objet du tableau. Remarque : lorsque les objets décrits le permettent, il est bien d identifier l objet et de créer une colonne Identifiant dans le tableau : cela vous permettra au besoin de compléter votre tableau avec d autres observations. Dans le cas les objets qui contiennent eux-mêmes des objets (Exemple : une tombe qui contient du mobilier), l'organisation du tableau de saisie doit être adaptée (voir paragraphe I.2). I.1.2. Les colonnes Principes Une colonne : une information Une colonne doit contenir un seul type de donnée. Le contenu de chaque cellule doit être «atomique». Si une cellule contient plusieurs informations, par exemple le type de l'objet et le matériau dont il est constitué, l'information doit être éclatée sur deux colonnes. Se réserver une colonne Commentaire pour noter les observations particulières non codifiables. Ordre Ordonnez les colonnes par ordre de saisie. Ne vous souciez pas de l analyse, il sera toujours temps de réorganiser le tableau! Fiche 5 : Changer une colonne de place. I.1.3. Identification Toute colonne doit comporter une étiquette (Ex : longueur, Couleur ). Choisissez des noms de données courts, cela évite les tableaux trop larges Dès que le type d information ou la codification (cf. Données qualitatives) de la colonne nécessite insérez un commentaire (Fiche 1 : Commentez une cellule) dans l étiquette. Ce commentaire explicitera : L unité, La précision, 4 / 27

La signification de la codification, Les choix effectués, Bref, toute information permettant de retenir et de comprendre les données saisies. I.1.4. Les données quantitatives Pour faciliter le contrôle des nombres à virgule et des dates, appliquez un format de donnée à la colonne. (Fiche 3 Augmenter ou réduire le nombre de décimales affichées). A éviter : entrer des mentions de type «aucune» ou «non visible» dans les colonnes contenant des données quantitatives : cela cause des erreurs au moment de l exploitation. I.1.5. Les données qualitatives La saisie des données qualitatives repose sur une classification établie à priori. Il faut décrire exactement la codification avant de commencer toute saisie même si celle-ci semble évidente. Lorsque la classification est nouvelle (établie spécifiquement pour la saisie en cours) : il est essentiel au bout d un certain nombre de lignes (au bout de 50 lignes) de cesser la saisie et de vérifier la validité de la classification. Remarque : il n existe pas de classification absolue tout dépend de la problématique que vous souhaitez résoudre. Il est important de choisir une codification facile à utiliser et qui limite les possibilités d erreur. Excel possède une fonction qui complète la saisie lorsque vous saisissez une seconde fois une chaîne de caractères (Fiche 4 : Saisie semiautomatique des cellules). Une codification à trois lettres avec si possible une initiale différente pour chaque catégorie donne de bons résultats. I.1.6. La saisie La saisie doit demander le moins d effort possible. Dès que l information a été relevée, il ne doit pas être nécessaire de réfléchir ou de se déplacer pour remplir le tableau. Pour être efficace la saisie doit être mécanique. Ne vous souciez pas de l exploitation de données au moment de la saisie. Une codification pourra en un instant être remplacée par des mots ou une autre codification (fonction Remplacer d Excel). En revanche, des erreurs de codification, un tableau sale, des saisies incomplètes ne pourront pas être rattrapés et nécessiteront un effort (parfois considérable) au moment de l analyse et de la représentation. 5 / 27

Voir Fiche 3 : Réglez le déplacement après validation. Conseil généraux Enregistrez fréquemment votre travail Choisissez des noms de fichiers parlant (évitez les abréviations) Quand vous avez travaillé ½ journée sur un fichier, faites-en une sauvegarde sur une clef ou sur tout autre support physique distinct de votre ordinateur. I.2. Cas des objets comportant des sous-objets I.2.1. Deux tables Au paragraphe I.1.1, nous avons établi la règle suivante : une ligne = un objet. Il arrive fréquemment que des objets étudiés comportent des sous-objets, par exemple une tombe contenant du mobilier. Si l'on souhaite enregistrer des données décrivant le mobilier : nombre, type etc. nous serons amenés à multiplier les colonnes, pour recenser les objets et leurs caractéristiques dans le tableau. Dans ce cas, on procède en deux étapes : 1. Saisie d'un tableau global comportant objets et sous-objets 2. Eclatement du tableau global en deux tableaux : un pour les objets et l'autre pour les sous-objets. Cette deuxième étape permet de satisfaire à la règle une line = un objet. Deux organisations de saisie sont possibles selon que le nombre des sousobjets est restreint (exemple : tables laminaires sur un bloc de débit) ou très variable (exemple : mobilier funéraire). Cas des sous-objets en nombre et en nombre de caractéristiques restreints La saisie est facilitée par la réplication, autant de fois qu'il y a de sous objets, des colonnes de description des sous-objets. Dans l'exemple ci-dessous, il peut y avoir jusqu'à trois tables laminaires sur un bloc. 6 / 27

Pour chacune, quatre données peuvent être relevées : longueur, largeur, inclinaison et courbure. On a donc répété trois fois, les quatre attributs. Cas des sous-objets en nombre en nombre très variable Le principe de saisie est ici de saisir les informations de l'objet principal et celles du premier sous-objet sur une ligne. Les sous-objets suivants sont saisis sous le premier sous-objet sans répétition des données d'objet. On remarque que la saisie des caractéristiques d'objet divers nécessite la définition de nombreuses colonnes. Dans les deux cas de saisie, les données sont ensuite stockées dans deux tables liées, c'est-à-dire permettant d'affecter chaque sous-objet à l'objet auquel il appartient. I.2.2. Lier les tables La répartition des données en deux tables pose le problème du lien entre les tables. Pour lier l objet et ses sous-objets, deux colonnes sont nécessaires : Dans la table des objets : une colonne identifiant de manière unique chaque objet Dans la table des sous-objets : une colonne mentionnant l objet auquel est attaché le sous-objet. Dans la table Objet : une clef primaire L information identifiant l objet de manière unique est appelée clef primaire. Un simple nombre incrémenté de ligne en ligne tient lieu de clef primaire (voir Fiche N 9 Créer une liste incrémentée) comme ci-contre la colonne Clef. Remarque : la clef primaire n a d autre objet que d identifier l objet de manière unique. En pratique, on commencera par créer, en première colonne, une liste incrémentée suffisamment longue pour n avoir pas plus à se soucier de l identification 7 / 27

Dans la table Sous-objet : une clef étrangère Dans la table des sous-objets une colonne : la clef étrangère, référence l objet auquel est lié le sous-objet. On remarque que plusieurs sous-objets peuvent être liés à un objet (c est d ailleurs pour cette raison que la table des sous-objets a été créée! ). des objets pendant la saisie. Il est évidemment essentiel que la valeur de la clef étrangère existe dans la table Objet. L inexistence signifierait qu un sous-objet ne serait lié à aucun objet existant. Remarque : cette contrainte d existence se nomme contrainte d intégrité. Il n est possible de garantir l intégrité que dans une base de données correctement paramétrée. Dans Excel, on peut créer des contrôles mais on ne peut pas éviter absolument la rupture d intégrité. Dans l illustration précédente, la colonne Num TL numérote les tables laminaires d un même bloc. Le couple {Clef Bloc ; Num TL} constitue la clef primaire de la table des tables laminaires. Rapprocher les informations de l objet et du sous-objet Dès lors que les clefs primaire et étrangère présentes respectivement dans la table principale (objet) et la table liée (sous-objet) sont correctement renseignées, la reconstruction d une table unique ou le rappel d un attribut (information d une colonne) de l objet dans la table des sous-objets ne pose pas de difficulté. Dans l exemple ci-dessous, on a souhaité rappeler la caractéristique Objectif de l objet principal dans la table des sous-objets. On a utilisé pour cela la fonction RECHERCHEV. Cette fonction recherche la valeur passée en premier paramètre dans la première colonne du tableau passé en second paramètre et ramène l information stockée dans la colonne passé en troisième paramètre. 8 / 27

Remarque : le quatrième paramètre exclut les valeurs approximatives (par exemple élément 3 quand 2 est recherché). Il est à présent possible de générer toute statistique croisant les caractéristiques du sous-objet et l information Objectif de l objet. 9 / 27

II. Calculer des statistiques II.1. Les différents types de variables Les caractères mesurés ou catégorisés constituent autant de variables. Nous avons vus plus haut que les variables sont qualitatives ou quantitatives Les variables qualitatives prennent leur valeur dans des ensembles de catégories. Par exemple, les objets trouvés sur un site de débit du néolithique vont se répartir en différentes catégories : lamelle, burin etc le type d objet est une variable qualitative. Dans les variables quantitatives, on distingue les variables discrètes et les variables continues. Les variables discrètes ont des valeurs ponctuelles, par exemple, un décompte (nombre de faces, nombres d objets ) est une variable discrète. Une variable continue n a pas de saut, il est possible de rencontrer toutes les valeurs ; les mesures de poids ou de longueur sont de ce type, on peut mesurer 181 cm, 181,2 et même 1,8111 cm. Conséquences : Si les variables discrètes définissent des catégories, les variables continues, du fait de leur éparpillement, nécessitent d être regroupées. Par exemple : longueurs de 10 à 15 mm. II.2. Les statistiques de base En présence d une série de données, il existe quelques statistiques de base permettant de donner un aperçu global de l échantillon ou de la population étudiée Remarque : la fonction Excel permettant de calculer la statistique, lorsqu elle existe, suit le nom de la statistique. Population ou échantillon On parle de population lorsqu on considère tous les objets prélevés ou recensés, par exemple, toutes les personnes d une ville. Lorsque la population devient trop nombreuse, il devient difficile d étudier tous les objets un à un ; on extrait donc un échantillon «suffisamment important» de la population. L échantillon est étudié et on étend ensuite les observations faites sur l échantillon à la population entière (inférence statistique). L échantillonnage et la validité des inférences faite sur la population obéissent à des règles mathématiques qu il est essentiel de respecter. Fréquence : nombre d observation pour une valeur d un caractère Exemple : 1 3 5 5 6 6 6 6 7 8 9 la fréquence du 5 est 2. Fréquence cumulée : dans une série ordonnée de valeurs, somme progressive des fréquences. La fréquence cumulée donne le nombre d éléments pour lesquels la variable considérée est inférieure ou égale à une valeur donnée. 10 / 27

Valeur Fréquence Fréquence cumulée 1 1 1 3 1 2 5 2 4 6 4 8 7 1 9 Remarque : la dernière fréquence cumulée est égale au nombre d éléments de la série. Médiane (MEDIANE()) : c est la valeur qui partage une série de telle manière que moitié des éléments lui sont inférieurs et l autre moitié lui sont supérieurs. Exemple 1 : 1 3 5 5 6 6 7 8 9, médiane = 6 Exemple 2 : 1 3 5 5 6 7 8 9, médiane = 5,5 Remarque : d usage intéressant en complément de la moyenne pour des distributions très dissymétriques Mode (MODE()) : Valeur d une variable la plus représentée dans une série. Exemple : 1 3 5 5 6 6 7 8 9, le mode est 6 (il peut y avoir plusieurs modes) Moyenne (MOYENNE()) : (arithmétique) : Somme des valeurs d une caractéristique divisée par le nombre de valeurs. Exemple : moyenne de la série 1 3 5 5 6 6 7 8 9 : 5,56 (soit la somme 50 divisée par le nombre de valeurs 11). Moyenne pondérée : moyenne ou les éléments n ont pas tous la même importance (poids) : Xi. Ci / Ci ) Exemple : calcul de la moyenne d un élève avec des matières ayant chacune un coefficient. On multiplie la note obtenue dans chaque matière par le coefficient de celle-ci puis on divise par la somme des coefficients. Proportion : nombre d objets partageant une caractéristique ramené à la population observée. Remarque : La proportion est souvent exprimée en pourcentage. Exemple : Dans une assemblée il y a 20 hommes sur 45 personnes. La proportion d homme est d environ 0,44 soit 44 %. Ecart moyen (ECART.MOYEN()) : Moyenne des valeurs absolues des écarts à la moyenne arithmétique. L écart moyen rend compte de la dispersion des données autour de la moyenne. 11 / 27

Variance (VARIANCEP() pour les populations entières ou VARIANCE() pour les échantillons) : La variance est la moyenne du carré des écarts à la moyenne soit : (Xi - Xm) 2 / N où Xm est la moyenne et N l effectif de la population. Remarque 1 : dans le cas des échantillons, la variance est calculée en divisant la somme des carrés des écarts par N 1 et non N. Ecart type (ECARTTYPEP() ou ECARTTYPE()) L écart type est la racine carrée de la variance. On l utilise préférentiellement car il s exprime dans la même unité que la moyenne (par exemple pour une longueur on exprime la moyenne en mètre et l écart type en mètre également, alors que la variance est exprimée en m²). Toute moyenne doit être accompagnée d un écart type. Les tableaux croisés dynamiques Avec Excel, on dispose d'un outil permettant très facilement à partir d'un tableau organisé en colonnes d'obtenir toutes les statistiques de base (moyenne, minimum, ) en global et par catégorie, et même en croisant des catégories. La forme la plus fréquente des tableaux croisés est le tableau de contingence présentant l'effectif au croisement de deux caractéristiques des objets d'une population. Le tableau croisé dynamique ci-dessous présente les effectifs rencontrés par type de support et objectif de production extrait de la liste de données ci-contre. II.3. La régression linéaire II.3.1. Principe La régression linéaire est appliquée lorsque deux variables quantitatives continues semblent liées l une à l autre par une relation linéaire. Une relation linéaire entre x et y (les variables) est de la forme y = a.x + b où a et b sont des réels. Faire une régression linéaire consiste à calculer la droite la plus proche de chacun des points (x,y). 12 / 27

II.3.2. Conditions d'application Le fait que deux variables soient liées par une relation linéaire est un cas très particulier. Avant de procéder à un calcul, on représentera toujours le nuage des points dans un graphique d abscisse x et d ordonnée y pour vérifier si les données observées peuvent faire l objet d une régression linéaire. Les illustrations ci-dessous (Créées avec le logiciel «R») montrent quelques cas où la régression linéaire n est pas applicable ou qui nécessitent un traitement préalable. Absence de relation évidente Une relation semble exister mais n est visiblement pas linéaire Des données excentrées font apparaître une linéarité factice Des données aberrantes faussent la régression Remarque : la régression linéaire n est qu un cas particulier de régression de régression polynomiale (y = an.x n + an-1.x n-1 + a1.x + a0). II.3.3. Coefficient de détermination Une régression linéaire peut être plus ou moins pertinente. Plus les points sont resserrés autour de la droite, mieux la droite de régression décrit le nuage de points (illustration ci-dessous à gauche) plus les points sont distants moins bonne est la représentation du nuage donnée par la droite de régression (illustration ci-dessous à droite). 13 / 27

On peut calculer un indicateur de la qualité de la régression, le coefficient de détermination r 2 (ou r le coefficient de corrélation). Ce coefficient rend compte de l'éparpillement des données autour de la droite : Proche de 1 : les points sont serrés sur la droite; les variables observées sont fortement corrélées Proche de 0 : le nuage est diffus; les variables observées sont faiblement (voire pas du tout) corrélées. Remarque : aucune droite de régression ne peut être communiquée sans son coefficient de détermination. II.3.4. Calcul Le plus simple pour obtenir la droite de régression dans Excel est de représenter le nuage de points (Graphique type Nuage de points) et de demander l'affichage d'une courbe de régression et de son équation (Fiche 8 Régression linéaire). N.B. Les fonctions ORDONNEE.ORIGINE (le b de l'équation y = a.x + b), PENTE (le a) et COEFFICIENT.DETERMINATION (ou COEFFICIENT. CORRELATION) vous fournissent directement les informations de la courbe de régression (voir Fiche 8). 14 / 27

III. Les tests statistiques Avertissement : la suite n'est en aucun cas un cours sur les tests statistiques. Son objet est de présenter les possibilités offertes par Excel pour réaliser des tests. Les paragraphes exposant les notions sont des tentatives d'éclairer ce sujet par une approche plus intuitive, quitte à s'écarter un peu de la rigueur des exposés mathématiques. III.1. Principe des tests statistiques Considérons des individus issus d'une même population (par exemple : les lamelles produites par une industrie ou les personnes d'une certaine classe d'âge). Les objets ou individus issus de cette population ont des caractéristiques communes. Même si d'un individu à l'autre on observe des différences, les individus présentent des similitudes, par exemple, une répartition des tailles proches d'une certaine moyenne. Dans la pratique, on travaille le plus souvent sur des échantillons c'est-à-dire des sous-ensembles de la population. Différents échantillons de taille suffisamment importante prélevés dans la même population présentent des caractéristiques moyennes proches de la population entière. Examinons à présent le cas où, en présence de deux échantillons, on souhaite déterminer s'il est vraisemblable que ces échantillons appartiennent à la même population. On a procédé à des mesures de chaque objet des deux échantillons. On compare à présent les mesures effectuées sur chacun des échantillons. Cette comparaison nous place devant l'alternative suivante : Les caractéristiques des échantillons sont suffisamment proches pour que les deux échantillons puissent appartenir à la même population. Les caractéristiques des échantillons sont si différentes qu'il est peu probable que ces échantillons appartiennent à la même population. Dans certains cas (extrêmes) l'intuition nous permet de trancher cette alternative mais le plus souvent il est nécessaire d'utiliser une méthode mathématique rigoureuse, ce sont les tests statistiques. III.2. Mise en œuvre d'un test Il existe différents types de test selon la nature des comparaisons effectuées (comparaison de moyenne, de variance, de répartition des objets en classes, ) et en fonction des caractéristiques des échantillons (nombre d'objets, répartition des mesures par exemple normalité ou non). Il est essentiel avant d'appliquer un test de vérifier ses conditions d'application. Si une condition n'est pas remplie, on utilise un autre test. Si les échantillons ne permettent pas de tester (effectifs insuffisants, répartition des mesures aberrante) on renonce à effectuer le test. 15 / 27

Avant de réaliser un test il est essentiel de s'assurer que la question posée est pertinente et les mesures ou dénombrements effectués permettent de lui apporter une réponse. La réalisation d'un test comporte les étapes suivantes : 1. La formulation de l'hypothèse L'hypothèse est toujours formulée comme une alternative. Une formulation fréquente est "La différence observée entre les deux échantillons n'est pas significative" (i.e. les deux échantillons peuvent appartenir à la même population). L'alternative est "Les échantillons sont significativement différents". L'hypothèse testée est notée H0 (son alternative est notée H1). 2. Le choix du seuil de signification Les tests ne donnent pas un résultat absolu mais toujours avec un certain niveau de fiabilité dit seuil de signification. Le seuil de signification est la probabilité de commettre une erreur en rejetant l'hypothèse H0 alors qu'elle est vraie (erreur souvent notée erreur ). Par exemple, dans un test de comparaison de moyenne, plus le seuil est petit, plus la différence observée doit être grande pour qu'on conclue à une différence significative. Si le seuil assez grand (par exemple 0,05) un écart faible permet de rejeter l'hypothèse de non différence des moyennes mais avec que probabilité assez forte de se tromper. En revanche, un seuil faible de 0,001 nécessite qu'on observe un écart beaucoup plus important pour conclure à une différence significative. Le seuil est toujours mentionné dans la conclusion (étape 5). Si l'hypothèse est invalidée on dira par exemple "L'hypothèse doit être rejeté au seuil de 0,001" ou encore "La différence de moyenne est significative avec 1 chance sur mille de se tromper". Si l'hypothèse est acceptée on dira "La différence n'est pas significative au seuil de 1 pour mille". Remarque : l'erreur est commise lorsqu'on retient l'hypothèse alors qu'elle est fausse. Les erreurs et évoluent de manière opposé : plus l'une augmente plus l'autre diminue et réciproquement. 3. Le choix du test et calcul Le type de test étant identifié (comparaison de moyenne, de distribution etc ), on choisit le test à effectuer en fonction des caractéristiques des échantillons. On applique les calculs suivant la méthode décrite dans les manuels et on lit dans les tables de distribution des probabilités associées à chaque test. Excel comporte des fonctions permettant de calculer directement les probabilités d'écart pour les tests les plus fréquents ou au moins les fonctions permettant d'associer 16 / 27

4. La décision En fonction des résultats des calculs (et selon la technique utilisée de la lecture des tables) on accepte ou rejette l'hypothèse formulée. Reste à donner une interprétation à cette décision. Attention! Un test peut aboutir à un résultat significatif mais seule une connaissance du sujet permet de dire s'il est signifiant. III.3. Réaliser les calculs avec Excel Excel permet de réaliser tous les calculs d'un test. Par ailleurs, Excel possède les fonctions permettant d'éviter de recourir aux tables habituelles, de lecture un peu pénible. Enfin, certaines fonctions fournissent directement un résultat interprétable. Dans la suite, nous examinerons quelques exemples de tests décrits dans l'ouvrage "Pratique archéologique statistique et graphique" de Robert Chenorkian (Editions errance et adam). Une des principales difficultés lorsqu'on débute dans la mise en œuvre des tests réside dans la lecture du résultat calculé. Dans la suite j'ai privilégié une lecture en termes de probabilité. Dans le cas fréquent des hypothèses de non différence, la probabilité se lit ainsi : si elle est faible, cela signifie qu'il est peu probable que des échantillons issus d'une même population présentent un tel écart. En reformulant : il est probable que la différence constatée est due au fait que les échantillons appartiennent à des populations différentes. A contrario, une probabilité forte indique que la différence observée entre les échantillons peut être imputée à la variabilité de l'échantillonnage, et donc, qu'on ne peut exclure que les échantillons testés soient bien issus de la même population. Le seuil fournit la valeur de la probabilité permettant de prendre la décision quant à la validité de l'hypothèse de non différence: Probabilité calculée > Seuil : on accepte hypothèse Probabilité calculée < Seuil on rejette l'hypothèse Les fonctions d'excel TEST.STUDENT, TEST.F ou l'utilitaire d'analyse renvoient directement la probabilité sans passer par les étapes de calcul de la statistique puis de lecture des tables. L'outil Utilitaire d'analyse Cet outil très puissant permet de réaliser quelques tests parmi les plus usuels, sans aucun calcul, juste en indiquant à l'outil les plages contenant les valeurs et en précisant le seuil. Pour rendre disponible l'utilitaire d'analyse :* Dans le menu Outil, cliquez sur Macros complémentaires 17 / 27

Cochez Utilitaire d'analyse L'utilitaire est à présent disponible dans le menu Outils. III.3.1. Le test de Fisher Le test de Fisher permet de tester l'égalité de 2 variances de deux échantillons. Le rapport des deux variances est comparé à la valeur limite lue dans la table de Fisher établie pour le seuil choisi. La valeur limite peut être obtenue à l'aide la fonction INVERSE.LOI.F. Les paramètres de cette fonction sont les degrés de liberté des deux échantillons et le seuil. La valeur obtenue, 1,835 est supérieure au rapport des variances donc celles-ci ne sont pas significativement différentes. La fonction TEST.F fournit directement la probabilité de l'écart des variances à partir des plages contenant les valeurs, ici 0,138. C'est la probabilité que la différence de variance constatée entre les deux échantillons apparaisse entre des échantillons issus d'une même population. La probabilité est ici supérieure au seuil de 0,05 donc hypothèse d'égalité des variances ne peut être rejetée. 18 / 27

Utilisons à présent l'utilitaire d'analyse en choisissant Test d'égalité des variances (F-Test) Après validation nous obtenons : Test d'égalité des variances (F-Test) Variable 1 Variable 2 Moyenne 49,5 53,4666667 Variance 11,3548387 16,9471264 Observations 32 30 Degré de liberté 31 29 F 0,67001558 P(F<=f) unilatéral 0,13788296 Valeur critique pour F (unilatéral) 0,5449774 L'utilitaire d'analyse fournit directement la probabilité : 0,138. III.3.2. Le test de T Student Le test de Student est utilisé lorsqu'on souhaite vérifier l'hypothèse d'égalité de la moyenne de deux échantillons. Trois fonctions existent pour le test de Student : TEST.STUDENT : Renvoie la probabilité associée à un test T de Student. LOI.STUDENT : Renvoie la probabilité d'une valeur de la statistique de Student. Cette fonction évite de recourir à une table. INVERSE.LOI.STUDENT : Renvoie la valeur de la statistique T en fonction de la probabilité. Attention : il y a plusieurs conditions pour appliquer un test de Student (effectif, égalité ou non des variances). Le tableau ci-dessous présente la fenêtre d'application de l'utilitaire d'analyse en choisissant le Test d'égalité des espérances : deux observations de variances différentes (espérance et moyenne sont synonymes). 19 / 27

Remarquez qu'on entre l'hypothèse formulée dans cet écran. Ici l'hypothèse est que la différence des moyennes est nulle. Le tableau résultat est le suivant : Test d'égalité des espérances: deux observations de variances différentes Variable 1 Variable 2 Moyenne 53,46666667 49,625 Variance 16,94712644 10,17741935 Observations 30 32 Différence hypothétique des moyennes 0 Degré de liberté 55 Statistique t 4,088386784 P(T<=t) unilatéral 7,13578E-05 Valeur critique de t (unilatéral) 1,673033694 P(T<=t) bilatéral 0,000142716 Valeur critique de t (bilatéral) 2,004044291 On lit la probabilité très faible ici de 0,0001427. Le seuil de significativité choisi étant, par exemple, de 0,001 (seuil hautement significatif), la probabilité calculée lui est inférieure. Cela indique que la différence observée entre les moyennes est très improbable et qu'en conséquence il convient de rejeter l'hypothèse de non différence. Test unilatéral ou bilatéral La nature bilatérale ou unilatérale d'un test dépend de la façon dont est formulée l'hypothèse. En prenant l'exemple où l'on souhaite déterminer si une valeur mesurée v s'écarte d'une valeur attendue v0, deux cas sont possibles : Dans le cas où v peut être supérieur où inférieur à v0. v sera différent de v0 s'il lui significativement inférieur ou significativement supérieur : le test est bilatéral 20 / 27

Si on dispose d'information permettant d'exclure que v soit inférieur (resp. supérieur) à v0, la différence ne peut prendre qu'une seule forme : v est supérieur (resp. inférieur) à v0 : le test est unilatéral. III.3.3. Le test du Khi 2 Le test du Khi 2 permet de juger de la similarité des répartitions des effectifs d'objets classés suivant deux critères. La base du test est un tableau de contingence. Les critères de description sont ici la structure étudiée et le type d'objet collecté. On cherche Le tableau 1 contient les dénombrements effectués pour chacune des catégories. Il fournit les totaux par catégorie d'objet et par structure Le tableau 2 calcule les effectifs attendus en fonctions des effectifs totaux (remarquez : l'utilisation des $ dans la formule) Le tableau 3 établit l'écart entre les effectifs observés et les effectifs attendus (utilisation de la métrique Khi 2). La cellule G15 contient la somme des écarts. C'est ce résultat qui est lu dans la table. Remarque : avec 2,81 c'est l'effectif des lamelles à dos pour la structure 1 qui s'écarte le plus de la valeur attendue. La fonction KHIDEUX.INVERSE fournit la valeur limite de l'écart pour un seuil de 5% et 2 degrés de liberté ( (3 1) * (2 1) où 3 et 2 sont respectivement le nombre de catégories et le nombre de structures comparées. La valeur admissible pour l'écart des deux distributions est 5,99. La différence calculée étant de 6,22 on en conclut une différence significative entre les deux échantillons avec 5% d'incertitude. 21 / 27

La fonction TEST.KHIDEUX utilisée en cellule G19 renvoie directement la probabilité de l'écart entre effectifs mesurés et effectifs attendus. C'est la probabilité pour que des échantillons issus d'une même population présentent un tel écart. Cette probabilité étant plus faible que le seuil choisi de 0,05 on en conclut que ces échantillons n'appartiennent pas à la même population avec 5% d'incertitude. 22 / 27

Fiches techniques IV. Fiches techniques Fiche 1 : Commentez une cellule Pour ajouter un commentaire à une cellule Cliquez droit sur la cellule Sectionnez Insérer un commentaire Cliquez en dehors de la bulle pour valider le commentaire Les cellules commentées sont signalées par un signet rouge placé dans le coin haut droit. Pour afficher, modifier ou supprimer cliquez droit sur la cellule. Fiche 2 : Régler le déplacement après validation Lorsque vous validez une saisie avec la touche Entrée, Excel vous place sur une des cellules mitoyennes. Si vous saisissez en ligne il est intéressant de placer le curseur à droite après validation. Pour cela : Outils > Options > Onglet Modification Cochez la case Déplacer la sélection après validation Sélectionnez Droite dans la liste Sens Fiche 3 : Augmenter ou réduire le nombre de décimales affichées Pour régler le nombre de décimales dans une colonne : Sélectionnez la colonne (cliquez sur l en-tête rectangle gris comportant la lettre identifiant la colonne) Format > Cellule > Onglet Nombre Sélectionnez Nombre dans la liste Réglez le Nombre de décimales Remarque : si seuls des chiffres sont sélectionnés, utilisez les boutons de la barre d outil Mise en forme. 23 / 27

Fiches techniques Souvenez-vous que l application d un format ne change en aucun cas la valeur de la cellule. La cellule H5 contient toujours 3,25 et non 3,3 (arrondi d'affichage). Fiche 4 : Saisie semi-automatique des cellules Dans l exemple à droit, il suffit de saisir «B» pour qu Excel termine lui-même la saisie. Si cette facilité ne fonctionne pas : Outils > Options > Onglet Modification Cochez Saisie automatique des valeurs de cellule Attention : la fonction ignore les valeurs saisie quand le tableau est interrompu par une ligne vide. Remarque : lorsque vous saisissez «Lame» Excel ne sait pas s il s agit de Lame ou Lamelle. Choisissez des codifications différentes dès la première lettre. Souvenez-vous qu en saisie il importe d être rapide et fiable avant tout! Fiche 5 : Changez une colonne de place 1. Sélectionnez la colonne à bouger 2. CTRL X (couper) 3. Sélectionnez la colonne avant laquelle vous souhaitez faire l insertion 4. CTRL + (insérer) Avant Après Fiche 6 : Contenu de cellule Les cellules peuvent contenir des valeurs ou des formules Les valeurs sont les textes, nombres ou dates. Par défaut les nombres et les dates sont cadrés à gauche et les textes à gauche. Les formules :(introduites par le signe «=») ce sont des «calculs». Dans l exemple ci-dessous la cellule D1 (cellule active, son contenu 24 / 27

Fiches techniques s affiche dans la barre de formule). La valeur de la cellule D1 est égale à la valeur de la cellule B1 multipliée par 3. La saisie des valeurs se fait naturellement pour les trois premières cellules on a saisi respectivement : «Texte», «10,9» et «10/08/2005». C est Excel qui reconnaît le format de la saisie et en déduit le type d information (texte, nombre ou date). Remarquez le cadrage Standard (par défaut) des contenus : le texte est cadré à gauche, les dates et les nombres à droite. La valeur de la cellule D1 étant numérique, elle apparaît à droite. Un conseil : conservez le cadrage par défaut en saisie. Fiche 7 : Référence relative et absolue Par défaut lorsqu une cellule (initiale) comportant une formule est copiée dans une autre cellule (destination) les références de cellule sont décalées du nombre de lignes et du nombre de colonnes séparant la cellule initiale de la cellule de destination. Dans l exemple ci-dessus la formule écrite en E2 et copiée en E3. Les références sont décalées d une ligne. De telles références sont dites relatives. Dans certain cas on souhaite, figer certaines références. Un exemple très commun est le calcul d une proportion d un effectif par rapport au total. Pour éviter que la référence de la cellule contenant la somme ne soit décalée lors de la copie de la formule, on a verrouillé la ligne (5) en la faisant précéder d un $. On a rendu la référence de ligne absolue. On peut verrouiller la ligne, la colonne ou les deux. Lorsque vous saisissez une référence, utilisez la touche F4 pour faire défiler toutes les possibilités de verrouillage de référence. Pour appliquer les références absolues 1. Ecrivez la formule dans la première cellule 2. Assurez-vous bien qu'elle est correcte 3. Recopiez-la dans les cellules situées en dessous (ou à droite) 4. Contrôlez la formule de la première cellule recopiée en vous posant la question : y-a-t'il une référence de ligne ou de colonne qui a été modifiée indûment par la copie? 5. Si oui, mettez un $ devant la référence à verrouiller puis reprenez à l'étape. 25 / 27

Fiches techniques Remarque : lorsque qu'une formule doit être recopiée en bas puis à droite, on valide la recopie dans une direction puis, lorsque la copie est correcte, on valide la copie dans l'autre direction. Fiche 8 : Régression linéaire Dans cette fiche on utilise les données issues de deux plages C2:C31, D2:D31 représentant respectivement les largeurs et longueurs d'une série d'objet. La colonne largeur est placée à gauche de la longueur pour que le grapheur d'excel la prenne comme abscisse (comportement par défaut). Pour représenter la longueur en fonction de la largeur : Sélectionner les 2 plages de données, étiquettes incluses (si le tableau est isolé, il suffit de se placer sur une cellule du tableau) Cliquez sur le bouton de la barre d'outils Standard Sélectionnez le Type de graphique Nuage de points puis le Sous-type de graphique illustré ci-contre (points non reliés). Selon que vous souhaitez définir chaque paramètre du graphique, cliquez sur Suivant > ou Terminer. Remarque : par défaut Excel fait débuter l'échelle des axes à 0. Pour ne représenter que les plages utiles sur chaque axe : cliquez droit sur l'axe des abscisses (resp. ordonnées) puis sur Format de l'axe Dans l'onglet Echelle, changez la valeur Minimum. Pour doter le graphique d'une droite de régression : Cliquez droit sur un des points du nuage Sélectionnez Ajouter une courbe de tendance Le type Linéaire est sélectionné par défaut Dans l'onglet Options, cochez Afficher l'équation sur la graphique et Affichez le coefficient pour faire figurer ces informations sur le graphique. OK Après positionnement de l'équation à droite, illustré en page suivante. vous obtenez le graphique Vous pouvez obtenir les informations de la droite de régression directement en utilisant les fonctions d'excel. 26 / 27

Fiches techniques Fiche 9 : Créer une liste incrémentée Pour créer une liste incrémentée Saisissez deux valeurs différentes dans deux cellules adjacentes. Et sélectionnez les deux cellules comme illustré ci-contre. Remarque : la différence entre les valeurs définira le pas d incrémentation, à dire le nombre qu il faut ajouter pour obtenir la valeur suivante. Placez le pointeur de la souris sur le carré noir situé dans le coin bas et droite de la sélection. Le curseur doit prendre la forme suivante. Cliquez-glissez dans le sens d extension de la liste. 27 / 27