Outils informatiques Pour l analyse statistique Le Sphinx



Documents pareils
Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Cycle de formation certifiante Sphinx

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

SPHINX Logiciel de dépouillement d enquêtes

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Evaluation de la variabilité d'un système de mesure

Logiciel XLSTAT version rue Damrémont PARIS

OPTIMISATION À UNE VARIABLE

Traitement des données avec Microsoft EXCEL 2010

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Initiation au logiciel Sphinx

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Introduction. Préambule. Le contexte

Fonctions de deux variables. Mai 2011

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

Biostatistiques : Petits effectifs

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Rupture et plasticité

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Chapitre 3. Les distributions à deux variables

Document adopté à la 351e séance de la Commission, tenue le, 30 novembre 1990, par sa résolution COM

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Microsoft Excel : tables de données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Relation entre deux variables : estimation de la corrélation linéaire

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Lois de probabilité. Anita Burgun

Théorie des sondages : cours 5

1 Complément sur la projection du nuage des individus

INF6304 Interfaces Intelligentes

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Angles orientés et trigonométrie

ManageEngine IT360 : Gestion de l'informatique de l'entreprise

MEDIAplus elearning. version 6.6

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Master Mention Management Domaine : Sciences Juridiques, Economiques et de Gestion Spécialité Professionnelle Ingénierie des Ressources Humaines (IRH)

Statistiques Descriptives à une dimension

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

LES DIFFERENTS TYPES DE MESURE

Chapitre 1 I:\ Soyez courageux!

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Optimisation des ressources des produits automobile première

Avis de consultation

Géométrie dans l espace Produit scalaire et équations

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Plus courts chemins, programmation dynamique

Localisation des fonctions

Papier n : 4 Présentation : 17 juin 2004

Modèle de calcul des paramètres économiques

Analyse de la variance Comparaison de plusieurs moyennes

Introduction à Business Objects. J. Akoka I. Wattiau

L'analyse des données à l usage des non mathématiciens

! " # $ % & '! % & & # # # # % & (

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Le site officiel des élections au Grand-Duché de Luxembourg

Baccalauréat technologique

Économetrie non paramétrique I. Estimation d une densité

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

FONDATION QUÉBÉCOISE POUR LE PROGRÈS DE LA MÉDECINE INTERNE

362 Aides aux partenariats d'innovation

D = Taux d actualisation par période = ( (1+I) (1/A) ) - 1 NR = Nombre total de remboursements = A * DR = (1+I) INT = (1+I) DR.

Les mesures à l'inclinomètre

Management des organisations

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Statistiques à deux variables

Dans la série Les tutoriels libres présentés par le site FRAMASOFT. AGORA-Projet. système de partage d'information et de travail collaboratif

Statistique Descriptive Élémentaire

FICHE 1 Fiche à destination des enseignants

Rapport du projet CFD 2010

Séries Statistiques Simples

Les tests logiques avec Excel

Force de serrage 123 N N. Pince de préhension parallèle à 2 doigts PGN-plus 160 avec doigts de préhension spécifiques à la pièce à manipuler

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Coefficients binomiaux

Business & High Technology

Indices de référence informatifs des valeurs sousjacentes aux émissions structurées de KBC IFIMA S.A.

Les DDL. Les Attestations. (Diligences Directement Liées) Grenoble jeudi 4 juin 2009 Valence mardi 9 juin 2009 Gap vendredi 10 juin 2009

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

TD1 Signaux, énergie et puissance, signaux aléatoires

Régression linéaire. Nicolas Turenne INRA

Correction du bac blanc CFE Mercatique

COURS EN LIGNE DU CCHST Manuel du facilitateur/de l administrateur

Introduction à la Statistique Inférentielle

STATISTIQUES. UE Modélisation pour la biologie

PROTOCOLE D'ACCORD DE COOPERATION

"La démarche marketing, le système d information marketing et l étude de marché"

LA BATTERIE DU PORTABLE

données en connaissance et en actions?

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Accompagnement de projet environnement. Entreprise : Scell-it Yourself

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Able Informatique bvba Zakske 16 B-8000 Brugge Belgique Téléphone :

McAfee Security-as-a-Service

Transcription:

Outils informatiques Pour l analyse statistique Le Sphinx LICENCE L3 SOCIOLOGIQUE Matthieu BARRANDON Hervé LOCTEAU Antoine TABBONE

Présentation de l Analyse bivariée TION PRÉSENTA Mettre en évidence la présence ou l'absence d'une relation entre 2 variables (dépendent elles l'une de l'autre / coïncident elles?) => adopter une démarche scientifique à partir d'un test statistique Variables à croiser Traitement à mettre en oeuvre Test statistique Nominale vs nominale Tri croisé Test du Chi2 Nominale vs numérique Analyse de la variance Test de Fischer Numérique vs numérique Régression (1) Existence d'une relation (2) Lien moyen, fort, très fort (3) Traduction dans les faits Coefficient de corrélation et régression

Variable nominale vs variable nominale, le test de Chi 2 Comparaison des effectifs observés avec ceux que nous aurions obtenus si les variables étaient indépendantes V a r i a b l e 1 c1... cj... cm Variable 2 w1... wk... wn TC1 TCi TCm TW1 TWk TWn T ANALYSE CROISÉE : LE CHI DEUX

NALE Variable nominale vs variable nominale, le test de Chi 2 VS NALE Chi2 = Σ(effectifs théo (obs[c i,w k ])- effectifs(obs[c i,w k ]))² avec effectif théo (observation[c i,w k ])=TW k x TC i / T (n-1) x (q-1) degrés de liberté (d.d.l.) V a r i a b l e 1 c1... cj... cq Variable 2 w1... wk... wn TC1 TCi TCq TW1 TWk TWn T ANALYSE CROISÉE : LE CHI DEUX Test de Chi 2...

NALE Variable nominale vs variable nominale, le test de Chi 2 VS NALE Chi2, n d.d.l., pourcentage d'erreur autorisé pour lier ces deux variables n\erreur.995.990.975.950.100.050.025.010.005 1 0.00004 0.00016 0.00098 0.00393 2.70554 3.84146 5.02389 6.63490 7.87944 2 0.01003 0.02010 0.05064 0.10259 4.60517 5.99146 7.37776 9.21034 10.59663 3 0.07172 0.11483 0.21580 0.35185 6.25139 7.81473 9.34840 11.34487 12.83816 4 0.20699 0.29711 0.48442 0.71072 7.77944 9.48773 11.14329 13.27670 14.86026 5 0.41174 0.55430 0.83121 1.14548 9.23636 11.07050 12.83250 15.08627 16.74960 6 0.67573 0.87209 1.23734 1.63538 10.64464 12.59159 14.44938 16.81189 18.54758 7 0.98926 1.23904 1.68987 2.16735 12.01704 14.06714 16.01276 18.47531 20.27774 8 1.34441 1.64650 2.17973 2.73264 13.36157 15.50731 17.53455 20.09024 21.95495 9 1.73493 2.08790 2.70039 3.32511 14.68366 16.91898 19.02277 21.66599 23.58935 10 2.15586 2.55821 3.24697 3.94030 15.98718 18.30704 20.48318 23.20925 25.18818 ANALYSE CROISÉE : LE CHI DEUX Test de Chi 2...

RIQUE Variable nominale vs variable numérique, le test de Fischer NUMÉ VS NALE Comparaison des moyennes de chaque modalité relativement à leur dispersion F = Σ TCi ( moy(i)² moy²) card(x) card( Ω ) Σ xj² Σ TCi moy(i)² card( Ω ) - 1 card( Ω ) = q, 1 i q, 1 j card( X ) = T Variable nominale : variable explicative possède card( Ω ) - 1 d.d.l. Résidus possèdent card( X ) - card( Ω ) d.d.l. ANALYSE CROISÉE : LE TEST DE FISCHER

RIQUE Variable nominale vs variable numérique, le test de Fischer NUMÉ VS NALE n2/n1 1 2 3 4 5 6 60 120 INF 1 161.4476 199.5000 215.7073 224.5832 230.1619 233.9860 252.1957 253.2529 254.3144 2 18.5128 19.0000 19.1643 19.2468 19.2964 19.3295 19.4791 19.4874 19.4957 3 10.1280 9.5521 9.2766 9.1172 9.0135 8.9406 8.5720 8.5494 8.5264 4 7.7086 6.9443 6.5914 6.3882 6.2561 6.1631 5.6877 5.6581 5.6281 5 6.6079 5.7861 5.4095 5.1922 5.0503 4.9503 4.4314 4.3985 4.3650 6 5.9874 5.1433 4.7571 4.5337 4.3874 4.2839 3.7398 3.7047 3.6689 7 5.5914 4.7374 4.3468 4.1203 3.9715 3.8660 3.3043 3.2674 3.2298 8 5.3177 4.4590 4.0662 3.8379 3.6875 3.5806 3.0053 2.9669 2.9276 9 5.1174 4.2565 3.8625 3.6331 3.4817 3.3738 2.7872 2.7475 2.7067 10 4.9646 4.1028 3.7083 3.4780 3.3258 3.2172 2.6211 2.5801 2.5379 Pour p = 0.05 n2/n1 1 2 3 4 5 6 60 120 INF 1 39.86346 49.50000 53.59324 55.83296 57.24008 58.20442 62.79428 63.06064 63.32812 2 8.52632 9.00000 9.16179 9.24342 9.29263 9.32553 9.47456 9.48289 9.49122 3 5.53832 5.46238 5.39077 5.34264 5.30916 5.28473 5.15119 5.14251 5.13370 4 4.54477 4.32456 4.19086 4.10725 4.05058 4.00975 3.78957 3.77527 3.76073 5 4.06042 3.77972 3.61948 3.52020 3.45298 3.40451 3.14023 3.12279 3.10500 6 3.77595 3.46330 3.28876 3.18076 3.10751 3.05455 2.76195 2.74229 2.72216 7 3.58943 3.25744 3.07407 2.96053 2.88334 2.82739 2.51422 2.49279 2.47079 8 3.45792 3.11312 2.92380 2.80643 2.72645 2.66833 2.33910 2.31618 2.29257 9 3.36030 3.00645 2.81286 2.69268 2.61061 2.55086 2.20849 2.18427 2.15923 10 3.28502 2.92447 2.72767 2.60534 2.52164 2.46058 2.10716 2.08176 2.05542 ANALYSE CROISÉE : LE TEST DE FISCHER Pour p = 0.10

RIQUE NUMÉ Variable numérique vs variable numérique, le coefficient de corrélation VS RIQUE NUMÉ Coefficient de corrélation : il s'agit du cosinus de l'angle entre les v.a. centrées corr(x,y) = cos( X-X, Y-Y) -1 corr(x,y) +1, corr(x,y) -> 1 X,Y sont fortement corrélées Modèle linéaire : y j = Ψ(x j )+ε j avec Σ ε j = 0 (les résidus) et Ψ(x j ) = a x j + b Les valeurs des paramètres sont obtenues en minimisant les ε j et on obtient : a=covariance(x,y) / variance(x) et b=y a X Les résidus sont centrés, non corrélés, ni avec X, ni avec Y Note : un résidu ε j important témoigne d'un individu (x j,y j ), un couple d'observations, aberrant, il faut recommencer la régression sans lui ANALYSE CROISÉE : CORRÉLATION ET RÉGRESSION

Deux variables nominales - Illustration ON ILLUS TRATI Exemple : Fidélité x Marque tableau de bord, tableaux croisés. - NALES S DEUX Création du tableau, effectifs théoriques si variables indépendantes, écart entre les effectifs théoriques et observés, valeur du chi2 et test associé. Création du graphique AFC, interprétations. ANALYSE CROISÉE Rappel Les modalités «centrales» ne peuvent pas être interprétées Les modalités «périphériques» ont des comportements singuliers Les modalités proches sont liées statistiquement.

Comparaison de moyennes - Illustration ON ILLUS TRATI - Exemple : Dépense x Marque tableau de bord, tableaux croisés NNES DE MOYE SON COM PARAI Création du tableau, test, représentation graphique et comparaison des moyennes (disponible dans le tableau croisé uniquement) ANALYSE CROISÉE

Graphe de relation Synthèse graphique des liens statistiques entres les variables S DE RELATION GRAPHE Un outil d'aide à l'analyse Production automatique du graphe avec toutes les relations significatives entre toutes les variables de l'étude, Définition de groupes de variables proches Mise en évidence des variables influençant une variable à expliquer ANALYSE CROISÉE Formuler des hypothèses, évaluer leurs pertinences

Manipulation Étudier les relations Marque/Sécurité, Marque/Note, Marque/Puissance, LATIONS MANIPU en essayant de résumer les résultats dans un petit rapport. Dresser un graphe de relation pour la variable Marque et voir s'il y a des différences entre Hommes et Femmes. ANALYSE CROISÉE