Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Documents pareils
Quelques éléments de statistique multidimensionnelle

La classification automatique de données quantitatives

Introduction au datamining

Introduction au Data-Mining

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction au Data-Mining

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Logiciel XLSTAT version rue Damrémont PARIS

Identification de nouveaux membres dans des familles d'interleukines

Introduction à l approche bootstrap

Analyse dialectométrique des parlers berbères de Kabylie

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Complet Intuitif Efficace. Références

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Apprentissage Automatique

Extraction d informations stratégiques par Analyse en Composantes Principales

Apprentissage statistique dans les graphes et les réseaux sociaux

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

1 - PRESENTATION GENERALE...

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Annexe commune aux séries ES, L et S : boîtes et quantiles

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Classe de première L

INTRODUCTION AU DATA MINING

Relation entre deux variables : estimation de la corrélation linéaire

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

MODIFICATIONS DES PRINCIPES DIRECTEURS CONCERNANT LA RÉDACTION DES DÉFINITIONS RELATIVES AU CLASSEMENT

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Principe d un test statistique

Spécificités, Applications et Outils

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

1. Vocabulaire : Introduction au tableau élémentaire

Travailler avec les télécommunications

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Séries Statistiques Simples

Pourquoi l apprentissage?

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

INF6304 Interfaces Intelligentes

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Corefris RAPPORT ANNUEL Annexe 3 : La hausse des prix de l immobilier est-elle associée à une «bulle» de crédit en France?

Travaux pratiques avec RapidMiner

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

données en connaissance et en actions?

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Chapitre 3 : INFERENCE

Extraction des Connaissances à partir des Données (ECD)

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Statistique Descriptive Élémentaire

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

N SIMON Anne-Catherine

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Améliorer les performances du site par l'utilisation de techniques de Web Mining

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Les algorithmes de fouille de données

Arbres binaires de décision

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Introduction à la méthodologie de la recherche

(VM(t i ),Q(t i+j ),VM(t i+j ))

IBM SPSS Direct Marketing 21

TABLE DES MATIERES. C Exercices complémentaires 42

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Université de Bangui. Modélisons en UML

Rapport d'analyse des besoins

VI. Tests non paramétriques sur un échantillon

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

4. Résultats et discussion

Trois approches du GREYC pour la classification de textes

5. Apprentissage pour le filtrage collaboratif

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Une Démarche pour la sélection d outils de cartographie des processus métiers

SPHINX Logiciel de dépouillement d enquêtes

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Correction du baccalauréat STMG Polynésie 17 juin 2014

Big Data : Risques et contre-mesures

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Cours de Génie Logiciel

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Laboratoire 4 Développement d un système intelligent

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Optimisation des ressources des produits automobile première

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Introduction à la relativité générale

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Master européen en traduction spécialisée. Syllabus - USAL

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

LES MODELES DE SCORE

Transcription:

Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population décrite par un ensemble de caractères dont les modalités sont des variables numériques continues. Elle ne traite donc que de données quantitatives. Analyse Factorielle des Correspondances (AFC) : développée par Benzecri (1969), l analyse des correspondances est une méthode dédiée au traitement de certains tableaux de données particulières, appelés tableaux de contingence. Elle «permet d observer les éventuelles relations existant entre deux variables nominales. Le tableau de contingence (dit aussi de dépendance, ou tableau croisé) est obtenu en ventilant une population selon deux variables nominales. L ensemble des colonnes du tableau désigne les modalités d une variable et l ensemble des lignes correspond à celles de l autre variable. De ce fait, les lignes et les colonnes, qui désignent deux partitions d une même population, jouent des rôles symétriques et sont traités de manière analogue.» (Lebart, 2004) Apprentissage supervisé : l apprentissage supervisé consiste à inférer un modèle de prédiction à partir d un ensemble d apprentissage, c'est-à-dire plusieurs couples de la forme {observation, étiquette}, où chaque étiquette dépend de l'observation à laquelle elle est associée. Un algorithme d'apprentissage supervisé a pour but de déterminer une fonction s'approchant au mieux de la relation liant les observations et les étiquettes à partir de l'ensemble d'apprentissage uniquement. Cette fonction doit par ailleurs posséder de bonnes propriétés de généralisation et ainsi être capable d'associer une étiquette adéquate à une observation qui n'est pas dans l'ensemble d'apprentissage. Apprentissage non supervisé : l apprentissage non supervisé consiste à inférer des connaissances sur des classes sur la seule base des échantillons d apprentissage, et sans savoir a priori à quelles classes ils appartiennent. Contrairement à l apprentissage supervisé, on ne dispose que d une base d entrées et c'est le système qui doit déterminer ses sorties en fonction des similarités détectées entres les différentes entrées (règle d'auto organisation). Arbres de décision : souvent employés en fouille de données, les arbres de décision permettent de répartir une population d individus (textes ici) en groupes homogènes, selon un ensemble de variables discriminantes (morphosyntaxiques et lexicales dans nos analyses) et en vue d un objectif déterminé. Ils produisent une représentation graphique d une procédure de classification : la présence et la position d un attribut dans l arbre indiquent son importance dans le processus de classification ainsi que la classe favorisée par ce dernier. En ce sens, les arbres de décision présentent l intérêt d être intuitifs et 378

facilement interprétables. Dans nos expérimentations, c est l algorithme de classification supervisée C4.5 que nous avons utilisé. Boostrap (rééchantillonnage) : l épreuve du bootstrap (Efron, 1979 et Efron et Diaconis 1981) est un test extrêmement sévère pour évaluer la stabilité d une structure. Elle consiste à faire de l inférence statistique sur de «nouveaux» échantillons tirés à partir d un échantillon initial. Dans le cadre de notre travail, on a utilisé la méthode du bootstrap pour «perturber le corpus de 224 articles de la façon suivante : on place les 224 titres dans une urne, et l on tire, avec remise, 224 fois un titre au hasard. Dans la série de 224 éléments obtenus, certains titres n apparaissent pas, d autres apparaissent deux fois ou plus (en moyenne, environ 70% des titres sont présents à l issue du tirage). Le corpus ainsi perturbé est une réplication du corpus initial. D autres réplications sont construites (une trentaine suffit dans ce contexte), et l analyse de l ensemble des réplications définit des halos autour de chaque point, halos qui sont matérialisés par des ellipses de confiance.» (Lebart, rapport de thèse) Cartes de Kohonen (p. 156) : C est dans le début des années 80 que T. Kohonen a proposé la méthode des cartes auto-organisatrices (SOM, Self-Organizing Maps), qu on présente généralement comme un cas particulier des réseaux de neurones. L algorithme de Kohonen est un algorithme de classification qui regroupe les observations en classes, en respectant la topologie de l espace des observations. Une notion a priori de voisinage entre classes est ainsi définie. On suppose généralement que les classes sont disposées sur une grille rectangulaire aux mailles déformables dans laquelle les voisins de chaque classe sont naturellement définis ; en d autres termes, on construit une représentation bidimensionnelle d une distribution multidimensionnelle et on dispose d une représentation graphique unique des données dans l espace de sortie, ce qui présente un intérêt indiscutable lorsqu il s agit d observer un nombre important de données Dans la mesure où elles sont capables de s étirer et d épouser plus étroitement le nuage de points, les cartes de Kohonen peuvent être considérées comme un équivalent qualitatif et non linéaire de l ACP. Classification Ascendante Hiérarchique (CAH) : La CAH est une *méthode de classification qui consiste à regrouper les individus ayant un comportement similaire en classes en fonction de deux critères : les individus d une même classe sont le plus semblable possible, et les classes sont les plus disjointes possible. Les méthodes ascendantes sont agglomératives : à chaque étape du processus, on créée une partition en agrégeant deux à deux les individus, ou les groupes d individus les plus proches. Pour un niveau de précision donné, deux individus peuvent être confondus dans le même groupe, alors qu à un niveau de précision plus élevé, ils seront distingués et appartiendront à deux sous-groupes différents ; les classes formées étant emboîtantes, la classification est qualifiée de hiérarchique. Coefficient de variation (p. 102) : écart-type divisé par la moyenne, souvent exprimé comme un pourcentage à la moyenne. 379

Concept de fond / de forme : distinction élaborée par Rastier (2005) entre les unités participant à l évolution des formes sémantiques le long du texte, et celles appartenant au fond sémantique général. Les premières sont caractérisantes, car elles correspondent aux «concepts» effectivement élaborés, débattus et utilisés, alors que les secondes restent d une grande généralité. Configuration optative : composante facultative mais caractéristique d un genre ou d un discours (e.g. l exemple, la citation, la note de bas de page, etc.). Configuration tactique : déroulement textuel d un élément (étiquette morphosyntaxique ou mot), mesuré ici en déciles de rang d occurrences d éléments par texte (CR, Loiseau), et représenté sous la forme d un diagramme ordonné. Champ générique : groupe de genres qui contrastent, voire rivalisent dans un champ pratique. Par exemple, au sein du discours scientifique, les genres de la revue (article, discussion, réponse, compte rendu, présentation de revue, etc.) constituent un champ générique propre. Discours : ensemble d usages linguistiques codifiés attaché à un type de pratique sociale. Ex. : discours juridique, scientifique, littéraire. Domaine : le domaine (ou la discipline) s inscrit dans une pratique sociale. Il est commun aux divers genres propres au discours qui correspond à cette pratique. Dans un domaine déterminé, il n existe généralement pas de polysémie. Genre : niveau normatif de contraintes et de prescriptions positives ou négatives régulant la production et l interprétation d un texte. Puisque tout texte relève d un genre, et que tout genre relève d un discours, le genre permet de relier les textes aux discours. Information mutuelle : degré de dépendance d un couple (X,Y) de variables. L information mutuelle mesure la quantité d information apportée en moyenne par une réalisation de X sur les probabilités de réalisation de Y. Dans le cadre de notre étude, nous avons recouru à l information mutuelle (p. 314) pour ordonner les substantifs de chaque corpus d observation selon sa probabilité d apparition dans les textes. Intervalle de confiance d Anderson : «Anderson (1963) a calculé les lois limites des valeurs propres d une *ACP sans nécessairement supposer que les valeurs théoriques correspondantes sont distinctes. L ampleur de l intervalle donne une indication sur la stabilité de la valeur propre vis-à-vis des fluctuations dues à l échantillonnage supposé laplacien. L empiétement des intervalles de deux valeurs propres consécutives suggérera donc l égalité de ces valeurs propres. Les axes correspondants sont définis à une rotation près. Ainsi l utilisateur pourra éviter d interpréter un axe instable selon ce critère.» (Lebart et al., 2003 : 205). 380

Méthodes factorielles : les méthodes factorielles visent à résumer de manière synthétique de vastes ensembles de valeurs numériques par le biais d un nombre plus restreint de variables artificielles nouvelles, les facteurs. Chaque facteur représente un groupement de traits intercorrélés (linguistiques ici). Les facteurs sont généralement représentés sous forme de visualisations graphiques où les objets à décrire deviennent des points sur un axe ou dans un plan. Contrairement aux méthodes de classification qui font appel à une démarche algorithmique, les méthodes factorielles utilisent des calculs d ajustement faisant essentiellement appel à l algèbre linéaire. Méthodes de classification : les méthodes de classification sont destinées à produire des groupements d'objets ou d'individus décrits par un certain nombre de variables ou de caractères. Elles mettent en jeu une formulation et des calculs algorithmiques, et produisent des classes ou des familles de classes, permettant de grouper et de ranger les objets à décrire. L'utilisation conjointe de l'analyse factorielle et de la classification permettra de se prononcer non seulement sur la réalité des classes, mais également sur leurs positions relatives. Le plus souvent, lors des approches exploratoires, les partitions ou les arbres de classification viendront compléter et nuancer des analyses factorielles préalables. Peeling : épluchage progressif des points aberrants. Pratique sociale : activité codifiée qui met en jeu des rapports spécifiques entre le niveau sémiotique (dont relèvent les textes), le niveau des représentations mentales et le niveau physique. Style d auteur (style personnel) : usage d un sociolecte propre à un énonciateur. Usage singulier du genre. SVM (Support Vector Machines/Séparateurs à Vastes Marges) : méthode de classification binaire par apprentissage supervisé. De manière simplifiée, cette méthode consiste à apprendre un classifieur dans un nouvel espace d attributs de dimension plus importante que l espace initial. Ce nouvel espace peut-être obtenu par différents types de fonctions noyaux (e.g. linéaire, polynomial, RBF, etc. v. Vapnik, 1995 pour plus de précisions sur la technique d apprentissage par SVM). Plusieurs études empiriques (e.g. Dumais, 1998) ayant montré que les meilleures performances en classification textuelle sont obtenues avec des SVMs linéaires, c est ce type de noyau que nous avons retenu dans nos expérimentations. (p. 313) Texte : suite linguistique empirique attestée, produite dans une pratique sociale déterminée, et fixée sur un support quelconque. Les textes sont l objet empirique de la linguistique. (Rastier, 1996) Tri Systématique de Signification (TSS) : le TSS est une méthode de validation externe permettant de confronter le corpus avec des informations externes concernant des 381

composantes du corpus en positionnant des variables illustratives a posteriori sur les axes principaux au moyen d une valeur-test exprimant la signification statistique de la coordonnée de la variable sur l axe. (Lebart, 2004, p. 712). 382