ANALYSE DES DONNÉES TEXTUELLES



Documents pareils
Statistique : Résumé de cours et méthodes

Évaluation d outils de Text Mining : démarche et résultats

Une école au Togo, épisode 1/4

Concevoir sa stratégie de recherche d information

La classification automatique de données quantitatives

1. Les types d enquêtes

L analyse de la gestion de la clientèle

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

SOMMAIRE. Dossier : Aide au suivi du stagiaire

Langue Française. Syllabus A1. Description globale du niveau A1 utilisateur élémentaire

Zazie : Être et avoir

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

leur(s) leur LES EXERCICES DE FRANÇAIS DU CCDMD Homophones grammaticaux de catégories différentes

LECTURE, RECHERCHE DOCUMENTAIRE ET INDEXATION

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

son sont SON HOMOPHONES LES EXERCICES DE FRANÇAIS DU CCDMD Homophones grammaticaux de catégories différentes

LES FRANÇAIS ET LA COMPLEMENTAIRE SANTE

LA RECHERCHE DOCUMENTAIRE

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Fonction inverse Fonctions homographiques

ACCRÉDITATION DES CENTRES PRIVÉS ET DES PROGRAMMES DE FORMATION PROFESSIONNELLE EN HAÏTI. Formulaire de demande d une autorisation de fonctionnement

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

Demande d admission au Centre pédagogique Lucien-Guilbault Secteur primaire

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Urbanisation de système d'information. PLM 3 (Product Lifecycle Management) Élaborations, versions, variantes, configurations

Absence ou présence erronée d un mot ou d un groupe syntaxique

CONTRAT D ACCUEIL. Parents Assistant(e)s Maternel(le)s. Proposé par les Relais Assistantes Maternelles du Haut-Rhin

données en connaissance et en actions?

QUE PENSEZ-VOUS DE VOTRE CLUB? Un outil indispensable pour évaluer les clubs

Collecter des informations statistiques

ANNEXE 4. Réaliser un diagnostic de sécurité Principales méthodes de collecte d information. (Module 3, partie I, section 2.5)

quelque quelque(s) quel(s) que/quelle(s) que quel(s) / quelle(s) qu elle(s)

GRAMMATICAUX DE CATÉGORIES DIFFÉRENTES QUANT QUAND 1 Homophones grammaticaux de catégories différentes

Les Français et le courrier publicitaire. Rapport

EVALUATION DU DISPOSITIF DEPARTEMENTAL EDUCATIF DE FORMATION ET D INSERTION (D 2 EFI)

Circonscription de. Valence d Agen

LES CONDITIONS D ACCÈS AUX SERVICES BANCAIRES DES MÉNAGES VIVANT SOUS LE SEUIL DE PAUVRETÉ

mes m est mets/met mais mets

Séminaire des chefs de centre

Distinction des questions et des consignes

Déterminants possessifs

Statistiques Descriptives à une dimension

Questionnaire sur les Antécédents Linguistiques. (Version 2.0, 2012)

Cours Numération Mathématique de base 1 MAT-B Alphabétisation

Quels apprentissages info-documentaires au collège?

Synthèse. Jeux d argent. Internet et jeux vidéo. Comparaison avec les apprentis

Formation Août 2013 Michèle Garello, IEN économie gestion Caroline Natta, professeur

Un nouveau regard de l assurance au féminin : la «Hub Decider Woman» Paris, le 8 juin 2011

Bientôt plus d'1 Français sur 10 client d'une banque en ligne.

Faculté de Psychologie et des Sciences de l Education

ça sa ÇA HOMOPHONES LES EXERCICES DE FRANÇAIS DU CCDMD Homophones grammaticaux de catégories différentes

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Modélisation des données

Les Français et le chauffage. Résultats de l étude menée

CONCILIATIONS BANCAIRES MENSUELLES

Rédiger pour le web. Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

PRIMAIRE. 1er cycle, 2e année. Les tâches familiales. Planification des activités

Méthode universitaire du commentaire de texte

Questionnaire à l attention des parents d enfant(s) en situation de handicap

PROGRAMME DE CRÉATION ET INNOVATION TECHNOLOGIQUES EN CLASSE DE SECONDE GÉNÉRALE ET TECHNOLOGIQUE Enseignement d exploration

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

Homophones grammaticaux de catégories différentes. ce se

Baccalauréat professionnel vente (prospection - négociation - suivi de clientèle) RÉFÉRENTIEL DE CERTIFICATION

Collecte de données auprès des refuges pour femmes battues et enfants

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

Accompagnement personnalisé 6e

Compétence 2 : Comparer, ranger, encadrer des nombres, les placer sur une droite graduée

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Projet d école Guide méthodologique

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

À propos d exercice. fiche pédagogique 1/5. Le français dans le monde n 395. FDLM N 395 Fiche d autoformation FdlM

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

QUESTIONNAIRE ENQUÊTE LOGICIEL DOCUMENTAIRE JANVIER 2002

IDEOGRAPHIX, BUREAU De lecture

Rapport de stage Nom de l entreprise. Date du stage. Rapport de stage Nom de l entreprise. Date du stage. Nom du professeur principal

Le chiffre est le signe, le nombre est la valeur.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

A l aide de votre vous pouvez visiter un site web!

N SIMON Anne-Catherine

Les Français et la banque en ligne

RAPPORT DE STAGE NUMERIQUE : Aide-mémoire PREPARATION DU RAPPORT AU COURS DU STAGE

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

1. Vocabulaire : Introduction au tableau élémentaire

T de Student Khi-deux Corrélation

Famille multirésidence : recensement et sources alternatives

Transcription:

Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes

Question ouverte Souhaitez-vous ajouter des informations que ce questionnaire n a pas permis de recueillir? Contexte : question finale Intention des concepteurs : redonner la main aux enquêtés Conséquence : espace de liberté important du fait d une question très ouverte (avantage et inconvénient) 19/04/2005 EDOGEST 2

Exploration des données textuelles 1. Disposer d une base contenant au moins une variable textuelle et au moins une variable nominale. 2. Créer le «Vocabulaire des mots et segments répétés». 3. Explorer les données textuelles : Recherche des «Contextes de mots», Recherche du «Vocabulaire spécifique» de groupes d individus, Construction de «Tableaux lexicaux» de contingence pour comprendre les liaisons entre le vocabulaire et les groupes d individus. 19/04/2005 EDOGEST 3

Les unités statistiques de base Les formes graphiques Suite de caractères non-délimiteurs entourée par des caractères délimiteurs : un même mot peut donner lieu à plusieurs formes graphiques selon son genre ou sa conjugaison, une même forme graphique peut renvoyer à plusieurs mots. Les segments répétés Unités plus larges composées de plusieurs formes graphiques : sécurité d emploi, études supérieures Les segments sont le plus souvent formés de deux mots et rarement de plus de quatre mots (mots composés ) 19/04/2005 EDOGEST 4

Formes lexicales Mots et segments Formes lexicales Les comparaisons n ont de sens que si les formes lexicales apparaissent avec une certaine fréquence. Il convient d écarter les hapax (formes n apparaissant qu une fois) et les formes rares. On peut ne garder que les formes apparaissant au moins k fois (k = 5, par exemple). La présence de mots-outils (dans, par, que, qui, des ) n est justifiée que si ces mots caractérisent certaines catégories. 19/04/2005 EDOGEST 5

Problèmes Mots homographes et homophones être : nom masculin, mais aussi verbe à l infinitif lit : nom masculin, mais renvoie aussi au verbe lire son : nom masculin, mais aussi pronom personnel Mots homographes et non homophones couvent : nom masculin, mais renvoie aussi au verbe couver Ne pas travailler à l aveugle 19/04/2005 EDOGEST 6

La numérisation du texte «Lemmatisation» du vocabulaire Regrouper les formes graphiques correspondant à un même mot, épurer le vocabulaire des mots-outils non informatifs (articles ), mais ne pas éliminer trop rapidement : certains mots-outils peuvent être caractéristiques d attitudes ou d opinions, des formes graphiques différentes d un même mot peuvent ne pas être équivalentes. Création de mots thématiques Rechercher les contextes d emploi des mots à l aide de la procédure CORDA de SPAD, ce qui permet de repérer les segments. 19/04/2005 EDOGEST 7

La numérisation du texte avec SPAD (Texte de l aide en ligne de SPAD) Principes généraux d exploration des données textuelles A partir du vocabulaire initial des mots, procédez avec l outil CORTEX à la mise en équivalence des mots et à des corrections d orthographe (ne supprimez pas de mots). Après ce travail, créez le vocabulaire des segments répétés. Sur ce nouveau vocabulaire contenant les mots et les segments, vous pourrez supprimer les formes (mots ou segments) de fréquences faibles ou les mots-outils pour obtenir un vocabulaire plus robuste pour les analyses. 19/04/2005 EDOGEST 8

Les filières SPAD Module «Analyses Textuelles» Construction du vocabulaire Contexte des mots et vocabulaire spécifique de groupes d individus Analyse d un tableau lexical Analyse d un tableau lexical et classification Création d une base mots/segments/variables 19/04/2005 EDOGEST 9

Vocabulaire spécifique 1 La procédure VOSPEC recherche et édite les mots et segments répétés caractéristiques de groupes d individus en fonction de la fréquence. Les mots et segments répétés sont édités par ordre de «valeurs-tests» décroissantes : une valeur-test élevée (> 2) indique un mot ou segment plus fréquemment rencontrés dans le groupe qu en moyenne, une valeur-test faible (< - 2) indique un mot ou segment moins souvent rencontrés dans le groupe qu en moyenne. 19/04/2005 EDOGEST 10

Vocabulaire spécifique 2 La procédure VOSPEC édite également les phrases caractéristiques des groupes d individus selon deux critères : le 1 er critère «moyenne des valeurs-tests» des mots de la phrase a tendance à favoriser les réponses courtes, le 2 nd critère classant les phrases par ordre de distance croissante à la réponse moyenne du groupe d individus (au sens de la distance du Khi-deux) a tendance à favoriser les réponses longues. 19/04/2005 EDOGEST 11

Tableau lexical de contingence La procédure TALEX construit un tableau de contingence C avec : En ligne, les mots et segments répétés du vocabulaire en cours, En colonne, les modalités des variables nominales choisies. c ij = nombre de fois où la forme lexicale «i» a été utilisée par les individus possédant la modalité «j» de la variable nominale. 19/04/2005 EDOGEST 12

Traitement d un tableau lexical L Analyse des Correspondances du tableau C permet de visualiser les associations entre les formes lexicales et les modalités. Cette analyse peut être suivie d une classification. 19/04/2005 EDOGEST 13

Enquête réalisée en 1984 par le CREDOC «Conditions de Vie et Aspirations des Français» Enquête : Famille, Travail, Énergie Base SPAD : 300 individus extraits au hasard parmi 2000 Deux questions ouvertes : Pourquoi ce nombre idéal d enfants? Pourquoi avez-vous cette opinion sur le mariage? 19/04/2005 EDOGEST 14

Problématiques Existe-t-il des mots qui se regroupent? Vocabulaire des mots : Qui les emploie? Comment? Différence entre les hommes et les femmes? Visualisation des proximités textuelles 19/04/2005 EDOGEST 15

Procédure CORDA Contextes du mot: FAMILIAL Contextes du mot: FAMILLES BON POUR L EQUILIBRE FAMILIAL 31 BIEN EQUILIBRE FAMILIAL 56 BON POUR EQUILIBRE FAMILIAL 71 POUR L EQUILIBRE FAMILIAL ET POUR LES ENFANTS CA FAIT PLUS D OUVERTURE 107 QUATRE IDEAL POUR L EQUILIBRE FAMILIAL PAS MOINS 237 QUATRE BON POUR L EQUILIBRE FAMILIAL 238 ADORE LES GRANDES FAMILLES 30 LES FAMILLES NOMBREUSES SONT TRES PENALISEES DANS NOTRE SOCIETE 41 HELAS LES LOGEMENTS NE SONT PAS PREVUS POUR LES GRANDES FAMILLES 138 UN JE NE SUIS PAS POUR LES FAMILLES NOMBREUSES 176 TROIS LES FAMILLES UN PEU NOMBREUSES C EST BIEN POUR LES ENFANTS CA LES 196 DES FAMILLES MOYENNES 212 6 J AIME LES GRANDES FAMILLES 248 3 POUR LA FRANCE IL FAUDRAIT DE TELLES FAMILLES MAIS LES GENS ONT ILS LES MOYENS NON N EST CE PAS 262 7 J AIME LES FAMILLES NOMBREUSES 268 J AIME LES GRANDES FAMILLES 271 19/04/2005 EDOGEST 16

Traitement du tableau lexical Procédure CORBIT Analyse des correspondances du tableau : 58 formes lexicales 4 variables nominales avec 8 variables nominales illustratives Cette analyse est suivie d une classification. 19/04/2005 EDOGEST 17

Partition en 5 classes des formes lexicales Composition des classes COMPOSITION DE : Coupure l'arbre en 5 classes CLASSE 1 / 5 ACTUEL AVENIR CHOMAGE CONDITION DEUX DIFFICILE DUR ELEVER FEMME FILLE GARCON MOYENNE POUVOIR SITUATION SUFFISANT TEMPS TROUVER VIE C EST SUFFISANT CLASSE 2 / 5 SOUCIS SURCHARGE CLASSE 3 / 5 CHARGE CHER COUT EDUCATION ENFANT ENNUIS EPANOUIE FINANCIER IDEAL LOURD MATERIEL MERE MOYENS PARENTS PERE POSSIBILITE PROBLEME RAISONNABLE SEUL SOCIETE TRAVAIL UNIQUE VOULU C EST IDEAL ENFANT UNIQUE LOURDE CHARGE CLASSE 4 / 5 QUATRE CLASSE 5 / 5 AIME ASSURE EGOISME EQUILIBRE FAMILLE MAISON NOMBRE NOMBREUSE TROIS EQUILIBRE DE LA FAMILLE 19/04/2005 EDOGEST 18

Partition des formes lexicales Description de la classe 5 CLASSE 5 / 5 Fréquences caractéristiques % de la fréquence dans l'échantillon % de la fréquence dans la classe % de la classe dans la fréquence Valeur-Test Probabilité Poids Nombre idéal "trois enfants" 7,85 14,39 43,89 7,92 0,000 303 Nombre idéal "quatre ou plus" 1,76 3,46 47,06 4,08 0,000 68 Ouest 4,61 6,49 33,71 2,94 0,002 178 Dip.sup 2,95 4,44 35,96 2,83 0,002 114 Est 3,26 1,73 12,70-3,07 0,001 126 employé 4,27 2,38 13,33-3,34 0,000 165 Nombre idéal "0 ou 1 enfant" 1,99 0,54 6,49-3,90 0,000 77 Nombre idéal "deux enfants" 13,37 6,49 11,63-7,46 0,000 516 19/04/2005 EDOGEST 19

Traitement du tableau Réponses {formes lexicales, variables} Création du tableau T par la procédure TEXNU Analyse des correspondances du tableau : 300 lignes (réponses) 66 colonnes (58 formes lexicales + 8 variables nominales) les 8 variables nominales sont illustratives les segments peuvent être aussi éléments illustratifs Cette analyse est suivie d une classification. 19/04/2005 EDOGEST 20

Partition des individus : Description de la classe 2 Classe: CLASSE 2 / 5 (Effectif: 14 - Pourcentage: 1.45) Libellés des variables Modalités caractéristiques % de la modalité dans la classe % de la modalité dans l'échantillon % de la classe dans la modalité Valeur-Test Probabilité Poids Nombre idéal d'enfants 0 ou 1 enfant 85,71 7,98 15,58 6,92 0,000 77 région Est 71,43 13,06 7,94 4,84 0,000 126 Opinion sur le mariage Union indissoluble 78,57 24,66 4,62 4,01 0,000 238 Taille d'agglomération 100 000 et + 78,57 32,75 3,48 3,27 0,001 316 Profession ouvrier 64,29 22,80 4,09 3,10 0,001 220 Opinion sur le mariage diss. cas grave 0,00 27,88 0,00-2,33 0,010 269 Nombre idéal d'enfants trois enfants 0,00 31,40 0,00-2,58 0,005 303 Nombre idéal d'enfants deux enfants 14,29 53,47 0,39-2,76 0,003 516 Taille d'agglomération Paris 0,00 34,09 0,00-2,77 0,003 329 région Paris 0,00 35,23 0,00-2,85 0,002 340 Opinion sur le mariage diss.accord mutuel 0,00 43,73 0,00-3,44 0,000 422 CLASSE 2 / 5 Fréquences caractéristiques % de la fréquence dans l'échantillon % de la fréquence dans la classe % de la classe dans la fréquence Valeur-Test Probabilité Poids SOUCIS 0,73 50,00 100,00 7,54 0,000 7 CHER 0,93 14,29 22,22 2,48 0,007 9 19/04/2005 EDOGEST 21

Comparaison des deux approches Analyse des Correspondances du tableau lexical agrégé C, suivie d une Classification Visualisation des proximités entre formes lexicales et catégories. Dans la classification des formes lexicales, chaque groupe de formes lexicales est caractérisé par des modalités des variables nominales actives et illustratives. 19/04/2005 EDOGEST 22

Comparaison des deux approches Analyse des Correspondances du tableau T, suivie d une Classification La proximité de deux formes lexicales étant d autant plus grande qu elles apparaissent dans une même réponse, cette analyse rend mieux compte des contextes que celle du tableau lexical agrégé. Dans la classification des réponses, chaque groupe de réponses est caractérisé par des formes lexicales actives et illustratives, et des modalités des variables nominales illustratives. 19/04/2005 EDOGEST 23

Conclusion Traitements automatiques des textes Thesaurus Web Mining Indexation de textes Langage naturel Text Mining, Analyse des Données Textuelles Applications : Analyse de discours (politique ) Recherches documentaires Stylométrie 19/04/2005 EDOGEST 24

Bibliographie Brugidou M. et al. (2000) Les facteurs de choix et d utilisation de logiciels d Analyse de Données Textuelles, 5 èmes Journées Internationales d Analyse Statistique des Données Textuelles. Grangé D., Lebart L. (1994) Traitements statistiques des enquêtes, Dunod. Lebart L., Salem A. (1994) Statistique textuelle, Dunod. Quatrain Y., Nugier S., Peradotto A., Garrouste D. (2004) Evaluation d outils de Text Mining : démarche et résultats, 7 èmes Journées Internationales d Analyse Statistique des Données Textuelles. 19/04/2005 EDOGEST 25