Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes
Question ouverte Souhaitez-vous ajouter des informations que ce questionnaire n a pas permis de recueillir? Contexte : question finale Intention des concepteurs : redonner la main aux enquêtés Conséquence : espace de liberté important du fait d une question très ouverte (avantage et inconvénient) 19/04/2005 EDOGEST 2
Exploration des données textuelles 1. Disposer d une base contenant au moins une variable textuelle et au moins une variable nominale. 2. Créer le «Vocabulaire des mots et segments répétés». 3. Explorer les données textuelles : Recherche des «Contextes de mots», Recherche du «Vocabulaire spécifique» de groupes d individus, Construction de «Tableaux lexicaux» de contingence pour comprendre les liaisons entre le vocabulaire et les groupes d individus. 19/04/2005 EDOGEST 3
Les unités statistiques de base Les formes graphiques Suite de caractères non-délimiteurs entourée par des caractères délimiteurs : un même mot peut donner lieu à plusieurs formes graphiques selon son genre ou sa conjugaison, une même forme graphique peut renvoyer à plusieurs mots. Les segments répétés Unités plus larges composées de plusieurs formes graphiques : sécurité d emploi, études supérieures Les segments sont le plus souvent formés de deux mots et rarement de plus de quatre mots (mots composés ) 19/04/2005 EDOGEST 4
Formes lexicales Mots et segments Formes lexicales Les comparaisons n ont de sens que si les formes lexicales apparaissent avec une certaine fréquence. Il convient d écarter les hapax (formes n apparaissant qu une fois) et les formes rares. On peut ne garder que les formes apparaissant au moins k fois (k = 5, par exemple). La présence de mots-outils (dans, par, que, qui, des ) n est justifiée que si ces mots caractérisent certaines catégories. 19/04/2005 EDOGEST 5
Problèmes Mots homographes et homophones être : nom masculin, mais aussi verbe à l infinitif lit : nom masculin, mais renvoie aussi au verbe lire son : nom masculin, mais aussi pronom personnel Mots homographes et non homophones couvent : nom masculin, mais renvoie aussi au verbe couver Ne pas travailler à l aveugle 19/04/2005 EDOGEST 6
La numérisation du texte «Lemmatisation» du vocabulaire Regrouper les formes graphiques correspondant à un même mot, épurer le vocabulaire des mots-outils non informatifs (articles ), mais ne pas éliminer trop rapidement : certains mots-outils peuvent être caractéristiques d attitudes ou d opinions, des formes graphiques différentes d un même mot peuvent ne pas être équivalentes. Création de mots thématiques Rechercher les contextes d emploi des mots à l aide de la procédure CORDA de SPAD, ce qui permet de repérer les segments. 19/04/2005 EDOGEST 7
La numérisation du texte avec SPAD (Texte de l aide en ligne de SPAD) Principes généraux d exploration des données textuelles A partir du vocabulaire initial des mots, procédez avec l outil CORTEX à la mise en équivalence des mots et à des corrections d orthographe (ne supprimez pas de mots). Après ce travail, créez le vocabulaire des segments répétés. Sur ce nouveau vocabulaire contenant les mots et les segments, vous pourrez supprimer les formes (mots ou segments) de fréquences faibles ou les mots-outils pour obtenir un vocabulaire plus robuste pour les analyses. 19/04/2005 EDOGEST 8
Les filières SPAD Module «Analyses Textuelles» Construction du vocabulaire Contexte des mots et vocabulaire spécifique de groupes d individus Analyse d un tableau lexical Analyse d un tableau lexical et classification Création d une base mots/segments/variables 19/04/2005 EDOGEST 9
Vocabulaire spécifique 1 La procédure VOSPEC recherche et édite les mots et segments répétés caractéristiques de groupes d individus en fonction de la fréquence. Les mots et segments répétés sont édités par ordre de «valeurs-tests» décroissantes : une valeur-test élevée (> 2) indique un mot ou segment plus fréquemment rencontrés dans le groupe qu en moyenne, une valeur-test faible (< - 2) indique un mot ou segment moins souvent rencontrés dans le groupe qu en moyenne. 19/04/2005 EDOGEST 10
Vocabulaire spécifique 2 La procédure VOSPEC édite également les phrases caractéristiques des groupes d individus selon deux critères : le 1 er critère «moyenne des valeurs-tests» des mots de la phrase a tendance à favoriser les réponses courtes, le 2 nd critère classant les phrases par ordre de distance croissante à la réponse moyenne du groupe d individus (au sens de la distance du Khi-deux) a tendance à favoriser les réponses longues. 19/04/2005 EDOGEST 11
Tableau lexical de contingence La procédure TALEX construit un tableau de contingence C avec : En ligne, les mots et segments répétés du vocabulaire en cours, En colonne, les modalités des variables nominales choisies. c ij = nombre de fois où la forme lexicale «i» a été utilisée par les individus possédant la modalité «j» de la variable nominale. 19/04/2005 EDOGEST 12
Traitement d un tableau lexical L Analyse des Correspondances du tableau C permet de visualiser les associations entre les formes lexicales et les modalités. Cette analyse peut être suivie d une classification. 19/04/2005 EDOGEST 13
Enquête réalisée en 1984 par le CREDOC «Conditions de Vie et Aspirations des Français» Enquête : Famille, Travail, Énergie Base SPAD : 300 individus extraits au hasard parmi 2000 Deux questions ouvertes : Pourquoi ce nombre idéal d enfants? Pourquoi avez-vous cette opinion sur le mariage? 19/04/2005 EDOGEST 14
Problématiques Existe-t-il des mots qui se regroupent? Vocabulaire des mots : Qui les emploie? Comment? Différence entre les hommes et les femmes? Visualisation des proximités textuelles 19/04/2005 EDOGEST 15
Procédure CORDA Contextes du mot: FAMILIAL Contextes du mot: FAMILLES BON POUR L EQUILIBRE FAMILIAL 31 BIEN EQUILIBRE FAMILIAL 56 BON POUR EQUILIBRE FAMILIAL 71 POUR L EQUILIBRE FAMILIAL ET POUR LES ENFANTS CA FAIT PLUS D OUVERTURE 107 QUATRE IDEAL POUR L EQUILIBRE FAMILIAL PAS MOINS 237 QUATRE BON POUR L EQUILIBRE FAMILIAL 238 ADORE LES GRANDES FAMILLES 30 LES FAMILLES NOMBREUSES SONT TRES PENALISEES DANS NOTRE SOCIETE 41 HELAS LES LOGEMENTS NE SONT PAS PREVUS POUR LES GRANDES FAMILLES 138 UN JE NE SUIS PAS POUR LES FAMILLES NOMBREUSES 176 TROIS LES FAMILLES UN PEU NOMBREUSES C EST BIEN POUR LES ENFANTS CA LES 196 DES FAMILLES MOYENNES 212 6 J AIME LES GRANDES FAMILLES 248 3 POUR LA FRANCE IL FAUDRAIT DE TELLES FAMILLES MAIS LES GENS ONT ILS LES MOYENS NON N EST CE PAS 262 7 J AIME LES FAMILLES NOMBREUSES 268 J AIME LES GRANDES FAMILLES 271 19/04/2005 EDOGEST 16
Traitement du tableau lexical Procédure CORBIT Analyse des correspondances du tableau : 58 formes lexicales 4 variables nominales avec 8 variables nominales illustratives Cette analyse est suivie d une classification. 19/04/2005 EDOGEST 17
Partition en 5 classes des formes lexicales Composition des classes COMPOSITION DE : Coupure l'arbre en 5 classes CLASSE 1 / 5 ACTUEL AVENIR CHOMAGE CONDITION DEUX DIFFICILE DUR ELEVER FEMME FILLE GARCON MOYENNE POUVOIR SITUATION SUFFISANT TEMPS TROUVER VIE C EST SUFFISANT CLASSE 2 / 5 SOUCIS SURCHARGE CLASSE 3 / 5 CHARGE CHER COUT EDUCATION ENFANT ENNUIS EPANOUIE FINANCIER IDEAL LOURD MATERIEL MERE MOYENS PARENTS PERE POSSIBILITE PROBLEME RAISONNABLE SEUL SOCIETE TRAVAIL UNIQUE VOULU C EST IDEAL ENFANT UNIQUE LOURDE CHARGE CLASSE 4 / 5 QUATRE CLASSE 5 / 5 AIME ASSURE EGOISME EQUILIBRE FAMILLE MAISON NOMBRE NOMBREUSE TROIS EQUILIBRE DE LA FAMILLE 19/04/2005 EDOGEST 18
Partition des formes lexicales Description de la classe 5 CLASSE 5 / 5 Fréquences caractéristiques % de la fréquence dans l'échantillon % de la fréquence dans la classe % de la classe dans la fréquence Valeur-Test Probabilité Poids Nombre idéal "trois enfants" 7,85 14,39 43,89 7,92 0,000 303 Nombre idéal "quatre ou plus" 1,76 3,46 47,06 4,08 0,000 68 Ouest 4,61 6,49 33,71 2,94 0,002 178 Dip.sup 2,95 4,44 35,96 2,83 0,002 114 Est 3,26 1,73 12,70-3,07 0,001 126 employé 4,27 2,38 13,33-3,34 0,000 165 Nombre idéal "0 ou 1 enfant" 1,99 0,54 6,49-3,90 0,000 77 Nombre idéal "deux enfants" 13,37 6,49 11,63-7,46 0,000 516 19/04/2005 EDOGEST 19
Traitement du tableau Réponses {formes lexicales, variables} Création du tableau T par la procédure TEXNU Analyse des correspondances du tableau : 300 lignes (réponses) 66 colonnes (58 formes lexicales + 8 variables nominales) les 8 variables nominales sont illustratives les segments peuvent être aussi éléments illustratifs Cette analyse est suivie d une classification. 19/04/2005 EDOGEST 20
Partition des individus : Description de la classe 2 Classe: CLASSE 2 / 5 (Effectif: 14 - Pourcentage: 1.45) Libellés des variables Modalités caractéristiques % de la modalité dans la classe % de la modalité dans l'échantillon % de la classe dans la modalité Valeur-Test Probabilité Poids Nombre idéal d'enfants 0 ou 1 enfant 85,71 7,98 15,58 6,92 0,000 77 région Est 71,43 13,06 7,94 4,84 0,000 126 Opinion sur le mariage Union indissoluble 78,57 24,66 4,62 4,01 0,000 238 Taille d'agglomération 100 000 et + 78,57 32,75 3,48 3,27 0,001 316 Profession ouvrier 64,29 22,80 4,09 3,10 0,001 220 Opinion sur le mariage diss. cas grave 0,00 27,88 0,00-2,33 0,010 269 Nombre idéal d'enfants trois enfants 0,00 31,40 0,00-2,58 0,005 303 Nombre idéal d'enfants deux enfants 14,29 53,47 0,39-2,76 0,003 516 Taille d'agglomération Paris 0,00 34,09 0,00-2,77 0,003 329 région Paris 0,00 35,23 0,00-2,85 0,002 340 Opinion sur le mariage diss.accord mutuel 0,00 43,73 0,00-3,44 0,000 422 CLASSE 2 / 5 Fréquences caractéristiques % de la fréquence dans l'échantillon % de la fréquence dans la classe % de la classe dans la fréquence Valeur-Test Probabilité Poids SOUCIS 0,73 50,00 100,00 7,54 0,000 7 CHER 0,93 14,29 22,22 2,48 0,007 9 19/04/2005 EDOGEST 21
Comparaison des deux approches Analyse des Correspondances du tableau lexical agrégé C, suivie d une Classification Visualisation des proximités entre formes lexicales et catégories. Dans la classification des formes lexicales, chaque groupe de formes lexicales est caractérisé par des modalités des variables nominales actives et illustratives. 19/04/2005 EDOGEST 22
Comparaison des deux approches Analyse des Correspondances du tableau T, suivie d une Classification La proximité de deux formes lexicales étant d autant plus grande qu elles apparaissent dans une même réponse, cette analyse rend mieux compte des contextes que celle du tableau lexical agrégé. Dans la classification des réponses, chaque groupe de réponses est caractérisé par des formes lexicales actives et illustratives, et des modalités des variables nominales illustratives. 19/04/2005 EDOGEST 23
Conclusion Traitements automatiques des textes Thesaurus Web Mining Indexation de textes Langage naturel Text Mining, Analyse des Données Textuelles Applications : Analyse de discours (politique ) Recherches documentaires Stylométrie 19/04/2005 EDOGEST 24
Bibliographie Brugidou M. et al. (2000) Les facteurs de choix et d utilisation de logiciels d Analyse de Données Textuelles, 5 èmes Journées Internationales d Analyse Statistique des Données Textuelles. Grangé D., Lebart L. (1994) Traitements statistiques des enquêtes, Dunod. Lebart L., Salem A. (1994) Statistique textuelle, Dunod. Quatrain Y., Nugier S., Peradotto A., Garrouste D. (2004) Evaluation d outils de Text Mining : démarche et résultats, 7 èmes Journées Internationales d Analyse Statistique des Données Textuelles. 19/04/2005 EDOGEST 25