Analyser le texte des enquêtes



Documents pareils
Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Travailler avec les télécommunications

IBM SPSS Direct Marketing

IBM SPSS Forecasting. Créez des prévisions d'expert en un clin d'œil. Points clés. IBM Software Business Analytics

Cinq impératifs prédictifs pour maximiser la valeur client Utilisation des analyses prédictives pour améliorer la gestion de la relation client

IBM Social Media Analytics

Trois méthodes éprouvées pour obtenir un meilleur retour sur investissement avec le data mining

Guide de configuration de SQL Server pour BusinessObjects Planning

IBM SPSS Direct Marketing 21

Siemens Grâce aux documents intelligents, un leader mondial de la haute technologie augmente l efficacité et la précision de ses employés.

Leica Application Suite

TEXT MINING von 7

Stella-Jones pilier du secteur grâce à IBM Business Analytics

Prise en main du BusinessObjects XI R2 Service Pack 2/ Productivity Pack

Exemples et tutoriels Version 7.5. Tutoriel de l'exemple Recrutement de personnel pour IBM Process Designer

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur

Utiliser Access ou Excel pour gérer vos données

IBM Software Big Data. Plateforme IBM Big Data

Chapitre 9 : Informatique décisionnelle

IBM Software Business Analytics. IBM Cognos FSR Automatisation du processus de reporting interne

Modèle de maturité en analyse client et en analyse marketing

Guide d exploration de base de données de IBM SPSS Modeler 15

CommandCenter Génération 4

Présentation de l'architecture QlikView. Livre blanc sur la technologie QlikView. Date de publication : octobre

McAfee Security-as-a-Service

Fonctions pour la France

SAP Lumira Version du document : Guide de l'utilisateur de SAP Lumira

Business Analytics pour le Big Data

La situation de la sécurité des clés USB en France

GUIDE DE L UTILISATEUR Recoveo Récupérateur de données

Manuel de l'utilisateur d'intego VirusBarrier Express et VirusBarrier Plus

HP Data Protector Express Software - Tutoriel 4. Utilisation de Quick Access Control (Windows uniquement)

Dans la série LES TUTORIELS LIBRES présentés par le site FRAMASOFT. Compression - Décompression avec 7-Zip. Georges Silva

Modernisation et gestion de portefeuilles d applications bancaires

Créer votre propre modèle

Découvrez le portefeuille de produits IBM SPSS

"La démarche marketing, le système d information marketing et l étude de marché"

IBM Enterprise Marketing Management. Options de nom de domaine pour les s

Etendre la Business Intelligence via les tableaux de bord

Guide de l'utilisateur

Livre Blanc WebSphere Transcoding Publisher

Guide d'initiation aux. certificats SSL. Faire le bon choix parmi les options qui s'offrent à vous en matière de sécurité en ligne. Document technique

Solution Xerox IntegratedPLUS pour la gestion automatisée de la colorimétrie. Hébergée. Rapide. Précise. Industrielle.

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR

Extension WebEx pour la téléphonie IP Cisco Unified

Communiqué de Lancement

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

1 Gestionnaire de Données WORD A4 F - USB / / 6020 Alco-Connect

Orientations sur la solvabilité du groupe

Qlik Sense Cloud. Qlik Sense Copyright QlikTech International AB. Tous droits réservés.

2. Activités et Modèles de développement en Génie Logiciel

IBM Rational Application Developer pour WebSphere Software V8.5 accélère le développement d'applications de haute qualité.

Cinq conseils pour tirer le meilleur parti de Google Analytics

La solution IBM Rational pour une ALM Agile

Guide d installation de Windows Vista /Windows 7

Tarification comparative pour l'industrie des assurances

Installation Client (licence réseau) de IBM SPSS Modeler 14.2

Cours n 2. UE706: Veille et intelligence économique EC3: Intelligence Économique et réseaux. Promo. Master : SIC. Documentation numérique

IBM BigInsights for Apache Hadoop

Répondre à un courrier - Transférer un courrier 20

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

Business & High Technology

StorageTek Tape Analytics

Microsoft Dynamics AX 2012 Une nouvelle génération de système ERP

Guide d Intégration PPM et ERP:

Gestion de la Relation Client (GRC)

Contrôle interne et organisation comptable de l'entreprise

Peregrine. AssetCenter. Product Documentation. Solution Asset Tracking. Part No. DAC-441-FR38. Build 49

7.0 Guide de la solution Portable sans fil

NC 35 Norme comptable relative aux états financiers consolidés

Comprendre le Big data grâce à la visualisation

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

IBM Business Process Manager

LES INTERFACES HOMME-MACHINE

Chapitre 1 : Introduction aux bases de données

Sondage sur le climat. scolaire. Guide d utilisation à l attention des administratrices et des administrateurs

Plan d action SMB d une Approche Agile de la BITM Pour les PME

Guide d'inscription pour obtenir un certificat ssl thawte

Documentation utilisateur. [EIP] TransLSF

Laplink PCmover Express La façon la plus facile de transférer vers un nouveau PC Windows

DÉVELOPPEMENT INFONUAGIQUE - meilleures pratiques

Guide de l'utilisateur : Surveillance MédiaSource Analytique

NORME INTERNATIONALE D AUDIT 260 COMMUNICATION DES QUESTIONS SOULEVÉES À L OCCASION DE L AUDIT AUX PERSONNES CONSTITUANT LE GOUVERNEMENT D'ENTREPRISE

HP Data Protector Express Software - Tutoriel 3. Réalisation de votre première sauvegarde et restauration de disque

Des services bancaires numériques plus intelligents grâce au Big Data

Qu est ce qu une bibliothèque?

Attribution de licence pour vcloud Suite

Suite IBM Tivoli IT Service Management : comment gérer le système d information comme une véritable entreprise

Les écoles professionnelles offrent aux personnes en formation les cours remplissant les objectifs évaluateurs suivants :

Que rechercher dans une application de gestion de la relation client (CRM, Customer Relationship Management) pour petites entreprises

Gestion de la mobilité d'entreprise. L'équilibre parfait entre les besoins de l'utilisateur final et ceux de l'entreprise

ManageEngine IT360 : Gestion de l'informatique de l'entreprise

Didacticiel de mise à jour Web

Lettre d'annonce ZP d'ibm Europe, Moyen-Orient et Afrique, datée du 2 mars 2010

Transcription:

IBM SPSS Text Analytics for Surveys Analyser le texte des enquêtes Découvrez comment IBM SPSS Text Analytics for Surveys vous permet d'accéder à des informations essentielles Table des matières 1 Introduction 2 Le rôle du texte dans les enquêtes d'opinion 2 Différentes approches du text mining 4 Étapes de l'analyse de texte d'enquête 8 Fonctionnement de la classification et de la catégorisation 10 Fiabilité et ajustement 11 Analyses supplémentaires 12 Conclusion 12 À propos d'ibm Introduction Bien que les gens communiquent de nombreuses façons, ce sont les mots qui représentent certainement le moyen de communication le plus efficace et le plus répandu. Que la communication verbale prenne la forme de rapports établis avec soin, de réponses textuelles aux questions d'une enquête ou de notes ou d'e-mails informels voire difficilement déchiffrables, ils présentent tous des informations de grande valeur. Le défi consiste à trouver le moyen d'extraire ces informations. SPSS est un pionnier du développement d'outils permettant l'analyse de communications ou de textes écrits de manière fiable et efficace. Notre société est également l'un des précurseurs du développement de solutions permettant de faciliter les enquêtes sur les caractéristiques, les attitudes, les comportements et les croyances des gens. C'est pour cette raison qu'une partie importante de nos efforts s'est concentrée non seulement sur les outils statistiques qui permettent l'analyse des réponses aux questions d'enquêtes fermées mais également sur les techniques permettant d'extraire et de catégoriser la richesse des informations contenues dans les réponses aux questions ouvertes. En combinant les deux types d'informations, les organisations obtiennent une vision plus complète des personnes auprès desquelles elles enquêtent, qu'il s'agisse de clients, d'étudiants ou de la population en général. En tant que nouveau membre de l'entreprise IBM, SPSS apporte avec lui ses outils analytiques de pointe, permettant ainsi à la technologie d'ibm SPSS de prendre la première place sur le marché de l analyse prédictive. Les offres d'ibm SPSS comprennent les meilleurs produits du marché pour la collecte de données, les statistiques, le data mining, le text mining et l'analyse de texte et permettent à votre organisation d automatiser l analyse des réponses des enquêtes à questions ouvertes. Les outils d'ibm SPSS sont basés sur les standards du secteur et peuvent facilement s'intégrer à votre infrastructure existante pour améliorer la précision, réduire la main d'œuvre et minimiser les pertes. L'effort conjugué d'ibm et de SPSS vous offre une flexibilité optimale et s'adapte aux types de données que vous explorez et à la façon dont vous déployez les résultats. Les organisations peuvent ensuite utiliser ces informations pour anticiper ou prévoir les besoins et actions futurs. Ce livre blanc vous propose un bref aperçu du rôle du texte dans les enquêtes d'opinion. Il décrit ensuite plusieurs approches de l'analyse de texte d'enquêtes et présente le fonctionnement d'ibm SPSS Text Analytics for Surveys, une solution basée sur la linguistique spécialement conçue pour catégoriser ou «coder» le texte des réponses aux enquêtes.

Le rôle du texte dans les enquêtes d'opinion Si l'analyse de texte est aussi longue et compliquée, pourquoi ne pas éviter l'utilisation de questions nécessitant des réponses textuelles? La réponse, comme le savent les analystes expérimentés, est que les réponses textuelles complètent d'autres données et apportent des informations plus variées et plus détaillées sur ce que les personnes interrogées ressentent, pensent et font. Deux raisons principales justifient l'utilisation de réponses textuelles. Tout d'abord, les mots que choisissent les personnes interrogées offrent souvent aux analystes un nouvel aperçu de leur mode de pensée. Deuxièmement, si les analystes se fient exclusivement à des questions fermées, ils encadrent non seulement la question, mais aussi les réponses possibles et de fait, constituent et interprètent la réalité pour les personnes interrogées. Comment les analystes peuvent-ils être sûrs de bien interpréter? Et si ils avaient omis une réponse alternative importante? Et si la manière de poser la question avait faussé ou déformé les réponses? C'est pour ces raisons que de nombreux analystes incorporent des questions ouvertes à leurs enquêtes. Mais peut-être se contentent-ils de sélectionner une ou deux de ces réponses pour illustrer les tendances plus facilement quantifiables présentes dans les données structurées. Désormais, grâce aux nouveaux outils d'analyse de texte, les analystes peuvent exploiter pleinement les réponses textuelles en toute simplicité. Les plus efficaces de ces nouveaux outils utilisent les technologies de text mining linguistique. Les différences entre le text mining linguistique et les autres approches sont résumées dans la prochaine section de ce livre blanc. La principale différence réside dans le fait que le text mining linguistique est basé sur une classe d'algorithmes analysant la structure et la signification de la langue d'un texte, ce qui permet aux systèmes informatiques d'analyser les ambiguïtés inhérentes à la communication verbale. Ces technologies sont à la base de toutes les solutions de text mining de IBM SPSS, y compris. Différentes approches du text mining Il existe plusieurs autres approches du text mining. Le défi consiste à trouver celle qui offre le bon équilibre entre fiabilité et efficacité. Les méthodes manuelles exigent que les analystes ou les responsables du codage lisent un échantillon des réponses textuelles et créent un ensemble de catégories dans lequel les codeurs peuvent classer les réponses de manière appropriée. Une liste détaillée d'instructions de codage, ou plans de codage, doit être développée afin que les personnes en charge du codage puissent regrouper les réponses de manière cohérente. Bien que les codeurs humains trouvent généralement facile de comprendre le contenu d'une réponse, ils peuvent ne pas être d'accord sur la façon de le catégoriser. Cette divergence réduit la fiabilité des résultats de recherche. Même si elle est minime, le codage manuel des réponses textuelles peut prendre des jours, voire des semaines, en fonction du nombre et de la complexité de ces réponses. Ce processus est non seulement cher mais il 2

retarde également parfois la livraison des informations nécessaires. Il existe plusieurs méthodes d'analyse de texte automatisées conçues pour l'accélérer et réduire l'intervention humaine nécessaire. Une de ces approches est d'utiliser des solutions basées sur des formules statistiques, des réseaux neuronaux et d'autres techniques, généralement utilisées en combinaison avec des recueils de règles détaillés. Une grande expertise est nécessaire pour développer et utiliser ce genre de méthodes, ce qui explique pourquoi de nombreuses organisations y renoncent. Une autre raison est que ces solutions ressemblent à des «boîtes noires» avec leurs technologies sous-jacentes invisibles et hors de portée des utilisateurs. Un autre problème inhérent aux solutions automatisées basées sur les statistiques est que bien qu'elles puissent traiter rapidement du texte, leur précision est assez faible. De nombreuses solutions basées sur les statistiques comptent simplement le nombre d'occurrences des termes et calculent leur proximité avec les termes associés. Si les réponses textuelles des enquêtes sont relativement simples (des listes de marques de céréales ou de garnitures de pizza préférées par exemple), une solution basée sur les statistiques peut offrir des résultats probants. Cependant, avec des réponses textuelles légèrement plus complexes, les solutions basées sur les statistiques produisent de nombreux résultats inutiles et passent à côté d informations qu'elles auraient dû découvrir. Les solutions basées sur les statistiques traitent les textes comme des «sacs de mots» et n'incorporent pas la structure et la signification du langage dans leurs analyses. Les solutions linguistiques automatisées, quant à elles, tiennent compte à la fois des structures grammaticales et de la signification lors de l'analyse du texte. Ces solutions sont basées sur le champ d'étude connu sous le nom de traitement du langage naturel (NLP) ou linguistique computationnelle, un domaine dont l'importance a augmenté lorsque les ressources informatiques ont atteint le niveau nécessaire pour analyser les ambiguïtés inhérentes au langage humain. Le text mining linguistique offre la rapidité et le rapport qualité prix avantageux des systèmes basés sur les statistiques ainsi que des résultats plus fiables et plus utiles. Les technologies avancées de text mining linguistique sont à la base d'. Cependant, les fonctionnalités et l'interface d' ont été spécialement conçues en pensant aux spécialistes des enquêtes d'opinion. Ces derniers peuvent importer des réponses textuelles de manière simple et efficace, extraire des concepts ou des termes, les regrouper par type puis exporter les résultats sous forme de texte ou de dichotomies pour l'analyse avec d'autres données d'enquête. De cette manière, les données textuelles gagnent en valeur prédictive. Les analystes et les preneurs de décisions peuvent anticiper plus efficacement les attitudes et comportements futurs en identifiant des schémas et des tendances dans le texte, ce que nous aimons appeler l'analyse de texte prédictive d'ibm SPSS. De plus, les informations obtenues à partir de l'analyse de texte peuvent être utilisées pour compléter d'autres analyses de données et permettre ainsi aux organisations de tirer profit de l'analyse prédictive. 3

Étapes de l'analyse de texte d'enquête Les réponses aux enquêtes sont généralement relativement courtes (une phrase ou un petit paragraphe). a été conçu pour ce type de texte mais il peut également traiter des réponses de plusieurs centaines de mots. Les étapes principales du processus d'analyse sont l'extraction et la catégorisation. Pendant ces deux étapes, IBM SPSS Text Analytics for Surveys permet aux analystes de configurer la technologie sous-jacente pour mieux répondre aux besoins d'un projet d'enquête spécifique. Avant de décrire le fonctionnement de l'extraction et de la catégorisation dans, quelques mots sur le processus général sont nécessaires. Préparer l'utilisation d' Afin d'analyser correctement le texte d'une enquête, un analystes doit tenir compte de nombreux facteurs. Ils comprennent les points suivants : L'analyse de texte d'enquête, comme tout type de text mining, doit être effectuée en gardant à l'esprit des objectifs clairs. Lors de la préparation d'une enquête, un analyste doit déterminer les objectifs de l'étude et comment les réponses textuelles aident à les atteindre. La qualité des questions ouvertes posées affecte les possibilités d'utilisation des réponses obtenues. Éviter les questions trop larges améliore la pertinence des réponses et des catégories en résultant. L'analyse de texte n'est pas une science exacte. Il n'y a pas de résultat «correct» unique. Le text mining est subjectif en ce qu'il est influencé par l'interprétation que fait l'analyste du message transmis par la personne interrogée. Deux personnes compétentes peuvent analyser les mêmes données et tirer des conclusions différentes en fonction de leur point de vue individuel. Les technologies linguistiques à la base d'ibm SPSS Text Analytics for Surveys aident néanmoins à réduire l'écart entre les interprétations individuelles. L analyse de texte est un processus itératif. Un spécialiste des enquêtes, qui travaille avec des réponses d'enquête, recommencera probablement l extraction des concepts et la catégorisation des réponses à l aide de différentes définitions de catégories ou de systèmes de codage, de différentes définitions de terme ou de synonyme ou de différents regroupements de réponses. Ce processus peut être répété plusieurs fois avant d'obtenir un résultat satisfaisant. Même ainsi, l'automatisation d' permet une catégorisation plus rapide et le potentiel d'une analyse plus sophistiquée que les méthodes manuelles. 4

Ce que voient les analystes lorsqu'ils utilisent IBM SPSS Text Analytics for Surveys Certains aspects de l'extraction et de la classification dans IBM SPSS Text Analytics for Surveys sont automatisés et ne nécessitent aucune intervention de l'utilisateur. Les captures d'écran présentées sur cette page offrent un aperçu de ce que pourrait voir un analyste pendant le codage d'un ensemble de réponses textuelles. Réponses d'enquête importées. Les analystes peuvent importer des réponses textuelles depuis des sources variées, notamment depuis Microsoft Excel ; IBM SPSS Statistics ; IBM SPSS Data Collection Data Model qui sous-tend les produits d'enquêtes d'opinion d'ibm SPSS tels qu'ibm SPSS Data Collection Interviewer et toutes les bases de données compatibles ODBC. Figure 1 : réponses à une question ouverte dans une enquête sur les facteurs qui influencent les décisions des consommateurs lors de la location d'une voiture. 5

Termes et concepts extraits. Lorsque les utilisateurs cliquent sur le bouton Extraire, IBM SPSS Text Analytics for Surveys extrait automatiquement les termes et concepts importants contenus dans les réponses à une question. Aucune intervention manuelle n'est nécessaire. Cependant, les utilisateurs d'ibm SPSS Text Analytics for Surveys peuvent modifier certains dictionnaires et bibliothèques du produit afin que l'extraction soit encore plus précise. Figure 2 : sur l'écran, un analyste voit le texte complet des réponses dans le volet de droite avec les termes extraits surlignés et répertoriés dans le volet en bas à gauche. Réponses classifiées et catégorisées. A l'aide d'une boîte de dialogue simple d'utilisation, le analyste peut choisir parmi de nombreuses techniques pour catégoriser les termes extraits. Figure 3 : la dérivation de termes, l'inclusion de termes et le réseau sémantique sont trois techniques linguistiques que les utilisateurs d'ibm SPSS Text Analytics for Surveys peuvent choisir, séparément ou ensemble, pour créer des catégories. Le paramètre par défaut utilise ces trois techniques à la fois. 6

Catégories modifiées manuellement. Les utilisateurs voient non seulement le texte de la réponse et les termes et catégories extraits mais également une représentation graphique des relations entre les réponses. Figure 4 : le fait de pouvoir consulter une carte des cooccurrences des réponses aide les analystes ou les codeurs à affiner les catégories, ce qui permet un groupement plus précis des réponses. Les catégories peuvent être enregistrées et réutilisées lors de codage similaire ou d'enquêtes de suivi. Résultats exportés pour l'analyse. Lorsque les utilisateurs sont satisfaits de la catégorisation des réponses, ils peuvent exporter les résultats sous la forme de dichotomies ou de catégories de texte. Ces dernières peuvent être utilisées pour créer des tableaux et des graphiques décrivant l'analyse des réponses textuelles, soit séparément, soit en association avec d autres données. Figure 5 : les résultats peuvent être exportés vers IBM SPSS Statistics ou Excel pour être analysés ou pour créer de nombreux graphiques qui aideront à communiquer les résultats de l'enquête. 7

Fonctionnement de l'extraction Bien que les utilisateurs puissent intervenir de plusieurs façons pendant l'extraction et la classification, le processus d'extraction d'ibm SPSS Text Analytics for Surveys ne nécessite aucune intervention de l'utilisateur. Le processus d'extraction est composé de six étapes principales : 1. Conversion des données entrées dans un format standard 2. Identification des termes candidats (mots ou groupes de mots identifiant des concepts dans le texte) 3. Identification des classes d'équivalence (les formes de base des termes candidats) et intégration de synonymes 4. Attribution des types 5. Indexation 6. Analyse des liens et extraction des événements et des sentiments Les bibliothèques et les dictionnaires qui constituent les ressources linguisti-ques d' ont été optimisés pour l'analyse de textes d'enquêtes. Certaines de ces ressources peuvent être modifiées et les analystes peuvent créer des bibliothèques personnalisées correspondant à un sujet ou à un type de recherche particulier. Cette personnalisation permet d'obtenir une liste de termes et de concepts extraits plus adaptée limitant les itérations et l'intervention manuelle lors du processus de catégorisation. Une fois créées, les bibliothèques personnalisées peuvent être partagées avec d'autres personnes. Pour une description plus détaillée des technologies linguistiques sous-tendant le processus d'extraction d', veuillez consulter le site www.ibm.com/software/analytics/ Lorsque les termes sont extraits, un type leur est attribué. Un type est un groupement sémantique de termes. Les types peuvent contenir des concepts de haut niveau, des termes et des qualificatifs positifs et négatifs, des qualificatifs qui dépendent du contexte et des noms de personnes, de lieux ou d'organisations. intègre également une liste des schémas dans le processus d'extraction. Les schémas sont une combinaison de termes et de types. Ils sont particulièrement utiles lorsqu'ils essaient d'identifier des opinions sur un sujet spécifique, comme les commentaires négatifs que les personnes interrogées ont pu faire. Une des forces d'ibm SPSS Text Analytics for Surveys est qu'il permet aux analystes de faire facilement la distinction entre les réponses positives et les réponses négatives : «J'ai trouvé le cours génial» contre «J'ai trouvé le cours horrible» par exemple. Fonctionnement de la classification et de la catégorisation L'étape suivante est la classification et la catégorisation des réponses textuelles. La classification fait référence à la génération de définitions de catégories à l'aide de techniques intégrées. La catégorisation fait référence au processus d'évaluation et d'étiquetage pendant lequel des identifiants uniques sont attribués à chaque réponse. Grâce à ses puissants algorithmes de classification, IBM SPSS Text Analytics for Surveys permet aux analystes qui l'utilisent de créer automatiquement des catégories ou des codes dans lesquels sont placés les réponses aux enquêtes. Bien que les analystes puissent utiliser les termes, types et schémas découverts lors du processus d'extraction pour créer manuellement des catégories, les méthodes 8

«IBM SPSS Text Analytics for Surveys correspond exactement à ce que notre université recherchait pour extraire les informations essentielles contenues dans les réponses d'enquêtes sous forme de texte long. Grâce à ce nouveau produit, nous avons pu identifier rapidement les problèmes que les étudiants pouvaient rencontrer avec les services de notre université. Ces problèmes n'apparaissaient pas dans les données d'enquêtes quantitatives. Mais lorsque nous avons utilisé IBM SPSS Text Analytics for Surveys pour analyser le texte des réponses ouvertes, nous sommes parvenus à identifier ces problèmes puis à les résoudre. Les informations supplémentaires obtenues grâce à IBM SPSS Text Analytics for Surveys amélioreront considérablement la qualité des analyses de nos enquêtes et la capacité de prise de décisions de notre organisation.» John Lemon Responsable informatique Université d'aberdeen, Écosse automatisées du produit effectuent ces procédures beaucoup plus rapidement et facilement. Des techniques de classification basées sur la linguistique et sur les statistiques sont disponibles. Les analystes peuvent également utiliser une combinaison de techniques automatisées et manuelles pour finaliser les catégories. Chaque ensemble de données étant unique, le choix des techniques et l'ordre dans lequel un analystes les applique sont susceptibles de varier d'un projet à l'autre. Cependant, dans tous les cas, le processus est itératif : un analyste applique certaines techniques, évalue les résultats, effectue des modifications soit à la technique choisie soit aux catégories en résultant et affine encore les catégories. Voici une courte description des techniques de classification automatisées disponibles avec. Techniques linguistiques Les techniques de classification linguistique d'ibm SPSS Text Analytics for Surveys permettent de regrouper les noms. Elles créent des catégories en identifiant des termes susceptibles d'avoir la même signification (également appelés synonymes) ou qui sont plus spécifiques que la catégorie représentée par un terme (également appelés hyponymes) ou qui sont plus généraux (hyperonymes). Pour des résultats plus précis, ces techniques linguistiques excluent les adjectifs et autres qualificatifs. Dérivation de termes. Cette technique de classification linguistique crée des catégories en regroupant les termes composés de plusieurs mots dont le premier est commun (également appelées préfixes). Cette technique est particulièrement utile pour identifier les synonymes parmi les termes composés de plusieurs mots car les termes de chaque catégorie générée sont des synonymes ou ont une signification semblable. La dérivation de termes fonctionne avec des données de réponses de diverses longueurs et génère un petit nombre de catégories compactes. Séries lexicales. Cette technique, fondée sur l'inclusion de termes, crée des catégories en prenant des termes et en en recherchant d'autres qui les contiennent. Une série lexicale basée sur l'inclusion de termes correspond souvent à une hiérarchie taxinomique (une relation sémantique «est un/une»). Par exemple, le terme voiture de sport serait intégré dans le terme voiture. Dans IBM SPSS Text Analytics for Surveys, les termes à un ou plusieurs mots qui sont inclus dans d'autres termes à plusieurs mots sont d'abord examinés puis regroupés dans les catégories appropriées. L'inclusion de termes fonctionne avec des données de réponses de différentes longueurs et génère généralement un plus grand nombre de catégories que la dérivation de termes. Réseau sémantique. Cette technique crée des catégories fondées sur un index complet des relations qui existent entre les mots. D'abord, les termes extraits qui sont synonymes, hyponymes ou hyperonymes sont identifiés et regroupés. IBM SPSS Text Analytics for Surveys utilise un réseau sémantique avec des algorithmes sophistiqués pour filtrer les résultats dénués de sens. Cette technique produit de très bons résultats lorsque les termes font partie du réseau sémantique et ne sont pas trop ambigus. Elle n'est pas aussi utile lorsque le texte contient une importante terminologie spécialisée et spécifique à un domaine particulier que le réseau ne reconnaît pas. Techniques basées sur les statistiques La technique statistique principale proposée par IBM SPSS Text Analytics for Surveys se fonde sur la fréquence d'apparition des termes, des types ou des sché- 9

mas. Cette technique peut être utilisée à la fois sur les noms et sur d'autres qualificatifs. La fréquence est le nombre d'enregistrements contenant un terme ou un type et tous ses synonymes déclarés. Regrouper les éléments en fonction de leur fréquence peut générer des résultats intéressants qui peuvent indiquer une réponse commune ou importante. Cette approche fonctionne généralement mieux lorsque les données textuelles contiennent des listes ou des termes simples. Il peut également être utile d'appliquer cette technique aux termes qui ne sont pas encore catégorisés après l'application d'autres techniques. Fiabilité et ajustement Lorsque les analyste codent des données, ils veulent être certains que les catégories créées correspondent exactement aux réponses des personnes interrogées. Ainsi, deux codeurs indépendants utilisant les mêmes règles ou le même plan de codage coderont des réponses identiques de la même façon. Lorsque l'analyse de texte est effectuée manuellement, il s'agit d'un problème majeur. Un ensemble précieux de catégories peut être créé mais si celles-ci ne correspondent pas parfaitement aux réponses, la valeur de cet ensemble diminue considérablement. Lorsqu' est appliqué aux mêmes données, et que les mêmes ressources linguistiques sont utilisées, il reproduira toujours à l'identique l'analyse précédente. Sa fiabilité est totale. Cela ne signifie pas qu'il n'existera aucune erreur dans la catégorisation initiale mais plutôt qu'il est désormais possible de passer à l'étape suivante : l'ajustement. Lorsqu'ils effectuent un codage manuel, les codeurs lisent la réponse et peuvent saisir toutes les nuances d'une déclaration (même s'ils ont du mal à appliquer les catégories de codage). peut appliquer les catégories de codage, mais celles-ci doivent être définies afin que les nuances et les distinctions puissent être saisies. Il existe deux façons d'effectuer l'ajustement : en affinant les ressources linguistiques et en affinant les définitions des catégories. IBM SPSS Text Analytics for Surveys crée facilement des catégories sans intervention manuelle mais il est possible que ces catégories ne capturent pas toutes les informations contenues dans les réponses. Cependant, il est possible de modifier les ressources linguistiques de base du programme afin que la création de catégories devienne extrêmement sensible aux idiosyncrasies du texte. Pour ce faire, il est possible d'ajouter des mots et des phrases aux bibliothèques et dictionnaires linguistiques du logiciel, de spécifier des mots à exclure de l'analyse, de définir des synonymes ou de créer des bibliothèques personnalisées. En plus d'affiner les ressources linguistiques, les analyste peuvent consulter les catégories pour s'assurer que celles créées sont appropriées et qu'aucune catégorie importante n'a été oubliée. Si nécessaire, des techniques manuelles peuvent être utilisées pour effectuer des réglages mineurs, supprimer des classifications incorrectes et ajouter des enregistrements ou des termes qui pourraient avoir été oubliés. Analyser rapidement le texte dans sa subtilité se fonde sur des technologies avancées de text mining linguistique. Ces technologies basées sur des processeurs de langage naturel traitent le texte dans sa subtilité mais rapidement afin que les analystes puissent catégoriser les réponses textuelles beaucoup plus vite qu'avec des 10

méthodes manuelles. Les analystes peuvent modifier les dictionnaires et les bibliothèques pour un traitement encore plus rapide. Cependant, ils peuvent encore intervenir manuellement pour affiner les catégories et les réponses qu'elles contiennent. Analyses supplémentaires Parfois, la création de catégories de réponses textuelles est la seule analyse que nécessite une enquête spécifique. Le fait de connaître les principaux thèmes exprimés par les personnes interrogées et le nombre de personnes ayant mentionné chaque thème peut suffire à fournir des informations à propos de leurs attitudes, comportements ou croyances. Néanmoins, il peut aussi arriver qu'un analyste souhaite effectuer des rapports et analyses supplémentaires. Ceci peut être avantageux par exemple pour créer des tableaux et des graphiques affichant les résultats de l'enquête. Un analyste pourrait vouloir utiliser des variables d'autres parties du questionnaire pour en savoir plus sur les répondants ou analyser les catégories trouvées dans les réponses textuelles en les comparant avec d'autres données d'enquête. IBM SPSS Text Analytics for Surveys permet aux analystes d'effectuer des analyses supplémentaires en exportant des catégories de texte comme des dichotomies vers IBM SPSS Statistics ou Microsoft Excel. Dans chacun de ces programmes, les analystes peuvent effectuer des calculs statistiques et créer des graphiques montrant les relations contenues dans les données. Les catégories ou codes créés avec peuvent être enregistrés pour être réutilisés dans des enquêtes similaires ou dans des études de suivi. peut également échanger des données à l'aide d'ibm SPSS Data Collection Data Model. Cette gamme comprend des produits qui prennent en charge la création et le déploiement de questionnaires sophistiqués sur papier, par téléphone et en ligne ainsi que leur traduction dans plusieurs langues. IBM SPSS Data Collection permet aux utilisateurs d'effectuer des analyses de données avancées et de partager ou de publier les résultats de manière efficace et peu coûteuse. Conclusion Ce livre blanc vous a proposé un bref aperçu du rôle du texte dans les enquêtes d'opinion. Il a ensuite décrit plusieurs approches permettant de catégoriser le texte des enquêtes et, en particulier, les processus d'extraction et de catégorisation d'. Comme les techniques disponibles dans permettent aux chercheurs de combiner l'analyse de texte à l'analyse d'autres données d'enquête, ceux-ci obtiennent une compréhension plus riche et plus détaillée de leurs résultats qu'avec les autres méthodes. En rendant les réponses textuelles plus facilement quantifiables, IBM SPSS Text Analytics for Surveys permet d'inclure des informations tirées du texte dans les analyses quantitatives, y compris le type d analyses prédictives possibles avec le data mining d'ibm SPSS et les solutions d'optimisation de décision. Ainsi, IBM SPSS Text Analytics for Surveys, composant clé de la famille des solutions prédictives d'ibm SPSS, peut devenir un composant majeur de l'approche d'autres recherches ou organisations professionnelles dans l'utilisation de leurs données d'enquêtes d'opinion pour approfondir la compréhension qu'ils ont de leurs clients, anticiper les changements et préparer leurs organisations à y répondre correctement. 11

A propos d IBM Les logiciels IBM fournissent des informations complètes, cohérentes et précises permettant aux décideurs d améliorer les performances de leur entreprise. Un portefeuille complet de solutions de Business Intelligence, d Analyse Prédictive, de Performance financière & gestion de la stratégie et d Applications Analytiques permettent d avoir une vision claire et précise de la situation actuelle et de prédire les événements futurs. Combinées à de puissantes solutions métiers, les organisations de toute taille peuvent améliorer leur productivité, optimiser leur prise de décisions et délivrer de meilleurs résultats. Dans ce cadre, les logiciels IBM SPSS Predictive Analytics aident les organisations à prévoir les événements futurs pour une meilleure prise de décisions et donc une amélioration de leurs résultats. Nos clients des secteur privé, secteur public et universitaire se fient à la technologie IBM SPSS et considèrent cette technologie comme un avantage concurrentiel pour : fidéliser sa clientèle, attirer de nouveaux clients, maximiser ses ventes, réduire la fraude, minimiser les risques. En intégrant le logiciel IBM SPSS à leurs opérations quotidiennes, les organisations deviennent des entreprises prédictives capables d optimiser leur prise de décision afin d atteindre leurs objectifs et d obtenir un avantage concurrentiel important. Pour plus de renseignements, visitez le site www.ibm.com/spss/fr. Copyright IBM Corporation 2010 IBM Corporation Route 100 Somers, NY 10589 Droits restreints pour les utilisateurs du gouvernement américain - l utilisation, la duplication ou la divulgation sont soumises aux restrictions visées dans le contrat GSA ADP Schedule conclu avec IBM Corp. Produit aux États-Unis d Amérique Mai 2010 Tous droits réservés IBM, le logo d IBM, ibm.com, WebSphere, InfoSphere et Cognos sont des marques commerciales ou des marques déposées d International Business Machines Corporation aux États-Unis, dans d autres pays ou les deux. Si ces termes ou si d autres termes déposés d IBM sont représentés pour la première fois dans ce document suivis du symbole de marque déposée ( ou TM), ces symboles indiquent des marques déposées ou de droit commun appartenant à IBM lors de la publication de ce document. Ces marques commerciales doivent également faire l objet d un enregistrement ou doivent être des marques de droit commun dans les autres pays. Une liste des marques commerciales actuelles d IBM est disponible sur Internet sous «Droits d auteur et marques» à l adresse www.ibm.com/legal/copytrade.shtml. SPSS est une marque commerciale de SPSS, Inc., an IBM Company, déposée dans de nombreuses juridictions dans le monde. Les autres noms d entreprises, de produits ou de services peuvent être des marques commerciales ou des marques de service d autres organisations. Veuillez recycler software YTW03100-FRFR-01