Ecole Technique «Transformation de données documentaires» Poitiers, 14-16 mars 2011 Atelier 1: Sphinx import, conversion, export de données Introduction à la Recherche d'ist via le Web INRA Grignon, 03/2011 1
Plan de l atelier 1 - Sphinx Sphinx: contexte général d utilisation du logiciel Import de données: corpus Wos tabulé corpus Wos balisé (plain text) corpus Pubmed/Medline balisé (tags) Traitements des données importées (recodage de nouvelles variables): analyses lexicale: exples mc thématiques et pays agrégation de données tableaux croisés Export de données format fiche format tabulé
Sphinx contexte général d utilisation (1/2) import de données libres ou structurées de différentes natures : textuelles, numériques, codées,.. production d analyses quantitatives (nombres occurrences) et qualitatives (analyses lexicales), des bilans statistiques, des analyses multivariées (An. factorielles multiples) contexte d utilisation (inra): analyse de contenus, (bibliométrie) pas de gestion bibliographique
Sphinx - contexte général d utilisation (2/2) Chaîne type de traitement des données Bdd bibliographiques (Wos, Medline, ProdInra, références aux formats: tabulé, balisé, annoté SPHINX Import: analyse format données typage données Création de la base Sphinx (questionnaire) Analyse des données (variables) production de résultats Exploitation / diffusion des résultats : rapport export Cartographie (atelier 5)
Sphinx: import corpus Wos tabulé - étape 1/4: sélection du fichier sélection type fichier de données contrôle rapide de la structure
Sphinx: import corpus Wos tabulé - étape 2/4: gestion des séparateurs gestion des séparateurs entre champs / notices repérage des intitulés de champs
Sphinx: import corpus Wos tabulé - étape 3/4: typage des variables TI = type «texte» pour analyses lexicales attribution des types : texte / numérique / codé / fermé / aux différentes variables: détermine les traitements possibles
détection automatique de contenus non-conformes aux types de variables rectification par l utilisateur Sphinx: import corpus Wos tabulé - étape 4/4: détection / rectification d erreurs BP / EP = lettres dans une variable «numérique» Enregistrement base Sphinx = questionnaire
Sphinx: import corpus Wos balisé - étape 1/5: préparation du corpus (pré-import Sphinx) lancer la macro word à partir de Sphinx pour baliser le corpus
Sphinx: import corpus Wos balisé - étape 2/5: préparation du corpus (éxécution de la macro word) <balises>
Sphinx: import corpus Wos balisé - étape 3/5: validation des balises corpus balisé ou annoté? comment sont écrites les balises?
Sphinx: import corpus Wos balisé - étape 4/5: fonction des intitulés balisés analyse Sphinx par défaut correction utilisateur FN et VR: ne pas considérer comme balis PT identifie une nouvelle notice confirmer / modifier le choix automatique des balises
Sphinx: import corpus Wos balisé - étape 5/5: typage des variables confirmer / modifier le choix automatique des balises Procédure commune au différents formats d imports
Sphinx: import Pubmed / Medline - étape 1/2: pubmed > endnote
Sphinx: import Pubmed / Medline - étape 2/2: EndNote > Sphinx Import de données externes : Idem format tabulé Wos (diapo 5)
Sphinx: analyse lexicale - démarche générale (dictionnaires thématiques) Index du lexique Classés par occurrences Ordre alphabétique Racine ------------------------------- - MCa - MCb - MCc - MCd - - - - - MCn Sélection de mots-clés (thèmes, pays,...) MC thématique 1 MC thématique 2 MC thématique 3 Enregistrement dans des dictionnaires Dictionnaire 1 Dictionnaire 2 Dictionnaire 3 Création (recodage) de nouvelles variables
Sphinx: analyse lexicale TI-AB-DE - étape 1/3: fusion des variables TI+AB+DE TI AB DE Recodage d une nouvelle variable TI / AB / DE Analyse lexicale intérêt: analyse lexicale globale sur les contenus de TI, AB et DE
Sphinx: fusionner des variables - étape 1/3: fusion des variables TI+AB+DE (imp. écran)
Sphinx: analyse lexicale TI-AB-DE - étape 2/3: recherche de termes dans l index
Sphinx: analyse lexicale TI-AB-DE - étape 3/3: regroupement des mots dans 1 dictionnaire 1ère méthode: les termes appartenant à une thématique sont identifiés dans une liste thématique mais restent sélectionnables séparément. Exple: tous les mots contenant water sont listés à plat dans le dictionnaire «water» Syntaxe du dictionnaire de regroupement: Intérêt: regrouper dans un même tableau tous les termes définissant un sujet
Sphinx: analyse lexicale TI-AB-DE - étape 3/3: ajout des mots dans 1 dictionnaire 2 ème méthode: tous les termes apparentés sont regroupés automatiquement sous un terme générique. Exple: tous les mots contenant water sont regroupés sous «water» Syntaxe du dictionnaire de regroupement: #water=water*=freshwater=groundwater=groundwaters=wastewater=water =waterlogging=watermarks=waters=watershed=watersheds Intérêt: Synthétiser plusieurs environnements thématiques dans un même tableau, chaque domaine étant étiqueté par un terme générique.
Sphinx: analyse lexicale C1 - repérage des noms de pays (1/2) Index des termes de C1 Ajout des pays Marquage des pays Dictionnaire des noms de pays
Sphinx: analyse lexicale C1 - tableau des noms de pays (2/2) Index des termes de C1 Recodage Tableau d effectifs de la variable «pays»
Sphinx: analyse lexicale C1 - agrégation des pays par zones géographiques (2/2) Index des termes de C1 Pays par zones géo.
mc Sphinx: tableaux croisés d effectifs équipes ou Cartographie gephi (voir atelier 5)
Sphinx: formats d export - (1/2) choix du format: tabulé ou fiche
Sphinx: formats d export - (2/2) filtrer les données exportées un profil est construit par sélection et combinaison de modalités choisies dans les variables