En vue de l'obtention du

Dimension: px
Commencer à balayer dès la page:

Download "En vue de l'obtention du"

Transcription

1 THÈSE En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délivré par l'université Toulouse III - Paul Sabatier Discipline ou spécialité : Informatique Présentée et soutenue par Ilhème GHALAMALLAH Le 18 Décembre 2009 Titre : Proposition d'un modèle d'analyse exploratoire multidimensionnelle dans un contexte d'intelligence Economique. JURY Corine CAUVET Professeur, Université Aix-Marseille III Rapporteur Claude CHRISMENT Professeur, Université Toulouse III Président du jury Bernard DOUSSET Professeur, Université Toulouse III Directeur de Thèse Péré ESCORSA Professeur, Université polytechnique de Catalogne Examinateur André FLORY Professeur, INSA de Lyon Rapporteur Michel LAMURE Professeur, Université de Lyon I Examinateur Maryse SALLES Maître de conférences, Université Toulouse I Examinateur École doctorale : École Doctorale Mathématique Informatique Télécommunications de Toulouse Unité de recherche : Institut de Recherche en Informatique de Toulouse Équipe d accueil : Systèmes d'informations Généralisés - Extraction et Visualisation d'informations Directeur de Thèse : Bernard DOUSSET

2

3 Ilhème GHALAMALLAH Proposition d'un modèle d'analyse multidimensionnelle dans un contexte d'intelligence Economique. Directeur de thèse : Bernard Dousset, Professeur à l'université Toulouse III - Paul Sabatier Résumé La réussite d une entreprise est souvent conditionnée par sa capacité à identifier, collecter, traiter et diffuser de l'information à des fins stratégiques. Par ailleurs, les technologies de l information et de la connaissance apportent des contraintes auxquelles les entreprises doivent s'adapter : un flot continu, une circulation beaucoup plus rapide, des techniques toujours plus complexes. Le risque est d'être submergé par cette information et de ne plus pouvoir distinguer l'essentiel du négligeable. En effet, avec l avènement de la nouvelle économie dominée par le marché, la problématique industrielle et commerciale de l entreprise est devenue très complexe. Désormais, pour être compétitive, l entreprise doit savoir gérer son capital immatériel. L intelligence économique (IE) est une réponse aux bouleversements de l environnement global des entreprises et plus largement de toute organisation. Dans une économie où tout se complexifie et bouge rapidement, la gestion stratégique de l'information est devenue l'un des moteurs essentiels de la performance globale des entreprises. L IE est une démarche et un processus organisationnel qui permet d'être plus compétitif, par la surveillance de son environnement et de sa dynamique. Dans ce contexte, nous avons constaté qu une grande part de l information à portée stratégique vient du relationnel : liens entre acteurs du domaine, réseaux sémantiques, alliances, fusions, acquisitions, collaborations, cooccurrences de tous ordres. Nos travaux consistent à proposer un modèle d analyse multidimensionnelle dédiée à l IE. Cette approche repose sur l extraction de connaissances par l analyse de l évolution des données relationnelles. Nous proposons un modèle permettant de mieux comprendre l activité des acteurs d un domaine donné, leurs interactions mais aussi leur évolution et leur stratégie, ceci dans une perspective décisionnelle. Cette démarche repose sur la conception d un système d information générique d analyse en ligne permettant d homogénéiser et d organiser les données textuelles sous forme relationnelle et, de là, en extraire des connaissances implicites dont le contenu et la mise en forme sont adaptés à des décideurs non spécialistes du domaine de l extraction des connaissances.

4

5 Ilhème GHALAMALLAH Proposition d'un modèle d'analyse multidimensionnelle dans un contexte d'intelligence Economique. Directeur de thèse : Bernard Dousset, Professeur à l'université Toulouse III - Paul Sabatier Abstract A successful business is often conditioned by its ability to identify, collect, process and disseminate information for strategic purposes. Moreover, information technology and knowledge provide constraints that companies must adapt : a continuous stream, a circulation much faster techniques increasingly complex. The risk of being swamped by this information and no longer able to distinguish the essential from the trivial. Indeed, with the advent of new economy dominated by the market, the problem of industrial and commercial enterprise is become very complex. Now, to be competitive, the company must know how to manage their intangible capital. Competitive Intelligence (CI) is a response to the upheavals of the overall business environment and more broadly to any organization. In an economy where everything moves faster and more complex, management Strategic Information has become a key driver of overall business performance. CI is a process and an organizational process that can be more competitive, by monitoring its environment and its dynamics. In this context, we found that much information has strategic significance to the relationship: links between actors in the field, semantic networks, alliances, mergers, acquisitions, collaborations, co-occurrences of all kinds. Our work consists in proposing a model of multivariate analysis dedicated to the IE. This approach is based on the extraction of knowledge by analyzing the evolution of relational databases. We offer a model for understanding the activity of actors in a given field, but also their interactions their development and strategy, this decision in perspective. This approach is based on the designing a system of generic information online analysis to homogenize and organize text data in relational form, and thence to extract implicit knowledge of the content and formatting are adapted to non-specialist decision makers in the field of knowledge extraction.

6

7 Ilhème GHALAMALLAH Proposition d'un modèle d'analyse multidimensionnelle dans un contexte d'intelligence Economique. Mots-clés Modélisation, extraction et gestion des connaissances, découverte de connaissance, Système d information, systèmes interactifs, systèmes d aide à la décision, entrepôt de données, bases de données relationnelles, gestion bibliographique, indexation automatique, recherche d information. Analyse de données, analyse exploratoire, analyse textuelle, analyse relationnelle, analyse multidimensionnelle, indicateurs, visualisation, fouille textuelle, fouille numérique, bibliométrie, scientométrie, infométrie, Veille scientifique, veille technologique, intelligence économique, aide à la décision, analyse stratégique, stratégie, veille stratégique, veille.

8

9

10

11 Remerciements Dans le cadre de ma thèse, nombreux sont ceux qui m ont apporté une contribution scientifique, logistique ou morale. Que chacun trouve dans l accomplissement de cette thèse l expression de ma reconnaissance pour sa contribution quelle qu elle soit. Cependant je voudrais exprimer ma gratitude à messieurs Gilles Zurflhu et Claude Chrisment, directeurs de l équipe des Systèmes d Information Généralisés pour m avoir accueillie. Je remercie tout particulièrement Monsieur Claude Chrisment pour sa patience et sa disponibilité. Il a toujours été là pour me guider et m encourager avec beaucoup de rigueur. C est un honneur pour moi d avoir travaillé avec lui. Je tiens donc, ici, à le remercier particulièrement pour sa patience et ses qualités humaines. Il a toujours su utiliser les mots justes, m écouter dans les moments difficiles et me guider dans mes travaux avec beaucoup de pédagogie. Je tiens tout particulièrement à remercier les professeurs Corine Cauvet et André Flory de m avoir fait l honneur d être rapporteurs de ce mémoire. J exprime toute ma reconnaissance à mon directeur de thèse, le professeur Bernard Dousset. Il a su depuis le début de ma thèse, être là aux moments décisifs. Son optimisme naturel, son humanisme, sa sagesse, son esprit visionnaire, son sens du consensus, m ont permis d évoluer dans un environnement stable et m ont donné des repères précieux. Je souhaite remercier vivement mesdames Maryse Salles-Colletis et Josiane Mothe pour leurs disponibilités, leurs conseils, pour toutes les réunions qui ont permis de redonner un deuxième souffle à mes travaux. Merci à Eloise Loubier et Anass Elhaddadi pour avoir égayé l ambiance du bureau durant nos collaborations studieuses ou encore autours d un bon café. Mes pensées vont aussi pour tous les membres de l équipe avec qui j ai pu travailler ou encore simplement partager de bons moments. Pendant ces années de thèse, j ai donné également des cours qui m ont permis d acquérir de l expérience, de prendre du recul par rapport à la thèse et surtout de rencontrer des gens extraordinaires. Je tiens à remercier Bernard Dousset pour m avoir fait confiance et donné l opportunité d enseigner pour la première fois. Un merci sans limite à Alain Berro et Nathalie Vallès pour leur soutien et pour la bonne ambiance qu ils ont instauré durant les enseignements de C2i. Je remercie également David Panzoli pour son aide pendant ma première année d ATER. Toute mon amitié va vers les doctorants, actuels ou anciens, de l équipe et en particulier Dana Kunhkun, Bouchera Soukkarieh, Ronan Tournier, Désiré Kaomparé, Estella Antoni, Nissou, Je remercie également les ex-irit, Nadhem, Nico, Mehdi, Olfa et Elie pour leur grain de folie. Je remercie ma famille et mes amis, qui n ont jamais cessé de me soutenir et de me faire confiance. Merci à tous mes copains, éparpillés aujourd hui, Asma, Mounia, Farida, Nadège et Syrine pour tous les moments fous qu on a passé ensemble et qui me redonnaient la force de travailler. Un merci infini à mes parents, ma sœur et mon frère, et syrine. Rien de ce que je pourrai écrire, ni dire ne pourra exprimer ma gratitude. Merci à syrine d avoir été là à chaque instant, d avoir partagé mes peines, mon stress, mes joies, mes espoirs, mes rêves, etc. Merci à mes parents, à ma sœur et mon frère, d avoir cru en moi, pour m avoir donné autant d amour et avoir tout fait pour me donner les moyens et le courage de mener mes études jusqu au bout.

12

13 Table des Matières Introduction générale Contexte de travail Problématiques Contributions Organisation du mémoire Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d informations au cœur de la démarche 2.1 Introduction Intelligence économique : genèse, évolution et élucidation Analyse stratégique Considérations générales L analyse par l activité : le modèle SWOT L analyse par les forces concurrentielles : le modèle PORTER Analyse par les processus de décision : Le modèle IDC Synthèse : de l analyse stratégique à l Intelligence Economique La veille Processus de la veille Les domaines de la veille Typologie de la veille stratégique Synthèse : De la veille stratégique à l Intelligence Economique Les systèmes d information et aide à la décision L intelligence Economique par son processus Classification de l information Intelligence collective Les modèles d analyse de l IE La méthode d analyse MEDESIIE Les modèles SITE Un système d information adapté aux besoins d une démarche d IE Evaluation des outils d IE Expression du besoin Collecte d information publiée Collecte d information primaire Traitement et analyse... 59

14 2.6.5 Diffusion Evaluation Intelligence économique : synthèse Chapitre 2. La découverte des connaissances 3.1 Introduction Spécifications Extraction de connaissances à partir de bases de données Architecture d un système type d ECBD De la Fouille de donnée à la Fouille de texte Approche linguistique Approche statistique Domaine d application : l analyse bibliométrique Etapes d extraction de connaissances à partir du texte Document électronique Structure logique d un document Exemples de structure logique Des documents à l entrepôt de document Méthodes de représentation multidimensionnelle réduite des documents Unités textuelles Mesures de dépendances Variables quantitatives Variables qualitatives Matrice de Présence-Absence Matrice de Cooccurrence Matrice de cooccurrence simple Matrice de Cooccurrence Simple Symétrique Matrice de Contingence Matrice de Cooccurrence Multiple Méthodes de fouilles de texte La classification et le regroupement La classification ascendante hiérarchique (CAH) La Classification Par Partition (CPP) Association L analyse en composante principale (ACP) L analyse factorielle des correspondances (AFC) Séquences L analyse factorielle multiple (AFM) L analyse procustéenne La restitution Les outils d extraction de connaissances à partir du texte Les solutions intégrées Les outils ECT développé au sein de l équipe SIG-IRIT... 96

15 La Plateforme Tétralogie Le système Doc Cube Fouille de Texte : Synthèse Chapitre.3 Xplor : Modèle d analyse exploratoire multidimensionnelle 4.1 Introduction Présentation du processus d analyse exploratoire multidimensionnelle Xplor Spécification Indicateur relationnel Indicateur uni-varié Présentation générale des étapes du processus Xplor Planification Considérations générales Fonctionnement général de l activité «planification» Recherche et collecte des documents Sources et systèmes de recherche Structure de la collection : attributs Fonctionnement général de l activité «recherche et collecte de documents» Homogénéisation et/ou structuration des documents Descripteur de format spécifique Descripteur de format générique Fonctionnement général de l activité «homogénéisation et /ou structuration» Représentation multidimensionnelle des documents Modèle à deux dimensions Modèle à trois dimensions Fonctionnement général de l activité «représentation multidimensionnelle des documents» Calcul des indicateurs et analyse Fonctions de manipulation Fonctions d agrégation Fonctionnement général de l activité «calcul d indicateur et analyse» Validation et diffusion Modèle de représentation multidimensionnelle des documents Considération générales Notion de dépendance Généralisation : tableaux de Burt Base de calcul pour ces mesures Impact d un document sur les différentes matrices Modèle à deux dimensions Principe Tableau à deux dimensions

16 4.3.3 Modèle à trois dimensions Principe Tableau à trois dimensions Fonctions... Erreur! Signet non défini Fonctions de manipulation Sélection Restriction Seuil Ordre Environnement Evolution Document Fonctions d agrégation Somme Minimum Maximum Comptage Moyenne Fréquence Combinaison de fonctions Le profil des utilisateurs du processus d analyse exploratoire multidimensionnelle Considérations générales Aide à la coopération et la coordination Modèle utilisateur Le profil utilisateur Historique des interactions Gestion des exceptions et des particularités Objectifs Processus d apprentissage Synthèse Chapitre 4. Implantation et expérimentation 5.1 Introduction Motivations & objectifs Limites de la plateforme Tétralogie Problème de pertinence pour l'utilisateur Problème de performance Compilation des matrices dans une base de données Limites de la première version du prototype Xplor Objectifs Notre approche Modèle de données Compilation des matrices

17 5.4 Architecture du prototype Xplor Fonctionnalités du prototype XPLOR Concepts IE et veille Classification des liens IE Analyse générale Analyse détaillée Administration des données Analyse des données Expérimentations Enjeux et problématique Proposition Besoin informationnel Source d information Indicateurs Collecte de document Structuration Homogénéisation Représentation multidimensionnelle La fonction Xplor «Items et champs» La fonction Xplor Cooccurrences Calcul d indicateur & Visualisation Analyse de la base de données Calcul des indicateurs uni-variés et visualisation Validation... Erreur! Signet non défini. 5.7 Synthèse Conclusion générale et perspectives Synthèse des travaux Perspectives..194

18

19 Introduction générale Contexte de travail...19 Problématiques...20 Contributions...21 Organisation du mémoire...23 Contexte de travail Avec l ouverture plus large des frontières, se sont intensifiés, à l échelle mondiale, les échanges de toutes sortes : capitaux, marchandises, services, technologies, personnes, informations, savoirs, etc. Favorisée par les moyens universels de communication, les interdépendances croissantes des états dans les domaines économique, politique, social, culturel, scientifique et technologique ont transformé le monde en un vaste système où tout évènement qui survient à un point du globe a des répercutions au point opposé. Dans un univers de complexité et de compétition, où les flux et les réseaux explosent, le savoir, l information et la communication se situent au cœur de la gouvernance de toutes les organisations. Ils représentent des atouts stratégiques pour l entreprise comme pour les institutions de l état et de la société civile. En plus de la complexité, la nouvelle société fondée sur l information et le savoir se caractérise par le rythme exponentiel des progrès scientifiques et technologiques. Ceux-ci ébranlent en permanence les organisations, y introduisant des changements discontinus, des ruptures, des accélérations soudaines qui rendent l avenir hautement imprévisible. La masse des informations s accroit inéluctablement avec la capacité de stockage des données que permettent les dernières technologies de l information et de la connaissance. Le risque pour l entreprise est d être surinformée, submergée par l accélération des flux continus de données éparses et multiformes, sans pouvoir s y retrouver. Le problème est celui de la navigation dans un océan d informations en perpétuel mouvement tout en récupérant l information utile à la décision. Il s agit d assembler les pièces éparses d un puzzle en vue d en découvrir l image, donc de repérer et mettre en relation des signaux forts, des signaux faibles, des relations cachés dans la masse des données disponibles et construire progressivement la connaissance de l environnement de l organisation. La maîtrise de l avenir d une entreprise est conditionnée par sa capacité à collecter, interpréter, protéger, diffuser et utiliser l information à des fins stratégiques. C est cette union entre l information et la stratégie qui est au centre de la notion d Intelligence Economique (IE). Ainsi que le décrivent Christian Marcon et Nicolas Moinet : «Qu il s agisse de surveiller son champ concurrentiel, de protéger ses informations stratégiques, de capitaliser ses connaissances ou d influencer son environnement, la question est bien celle de l utilisation stratégique de l information» [Marcon, 2006]. L IE intègre ainsi la notion d intelligence collective parce qu elle fait travailler en réseau les divers acteurs concernés par chacune des étapes, de la collecte à l utilisation de l information, faisant converger leurs activités dans une même vision stratégique. En ce sens, le vocable "système d'intelligence économique" désigne l'ensemble coordonné des pratiques et des stratégies d'utilisation de l'information utile déployées par une organisation [Martre, 1994]. A l échelle de l état, le système d IE se définit par la coordination et l harmonisation, aux différents niveaux du pays, de la gouvernance et de la gestion stratégique de l information des diverses organisations qui s y activent.

20 Dans le contexte actuel, toute organisation doit évoluer et s adapter très vite aux changements de son environnement. L entreprise qui est en «intelligence» avec son environnement prend l avantage sur ses concurrents qui le sont moins. En ce sens, elle doit surveiller les indicateurs de bonne santé à leur niveau interne et externe (marché) pour détecter les crises et les défaillances ou les opportunités du système. D où le problème majeur de la maitrise et de la qualité de l information. L information est devenue un actif extrêmement riche et complexe sur lequel se fondent les décisions et l audit. Si cet actif n est pas soumis à des règles visant à augmenter sa fiabilité et sa traçabilité, alors l opacité des prises de risques, quel que soit le secteur d activité, ne fera que croître et les crises se succèderont. La mise en place d un système d information d IE représente, pour l organisation, la réponse indispensable aux défis d un environnement mondialisé, de plus en plus complexe et imprévisible. Les systèmes d information pour l aide à la décision vont permettre à l entreprise d être non seulement réactive mais aussi proactive. Réactive, celle-ci visera à s adapter avec davantage de célérité que ses concurrentes aux changements de son environnement. Proactive, elle cherchera à adopter une attitude anticipatrice, à mieux appréhender le sens de la dynamique de l environnement. Elle identifiera les menaces actuelles ou potentielles pour s en prémunir ainsi que les opportunités à saisir. Problématiques La démarche d IE permet de fournir à l entreprise, ou dans un sens plus large à l organisation, une compréhension fine de son environnement, à travers les informations internes et externes auxquelles elle a accès. Cette compréhension de l environnement est destinée à aider les décideurs dans leurs choix de stratégies que ce soit à court, à moyen ou à long terme. Dans ce contexte, une grande part de l information à portée stratégique prend souvent une forme relationnelle : liens entre acteurs du domaine, réseaux sémantiques, alliances, fusions, acquisitions, collaborations, cooccurrences de tout ordre. La pertinence des connaissances extraites, à partir des données disponible, dépend très souvent de la prise en compte de l évolution des données mais aussi de celles de leurs interactions. La gestion et la mise à disposition des informations et des connaissances extraites, peuvent être réalisées au moyen d un système d information. Cet outil, permet aux décideurs d avoir une vision globale sur les activités d une entreprise par un accès rapide et interactif à un ensemble de vues des données organisées. Ces vues permettent de refléter l aspect multidimensionnel de l environnement de l entreprise [Colliat, 1996]. En se basant sur le constat de la très forte implication du relationnel dans la prospective, nos travaux se situent à l interface de ces deux domaines, afin d élaborer un modèle d analyse multidimensionnel permettant la compréhension des activités humaines, de leurs interactions mais aussi de leur évolution, dans une perspective décisionnelle. Son intérêt réside dans sa capacité à : prendre en compte les différentes informations disponibles sous toutes leurs dimensions, analyser les relations existantes entre elles et leur évolution. L objectif du modèle proposé, est de comprendre et résumer en de nouvelles connaissances synthétiques l environnement d une organisation dans sa dynamique. Nos travaux proposent une approche d analyse de l environnement informationnel d un problème décisionnel. Cette approche repose sur l extraction des connaissances par l analyse de l évolution des données relationnelles. Notre but est de proposer un système unifié en ligne pour générer et organiser les données sous forme relationnelle et delà extraire des connaissances implicites dont le contenu et la mise en forme sont adaptés à des décideurs non spécialistes du domaine de l extraction des connaissances. Une multiplicité de logiciels a été conçue pour aider la prise de décision, mais leur plus ou moins grande difficulté d utilisation a plutôt contribué à rendre la gestion de l information de plus en plus complexe. Il est donc ici question pour nous de proposer un système d information simplifié, ergonomique et universel,

21 orienté spécifiquement vers l analyse stratégique. Le système d information visé doit pouvoir homogénéiser avec la bonne granularité et déduire de façon automatique des informations synthétiques à caractère stratégique à partir de bases de données ouvertes, en rapport avec l environnement d une organisation. Contributions Dans notre démarche, nous avons recours aux techniques d extraction de connaissances à partir de corpus textuels pour étudier, dans un contexte d IE, des données relationnelles évolutives issues de l environnement informationnel d une entreprise. Cette thèse a été soutenue par l équipe des Systèmes d Informations Généralisés (SIG), plus particulièrement les membres de l équipe d Exploration et de Visualisation d Information (EVI) de l Institut de Recherche en Informatique de Toulouse (IRIT). Les domaines abordés dans le cadre de nos travaux concernent l IE et la veille stratégique, la fouille de texte, l extraction de connaissance, la bibliométrie, les systèmes d information. Notre démarche cible l analyse des informations relationnelles évolutives reposant sur un système d information adapté aux besoins de l utilisateur voulant effectuer une analyse stratégique d un domaine spécifique dans un contexte d IE. Le système d information visé repose sur un modèle d analyse exploratoire multidimensionnelle, basé sur des méthodes d extraction, d homogénéisation, de croisement et d exploration des données textuelles. Nous définissons, pour cela, un modèle générique de création et de gestion de connaissances alimenté par les sources électroniques textuelles ouvertes qu elles soient structurées ou semi structurées. Ce type de données est le plus riche puisqu il concerne 80% des informations servant de référentiel aux décisions. Palliant la lourdeur et l inadaptation aux besoins de l IE des systèmes d informations actuels, qui traitent ce type de données, notre modèle va permettre à l entreprise d être plus compétitive grâce à une meilleure maitrise de l information sur son environnement et sur la dynamique de celui-ci. Le modèle proposé va couvrir les différentes étapes de traitement, d analyse et de visualisation des données. L approche adaptée consiste à appliquer les techniques bibliométriques à la démarche d IE. L objet principal de la bibliométrie consiste à analyser, à l aide de méthodes statistiques et mathématiques, un corpus documentaire, afin d en extraire des relations significatives entre ses divers éléments. Elle a aussi pour objet d étudier les livres ou revues scientifiques quant à leur usage et leur production. Dans un premier temps, la bibliométrie était destinée à répondre à des besoins purement documentaires. Dans un second temps, les sociologues ont utilisés ces techniques statistiques pour comprendre les phénomènes de la connaissance scientifique. Et ce n est qu à partir des années 80 que les techniques bibliométriques ont commencées à avoir des retombées au niveau industriel par l adaptation de ces techniques notamment aux bases de brevets. L application des techniques bibliométriques dans une démarche d IE permet de dégager des indicateurs de tendances à partir de notices bibliographiques d articles scientifiques ou de brevets. Ces indicateurs vont offrir aux décideurs une vision synthétique de l environnement d un domaine donné en reflétant l'autoorganisation de ses communautés, de ses réseaux de publications, de ses acteurs, etc. Nous définissons deux classes d indicateurs : Des indicateurs uni-variés permettant des comparaisons quantitatives entre des ensembles de publications caractérisés, Des indicateurs relationnels destinés à cartographier, de façon figée ou évolutive, les domaines couverts par des ensembles de publications. Le modèle d analyse exploratoire multidimensionnelle proposé s appuie sur deux principaux modèles : Le modèle de représentation multidimensionnelle des documents

22 Le modèle de calcul d indicateurs D autre part, dans le contexte de veille stratégique, Tétralogie [Dousset, 2003] est un outil particulièrement bien adapté aux analyses macroscopiques car il permet de dégager les signaux forts, les signaux faibles et les tendances à partir d'un corpus de documents collectés sur un sujet précis. L'information élaborée, qui en est issue, représente une synthèse obtenue par diverses méthodes d analyse de données et diffusée via des visualisations graphiques. Mais à l'issue des très nombreuses analyses stratégiques que nous avons déjà réalisé avec ce logiciel, il est apparu que les utilisateurs finaux des analyses produites veulent, en complément de l'aspect global et stratégique (connaissances générales), des zooms plus précis sur certains points et ce afin de satisfaire leurs besoins spécifiques (connaissances ciblées) d'information sur des éléments qu'ils ont déjà identifiés (concurrence, marchés, nouveaux produits ou procédés, partenaires potentiels, etc.) ou afin d en découvrir d autres. A posteriori, de nombreux experts ou décideurs sont demandeurs de plus de détails dans sur les éléments traditionnels de leur environnement. Notamment, pour tout ce qui concerne leur vocabulaire spécifique, les acteurs qu'ils côtoient, les marchés qu'ils convoitent, les alliances qu'ils projettent. Nous proposons donc de continuer à valider le modèle proposé et de compléter les analyses macroscopiques par un système de navigation en ligne au cœur de l'information relationnelle obtenue par des recoupements statistiques, des classifications ou des analyses multidimensionnelles. Le but étant de privilégier l'extraction d'information en fonction du contexte général et non exclusivement par décryptage du contenu de quelques documents pris séparément. Il devient ainsi possible de retrouver, à partir d'un élément connu (acteur, mot clé), toute ou partie de l'information qui lui est connexe (équipes, collaborations, concepts, émergences, mots associés, etc.) et ce par l'utilisation de nombreux opérateurs d'association ou de filtrage et de fonctions de reporting pertinentes. Ce prototype est destiné à restituer les résultats d une étude stratégique. Nous avons privilégié différents niveaux, synthétiques, cartographiques, représentant les principaux thèmes et acteurs. Le décideur constitue ses propres filtres de sorte que ses modes de lecture puissent répondre à des questions aussi bien d ordre stratégique que tactique ou opérationnel, etc. Le prototype développé permet d'effectuer des analyses stratégiques sur des corpus d'information textuelle issus des sources les plus diverses comme les bases en ligne (publications scientifiques, brevets, portails, annuaires), les Cd, le Web visible et invisible, les news, la presse, les traces de connexions aux sites, les bases internes, et donne la possibilité aux décideurs de mener par eux même leurs investigations sans la participation d un analyste confirmé ou d un expert. Ses applications sont très diverses : identification des thématiques et des acteurs du domaine, mise en évidence des stratégies de développement et de coopération, proposition de scénarios d évolution technologique (innovation), extraction des signaux faibles. Parallèlement, il a été proposé une adaptation de la plate-forme d analyse stratégique Tétralogie au traitement des langues orientales, en particulier l arabe et le chinois grâce à un travail sur le codage UNICODE UTF-8 en utilisant les capacités de transcodage d outils comme MS-Word. En se basant sur le codage informatique unifié de ces langues, nous pouvons détecter les entités nommées via le traitement de bases semi structurées comme les publications scientifiques, les brevets et la presse. Il est alors possible d établir des dictionnaires assez complets de termes scientifiques et techniques (mots-clés, classifications, etc.), de noms d acteurs (auteurs, personnalités, entreprises, organismes publics, laboratoires, etc.), de lieux géographiques, de dates et de les traduire, si possible sans ambigüité, dans la langue de l utilisateur. Le croisement de ces briques signifiantes de texte permettra l établissement des réseaux sociaux et sémantiques afin de visualiser les stratégies sous-jacentes du domaine. Si, de plus, le

23 facteur temps est pris en compte (évolution des réseaux), une vision prospective se dégage aisément (tendances, trajectoires des acteurs, type d évolution, ruptures technologiques, etc.). Organisation du mémoire m Ce mémoire est composé de quatre chapitres, ordonnés selon notre démarche d'analyse, comme le montre la Figure 1. Les deux premiers chapitres décrivent l'existant dans le domaine d IE et de la découverte de connaissance. Notre contribution porte sur la proposition d un modèle d analyse exploratoire multidimensionnelle dans un contexte d IE. Le dernier chapitre présente l implantation et les expérimentations effectuées pour valider notre modèle. Chapitre 1 Intelligence Economique Analyse stratégique, Veille stratégique, Processus et modèles d IE, Système d information d IE. Chapitre 2 La découverte de connaissance Processus de l ECBD, Structure de document, Techniques de la Fouille de Texte, Plateforme Tétralogie. Chapitre 3 Proposition d un modèle d analyse multidimensionnel Indicateurs uni-variés Indicateurs relationnels Processus d analyse exploratoire multidimensionnelle Modèle de représentation multidimensionnelle des documents Modèle à deux dimensions Modèle à trois dimensions Modèle de calcul d indicateurs Chapitre 4 Implantation & Validation Architecture du prototype Xplor, Fonctionnalités, Expérimentation, Validation. Figure 1 : Organisation du mémoire.

24 L objectif du premier chapitre est de présenter le contexte général de nos travaux. Au cours de ce chapitre, nous présentons les origines et l évolution du concept d IE ainsi que ses objectifs et ses différents besoins. L IE va permettre aux entreprises une organisation structurelle et informationnelle pour faire face aux nouveaux défis (menaces et opportunités) de la mondialisation. Cette démarche offre une nouvelle vision de l organisation de l entreprise qui est principalement orienté vers une organisation basée sur la maitrise de l information. Les besoins de la démarche d IE sont centrés vers la connaissance de l environnement de l entreprise dans un contexte décisionnel. Nous identifions le processus d IE à travers les différentes étapes de la démarche et les différents niveaux d évolution de l information vers la connaissance et l intelligence ainsi que les acteurs impliqués. Nous nous intéressons aussi à comment réorienter les systèmes d informations vers une meilleure maitrise des connaissances et une meilleure circulation des informations aussi bien au niveau interne et qu externe. Au cours de ce chapitre, nous présentons une évaluation des différents outils d IE utilisés par les entreprises. Cette évaluation est basée sur un ensemble de critères, définis sous forme de fonctionnalités, que les outils d IE doivent satisfaire. Afin de répondre aux besoins d analyse, nous proposons de coupler les besoins des étapes du processus d IE avec les principes et techniques issues du domaine de la découverte des connaissances à partir du texte. Dans ce contexte, nous présentons, dans le chapitre 2 de ce manuscrit, le domaine de la découverte des connaissances et les techniques de la Fouille de Texte. Nos travaux vont dès lors consister à définir un modèle de traitement et de gestion des données dans le contexte du processus d IE en y intégrant deux dimensions incontournables que sont le relationnelle et le temporelle. Ainsi notre modèle d analyse multidimensionnelle, va se baser sur les quatre principales étapes du processus d IE, à savoir «La formulation du besoin, La collecte et le traitement des donnée, L analyse, La restitution et interprétation des résultats». Dont l objectif principal est la création de nouvelles connaissances souvent totalement implicites et à visée stratégique, qui se déduisent le plus souvent de l analyse de l évolution des réseaux d acteurs (auteurs, inventeurs, sociétés, villes, régions, pays, journaux, etc.), des réseaux sémantiques (mots-clés, free-terms, multi-termes, ontologies, etc.) et des interactions (acteur sémantique). Dans le troisième chapitre, nous présentons le modèle d analyse exploratoire multidimensionnelle Xplor basé sur la prise en compte de l aspect temporel au sein de l analyse. Il repose sur l extraction des connaissances à partir des données textuelles par l analyse des données relationnelles évolutives. Le modèle d analyse exploratoire multidimensionnelle proposé s appuie sur deux principaux modèles : Le modèle de représentation multidimensionnelle des documents Le modèle de calcul d indicateurs L objectif du chapitre 4 est d implanter et expérimenter le modèle d analyse multidimensionnel. Notre contribution consiste à proposer un système d analyse et de navigation en ligne, que nous nommons Xplor, exploitant systématiquement les données relationnelles et leur évolution. Notre approche consiste à privilégier l'extraction d'information en fonction du contexte général et non exclusivement par décryptage du contenu de quelques documents pris séparément. Il devient ainsi possible de retrouver, à partir d'un élément connu (acteur, mot clé), toute ou une partie de l'information qui lui est connexe (équipes, collaborations, concepts, mots associés, etc.) ainsi que son évolution (émergence, rupture, etc.). Dans le cadre de la collaboration du Groupe de Recherche en Intelligence Economique, nous avons expérimenté le prototype Xplor sur une analyse stratégique de données chinoises, portant sur le secteur des biotechnologies agricoles en chine. Cette expérimentation est aussi présentée dans ce chapitre. Enfin, nous concluons sur l ensemble des travaux présentés dans ce mémoire. Nous présentons nos perspectives de recherche sur ces axes d étude, en reprenant les résultats du sondage, mais aussi en évaluant les problématiques engendrées par nos travaux et que nous souhaiterions développer par la suite.

25 1 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d informations au cœur de la démarche 1.1 Introduction Intelligence économique : genèse, évolution et élucidation Analyse stratégique Considérations générales L analyse par l activité : le modèle SWOT L analyse par les forces concurrentielles : le modèle PORTER Analyse par les processus de décision : Le modèle IDC Synthèse : de l analyse stratégique à l Intelligence Economique La veille Processus de la veille Les domaines de la veille Typologie de la veille stratégique Synthèse : De la veille stratégique à l Intelligence Economique Les systèmes d information et aide à la décision L intelligence Economique par son processus Classification de l information Intelligence collective Les modèles d analyse de l IE La méthode d analyse MEDESIIE Les modèles SITE Un système d information adapté aux besoins d une démarche d IE Evaluation des outils d IE Expression du besoin Collecte d information publiée Collecte d information primaire Traitement et analyse Diffusion Evaluation Intelligence économique : synthèse... 61

26

27 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche Introduction A l instar de la constellation des autres notions qui lui sont associées (celles de gouvernance, veille technologique, intelligence collectives, etc.), l Intelligence Économique (IE) est apparue au fil des transformations sociales, induites par le processus de globalisation de l économie de marché et par le développement spectaculaire des technologies de l information et de la communication (TIC). L aube du XXI siècle marque, en effet, un changement d ère pour l humanité, le passage de la société industrielle à la nouvelle société de l information et de la connaissance. Ce passage démontre aujourd'hui que la richesse la plus importante n est plus matérielle, ni physique. Elle est désormais fondée sur l immatériel et conduite par le savoir [Pinte, 2006]. Au-delà, la compétitivité et l innovation sont devenues les clefs de voute pour toute organisation ambitionnant la réussite et la maitrise de sa pérennité. La nouvelle compétitivité des organisations se fonde de plus en plus sur leur capacité à valoriser les savoirs externes et à revaloriser leurs savoirs internes en vue de produire, de manière continue, des innovations de produits et de procédés. En conséquence, pour maintenir la compétitivité dans cette économie mondialisée, les organisations doivent relever impérativement le défi de l innovation. Dans ce contexte, le contrôle de l information stratégique et sa transformation en savoir et savoir faire constituent un impératif majeur pour l entreprise [Julien, 2003]. Ce qui rend incontournable le fait pour les organisations de disposer d un mécanisme de détection des tendances et enjeux de l évolution de leur environnement [Jacob, 2000]. L IE permet d atteindre cet objectif. En effet, la mise en œuvre d une démarche d IE offre aux organisations l opportunité de capitaliser leurs connaissances, sur leurs environnements interne et externe, et de décupler leurs capacités d apprentissage. Des outils, tels que la veille ou l audit, permettent d optimiser au mieux leurs processus d innovation, de recherche et développement, afin d accéder rapidement aux marchés ciblés et de choisir judicieusement partenaires et sources de financement. L information sous toutes ses formes est devenue une matière première indispensable pour assurer la survie, le pilotage, le développement et la compétitivité pour une entreprise, une communauté, un territoire ou une Nation. La maîtrise de l avenir d une organisation est alors conditionnée par sa capacité à collecter, interpréter, protéger, diffuser et utiliser l information à des fins décisionnelles. La gestion stratégique de l'information est devenue l'un des moteurs essentiels de la performance globale des organisations [Martre, 1994]. Désormais, la conduite de l analyse stratégique repose sur la capacité des organisations à accéder aux informations à valeur ajoutée pour mieux anticiper les évolutions et les tactiques des concurrents. C est cette union entre l information et la stratégie qui caractérise la notion d IE. D autre part, l entrée dans la société de la connaissance représente pour beaucoup une plongée dans un océan d information. Les organisations sont presque saturées par l information. L essor des technologies connexes, avec l avènement d internet et des réseaux, a accru les volumes disponibles. Les organisations se heurtent aux problématiques liées à la gestion et l exploitation de ces ressources dans un but de création de connaissance. Les systèmes d information permettent aux organisations de répondre à ces problématiques. En effet, un système d information peut être considéré comme un ensemble de ressources humaines (le personnel), de ressources matérielles et de procédures et méthodes permettant d acquérir, de stocker, de traiter et de diffuser les informations à caractères stratégiques au sein d une organisation. Le système d information se trouve alors au cœur de la démarche d IE, par ses fonctions de stockage, d analyse, de traitement et de diffusion des données. Il ne s agit plus aujourd hui simplement de brasser l information sur internet, mais plutôt d intégrer cette dernière dans des savoirs, des savoirs dans des connaissances et des connaissances dans des cultures [Massé, 2000]. Ce premier chapitre vise un double objectif :

28 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 28 Le premier consiste à offrir une vision synthétique des pratiques de la démarche d IE en tant que maîtrise de l'information stratégique pour une entreprise, ou plus largement une organisation, dans un but de gestion et de création de connaissance. Le second objectif est de dégager une vision générale des systèmes d informations sur lesquelles pourra s appuyer une telle démarche. Ce chapitre est organisé en cinq sections. Dans la première section (1.2) nous définissons tout d abord les fondements de la démarche d IE à savoir l analyse stratégique, la veille et les systèmes d information. Cette section va permettre de les identifier et mettre en avant le rôle de chacun. Dans la seconde section (1.3), nous proposons une définition de la démarche d IE selon un processus coordonnant l ensemble de ses fondements. Nous détaillerons, dans cette section, les différents niveaux d évolution des données vers les connaissances et les réseaux d acteurs qui constituent l intelligence collective de la démarche. Dans la troisième section (1.4), nous présentons deux modèles d analyses dans un contexte d IE. Ces derniers sont issus des principaux travaux de recherches universitaires français. C est trois premières sections vont donc exprimer notre vision de la démarche d IE dans le cadre de nos travaux. La quatrième section (1.5) de ce chapitre a pour objectif d identifier les caractéristiques des systèmes d information permettant de supporter et répondre aux besoins de la démarche d IE. La cinquième section (1.6) consiste à dégager une représentation synthétique des principaux outils d IE utilisés dans le monde industriel. Enfin, nous concluons ce chapitre par une synthèse sur le contexte général de nos travaux. 1.2 Intelligence économique : genèse, évolution et élucidation L'IE n est pas une pratique novatrice née exclusivement du développement de la technologie et de la société de l information. Chaque pays, en fonction de son histoire, de son passé culturel et religieux, de sa situation géographique, de ses richesses naturelles ou industrielles, a conduit, au cours des siècles, à une démarche que l on peut qualifier d IE. De remarquables témoins de leur temps, tels Thucydide 1 ou Machiavel 2, nous décrivent comment convoiter les richesses, les savoir-faire de territoires proches et lointains à travers la guerre ou encore par le développement d ententes faites par la "bonne intelligence". Très tôt, l'ie montra que si la qualité des institutions et la culture, liées à la dynamique de l investissement, ont joué un rôle essentiel, c est la capacité à accéder et à gérer le savoir qui a, dès le début des révolutions technologiques, fait la différence [Conesa, 2003]. Le concept d IE est en vogue depuis la fin des années 60 aux Etats-Unis, la première définition moderne du concept fut développée sous le nom d «intelligence organisationnelle» dans un ouvrage intitulé : «Organisational intelligence : knowledge and policy in government and industry», par [Wilensky, 1967]. Il y est défini comme l'activité de production de connaissance servant le but économique et stratégique d une organisation, recueilli et produit dans un contexte légal et à partir de sources ouvertes. En parallèle, le Japon a développé un modèle de vision stratégique de coopération entre les entreprises qui peut être assimilé à de l'ie. En France, la première définition officielle du concept est apparue en 1994, à l initiative du Commissariat Général du plan, dans un rapport présidé par M. Henri Martre, intitulé : «Intelligence économique et stratégie des entreprises». 1 Thucydide, homme politique et historien athénien, auteur de l Histoire de la guerre du Péloponnèse, qui retrace l origine du conflit en s attachant à rechercher les causes derrières les faits. 2 Machiavel, est un penseur italien de la Renaissance, théoricien de la politique, de l'histoire et de la guerre. Il montra dans son ouvrage prince comment manipuler les opinions et en utilisant la force te la ruse, il était possible de se faire aimer par la foule.

29 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 29 Une étude des origines du concept d IE montre qu il relève d une construction complexe. En effet, l émergence du concept et sa compréhension font appel à de multiples champs scientifiques. Il se rattache aux sciences de la sociologie des organisations, sciences politiques, sciences de l information, technologies de l information et de la communication et aux sciences de gestion de l information et des connaissances. L IE est alors un champ de recherche extrêmement vaste et prometteur. La jeunesse du concept et l instabilité des connaissances, tant théoriques que pratiques, des terminologies expliquent le caractère polysémique de l IE. Au problème de divergence d auteurs, s ajoute celui de la traduction des expressions anglo-saxonnes en leurs équivalents francophones. En effet, le terme d «Intelligence» présente un double sens. Selon la signification anglo-saxonne, «Intelligence» signifie recherche d informations ou activité de renseignement. On parle ainsi d «Intelligence service», réseau constitué par les spécialistes du renseignement à des fins militaires ou économiques. Mais l «Intelligence» c est aussi la capacité pour une entreprise d anticiper les changements, de s adapter, d être capable de répondre rapidement aux sollicitations qui lui sont faites. Selon Larousse, l «Intelligence» est : La faculté de comprendre, de donner un sens ; l aptitude à s adapter à une situation, à choisir en fonction des circonstances ; la capacité à comprendre telle ou telle chose ; l aptitude à résoudre des problèmes [Larousse, 2004]. L intelligence de l entreprise sous entend la mise en œuvre et l utilisation d un «Système nerveux» constitué de réseaux de communication interdépendants qui la rendent plus réactive, mieux informée et en définitive plus compétitive [Massé, 2000]. La gestion de cette forme d intelligence, qu il s agisse de la collecte d informations ou de la gestion des connaissances est ainsi devenue un des éléments stratégiques de la vie d une entreprise moderne. L intelligence est alors la faculté de s informer et de comprendre son environnement. Si la stratégie militaire est l'art de diriger les moyens en vue de la victoire, la stratégie économique pour une entreprise doit être l'art de diriger les moyens dont elle dispose en vue d'assurer sa réussite. Pour diriger, il faut : Voir : détecter, écouter ou reconnaître, Savoir : comprendre et interpréter, puis Pouvoir : agir et réussir. Après avoir cerné, dans un premier temps, la notion d «Intelligence», il convient dans un second temps d approcher les contours de l IE en indiquant ce qu il convient d en exclure et ce qu il convient d y inclure. Pour Leonard M. Fuld 3, l IE ne doit pas être substituée à : De l espionnage, ce qui implique des activités illégales alors que l IE est une démarche qui se base sur des données disponibles légalement. Une boule de cristal ou une science exacte prédisant l avenir d une entreprise. Or l IE vise à détecter les menaces et les opportunités issues de son environnement. Une activité de recherche sur les bases de données, les bases de données n offrent rien d autre que des données. L IE consiste à analyser ces données afin d offrir une meilleure vision du marché et des concurrents de l entreprise. De la recherche sur Internet ou la chasse aux rumeurs, Internet est avant tout un moyen de communication et non un fournisseur d intelligence. Les données sont brutes et ne peuvent être interprétées qu après avoir été analysées. Le travail d une personne, une personne seule ne peut accomplir toute l activité d IE. Au mieux, elle coordonne l ensemble de l activité. La démarche d IE se base sur un réseau d acteurs interne et 3 Président du cabinet FULD & COMPAGNY. Source : (accès le 15 février 2009)

30 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 30 parfois externe à l entreprise qui coordonne les actions de traitement, d analyse et de diffusion des informations utiles. Une invention du vingtième siècle, l IE a toujours existée. Son apparition dans les entreprises date du début des années 80 aux Etats Unis. Mais le concept existait auparavant, surtout dans le domaine militaire. Un travail fait par des logiciels, on ne peut réduire l IE à la simple utilisation des logiciels. Ils sont les outils au cœur de la démarche mais ils ne peuvent remplacer l expertise des intervenants. La notion d IE est alors une notion aux frontières peu stables. En effet, ces dernières années ont vu les définitions de l IE se multiplier et évoluer. Le rapport du Commissariat général du plan «Intelligence économique et stratégie des entreprises», document de référence, donne à l IE une dimension nationale globale qui dépasse les frontières de l'entreprise. Il a été conçu comme un ensemble de repères sur lequel repose le socle théorique de l IE en France. Selon le rapport [Martre, 1994]: L intelligence économique peut être définie comme l'ensemble des actions coordonnées de recherche, de traitement et de distribution, en vue de son exploitation, de l'information utile aux acteurs économiques. Ces diverses actions sont menées légalement avec toutes les garanties de protection nécessaires à la préservation du patrimoine de l'entreprise, dans les meilleures conditions de délais et de coûts. L information utile est celle dont ont besoin les différents niveaux de décision de l entreprise ou de la collectivité, pour élaborer et mettre en œuvre de façon cohérente la stratégie et les tactiques nécessaires à l atteinte des objectifs définis par l entreprise dans le but d'améliorer sa position dans son environnement concurrentiel. Ces actions, au sein de l'entreprise, s ordonnent autour d un cycle ininterrompu, générateur d une vision partagée des objectifs de l'entreprise. L IE découle d une intention stratégique et fait interagir l ensemble des acteurs économique d une entreprise, une communauté, un territoire, nationaux, transnationaux, États. Cette définition permet de dégager une vision globale des environnements d actions dans lesquelles l IE doit émerger. La coordination de ces actions offre en particulier à l entreprise une visibilité sur ses différentes relations avec son environnement par une observation permanente des comportements de leurs concurrents et des réalités des marchés. La prise en compte de ces actions au niveau de l élaboration des stratégies va permettre aux entreprises de maitriser leurs positions concurrentielles. La définition officielle du rapport Martre n est donc pas très éloignée de celle de Wilensky. Elle y ajoute la notion de coordination, au sens le plus large (entre divisions, entre entreprises, entre acteurs de différents niveaux : entreprises et collectivités locales ), qui sera développée dans les travaux de [Colletis, 2007]. Avec l avancement des travaux de recherche, une nouvelle génération de définitions a émergé au cours des années 2000, en favorisant une approche pluridisciplinaire dans la perspective d une économie fondée sur la connaissance. De définitions quasi exclusivement centrées sur la description des processus et des techniques de l IE, elles sont passées à des définitions incluant des objectifs stratégiques puis, depuis peu à des définitions incluant les fonctions de gestion des connaissances, d apprentissage collectif et de coopération [Salles, 2000]. Cette vision valorise l intelligence en réseau en passant d une entreprise hiérarchisée, isolée face à son environnement, à l entreprise réseau insérée dans son environnement. Nous retrouvons à travers ces différentes définitions, un ensemble de fonctions qui sont associées à la notion d IE, nous les résumons dans le Tableau 1.

31 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 31 Fonctions Auteurs Maitrise du patrimoine scientifique, technique et des savoir-faire [Clerc, 1997] ; [Levet, 1996] Détection des menaces et des opportunités [Clerc, 1997] ; [Levet, 1996] Influence et contre influence [Clerc, 1997] ; [Levet, 1996] Coordination des stratégies [Levet, 1996] Coordination des activités [Colletis, 1997] Renseignement [Besson, 1996] ; [Hassid, 1997] ; [Baud, 2002] ; [Lointier, 2000]; [Larivet, 2002] Gestion de risque informationnel [Larivet, 2002] [Levet, 1996]; [Besson, 1996] ; [DeVasconcelos, 1999] ; La création de connaissances [Bournois, 2000] ; [Guilhon, 2003] ; [Levet, 2001] ; [Jackobiak, 2004] L aide à la décision [Bloch, 1995] ; [Revelli, 1998] ; [Bournois, 2000] ; (AFDIE 4, 2001) L innovation [Martre, 1994] ; [Bloch, 1996] ; [Bournois, 2000] Tableau 1: Les Fonctions associées à la notion d IE. Le concept d IE est aujourd hui sorti de sa phase d émergence mais, néanmoins, Il est encore nécessaire de produire un cadre référentiel s appuyant sur une réflexion pluridisciplinaire [Favier, 1998], [Larivet, 2001], [Alabdulsalam, 2006]. Dans le cadre de nos travaux, nous coordonnons la démarche d IE autour des trois concepts à savoir analyse stratégique, veille et système d information. La Figure 2 représente un plan qui illustre la coordination de ces trois concepts, ce qui permet d avoir un point de vue global de ces trois concepts, qui constituent chacun une partie de cette section : Analyse stratégique Veille Système d information d Figure 2: Coordination des concepts liés à l IE. L analyse stratégique (1.2.1) permet de dégager les besoins informationnels de l entreprise, portant sur son environnement, en vue de diminuer l incertitude et de faciliter la prise de décision, La veille (1.2.2) va guider et piloter le processus de collecte, traitement, analyse et diffusion des informations afin de répondre aux besoins informationnels exprimés, Le système d information (1.2.3) sert de support aux différentes actions, allant de la collecte jusqu à l analyse et la diffusion. 4 Association Française de Développement de l'intelligence Economique

32 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche Analyse stratégique Considérations générales La stratégie constitue un des domaines les plus récents de la gestion des entreprises. Un de ses champs d'investigation consiste à analyser ce que l'entreprise sait et peut faire pour maintenir ou accroître sa compétitivité. En 1962, la stratégie était définie par Alfred Dupont Chandler dans son ouvrage «Strategy and Structure: Chapters in the History of American Industrial Enterprise», comme celle qui consistait à déterminer les objectifs et les buts fondamentaux à long terme d une organisation, puis à choisir les modes d action et d allocation de ressources qui lui permettraient d atteindre ces buts, ces objectifs [Chandler, 1962]. La stratégie est l'ensemble des actions spécifiques devant permettre d'atteindre les buts et objectifs en s'inscrivant dans le cadre de mission définies par la politique général de l'entreprise. Elle précise : Les activités spécifiques de l'entreprise, c'est-à-dire les couples marchés / produits ou les triplés produits / marchés / technologies sur lesquels l'entreprise concentrera ses efforts. Elle consiste donc à définir le portefeuille d'activité de l'entreprise qu'il convient d'équilibrer en terme de rentabilité, de risque et de perspective de développement. Le mode de développement qui sera privilégié aucour du temps, c'est-à-dire, l'expansion en volume, l'extension géographique, l'intégration verticale, la diversification des produits ou au contraire la focalisation sur une activité, etc. Les choix stratégiques doivent être guidés par la recherche de synergie entre les activités de l'entreprise. L analyse stratégique est un processus de réflexion qui à travers l étude de l environnement et notamment de la concurrence, de la position concurrentielle d une entreprise à travers son portefeuille stratégique, permet d identifier les itinéraires qui autorisent une entreprise à passer, de la position concurrentielle prévisible à terme, à la position voulue par ses dirigeants [Garibaldi, 2001]. L analyse stratégique intègre les diverses caractéristiques informationnelles et organisationnelles de l entreprise et de son environnement. L élaboration des stratégies d une entreprise va se baser essentiellement sur la prise en compte de ses interactions avec son environnement. La conception de l environnement dans la pensée stratégique peut varier, d où cette rapide typologie qui va permettre d identifier les principaux modèles d analyse stratégique : L analyse par l activité, le modèle SWOT. L analyse par les forces concurrentielles, le modèle PORTER. L analyse par le processus de décision, le modèle IDC L analyse par l activité : le modèle SWOT L analyse SWOT ou matrice SWOT, de l'anglais Strengths (forces), Weaknesses (faiblesses), Opportunities (opportunités), Threats (menaces), est un outil de stratégie d'entreprise permettant de déterminer les options stratégiques envisageables au niveau d'un domaine d'activité stratégique. Les expressions équivalentes en langue française sont «Menaces, Opportunités, Forces, Faiblesses». Le modèle d analyse stratégique SWOT est introduit pour la première fois par [Learned, 1965], qui propose une première définition des orientations stratégiques d une entreprise. Il consiste à effectuer deux diagnostics :

33 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 33 Un diagnostic externe, qui identifie les opportunités et les menaces présentes dans l'environnement. Celles ci peuvent être déterminées à l'aide d'une série de modèles d'analyse stratégique, tel que l analyse par les forces concurrentielles de Michael Porter (section ). Il peut s'agir par exemple de l'irruption de nouveaux concurrents, de l'apparition d'une nouvelle technologie, de l'émergence d'une nouvelle réglementation, de l'ouverture de nouveaux marchés, etc. Un diagnostic interne, qui identifie les forces et les faiblesses du domaine d'activité stratégique. Celles-ci peuvent être déterminées à l'aide d'une série de modèles d'analyse stratégique, tels que Benchmarking. Il peut s'agir par exemple du portefeuille technologique, du niveau de notoriété, de la présence géographique, du réseau de partenaires, de la structure de gouvernement d'entreprise, etc. L analyse SWOT permet de déterminer si la combinaison des forces et des faiblesses de l organisation est à même de faire face aux évolutions de l environnement, ou s il est possible d identifier ou de créer de nouvelles opportunités qui permettraient de mieux tirer profit des ressources uniques ou des compétences fondamentales de l organisation. C'est la confrontation entre les résultats du diagnostic externe et ceux du diagnostic interne qui permet de formuler des options stratégiques. Cette formulation d'options stratégiques constitue l'intérêt de l'analyse SWOT. Elle est conditionnée de quatre critères à savoir Forces/ opportunités, Forces/ Menaces, Faiblesses/ Opportunités, Faiblesses/ Menaces. Forces/ Opportunités : consiste à identifier les forts axes de compétences de l entreprise pour définir de nouvelles opportunités extérieures pour la réalisation de la stratégie, Forces/ Menaces : définie et assemble les savoir-faire interne à l entreprise pour affronter les menaces extérieures, Faiblesses/ Opportunités : permet de révéler les faiblesses interne d une entreprise et d exploiter les opportunités externes afin d améliorer ses points faibles, Faiblesses/ Menaces : elle permet de définir une stratégie pour une entreprise consciente de ses faiblesses afin de se protéger des menaces extérieures. La matrice SWOT n'apporte cependant une aide pertinente que dans la mesure où les questions initiales sont convenablement posées, que l'on puisse y répondre, et que l'on a bien analysé chaque domaine en termes de performance mais aussi d'importance. Nous décrivons dans la Figure 3, l analyse stratégique selon le modèle SWOT.

34 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 34 Buts Diagnostic Opportunités Forces Environnement Entreprise Menaces Faiblesses Choix stratégique Domaines d activités d Plan d actions d Objectifs Figure 3: Le modèle SWOT [Learned, 1965]. Ce modèle à l avantage d être attractif en raison de sa logique cartésienne. Il peut s appliquer à une situation simple en permettant l extraction d informations quantifiées. Il permet surtout en situation complexe de concevoir une schématisation rapide, claire et précise d une réalité [Magakian, 2003]. L'environnement est vu comme une entité faite de menaces et d'opportunités que l'on détecte à partir de faits et d'observations quantifiées (bilans, parts de marchés, etc.) et auquel fait face l'entreprise [Favier, 1998] L analyse par les forces concurrentielles : le l modèle PORTER Dans l'analyse des forces concurrentielles, on ne considère plus que les forces du marché déterminent le type de concurrence et que l'entreprise n ait qu'à s'y adapter. Au marché se substitue l'industrie (le secteur) dans laquelle l'entreprise peut modifier les conditions de son environnement. Ce modèle est introduit par [Porter, 1980], il consiste à résumer l environnement d une entreprise en se basant sur les cinq forces concurrentielles, qu il définit comme suit: Le pouvoir de négociation des clients et des fournisseurs, le pouvoir de chaque client et fournisseur dépend d un nombre de caractéristiques du marché et de l importance relative des ventes et des achats pour l industrie et l activité en général. La menace d'entrants potentiels, s explique par le fait que les nouveaux entrants apportent de nouvelles capacités, le désir de conquérir des parts de marchés et de créer une nouvelle concurrence. La menace des produits de substitution, l identification de ces produits permet de rechercher d autres produits qui permettent de remplacer les produits existants. Rivalité de la concurrence intra-sectorielle, consiste à identifier les différentes concurrences qui existent entre les entreprises du marché pour un secteur donné. L'objectif de ce modèle est d'identifier les facteurs clés de succès de l'environnement, c'est-à-dire les éléments stratégiques qu'il convient de maîtriser afin d'obtenir un avantage concurrentiel. Pour cela, il est

35 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 35 nécessaire de hiérarchiser les 5 forces, afin de déterminer quelles actions stratégiques doivent être menées en priorité. C'est ce modèle de la stratégie qui a servi de référence à ceux [Martinet, 1989] qui ont introduit la notion de "veille" en France. Dans la Figure 4, nous décrivons les interactions entre les différentes caractéristiques du modèle PORTER. Entrants potentiels Menaces des nouveaux entrants Fournisseurs Menaces des nouveaux entrants Concurrents Rivalités Menaces des nouveaux entrants Clients Menaces des produits et services de substitutions Substituts Figure 4: Le Modèle PORTER Analyse par les processus de décision : Le L modèle IDC Le modèle proposé par Simon [Simon, 1960], permet d étudier les processus de décisions dans le contexte d analyse stratégique. Simon décrit ce modèle par un processus cognitif assorti d une situation de traitement de l information qui présente une structure générique. Cette dernière comprend trois phases, connues sous le nom IDC : Intelligence, Design, Choice. Chacune d elle possède ses propres buts et ses mécanismes de traitements de l information [Salles, 2003]. Ce processus permet d étudier pour un problème décisionnel : Son environnement et son contexte pour dégager une vision claire de la décision, À imaginer les différents scénarios ou solutions possibles associés au problème posé, et les analyser, À choisir le scenario le mieux adapté à la situation. Les problèmes décisionnels posés aux décideurs à différents niveaux de l entreprise peuvent selon Simon, se catégoriser en problèmes structurés ou programmés. Le modèle Simon propose une appréhension de ces problèmes en trois étapes : La collecte d information ou d «Intelligence», explorer l environnement pour identifier les situations pouvant appeler la décision. Elle correspond à l identification du problème et la compréhension de sa structure. La conception, inventer, développer, analyser diverses actions envisageables. C est la phase de la recherche de solutions possibles.

36 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 36 Le choix, renvoie au choix de la solution retenue. Ce choix se fera sur des critères de satisfaction et non plus sur l optimisation de la solution. Deux phases supplémentaires Action et Evaluation ont été proposées par Maryse Salles [Salles, 1998], qui permettent la confrontation de l action avec ses résultats qui peut amener le décideur à revoir son processus. Ces phases ne se déroulent pas de façon séquentielle, elles font l objet de retours en arrière, d ajustements, de corrections, de reprises de résultats antérieurs. Ainsi nous présentons dans la Figure 5 les différentes étapes du processus IDC. Intelligence Conception Choix Actions Validation Figure 5: Le modèle IDC. Ce processus permet d étudier, pour un problème décisionnel, son environnement et son contexte pour dégager une vision claire de la décision, d imaginer les différents scenarios ou solutions possibles associé au problème posé, et de les analyser afin de choisir le scenario le mieux adapter à la situation. Il attire l attention sur la nécessité d une prévision partielle des solutions et d une compréhension globale de l environnement. La phase de transition entre l étape «intelligence» et «Conception», est fondamentale dans le modèle Simon. L analyse de Simon définit le rôle de l activité de renseignement dans la prise de décision stratégique alors que l analyse précédente (l analyse concurrentielle) faisait du renseignement un simple instrument au service de la stratégie. Pour Salles [Salles, 2003], le modèle IDC reste encore aujourd hui une référence, notamment dans le domaine de la conception de système d information d aide à la décision. Il est particulièrement adapté aux types de décisions prioritairement visées par l IE (décision stratégiques, et tactiques), et à leur contexte informationnel Synthèse : de l analyse stratégique à l Intelligence Economique Dans le contexte de l analyse stratégique et des différents modèles que nous avons présentés, l environnement se manifeste par des réseaux et des relais d information. Les entreprises évoluent dans un environnement en complexification croissante [Arpagian, 2004]. Le développement hyperbolique des

37 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 37 alliances, des fusions, et d acquisitions, accentue la difficulté de décryptage de l environnement. Cette évolution influence le processus d acquisition d informations et, en conséquence, le mécanisme décisionnel. En effet, la compétitivité d une entreprise, et donc sa pérennité, dépend de plus en plus étroitement de sa capacité d adaptation et de sa vitesse de réaction. Il faut savoir la bonne information au bon moment. Cette adaptabilité exige l anticipation à travers la surveillance systématique et rationalisée de l environnement global (on parle dès lors de veille stratégique). Il faut considérer l environnement comme une variable stratégique en permanente reconfiguration et sur laquelle l entreprise peut agir, voire même le transformer, via la maîtrise de l information. Or, c est la fonction même de l IE que de traiter les informations et de créer de la connaissance efficace. Ainsi la démarche d IE à travers le prisme de l analyse stratégique permet aux entreprises de mieux cerner les contraintes s exerçant sur les différents domaines caractérisant leur environnement. D où la nécessité de la mise en place d un système d information orienté sur l environnement concurrentiel afin d assurer à l entreprise, en temps voulu, une information pertinente sur: Ses principaux concurrents, leurs alliés, déterminer la manière dont ils peuvent affecter les intérêts courants de l entreprise, Le système technologique, politique, économique affectant la position concurrentielle ainsi que leur évolution. Le but de nos travaux est de détecter les différentes relations caractérisant l environnement de l entreprise. Il faut donc d'abord comprendre les mécanismes de formation et d'évolution de ces réseaux. La connaissance à tout instant de l environnement d une entreprise et l analyse de sa dynamique devrait aussi permettre à l entreprise d adapter sa stratégie de manière à contrôler sa position dans le réseau [Gay, 2006] La veille La veille émerge en France à la fin des années 80, au carrefour du concept de vigilance [Oury, 1983] et des théories de la compétitivité [Buigues, 1985], [Porter, 1986] qui s inscrivent dans une évolution radicale des théories du management, portées par le courant des mutations technologiques [Morin, 1985]. La veille est donc un concept importé des Etats-Unis où elle émerge du modèle de renseignement américain. Elle se réfère en France à la notion de gestion concurrentielle, fondée en particulier sur les travaux de [Porter, 1986]. A partir des travaux [Ansoff, 1975], introduisant la notion de surprise stratégique, se développent les concepts de surveillance de l environnement, de vigilance et de veille [Oury, 1983], [Crozier, 1989], [Villain, 1990], [Baumard, 1991], [Godet, 1991] et parallèlement le concept de management stratégique de l information [Lesca, 1986]. Humbert Lesca définit la veille stratégique comme : Le processus informationnel par le quel l entreprise se met à l écoute anticipative des signaux faibles et de son environnement dans le but créatif de découvrir des opportunités et de réduire son incertitude [Lesca, 1994]. Nous retenons la définition de la veille proposée par l AFNOR (Association Française de Normalisation) comme: Une activité continue et en grande partie itérative visant à une surveillance active de l environnement technologique, commercial, etc, pour anticiper les évolutions [AFNOR, 1998]. La veille repose sur l anticipation ou plutôt la détection des changements et notamment d éventuelles ruptures, elle concerne les informations à caractère anticipatif. Ce sont des informations qui permettent de détecter ou signaler des mutations significatives dans l environnement de l entreprise. Elles doivent fournir des informations sur le futur [Lesca, 1997], Lesca distingue deux approches pour ce type d informations :

38 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 38 Une première approche consiste à accumuler des informations sur le passé et à effectuer des extrapolations. Elle permet d avoir une vision sur le futur «dans le rétroviseur». Elle n est pas appropriée à anticiper les changements surprenants et encore moins les ruptures. Une seconde façon consiste à rechercher des informations susceptibles d annoncer à l avance des changements à fortes influences, appelées «Signaux faibles». Un signal faible, ou comme le désigne Ansoff «weak signal», est défini comme étant «le point de départ d une amplification à propos de laquelle seulement une information partielle est disponible au moment où la réponse doit être fournie et qui doit au besoin être complétée avant que des impacts sur l entreprise ne commencent à se manifester» [Ansoff, 1990]. Humbert Lesca définit quatre missions pour la veille : Observer l environnement stratégique de l entreprise, Détecter le plutôt possible les informations relatives aux changements qui peuvent s y produire, Analyser et filtrer les informations susceptibles d affecter la mise en œuvre des diverses composantes de la stratégie de l entreprise, Assurer la diffusion sélective de l information aux seules personnes autorisées Processus de la veille Une stratégie de veille comporte des étapes précises à travers lesquels différents acteurs sont impliqués. L objectif ultime de cette démarche est de transformer les informations en connaissances de façon à favoriser la prise de décision. Si l information de base n est pas nécessairement stratégique, elle le devient par son utilisation. La fonction de renseignement extérieur au sein d une entreprise est une démarche méthodique et structurée, qui fait appel à de réels savoir-faire [Colas, 2004]. À cette réflexion, on peut constater que l information est la matière première du renseignement, et qu un renseignement est une information élaborée, pertinente et utile, correspondant aux besoins de celui qui la reçoit. Dès lors, le cycle du renseignement peut aussi bien être un cycle de la connaissance. Le cycle du renseignement (Figure 6) est divisé en quatre phases : expression des besoins, recherche et collecte, traitement et analyse, mémorisation et diffusion. Il s agit bien d un cycle, puisque le renseignement obtenu d une part permet d orienter les nouveaux besoins. D autre part, le renseignement lui-même est réévalué en permanence, en fonction de l évolution de la situation [Baud, 2002], [Pinczou du sel, 2006]. Expression des besoins Mémorisation et Diffusion Recherche & Collecte des données Traitement & Analyse Figure 6: Cycle du renseignement.

39 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche Les domaines de la veille Le cycle du renseignement est un processus permettant à l'entreprise de s'informer de façon pertinente et efficace sur son environnement. Par rapport à la méthodologie classique en matière d analyse stratégique, cet environnement peut être spécifique et comprend alors tous les facteurs sur lesquels l'entreprise dispose d'une influence directe. Il sera qualifié de [Paturel, 1996] : Concurrentiel actuellement (veille sur les forces de la concurrence présente dans le ou les secteurs d'intervention de l'entreprise) et futur (surveillance des entrants potentiels), Commercial (examen et risque d'évolution des autres forces de la filière : clients et fournisseurs), Technologique (regard et prévision se rapportant aux substituts à venir ; les substituts présents faisant partie de l'environnement concurrentiel, conformément à la définition du secteur de M. Porter, 1980). L'environnement peut encore être constitué de facteurs sur lesquels l'entreprise n'a pas de possibilité d'action directe (sauf lobbying éventuel). Dans ce cas, le système de veille devient environnemental et possède des volets politique, juridique, économique, sociologique, psychologique, international, climatique etc. suivant l'activité de l entreprise. La veille est alors une expression générique qui englobe plusieurs types de veilles spécifiques selon ses domaines d application. C est le modèle de Porter qui a engendré une nouvelle réflexion sur la pensée stratégique et sur les praticiens de la veille un peu partout à travers le monde [Sutton, 1988]. C'est ainsi que plusieurs types de veille se sont développés. La Figure 7, représente une classification des types de veille. Veille Stratégique Veille Technologique Veille Scientifique Veille Concurrentielle Veille Commerciale Veille Sociétale Veille Juridique Veille Culturelle Veille Territoriale Figure 7: Types de Veille.

40 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 40 En 1989, Bruno Martinet et Jean Michel Ribault [Martinet, 1989] proposent, tout d abord, quatre principaux types de veilles, qui se résument en : La veille Technologique, s applique à l environnement technologique de l entreprise, et qui est orienté vers l étude de l évolution en terme technologique du domaine industriel. Elle s appuie sur les données issues des bases de brevets, des documentations techniques, des plaquettes publicitaires, de la presse, des sites Internet, etc. Elle concerne l identification par l entreprise des techniques ou technologies se rattachant à son activité, qu elle a mis en œuvre, ou qu elle est susceptible de mettre en œuvre pour assurer un avantage compétitif. [Rouibeh, 1998] distingue deux aspects de la veille technologique : La veille brevets et propriété industrielle : c est le moyen par lequel l entreprise surveille régulièrement les brevets déposés, à la fois pour que ses concurrents n utilisent pas les procédés qu elle a développés, et pour être informée des nouveaux brevets déposés. La veille de produits innovants : c est le moyen par lequel l entreprise veille et anticipe la mise sur les marchés de produits nouveaux ou de produits de substitutions de façon à distancer les concurrents et baisser les coûts de production. La veille Scientifique, concerne l environnement de la recherche scientifique lié aux domaines de production ou de compétences de l entreprise, les données manipulées sont uniquement de types : articles scientifiques, thèses, rapports de recherches qui sont issus généralement des bases bibliographiques. La veille concurrentielle, s applique à l environnement concurrentiel de l entreprise, qui permet de surveiller les principaux concurrents d une entreprise, leurs positionnements dans le marché, leur évolution et d identifier les menaces et opportunités que représente la dynamique de ces marchés. La veille commerciale, s applique à l environnement commercial de l entreprise. Elle permet de surveiller les relations clients-fournisseurs, par les produits, leurs couts, les taux d évolution du marché, etc. C est l identification des besoins exprimés des clients et des consommateurs et leur évolution. La veille sociétale, qui s étend aux autres domaines de l environnement de l entreprise. Il s agit d une surveillance de la société dans son ensemble qui permet, à travers l analyse des signaux faibles, d observer l évolution des comportements, des modes de vie et d identifier leur évolution possible. Salmon et Delinares [Salmon, 1997], Jakobiak [Jakobiak, 2004] et les différents auteurs du domaine, détaillent la veille sociétale (environnementale) en plusieurs types de veille selon son domaine d application. Nous retrouvons : La veille Juridique ou réglementaire, s applique à l environnement réglementaire et juridique de l entreprise. Elle prend en compte l évolution des textes de lois, des normes nationales ou internationales, des accords commerciaux, des dépôts de brevets, des nouveaux labels de produits, etc. Elle permet d anticiper les ajustements nécessaires à effectuer sur les modes de fonctionnement de l organisation telle que l analyse des nouvelles réglementations ainsi que celles en préparation. La veille culturelle, sous entend l environnement culturel de l entreprise, elle étudie les acteurs liés à l entreprise par leur culture, leur comportement, leur niveau social, leurs besoins,... La veille territoriale, est l'action publique au service du développement économique et industriel d'un territoire, dans le cadre d'un pôle de compétivité ou d'excellence territoriale par exemple. Les collectivités territoriales (Conseils Régionaux, Conseils Généraux, Communautés de Communes ou regroupements de communes et communes) utilisent des outils d'analyse de plus en plus en

41 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 41 plus opérationnels pour mieux gérer leurs territoires. Les objectifs de ce type de systèmes sont variés : La connaissance de leurs territoires pour mieux maîtriser leurs ressources, La capacité de réaction rapide face à des situations de crise, La maîtrise des infrastructures (routes, réseaux,...), Le recensement des bonnes pratiques dans d'autres territoires pour réaliser un Benchmarking, La connaissance des savoir-faire et des produits du territoire pour réaliser un marketing territorial. La veille stratégique va coordonner l ensemble des veilles afin d en fournir une synthèse aux décideurs. Elle a principalement un caractère anticipatif. Elle fournit des informations sur les tendances et l environnement pour enrichir la vision stratégique globale de l entreprise Typologie de la veille stratégique La typologie de la veille proposée, dans le Tableau 2, est une approche synthétique de la fonction de veille. La définition des trois niveaux (veille passive, réactif-proactif et proactif) auxquels correspondent les activités s appliquant à tous les domaines ou secteurs de l entreprise. Veille Niveau Passif Réactif éactif-proactif Proactif Champs Sans restriction (concurrentiel, technologique, juridique, commercial, etc.) Périodicité Permanente Fréquente Ponctuelle Sources Ouvertes Techniques ; Textuelles ; Informelles Acteurs Tous Veilleurs Spécialistes Méthode type Revue de presse Recherche-Internet Contact & Outils spécialisés On distingue trois types de veille : Tableau 2: Une typologie de la veille [Bulinge, 2001]. La veille passive, est une activité naturelle puisqu elle relève d une attitude quotidienne de réception d informations. Elles sont en mémoire et exploitées de façon routinière. La veille Réactive-Proactive correspond à une dynamique de collecte orientée. Les acteurs qui se rendent dans les foires et les salons ou qui cherchent des informations pertinentes sur Internet. Ce sont des pratiques qui caractérisent cette activité.

42 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 42 La veille Proactive, apparait comme une opération planifiée de recherche d informations pertinentes où des méthodes et des moyens particuliers sont mis en œuvre par des spécialistes. Il est nécessaire d associer à ce type de veille des outils d extraction et traitement d information Synthèse : De la veille stratégique à l Intelligence Economique En 1995, Henri Dou et Hélène Desvals explique le lien entre la veille et l intelligence économique par le texte suivant : On entend par intelligence économique la prise en compte par l entreprise de tous les éléments extérieurs susceptibles d interagir avec ses activités. Ce concept ( ) englobe l ensemble des activités de surveillance ayant une orientation forte sur la politique, la géopolitique et l économie ( ). L intelligence économique ne procède pas d une analyse fondamentale. Elle s inscrit seulement dans la mise en place de méthodes et de comportement destinés à défendre un environnement (industriel, recherche, financier ), à suivre la veille technologique et ne peut en aucun cas se substituer à elle, car, sans technologies propres, la domination économique ne serait pas de longue durée, la veille technologique est le palier de base à partir duquel peut se développer l intelligence économique. Cette définition permet d établir la hiérarchie entre l IE et la veille mais passe sous silence la partie informelle du renseignement et son aspect collectif. En effet les deux approches se complètent, la veille répond en grande partie aux besoins informationnels de l IE. Les entreprises doivent nécessairement mettre en place un dispositif de veille afin de satisfaire les besoins essentiels engendrés par une démarche d IE. Ceci comprend les actions partielles désignées sous le nom de documentation, de veille (scientifique et technologique, concurrentielle, financière, juridique et réglementaire) et invite de surcroît à "passer d'un traitement individuel de l'information, à la gestion de l'information et à un processus d'actions collectives" [Martre, 1994]. La notion d IE implique le dépassement des actions partielles de veille, mais aussi le renforcement de la protection du patrimoine, des influences et de la gestion de l information. L IE permet de donner un sens à l information. Elle est à la fois offensive et défensive. La veille stratégique apparaît en général comme un moyen, un processus, un dispositif, voire un système dont le but est de fournir de l'information pour aider au pilotage, et en particulier au pilotage stratégique [Salles, 1997]. Dans un processus de veille stratégique, l information est soumise à un cycle prédéfini : recherche, collecte, analyse et diffusion. Dans la phase analyse, nous pouvons distinguer différentes opérations auxquelles l information est soumise (validation, traitement, interprétation, synthèse). L ensemble de ces opérations est essentiellement réalisé au cours d une démarche principalement intellectuelle. Toutefois, la phase d analyse peut être assistée par les systèmes d aides à la décision lorsqu il devient impossible de le faire par une simple lecture et analyse intellectuelle ou quand les informations à analyser sont volumineuses. Dans le cadre de nos travaux nous considérons le processus de veille comme le levier informationnel de la démarche d IE. Dans ce contexte, nous proposons un système d information basé sur l extraction et le traitement de l information issue de l environnement de l entreprise. Notre objectif, est d offrir un outil permettant de supporter les différentes opérations d une veille proactive afin de satisfaire le besoin informationnel engendré par la démarche d IE Les systèmes d information et aide à la décision La modélisation systémique de toute organisation se décompose en trois sous-systèmes : système opérant, système d information, système de pilotage [Ravat, 2007].

43 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 43 Système opérant, consiste à transformer les flux primaires (matières, fiance, personnel, etc.) pour répondre aux besoins des clients. Système de pilotage, regroupe l ensemble du personnel d encadrement qui effectue les tâches de régulation, de pilotage et d adaptation de l organisation à son environnement [Mélèse, 1972]. Système d information, permet de collecter, mémoriser, traiter et restituer les différentes données de l organisation afin de permettre au système de pilotage d effectuer ses fonctions tout en s assurant son couplage avec le système opérationnel [Nanci, 2001]. L activité du système opérationnel produit des informations stockées dans le système d information ; après traitement la transmission de ces informations vers le système de pilotage permet à ce dernier de connaitre l activité du système opérant (flèches «informations» dans la Figure 8). Les décisions du système de pilotage seront répercutées vers le système d information puis vers le système opérant pour permettre au système de pilotage d en contrôler le fonctionnement (flèches «décisions» dans la Figure 8). Système de d e pilotage Coordination, objectifs (Membres de la direction, etc ) Décisions Informations traitées Environnement Exterieur Informations externes Système d information - Collecte - Mémorisation des données - Traitement (informations - Transmission ssion ) Informations collectées Informations vers l extérieur Flux entrants Système opérant Production, action (Ensemble du personnel exécutant) Flux sortrants Figure 8: Représentation systémique d une organisation [Mélèse, 1972]. Nous retenons la définition donnée, en 2000, par Robert Reix des systèmes d informations, qui est inspirée des auteurs des théories de management [Reix, 2000]:

44 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 44 Ensemble organisé de ressources : matériel, logiciel, personnel, données, procédures, etc. permettant d acquérir, de traiter, de stocker des informations (sous forme de donnée, textes, images, sons) dans et entre des organisations. Apporter un soutien aux processus de travail dans l organisation selon trois modalités principales : fournir de l information, assister le travail humain et automatiser le travail. Ainsi l auteur défini les systèmes d informations comme support aux tâches de traitement de l information. Il présente une vision tridimensionnelle des systèmes d informations allant d une dimension informationnelle, à une dimension technologique puis une dimension organisationnelle. La dimension informationnelle, qui concerne les différents niveaux de représentations des données dans les systèmes d informations, allant des données ouvertes à titre collectives aux données fermées à titre stratégique. La dimension technologique, concerne les moyens techniques déployés pour couvrir les étapes de collecte, traitements, diffusion et mémorisations des données. La dimension organisationnelle, concerne l utilisation des systèmes d informations d un point de vue organisation et structure dans l entreprise, qui est au-delà de la vision technologique telles que, la division du travail, la répartition du pouvoir, la standardisation et la formalisation. Dans un contexte décisionnel, les décideurs ont besoin d une vision synthétique et globale des informations circulant dans leur organisation afin de guider et d adapter leur prise de décision. Pour faciliter ce processus, ils emploient les systèmes d informations. Ces outils permettent aux décideurs d avoir une vision globale sur les activités d une entreprise par un accès rapide et interactif à un ensemble de données organisées pour refléter l aspect multidimensionnel des données de l entreprise [Colliat, 1996]. Pour répondre aux besoins des décideurs, il est nécessaires de synthétiser, réorganiser et historier les données de production du système d information afin d en déterminer une sous partie relative à l aide à la décision. Dans ce contexte [Ravat, 2007] propose une définition du Système d Information d Aide à la Décision (SIAD) : Un SIAD est la partie d un système d information permettant d accompagner les décideurs dans le processus de prise de décision. Les fonctions d un SIAD permettent de : collecter, intégrer, synthétiser et transformer les données opérationnelles d un SI, mémorisera de manière adaptée les données décisionnelles, traiter ces données, restituer de manière appropriée ces données afin de faciliter la prise de décision. De nos jours l ensemble des outils informatiques permettant de supporter un SIAD est qualifié de Busines Intelligence (BI) ou de Système d Aide à la Décision (SAD). Un SAD regroupe l ensemble des outils informatiques (matériels et logiciels) permettant : d extraire, de transformer et de charger les données opérationnelles, de construire un ou des espaces de stockages de données décisionnelles, de manipuler ces données au travers d outils d analyse ou d interrogation destinés au pilotage des organisations. L accomplissement de ces fonctions est devenu complexe aujourd hui dans la mesure où ces informations utiles apparaissent en des instants différents, en des lieux différents et sous des formes différentes. Les principales difficultés à surmonter sont alors liées à l accès à l information et aux données. Il faut pouvoir identifier : Où est stockée l information?

45 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 45 Comment est-elle codée? Comment y accéder? De nos jours, les entreponts de données constituent une solution adéquate pour construire un système d aide à la décision [Widom, 1995], [Inmon, 1996]. Un entrepôt de données est défini comme étant «une collection de données intégrées, orientées sujet, non volatiles, historisées, résumées et disponibles pour l interrogation et l analyse» [Inmon, 1996]. Un des points centraux de l entreprise est alors son système d information. En effet, informatisé ou non il est devenu le support de toute circulation d information et de toute décision. Or, l IE a pour objectif de permettre aux décideurs de l entreprise de disposer d une information de valeur, à laquelle ils puissent se fier dans le cadre de leurs prises de décision. Pour cela, il s agit de produire de l information pertinente et à forte valeur ajoutée. Cette exigence doit se retrouver à travers des quatre phases de la démarche : collecte de l information, traitement et diffusion (Figure 9). Ce sont les systèmes d information qui vont permettre de répondre à ces exigences. Les systèmes d informations sont alors au cœur de la démarche d IE. L objectif de nos travaux consistent à définir un système d information d aide à la décision orienté environnement pour soutenir la démarche d IE. Expression des besoins Memmorisation et Diffusion Système d information Recherche & Collecte des données Traitement & Analyse Figure 9: Système d information support au cycle du renseignement. 1.3 L intelligence Economique par son processus L analyse stratégique et la veille constituent les bases méthodologiques du processus d IE. Sa mise en place doit s instaurer dans un climat de sécurité globale. Dans ce contexte, nous regroupons les étapes du processus en trois phases distinctes mais complémentaires : l analyse stratégique, la veille et la protection de l information. Selon ces hypothèses et en s inspirant du cycle d IE proposé par Bernard Dousset 5, nous proposons une nouvelle représentation graphique de la démarche sous forme d un cycle itératif en huit, allant de l identification de l environnement d un problème décisionnel posé jusqu à la mise en place du plan d actions. Cette représentation a pour objectif d éclaircir et définir le contexte général de notre contribution. 5 Présentation de Dousset B., Réunion du groupe de Recherche en IE, Juin 2007.

46 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 46 Le processus d IE est alors une coordination des processus d analyse stratégique et de veille basée sur les systèmes d informations. Nous le présentons dans la Figure 10 en nous inspirons de la représentation graphique proposée par. On retrouve dans cette présentation schématique, les quatre étapes essentielles du cycle du renseignement à savoir : Compréhension du besoin, La recherche et la collecte d information, Le traitement de l information, La diffusion de l information. Le passage de ces étapes au niveau du processus d IE leur a fait subir des transformations au niveau des termes qui les décrivent ainsi qu une adaptation aux diverses situations : La compréhension du besoin est nommée par plusieurs expressions synonymes selon les auteurs à savoir : Ciblage [Lesca, 1994], Expression du besoin, Orientation générale [De vasconcelos, 1999], Identification du problème décisionnel et sa traduction en besoin informationnel [Bouaka, 2004]. Pour la recherche et la collecte d information nous retrouvons : traque [Lesca, 2003], trouver [Fuld, 1995], acquérir [Dupré, 1997], recueil [Oberson, 1997] et recherche [Jacobiak, 2001]. L exploitation devient traitement puis analyse [Martinet, 1995]. Seule l étape de diffusion semble faire l unanimité bien qu elle soit parfois ajoutée au milieu du processus. Cycle Problème décisionnel Intelligence Economique Environnement Collecte Stratégie Besoin informationnel Analyse Plan d actions Cibles Analyse stratégique Diffusion Veille stratégique Figure 10 : Cycle d IE proposé.

47 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 47 Le cycle débute par l identification et la compréhension de l environnement d un problème décisionnel posé. Cette étape à pour but d analyser le positionnement stratégique de l entreprise dans cet environnement. L entreprise peut avoir recoure à diverses méthodes issues de l analyse stratégiques. L analyse du positionnent est bien entendu spécifique à chaque entreprise concernant les méthodes utilisées. Plusieurs méthodes existent dans la littérature ; parmi elles LCAG 6, matrice BCG 7, Mc Kensey, PIMS 8, SWOT. Nous développons dans la suite de cette étape la méthode SWOT ( ) qui possède la particularité d être plus adaptée à l analyse de l environnement. Cette méthode permet d organiser et de synthétiser l environnement informationnel de l entreprise selon le problème décisionnel posé. Elle se base sur une bonne connaissance de l environnement interne et externe à l entreprise. L environnement interne, représente l ensemble des informations concernant l entreprise tels que : sa raison sociale, son implantation, son statut juridique, son secteurs d activité, ses domaines de compétences, ses ressources, etc. L analyse de l environnement interne, permet de distinguer les forces et faiblesses de l entreprise. Nous rappelons ici que les forces correspondent aux facteurs qui permettent à l'entreprise de mieux réussir que ses concurrents. Les faiblesses désignent les domaines où l'entreprise est susceptible d'afficher des difficultés par rapport à la concurrence. L environnement externe, représente toutes les données produites par les différents domaines (économique, juridique, politique, culturelle, technologique) et acteurs (concurrents, fournisseurs, partenaires, etc. et les thèmes tels que nouveaux produits, procédés novateurs, etc) qui sont en interaction avec l entreprise. Ces données sont susceptibles d influencer la stratégie de l entreprise. L analyse de l'environnement externe, permet d identifier les opportunités et les menaces. Elle peut être déterminée à l aide du modèle Porter ( ). Ce modèle consiste à mesurer l attractivité du marché lié à un domaine donné par l identification des groupes d acteurs et de thèmes potentiels. L analyse et la hiérarchisation de ces groupes va permettre de dégager les opportunités et menaces à maitriser pour obtenir un avantage concurrentiel. Les opportunités correspondent à des tendances favorables conduisant à de nouvelles perspectives de développement et dont l'entreprise pourrait tirer profit. Les menaces désignent des problèmes posés par une transformation de l'environnement qui, en l'absence d'une réponse stratégique appropriée, peuvent détériorer la position de l'entreprise. Afin d obtenir une vue synthétique de l environnement du problème décisionnel posé, la matrice SWOT se représente par une matrice découpée en quadrants (Tableau 3). Elle va permettre d identifier les facteurs positifs : forces et opportunités et les facteurs négatifs : faiblesses et menaces. Positif Négatif Environnement nnement interne Liste des forces Liste des faiblesses Environnement externe Liste des opportunités Liste des menaces Tableau 3 : Analyse de l environnement. Une fois l environnement analysé, la matrice SWOT (Tableau 5) va pouvoir déterminer si la combinaison des forces et faiblesses de l entreprise est à même de faire face aux menaces et opportunités de 6 LCAG : Learned, Christensen, Andreus, Guth. 7 BCG : Boston Consulting Group. 8 PIMS : Profit Impact of Market Strategy.

48 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 48 l environnement. La confrontation de l analyse de l environnement interne et externe va permettre de dégager quatre types de stratégies. Opportunités Menaces Forces Stratégie Forces-Opportunités Stratégie Forces- Menaces Faiblesses Stratégie Faiblesses-Opportunités Stratégie Faiblesses-Menaces Tableau 4 : Matrice SWOT. Stratégie Forces-Opportunités, consiste à exploiter les forces internes pour poursuivre les opportunités de l environnement. Stratégie Faiblesses-Opportunités, va permettre d améliorer les faiblesses internes afin de pouvoir exploiter les opportunités de l environnement. Stratégie Forces- Menaces, consiste à utiliser les forces internes pour se protéger des menaces de l environnement. Ou convertir les menaces en opportunités en investissant les ressources nécessaires. Stratégie Faiblesses-Menaces, Consiste à minimiser les faiblesses de la firme pour la rendre moins vulnérable aux menaces extérieures. Stratégie de repositionnement ou de diversification. L élaboration de la stratégie va se baser sur les résultats obtenus par la matrice SWOT. Une fois la stratégie est élaborée, il convient de déterminer les domaines d'activités stratégiques à maintenir, à développer ou à abandonner. En fonction de cibles identifiées, il va s agir de rechercher les informations les plus pertinentes, à l intérieur et à l extérieur de l entreprise. La première étape consiste à identifier les sources d informations qui sont susceptibles de contenir ces informations. A partir de ces sources les informations utiles vont être extraites et évaluées. Il existe deux types d informations qui sont nécessaires à l élaboration de la stratégie : L information utile qui peut être directement utilisée ; et l information élaborée qui résulte de l analyse et le traitement des informations utiles. L étape de traitement et d analyse est soutenue par les méthodes et les outils de fouilles de données qui permettent de révéler les informations cachée, et souvent statistiques à partir des informations utiles. La dernière phase du cycle, consiste à restituer les résultats jugés pertinents aux utilisateurs potentiels qui vont établir et définir les actions stratégiques en se basant sur le degré de fiabilité des résultats obtenus. Cette phase peut engendrer une redéfinition ou un réajustement de la cible, le cycle devient alors itératif. L expression du besoin consiste à traduire les cibles identifiées dans l étape précédente en questionnement opérationnelles. Cette étape doit être déterminé de façon très précise afin de bien pouvoir cibler la collecte, l analyse et de retourner des réponses pertinentes. Il est nécessaire de formaliser cette étape en dressant un plan de veille qui décline chaque domaine d activité en un ensemble de questions précises. La collecte d information repose essentiellement sur la connaissance et la maîtrise des sources d information. C est une activité continue qui demande d être en permanence à l affût d informations importantes pour l entreprise. Il faut pour cela identifier de manière précise, exhaustive et en toute légalité les sources internes et externes à l entreprise susceptible de fournir des informations permettant une meilleure prise de décision.

49 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 49 Toute fois en raison, d une part de la diversité et de la dispersion des sources d informations, d autre part du volume important des informations disponible, il est indispensable de définir un ensemble de sources d informations à consulter en priorité en fonction de types d informations recherchés : scientifiques, technologiques, juridiques, etc. Une fois la collecte des informations pertinentes est réalisée et validée, il faudra procéder à leur traitement et analyse pour transformer l information en connaissance. En fonction du type d information, il ressort trois types de traitement : Signalement explicite, certaines informations se suffisent à elles mêmes, il suffit donc, après validation, de les mettre en forme et de les analyser. Le traitement est simplement, ici, d ordre signalétique en prenant en compte la notion de priorité de l alerte. Recoupement, dans ce cas, l information doit être rendue compréhensible par rapprochement avec d autres informations de même nature. Le traitement est alors le plus souvent d ordre statistique (comparaison à des données chiffrées spatiales ou temporelles) qui permet d exprimer une qualité ou une tendance. Le recoupement d informations permet aussi de vérifier la cohérence avec des informations similaires. Le choix des sources et l évaluation de leur fiabilité sont ici des éléments primordiaux, car l information obtenue est le plus souvent explicite et peut donc être manipulée ou intentionnellement biaisée. Les informations directes (explicites) sont bien entendu plus faciles à obtenir et à assimiler, mais il est difficile de leur accorder une confiance absolue car elles sont très souvent le fruit d une synthèse individuelle ou collective qui peut ne pas être totalement objective ou trompée elle-même par d autres informations directes peu fiables. La diffusion au sein de l entreprise constitue une phase importante du processus de veille. Elle consiste à valoriser les résultats d analyse sur le plan stratégique. Afin d en assurer la bonne exploitation l information pertinente doit être restituée à la bonne personne et au bon moment. L objectif du processus de veille stratégique est de produire, sur des supports adaptés, les informations stratégiques et tactiques clés en réponse aux besoins informationnels exprimés. Nous notons, que la protection de l information est un processus qui s instaure en parallèle du cycle de l IE et s applique à toutes ces étapes. L ensemble de ces étapes peuvent être soutenues par l utilisation des systèmes d information Classification de l information Nous identifions au niveau du processus d IE, différents niveaux d informations (Figure 11) à savoir : Intelligence 5 Connaissances 4 Informations Elaborées 3 2 Informations Utiles 1 Données 1 : Evaluer & Collecter, 2 : Valider & Diffuser, 3 : Analyser, 4 : Interpréter & Diffuser, 5 : Appliquer Figure 11: Typologie des niveaux d information.

50 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 50 Données, ce sont les données sur lesquelles va se baser la collecte d information, elles sont issues de deux types de sources : formelles et informelles. Les travaux d IE différencient les informations formelles et informelles, afin d organiser un plan de collecte dissociant les différentes sources disponibles. Les sources formelles : l information formelle est une information disponible dans la presse, les bases de données documentaires, les brevets, les textes de loi, les normes, les études réalisée par des prestataires publics ou privés, internet. Pour [Martinet, 1995], l information formelle «existe sur un support papier, filmographique, informatique». Elle peut être structurée ou non. Nous résumons dans le Tableau 1-3 les principales sources formelles dans un contexte d IE. Support Structure Type Bases documentaires CD-ROM, Web, Serveurs Oui Texte Brevets CD-ROM, Web, Serveurs Peu Texte Groupes de discussions Web Peu Texte Traces de connexions Serveurs Non Texte Presse en ligne Web Peu Texte, Video, Image Blog Web Peu Texte, Video, Image Portail Web Peu Texte Tableau 5: Sources d information formelles. Les sources informelles : ce type d information est véhiculé par tous les types de communication qui ne se font par l intermédiaire d un support institutionnalisé comme les articles scientifiques, les brevets, la presse, etc. Elle est souvent recueillie oralement. Elle est qualitative et exige des analyses approfondies pour pouvoir être suffisamment utiles à l'entreprise. Nous pouvons citer quelques exemples de sources informelles : expositions, foires, salons, fournisseurs, sous-traitants, stagiaires, clients, rapport d étonnement, etc. Informations utiles, résultent d'une première opération de collecte à partir des données. C'est celles qui n'ont subit aucun traitement. Elles sont peu fiables, elles doivent être évaluées avant de les diffuser. Elles ne peuvent acquérir de la valeur et devenir des informations élaborées qu'après plusieurs traitements. Appelée aussi : informations Exogènes. Informations élaborées, sont celles qui sont directement utilisables dans la prise de décision. Elles sont ce qu'on appelle les informations à caractère stratégique et découlent des recoupements et rapprochements avec d'autres informations. Grâce à des méthodes mathématiques et statistiques, on arrive à tirer des conclusions inédites et intelligentes par juxtaposition de données brutes. Connaissances, ce sont les résultats d interprétation des informations utiles et élaborée retenues. Dans ce contexte, nous retenons la définition proposée par [Davenport, 1998] qui définissent la connaissance comme une information valorisée par l expérience, le contexte, l interprétation et la réflexion. Le passage de l information à la connaissance peut être schématisé par l équation suivante :

51 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 51 Informations utiles/ élaborées + Interprétations = Connaissances Cette équation explique que la connaissance se construit au fur et à mesure que les informations sont intégrées et assimilées au sein d un cadre de connaissance qui assure la cohérence et la structuration de la base de connaissance accumulée [Oubrich, 2003]. Intelligence, lorsque la connaissance est produite, elle peut servir de base à une réflexion stratégique. Selon Besson Bernard et Jean-Claude Possin "L'intelligence économique peut être définie comme la capacité d'obtenir des réponses à des questions en découvrant des intelligences entre deux ou plusieurs informations préalablement mémorisées" Intelligence collective Concevoir l'information d'un point de vue stratégique, rester en éveil, protéger des données sensibles, partager des informations ou activer des réseaux humains demande une culture de l'intelligence collective, éloignée d'une éducation centrée sur l'individu. Selon [Colletis, 2007]: Les deux questions de la coordination-coopération et de la production de connaissances nouvelles - à la fois ressources et résultat de stratégies de changement - sont au cœur de la démarche d intelligence économique. La mise en commun des savoirs et savoir faire, en vue de la résolution de problèmes productifs inédits, n'obéit pas à un quelconque vœu de meilleure circulation de l information recherchée pour elle-même, mais à l'objectif de création de ressources et de richesses. Et selon [Lesca, 1997]: Il y a intelligence collective, lorsque les signes observés dans l environnement, leur sélection et leurs mises en relations pour créer du sens sont l objet d un travail collectif à l occasion duquel les membres du groupe sont en communication et en interaction sous toutes formes appropriées. Par ces définitions, les auteurs valorisent la collaboration des différents acteurs de l entreprise dans la démarche de l IE. Humbert Lesca précise que l intelligence collective est le fruit de la communication et des interactions (coordinations- coopérations) des différents acteurs de l entreprise selon leurs compétences et leurs expériences. Ainsi nous identifions dans la cadre d une démarche d IE quatre classes d acteurs selon leurs compétences: Décideurs, ces acteurs interviennent en amont et en aval da la démarche d IE. Les décideurs vont traduire leurs problèmes décisionnels en un ensemble de cibles hiérarchisées, qui vont le transmettre à la cellule de veille. Une fois qu ils acquièrent les connaissances sur leurs cibles, ils interviennent dans le choix des scenarios à retenir et les décisions à prendre. Cellule de veille, cette cellule est sous le contrôle du responsable de la veille. Il se charge de la mise en place du système de veille et de coordonner la circulation des informations et leurs gestion. Il a le rôle d animateur du réseau de veille. Il est responsable des acteurs de cette cellule qui sont de trois types : Le veilleur, ce sont les acteurs qui s occupent de la tâche quotidienne de l exécution des processus de recherche et collecte des données utilisant via les systèmes d informations. Son rôle principal est de rechercher les informations utiles et de les valider. Il travaille en étroite collaboration avec la cellule de documentation et le ou les analystes.

52 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 52 Les analystes, sont chargés du traitement et de l analyse des données collectées par le veilleur. Leur travail consiste à appliquer les techniques de fouilles de données et les méthodes d étude bibliométrique afin de réaliser des analyses statistiques permettant de dégager des indicateurs de tendances. Les experts, sont des acteurs qui ont des compétences ou des savoir-faire spécifiques à un ou plusieurs domaines, ils interviennent pour donner leur expertise sur la qualité des données identifiées. Les experts peuvent travailler en collaboration avec d autres experts externes à l entreprise mais qui possèdent des compétences différentes. Cette collaboration se fait dans une structure organisée appelée «Réseau Externe», qui a pour but de favoriser les échanges de flux de connaissances ainsi que la création de connaissance [Haroussi, 2004]. Centre de documentation, est sous la responsabilité de l animateur du centre. Il gère les stratégies de collecte d informations et coordonne le réseau des documentalistes. Les Documentalistes, s occupent de collecter les informations formelles et informelles qui portent sur l environnement interne et externe de l entreprise. La recherche et la collecte d informations sont leurs taches quotidiennes. Ils s occupent aussi à valider et à structurer les informations informelles provenant des acteurs de l entreprise. Toutes les informations collectées vont être mémorisé dans la base de données de l organisation qui contient la matière première du processus de veille. IC Externe Réseau d acteurs externe Décideur IC Interne Cellule de Veille Centre de documentation Experts Analyste Veilleur Documentalistes Figure 12: Les acteurs de la démarche d IE. 1.4 Les modèles d analyse de l IE A travers les différentes définitions et caractéristiques générales de l IE, nous identifions quatre dimensions importantes à prendre en compte dans la définition d un modèle d analyse à savoir : La dimension environnement d une entreprise qui regroupe les éléments pouvant influencer d une manière directe ou indirecte l évolution stratégique d une entreprise. Elle est caractérisée par les partenaires, les concurrents, les marchés, les clients, etc.

53 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 53 La dimension humaine qui englobe les acteurs impliqués dans une démarche d IE, qu ils soient internes ou externe à l entreprise. Elle est caractérisée par les réseaux de collaborations, d interactions et de communication entre les différents acteurs impliqués dans cette démarche. La dimension stratégique, correspond aux différents modèles d analyse permettant l élaboration des stratégies d une entreprise allant de l identification des objectifs à la décision et à la définition d actions. La dimension technologique, rassemble toutes les méthodes, outils et techniques utilisés pour répondre aux besoins informationnels dans une démarche d IE, par les procédures de recherche, collecte, traitements et diffusion de l information. La prise en compte de l une ou plusieurs de ces dimensions permet de concevoir divers modèles servant d analyse (conceptuelle ou pratique) de l IE. Nous avons retenu deux modèles universitaires bâtis sur ces dimensions : le modèle MEDESIIE, le modèle SITE La méthode d analyse MEDESIIE La démarche d IE proposé par Maryse Salles dans le cadre du projet MEDESIIE 9 est consacrée entièrement à l'analyse du besoin en IE des PME. MEDESIIE considère le système d IE comme le système de représentation des connaissances de l'entreprise, concernant les relations, réelles ou potentielles, qu'elle entretient avec son environnement. Un tel système d'i.e a pour vocation première d'apporter une aide à la décision, pour toutes les décisions qui affectent les relations de l'entreprise avec son environnement, de quelque manière que ce soit et avec quelque intensité que ce soit 10. L architecture conceptuelle de ce système s inspire de la définition proposée par [Seligmann, 1989] pour la conception des systèmes d informations. Seligmann décrit une méthode comme constituée obligatoirement de quatre composants, qu il designe comme des "manières de" (way of) [Salles, 2003]: le way of thinking (le paradigme, le point de vue), le way of modelling (les modèles à construire), le way of organising (la démarche à suivre), le way of supporting (un support rassemblant les outils). MEDESIIE [Salles, 2005], propose des modèles pour décrire : l entreprise, sa stratégie, son environnement, son besoin relevant de l IE et ses Produit/services. Un modèle d entreprise, est décrit selon ses différentes fonctions (productive, économie/lien au marché, financière et d innovation/système d information). Chaque fonction est elle-même composée d un ensemble de sous-fonctions de management. Un modèle de stratégie, est représenté par un ensemble de choix stratégiques structurels et d axes de développement (recherche d indépendance, croissance de ses activités, augmentation de ses profits, etc.) ; Un modèle d environnement, qui est décrit, dans un premier temps, par les fonctions de l entreprise et des relations qu elle développe avec son environnement ; dans uns second temps, par l environnement exogène à l entreprise, selon 8 grands déterminants (la géométrie spatiale des marchés, la demande, la technologie, la concurrence, le régime financier, les conditions d offre, le cadre réglementaire, l environnement politique et géopolitique). Un modèle du besoin, sert de cadre à la collecte du besoin, sa formalisation, son analyse et sa validation. Le besoin exprimé est représenté par un ensemble d unités de besoin. Le modèle 9 Projet MEDESIIE (Méthode de définition de système d'information pour l'intelligence économique), consacré entièrement à l'analyse du besoin en intelligence économique (i.e.) des PME, et financé par la Région Midi-Pyrénées. 10 Source : ( Projet MEDESIIE)

54 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 54 d unité de besoin est décrit en fonction de trois dimensions : le niveau de pilotage de la décision pour lequel l unité est exprimée (sa valeur : opérationnelle, tactique ou stratégique), la phase du processus de décision IDC associé à l unité et son contenu informationnel (identification de sa valeur et de sa fonction). Un modèle des produits/services, toute fourniture d'aide à la décision portant sur l environnement, de l entreprise qui consiste en un outil de prototypage réalisé en fonction de la satisfaction des besoins recueillis afin d en définir les coûts, la portée et de pouvoir en évaluer, à priori, les effets Les modèles SITE Le modèle SITE regroupe les différents modèles d IE proposé par l équipe de recherche SITE qui est dirigée par A. David et rattaché au laboratoire LORIA. La problématique de l'équipe est d étudier la modélisation et le développement de systèmes d informations stratégiques dans le cadre de l IE. Ces modèles se basent sur la mise en relation de trois espaces : l espace des problèmes décisionnels, l espace des problèmes informationnels et l espace des médiations qui les relient par l intermédiaire des échanges entre les deux types d acteurs (décideur et veilleur). Les travaux de l équipe ont en commun la prise en compte de l utilisateur dans les systèmes d information. Ils proposent des modèles permettant de définir les différents acteurs, leurs interactions et leurs positionnements dans le processus d IE. Nous retenons trois modèles à savoir : EquAte 11, MEPD 12, WISP 13. Le modèle EquAte [David, 2002], représente une situation de recherche d information qui implique les phases cognitives suivantes : L exploration du monde d information L interrogation de la base d information L analyse de la base d information L annotation fondée sur différentes préférences Le modèle MEPD [Bouaka, 2004], consiste à définir les différentes facettes d un problème décisionnel. Il se base sur : La modélisation du décideur, par son identité, les traits de sa personnalité, son style cognitif et son expérience, La modélisation de l environnement, par l environnement immédiat (les clients, les fournisseurs, les concurrents) et global (sociale, économique, politique, etc.), La modélisation de l organisation, par l environnement, son signal, les hypothèses que le décideur peut déduire de la détection des signaux recueillis. Le modèle WISP [Kislin, 2007], est associé au modèle MEPD dans lequel il s insère en lui empruntant quelques paramètres. Le modèle WISP est un modèle tridimensionnel, multi facette, qui intègre la notion de point de vue : 11 Explore Query Analyse Annote 12 Modèle pour l explication d un problème décisionnel 13 Model for Information Retrieval query Annotations Based on Expression Levels

55 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 55 Une dimension analytique qui englobe la compréhension de la demande-enjeu-contexte (DEC), la définition des indicateurs informationnels et toutes les opérations d analyse et de création de connaissances qui peuvent être réalisées par l étude des éléments mémorisés, Une dimension méthodologique qui est constituée, à un premier niveau, par les compétences de traduction du problème décisionnel en problème informationnel et à un second niveau par les stratégies de recherche par lesquelles l information est identifiée et les connaissances sont acquises. Une dimension opérationnelle qui correspond à la sélection des plans d action et à la mise en place des différentes étapes de résolution de la méthodologie associée au modèle WISP. 1.5 Un système d information adapté aux besoins d une démarche d IE Pour Patrick Romagni et Valérie Wild, la définition d un système d information adapté à la démarche d IE est la suivante [Romagni, 1998]: Ensemble organisé de procédures permettant, à tout moment, de donner aux décideurs une représentation de la place de l entreprise dans son environnement et sur son marché. Il produit de l information pour assister les individus dans les fonctions d exécution, de gestion et de prise de décision. Il doit : Faciliter les décisions, en permettant d automatiser un certain nombre d actions ou en mettant à disposition des décideurs des éléments nécessaires à la prise de décision, Coordonner les actions par le traitement de l information, Stocker de manière durable et stable les informations, Traiter les données, c est la fonction la plus importante du système d information car il entraîne la création d informations directement utilisables par les décideurs. Les systèmes d informations actuels ne sont pas adaptés pour gérer la dynamique du marché. Ils sont essentiellement conçus pour des environnements stables et maitrisés et sont bâtis essentiellement sur des schémas organisationnels verticaux qui sont de plus en plus complexe. Ce type de système d information ne permet pas de répondre aux besoins d une démarche d IE. Il est donc essentiel de concevoir des systèmes d informations permettant aux organisations une meilleure gestion de l information et d offrir une base de coordination des actions entre les différents acteurs. Cette coordination transversale est soutenue par les motivations suivantes : Les objectifs d une démarche d IE sont inter-reliés. Ils ne peuvent être traités séparément. Le besoin de partage d informations entre les différents acteurs, Le partage des connaissances acquises au cours d une démarche, L organisation de l entreprise de manière fonctionnelle est transversale. D où l importance, d évoluer d une architecture verticale des systèmes d information vers une architecture transversale qui permettra une gestion globale de l information.

56 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 56 Structure fonctionnelle hiérarchique Infrastructure globale d information Figure 13: Passage d une structure fonctionnelle hiérarchique vers une infrastructure globale d information 14. L architecture transversale est basée sur une architecture modulaire et évolutive structurée autour des projets de l entreprise, l infrastructure globale d information va permettre selon [Cigref, 2004] : De réduire les nombreuses coordinations verticales en diminuant les échelons hiérarchiques, Une meilleure surveillance de l environnement des unités décentralisées, Un décloisonnement par une communication transversale, Des relations axées sur la complémentarité des métiers, Une meilleure adaptation à la dynamique du marché. Cette analyse confirme l émergence de plates-formes d information et l enracinement de la stratégie dans les systèmes d information. La démarche d IE s inscrit alors dans le schéma global du système d information stratégique de l entreprise. D après le rapport du Cigref «Intelligence économique et stratégique», le portail de gestion de l information est actuellement l outil le mieux adapté pour implanter le concept et la culture d IE à travers un réseau. Ce portail est bâti autour d une solution logicielle dite d IE. L avantage de ce type de système d information s appuie sur les points suivants : GESTION DU PROJET DE VEILLE Une prise de conscience collective, chacun comprenant les enjeux de sa contribution au dispositif. Porter à la connaissance de tous, les thèmes non confidentiels de veille et leur actualisation. Donner une identification des acteurs et de leur rôle en matière de projets et de gestion de l information. PARTAGE DE L INFORMATION Améliorer la qualité de l information et créer de la valeur ajoutée (échange de points de vue et consolidations). Améliorer la circulation en offrant la possibilité d assurer un feed-back. Créer des flux plutôt que des stocks d informations vers des destinataires susceptibles d en tirer profit. 14 Inspiré de : de Systèmes d information et compétitivité, Baumard Philippe et Benvenuti Jean-André, InterEditions, Intelligence économique et stratégique, Rapport Cigref, 2004.

57 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 57 Favoriser la participation du plus grand nombre, avec possibilité de communication descendante, montante et transversale. Retenir des formats de diffusion ou de mémorisation adaptés à chaque type d information et de destinataire. Avoir une traçabilité des demandes d informations et des réponses. Les fonctionnalités du portail doivent offrir aussi : INTERFACE PERSONNALISEE Personnalisation de l interface (info du jour, par thème, moteur de recherche, etc.) accès rapide à l information. COLLECTE PLUS PRECISE ET CIBLEE Moteur de recherche, sur internet, web invisible, etc. Remontée rapide des sources informelles (clients, fournisseurs, commerciaux, réseaux personnels, etc) via certains outils (assistants numériques, courrier électronique, téléphone mobile, internet, etc.). Création d annuaires de liens Internet pour l ensemble des membres d un réseau. TRAITEMENT, ANALYSE, STOCKAGE Représentation graphique des informations. Archivage spécifique des informations utiles aux décideurs en fonction de leur durée de vie (validité). DIFFUSION Possibilité de générer des rapports à la demande pour les décideurs. Groupe de discussion avec droits d accès, échange et partage de l information ; chacun profite des informations récoltées par les autres. Pilotage plus pointu, gestion des feed-back. Ciblage par rapport aux axes de développement de l entreprise, suivi des acteurs, thèmes les plus actifs et sources surveillées. Pilotage temps réel de l activité de veille, grâce à des tableaux de bords permettant de contrôler et réorienter l activité en fonction des objectifs. Profiling des utilisateurs en fonction des thèmes consultés adéquation entre informations collectées et informations recherchées. Le couplage des besoins identifiés dans une démarche d IE avec les différentes techniques existantes de travail collaboratif ou de Business Intelligence tels que : workflow, groupware, datawarehouse, data mining, text mining, gestion électronique des documents, visualisation, etc. permet d optimiser chaque étape du cycle de l IE. La Figure 14 résume l ensemble de ces techniques pour chaque étape de la démarche d IE. La phase de collecte se fait généralement par l utilisation des bases de données, Internet, agents de recherche, moteurs de recherche, l étape de traitement et d analyse peut être supportée par les outils de visualisation, la bibliométrie, l analyse statistique, entrepôt de données, etc. l étape de diffusion peut s appuyer sur les agents push-pull, les courriers électroniques, etc.

58 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 58 Expression du besoin Collecte Traitement & analyse Diffusion Bases de données Visualisation ation Workflow Internet, Moteurs de recherche, metamoteurs, annuaires, etc. Analyse sémantique, statistique, linguistique Courrier électronique Bibliométrie Datawarehouse Forum, Mailing list Agents intelligents Agents de recherche Agents d analyse Agents push, pull Internet & intranet Figure 14: Les différentes techniques du Buisines Intelligence. 1.6 Evaluation des outils d IE La société FULD & COMPANY, est l un des leaders mondiaux de l IE particulièrement dans l'analyse des marchés et des concurrents ainsi que la veille stratégique et concurrentielle. Depuis 1998, cette compagnie a toujours évaluée les outils technologiques dédiés à l IE. Le dernier rapport d évaluation de la compagnie «Intelligence Software Report », porte sur les outils de traitements avancés de l information utilisés dans le cadre d une démarche d IE par les entreprises. Il se base sur l auto-évaluation de 480 entreprises dans le monde. Les auteurs différencient les outils d IE des outils Busines Intelligence (BI). Les outils BI portent sur les entrepôts de données et l analyse des données quantitatives, qui sont exclusivement internes aux entreprises. Or les outils d IE, concernent la collecte et l analyse des données qualitatives qui sont à la fois internes et externes à l entreprise. L évaluation des outils se base sur plus de 120 critères (représentées sous forme de fonctionnalités) qui couvrent les cinq étapes du cycle de traitement de l information dans le cadre de l IE, à savoir : Expression du besoin, Collecte d Information publiée, Collecte d Information primaire, Traitement et Analyse, Diffusion Expression du besoin Cette partie consiste à définir : la stratégie et les objectifs de l étude ainsi que son besoin informationnel, cela constituent le moteur des étapes de collecte et d analyse. Critères : l expression du besoin est un processus purement humain, aucun logiciel ne peut définir dynamiquement les besoins d une entreprise. Ils peuvent seulement offrir un cadre pour la gestion du projet. Dans ce contexte les fonctionnalités que doit satisfaire l outil sont : Une interface de gestion des droits d accès des utilisateurs, Une interface pour introduire et gérer les orientations thématiques des axes de recherches,

59 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 59 Une interface qui permet aux intervenants d introduire et gérer les différents besoins informationnels liés à une étude, Une interface d échange et de partage de données dans le cadre d une étude pour permettre une collaboration entre les différents intervenants Collecte d information publiée Cette étape concerne l identification des sources de données et la recherche d informations. Critères : se basent sur les types de source que l outil peut traiter et les techniques de recherche, nous retrouvons (sources formelles): Les données internes de l entreprise : bases de données, documents de Microsoft Office, rapports, s, graphiques et intranet, Les sources externes issues du web : pages web, sites internet, bases de données : Interroger simultanément plusieurs moteurs de recherches (requêtes inter-langues), Définir un profil utilisateur pour la recherche d information (requêtes, thèmes, dates, etc.), Surveiller les flux RSS15, Une interface de requêtes prédéfinies, Stockage des données, Filtrage automatique des données collectées selon les critères de l utilisateur : concurrents, source, dates, acteurs clés etc., Evaluation et validation des données collectées, Commentaires et annotation des données collectées, Classification et regroupement automatique des données collectées selon les critères de l utilisateur Collecte d information primaire Concerne la collecte d information informelle, auprès des acteurs internes à l entreprise. Critères : l évaluation des savoir-faire de l entreprise se base sur les points suivants : Recherche et collecte des données à partir de groupe de nouvelles et des forums, Une interface pour saisir les informations informelles : entrevues, rapport, expertise, etc Traitement et analyse Consiste à produire des informations utiles à partir des données collectées. Critères : l évaluation des techniques d analyse des données qualitatives concerne les points suivants : Trier les données selon des règles définies par l utilisateur, 15 RSS désigne une famille de formats XML utilisés pour la syndication de contenu Web. Ce standard est habituellement utilisé pour obtenir les mises à jour d'informations dont la nature change fréquemment. Typiquement cela peut être des listes de tâches dans un projet, des prix, des alertes de toutes nature, des nouveaux emplois proposés, les sites d'information ou les blogs. (Source : Wikipedia)

60 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 60 Interface pour le tri et la visualisation des données collectés, Visualisation des modèles : matrice SWOT, les cinq forces de Porter, etc. Affichage des données dans un ordre chronologique, Extraction des relations existantes entre les différents acteurs, dates, lieu, événements et autres corrélations importantes, Les méthodes de Fouilles de données textuelles pour extraire et analyser les variables sélectionnées par l utilisateur, La capacité de rapporter les données qualitatives aux quantitatives. Visualisation des résultats d analyse sous différents forme graphique Diffusion Va porter sur les techniques utilisées pour exporter et diffuser les résultats obtenues. Critères : Prise en compte d une charte graphique ou de normes de présentation des rapports, Exporter les résultats sous Microsoft Office ou équivalent, Diffusion des rapports par mail, imprimé, etc Evaluation Treize outils ont été sélectionnés parmi les 480 recensés. Ce sont des outils qui recouvrent une grande partie de la totalité des étapes du processus de l IE. Chacun des outils, est donc évalué selon les critères associés à ces cinq étapes. Chaque étape est notée sur une échelle de 1 à 5 (Tableau 6). 5 Excellent 4 Très bon 3 Bon 2 Juste 1 Pauvre Tableau 6: Échelle d évaluation. Le rapport comporte le comparatif des outils retenus selon le processus classique de traitement de l information (Tableau 7). Les outils évalués ne couvrent pas de façon optimale toutes les étapes du cycle. Le pourcentage de couverture du cycle est en moyenne entre 50% et 80%. Ces outils se basent essentiellement sur les techniques de recherche d information sur le web en utilisant les agents intelligents, seulement quatre d entre eux (QL2 Software, Temis, Cymfony, Traction software) s appuient sur les techniques de Text Mining et deux outils (Brimestone, Cymfony et Netro-City) sur les techniques de visualisation et de Reporting.

61 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 61 Collecte Traitement Evaluation des Expression Moyenne du d information et Diffusion Outils IE du besoin Cycle Formelle Informelle Analyse Brimstome ,4 Cipher ,8 Comergence ,8 Comintell ,6 Cymfony ,6 Global Intelligence ,4 KB Intelligence ,2 Netro-City ,8 QL2 Software ,4 Strategy Software ,8 Temis ,2 Traction Software Wincite ,2 Tableau 7: Comparatif des outils de l IE Intelligence économique : synthèse L objectif de ce chapitre était de présenter le contexte général de nos travaux. Dans la section 1.2, nous avons présenté les origines et l évolution du concept d IE ainsi que ses objectifs et ses différents besoins. L IE va permettre aux entreprises une organisation structurelle et informationnelle pour faire face aux nouveaux défis (menaces et opportunités) de la mondialisation. Cette démarche offre une nouvelle vision de l organisation de l entreprise qui est principalement orienté vers une organisation basée sur la maitrise de l information. Les besoins de la démarche d IE sont centrés vers la connaissance de l environnement de l entreprise dans un contexte décisionnel. Le processus d IE défini dans la section 1.3, présente les différentes étapes de la démarche, les différents niveaux d évolution de l information vers la connaissance et l intelligence (section 1.3.1) ainsi que les acteurs impliqués (section 1.3.2). La section 1.4, nous a permis d identifier les travaux existants portant sur les modèles d analyse dans un contexte d IE. Les travaux effectués dans le cadre du projet MEDESIIE sont principalement orientés vers la formulation du besoin et la modélisation du produit IE (section 1.4.1) et les travaux de l équipe de recherche SITE s intéressent à la modélisation des acteurs impliqués dans la démarche IE. Nous nous sommes intéressés dans la section 1.5, à éclaircir les caractéristiques des systèmes d information adaptées aux besoins de la démarche d IE. Nous avons évoqué aussi comment réorienter les systèmes d informations vers une meilleure maitrise des connaissances et une meilleure circulation des informations aussi bien au niveau interne et qu externe. Dans la section 1.6, nous avons présentés une évaluation des différents outils d IE utilisés par les entreprises. Cette évaluation est basée sur un ensemble de critères, définis sous forme de fonctionnalités, que les outils d IE doivent satisfaire. Le tableau de synthèses (Tableau 8), permet de récapituler l historique des principaux axes de l IE depuis Nous pouvons les décomposer en deux tendances : le cœur du domaine qui est stable depuis plus de 15 ans (Rassemblement, Traitement, Diffusion, Interprétation, Connaissances, Coordination, Prise de décision, Environnement) et les nouvelles préoccupations plus ponctuelles, mais récentes et qui font essentiellement intervenir le facteur temps (Immédiate, Ultérieure, Continue, Anticiper, Au bon moment). D où une importance grandissante du facteur temps et la nécessité de le prendre systématiquement en compte dans toute analyse stratégique.

62 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 62 Auteurs Wilensky Baumard Martre et AL Martinet et Marti Levet et Paturel Colletis Revelli Besson et Possin De Vasconcelos Levet Paturel Guilhon et Manni Juillet Concepts Années 1967 Rassemblement, Recherche, Collecte, Recueil x x x x x x x x Traitement, Tri, Mémorisation, Validation x x x x x x x Savoir-faire, Acteurs x x x x x x Diffusion, Distribution x x x x x x Interprétation, Analyse, Production x x x x x Connaissances, Informations stratégiques x x x x x Coordinations, Collectives, Connexion, Combiner, Communication, Partage x x x x x Prise de décision, Actions x x x x x x Environnement x x x Comprendre, Adapter x x Détecter, Surveillance active x x Immédiate Ultérieure Menaces, Opportunités Continue Anticiper Au bon moment Créativités, Compétences nouvelles Protection Tableau 8: Historique des principaux axes de l IE. Dans le contexte de notre approche, nous retenons la notion d IE telle qu elle a été définit par Henri Martre [Martre, 1994], c est-à-dire en tant qu'ensemble des actions coordonnées de recherche, de traitement et distribution de l'information utile aux acteurs pour permettre l'action et la prise de décision. Ceci dépasse les actions partielles désignées sous le nom de documentation, de veille (scientifique et technologique, concurrentielle, financière, juridique, territoriale et réglementaire) et invite de surcroît à "passer d'un traitement individuel de l'information à la gestion de l'information et à un processus d'actions collectives". Notre vision de l IE est éminemment stratégique, c est une démarche d'anticipation et de projection dans le futur, par la mise en évidence des liens unissant les acteurs dans un même secteur d'activités. L IE repose sur une démarche d'anticipation individuelle et collective, une profonde connaissance de l'environnement et des réseaux existants afin de pouvoir agir et réagir en fonction de leur évolution. La coordination des actions dans le cas d'une stratégie commune requiert une forte capacité à saisir les variations et les réactions environnementales à chaque étape de la démarche afin de repérer les facteurs de changement et d en tenir compte par des corrections appropriées. La majeure partie des informations électroniques utiles à la décision se trouve encore sous forme textuelle et bien souvent sous forme de texte libre. L analyse des textes reste donc la clé de toute démarche d IE. Deux écoles se sont penchées sur ce problème : la linguistique et la statistique ce qui a donné naissance à de nombreuses disciplines annexes comme l analyse du discours, le résumé automatique, l analyse du x x x x x x 2003 x 2005 x

63 Chapitre 1. Intelligence Economique & Stratégique : Les systèmes d information au cœur de la démarche 63 contenu, la recherche de concepts, la découverte de connaissance ou la recherche de signaux faibles [Pazienza, 1997]. Le but étant toujours de pouvoir traiter, assimiler et synthétiser le contenu informationnel de très grandes collections de documents. Nos travaux vont dès lors consister à définir un modèle de traitement et de gestion des données dans le contexte du processus d IE en y intégrant deux dimensions incontournables que sont le relationnelle et le temporelle. Ainsi notre modèle d analyse multidimensionnelle, va se baser sur les quatre principales étapes du processus d IE, à savoir «La formulation du besoin, La collecte et le traitement des donnée, L analyse, La restitution et interprétation des résultats». Dont l objectif principal est la création de nouvelles connaissances souvent totalement implicites et à visée stratégique, qui se déduisent le plus souvent de l analyse de l évolution des réseaux d acteurs (auteurs, inventeurs, sociétés, villes, régions, pays, journaux, etc.), des réseaux sémantiques (mots-clés, free-terms, multi-termes, ontologies, etc.) et des interactions (acteur sémantique). Notre démarche consiste alors à définir un système d aide à la décision dans l objectif est de pouvoir : supporter les différentes étapes de la démarche en offrant les différentes fonctionnalités présentées dans les sections 1.4 et 1.5, extraire et traiter les données textuelles issues des sources formelles identifiées dans la section 1.3.1, répondre aux besoins d analyse de la démarche d IE en offrant des connaissances synthétiques de l environnement informationnel de l entreprise, sur un domaine donné, Restituer les résultats sou une forme adaptée aux utilisateurs. Afin de répondre à ces besoins d analyse, nous proposons de coupler les besoins des étapes du processus d IE avec les principes et techniques issues du domaine de la découverte des connaissances à partir du texte. Dans ce contexte, nous présentons, dans le chapitre 2 de ce manuscrit, le domaine de la découverte des connaissances et les techniques de la Fouille de Texte.

64

65 2 Chapitre 2. La découverte des connaissances 2.1 Introduction Spécifications Extraction de connaissances à partir de bases de données Architecture d un système type d ECBD De la Fouille de donnée à la Fouille de texte Approche linguistique Approche statistique Domaine d application : l analyse bibliométrique Etapes d extraction de connaissances à partir du texte Document électronique Structure logique d un document Exemples de structure logique Des documents à l entrepôt de document Méthodes de représentation multidimensionnelle réduite des documents Unités textuelles Mesures de dépendances Variables quantitatives Variables qualitatives Matrice de Présence-Absence Matrice de Cooccurrence Matrice de cooccurrence simple Matrice de Cooccurrence Simple Symétrique Matrice de Contingence Matrice de Cooccurrence Multiple Méthodes de fouilles de texte La classification et le regroupement La classification ascendante hiérarchique (CAH) La Classification Par Partition (CPP) Association L analyse en composante principale (ACP) L analyse factorielle des correspondances (AFC) Séquences L analyse factorielle multiple (AFM) L analyse procustéenne La restitution Les outils d extraction de connaissances à partir du texte Les solutions intégrées Les outils ECT développé au sein de l équipe SIG-IRIT La Plateforme Tétralogie Le système Doc Cube Fouille de Texte : Synthèse... 97

66

67

68

69 Chapitre 2. La découverte des connaissances Introduction Spécifications Les principes de l extraction de connaissances à partir de bases de données (ECBD) sont introduits afin d'aider les décideurs dans l'analyse des informations issues des sources électroniques. Différentes techniques automatiques sont proposées pour inférer de nouvelles connaissances, potentiellement utiles, à partir de gros volumes de données. Ces connaissances correspondent à des modèles ou des relations à priori inconnues mais qui existent de façon implicite dans les données. L intérêt des connaissances extraites est validé en fonction du but de l application. Seul l utilisateur peut déterminer la pertinence des résultats obtenus par rapport à ses objectifs. L ECBD fait appel à des disciplines aussi diverses que les statistiques, l intelligence artificielle, l apprentissage automatique, la reconnaissance des formes, la linguistique, les bases de données, les techniques de visualisation [Kodratoff, 1999]. Son but est d automatiser ou d aider l extraction de nouvelles connaissances pertinentes à partir des grandes masses d informations internes ou externes. Dans le contexte d IE, environ 80% des sources de données sont textuelles. Pour satisfaire le besoin d analyse de ce type d information, il est utile d étendre les techniques de découvertes de connaissances aux documents textuels. Cette extension repose sur les principes de la Fouille de Texte. Nos travaux se basent sur l hypothèse qu un document textuel, peut contenir deux types de connaissance : des connaissances explicites, comme son sens et sa terminologie (mots clés, individus, organismes, lieux, temps, etc.) et des connaissances implicites lorsqu on l associe à d autres textes similaires afin d en déduire des structures synthétiques comme des réseaux sémantiques, des réseaux d acteurs, des graphes de collaborations, des matrices de cooccurrences ou autres, des signaux faibles. La Fouille de Texte nous permet une meilleure représentation des connaissances explicites afin d en faciliter l exploitation dans le but de révéler ces connaissances implicites contenues dans les corpus textuels. L objectif de ce chapitre est de présenter les principaux concepts et techniques de la découverte de connaissances à partir du texte Extraction de connaissances à partir de bases de données [Fayyad, 1996] défini l ECBD, comme : Un processus non trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de données. L ECBD est un processus d extraction de connaissances à partir de bases de données. Il consiste à analyser des données brutes pour en extraire des connaissances exploitables. Ces dernières vont permettre à un expert d avoir une vision synthétique d un domaine donné. Le processus est dirigé par un analyste qui selon ses objectifs va appliquer des méthodes de fouille de données (FD) sur des données préalablement sélectionnées pour déduire des modèles du domaine. Le processus d ECBD peut être divisé en plusieurs étapes [Fayyad, 1996] :

70 Chapitre 2. La découverte des connaissances 70 Données transformées Modèles Connaissances Fouille de donnée Evaluation Interprétations Transformation Prétraitement Sélection Données prétraitées Données cibles Base de données Figure 15: Processus d ECBD. La sélection, permet de créer un ensemble de données à étudier, Le prétraitement, vise à enlever le bruit et à définir une stratégie pour traiter les données manquantes, La transformation, où l on recherche les meilleures structures pour représenter les données en fonction de la tâche, La fouille de données, la fouille proprement dite est la définition de la tâche : classification, recherche de modèles, et la définition des paramètres appropriés, L interprétation et l évaluation, pendant lesquelles les patrons extraits sont analysés. La connaissance qui en est ainsi déduite est alors stockée dans la base de connaissances. Il existe souvent une confusion entre les concepts Fouille de Données (FD) et l ECBD, certains auteurs les considèrent comme synonymes. Or, la FD n est qu une des étapes du processus d ECBD. Elle correspond à l application des méthodes et techniques d extraction de connaissances Architecture d un système type d ECBD Un système d ECBD [Han, 1998], [Simon, 2000], s articule autour des composantes suivantes : Une ou plusieurs bases de données et leurs systèmes de gestion, pour le traitement des masses de données volumineuses. Une base de connaissances qui permet à la fois la gestion des connaissances et la résolution des problèmes liés au domaine des données. Le système utilise une base de connaissances (par exemple une ontologie du domaine) qui est enrichie grâce aux nouvelles connaissances inférées par le système. Un système FD pouvant s appuyer sur des techniques symboliques comme l extraction des règles d association [Agrawal, 1994], la classification par treillis de Galois [Barbut, 1970], [Davey, 1994] ou l induction par des arbres de décision [Breiman, 1984], [Quinlan, 1986]. Et une interface se chargeant des interactions avec l analyste et de la visualisation des résultats. L analyste et l expert sont chargés de guider les recherches et de valider les connaissances extraites.

71 Chapitre 2. La découverte des connaissances 71 Interface utilisateur Fouille de Données Systèmes de gestion des BD ou DW Base de connaissances Bases de données (BD) Entrepôt de données (DW) Figure 16: Architecture type d un système d ECBD [Han, 2000] De la Fouille de donnée à la Fouille de texte La Fouille de Texte (FT) est introduite, par Feldman and Degan en 1995 sous le terme Knowledge Discovery in Textual Databases (KDT) [Feldman, 1995], ou Text Data Mining (TDM) par Marti A. Hearst en 1999 [Hearst, 1999], et traduit en français par [Kodratoff, 1999] en Extraction des Connaissances à partir de Textes (ECT). Feldman et Degan, décrivent la Fouille de Texte comme un processus d analyse exploratoire qui permet de révéler des informations exploitables du texte. Ainsi la FT peut être aussi définie comme un processus de découverte de connaissances qui consiste à extraire des informations utiles à partir des données textuelles par des outils d analyses [Feldman, 2007]. Le but d un processus de FT est de trouver des relations intéressantes impossibles ou difficiles à détecter par une analyse séquentielle de l information [Kodratoff, 1999]. Nous considérons l ECT comme un paradigme de l ECBD au sens où le processus d ECT prend modèle sur celui de l ECBD, c est-à-dire que c est une instance de l ECBD appliquée aux textes [Cherfi, 2004]. Et la fouille de texte ne représente qu une étape du processus d ECT. Comparée à la Fouille de Données (FD), qui permet l extraction automatique de connaissances à partir de données structurées, l objectif de la FT est d extraire de l information élaborée à partir d informations textuelles peu ou mal structurées. [Feldman, 2007] indiquent que les résultats de la FT représentent généralement les caractéristiques des documents plutôt que les documents eux-mêmes. L ECT est à l intersection de deux disciplines à savoir la statistique et la linguistique. Ces deux disciplines sont fondamentalement différentes dans leurs principes et dans leur histoire [Lebart, 1998], [Mothe, 2000], la linguistique ne s intéressant qu au langage utilisé pour constituer les textes. Dans l analyse de texte les différents niveaux suivants sont considérés [Lebart, 1998], [Pazienza, 1997] Approche linguistique Au plan linguistique, plusieurs niveaux d analyse sont considérés [Lebart, 1998] : L analyse syntaxique qui permet de définir les unités textuelles de base et qui s intéresse à la place relative de chaque mot. Certaines mesures utiles en sont issues : placé avant, après, à tant de mots maximum, dans la même phrase, dépend de, etc.

72 Chapitre 2. La découverte des connaissances 72 L analyse lexicale s intéresse à la terminologie (origines des mots, relations, inclusions, synonymies, etc.) [Reinert, 1996]. L analyse morphologique s occupe des variations dans la forme des mots (orthographes, radicaux, suffixes, préfixes, troncatures, inflexions, etc.). Elle manipule les morphèmes (mots simples, radicaux, dérivations, racines anciennes : grec, latin). L analyse sémantique s intéresse à la notion de contenu donc au sens, aux concepts véhiculés par les textes et aux réseaux qui les unissent [Lin, 1998] Approche statistique Coté statistique plusieurs décompositions sont proposées : En fonction de la nature des méthodes : Les méthodes quantitatives basées essentiellement sur les dénombrements, corrélations, distributions, associations. Les méthodes exploratoires et notamment l analyse de données avec une approche plus qualitative [Benzecri, 1992]. Les méthodes relationnelles avec la théorie de graphes, les réseaux de neurones, les réseaux bayésiens, l analyse relationnelle [Marcotorchino, 1991], [Huot, 1992]. Vis à vis des fonctionnalités recherchées, la découverte de modèles endogènes, a priori inconnus, s appuie sur quatre types d approches complémentaires, [Fayyad, 1996] : Une approche descriptive issue de la statistique descriptive, de l analyse des données et des représentations graphiques. Une approche structurante se basant sur les méthodes de classification automatique supervisées (classes prédéfinies, représentants de classes) ou non supervisées (hiérarchies, regroupements), sur la reconnaissance des formes et l apprentissage automatique [Razouk, 1990]. Une approche explicative qui permet de faire le lien entre faits à expliquer et variables explicatives (analyses multidimensionnelles [Benzecri, 1973], [Benali, 1989]) et permet aussi de catégoriser de nouveaux éléments en fonction de classes prédéfinies. Une approche prédictive qui est tournée vers l avenir, la composante temps y jouant parfois un rôle important. Elle conduit à la recherche de séquences [Agrawel, 1995] (évolutions absolue ou relative, trajectoires, stratégies, ) par l analyse factorielle multiple (AFM) [Escofier, 1998] ou l analyse procustéenne [Fichet, 1987], [Fichet, 1988], [Lafosse, 1990] et à la prédiction de certains comportements (achat, panne, développement, rupture, ) par la recherche d associations [Agrawal, 1993] Domaine d application : l analyse bibliométrique Nos travaux, qui se positionnent à l intérieur d une problématique d extraction de connaissances à partir de données textuelles à des fins de prospective scientifique et technologique, prend ses racines dans certains concepts théoriques et méthodiques de la scientométrie et de la bibliométrie. Puisque la frontière entre les désignations de bibliométrie et scientométrie n est pas toujours claire, nous fixerons celle-ci en adoptant la définition de [Polanco, 1995], qui désigne la scientométrie comme étant : la bibliometrie specialisée au domaine de l IST (Information scientifique et Technique). Toutefois, la scientometrie designe d une manière generale l application de methodes statistiques à des données quantitavies (economiques, humaines, bibliographiques), caracteristiques de l etat de la science.

73 Chapitre 2. La découverte des connaissances 73 En 1917, Cole et Eales furent les premiers à réaliser une étude bibliométrique sur des publications littéraires parues entre 1850 et 1860, concernant l anatomie. En 1927, Gross et Gross réalisent des études plus avancées, comptabilisant, non pas les publications scientifiques, mais les citations des travaux mentionnées par les chercheurs dans leurs publications. Ces études furent appliquées aux journaux cités concernant tous les domaines de la chimie. L aboutissement de ces recherches a eu pour résultat, l établissement d une liste regroupant les journaux considérés comme indispensables dans le domaine de la chimie. Une nouvelle théorie fut développée par Bradford en 1934, mais ne sera prise en compte qu en 1948 et fut dénommé loi de Bradford. Cette loi s est intéressée à la répartition des articles scientifiques, pour un domaine donnée, dans les périodiques. Les résultats obtenus ont permis de définir une répartition des journaux en fonction de leur aptitude à représenter un domaine scientifique donné. En 1963, de Solla Price a travaillé sur la définition des lois qui régissent l évolution et le comportement de la science : science de la science, avec pour principal indicateur : les publications et les citations. De Solla Price fut à l origine de la loi qui stipule que la prolifération de la connaissance scientifique suivrait une courbe en S et celle concernant le phénomène de collaboration des chercheurs qui serait dépendant d un ensemble de règles sociologiques, dont la principale est la création «collège invisibles». En 1969, Pritchard définit la bibliométrie comme étant «l application des mathématiques et des méthodes statistiques aux livre, articles et autres moyens de communication». Dans le début des années quatre vingt, aux états unis, l utilisation des techniques bibliométriques n est plus restreinte à l évaluation scientifique mais s ouvre à l évaluation des activités de propriétés industrielle. La bibliométrie est devenue alors un outil d aide à la veille scientifique et technologique. Cette adaptation des techniques bibliométriques au monde industriel s est facilitée par l existence de bases de données mémorisant les dépôts de brevets nationaux et internationaux sous forme de notices bibliographiques. [Narin, 1977] met en pratique ce concept en employant les méthodes bibliométriques pour l analyse des références bibliographiques de type brevet collecté à partir des bases de données brevet. Le développement des nouvelles technologies informatiques qui favorisent le traitement et les grandes capacités de stockage ainsi que la prise de conscience de l importance de la bibliométrie comme outil de veille technologique par les décideurs industriels, a poussé les universités et écoles à mener des travaux de recherche pour développer de nouvelles techniques facilitant l analyse stratégiques des informations de type : scientifiques, technologiques, économiques, juridiques, etc. Actuellement, les recherches en terme de développement de techniques bibliométriques sont orientées vers le développement d outils de traitements de texte intégral ainsi que d outils adaptés aux différentes informations accessibles via internet. TECHNIQUES Il est possible de classer sommairement les techniques selon les méthodes employées. Ces méthodes sont [Rostaing, 1996]: La modélisation des distributions des éléments bibliométriques : répartition de type cœur/dispersion, loi de Bradford, loi de Lotka, loi de Zipf et unification en une loi universelle. L élaboration d indicateurs uni variés, c est-à-dire de mesures purement quantitatives basées sur du simple dénombrement ou des calculs de ratio à partir des différents éléments bibliographiques : la date de publication, les revues, les auteurs, les organismes les pays, les thèmes, etc. L élaboration d indicateurs relationnels, c est-à-dire l exploitation des méthodes d analyse des données statistiques pour décrire les relations entretenues entre différents éléments

74 Chapitre 2. La découverte des connaissances 74 bibliographiques : des mots associés, des co-classifications, des co-publications, des coopérations, analyse des co-citations, etc. La modélisation de la diffusion des connaissances : lois sur la circulation des ouvrages et théories de la communication. Les trois premières techniques mentionnée ci-dessus sont abordées dans ce chapitre. La dernière ne sera pas évoquée car ces méthodes statistiques sont plus particulièrement développées pour des problématiques propres aux sciences de la communication. En ce qui concerne l application des trois premières techniques bibliométriques, deux domaines sont concernés : La sociologie et l histoire des sciences et des techniques, L évaluation de la recherche et des techniques, Adoptées initialement par les institutions académiques à des fins d évaluation du rendement (science policy er research management), les méthodes issues de la bibliométrie voient aujourd hui leurs domaines d application déborder vers le secteur privé et se répandre en tant qu outils d analyse dans : Les centres décisionnels des organisations commerciales, Analyse de l environnement scientifique et technique, Veille technologique et concurrentielle. L application des techniques bibliométriques dans le domaine de la veille a pour principal objectif de dégager un ensemble d indicateurs de tendance grâce à l analyse de notices bibliographiques collectées à partir des bases de données. Ces indicateurs de tendances sont destinés à aider les décideurs à anticiper et à pouvoir prendre des décisions en prenant en compte les éléments stratégiques nécessaires. Les informations collectées peuvent être destinées à des études de veille scientifique, il s agit donc de notices bibliographiques d articles scientifiques ou alors pour des études de veille technologiques et concurrentielles, dans ce cas il s agira de notices de type brevet. Actuellement, des solutions logicielles incorporant les concepts propres à l analyse de citation ou de cooccurrence d éléments bibliographiques à des modules de visualisation sont disponibles sur le marché. Nous ciblons dans ce chapitre l application des méthodes de la bibliométrie aux domaines de l analyse de l environnement scientifique et technique et la veille technologique et concurrentielle. 2.2 Etapes d extraction de connaissances à partir du texte L ECT se décompose séquentiellement en plusieurs phases ou concepts Rechercher, identifier, collecter et valider l information brute utile. Cette phase de recherche d information (RI) est primordiale. Elle consiste à rechercher puis à identifier les sources les plus pertinentes, en ciblant, sur chaque source, toute l information utile par des requêtes adaptées. Ensuite, il convient de collecter l information détectée sous le meilleur format et au meilleur coût et de la valider par échantillonnage, tri et évaluation de pertinence. Préparer, homogénéiser, organiser le corpus récolté. Ici, il s agit de s affranchir des problèmes de format, de polysémie, d homonymie, de synonymie, de données manquantes, de biais, de bruit, de filtrage, de nettoyage (DataCleaning) afin de faciliter de futurs

75 Chapitre 2. La découverte des connaissances 75 traitements automatiques. Cette phase exploratoire s appuie essentiellement sur la linguistique (analyses morphologique et syntaxique), certaines techniques liées à l intelligence artificielle et la notion de métadonnées. L objectif de cette phase est d'obtenir des données sous un format adapté à l application de la découverte de connaissances. Elle consiste en différentes tâches comme l'homogénéisation, le nettoyage et la structuration des données sources. La structuration des documents collectés consiste en un découpage de l'information utile en unités (mots clés, individus, organismes, lieux, temps, etc.) pour préparer l'extraction des plus significatives d entre elles en fonction des objectifs visés. Extraction et analyse. Il faut alors rechercher des classes, des associations ou des séquences temporelles [Agrawal, 1993] afin de mettre en évidence les structures existantes aussi bien au niveau des acteurs que des concepts, d en comprendre les mécanismes et les enjeux et d en déduire leur évolution. Dans ce cadre, les techniques d analyse de données prennent souvent pour point de départ une représentation de l'information élaborée sous une forme matricielle. Ces matrices se décomposent généralement en deux classes. D un coté, les matrices représentant les relations entre entités issues du même type de données comme les auteurs, les mots clés ou des concepts, des sites Web, etc. De l autre côté (cas plus complexe), les matrices représentent les relations entre deux entités différentes. Il peut s agir alors de connexions documents-termes, auteurs-termes, auteurs-affiliations, etc. Depuis le milieu des années 90, les étapes de préparation et d analyse ont été privilégiées (70% de l effort global) au détriment des deux autres et ont conduit à de nombreux échecs d implantation du processus de veille dans les entreprises essentiellement dus à une grave carence en information utile ou à une mauvaise communication des conclusions [Dousset, 2003]. Restituer les nouvelles connaissances, La visualisation des connaissances peut être représentée par différentes formes graphiques selon la méthode d analyse choisie. En proposant, sur des supports de diffusion électroniques, des documents de synthèse interactifs et des représentations graphiques adaptées à chaque destinataire (reporting). Cette étape est elle aussi fondamentale, mais elle ne représente que 20% de l effort consenti. Le processus d ECT ne peut être complet que si les connaissances inférées peuvent être exploitées par l utilisateur. Ainsi les informations induites à l'étape précédente doivent être présentées dans un format directement exploitable. Ce processus peut ensuite déboucher sur la gestion des connaissances (Knowledge Management : KM) en complétant les dispositifs déjà existants pour capitaliser et partager les connaissances et les compétences dans l entreprise. Dans la suite de ce document, nous allons nous attacher à développer ces phases, évoquées ci-dessus, dans le cadre de l information scientifique et technique. Le développement de chacune de ces phases («Etapes ECT» dans Figure 17) va se baser sur les applications de la méthodologie de la plateforme la plateforme de veille scientifique et stratégique («application» dans Figure 17), Tétralogie, [Dousset, 1988], [Dkaki, 1995], [Dousset, 1995], [Dousset, 2006], [Dousset, 2009] développée au sein de l équipe des Systèmes d Information Généralisés de l Institut de Recherche en Informatique de Toulouse (IRIT). Toutefois, le principe général que nous allons présenter est parfaitement transposable aux domaines connexes que sont les mondes économique, juridique, réglementaire ou même politique et social.

76 Chapitre 2. La découverte des connaissances 76 Etapes de l ECT Rechercher, identifier, collecter et valider Préparer, homogénéiser, organiser Extraction Analyse et restitution Application Document électronique Section 2.4 Entrepôt de document Section 2.5 Représentation multidimensionnelle réduites des documents Section 2.6 Fouilles de texte Section 2.7 Restitution Section 2.8 Figure 17: Etapes de l ECT et ses applications. 2.3 Document électronique Un document électronique est toute donnée informatique (autre qu'un programme informatique ou un fichier système) qui doit être utilisée sous forme informatique, sans être imprimée. À l'inverse du document papier, le document électronique peut permettre de séparer l'aspect présentation (mise en forme, mise en page,...) et l'aspect information (contenu, données,...), offrant alors la possibilité d une exploitation séparée. Dans le cadre de nos travaux nous allons nous intéresser aux documents électroniques contenant du texte. Le concept de document électronique, tel qu il est habituellement envisagé, recouvre les documents produits via des éditeurs de texte au format Word, RTF, LaTeX, etc. Un document électronique peut donc être vu comme une chaîne incluant des balises suites de caractères particulières, mots-clés prédéfinis délimitant les différents éléments de ce document. Les sources de données traitées par le processus de fouille de texte représentent une collection de documents électroniques qui sont définis comme un ensemble d informations organisées et représentées selon les choix de l auteur [Fondin, 1998]. Nous pouvons associés à un document plusieurs vues [Stern, 1997], [Sèdes, 1998], [Chrisment, 2000], [Fuhr, 2000], [Ravat, 2007]: Le contenu du document, La structure physique du document qui décrit le format (taille, mise en page, formatage) de restitution physique d un document sur support (papier, écran). Elle est basée sur la décomposition de son contenu en blocs d information et une arborescence de ceux-ci pour la représentation visuelle du document. La structure logique du document, qui permet d identifier les granules d information d un document et de définir un découpage de l information d un point de vue hiérarchique. Une structure logique peut être décomposée en structure générique et spécifique. La structure générique exprime l organisation générique commune à toute une classe de documents. La structure spécifique d un document est une instance d une structure générique.

77 Chapitre 2. La découverte des connaissances 77 Les attributs externes ou identité du document, permettent de caractériser sans équivoque un document (date de création, format, n version). La figure ci-dessous illustre ces différents composants [Khrouf, 2004]. Document Légende + : 1 ou plusieurs fois * : 0, 1 ou plusieurs fois Titre Auteur1, Auteur2 Mail1, Mail2 Adresse Mots clés : mc1, mc2, mc3 Résumé : dans cet article nous Introduction. Document Titre Titre Auteur1 Centré, Gras, pts 16 Auteurs+ Mails+ Auteur2 Mail1 Centré, Gras, pts 14 Adresses+ Mail2 MC+ Résumé Contenu Section * Adresse1 Adresse2... Dans cet article.. Structure Logique Introduction Contenu Structure Physique Figure 18 : Vues d un document électronique. La définition du concept de structure logique à fait apparaitre trois types de documents : les documents non structurés (ne contenant pas d informations de structure) ; les documents semi-structurés (contenant peu d information sur la structure du document) ; et les documents structurés (contenant l ensemble des informations sur la structure du document). Les sources que nous retenons dans le contexte de nos travaux, sont uniquement des sources électroniques (sources formelles section 1.3.1) contenant des documents électroniques de type structurés ou peu structurés, ainsi nous définissons deux types de sources de données : Sources de données structurées : les bases bibliographiques, les bases de brevets, (aussi bien sur serveurs en ligne que sur cd-rom), Sources de données peu structurées : flux RSS, site web, page web, traces de connexions, groupes de discussions, presse en ligne.

78 Chapitre 2. La découverte des connaissances Structure logique d un document Chaque source ayant sa propre structure, il est important de s adapter à chacune d entre elles par recours à des outils de description des formats appelés Métadonnées. Nous citons ici la définition donnée par le National Information Standards Organisation (NISO), dans un article paru en 2004, intitulé "Under standing Meta data" : Une métadonnée (du Grec, méta, ce qui dépasse, englobe) est une donnée à propos d une autre donnée. En sciences de l information, les métadonnées sont des ensembles de données structurées décrivant des ressources physiques ou numériques, ou, sur un plan plus fonctionnel, de l information structurée qui décrit, explique, localise la ressource et en facilite la recherche, l usage et la gestion. [Morel-Pair, 2001] Généralement, les métadonnées sont ajoutées aux données pour aider à identifier, décrire et localiser les différentes ressources (documents) électroniques. Les métadonnées sont des données factuelles qui contiennent de l information sur l information des granules. Plus précisément, c'est un ensemble structuré d'informations décrivant une ressource. Elles sont associées aux ressources sans ambiguïté comme, par exemple, le nom des auteurs, la date de publication, les mots clés choisis pour indexer le document, etc. Elles permettent en fait d éviter le reformatage physique des données en les décrivant logiquement et en autorisant un pilotage fin des automates d extraction et de découpage de l information. Dans près de 90% des cas, le reformatage est inutile et les données récupérées peuvent être directement traitées en mode natif [Dkaki, 1993]. Pour la structuration et la présentation des documents sur le Web, des normes ont été établies telles que SGML, HTML et XML. SGML (Structured Generalized Markup Language) présente les caractéristiques d un langage de balisage. Il a été adopté officiellement en octobre 1986 comme norme internationale [ISO8879, 1986]. La structure globale d un document SGML est la suivante : Un ensemble de déclarations où sont précisés les caractéristiques SGML utilisées, Une DTD (Document Type Definition) où la structure logique du document est exprimée en termes d éléments que le document devra contenir, Du texte. HTML (HyperText Markup Language) est un langage de balisage dérivé de SGML. Ce langage a été largement exploité pour la création des pages Web. Tous les documents HTML sont en fait des documents conformes à une seule DTD : la DTD HTML [W3C, 1999]. Le dernier-né, XML (extensible Markup Language), est un langage de description et d échange de documents structurés. Il est le résultat de la coopération d un grand nombre d entreprises et de chercheurs partenaires du W3C (World Wide Web Consortium) [W3C, 2000]. XML distingue deux classes de documents : Les documents bien formés sont ceux qui obéissent aux règles syntaxiques du langage XML, Les documents valides sont des documents bien formés et obéissent en outre à une structure type, définie explicitement dans une DTD. Les ressources étant généralement partagées, plusieurs normes reposant sur les structures de documents ont été définies pour permettre leur description à l'aide des métadonnées. La plus populaire est le Dublin Core qui est un standard de description bibliographique crée en Il fait l'objet de la norme internationale ISO 15836, disponible en anglais et en français depuis Il est employé par l'organisation Mondiale de la Santé, ainsi que d'autres organisations intergouvernementales. Le Dublin Core a un statut officiel au

79 Chapitre 2. La découverte des connaissances 79 sein du W3C et de la norme ISO Ce standard a été conçu pour décrire de façon simple mais non ambiguë des ressources documentaires disponibles sur Internet. Il se compose d un jeu de 15 éléments, chacun de ces éléments étant facultatif et répétable. Il s agit d un format ouvert. Il est interopérable et compatible avec les principaux standards du web tels que HTML, XML, RDF. C est l un des formats de métadonnées descriptives les plus répandus sur Internet. Le standard Dublin Core 16 [Dublin Core, 2007] est un ensemble d éléments ayant une sémantique claire et facilement compréhensible par les utilisateurs. Toutes les briques d un document électronique peuvent être identifiées de manière homogène par quinze propriétés ayant trait : au Contenu proprement dit de la brique de document (titre, sujet/mots-clés, description, source, langage, relation, couverture), à la Propriété intellectuelle de ce contenu (créateur, éditeur contributeur), aux Caractéristiques physiques de la brique (date, type, format, identifiant). Nous détaillons chaque élément du Dublin Core dans le tableau ci-dessous. Nom Identifiant Définition Titre Title Titre principal du document Créateur Creator Nom de la personne, de l'organisation ou du service à l'origine de la rédaction du document Sujet et Motsclefs Subject Le sujet du contenu de la ressource Description Description Une description du contenu de la ressource Editeur Publisher L'entité responsable de la diffusion de la ressource, dans sa forme actuelle, tels, un département universitaire, une entreprise. Contributeur Contributor Une entité qui a contribué à la création du contenu de la ressource Date Date Une date associée avec un événement dans le cycle de vie de la ressource Type Type La nature ou le genre du contenu de la ressource Format Format La matérialisation physique ou digitale de la ressource Identifiant Identifier Une référence non ambiguë à la ressource dans un contexte donné Source Source Une référence à une ressource à partir de laquelle la ressource actuelle a été dérivée Langue Language La langue du contenu intellectuel de la ressource Relation Relation Une référence à une autre ressource liée à cette ressource Couverture Coverage La portée ou la couverture spatio-temporelle de la ressource Droits Rights Information sur les droits sur et au sujet de la ressource Tableau 9: Eléments du Dublin Core Exemples de structure logique Les éléments Dublin Core sont utilisables suivant deux types différents de syntaxes : La syntaxe HTML permet d'inclure des éléments Dublin Core directement dans un document HTML (ou XHTML) en utilisant les balises "META". 16

80 Chapitre 2. La découverte des connaissances 80 <meta name="dc.title" content="la vie priv&eacutee et la technologie"> <meta name="dc.description" content="actualité concernant la tra&ccedilabilité sur Internet"> <meta name="dc.date" content=" "> <meta name="dc.format" content="text/html"> <meta name="dc.contributor" content="hubert Guillaud"> <meta name="dc.language" content="fr"> <meta name="dc.source" content=" <meta name="dc.type" content="article" Figure 19: Métadonnées dans un document HTML. La syntaxe XML/RDF permet des constructions plus complexes pouvant être incluse directement dans les documents qu'elle qualifie mais également utilisée pour exprimer des métadonnées portant sur des documents externes. < Title>La vie priv&eacutee et la technologie< /Title> < Description >Actualité concernant la tra&ccedilabilité sur Internet< / Description > < Date> < / Date > < Format>text/html< / Format > < Contributor>Hubert Guillaud< / Contributor > < Language>fr< / Language > < Source> / Source > < Type>Article< / Type > Figure 20: Métadonnées dans un document XML. Les travaux de [Dousset, 2003] dans le cadre de l ECT se sont essentiellement basés sur les documents électroniques issus des bases de données bibliographiques. Ce type de base de données est une collection de notices bibliographiques décrivant des documents de type scientifique en fonction de leurs thématiques. Chaque notice bibliographique est structurée en un ensemble de champs déterminés répondant à des règles de forme et de contenu précis tel que : Titre, Auteur, Pays, Organisme, etc. La figure suivante présente un exemple de notice issue de la base INSPEC. Title: Information superhighway and the digital global library: Realities and challenges Authors: Ching-Chih Chen Affiliation: Graduate Sch. of Libr. & Inf. Sci., Simmons Coll., Boston, MA, USA Journal: Microcomputers for Information Management Vol: 11 Iss: 3 p Date: Sept Abstract: The fast technological developments in recent years, particularly in the area of telecommunications, and [...] Thesaurus: Information dissemination; Information networks; Library automation Country of Publication: USA Figure 21: Exemple de notice bibliographique INSPEC. Ces notices sont des représentations intermédiaires permettant de refléter aussi fidèlement que possible le contenu sémantique des documents de la collection. Ces informations bibliographique sont gérées séparément des documents qui leurs sont associés. Contrairement aux métadonnées construis à partir des langages XML et HTML qui sont directement inclus dans les documents.

81 Chapitre 2. La découverte des connaissances 81 Dans le cadre de nos travaux, nous considérons les métadonnées associées à un document électronique comme une information bibliographique. Nous proposons alors d étudier ce type d information sous toutes ses formes allant des documents issues du web aux notices issues des bases de données bibliographiques. 2.4 Des documents à l entrepôt de document [Ravat, 2007] définit un entrepôt de document comme un espace de stockage centralisé d informations (contenu, structures, métadonnées) issues des documents sources (hétérogènes en structures et en types) pertinents pour une analyse portant sur un domaine donné. Dans le cadre de l ECT, cette centralisation, l extraction des documents sources, leur conservation et l accès aux documents sont réalisés selon un modèle unique. La première étape du processus d ECT est la détection et le recueil d information depuis des sources hétérogènes pour aboutir à une collection de documents. Cette dernière peut être composée par plusieurs ensembles de documents représentatifs du domaine d analyse. La sélection des données est généralement réalisée par l interrogation d un ou plusieurs ensembles de textes suivant les besoins de l utilisateur. La première étape consiste donc à effectuer une simple recherche d information au sein des sources disponibles. Un système de recherche d informations est un ensemble de modèles et de processus permettant la sélection d informations pertinentes en réponses aux besoins utilisateurs exprimés à l aide d une requête contenant le plus souvent des mots clés [Salton, 1971], [Rijsbergen, 1979]. L architecture d un système de recherche d information est composé d un module d indexation automatique [Maron, 1960] ou semi-automatique [Maniez, 1991] des documents ou des unités informationnelles ; d un module d appariement document-requête afin de restituer à l utilisateur toutes les informations susceptibles d être pertinentes et éventuellement d un module de reformulation [Rocchio, 1971] de la requête. La qualité de ces systèmes tient en grande partie à son processus d indexation et à la pertinence du modèle de représentation sous-jacent. Les différents types de modèles de systèmes de recherche d information se distinguent donc par leur processus d indexation ou formulation des requêtes, mais plus particulièrement par leur processus de correspondance entre les représentations des requêtes et des documents. Ces modèles ont été étudiés dans de nombreux ouvrages [Salton, 1971], [Rijsbergen, 1979], [Salton, 1989], [Frakes, 1992], [BaezaYates, 1999], [Chowdhury, 2004] et de nombreux travaux de recherche notamment dans l équipe SIG de l IRIT [Tuffery, 1984], [Anton, 1987], [Denjean, 1989], [Soulé-Dupuy, 1990], [Boughanem, 2000], [Mothe, 2000], [Soulé-Dupuy, 2001], [Sauvagnat, 2005]. Comme les sources de données actuelles sont très diverses (bases documentaires, Internet, brevets,...), les systèmes d ECT doivent pouvoir manipuler simultanément des données issues de sources hétérogènes. L hétérogénéité des sources peut se traduire à différents niveaux : systèmes, modèles, formats et sémantiques des données [Kedad, 1999]. Dans ce contexte la problématique essentielle dans l élaboration d un entrepôt de document est la prise en compte de l hétérogénéité structurelle des documents textuels sources mais également de l hétérogénéité sémantique (conflit de nom d attribut ou de type, absence de valeur,...). Pour répondre à cette problématique plusieurs travaux au sein de l équipe SIG [Dkaki, 1993], [Chrisement, 1997], [Chrisment, 2000], [Khrouf, 2004], [Ravat, 2007] s y sont intéressés. Ils consistent à définir un modèle de descripteur de format générique (structure et sémantique) de documents issus de sources hétérogènes. Ce descripteur est une représentation prédéfinie pour l ensemble de la collection.

82 Chapitre 2. La découverte des connaissances 82 Descripteur générique Descripteur de format spécifique au corpus 1.. Descripteur de format spécifique au corpus n Métadonnées du corpus 1.. Métadonnées du corpus n D 1.. D m D 1.. D p Figure 22: Descripteurs de format générique. Chaque ensemble de documents issus de la même source possède un format spécifique. Chaque format est ensuite décrit par des descripteurs de format spécifique qui analysent finement sa structure et décomposent son contenu en unité sémantiques pour définir les modes d extraction les mieux adaptés à chaque ensemble. Un descripteur de format générique va être défini pour permettre le regroupement des unités sémantiques selon leurs contenus. Ces descripteurs servent d interface pour l application des méthodes d identification, d extraction et de dénombrement des informations utiles. Ces solutions reposent sur les systèmes de réécritures qui sont utilisés pour la recherche de motifs et de signatures, la conversion de format, le balisage, la génération de liens, l indexation automatique, etc. Le descripteur de format spécifique repose sur des règles de conversion (de type règles de production des grammaires transformationnelles) pour transformer le balisage initial en un balisage spécifique, respectant le formalisme de la représentation-pivot. Le descripteur de format générique repose sur la spécification des règles de réécriture qui permet d unifier les différents balisages spécifiques. L objectif de la réécriture est de parcourir des flux d entrée et de les réécrire en sortie. La réécriture est programmée en spécifiant une liste ordonnée de règles à appliquer sur le flux en entrée (texte, document,...). Cette liste constitue un filtre qui contient les motifs à capturer, pour les éliminer ou les transformer. Si la comparaison est positive, l outil réécrit le motif associé. A partir des résultats du descripteur générique, des règles d extraction sont définies pour permettre d isoler l information à partir des documents traités. Ainsi, chaque champ est distinguable et surtout peut être facilement extrait. L information explicite est directement lisible. Les règles de transformation ou règles de réécriture règles d extraction sont exprimées à partir d expressions régulières, qui spécifient les motifs à capturer et à réécrire. Elles possèdent un fonctionnement «pipe-line», chacune recevant un flux, le traitant et le transmettant éventuellement à la suivante.

83 Chapitre 2. La découverte des connaissances Méthodes de représentation multidimensionnelle réduite des documents Un entrepôt de document répond à la nécessité de synthétiser les informations recueillies. Le format de l'information synthétisée doit être adapté à l application de fonctions d'extraction de données, qui utilisent essentiellement des données numériques en entrée. Les représentations réduites des documents sous forme de matrice sont un moyen de transformer les données qualitatives en quantitatives. Cette procédure est largement utilisée dans les applications statistiques. Dans le processus d ECT, les informations vont être réduites à un format permettant l application des fonctions d exploration choisies. Les méthodes d'analyse de données (ou encore : analyses descriptives multidimensionnelles) sont dévolues, pour l'essentiel, à la description de tableaux : de mesures, de contingence, ou de présence-absence [Lebart, 1995]. Les travaux de [Dousset, 2003] présentent différents formats de représentation multidimensionnelle réduite des documents. Ils reposent sur l identification des dépendances existantes dans la collection de documents et sont représentés sous forme de matrices. Au cours de cette section, nous allons présenter ces différentes matrices Unités textuelles Dans l analyse de données appliquées aux documents textuels, la notion d individu est associée aux unités textuelles dont la juxtaposition constitue un corpus. Ainsi, une unité textuelle peut être: Un document : notices bibliographiques, brevets, pages Html, traces de connexions, articles de presse, etc. Une subdivision de document : chapitre, paragraphe, phrase, ligne, etc. L ensemble des unités textuelles représente une population d individus sur laquelle va porter l analyse. Et les variables étudiées vont représenter les caractéristiques des individus. Une variable peut être associée alors aux balises (auteurs, pays, titre, descripteurs, ) dans le cas d un individu qui représente un document de type notice bibliographique. Le but d une analyse est soit de classer les individus en fonction d une ou plusieurs variables, soit de rechercher les corrélations entre les différentes variables sur la totalité de la population ou sur des parties significatives. Il existe deux grands types de variables Qualitatives et Quantitatives. Chaque type de variable peut être subdivisé en catégories plus fines : La figure 23 résume ces deux types de variables : Variables Qualitatives Quantitatives Ordinales Nominales Hiérarchiques Continue Discrètes Figure 23 : Types de variables. Variables quantitatives, contiennent des valeurs mesurables. La valeur mesurée sur un individu est représentée par une quantité. Il existe deux types de variables quantitatives discrètes et continues. Les variables quantitatives discrètes sont associées aux valeurs que l on peut énumérer. Elles ne peuvent prendre que des valeurs discrètes, c est-à-dire séparées les unes des autres. C est le cas par exemple pour le nombre

84 Chapitre 2. La découverte des connaissances 84 de citations, le nombre d auteurs, le nombre de lignes dans un document, etc. Les variables quantitatives continues peuvent prendre toutes les valeurs possibles dans un intervalle. Elles sont exprimées en classe de largeur égale. Variables qualitatives, comme leur nom l indique, elles contiennent des valeurs qui expriment une qualité. Elles peuvent être ordinales, nominales ou hiérarchiques. Dans le cadre de nos travaux, nous nous intéresserons presque exclusivement qu à l étude des variables qualitatives. Les variables qualitatives ordinales, sont associées à des valeurs de type numérique ou assimilé et mesurées sur chaque individu (parfois qualifiée de catégorie). On peut alors classer les individus par valeurs croissantes ou décroissantes17. Nous retrouvons par exemple l année de publication, l année de dépôt, le jour de la semaine ou du mois,... Les variables qualitatives nominales, prennent des valeurs qui sont des éléments d une catégorie non hiérarchique, c est-à-dire, ses éléments ne peuvent pas être rangés dans une gradation logique ce sont des modalités. Exemple : noms des auteurs, des revues, des pays, Les variables qualitatives hiérarchiques, correspondent aux valeurs qui sont associées aux éléments d une catégorie hiérarchique. La valeur mesurée sur un individu est ordonnables selon une granularité. Nous retrouvons ainsi les zones géographiques, les inclusions sémantiques, les périodes, etc. Ces variables qualitatives peuvent être : Uni-modale : cette variable ne prend qu une seule modalité pour mesurer un individu. Exemple : année de publication ou de dépôt, revue, langue, type de document, source, 1 auteur, etc. Une seule modalité est alors requise obligatoirement pour chacun de ces champs d information. Multimodales à modalités exclusives : cette variable peut prendre simultanément plusieurs modalités différentes pour décrire un individu. Exemple : auteurs (un article peut être signé par plusieurs auteurs, tous différents mais n apparaissant qu une seule fois), déposants, mots-clés, classifications, citations, adresses, etc. Multimodales à modalités non exclusives : cette variable peut prendre la même modalité plusieurs fois. Exemple : pays et villes des auteurs dans le cas de plusieurs adresses, auteurs cités, revues citées, termes issus du texte libre (titre, résumé, texte intégral), etc Mesures de dépendances Selon la nature de l individu, de la variable étudiée, la mesure de dépendance diffère Variables quantitatives Soit X et Y deux variables quantitatives, supposées à n valeurs notées La mise en évidence de dépendance entre ces deux variables permet de réduire l espace informationnel afin de mieux le maîtriser. De même il est possible d éliminer des éléments totalement indépendants du contexte. Ainsi, seules les relations les plus significatives seront conservées. 17 Source :

85 Chapitre 2. La découverte des connaissances Variables qualitatives Nous considérons deux variables qualitatives observées simultanément sur n individus. On suppose que la première, notée X possède r modalités. L ensemble de ces valeurs appartiennent à {m 1, m 2,,m r} avec m j une modalité considérée. Une seconde variable, notée Y, elle-même observée sur n individus, possède s modalités. L ensemble de ces valeurs appartiennent à {m 1, m 2,, m s} avec m k une modalité considérée. L identification des relations de dépendances entre ces deux variables qualitatives présentes dans de grandes collections de documents, peut être défini selon différentes mesures. Nous retrouvons notamment : La contingence est issue du croisement de deux variables uni-modales. La somme des éléments de la matrice est alors égale au nombre de documents possédant simultanément les deux modalités. Les croisements peuvent être de type «Journaux Années» ou encore «N de documents Types de documents». La cooccurrence est la présence simultanée de deux unités linguistiques (deux mots par exemple ou deux codes grammaticaux) au sein d un même contexte linguistique (le champ balisé, le champ textuel, le paragraphe ou la phrase). Les cooccurrences résultent du croisement de deux variables qualitatives dont au moins l une n est pas uni-modale, à modalités multiples, exclusives ou non. Un certain nombre de modèles et de coefficients ont été à ce jour proposés : [Lafon, 1984], [Church, 1990], [Dunning 1993], [Fung, 1997], [Manning, 1999], [Véronis, 2003], [Wu, 2003], [Véronis, 2004], etc. La proximité, qui étudie en termes de «distance» deux variables. Pour le texte libre, il est possible de ne prendre en compte que les coïncidences des modalités physiquement proches (à côté, dans la même phrase, à n mots de, etc.). La présence/ absence, Il existe au moins un document du corpus qui contient simultanément les deux modalités. Ces mesures donnent des visions différentes mais complémentaires d une même réalité. Dans le contexte de ce chapitre, nous ciblons le croisement de variables qualitatives. On génère ainsi une matrice dont le nombre de lignes est égal au nombre de modalités de la première variable et le nombre de colonnes à celui de la seconde. Ces matrices serviront de bases aux techniques d extraction de connaissances. Le tableau ci-dessous, résume les différents formats de matrices selon le type de variables qualitatives.

86 Chapitre 2. La découverte des connaissances 86 Uni-modale Multi ltimodale à modalités exclusives Multimodale à modalités non exclusives Uni-modale Contingence Présence/ absence Multimodale à modalités exclusives Cooccurrences simples Présence/ absence Multimodale à modalités non exclusives Cooccurrences simples Cooccurrences multiples Présence/ absence Figure 24 : Types de matrices. Il existe deux types de matrices [Dousset, 2003] : Les matrices symétriques, sont issues du croisement d une variable non exclusive avec elle-même (auteurs, pays, villes, citations, brevets cités, mots-clés, multi-termes ). Les croisements effectués permettent de mettre en avant les associations entre les modalités d une même variable. Ainsi la matrice symétrique, croisant des auteurs permet de révéler leur collaboration, leur stratégie et la formation de leurs équipes de recherches. Les matrices asymétriques, croisent deux variables différentes, ou alors la même variable filtrée par deux ensembles différents de modalités. Leur analyse permet de révéler les corrélations croisées entre leurs modalités respectives. C est un des éléments clés de la découverte de connaissances cachés dans les grands corpus d information textuelle. Ainsi le croisement d une variable avec les documents est fortement utilisé en Recherche d Information pour les calculs de pertinence, le filtrage de document etc. Le croisement d une variable avec le temps permet de détecter les tendances et les émergences. Les croisements entre des auteurs et des thématiques permettent de révéler les centres d études les plus importants, les concurrences, les collaborations relatives à un sujet spécifique etc. Dans ce qui suit nous détaillerons chaque classe de matrice : Figure 25 : Classification des matrices.

87 Chapitre 2. La découverte des connaissances 87 La matrice Présence-Absence est une représentation réduite des documents qui nous permet d appliquer des indicateurs bibliométriques robustes basés sur le qualitatif. La construction de ces indicateurs prend comme point de départ les marginales de la matrice et les autres cellules ne sont pas prises en compte. Dans le cas d une veille scientifique sur un domaine donné nous pouvons évaluer par ces indicateurs : l indice de notoriété d un auteur ou d un journal, le nombre de journaux où un auteur a publié, etc. La matrice Cooccurrence peut prendre plusieurs représentations selon l objectif de l analyse. Nous utilisons la matrice Cooccurrence simple pour effectuer des analyses relationnelles quantitatives telles que calculer le nombre de co-signature entre deux auteurs. Cette matrice se réduit à la matrice «Contingence» lorsque les deux variables qualitatives sont uni modales. La «Cooccurrence Multiple» est utilisée lorsque nous souhaitons étudier la fréquence des concepts dans un document, dans ce cas il suffit qu il y ait au moins une des variables étudiées qui soit multimodales à modalités non exclusives Matrice de Présence-Absence Cette matrice croise deux variables qualitatives. Elle consigne l existence d au moins un individu, ici un document, contenant simultanément une modalité de la première variable et une de la seconde. Elle n est composée que de zéros et de uns. Exemple Soit un corpus contenant un ensemble de notices bibliographiques, un individu est associé à chaque notice bibliographique, et caractérisé par un ensemble de variables qualitatives (Auteurs, Journaux, Dates). L application de la mesure de dépendance présence-absence aux deux variables Auteurs Journaux, consiste à consigner l existence d au moins une notice contenant simultanément une modalité de la variable «Auteur» et une associée à la variable «Journaux». Nous obtenons alors, pour un item du champ 1 si un Auteur a signé au moins une fois dans un Journal, et donne 0 sinon. Interprétations : x Journaux Auteurs Sci-Watch R&D&I Datametrics Marginale Ligne Dousset Cavaller Porter Marginale Colonne Figure 26 : Exemple de Matrice Présence-Absence. La marginale ligne, identifie le nombre de journaux dans lesquels a publié un auteur, ce qui nous permet de déduire indirectement la finalité de recherches de cet auteur : il a été évalué par autant de comité de lecture. La marginale colonne, révèle le nombre d auteurs qui ont signé au moins une publication dans le journal correspondant, ce qui nous permet de déduire la taille de la communauté qui utilise ce média pour communiquer ses travaux dans le domaine concerné.

88 Chapitre 2. La découverte des connaissances Matrice de Cooccurrence Il existe plusieurs types de matrices de cooccurrences, indiquant la présence simultanée de deux modalités associées à deux variables qualitatives. La matrice de cooccurrence simple, se base sur le dénombrement des individus chez qui la cooccurrence se produit. La matrice de cooccurrence multiple sur le cumul des couples de modalités qui caractérisent l ensemble des individus Matrice de Coo ooccurrence Simple S Permet de croiser deux variables qualitatives. Elle consigne le nombre d individus qui possèdent simultanément une modalité de la première variable et une de la seconde. Exemple Nous reprenons, l exemple de la matrice présence-absence, dans le cas de l application de la mesure de dépendance cooccurrence simple aux deux variables Auteurs Journaux, la mesure consiste à calculer le nombre de notices contenant simultanément une modalité de la variable Auteur et une seconde associée à la variable Journaux. Nous obtenons alors, pour un item du champ auteur, le nombre de publications qu il a signé pour un item particulier du champ journal. Interprétations : x Journaux Marginale Sci-Watch R&D&I Datametrics Auteurs Ligne Dousset Cavaller Porter Marginale Colonne Figure 27 : Exemple de Matrice de Cooccurrence Simple. La marginale ligne, représente le nombre de publications par auteur, La marginale colonne, identifie le nombre de signatures par journal, et non pas le nombre de publications par journal Matrice de Cooccurrence Simple Symétrique Si la mesure de cooccurrence simple permet de croiser une variable qualitative avec elle même, nous parlerons alors de matrice de cooccurrence simple symétrique. Dans ce cas, chaque cellule de la matrice permet d identifier le nombre d individus possédant simultanément deux modalités de la variable étudiée. La diagonale est dominante et chacun de ses éléments est associé à une modalité et consigne le nombre total d individus caractérisé par cette dernière. Les autres éléments de la même ligne (ou colonne) représentent les liens de cette modalité avec le reste des modalités associées à la variable étudiée. Nous reprenons, l exemple de la matrice présence-absence, dans le cas d application de la mesure de dépendance cooccurrence simple aux deux variables Auteurs Auteurs, la mesure consiste à calculer le nombre de notices contenant simultanément deux modalités de la variable Auteur. Nous obtenons alors, pour chaque item du champ auteur, le nombre de publications qu il a signé avec un autre item du même champ.

89 Chapitre 2. La découverte des connaissances 89 x Auteurs Auteurs Dousset Cavaller Porter Dousset Cavaller Porter Figure 28 : Exemple de Matrice de Cooccurrence Simple Symétrique. Interprétations : Un élément diagonal représente le nombre de publications par auteur, Une autre cellule identifie le nombre de co-signatures entre deux auteurs Matrice de Contingence Si la mesure de cooccurrence s applique à deux variables qualitatives uni-modales, nous parlerons alors de mesure de contingence. Cette mesure permet de croiser deux variables qualitatives uni-modales. Elle consigne le nombre d individus qui possèdent simultanément une modalité de la première variable et une de la seconde. Ainsi un individu n est compté qu une seule fois dans la matrice. Exemple Nous reprenons, l exemple de la matrice présence-absence, dans le cas d application de la mesure de dépendance contingence aux deux variables uni-modales Journaux-Dates, la mesure consiste à calculer le nombre de notices contenant simultanément une modalité de la variable «Journaux» et une seconde associée à la variable «Dates». Nous obtenons alors, pour un item du champ Journaux, le nombre de publications apparues pour un item du champ Dates. Comme les champs Dates et Journaux sont unimodaux, chaque publication (ou notice) n est comptée qu une fois. Interprétations : x Dates Marginale Journaux Ligne Sci-Watch R&D&I Datametrics Marginale Colonne Figure 29 : Exemple de Matrice de Contingence. La marginale ligne, représente le nombre de publications par journal, La marginale colonne, identifie le nombre de publications par date. La somme de tous les éléments représente l effectif global des notices du corpus analysé Matrice de Cooccurrence Multiple Permet de croiser deux variables qualitatives dont l une au moins est à modalités multiples et non exclusives. Pour un individu elle dénombre les paires de modalités dans un document est cela pour toutes

90 Chapitre 2. La découverte des connaissances 90 la population. Pour ce type de représentation, il est intéressant d étudier le cas où la première variable est l identifiant d un document (individu) et la seconde est, soit les termes dans une phrase ou soit les pays dans un champ d adresses multiples. Ce qui nous permet de déduire pour chaque ligne de la matrice le vecteur des occurrences des modalités de la deuxième variable. Ainsi, la cooccurrence multiple est principalement utilisée en Recherche d Information [Boughanem, 2001] afin de faire ressortir les documents les plus pertinents, c est à dire ceux dans lesquels le terme recherché apparait le plus souvent, de façon significative. Elle est équivalente à la cooccurrence simple dans le cas de deux variables multimodales à modalités exclusives ou dans le cas du croisement d une variable multimodale et une variable uni-modale. Elle est identique à la contingence, dans le cas de croisement de deux variables uni-modales. Exemple Soit un corpus (la population) contenant un ensemble de notices bibliographiques (les individus), un individu est caractérisé par la variable qualitative à modalité multiple et non exclusive Pays, et la variable qualitative uni-modale N de notice. L application de la mesure de dépendance cooccurrence multiple aux deux variables N de notice - Pays, consiste à calculer le nombre de fois où la modalité de la variable Pays est présente dans une notice. Et cela pour toutes les modalités de la variable Pays et toutes les notices. Interprétations : x Pays Marginale France Espagne USA Notice Ligne Notice Notice Notice Marginale Colonne Figure 30 : Exemple de Matrice de Cooccurrence Multiple. La marginale ligne, identifie le nombre de fois où les modalités de la variable Pays sont citées dans chaque notice, La marginale colonne, révèle pour chaque modalité de la variable Pays le nombre de fois où elle apparait dans le corpus. 2.6 Méthodes de fouilles de texte Dans cette section, nous présentons les trois fonctions d exploration (classification, association, séquence) basées sur les techniques d analyses de données, dans une optique de faire émerger les informations cachées au sein de grandes masses de données. Les représentations multidimensionnelles réduites des documents, sont la base d application de ces méthodes.

91 Chapitre 2. La découverte des connaissances 91 Figure 31 : Fonctions et techniques d exploration La classification et le regroupement Lors d un processus de classification, les données sont rangées dans des classes prédéfinies ou sont regroupées en fonction de leurs similitudes, sans groupes à priori. La classification induit l existence d un système de référence et d une métrique permettant de calculer la ressemblance d un élément, soit avec une classe prédéfinie soit avec les autres éléments dans le cas d un regroupement [Dkaki, 1995]. La Classification est ensuite obtenue via des méthodes issues de l analyse statistique. Les méthodes de classifications sont décrites dans [Sokal, 1963], [Sibson, 1973] et leurs applications aux données documentaires sont en particuliers détaillées dans [Croft, 1977], [Rijsbergen, 1979], [Voorhees, 1986]. Deux classes de méthodes de classification ont été définies. Les méthodes non hiérarchiques (par exemple la Classification Par Partition CPP) ont pour objectif de partitionner l ensemble des objets en différents groupes (un objet ne peut appartenir qu à un seul groupe) alors que les méthodes hiérarchiques (par exemple la Classification Ascendante Hiérarchique CAH) permettent d obtenir un arbre de classification à plusieurs niveaux [Mothe, 2000] La classification c ascendante hiérarchique (CAH) Elle considère initialement toutes les observations comme étant des clusters ne contenant qu'une seule observation (singleton), et leur distance est alors le plus souvent définie comme étant leur distance euclidienne. La première étape consiste donc à réunir dans un cluster deux observations les plus proches. Puis le principe de CAH continue, fusionnant à chaque étape les deux clusters les plus proches au sens de la distance choisie. Le processus s'arrête quand les deux clusters restant fusionnent dans l'unique cluster contenant toutes les observations. Les méthodes de réalisation de ces classifications sont relatées dans [Dobrowolski, 1964], [Bouroche, 1989], [Bellot, 2004] entre autres. Cette analyse classique basée sur une matrice de distances est entièrement interactive, permettant, entre autres, le choix du niveau de coupure, l obtention du détail d une classe, l exportation de la classification vers le tableur, les cartes factorielles, ou encore les cartes géostratégiques La classific lassification par partition p (CPP) Il n est plus question, ici, de proposer une hiérarchie de classes imbriquées autorisant parfois plusieurs niveaux de coupure cohérents, mais de simplement définir une partition composée d un nombre maximum de classes défini à l avance. Cette méthode consiste alors à choisir d abord un initiateur pour chaque groupe. Chaque élément est ensuite rattaché à l initiateur le plus proche. De ce processus résulte un ensemble de groupes disjoints. Le

92 Chapitre 2. La découverte des connaissances 92 centre de gravité de chaque groupe est alors calculé. Le processus est réitéré avec comme initiateurs de groupes les centres de gravité obtenus à l itération précédente ; cela jusqu à ce que les centres de gravité obtenus soient stables Association La recherche d associations consiste à détecter les liens qui peuvent exister entre deux données de différents types (par exemple entre les pays et les thématiques de recherche ou entre les journaux et les laboratoires de recherche) L analyse en composante principale (ACP) Elle s applique aux données quantitatives et éventuellement aux matrices issues du qualitatif comme celles de contingence et de cooccurrence. L'objectif de l'analyse en composantes principales est de revenir à un espace de dimension réduite en déformant le moins possible la réalité et d'expliquer pour le mieux les liaisons initiales entre les variables. Cette méthode est basée sur la recherche des axes principaux d un nuage de points [Benzecri, 1973]. Le nuage des individus (lignes) est représenté dans l espace des variables (colonnes). Le but est de trouver le meilleur modèle réduit à n variables synthétiques qui représente au mieux l ensemble des informations de la matrice. L ACP engendre la réduction du nombre de caractères permettant des représentations géométriques des individus et des caractères, c'est-à-dire de visualiser les données à n dimensions (n>3) dans un espace à p dimensions (p<n) à l aide d une projection de ces données sur les plans définis par les p dimensions. C est la matrice des variances-covariances (ou celle des corrélations) qui permet de réaliser ce résumé pertinent, parce qu on analyse essentiellement la dispersion des données considérées. De cette matrice, on va extraire les vecteurs propres associés aux valeurs propres de plus forts modules de cette matrice pour déterminer les composantes principales de ce modèle optimal. La première composante représente en fait l axe de rotation autour duquel le nuage de points a la plus faible inertie, donc celui qui explique le mieux la dispersion des individus. En étendant cette démarche au sous espace orthogonal, on trouve la seconde composante et ainsi de suite. Comme la nature et la dispersion des variables sont parfois très hétérogènes, une normalisation de celles-ci est alors nécessaire pour obtenir des cartes lisibles et sur lesquelles les variables ont toutes des rôles similaires. C est le principe de l'analyse en Composantes Principales Réduite A.C.P.R. Les variables sont alors réduites par normalisation (division par la norme de chaque vecteur colonne), ce qui a tendance à arrondir le nuage et donc à générer des valeurs propres de plus faibles modules. La matrice à diagonaliser est alors celle des corrélations (diagonale unitaire) et non plus la matrice de variance-covariance. L ACP joue un rôle central, cette méthode sert de fondement théorique aux autres méthodes d analyse de données dites factorielles qui en apparaissent comme des cas particuliers L analyse factorielle des correspondances (AFC) Elle s appuie sur la même logique que l ACP à ceci près qu elle s applique à des données qualitatives. La technique de l'afc est essentiellement utilisée pour de grands tableaux de données toutes comparables entre elles, si possible exprimées toutes dans la même unité. Elle sert à déterminer et à hiérarchiser toutes les dépendances entre les lignes et les colonnes du tableau. Chaque ligne correspond à un profil unitaire, il suffit donc de faire une analyse en composantes principales de ces profils. Les données sont transformées afin de mettre en évidence la répartition relative de l individu par rapport aux variables et d établir les corrélations entre les profils obtenus. En fait, l AFC correspond à une ACP réalisée sur une matrice qui a déjà subie un traitement supplémentaire, en prenant en compte la marginale

93 Chapitre 2. La découverte des connaissances 93 des variables et des individus. Dans ce cas, les individus et les variables sont visualisés dans le même espace. La distance entre une variable et un individu est assimilable à une relation de proximité et donc de dépendance. Elle permet d observer la typologie des individus par rapport aux variables ou la typologie des variables par rapport aux individus [Benzecri, 1973] Séquences Les séquences peuvent être découvertes au travers de tables de cooccurrences à trois dimensions, c est à dire à partir de séries temporelles de tables à deux dimensions. Il s agit, dans un premier temps, de découvrir les associations au sein de chacune des tables, puis de faire apparaître les évolutions de ces associations. Cette découverte de séquences est basée sur l Analyse Factorielle Multiple [Benali, 1989] et sur l Analyse Procustéenne [Lafosse, 1990]. La matérialisation de l évolution se fait par la visualisation des trajectoires, L analyse factorielle multiple (AFM) L'analyse factorielle multiple est une technique qui permet seulement d'étudier des variables multimodales qualitatives. Cette méthode permet de comparer les relations qui existent entre les individus et les variables en fonction d un critère. Elle est basée sur l étude de différents tableaux représentants les mêmes individus selon les mêmes variables mais pour une valeur de critère différente ou à des instants différents. L AFM consiste alors à réaliser une Analyse factorielle (AFC ou ACP) soit à partir de la concaténation des différents tableaux, soit à partir d un des tableaux L analyse procustéenne L analyse procustéenne [Lafosse, 1985] permet de mettre en évidence les évolutions relatives des données en gommant l évolution moyenne. Son point de départ est une matrice (tableau) à trois dimensions croisant deux variables et le temps. Cette analyse est une méthode qui permet d ajuster par rotation, translation et homothétie, un nuage de points sur une configuration cible de points. Il est alors possible de déduire la trajectoire relative suivie par les différents points. Pour cela, les différents tableaux sont centrés de sorte à faire coïncider leurs centres de gravité et modifiés par rotation pour minimiser la distance entre les tableaux pris deux à deux. La distance entre les tableaux est définie pour une série de tableaux centrés. K h, h Le but est d étudier l évolution relative des points les uns par rapport aux autres, afin de connaitre la typologie de leur dynamique. 2.7 La restitution La restitution des résultats d analyse peut s effectuer sous des formes très diverses : fiche de synthèse, document hypertexte, présentation multimédia, portail, etc. Mais l essentiel de la restitution de l information élaborée est basé sur des représentations graphiques en raison du très grand pouvoir de synthèse des images et de leur compréhension quasiment intuitive. Ces représentations de l information ont en fait plusieurs fonctions bien distinctes : La découverte de connaissances obtenue grâce à l interactivité avec les images produites par les méthodes d analyse,

94 Chapitre 2. La découverte des connaissances 94 La diffusion des résultats sous une forme aisément assimilable : images fixes rigoureusement sélectionnées par les analystes pour illustrer les documents papier, La navigation grâce à des systèmes dynamiques d illustration des résultats chiffrés s appuyant sur une interactivité forte avec l utilisateur final (cartes ou graphiques statistiques interactifs, documents hypertextes, restitution sous forme de portails, ) et lui permettant de retrouver une information ciblée. Nous pouvons décomposer les images produites suivant plusieurs aspects : Les graphiques statistiques classiques, qui, par l apport de l interactivité, restent très attractifs pour exprimer certaines distributions : fréquences, répartitions dans le temps, parts de marchés, tendances, ruptures, Les cartes interactives (cartes factorielles, cartes géographiques, cartes sémantiques, environnements virtuels, ) qui répartissent l information produite dans un espace navigable en 2 ou 3 dimensions [Benford, 1995], [Fowler, 1996], [Gahegan, 2001], Les expressions graphiques des classifications (dendogrammes, arbres dynamiques, blocs diagonaux, partitionnements, ) qui permettent de naviguer d une classe à l autre afin d en déterminer les caractéristiques, le contenu et, éventuellement, les liens de dépendance [Mukherjea, 1995], [Orosco, 1997], Les graphes relationnels, qui, lorsque leur tracé est optimisé, donnent une illustration intuitive aux liens remarquables détectés par les analyses [Boutin, 1999], [Van Dongen, 2000], [Herman, 2000], [Marshall, 2001]. De nombreuses recherches sur la sémiologie graphique sont en cours, car ce mode de restitution semble être le mieux adapté pour rechercher, manipuler, comprendre et synthétiser l information pléthorique qui est mise à notre disposition [Thomas, 2001], [Gimeno, 2001]. Une part de notre proposition concernera la restitution graphique, la diffusion, la navigation et les différents modes d interactivité. 2.8 Les outils d extraction de connaissances à partir du texte Depuis le début des années 90 et le succès d Internet, de nombreux outils destinés à la recherche d information textuelle et à l extraction de connaissances ont vu le jour. A l origine ils se décomposaient en deux grandes classes : les outils statistiques et les outils sémantiques. La tendance actuelle est d essayer de fusionner un peu les deux approches qui, bien que très différentes dans leurs principes, sont assez complémentaires : l analyse sémantique se charge d extraire du texte libre une terminologie contrôlée et des cartes de concepts, la statistique, quant-à elle, permet de traiter les champs balisés et de croiser toute l information afin de restituer de nouvelles connaissances essentiellement sous forme de graphiques, de clusters ou de cartes Les solutions intégrées Voici une liste des principales solutions proposées, certaines ne sont plus distribuées mais se retrouvent très souvent intégrées dans des applications plus récentes. CLEMENTINE (SPSS : C est un outil de fouille de données orienté gestion analytique de la relation client. Il conduit à des segmentations, des typologies, des prévisions, la détection d associations et s appuie notamment sur de nombreux algorithmes de régression et d analyse factorielle.

95 Chapitre 2. La découverte des connaissances 95 DATAVIEW (CRRM Marseille : crrm.u-3mrs.fr). Un des premiers outils de bibliométrie adapté à l analyse des informations semi-structurées et basé sur des méthodes statistiques. MATHEO (ICMS : Nouvelle version du logiciel DATAVIEW. DILIB (INIST). Plate-forme de gestion documentaire et de traitements bibliométriques basée sur l utilisation structurante de la norme SGML : LEXIMINE (LexiQuest : Système d analyse statistique et linguistique permettant de cartographier des sujets spécifiques issus de gros corpus non structurés. Il vient d être repris par SPSS et intégré à ses solutions de "datamining". NEURODOC (INIST Nancy). Cette station de travail, qui permet de classer, cartographier et analyser l information bibliographique dans une perspective de veille scientifique et technique, se base sur les réseaux de neurones afin d établir des cartes de concepts liant les thèmes aux acteurs. ONLINE MINER (Temis : Solution de veille multi-sources (y compris XML) qui permet d extraire et d organiser des concepts et qui est complétée par divers utilitaires : moteur de recherche, catégoriseur, cartouche de compétences. SDOC (INIST Nancy). Utilise la notion de cooccurrence, d indice d équivalence et la classification ascendante hiérarchique pour détecter des clusters sémantiques et alimenter un diagramme 2D densité centralité. STRATEGIC FINDER (Digimind : Il interroge des bases d information ciblées du Web invisible ainsi que des moteurs de recherche. Il effectue automatiquement le déchargement et le dédoublonnage des documents, en gère la mise à jour et assiste la diffusion des recherches : TECHNOLOGY WATCH (IBM/ECAM France). Cette solution est dédiée à la veille scientifique et technologique de l'entreprise, elle permet l analyse de brevets et de documentations scientifiques et techniques. TEXT NAVIGATOR (IBM/ECAM France). Il permet de classer des documents reformatés par thèmes en leur appliquant différents traitements linguistiques et mathématiques. TKS : Text Knowledge Server (IBM/ECAM France) Plate-forme qui regroupe un ensemble d outils qui permettent d analyser, de classifier et de structurer des documents issus d Internet ou de d Intranet. TROPES (Acetic : Il identifie des concepts par analyse sémantique et conduit à un graphe relationnel entre ces concepts. Il utilise un important dictionnaire (mots et classes) et se base sur la notion de proximité dans les textes. VANTAGE POINT (Search Technologie : Ce logiciel, orienté analyse de fiches bibliographiques, détecte les acteurs majeurs et les sujet porteurs ou émergents d un domaine. Il produit des graphes de relations et des analyses statistiques. WORDMAPPER (Grimmersoft : Cet outil intégré de "TextMining" cartographie l information textuelle en identifiant automatiquement des thèmes clés. Il s appuie à la fois sur des méthodes d analyse linguistique et statistique et propose divers modes de représentation et de navigation.

96 Chapitre 2. La découverte des connaissances Les outils ECT développé au sein de l équipe SIG-IRIT IRIT La Plateforme Tétralogie La plateforme Tétralogie [Dousset, 1988], [Dkaki, 1993] développée au sein de notre équipe SIG-IRIT est dédiée à l extraction des connaissances à partir de textes. Dans le contexte de la veille stratégique (VS), Tétralogie est un outil particulièrement bien adapté aux analyses macroscopiques, il permet en effet de dégager les signaux forts, les signaux faibles et les tendances à partir d'un corpus de documents collectés sur un sujet précis. L'information élaborée, qui en est issue, représente une synthèse obtenue par diverses méthodes d analyse de données et diffusée via des visualisations graphiques. L approche suivie par Tétralogie est essentiellement basée sur la découverte de connaissance à partir de l information textuelle de type bibliographique ou de brevets issue de bases bibliographiques en ligne, sur CD/Rom, d'internet ou de toute autre source informatisée. Par l'intermédiaire de méthodes statistiques, d'analyse exploratoire des données et de cartographie interactive, il fait apparaître, dans des temps très courts, de nouvelles connaissances stratégiques jusque là inexploitées comme : l'identité des acteurs, leur notoriété, leurs relations, leurs lieux d'action, leur mobilité, l'émergence et l'évolution des sujets et des concepts, la terminologie, les domaines porteurs, que lire et où publier, avec qui collaborer. La plate-forme est composée en plusieurs modules complémentaires : Module de manipulation de corpus permettant d interfacer les sources d informations [Dousset, 1988], [Dkaki, 1996], [Dkaki, 1998], [Mothe, 2003], [Dousset, 2009]. Module de représentation réduite de données, qui permet de structurer selon les objectifs visés les relations (présence- absence, contingence, cooccurrence, cooccurrence multiple, etc.) existantes dans le corpus analysé [Dousset, 1987], [Dousset, 1988], [Dousset, 1989], [Dousset, 2005], Module d analyse de données, qui recouvre toutes les techniques de classification, d association et de séquences (ACP, AFC, CAH, CPP, etc.) [Dousset, 1987], [Dousset, 1989], [Dousset, 1993], [Dousset, 2006], [Dousset, 2007]. Module de visualisation, permet d offrir des résultats graphiques sous forme de carte factorielle en 2D, 3D et 4D [Dousset, 1991], [Banammar, 1999], [Dousset, 2002], [Dousset, 2003]. Module d analyse de graphe, qui permet d explorer l évolution des matrices par des graphes évolutifs [Karouach, 2003], [Dousset, 2005], [Loubier, 2007], [Loubier, 2008], [Loubier, 2009]. L architecture modulaire, qui est adoptée, permet une adaptation fine à des besoins spécifiques qui sont essentiellement liés à la taille des entreprises ou des organisations, à leur secteur d'activité, à leur type de clientèle, aux impératifs en termes de coût, de qualification, de réactivité et de vision prospective. Plusieurs niveaux de compétences et de services sont proposés : les scénarios d'analyse préfabriqués couvrant la majorité des besoins élémentaires en information élaborée, des stratégies d'analyse plus complexes mises au point par des spécialistes pour chaque source spécifique d'information électronique, un logiciel interactif pour la réalisation d'analyses spécifiques très détaillées pouvant être conduites de façon collégiale via Internet.

97 Chapitre 2. La découverte des connaissances 97 Figure 32: Les différentes sorties de la plateforme Tétralogie Le système Doc Cube Le système Doc Cube [Mothe, 2001] développé au sein de l équipe SIG-IRIT est dédié à l extraction des connaissances à partir de textes. Un des composants de base de DocCube et une de ses originalités correspond à la notion d hiérarchies de concepts qui structurent l'espace d'information. Ces hiérarchies correspondent en fait à différents aspects qui composent chaque domaine. Par exemple, le domaine de la veille scientifique et technique peut être structuré selon l'origine de la technologie (auteur, laboratoire, ville, pays, ), les techniques utilisées, la date, l'objectif de la technologie. Le domaine économique peut être structuré autour de hiérarchies comme le temps, le géo-référencement, les indicateurs économiques, les industries. Ces hiérarchies sont proposées pour offrir à l'utilisateur des visualisations globales d'information qui l'aident dans sa recherche et dans l'exploration de la masse d'information dont il dispose. Ces visualisations globales reposent sur une modélisation multidimensionnelle. C'est à dire que l'information est représentée et organisée selon différentes dimensions et que des faits peuvent être analysés de façon interactive. Les contextes d application de cet outil sont la bibliométrie, la formulation de requête et l exploration des documents web. 2.9 Fouille de Texte : Synthèse Le processus d ECT est conduit par un analyste et un expert du domaine étudié. Ce processus permet de répondre aux objectifs de la veille stratégique. Il permet d offrir une vue synthétique et pertinente pour une

98 Chapitre 2. La découverte des connaissances 98 analyse en IE par la révélation des informations endogènes. Ces informations reflètent les tendances, les signaux faibles, etc. d un domaine donné. L objectif de l ECT est donc de permettre à l expert de retrouver, à partir d un corpus donné, des relations connues dans son domaine, de pouvoir les localiser explicitement, d analyser les acteurs à partir d une ou plusieurs de ces relations. L ECT permet également de découvrir de nouvelles relations. En ce sens, notre définition rejoint celle de [Fayyad, 1996] pour l ECBD qu ils qualifient de «processus non trivial d identification de motifs (d information) valides, nouveaux, potentiellement utiles et au final compréhensibles à partir d un ensemble de données». Nos travaux se situent au niveau de ce type de traitement pour la modélisation et la conception d un système d information d aide à la décision. Lorsqu on est confronté à une information pléthorique, non directement assimilable, mais traitable électroniquement, il est possible d en dégager tout un ensemble de connaissances cachées, inaccessibles par la lecture mais ayant une portée stratégique. Nous parlons alors d information endogène, car elle ne peut être obtenue que par traitement automatique et orienté d un ensemble de documents. Elle est donc générée au sein même d un corpus par des manipulations (mathématiques et textuelles) codifiées dans des méthodes adaptées à chaque cas. Elle s oppose en fait à l information explicite : celle que l auteur a voulu transmettre et que nous qualifions d exogène car elle a été mise volontairement dans l écrit, elle vient donc de l extérieur. Notre avis est que l information explicite est rarement stratégique (sauf dans les rapports confidentiels). En effet, si nous étudions de près l ensemble des sources disponibles (Tableau 5) tels que : Références bibliographiques : résumés et mots-clés très généraux, peu de technique, pas de texte intégral. Articles scientifiques : les recherches en cours et les projets les plus prometteurs ne sont pas dévoilés, l information est souvent distillée sur plusieurs articles. Brevets : ils servent à protéger l invention et non pas à aider autrui à la prolonger. Presse : souvent partisane, superficielle, qui ménage ses effets. Agences de presse : signalisation des faits bruts sans analyse. Internet : il sert à vendre ou analyser les connexions plus qu à informer. Nous remarquons que sur l ensemble de ces sources textuelles, se cachent des informations implicites (appelée endogène) que les rédacteurs eux mêmes n ont pas conscience d avoir contribué à mettre en commun et à la disposition de tous. Ce type de traitement permet alors de dégager des informations portant par exemple sur : L évolution des collaborations entre organismes ou entreprises, ce qui permet de déduire leurs stratégies. La classification des brevets en fonction de leurs références aux brevets antérieurs (co-citations appliquées aux brevets) permet de bien structurer un domaine technologique, L information endogène est alors la clé de la veille stratégique. L extraction systématique de connaissances cachées permet de répondre à la majeure partie des besoins informationnels engendrés par l analyse stratégique d un problème décisionnel posé.

99 Chapitre.3 Xplor : Modèle d analyse multidimensionnelle 3.1 Introduction Présentation du processus d analyse exploratoire multidimensionnelle Xplor Spécification Indicateur relationnel Indicateur uni-varié Présentation générale des étapes du processus Xplor Planification Recherche et collecte des documents Homogénéisation et/ou structuration des documents Représentation multidimensionnelle des documents Calcul des indicateurs et analyse Validation et diffusion Modèle de représentation multidimensionnelle des documents Considération générales Notion de dépendance Généralisation : tableaux de Burt Base de calcul pour ces mesures Impact d un document sur les différentes matrices Modèle à deux dimensions Principe Tableau à deux dimensions Modèle à trois dimensions Principe Tableau à trois dimensions Fonctions... Erreur! Signet non défini Fonctions de manipulation Fonctions d agrégation Combinaison de fonctions Le profil des utilisateurs du processus d analyse exploratoire multidimensionnelle Considérations générales Modèle utilisateur Gestion des exceptions et des particularités Synthèse

100

101 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle Introduction Que cela soit au niveau d un individu, d une entreprise ou d une nation, surveiller et anticiper les évolutions de son environnement est vital pour maintenir ou développer sa compétitivité. L information représente la matière première d une démarche d IE. Au cours de la dernière décennie, un grand nombre de documents publics est disponibles sur Internet (dépêches de presse, bases de données bibliographiques scientifiques et techniques, etc.) ou en Intranet (mails, rapports techniques, rapports d étonnement) contenant potentiellement de l information utile à la décision. La capacité des entreprises à recueillir et à stocker ces documents à dépasser leur capacité à les traiter, les analyser et à les exploiter. Les entreprises réclament donc des systèmes d extraction et d analyse d information personnalisés et évolutifs mettant l accent sur des besoins relatifs à des fonctions d exploration, sur des domaines précis (agroalimentaire, aéronautique, pharmaceutique etc.), telles que : identifier des fournisseurs de technologies, des concurrents, repérer les fusions/acquisitions d entreprises paraissant dans la presse économique, etc. Notre contribution consiste à proposer un système d information adapté aux besoins la démarche d IE (voir section 1.5). L objectif de ce système est d offrir une référence méthodologique aux opérations de collecte, de traitement et d analyse des informations. Il doit permettre d observer et d analyser l environnement informationnel d un problème décisionnel sous toutes ses dimensions. L approche suivie (voir Figure 33), repose sur le couplage des méthodes utilisées au cours du processus d ECT (section 2.2 du chapitre 2) avec les différentes étapes du processus de veille (voir section du chapitre1). Veille Besoin informationnel Collecte Extraction de Connaissances à partir du Texte Collecte de documents Homogénéisation et structuration Représentation multidimensionnelle Analyse Calcul des indicateurs et analyse Validation Synthèse Figure 33: Couplage du processus de veille et de l ECT. L aspect dynamique de l analyse d information est vital à toute activité de veille dans un contexte d IE. Cette dynamique intègre la notion de surveillance continue de l environnement de l entreprise, afin de pouvoir détecter ses changements et ses évolutions. Dans ce contexte une grande part de l information à portée stratégique vient du relationnel et la pertinence des données extraites dépend fortement de le prise en compte de leur évolution mais aussi de celles de leurs interactions. Le recoupement entre plusieurs informations permet ainsi une compréhension synthétique de l environnement informationnel de l entreprise et de sa dynamique. Le système d information proposé, se base sur un modèle d analyse exploratoire multidimensionnelle, que nous nommons Xplor, qui permet de répondre à ces besoins par la prise en compte, d une part de l aspect relationnel, et d autre part de l aspect temporel au sein de l analyse. Il repose sur l extraction des connaissances à partir des données textuelles par l analyse des données

102 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 102 relationnelles et de leur évolution. Cette spécification temporelle du modèle permet de situer les événements, les stratégies et les actions aussi bien que dans : Le passé par reconstruction de la chronologie, Le présent par orientation temporelle, Le futur par anticipation, pour tout ce qui concerne les organisations successives d un réseau, telles que les collaborations, alliances, fusions, acquisitions, co-citations, co-signatures, cooccurrences de tous ordres. Le modèle visé repose sur deux principaux modèles : Un modèle de représentation multidimensionnelle des documents, qui permet de transformer les données qualitatives en quantitatives. Nous notons, que notre contribution se base sur les documents électroniques tels présentés dans la section 2.3 du second chapitre de ce manuscrit. L objectif de ce modèle est d'obtenir, en final, une vue globale ou fédératrice des documents collectées qui sera utilisée tout au long du processus d analyse. Un modèle de fonctions, qui a pour objectif d offrir un ensemble de fonction générique et combinatoire qui permettent de construire différent type d indicateur, selon les besoins d analyse, à partir de la représentation multidimensionnelle des documents. Le système d information d IE proposé doit permettre aussi de gérer le partage des informations entre les différents acteurs impliqués. L objectif est de définir un espace de communication et de diffusion d information pour offrir une plateforme de collaboration et de coopération entre les différents intervenants. Pour cela nous définissons un modèle utilisateur qui s adapte à chaque profil utilisateur. Nous proposons donc un système d information d IE qui génère des produits d IE aux besoins de l ensemble des acteurs (voir section 2.14) concernés. Ce chapitre est composé de quatre sections comme suit : Dans la première section nous présentons le processus du modèle d analyse exploratoire multidimensionnelle. Nous décrivons dans cette partie les différentes étapes du processus et l approche suivie pour répondre aux besoins de chacune. La seconde section, consiste à décrire le modèle de représentation multidimensionnelle des documents (section 2.12). La troisième section, va permettre de définir le modèle de fonctions (voir sections Erreur! Source du renvoi introuvable. ouvable.). Dans la quatrième section, nous identifions les différents profils utilisateur impliqués dans le processus d analyse exploratoire multidimensionnelle (section 2.14). Nous concluons ce chapitre par une synthèse (section 2.15) sur notre contribution Présentation du processus d analyse exploratoire multidimensionnelle Xplor Spécification Le processus proposé s insère au niveau du cycle d IE pour supporter les différentes étapes de veille stratégique (voir Figure 10). Nous considérons que le déclanchement du processus proposé est basé sur la fin de l étape de ciblage du processus d analyse stratégique. Nous rappelons que le ciblage, permet d identifier les domaines d activités à analyser. Cette activité a pour objectif de traduire le problème décisionnel posé en un problème informationnel.

103 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 103 L étape de ciblage se base sur l identification des Facteurs Clés de Sucés (FCS). Un FCS est une entité qui contribue de façon essentielle au maintien des avantages concurrentiels de l entreprise. Il peut porter sur un domaine ou un sous domaine d activité. Pour chaque domaine d activité ciblé (Figure 34), nous devons définir les FCS qui lui sont associés. L identification des FCS permet de définir le problème informationnel associé à un domaine d activité ciblé selon : Les concepts et/ou les acteurs à surveiller ou à analyser, Hiérarchiser chacun d eux selon leur priorité d analyse Les indicateurs informationnels (2.1.5) qui permettent de les synthétiser et les représenter. Domaine d activité Acteurs pertinents Concepts pertinents Hiérarchisation des acteurs prioritaires Hiérarchisation des concepts prioritaires Liste des indicateurs/acteur Liste des indicateurs/concepts Figure 34 : Identification des cibles. Nous notons que la méthode MEDESIIE (voir section 1.4.1) et les modèles SITE (voir section 1.4.2) permettent d offrir un cadre méthodologique pour l identification des cibles à surveiller. Dans le contexte de nos travaux, nous supposons que les indicateurs peuvent se présenter sous forme soit d indicateur uni-varié, soit d indicateur relationnel (vois section 2.1.5) Indicateur relationnel Les co-signatures sont l'indicateur relationnel le plus courant. L'analyse des co-signatures sert à mettre en lumière les liens et les interactions entre les acteurs des systèmes nationaux et internationaux de science et technologie. Ce sont ces interactions que nous désignons par le concept de flux de connaissances. La méthode des mots associés et celle des co-citations sont aussi des indicateurs relationnels 18. Ils permettent de dresser des portraits de l'activité scientifique fondés sur le contenu des publications. Ces indicateurs permettent de suivre l'évolution de la science et de la technologie et d'identifier les thèmes de recherche émergents et les acteurs qui y contribuent. Les indicateurs de co-citations et de mots associés sont toutefois 18 La banque de données de l Observatoire des Sciences et des Technologies, dans son état actuel, ne permet pas l'utilisation de ces indicateurs en raison de l'absence de données sur les références et les mots-clés.

104 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 104 rarement utilisés dans un cadre politique, contrairement aux indicateurs descriptifs et à l'analyse des cosignatures qui sont couramment utilisés pour les tâches de description et d'évaluation de la recherche. Dans les Tableau 10 nous présentons un exemple d indicateurs relationnels issus de l étude des relations entre les différents éléments d une notice bibliographique (voir Figure 21). Mots-clés Pays Organisme Auteurs Date Mots-clés Pays Organisme Auteurs Réseaux sémantiques Thématiques spécifiques des pays Collaborations internationales Thématiques spécifiques des organismes Collaborations internationales des organismes Collaborations entre les organismes Domaine de compétence de chaque auteur Collaborations internationales des auteurs Collaborations entre auteurs et organismes Structure et collaboration des équipes Evolution des thématiques Evolution de l'activité de chaque pays Evolution de l'activité de chaque organisme Evolution de l'activité des auteurs Tableau 10 : Exemple d indicateurs relationnels. Dans le Tableau 11, nous présentons les indicateurs relationnels de tendances qui permettent d étudier les relations entre les différents éléments d une notice bibliographique (voir Figure 21) par la prise en compte de la dimension temporelle Date. Mots-clés Pays Organisme Auteurs Mots-clés Pays Organisme Date Evolution des réseaux sémantiques Date Evolution des thématiques spécifiques des pays Evolution des collaborations internationales Date Evolution des thématiques spécifiques des organismes Evolution des collaborations internationales des organismes Evolution des collaborations entre les organismes Date Evolution des domaines de compétence de chaque auteur Evolution des collaborations internationales des auteurs Evolution des collaborations entre auteurs et organismes Auteurs Evolution des structures et collaborations des équipes Tableau 11 : Exemple d indicateurs relationnels de tendance Indicateur uni-varié Le dénombrement des articles et des citations, le dénombrement des brevets et des citations dans les brevets sont les indicateurs descriptifs les plus courants. Ils mesurent le volume et l'impact de la recherche à divers niveaux d'agrégation.

105 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 105 Lorsqu ils sont calculés différentes périodes, ils permettent d'identifier des tendances. La méthode du dénombrement est basée sur le calcul du nombre de publications scientifiques attribuables à un acteur, dans un domaine donné. Il peut s'agir d'un auteur, d'une institution, d'un secteur d'activité regroupant diverses institutions université, laboratoire public, industrie, ou encore d'une unité géographique ville, province, pays. Le niveau d'agrégation du domaine de recherche peut être une discipline ou une sous discipline scientifique, une technologie ou encore un créneau technologique spécifique 19. Enfin, il est intéressant de rappeler que les indicateurs descriptifs peuvent être appliqués aux publications et aux brevets, selon que l'analyse porte sur la production scientifique ou la production de technologie. Si nous considérons les matrices comme des matrices de présence/absence, leur marginales représente le nombre de cellules non nuls de chaque ligne et de chaque colonnes. Ceci nous conduit au calcul d indicateurs uni-variés particulièrement robustes comme : Mots-clés Pays Organisme Auteurs Date Auteurs Etendu de la thématique d un auteur Nombre de pays avec lesquels a collaboré un auteur Nombre d organismes avec lesquels a collaboré un auteur Nombre de collaborateurs d un auteur La durée de la carrière d un auteur dans le domaine étudié Tableau 12 : Exemple d indicateurs uni-variés. Le système d information proposé consiste à répondre aux calculs de ces indicateurs. Notre objectif, est d offrir un modèle d analyse exploratoire multidimensionnelle générique, qui permet de calculer des indicateurs de type uni-varié et relationnel de tendance. Nous notons que les exemples présentés peuvent être étendus à d autres type de document tel que : les brevets, la presse, etc Présentation générale des étapes du processus Xplor Planification Considérations générales La première activité du processus proposé est la planification. Elle est établie à partir du problème informationnel exposé par les décideurs. L objectif de cette activité est de décrire la démarche de pilotage du processus d analyse. Nous définissons cette activité selon la méthode 5W-1H : What, Why, Who, When, Where, How (Quoi, Quand, Où, Qui, Comment, Pourquoi). Dans le cadre de la mise en place d un projet d IE, François Jakobiak a développé une approche systémique d IE basée sur le principe des 5W 1H [Jakobiak, 2006] (Tableau 13). What Définition du sujet d analyse Why Enjeux et intérêt du sujet d analyse Who Identification des acteurs : Analystes, Experts, Veilleurs, Décideurs When Calendriers des actions Where Sources d information 19 B. Godin, L'état des indicateurs scientifiques et technologiques dans les pays de l'ocde, (Document de travail, Projet de remaniement des sciences et des technologies, Statistique Canada), 1996, 17.

106 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 106 How Modalités d action Tableau 13 : Les questions 5W-1H. Le principe 5W-1H renferme ce que l'on appelle en rhétorique les circonstances : la personne, le fait, le lieu, les moyens, les motifs, la manière et le temps. Ainsi, l entreprise peut dresser un plan d analyse détaillé lui permettant de mener à bien son projet d IE. Dans le cadre de nos travaux nous adaptons ce principe pour décrire le besoin informationnel posé et orienter l analyse exploratoire. Notre adaptation se positionne au niveau de la question «How» (Comment). À l origine, l objectif de cette question était de décrire les procédures, techniques et actions à mettre en place dans le cadre du projet étudié. Dans le contexte du processus proposé, la question «How» (Comment) va décrire les indicateurs à mettre en œuvre pour satisfaire le problème informationnel posé. En se basant sur le principe 5W-1H, nous proposons de décomposer l activité de la planification en 14 sous activités (Figure 37). Cette décomposition va permettre de répondre de façon claire et précise à chaque question des 5W-1H. Il est à noter que le déclencheur de l activité planification est le problème informationnel (Erreur! Source du renvoi introuvable.) posé. Les produits de cette activité sont décrits dans le Tableau 14. What Why Who When Where How Le sujet d analyse Les thèmes du sujet d analyse Les acteurs : Analystes, Experts, Veilleurs, Décideurs Le calendrier des actions Les sources formelles pour chaque thème Les sources informelles pour chaque thème Les indicateurs pour chaque thème, Les attributs ciblés, leurs valeurs, leurs granularités et leurs relations pour chaque indicateur Tableau 14 : Les produits de l activité planification Fonctionnement général de l activité ité «planification» Le principe de la planification est le suivant. Lors de la première phase, un problème informationnel est posé. Ce problème va être identifié par la définition de son sujet d analyse. Une fois le sujet défini, l utilisateur doit : définir les thèmes d analyse, planifier les opérations de l analyse, identifier les acteurs impliqués. La validation de l activité définir les thèmes d analyse conduit l utilisateur à définir, pour chaque thème identifié, deux activités principales comme l identification des sources d informations et la définition des indicateurs d analyse Identification des sources d information

107 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 107 L activité de l identification des sources d informations consiste à répertorier toutes les sources formelles et informelles susceptibles de contenir des informations utiles au thème de l analyse. Dans le contexte d IE, les sources d informations sont de deux types : LES SOURCES FORMELLES L information est dite formelle dès lors qu elle est publiée sur support papier, informatique, microfilm, etc. Elle peut être structurée ou non, mais il s agit dans tous les cas d une information directement accessible (sous réserve des contraintes définie par son auteur) et exploitable. Les sources formelles sont composées principalement de la presse, la télévision, la radio, les livres, banques de données et CD-ROM, les brevets, les informations légales, les études réalisée par des prestataires publics ou privés, Internet. Ces sources ont l avantage d être sûres et assez exhaustives, de faible coût (sauf le cas certaines banques de données telles que Pascal, etc.) et faciles d accès. Dans le cadre de notre contribution, les banques de données les plus consultées sont à dominante scientifique, technologique ou réglementaire et se trouvent sur des bases bibliographiques. Parmi les bases jugées les plus intéressantes, nous pouvons citer dans le domaine économique Factiva 20, physique avec Inspec 21, orienté entreprise avec Kompass Europe 22, multidisciplinaire avec Pascal 23, médical avec PubMed 24, etc. Les documents issus de ces bases sont sous forme de notices bibliographiques. Ces notices offrent une description synthétique souvent suffisante pour obtenir des informations stratégiques adaptées à nos besoins d analyse. Nous définissons une notice bibliographique par un ensemble d attributs (auteur, date, journal, etc.) où chaque attribut peut contenir une ou plusieurs valeurs que nous appelons informations utiles. LES SOURCES INFORMELLES Les sources informelles sont constituées de toutes les informations non formalisées et non disponibles directement. Il est donc nécessaire d entreprendre des démarches directes auprès des détenteurs supposés de cette information. Ces sources peuvent être les expositions et les salons, les fournisseurs, les colloques, les congrès, les clubs où les acteurs échangent des informations et communiquent. L information qui circule alors peut être d une grande valeur stratégique, les concurrents (portes ouvertes, communication commerciale et financière, publication de journal interne, etc.), les réseaux personnels : le cousin, l ami commercial de chez X, le représentant de Y, le voisin qui travaille chez Z, l écoute, «par hasard», d une conversation dans un avion, un train, lors d un dîner, etc. dans la limite de la légalité et de la déontologie. Dans notre cas d étude, nous utilisons les sources informelles pour valider les résultats de l analyse exploratoire Définition des indicateurs d analyse Cette activité consiste à définir les indicateurs à calculer et à évaluer. Ces indicateurs ont pour objectif de synthétiser et interpréter l environnement informationnel du thème de l analyse. Dans le Tableau 21, nous définirons l ensemble des indicateurs pouvant être exprimés dans le contexte de nos travaux. A ce niveau d activité, l utilisateur doit introduire les différents indicateurs associés à chaque thème du sujet d analyse. Chaque indicateur est analysé de manière à identifier ses attributs ciblés, leur granularité, leurs valeurs et leurs relations. L objectif de cette décomposition est d orienter et décrire les différentes activités du processus proposé. SPECIFICATION 20 Dow jones Factiva. Base de données de presse et d informatique économique. 21 EBSCO Industries. Base de données bibliographiques en physique Base de données sur les entreprises européennes. 23 INIST (Institut National de l Information Scientifique et Technique). Base de données multidisciplinaire. 24 Base de données bibliographiques, interrogeable par le Mesh (Medical subject heading)

108 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 108 Nous définissons un besoin informationnel noté B par < S A, Th A, Ind A, Att A, Val A, > S A : représente le contexte général du besoin pour l analyse A, Th A = < Th 1, Th 2,, Th m >, représente les thèmes fixés pour le sujet S A. Ind A = {< Th i, < Ind i1, Ind i2,, Ind in >>}, représente les indicateurs associés à chaque thème. Att A = {< Ind ij, < Att ij1, Att ij2,, Att ijp >>}, représente les attributs identifiés pour les indicateurs définis pour chaque indicateur. Val A = {< Att ijk, < Val ijk1, Val ijk2,, Val ijkq >>}, représente les attributs spécifiés pour chaque type d acteurs. Dans la Figure 35, nous définissons une hiérarchie de concepts associés à la décomposition des indicateurs. Niveau 0 Niveau 1 Niveau 2 Niveau 3 Niveau 4 Val 1111 Sujet Thj 1 Thj n... Ind Ind 1i Ind n1... Ind ni Att Att 11j Att nij Val 111k Val n11k Val nijk Exemple Le besoin est défini comme suit : Figure 35: Hiérarchie de concepts associes à la spécification des besoins. B s = < S As, Th As, Ind As, Att As, Val As > S A s = «évaluation de la recherche scientifique dans le domaine des Nanotechnologies» Obj A s = < Les collaborations, La production scientifiques, Les thématiques de recherches > s Ind A = {< Les collaborations, < Les collaborations entre auteurs, Les collaborations entre organismes, Les collaborations entre pays >>, < La production scientifiques, < Le nombre de publication, L évolution du nombre de publication >>, < Les thématiques de recherches, < L évolution des thématiques de recherches des auteurs >>} Att A s = {< Les collaborations entre auteurs, < Auteur, Auteur >>, < Les collaborations entre organismes, < Auteur, Organismes >>, < Les collaborations entre pays, < Auteur, Pays >>, < Le nombre de publication, <

109 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 109 Auteur >>, < L évolution du nombre de publication, < Auteur, Date >>, < L évolution des thématiques de recherches des auteurs, < Auteur, Descripteurs, Date >>} Val A s = << Date >, < 1999, 2000, 2001, 2002, 2003, 2004>> La hiérarchie de concepts associés est comme suit : Sujet Thèmes Indicateurs Attributs Valeurs Les collaborations entre auteurs Auteur Les collaborations Les collaborations entre organismes Organisme Les collaborations entre pays Pays Évaluation de la Recherche Scientifique dans le domaine des Nanotechnologies La production Le nombre de publication Evolution du nombre de publication Auteur Auteur Date Les thématiques Thématiques de recherche par auteurs Evolution des thématiques de recherche des auteurs Auteur Descripteur Auteur Descripteur Date Figure 36: Exemple de la hiérarchie de concepts associes au sujet Nanotechnologie. Une fois que toutes les sous activités associées à l activité de la planification sont terminés et validées, les résultats obtenus seront mémorisés pour une utilisation ultérieure. La Figure 36, représente le fonctionnement général de l activité planification.

110 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 110 Figure 37 : Le fonctionnement général de l activité «planification».

111 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle Recherche et collecte des documents L objectif de cette activité est de centraliser tous les documents susceptibles de contenir des informations pertinentes répondant aux besoins de l analyse. Cette activité se base sur les produits issus de l activité planification. Nous retenons de cette dernière : la liste des sources d informations formelles, le sujet, les thèmes et objectifs, la liste des attributs et leurs valeurs. Ces produits vont permettre de guider l activité de recherche d information pour construire le corpus ciblé de l analyse. Le terme corpus désigne généralement de vastes ensembles de données textuelles semi ou totalement structurés et sous forme électronique. Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d'échantillon du langage, selon [Habert, 2000]. De plus, un corpus électronique est un corpus qui est encodé de manière standardisée et homogène pour permettre des extractions non limitées à l'avance. L'origine et la provenance des données langagières sont notées. En effet, la simple existence sur support électronique ne fait pas d'un ensemble de textes un corpus électronique. Encore faut-il que ce document respecte des conventions de représentation, de codage répandues, voire consensuelles, qui permettent la transmission et la réutilisation des données textuelles Sources et systèmes de recherche La recherche et collecte des documents est généralement réalisée par l interrogation d une ou plusieurs collections de documents sur un sujet et un thème donné. Il n existe pas un système unique permettant de collecter tous les documents disponibles. L utilisation simultanée des différents systèmes disponibles permet d y remédier. Les sources interrogées sont alors souvent hétérogènes. Dans le cadre de notre proposition, nous rappelons que les sources informelles ne seront pas considérées dans cette activité, nous nous appuierons seulement sur les sources formelles. Nous identifions les sources formelles de données selon leur structure à savoir: Sources de données structurées : les bases bibliographiques, les bases de brevets, etc. Sources de données semi ou non structurées : Flux RSS, Page web, Traces de connexions, Groupes de discussions, Presse en ligne, etc. Dans la Figure 38, nous présentons la procédure que nous retenons pour l activité de recherche et collecte de documents qui peuvent être issus de sources hétérogènes. Le but de notre démarche est de construire un corpus ciblé à partir de toutes les collections de documents retournés par les différentes sources interrogées. Chaque collection est composée d'une sélection d'informations textuelles brutes.

112 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 112 Sources hétérogènes Flux WWW BDD Système PUSH Système de Recherche d Informations Robot Aspirateur Système de Téléchargement Collection 1 Collection 2 Collection 3 Corpus Cible Collection 4 Collection 4 Figure 38 : Procédure de l activité Recherche et Collecte de documents. La collecte de documents peut s effectuer par une simple recherche d information au sein des bases de données de type bibliographique ou brevet. Cette recherche d informations repose sur les Systèmes de Recherche d Information qui intègrent un ensemble de modèles et de processus permettant de sélectionner des informations pertinentes en réponse aux besoins identifiés. Le processus de recherche d information consiste à mettre en correspondance les besoins identifiés sous forme d un ensemble de mots clés (requête) avec l ensemble des descripteurs des collections de documents (ou de pages web). Ce processus restitue une collection de documents selon leur pertinence ordonnée décroissante vis-à-vis de la requête formulée. Cette collection est collectée par l utilisation des systèmes de téléchargements intégrés dans les systèmes de gestion des bases de données bibliographiques (brevet). Ces derniers permettent de récupérer les résultats sous forme d un ensemble de documents textuels structurés. Dans le cas d utilisation des systèmes de recherche d information tels que : Google, Exalead, ou des systèmes qui n offrent pas la possibilité de télécharger directement les résultats, il est possible de collecter les documents en utilisant des robots de type aspirateurs disponibles sur Internet : aspirateur d URL (Wisigot, MémoWeb, Teleport pro), aspirateurs de site tels que MémoWeb ou Teleport pro permettant de récupérer l intégralité ou une partie des pages web retournées. Il est également possible de constituer des collections de documents en utilisant les systèmes PUSH media qui sont des systèmes servant à retourner des informations sur des thématiques précises et cela de façon permanente et automatique selon les critères préalablement sélectionnés. Les résultats obtenus sont des pages web qui sont collectées par des robots aspirateurs. Ces derniers retournent des documents balisés tels que des fichiers de type XML, HTML ou des documents de type texte non balisés par exemple les traces de connexions. Le résultat de cette opération de collecte correspond au corpus ciblé qui devient une nouvelle source d information, ciblée. Les documents associés aux collections contenues dans le corpus ciblé possèdent le

113 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 113 format de leur source. Ces formats d origine, dans certains cas, ne sont pas directement exploitables dans le cadre de notre proposition Structure de la collection : attributs Les collections utilisées sont composées de notices (2.3.1), c est à dire des documents structurés en attributs [Dkaki, 2000]. Un attribut est identifié par une balise, par exemple auteur, date, adresse, organisme. Une valeur est le contenant d un attribut. Un attribut peut être [Mothe, 2000], [Dousset, 2003] : mono-valeur ne pouvant avoir qu une seule valeur possible, généralement les attributs de type «Titre», «Date» sont mono-valeur. multi-valeur en ayant plusieurs valeurs, comme par exemple plusieurs noms d auteurs pour un article coécrit, délimités par des séparateurs. Dans «Auteur : Mothe-Josiane; Chrisment-Claude; Dkaki-Taoufiq; Dousset-Bernard; Karouach-Said», il y a cinq valeurs élémentaires de même type pour le même attribut. composé, certains attributs peuvent contenir des valeurs recouvrant plusieurs concepts. Cette notion vient du fait que les bases d information ne sont en fait que semi-structurées. Par exemple : l attribut «So: Computers-environment-and-urban-systems. 2006; 30 (4) : » peut se décomposer en trois valeurs de types divers : Nom du journal : Computers-environment-and-urban-systems Date de publication : 2006 Référence : 30 (4) : qui se divise en : numéro, volume, et première et dernière pages. Les documents issus des sources assez bien structurées sont généralement présentés par un ensemble d attributs (par exemple l auteur du document, sa date de création, etc.) prédéfini constituant déjà une notice bibliographique. Dans ces documents, les informations utiles associées aux attributs y sont marquées grâce à un langage de balisage. Ce balisage est non ambigu et répond à des règles précises qui doivent être strictement appliquées pour que le document soit considéré comme valide lors de sa création. Dans cette catégorie nous retrouvons, les documents téléchargés à partir des bases de données bibliographiques ou brevet et les documents de type SGML ou XML. Dans le cas où les documents sont collectés à partir des sources peu ou mal structurées, nous catégorisons les contenus afin de redéfinir une structure de type bibliographique. Nous retrouvons dans cette deuxième catégorie : les documents HTML, les documents non balisés etc. Nos recherches nous ont emmenés alors à définir des traitements permettant de structurer et d homogénéiser les documents contenus dans le corpus ciblé. Dans le cas des documents non structurés, nous considérons seulement les documents textuels dont la structure est caractérisée par des séparateurs. Notre approche ne s étend pas aux documents de texte libre Fonctionnement général de l activité «recherche et collecte de documents» À partir de ces hypothèses, nous décrivons dans la Figure 39 : Le fonctionnement général de l activité «Recherche et collecte d information». Le déclencheur de l activité recherche et collecte de document est la fin de l activité de planification. Les produits de la planification utilisés au niveau de la recherche et collecte de document sont :

114 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 114 Le sujet et les thèmes d analyse Les sources formelles Les attributs ciblés et leurs valeurs Le produit de l activité recherche et collecte de document est le corpus ciblé. Figure 39 : Le fonctionnement général de l activité «Recherche et collecte d information». La première phase de l activité débute par la création d un corpus ciblé vide. La seconde consiste à sélectionner une source d information formelle parmi les sources retenues au niveau de l activité planification. Une fois la source d information sélectionnée suivra alors l étape d identification de son type. Selon le type de la source l utilisateur formule et soumet la requête ou le critère. Chaque requête (ou critère) est construite à partir du sujet et thèmes d analyse, des attributs ciblés et de leurs valeurs. La collection de documents retournée par la source sera ensuite analysée. Si les résultats sont jugés pertinents par l utilisateur, procédera alors l activité de collecte de ces documents sinon la requête ou le critère seront reformulés. Les documents retenus à partir de la source d information sélectionnée seront rajoutés au

115 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 115 corpus ciblé. L action est répétée sur l ensemble des sources d information formelles identifiées par l activité planification. Le corpus ciblé est jugé complet si et seulement si toutes les sources sont interrogées. Dans le cas où le corpus ciblé est jugé complet suivra alors la phase de sa validation et de sa mémorisation Homogénéisation et/ou structuration des documents Dans la démarche proposée, nous supposons que les documents contenus dans le corpus ciblé peuvent être issus de sources hétérogènes. L hétérogénéité des sources peut être de format, de langue, etc. Il s agit donc de résoudre des problèmes de type sémantique (conflit de nom d attribut ou de type, absence de valeur...), mais également de type structurel (documents non balisés, HTML) ou encore syntaxique. Pour y répondre, notre démarche va se baser sur les principes d extraction d informations définis par [Dkaki, 1996], [Chrisment, 1997]. Cette approche permet d extraire des informations prédéfinies à partir de documents textuels où la localisation d informations à extraire est balisée ou séparées par des chaînes de caractères. Ces solutions permettent dans le contexte de notre proposition de : définir une vue unifiée des documents contenus dans le corpus cible, gérer les cas de valeurs multiples (un attribut marque plusieurs valeurs de même type) et des valeurs diverses (un attribut marque plusieurs valeurs de natures diverses), gérer les différents conflits sémantiques et syntaxiques tels que la synonymie syntaxique, inclusion, généricité et spécificité. La vue unifiée associée au corpus ciblé correspond à une représentation logique, structurée, prédéfinie de l ensemble de ses collections. Cette représentation respecte le format d une notice bibliographique. Sa définition se base sur la prise en compte des descripteurs de format spécifiques et des descripteurs de format générique (Figure 40 : Démarche d homogénéisation des documents.). Corpus Ciblé Descripteurs de formats spécifiques (1) Descripteurs de formats spécifiques (2) Descripteurs de formats spécifiques (3) Descripteurs de formats spécifiques (4) Descripteurs de formats spécifiques (5) Descripteur de format générique Vue unifiée Figure 40 : Démarche d homogénéisation des documents.

116 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle Descripteur de format spécifique Pour s adapter à toutes les structures caractérisant le corpus ciblé, il est nécessaire d utiliser des descripteurs de formats spécifiques pour chaque collection. L objectif est de pouvoir y dériver le descripteur de format générique. Le descripteur de format spécifique décrit de manière complète la collection auquel il est associé. Il doit être suffisamment formel pour faciliter le passage au descripteur de format générique en traduisant de manière claire la façon dont se fera l extraction des informations utiles à l analyse. Il permet ainsi de définir les patrons d extraction à appliquer à chaque collection. Il est défini selon les travaux de [Mothe, 2000] par: une structure d extraction, des règles d extraction spécifiques, des transformateurs sémantiques spécifiques Structure d extraction Chaque collection de document issue des sources de données structurées est définie par un ensemble d attributs ou champs balisés. Cet ensemble renseigne sur le type, la nature et la localisation de toutes les informations élémentaires que chaque unité d informations peut contenir. Cette structure peut être déduite par apprentissage ou en consultant la documentation du serveur. Elle correspond à une métainformation associée à chaque collection. Dans le cas où la collection de document est collectée à partir d une source d information peu ou mal structurées nous devons localiser les informations utiles à l analyse et définir pour chaque nature d information l attribut qui lui est associé. Ce traitement nous permet définir une structure des documents de la collection sous forme de notice bibliographique. Identification de la Structure Règles d extraction Règles de réécriture Notices bibliographiques Figure 41: Processus informationnel Soit dans la Figure 41 un extrait du corpus de document collecté à partir des traces de connexions au site atlas.irit.fr pour l année 2007.

117 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 117 Figure 42: Traces de connexion. L analyse du contenu de la Figure 41 nous permet de définir les attributs ciblés et les règles de réécriture des valeurs de ces attributs. Nous décrivant dans le Tableau 15, les attributs ciblés pouvant décrire le contenu de la Figure 41 sous forme de notice bibliographique. Attributs Valeurs Numéro 9328 Date 5/05/2007 Heure 2/17/39 Source AOrleans w90-20.abo.wanadoo.fr IP Service Ftp Destination Atlas-dmz Tableau 15 : Structure du contenu de la collection «traces de connexion». La structure de la collection traces de connexion devient alors sous la forme suivante : < Numéro, Date, Heure, Source, IP, Service, Destination> Règles d extraction spécifiques Les règles d extraction spécifiques permettent de décrire la manière dont les informations utiles seront extraites. Elles associent à chaque élément de la structure l ensemble des valeurs qu elle extrait pour un attribut ciblé. Les règles d extraction peuvent se baser sur : des règles de découpage lorsqu elles sont uniquement exprimées par des marqueurs syntaxiques et des séparateurs comme les caractères de ponctuation. Cette catégorie de règles sera le plus souvent utilisée dans le cas des attributs multi-valeurs. En reprenant l exemple précédent, la figure suivante décrit la structure de la collection de documents «Trace de connexion» et S Extract représente l ensemble des attributs ciblés à extraire pour une analyse donnée. La règle d extraction à appliquer repose sur l utilisation d un operateur d ordre (ORDx). S = < Numéro, Date, Heure, Source, IP, Service, Destination > S Extract Extract = <Heure< Heure, Jour, Mois > Where (Heure) = Notice : ; ORD3, indique que l élément d information Heure provient du troisième élément séparé par ; avec la balise Notice : Where (Jour) = Notice : ; ORD2 Where (Mois) = Notice : ; ORD2 ORD x: opérateur d ordre Figure 43 : Exemple de règle d extraction.

118 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 118 des règles descriptives lorsqu elles décrivent les informations à extraire. Nous utilisons cette catégorie pour extraire les valeurs associées aux attributs de type composé. Ces règles consistent à décrire les informations à extraire. Elles peuvent se présenter sous forme d un automate qui détecte des séquences types dans les valeurs d un attribut. Par exemple la séquence «19 XY MMM» tel que MMM = {Jan, fev,, Dec} et 00 XY 99. Soit la règle d extraction Extract R : Extract R (UI, Att Extract, Règle Att ) Att Extract : Elément de la structure d extraction, UI : unité d information contenant la valeur à extraire, Règle Att : représente une règle associée à l élément d extraction Where (Att Extract ) Exemple Soit une collection issue de la base PASCAL dans laquelle nous souhaitons extraire l ensemble des auteurs. L application de la fonction d extraction Extract R : Donne pour résultat : Extract R ( Val, Auteur, Règ_Auteur) { MOTHE-Josiane, CHRISMENT-Claude, DKAKI-Taoufiq, DOUSSET-Bernard, KAROUACH-Said} Où Règ_Auteur : est une règle de découpage prenant en compte les séparateurs des valeurs associés à l attribut Auteur et cela par la relation «Where Pascal (Auteur) = AU» Transformateurs sémantiques spécifiques Les transformateurs sémantiques permettent de remédier aux problèmes de représentation des informations utiles qui peuvent fausser les résultats de l analyse. Ces problèmes sont liés aux différentes relations sémantiques qui peuvent exister entre les différentes valeurs prises par un attribut ciblé. Nous identifions dans ce contexte trois types de relations : synonymie, inclusion, généricité-spécificité. RELATION DE SYNONYMIE L unicité de la représentation des valeurs n est pas assurée dans les collections collectées. En effet, les attributs sont rarement standardisés aussi bien dans leur forme que dans leur contenu sémantique. La même valeur peut avoir plusieurs représentations telles que l orthographe des auteurs ou conventions d écriture des prénoms fluctuantes, homonymes, mots clés multiformes et de sens identiques, adresses fantaisistes etc. Nous traitons par les relations de synonymies les problèmes de différences syntaxiques, les fautes de transcriptions Différences syntaxiques

119 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 119 ABBAL-P => ABBAL, P ABECASSIS-J => ABECASSIS, J Unité d information complète ou initiale AGEORGES-AGNES => AGEORGES-A AGEORGES, A => AGEORGES-A Faute de transcription AGUIE-BEGLUN, V => AGUIE-BEGHIN,V Dans ce contexte [Dousset, 03] a définit la notion de dictionnaires de synonymie qui permet de définir les différentes relations sémantiques existantes entre les valeurs pour répondre aux différentes problématiques. Soient A, B, C, D, E les valeurs associés à un élément de la structure d extraction, Si A => B & B => C C => D B => E & C => E Alors les relations d extraction de synonymies sont : A => E B => E C => E D => E => est une relation de synonymie. L omission de telles relations biaiserait les résultats statistiques ainsi que les conclusions des méthodes qui seront utilisées en aval. RELATION D INCLUSION Les objectifs d une étude peuvent induire un degré d abstraction plus au moins grand pour certaines valeurs. La relation d inclusion permet à l utilisateur de choisir la granularité des valeurs de l analyse ainsi que leur homogénéisation. Par exemple, une relation d'ordre intéressante concerne des informations géographiques avec villes, départements, régions, pays, continent... Dans cette relation d ordre x<y signifie que x est plus spécifique que y, et que la notion y recouvre la notion x. Exemple Si un document est signé par un laboratoire parisien, alors ce document est français et européen. Paris => France => Europe Californie => USA => Amérique Barcelone => Espagne => Europe Département => région => Pays => Continent L'utilisateur doit établir une liste décrivant la précision du niveau d abstraction choisit, comme exemple pour une analyse par continent : cela génère une liste de synonymes tels que toutes les valeurs d un niveau hiérarchique inferieur au niveau France sont associé à la valeur France et toutes les valeurs de niveau supérieures sont ignorées.

120 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 120 RELATION DE GENERICITE-SPECIFICITE Un regroupement des valeurs peut donner naissance à une classe en vue de réaliser des analyses. Certains détails présents dans le corpus peuvent être représentés par des concepts plus larges selon les besoins de l utilisateur. Il s agit par exemple de regrouper tous les attributs associés au champ auteurs d une même équipe ou les pays d une même culture ou d un même profil économique. Dans certains cas c est la seule méthode qui permet de réduire efficacement le nombre de variables prises en compte dans l analyse multidimensionnelles. Notons que nous prenons la relation généricité-spécifité dans le sens utilisé dans les thesauri, et non dans celui l ingénierie des connaissances. On peut donc rencontrer de véritables relations d hyperonymie mais aussi des relations de méronymie. Exemple Classe G8 : France => G8 Etats Unis => G8 Royaume Uni => G8 Japon => G8 Classe : 2006 => => => => Descripteur de format générique Le descripteur de format générique est dérivé à partir des descripteurs de format spécifique. Le descripteur générique va être décrit par : une structure générique d extraction, qui devient alors la structure commune aux différentes collections du corpus ciblé. des règles d extraction génériques. Dkaki [Dkaki, 1996], propose une dérivation de la structure d extraction globale à partir des structures d extractions associée à chaque corpus collecté. Exemple de structure générique Pour deux exemples de corpus collectés à partir des sources Pascal et Factiva, la structure globale Extrac d extraction Structure Global et la fonction Where G sont définies comme suit : Structure Global Extrac = {Titre, Auteur, Affiliation, Conférence, Date, Pays, Descripteur, thème, Journal, Langue} Exemple de e règle d extraction générique Where G ([Auteur] ) = {(S Pascal, AU), (S Factiva, BY) } AU: MOTHE-Josiane; CHRISMENT-Claude; DKAKI-Taoufiq; DOUSSET-Bernard; KAROUACH- Said ( Pascal) BY François Courvoisier (Factiva) Extract R ( Val, [Auteur], Règle [Auteur] ) = Extract R (Val, Auteur, Règle Auteur) ={ MOTHE-Josiane, CHRISMENT-Claude, DKAKI-Taoufiq, DOUSSET-Bernard, KAROUACH-Said, François Courvoisier } Avec : Règle Auteur: est une règle de découpage prenant en compte les séparateurs du champ associé à Auteur par la relation «Where pascal (Auteur) = AU et Where Factiva (Auteur) = BY».

121 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle Fonctionnement général de l activité «homogénéisation et /ou structuration» Cette activité permet d homogénéiser et structurer l ensemble des collections de documents contenus dans le corpus ciblé. L objectif est de définir une vue unifié du corpus. Les documents utilisés pour cette activité sont : les attributs ciblés et leurs granularités. La première phase de l activité débute par l analyse du corpus ciblé. Si le nombre de collections contenues dans le corpus est supérieur à un, on a affaire à un corpus hétérogène. Dans ce cas l utilisateur, pour chaque collection, doit définir le descripteur de format spécifique répondant aux besoins de l analyse. Une fois que toutes les collections sont traitées, suivra l étape de la définition du descripteur de format générique. Figure 44 : Le fonctionnement général de l activité «Homogénéisation et/ou structuration des documents» Représentation multidimensionnelle des documents Notre proposition consiste à définir une structure unique de données intermédiaires entre informations brutes et pré-connaissances déduites, sous la forme d un entrepôt de données générique, qui contiendra

122 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 122 seulement des pré-connaissances sous forme relationnelle. Cette structure de l entrepôt servira de support pour l application des différentes fonctions exploratoires définies dans la section La représentation multidimensionnelle permet d alimenter l entrepôt de données à partir du corpus ciblé. L entrepôt de données généré ne doit contenir que les relations existantes entre les différents attributs ciblés. L extraction de ces relations à partir du corpus ciblé va se baser sur les descripteurs de format spécifiques et génériques définis précédemment (sections et ) et les attributs ciblés à mettre en relation, selon les besoins de l analyse. Le but de cette démarche est de définir une représentation multidimensionnelle générique des documents afin de mieux synthétiser leurs contenus et cela en éliminant les éléments indépendants, pour ne garder que les dépendances les plus significatives en termes d analyse. Vue unifiée Structure 3D Structure 2D Entrepôt de données Figure 45 : Entrepôt de données. La représentation multidimensionnelle se base sur les matrices présentées dans l état de l art (2.5.2 Mesures de dépendances). Figure 46 : Classification des matrices. Nos travaux consistent à définir deux modèles à savoir : Modèle à deux dimensions, Modèle à trois dimensions.

123 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle Modèle à deux dimensions L objectif du modèle à deux dimensions est de représenter chaque document du corpus ciblé sous forme relationnelle. Ce modèle est défini selon l une des matrices de la Figure 47. Soit la structure de la vue unifiée d un corpus ciblé définie par : < ID-Doc, Auteur, Date, Revue, Pays, Descripteur, Organisme > Dans le cas d une matrice présence-absence, le modèle à deux dimensions associé correspond à un tableau à deux dimensions où les lignes correspondent aux valeurs de l Attribut j et les colonnes aux valeurs de l Attribut i. Tel que : Attribut i Є {Auteur, Date, Revue, Pays, Descripteur, Organisme} Les valeurs contenues dans la matrice décrivent s il existe une relation de dépendance, de type présenceabsence, entre les attributs croisés. Attributi ID-Doc Attribut ciblé Relation de dépendance Figure 47 : Relation de dépendance à deux dimensions. Nous détaillerons le modèle de la représentation multidimensionnelle à deux dimensions dans la section Modèle à trois dimensions L objectif du modèle à trois dimensions est de définir l ensemble des relations de dépendances entre les attributs du corpus ciblé. Ce modèle repose sur le principe de la matrice de cooccurrence. Dans le cadre de nos travaux, nous proposons de définir des matrices de cooccurrence à trois dimensions (3D). Chaque dimension correspond à un attribut ciblé. Le troisième attribut ciblé correspond au temps, correctement discrétisée en périodes homogènes. Soit la structure de la vue unifiée d un corpus ciblé définie par : < ID-Doc, Auteur, Date, Revue, Pays, Descripteur, Organisme > Le modèle à trois dimensions associé, est défini par une matrice de cooccurrence à trois dimensions où les deux premières dimensions correspondent aux Attribut i et la troisième à l attribut «Date». Tel que : Attribut i Є {Auteur, Date, Revue, Pays, Descripteur, Organisme} Attribut i Attribut i Attribut ciblé Relation de dépendance Date Figure 48 : Relation de dépendance à trois dimensions. Les valeurs contenues dans la matrice de cooccurrence 3D quantifient la relation de dépendance entre les trois attributs croisés. La quantification révèle le nombre de documents dans lesquels on retrouve les trois valeurs simultanément.

124 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 124 La dimension temporelle est ici importante car il s agit de l analyse d une chronique historique : des variations d un même attribut au cours du temps, afin de pouvoir comprendre la dynamique. La fonction première pour laquelle il est intéressant d observer l historique d un attribut vise à en découvrir certaines régularités afin de pouvoir établir une prévision. Il s agit ici de supposer que les mêmes causes produisent les mêmes effets. Avec une analyse fine, il est même possible d établir des prévisions robustes vis-à-vis de ruptures brusques et de changements non prévisibles Fonctionnement général de l activité té «représentation multidimensionnelle des documents» Figure 49 : Le fonctionnement général de l activité «Représentation multidimensionnelle des documents» Calcul des indicateurs et analyse Nos travaux consistent à proposer un ensemble de fonctions exploratoire. Dans ce contexte, nous définissons deux types : Fonctions de manipulation Fonctions d agrégation

125 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle Fonctions de manipulation En terme de manipulation multidimensionnelle, les premiers travaux sur les manipulations OLAP ont étendu les operateurs de l algèbre relationnelle pour le modèle en cube [Gray, 1996], [Agrawal, 1997] (une transcription SQL des opérations est disponible dans [Agrawal, 1995]). Dans le cadre de nos travaux nous nous sommes inspirés de ces travaux pour définir des fonctions de manipulation pour le modèle en cube proposé. Les fonctions de manipulation proposées sont divisées en 5 groupes : Les fonctions de manipulation de la portée de l analyse : sélection, restriction, seuil. La fonction d ordonnancement : ordre. La fonction environnement : pour une valeur d attribut donnée, affiche l ensemble des attributs et des valeurs cooccurrents dans l entrepôt. La fonction Évolution : permet d explorer l évolution dans le temps des résultats des fonctions précédentes. La fonction Document : permet de retrouver les documents sources Fonctions d agrégation Les fonctions d agrégation sont des éléments important lors de la génération de rapports sur des bases de données [Klug, 1982]. Ce sont des fonctions donnant des résultats quantitatifs : Somme, Minimum, Maximum, Ces différentes fonctions sont détaillées dans la section Comptage, Moyenne, Fréquence.

126 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle Fonctionnement général de l activité «calcul d indicateur et e analyse» Figure 50 : Le fonctionnement général de l activité «Calcul des indicateurs et analyse» Validation et diffusion Cette étape permet aux différents utilisateurs de valider : D une part chaque activité du processus (cf. les figures décrivant le fonctionnement général de chaque activité), D autre part le résultat obtenu par le processus (le produit de l IE) Modèle de représentation multidimensionnelle des documents Considération générales L objectif principal de cette étape est d extraire les relations de dépendances existantes entre les différents éléments de la structure d extraction globale du corpus structuré. Le but est de réduire les informations extraites afin de mieux les maitriser, en éliminant les éléments indépendants, pour ne garder que les relations les plus significatives en termes d analyse. Dans ce contexte, le corpus structuré représente la population d individus sur lesquelles va porter l analyse. Nous définissons une vue multidimensionnelle du corpus global et l ensemble des éléments de la structure

127 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 127 d extraction globale (< Chp 1G Extrac,, Chp ig Extrac,, Chp jg Extrac >) représente les dimensions (ou les variables dans le domaine d analyse de données) de l analyse, et les valeurs du corpus représentent (< { valeur 1 1G,, valeur k 1G },, { valeur 1 ig,, valeur l ig },, { valeur 1 jg,, valeur m jg } >) les attributs associés aux dimensions (ou les modalités dans le domaine d analyse de données). La vue est alors une modélisation des différentes corrélations entre variables sur la totalité de la population (documents du corpus source) ou simplement une de ses parties significatives. Les variables sont de plusieurs types [Dousset, 03]: Qualitatives ordinales : année de publication, de dépôt, heures de connexion, jours de la semaine ou du mois, Qualitatives hiérarchiques : thesaurus hiérarchiques, zones géographiques, inclusions sémantiques, chemin d accès aux fichiers, Qualitatives nominales : auteurs, revues, pays, dictionnaires de mots-clés, De plus les variables qualitatives peuvent être : Uni-modales : présence ou absence d une caractéristique. Multi-modales à modalités exclusives : année, revue, langue, type de document, source, (une seule modalité de cette variable est alors requise obligatoirement pour chaque document). Multi-modales à modalités éventuellement multiples : auteurs, mots-clés, classifications, citations complètes, (plusieurs modalités différentes de cette variable peuvent apparaître une seule fois chacune dans le même document). Multi-modales à modalités multiples éventuellement redondantes: mots du texte libre, affiliations, pays et villes des auteurs dans le cas de plusieurs adresses, auteurs cités, revues citées, (une même modalité peut alors apparaître plusieurs fois dans le même document). Dans ce contexte, le modèle générique de l ensemble des documents du corpus global est défini comme suit : Chaque document du corpus source est décrit par l ensemble des éléments de la structure d extraction du corpus, et chaque document est identifié par un élément de la structure d extraction nommé «N Doc». Exemple Soit : Structure Global Extrac = < N Doc, Année, Auteur, Revue, Pays, Mots C, Organisme > La représentation des variables associée est comme suit :

128 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 128 Individus de la population Document Equivalence Inclusion N Doc Année Auteur Revues Pays Mots C Organisme Multimodales à modalités exclusives Multimodales à modalités multiples Multimodales à modalités multiples redondantes Variables qualitatives Figure 51 : Modèle de document contenu dans le corpus structuré. Dans le cas qualitatif, il est possible de croiser deux variables en prenant pour base la population globale ou un extrait de celle-ci. Quelle que soit la mesure utilisée, on génère une matrice dont le nombre de lignes est égal au nombre de modalités de la première variable et le nombre de colonnes à celui de la seconde. Ces matrices serviront de base aux principales techniques d extraction de connaissance que nous avons développées dans le cadre de Tétralogie Notion de dépendance Ce que nous recherchons principalement, ce sont les relations de dépendances entre les variables présentes dans des grandes collections de documents. La mise en évidence de ces relations et leur analyse permettent d échafauder des scénarios tendant à expliquer les mécanismes complexes qui gèrent le fonctionnement de l environnement d un domaine ou d un acteur. Le but est de réduire l espace informationnel afin de mieux le maîtriser, en éliminant les éléments indépendants, pour ne garder que les relations les plus significatives en termes de stratégie. De nombreuses mesures de dépendance sont utilisables : covariances, corrélations, coïncidences, contingences, cooccurrences, proximités. Elles donnent des visions différentes mais complémentaires d une même réalité Généralisation : tableaux de Burt Dans un tableau de Burt [MARC91 MARC91], toutes les variables qualitatives sont croisées entre elles. Ce tableau, souvent immense, dépasse la capacité mémoire des machines les plus modernes et son analyse directe est beaucoup trop longue et complexe pour pouvoir répondre simultanément à l ensemble des demandes potentielles des utilisateurs. C est pour cette raison que nous sommes obligés de décomposer le tableau de Burt en sous matrices utiles, qui seront directement exploitables en mémoire.

129 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 129 Illustration par un exemple concret. L étude d un exemple simple va nous permettre de passer en revue tous les types de sous matrices qui sont réellement utilisés au cours d une analyse classique. Dans le cas théorique suivant, nous allons prendre un champ qualitatif de chaque type et tout croiser ensemble, afin d illustrer les différentes configurations possibles : DP- Champ date (qualitatif ordinal à modalités exclusives). JN- Champ journal (qualitatif nominal à modalités exclusives). AU- Auteurs (qualitatif nominal à modalités multiples mais non redondantes). TH- thesaurus (qualitatif nominal à modalités multiples mais non redondantes et le plus souvent hiérarchiques : cf Mesh). PA- pays (qualitatif nominal à modalités éventuellement multiples et/ou redondantes dans le cas de plusieurs adresses). Ceci nous conduit à générer 25 matrices (5x5) qui n ont pas toutes la même utilité, les mêmes caractéristiques et qui sont parfois redondantes entre elles ou avec d autres mesures plus simples à obtenir. Le tableau de Burt correspondant va donc avoir les caractéristiques suivantes : Burt* DP- JN- AU- TH- PA- DP- Diagonale** Contingence JN- Contingence Diagonale AU- TH- PA- Cooccurrence simple asymétrique Cooccurrence simple asymétrique Cooccurrence sple ou glob asymétrique Cooccurrence simple asymétrique Cooccurrence simple asymétrique Cooccurrence sple ou glob asymétrique Cooccurrence simple asymétrique Cooccurrence simple asymétrique Cooccurrence simple symétrique Cooccurrence simple asymétrique Cooccurrence sple ou glob asymétrique Cooccurrence simple asymétrique Cooccurrence simple asymétrique Cooccurrence simple asymétrique Cooccurrence simple symétrique Cooccurrence sple ou glob asymétrique Cooccurrence sple ou glob asymétrique Cooccurrence sple ou glob asymétrique Cooccurrence sple ou glob asymétrique Cooccurrence sple ou glob asymétrique Cooccurrence sple ou glob symétrique Tableau 16 : Matrices utiles du tableau de Burt. * Dans tous les cas, des matrices de présence absence peuvent aussi être générées. ** Les matrices diagonales (modalités exclusives) n ont pas d intérêt puisque elles font double emploi avec le dénombrement des modalités. *** Les autres matrices barrées n ont pas de réelle utilité puisque leurs transposées (matrices hautes) offrent une alternative plus judicieuse pour les analyses factorielles. Dans ce qui suit, nous allons donner des précisions sur les caractéristiques de ces matrices, sur leur utilité, les métriques utilisées et sur les traitements possibles pour arriver à en extraire de nouvelles connaissances. Nous ne pouvons plus parler de contingence lorsqu au moins une des deux variables peut simultanément présenter plusieurs modalités pour un même document, car la matrice produite par croisement ne possède

130 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 130 plus les propriétés remarquables évoquées ci-dessus. De nouvelles mesures de correspondance entre deux modalités, une associée à la première variable et l autre à la seconde, sont alors disponibles : Présence absence : il existe au moins un document du corpus qui contient simultanément les deux modalités (coïncidence). Cooccurrence simple: nombre de documents dans lesquels on retrouve simultanément les deux modalités (identique à la contingence si les modalités sont exclusives dans chaque variable). Cooccurrence globale : nombre de couples de modalités en coïncidence (diffère de la mesure précédente si la même modalité est signalée plusieurs fois dans un même document). S applique essentiellement au texte libre ou aux éléments des adresses et des citations. Proximité : pour le texte libre, il est possible de ne prendre en compte que les coïncidences des modalités physiquement proches (à côté, à moins de n mots, dans la même phrase, ) après ou sans élimination des mots vides. Dans les trois derniers cas, il est possible de générer un compte fractionnaire afin que chaque document ou unité textuelle n intervienne, dans la matrice, qu avec le même poids de 1. Il suffit pour cela de répartir ce poids sur l ensemble des cellules qui correspondent aux cooccurrences constatées. La matrice retrouve alors les propriétés d une matrice de contingence classique mais les éléments de la matrice et les marginales ne sont plus exprimés par des valeurs entières. Un article scientifique signé simultanément par 450 auteurs n affectera plus les cellules concernées que de +1/450 ième dans une matrice de type Auteurs Journaux. Mais cette technique est surtout applicable lorsque les documents analysés sont très hétérogènes au niveau de la taille (en particulier pour Internet). En effet, un document très long, découpé ou non en phrases, génère infiniment plus de cooccurrences qu un document très court, il est donc sur représenté dans la matrice ce qui peut fausser en partie l analyse Base de calcul pour ces mesures Soit l extrait de fiche bibliographique suivant : FT FT- Bilan et perspectives du programme Cartisol : construction d'une carte génétique du tournesol et de recherche de marqueurs moléculaires de résistance aux maladies (soit 13 mots significatifs) AU AU- PINOCHET X^GENTZBITTEL X L^BRET-MESTRIES L E OURVIEILLE DE LABROUHE D^GRIVEAU Y^BERVILLE A^VEAR F^NICOLAS P (8 auteurs) JN JN- OCL. Oléagineux, corps gras, lipides (1 journal) PD PD (1 date) EA EA- La résistance du tournesol aux maladies fait l'objet de recherches depuis de longues années. Les acquis de ces travaux et la complexité des questions à résoudre ont motive la mise en place du programme Cartisol dont on peut maintenant tirer un bilan. Ce programme a réuni des partenaires de la recherche publique, le CETIOM et des semenciers privés. Dans une première phase, une carte génétique du tournesol a été établie par marqueurs RFLP. Durant la deuxième partie du programme, le partenariat mis en place a permis de mettre en évidence des QTL de résistance a Sclerotinia, et d'identifier des régions de la carte particulièrement intéressantes pour le marquage de QTL ou de gènes de résistance a des pathogènes. Ce travail a abouti au dépôt d'un

131 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 131 brevet et a la publication de plusieurs articles. Les acquis du programme constituent une base très utile pour poursuivre la mise au point de nouveaux outils moléculaires d'aide a la sélection. (soit environ 70 mots significatifs) FD FD- Resistance champignon Gene Locus Helianthus annuus Sclerotinia sclerotiorum DNA Marqueur génétique France Diaporthe helianthi^cetiom^geves^inra^ PARTENARIAT QTL RESISTANCE AUX MALADIES Sélection assistée marqueur (soit 18 mots-clés) Impact d un document sur les différentes matrices Types des champs Champs et modalités croisés Présence - absence Cooccurrence simple Cooccurrence globale Proximité à 2 mots Pondération fractionnaire Modalités exclusives JN(OCL) & PD(1997) Modalités non exclusives AU(PINOCHE T X) & FD(DNA) +1 si 0 avant Modalités présentes plusieurs fois FT(Cartisol) & EA(resistance) Modalités présentes plusieurs fois EA(QTL) & EA(resistance) Modalités exclusives ou redondantes JN(OCL) & EA(tournesol) si 0 avant si 0 avant si 0 avant si 0 avant Sans intérêt Sans intérêt (1x3) (2x3) (1 x 2) soit +3 soit +6 soit +2 Sans intérêt Sans intérêt Sans intérêt +1 Sans intérêt Sans intérêt (1x1)/(8x18) soit +1/144 (1x3)(13x70) soit +3/910 (2x3)(70x70) soit +6/4900 (1x2)/(1x70) soit +2/70 Tableau 17 : Impact des mesures en fonction des matrices. Dans les deux tableaux qui suivent, nous précisons l impact du document précédent sur la valeur d une cellule de la matrice calculée dans différents cas : Matrice croisant deux variables à modalités exclusives : champ journal JN avec la modalité «OCL» croisé avec le champ date de publication PD et la modalité «1997». Matrices croisant deux variables à modalités non exclusives : champ auteurs AU avec la modalité «PINOCHET X» avec le champ descripteurs FD et la modalité «DNA». Matrices croisant deux variables à modalités multiples et redondantes : champ titre FT avec la modalité «Cartisol» croisé avec le champ résumé EA et la modalité «resistance» ou champ résumé EA croisé avec lui même pour les modalités «QTL» et «resistance». Matrice mixte croisant une variable à modalités exclusives et une variable à modalités multiples et redondantes : champ journal JN modalité «OCL» croisé avec résumé EA et sa modalité «tournesol». A la vue de ces résultats, nous pouvons remarquer qu il est difficile d exprimer quantitativement des relations qui sont essentiellement d ordre qualitatif. Le choix des mesures est pourtant essentiel pour bien mettre en évidence les informations convoitées : signaux forts, signaux faibles, spécificités d un domaine, La stratégie sera différente selon que le corpus étudié est homogène ou très hétérogène. Dans ce dernier cas deux options sont possibles : pondérer ou revenir à des unités textuelles plus homogènes comme le

132 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 132 paragraphe ou même la phrase. Cette dernière technique n est applicable qu aux auto croisements portant sur le texte libre (mono et multi-termes) avec, éventuellement, l utilisation d un filtrage différent pour les lignes et les colonnes Modèle à deux dimensions L objectif de ce modèle consiste à représenter toutes les dépendances intra et inter documents présents dans le corpus ciblé. Cette représentation est basée sur une structure à deux dimensions. Chaque dimension est un attribut du document. Pour un corpus de documents dont la structure d extraction est comme suit : Structure Global Extrac = < N Doc, Date, Auteur, Revues, Pays, Mots C, Organisme > Nous proposons de construire des tableaux à deux dimensions, qui permettent de définir les relations existantes entre l élément de la structure d extraction «Numéro de document» avec le reste des éléments. Document Equivalence N Doc Auteur Date Organisme Pays Mots C Revues Relations de dépendances Principe Figure 52 : Exemple de dépendance à deux dimensions intra document. La construction de la relation se base sur le principe de Présence/Absence (voir section 2.5.3), qui consigne l existence d au moins un document contenant simultanément les modalités des deux variables étudiées. Pour un corpus structuré dont la structure d extraction est définie comme suit : Structure Global Extrac = < Chp 1G Extrac,, Chp ig Extrac,, Chp jg Extrac >, Avec Chp ig Extrac : correspond à l élément i de la structure d extraction global, Tableau à deux dimensions Soient X et Y deux variables qualitatives à p et q modalités respectivement décrivant un ensemble de n individus. Soit χ l ensemble des modalités {x 1,,x p} de la variable X. Soit γ l ensemble des modalités {y 1,,y q} de la variable Y.

133 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 133 Le tableau de croisement à deux dimensions est une matrice à p lignes et q colonnes tel que n ij prend la valeur 1 si x i Є χ et y j Є γ et la valeur 0 sinon. X x Y y1 y2 yj yq x1 n11 n12 n1j n1q x2 n21 n22 n2j n2q xi ni1 ni2 nij niq xp np1 np2 npj npq Figure 53 : Tableau a deux dimensions. L alimentation du corpus se base sur la prise en compte des relations de dépendances existant dans la structure par suppression des éléments indépendants. Ainsi, seules les relations les plus significatives sont conservées. Remarque : Nous considérons dans le corpus multidimensionnel chaque variable comme dimension, leurs modalités et les valeurs du cube comme attributs. Nous définissons le corpus multidimensionnel C M2Dassocié à la modélisation à deux dimensions comme suit : Soit la structure du corpus multidimensionnel (2 dimensions) SC M2D définie comme suit : SC M2D = {< Dim NDoc, Dim i >} Le corpus multidimensionnel C M2D définie comme suit : NDoc i C M2D = {< Att y, Att x >} Avec NDoc NDoc NDoc - Att y D NDoc l ensemble des attributs {Att 1,, Att q } de la Dimension j associé à la dimension «Dim NDoc», i - Att x D i l ensemble des attributs {Att 1i,, Att pi } de la Dimension i «Dim i». CAS PARTICULIER Dans le cas où l une des variables croisées est de type identifiant de document, la matrice construite permet de révéler les différentes inter-relations entre un document et ses différents attributs. Dimensions Chp2G Extrac ChpiG Extrac ChpjG Extrac N Doc X X X Figure 54 : Exemple de relations N Doc-Chp. Ainsi le corpus de documents peut etre reconstruit sous forme matricielle. Exemple En reprenant le corpus structuré de l exemple précedant ( ), Nous représentons les différents documents du corpus global associé par le tableau à deux dimensions comme suit :

134 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 134 N N X A A N D N J N P N M X X X X a1 a2 a3 a4 D d1 d2 d3 J j1 j2 j3 j4 P p1 p2 p3 p4 M mc1 mc2 mc3 mc4 dc dc dc dc dc dc dc dc dc dc dc dc dc Figure 55 : Tableau à deux dimensions du CorpusGlobal Ainsi, nous définissons La structure du corpus comme suit : SC M2DExple = {< Numéro, Auteur >, < Numéro, Date >, < Numéro, Journal >, < Numéro, Pays >, < Numéro, Mots C > Afin de construire le corpus multidimensionnel, nous garderons que les cases dont les valeurs sont supérieur ou égales à un. le corpus multidimensionnel associé est : C M2D Exple = {<dc 1, a 1>,,<dc 13, mc 4> } Modèle à trois dimensions L objectif de cette structure est de permettre l étude de l évolution des interactions entre variables afin de réaliser des projections dans l avenir, qui sont essentielles pour la prise de décisions stratégiques. Notre proposition consiste à définir une structure unique de données intermédiaires entre informations brutes et pré-connaissances déduites, sous la forme d un entrepôt de données générique, qui ne contiendra que des pré-connaissances sous forme de relations évolutives. Cette structure de corpus servira de support pour l application des différentes fonctions de découverte de connaissances. La structure du corpus multidimensionnel repose sur une modélisation à trois dimensions. Cette dernière permet de définir les différentes relations de dépendances entre les éléments de la structure d extraction du corpus structuré (les variables du corpus) avec la prise en compte de la structure temporelle (la variable temporelle) (voir figure). Pour un corpus de notices dont la structure d extraction est comme suit : Structure Global Extrac = < N Doc, Date, Auteur, Revue, Pays, Mots C, Organisme > Nous proposons de construire des matrices à trois dimensions, qui permettent de définir les relations de dépendances existantes entre les variables du corpus en y intégrant systématiquement la variable temporelle c est-à-dire l élément «Date».

135 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 135 Document Inclusion Equivalence N Doc Auteur Titre Organisme Pays Mots C Revue + Date Relations de dépendances Figure 56 : Exemple de dépendance intra document à trois dimensions et l élément temporel Principe Notre but est d identifier toutes les relations de dépendances existantes dans le corpus entre les différentes variables de l étude (voir Figure). Ces relations sont définies par des matrices de co-occurrences. Ces matrices indiquent la présence simultanée des modalités de deux variables qualitatives dans un document. Nous adoptons ces matrices en y rajoutant une troisième variable comme suit : Les deux premières variables sont les variables qualitatives associées au corpus multidimensionnel, Et la troisième variable est toujours la variable temporelle (Data, année, ) associée au corpus. Ainsi, la matrice de co-occurrence consiste à indiquer la présence des modalités de ces trois variables dans un document (structure trois dimensions). Nous nommons cette matrice «Cube». Variable1 Date Variable 2 Figure 57 : Cube de données. Le cube permet de regrouper les relations existantes dans un corpus en périodes. Nous identifions deux types de forme de cube : Cube sous forme de matrice symétrique : dans le cas où nous considérons la coprésence des modalités d une même variable et la variable temporelle dans un document. Cube sous forme de matrice asymétrique : dans le cas où nous considérons la présence des modalités de deux variables distinctes et la variable temporelle dans un document. Pour un corpus structuré dont la structure d extraction est définie comme suit : Structure Global Extrac = < Chp 1G Extrac,, Chp ig Extrac,, Chp jg Extrac >, Avec Chp ig Extrac : correspond à l élément i de la structure d extraction global,

136 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle Tableau à trois dimensions Soient X et Y deux variables qualitatives distinctes à p et q modalités décrivant un ensemble de n individus. Et T une variable qualitative temporelle à r modalités. Soit χ l ensemble des modalités { x 1,,x p} de la variable X. Soit γ l ensemble des modalités { y 1,,y q} de la variable Y. Soit τ l ensemble des modalités { t 1,,t r} de la variable T Matrice symétrique La matrice asymétrique est une matrice à r lignes et s colonnes qui a pour élément générique le nombre n ijk d individus tel que x i Є χ et x j Є χ et t k Є τ X x X x T X x 1 x j x p T t 1 t r t 1 t r t 1 t r X x 1 n111 n11r n1j1 n1jr n1p1 n1pr x 2 n211 n21r n2j1 n2jr n2p1 n2pr x i ni11 ni1r nij1 nijr nip1 nipr x p np11 np1r npj1 npjr npp1 nppr Figure 58 : Matrice symétrique Matrice asymétrique La matrice asymétrique est une matrice à r lignes et s colonnes qui a pour élément générique le nombre n ijk d individus tel que x i Є χ et y j Є γ et t k Є τ X x Y x T Y y 1 y j y q T t 1 t r t 1 t r t 1 t r X x 1 n111 n11r n1j1 n1jr n1q1 n1qr x 2 n211 n21r n2j1 n2jr n2q1 n2qr x i ni11 ni1r nij1 nijr niq1 niqr x p np11 np1r npj1 npjr npq1 npqr Figure 59 : Matrice asymétrique Grâce à la structure du cube, nous construisons le corpus multidimensionnel. L alimentation du corpus se base sur la prise en compte des relations de dépendances existantes dans la structure du cube par suppression des éléments indépendants. Afin de construire le corpus multidimensionnel, nous garderons que les cases dont les valeurs sont supérieur ou égales à un.

137 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 137 Remarque : Nous considérons dans le corpus multidimensionnel chaque variable comme dimension, leurs modalités et les valeurs du cube comme attributs. Nous définissons le corpus multidimensionnel associé au cube comme suit : Soit la structure du corpus multidimensionnel (3 dimensions) SC M3D définie comme suit : SC M3D = {< Dim i, Dim ij, Dim T, Nb Doc ijt >} Le corpus multidimensionnel C M3D définie comme suit : Avec C M3D = {< Att xi, Att y ij, Att z ijt, Att o ijt >} - Att x i D i l ensemble des attributs {Att 1i,, Att pi } de la Dimension i «Dim i», - Att y ij D j l ensemble des attributs {Att 1j,, Att qj } de la Dimension j associé à la dimension i «Dim ij», - Att z ijt D T l ensemble des attributs {Att 1T,, Att rt } de la Dimension temps «Dim T», ijt Nb Nb - Att o Nb D l ensemble des attributs {Att 1,, Att l } du nombre de documents ou les trois dimensions apparaissent simultanément. ijt ij ijt ijt Att o = D i x D j x D T [Att xi, Att y, Att z ] et Att o >= 1 Exemple Structué Extrac Soit Corpus E = {< Structure Global, Corpus Global >} composé de 13 documents. Structure Global Extrac la structure globale d extraction est présentée comme suit : Structure Global Extrac = < Numéro, Auteur, Journal, Date, Mots C, Pays> Nous considérons chaque éléments de la structure d extraction Structure Global Extrac, comme dimension de l analyse multidimensionnelle. Le corpus global Corpus Global est comme suit : Corpus Global = < {dc 1, a 1, a 2, d 1, mc 1, mc 2, p 1, p 2}, {dc 2, a 1, j 2, d 1, mc 1, mc 2, p 1}, {dc 3, a 1, a 2, j 3, d 3, mc 1, mc 2, p 1, p 2}, {dc 4, a 1, j 1, d 3, mc 1, p 1}, {dc 5, j 1, d 1, mc 2, p 2}, {dc 6, a 2, j 3, d 1, mc 1, mc 2, mc 3, p 2},{dc 7, a 2, a 3, d 3, mc 2, mc 3, p 1, p 2},{dc 8, a 2, a 3, j 1, d 2, mc 3, p 3},{dc 9, a 3, a 4, j 4 d 2, mc 3, mc 4, p 3, p 4},{dc 10, a 3, j 3, mc 2, mc 3, d 2, p 3},{dc 11, a 3, a 4, j 4, mc 2, mc 3, mc 4, d 3, p 3, p 4},{dc 12, a 4, j 2, mc 1, mc 4, p 4, d 3},{ dc 13, a 4, j 1, mc 1, mc 2, mc 3, mc 4, d 2,p 4} > Tel que : {dc 1, dc 2, dc 3, dc 4, dc 5, dc 6, dc 7, dc 8, dc 9, dc 10, dc 11, dc 12, dc 13} N et N représente l ensemble des attributs associés à la dimension «Numéro». {a 1, a 2, a 3, a 4} A et A représente l ensemble des attributs associés à la dimension «Auteur». {d 1, d 2, d 3} D et D représente l ensemble des attributs associés à la dimension «Date». {j 1, j 2, j 3, j 4} J et J représente l ensemble des attributs associés à la dimension «Journal». {p 1, p 2, p 3, p 4} P et P représente l ensemble des attributs associés à la dimension «Pays». {mc 1, mc 2, mc 3, mc 4} M et M représente l ensemble des attributs associés à la dimension «Mots C». Ainsi, dans le contexte de l exemple, nous nous intéressons aux relations évolutives existantes entre les couples de dimensions suivantes : Auteur- Auteur, Auteur- Journal, Auteur- Mots C, Mots C- Mots C, Mots C- Journal, Mots C- Pays

138 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 138 Dimensions Numéro Auteur Journal Mots C Pays Date Numéro Auteur X X X Journal Mots C X X X Pays Date Figure 60 : exemple de relations à deux dimensions. Nous représentons ces différentes relations par le tableau à trois dimensions comme suit : * AxAxD A A a1 a2 a3 a4 D d1 d2 d3 d1 d2 d3 d1 d2 d3 d1 d2 d3 a a a a4 1 3 AxJxD A J j1 j2 j3 j4 D d1 d2 d3 d1 d2 d3 d1 d2 d3 d1 d2 d3 a a a a AxMxD xd A M mc1 mc2 mc3 mc4 D d1 d2 d3 d1 d2 d3 d1 d2 d3 d1 d2 d3 a a a a MxMxD xd M M mc1 mc2 mc3 mc4 D d1 d2 d3 d1 d2 d3 d1 d2 d3 d1 d2 d3 mc mc mc mc4 2 2 MxJxD M J j1 j2 j3 j4 D d1 d2 d3 d1 d2 d3 d1 d2 d3 d1 d2 d3 mc mc mc mc MxPxD M J p1 p2 p3 p4 D d1 d2 d3 d1 d2 d3 d1 d2 d3 d1 d2 d3 mc mc mc mc Figure 61 : Matrice du Corpus global Ainsi, nous définissons La structure du corpus comme suit :

139 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 139 SC M3DExple = {< Auteur, Auteur, Date, Nb Doc AAD >, < Auteur, Journal, Date, Nb Doc AJD >, < Auteur, Mots C, Date, Nb Doc AMD >, < Mots C, Mots C, Date, Nb Doc MMD >, < Mots C, Journal, Date, Nb Doc MJD >, < Mots C, Pays, Date, Nb Doc MPD >} Et le corpus multidimensionnel associé est : C M3D Exple = {<a 1, a 1, d 1, 2>,, <mc 4, p 4, d 3, 2> } 2.13 Modèle de calcul d indicateurs dicateurs Fonctions de manipulation Sélection Cette fonction permet de sélectionner un attribut particulier dans le corpus. La fonction sélection f Selection est définie comme suit : Avec f Selection (Att i) = C S M3D C S M3D = {< Val x i S, Val y ij, Val z ijt, Val o ijt >} < Val x i S, Val y ij, Val z ijt, Val o ijt >: l ensemble des valeurs de l attribut sélectionné. La fonction f Selection consiste à sélectionner l ensemble des instances du corpus où les attributs de la dimension sélectionnée correspondent au prédicat de restriction Restriction La fonction Restriction est employée pour réduire le nombre de données à analyser. L utilisateur peut spécifier une restriction sur les valeurs d un attribut en définissant une restriction sous forme: Soit d un prédicat Prédicat, Soit en choisissant le nombre de modalités d un attribut. La fonction sélection f Restriction est définie comme suit : f Restriction (Att i, Prédicat) = C S M3D C S i M3D = {< Val S ij ijt ijt x, Val y, Val z, Val o >} Avec - Prédicat : prédicat restrictif sur un attribut Att i, i - < Val S ij ijt ijt x, Val y, Val z, Val o >: l instance sélectionnée du corpus C M3D où la valeur x associée à l attribut i correspond au prédicat restrictif. La fonction f Restriction consiste à sélectionner l ensemble des instances du corpus où les attributs de la dimension sélectionnée correspondent au prédicat de restriction. Exemple En reprenant l exemple précédent ( ), l utilisateur peut choisir de restreindre la portée de son analyse aux interactions de l auteur a 1.

140 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 140 AxJxD A J j1 j2 j3 j4 D d1 d2 d3 d1 d2 d3 d1 d2 d3 d1 d2 d3 a a a a Figure 62 : Exemple de restriction. Le corpus selectionné ne gardera que les instances ou l auteur a 1 apparait. f Restriction (A, Auteur= a 1 ) = C S M3DExemple = {< a 1, a 1, d 1, 2>, < a 1, a 1, d 3,3>, < a 1, a 2, d 1,1>, < a 1, a 2, d 3,2>,, < a 1, mc 3, d 1,1>} Seuil La fonction Seuil a pour objectif de filtrer les relations en fixant un nombre minimum soit à la valeur d un attribut, soit au nombre d occurrences d une relation entre deux attributs. Un exemple d utilisation est donné dans la section Erreur! Source du renvoi introuvable Ordre La fonction Ordre permet de trier un ensemble de valeurs d un attribut ou un ensemble d occurrences d une relation. Exemple La fonction ordre f Ordre est définie comme suit : f Ordre ({< Att x i S, Att y ij, Att z ijt, Att o ijt >}, Tri) = {< Att x i S, Att y ij, Att z ijt, Att o ijt >} Trier Soit l ensemble d instances C S M3DExemple = {< a 1, a 1, d 1,2>, < a 1, a 1, d 3,3>, < a 1, a 2, d 1,1>, < a 1, a 2, d 3,2>,, < a 1, mc 3, d 1,1>} ʄ Tri(C S M3DExemple, (Tri= Décroissant)) = {< a 1, a 1, d 3,3>, < a 1, a 1, d 1,2>, < a 1, a 2, d 3,2>, < a 1, a 2, d 1,1>,, < a 1, mc 3, d 1,1>} Environnement Tri = {Croissant, Décroissant} La fonction Environnement permet à l utilisateur de visualiser les différentes interactions d un attribut ou un ensemble d attributs. Elle consiste pour une valeur (ou un ensemble de valeurs) à : Identifier les attributs et leurs valeurs et calculer le nombre de document où ils apparaissent simultanément avec la valeur étudiée. L utilisateur peut fixer un seuil au nombre de document pour restreindre l étendue de l analyse (par la combinaison avec la fonction Seuil).

141 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 141 La fonction environnement f Env est définie comme suit : Avec f Env (Att i, Seuil) = {< Att ij, Val xi, Val y ij, Nb xy >} - Seuil : la valeur restrictive, - Att ij : représente l attribut j associée à l attribut i, - Val i u : représente la valeur u de l attribut i, - Nb xy : représente le nombre de document où la valeur x de l attribut i apparait simultanément avec la valeur y de l attribut j tel que Val o ijt >= Seuil. Exemple En reprenant l exemple précédent ( ), l utilisateur peut identifier l environnement de l attribut auteur dans le corpus: AxAxD A a1 a2 a3 a4 A a1 5 3 a2 6 3 a3 4 2 a4 4 AxJxD J j1 j2 j3 j4 A a a a a AxMxD M mc1 mc2 mc3 mc4 A a a a3 2 4 a f Env (Att i, Seuil)= {<a 1, a 1, 5>,, <mc 4, mc 4,3> } L environnement de l auteur est defini par les relations existant entre differents auteurs, entre les auteurs et les journaux et entre les auteurs et les mots clés. Nous remarquons les points suivants : Il existe des collaborations entre les differents auteurs de l analyse, Les differents auteurs publient dans les memes journaux, Les auteurs publient sur un thème (mc 2) commun Evolution Cette fonction permet de détailler l évolution des résultats des autres fonctions. L évolution se base sur l étude des attributs temporels. Exemple La fonction f Evol appliquée à la fonction environnement Env est définie comme suit : Avec f Evol (Att i) = {< Att ij, Val xi, Val y ij, Val z ijt,nb xy >} - Att ij : représente l attribut j mis en relation avec l attribut i, - Val i u : représente la valeur u de l attribut i, - Nb xy : représente le nombre de document où la valeur x de l attribut i apparait simultanément avec la valeur y de l attribut j. Grace à la fonction Evolution, l utilisateur peut identifier la repartition par date des publications d un auteur donné.

142 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 142 AxAxD A a1 a2 a3 a4 A a2 6 AxAxD Document f Evol (A) = {< a 2, d 1, 2>, < a 2, d 2, 1>, < a 2, d 3, 3>} La fonction document diffère des précédentes en ce sens qu elle consiste seulement à reconstruire les documents dans lesquels apparaît une valeur donnée d un attribut donné. Rappelons que le passage du corpus ciblé vers la représentation multidimensionnelle fait disparaitre l unité des documents Fonctions d agré agrégation gation Les fonctions d agrégation sont principalement utilisées dans le cas de calcul des indicateurs uni-variés Somme La fonction Somme permet d effectuer des additions en se basant sur le nombre de cooccurrence de chaque instance de relation Minimum Cette fonction retourne la valeur minimale que peut prendre le nombre d occurrences des instances d une relation Maximum Cette fonction retourne la valeur maximale que peut prendre le nombre d occurrences des instances d une relation Comptage A A a1 a2 a3 a4 D d1 d2 d3 d1 d2 d3 d1 d2 d3 d1 d2 d3 a Cette fonction permet d effectuer des comptages soit sur les attributs soit sur les valeurs. Nous définissons deux types de comptage : Le nombre de valeurs d un attribut, Le nombre d instances d une relation. La fonction comptage associée à un attribut f Comptage est définie comme suit : f Comptage (Att i) = Taille i Taille i : le nombre de valeurs associées à l attribut i, Exemple La comptage des attributs de l exemple précedent ( ) donne les resultats suivants :

143 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 143 f Comptage (A) = 4 f Comptage (M) = 4 f Comptage (P) = 4 f Comptage (J) = 4 f Comptage (D) = 3 Ainsi, l analyse va porter sur l étude des différentes interactions existantes entre quatre auteurs, quatre mots clés, quatre pays et quatre journaux et leurs évolutions sur les trois périodes. Ces interactions sont décrites par 129 instances de relation Moyenne Cette fonction permet de retourner la moyenne de n importe quel ensemble de valeurs Fréquence Cette fonction retourne la fréquence de la valeur d un attribut sur un ensemble de valeurs Combinaison de fonctions Toutes les fonctions présentées dans la section précédente peuvent être vues comme des fonctions élémentaires qui, combinées entre elles, permettent de calculer un ensemble d indicateurs selon les besoins exprimés. Dans le tableau suivant, nous présentons quelques exemples de ces combinaisons de fonctions. INDICATEURS UNI-VARIES Fonctions Nombre de pays avec lesquels a collaboré un auteur au moins deux fois Durée de la carrière d un auteur SELECTION EVOLUTION COMPTAGE INDICATEURS RELATIONNELS ELS SELECTION SOMME ENVIROENNEMENT SEUIL Structure et collaboration d une équipe SELECTION ENVIRONNEMNT RESTRICTION Evolution structure et collaboration d une équipe SELECTION ENVIRONNEMNT RESTRICTION EVOLUTION Tableau 18 : Exemple de combinaison de fonctions pour le calcul d indicateurs.

144 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle Le profil des utilisateurs du processus d analyse exploratoire multidimensionnelle nelle Considérations générales La démarche d IE intègre la notion d intelligence collective parce qu elle fait collaborer en réseau les différents acteurs impliqués par chacune des étapes du processus, de la formulation du besoin et la planification jusqu à la validation, diffusion et utilisation de l information stratégique. Les différentes activités de ces acteurs se coordonnent pour converger vers la même vision stratégique. Comme nous l avons présenté au niveau de la section du premier chapitre de ce manuscrit, les acteurs impliqués dans une telle démarche sont identifiés par leurs compétences et leurs expériences. Dans le cadre du modèle d analyse exploratoire multidimensionnelle proposé, nous identifions cinq profils d utilisateur : Utilisateur Expert Documentaliste Analyste Décideur Administrateur À la classification déjà proposée dans la section nous rajoutons la classe administrateur. Ce profil d utilisateur a pour rôle de gérer le système et l espace de communication entre les différents profils. Lorsque l on aborde la modélisation du processus d analyse exploratoire multidimensionnelle, sont les problèmes de communication entre les divers utilisateurs qui semblent le plus difficile à gérer : Les émetteurs de la demande (décideurs) qui ne proposent souvent, comme point de départ, que quelques indicateurs très personnels. Le service de documentation qui a la charge du choix des sources, de l identification de l information, de son recueil, de son filtrage (homogénéisation, structuration, etc.). Les analystes (analystes, veilleurs) qui recherchent et valorisent, par tout un ensemble de méthodes que nous contribuons à développer (représentation multidimensionnelle, calcul d indicateurs), les informations potentiellement utiles à la décision et qui les mettent en forme pour l expert. L expert du domaine, qui recadre le sujet, valide certaines pistes pour lesquelles il demande des précisions et qui en supervise la synthèse. Le destinataire (décideur), enfin, dont les besoins très spécifiques induisent un rendu des résultats adapté à sa fonction, sa psychologie, sa disponibilité et ses impératifs immédiats. Le plus souvent à la vue des conclusions, il réinjecte une nouvelle demande dans le processus, le rendant ainsi itératif.

145 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle Aide à la coopération et la coordination L utilisation des outils nécessaires à l analyse exploratoire multidimensionnelle est assez linéaire entre ces divers utilisateurs, mais des dialogues courts et fréquents sont nécessaires afin de recadrer en permanence la démarche, la profondeur des investigations et la préparation de la synthèse. C est ainsi que tout au long du processus de veille, des contacts s instaurent entre des personnes qui ont souvent beaucoup de mal à se rencontrer physiquement (problèmes de disponibilité, de localisation, etc.). Des contacts distants sont possibles mais ils nécessitent la préparation de rapports intermédiaires figés qui ne permettent pas une confrontation active de chacun. C est pour apporter une solution à ce problème que nous avons défini un environnement ouvert et distribué pour notre modèle afin de permettre une interactivité maximale, éventuellement distante, entre les divers acteurs concernés par le processus d analyse. Deux types de coopérations sont offerts : Un accès individuel de chaque intervenant à l ensemble de l analyse (données, outils et résultats intermédiaires) afin de l évaluer et de la compléter. Un accès simultané (de deux acteurs ou plus, notamment dans le cas de formations) orchestré par des possibilités d interventions mutuelles sur le processus d analyse et des techniques permettant la collaboration instantanée et à distance des utilisateurs et des méthodes. Voici quelques exemples de collaborations distantes des utilisateurs de l analyse. Dialogue documentaliste analyste pour la constitution, le recadrage, le choix des formats et la validation du corpus ciblé, la mise au point des descripteurs de formats spécifiques et génériques, l arbitrage dans les choix de certains synonymes ambigus, la sélection des composantes (ou facettes) de l information menant à des croisements judicieux. Dialogue analyste expert du domaine pour la communication des résultats techniques, leur évaluation, le choix des indicateurs (évolution terminologique, nouveaux thèmes, nouveaux acteurs, précision des termes composés), la sélection des résultats à communiquer au décideur et la forme à leur donner, la mise au point du document de synthèse. Dialogue expert (du domaine) décideur afin d évaluer la portée stratégique de certains résultats, de préciser des éléments techniques soulevés par l analyse, d appréhender les scénarios possibles d évolution du domaine, éventuellement de demander des compléments d information ou des zooms spécifiques. Ce processus peut être complété par des dialogues internes à chaque métier : documentalistes entre eux, analystes et informaticiens, experts internes et externes Modèle utilisateur Un modèle utilisateur est une représentation explicite des informations sur tous les aspects de l utilisateur qui peuvent être utiles au comportement du processus. Le processus d analyse exploratoire multidimensionnelle que nous avons défini nécessite la modélisation des connaissances sur un utilisateur. Selon notre approche, le profil de l utilisateur est décrit par cinq dimensions : informations personnelles de l utilisateur, description des compétences, historique de ses besoins d informations, les actions sélectionnées, ses expertises.

146 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 146 Cet historique permet de déduire de nouvelles connaissances sur cet utilisateur. Ces cinq dimensions évoluent corrélativement au cours du temps. Notre modèle est constitué de deux parties. La première partie concerne le profil de l utilisateur et la seconde partie est l historique de ses interactions Le profil utilisateur Figure 63 : modèle utilisateur. Le profil utilisateur est composé de deux espaces. Chaque espace est constitué d un ensemble d informations. Le premier espace est l identité de l utilisateur, il est composé d informations sur l identité civile de l utilisateur et d informations d ordre sociales. Identité civile de l utilisateur (Nom, prénom, age, genre, etc.). Identité sociale (Organisme, fonction, département, adresse, pays, etc.). Le deuxième espace est l espace des compétences de l utilisateur : ce sont des données qui permettent d identifier le niveau de compétence de l utilisateur associés à ses domaines d expertises.

147 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 147 Figure 64 : Modèle profil utilisateur Historique des interactions L historique des interactions est composé de trois espaces. Le premier espace concerne les informations décrivant le besoin informationnel de l utilisateur. Il est composé du sujet d analyse et de l objectif fixé. Le second espace porte sur une description des informations liées au comportement de l utilisateur. Il s agit des connaissances liées à l observation réalisée par le système sur l utilisateur. Il est composé d un sous objectif d analyse et d une suite d actions effectuées à un instant t. Les actions concernent la sélection des composantes du système. Si le sous objectif est le calcul d un indicateur la suite d actions va porter sur les différentes fonctions utilisées pour le calculer. La mémorisation de ces actions se fait d une manière automatique par le système. Le troisième espace décrit l expertise ou l interprétation des résultats et les connaissances déduites par l utilisateur à la fin de chaque étape d analyse. Il est des résultats obtenus et pour chaque résultat une expertise est posée.

148 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 148 Figure 65 : Modèle historiques des interactions Gestion des exceptions et des particularités Objectifs Le système proposé permet sur un sujet donné de mener des analyses par N utilisateurs. Chaque analyse est identifiée par son modèle utilisateur. Ce partage de connaissances permet d influencer et orienter les actions qui se poursuivent par des réseaux d acteurs dans un cadre d analyse portant sur le même contexte. Aussi, il peut conduire dans certains cas à une confrontation des exceptions et de particularités qui sont détecté par les utilisateurs et qui les partagent instantanément aux différents acteurs du réseau. Puisque le comportement des utilisateurs change selon leurs besoins et leurs compétences. L objectif de la gestion des confrontations nous mène à rendre notre système plus accessible et coopérative tout en y intégrant l expertise des différents acteurs impliqué c'est-à-dire les connaissances déduites par chaque utilisateur au cours des différentes étapes d analyse. La traçabilité des besoins est un processus qui permet de tracer les différents besoins informationnels d un utilisateur de leurs naissances à leurs diverses expressions et des étapes successives de leurs évolution, c'està-dire de capturer et de mémoriser itérativement la connaissance sur cet utilisateur et sur son contexte qui permettra de mieux cerner les origines de ses besoins et d en comprendre leur importances. Nous étendrons ce concept à une «traçabilité générale de l analyse». Dans ce contexte la traçabilité générale de l analyse se base sur une traçabilité du profil utilisateur de l étape de «la formulation du besoin» jusqu'à «la validation des résultats» selon ses différentes facettes à savoir : Les données personnelles, Les données liées à ses compétences, Les données liées à son besoin informationnel, Les données liées à son comportement, Et les données liées à ses expertises.

149 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 149 Grâce à ces différents points nous allons procéder à un apprentissage dans un but d enrichissement des fonctionnalités du modèle, et définir des scenarios d analyses afin de guider et d orienter l utilisateur dans son étude. Pour cela nous définissons une traçabilité des analyses. Dans le cadre de nos travaux, nous focalisons le mécanisme d apprentissage seulement au niveau de l étape de calcul d indicateurs. Nous rappelons que le système proposé permet d offrir à l utilisateur, d une part des indicateurs prédéfinis basés sur des combinaisons de fonctions, et d autres part un ensemble de fonctions qu il peut combiner pour construire des indicateurs qui ne sont pas prédéfinis au niveau du système. Ainsi, l objectif de l apprentissage est de détecter les différentes combinaisons de fonctions utilisées par l utilisateur pour atteindre son objectif d analyse. Si ces combinaisons ne sont pas déjà définies au niveau du système, le mécanisme d apprentissage nous permet d enrichir la base des indicateurs prédéfinis en y intégrant ces nouvelles combinaisons de fonctions Processus d apprentissage Le principe est le suivant. L utilisateur soumet un historique d interactions d un profil utilisateur. Lors de la première phase du processus d apprentissage, le système débute par une analyse du besoin informationnel formulé par l utilisateur, c est-à-dire il identifie l indicateur que souhaite calculer l utilisateur. Une fois l indicateur identifié, la seconde phase consiste à rechercher l indicateur (le besoin informationnel) dans la base de connaissance. Si l indicateur est retrouvé, le système va analyser la suite d actions effectuée par l utilisateur pour le calcul de cet indicateur. Nous rappelons que chaque action sélectionnée par l utilisateur correspond à une fonction d analyse et que la suite d actions est une combinaison de ces fonctions à un instant t. La phase qui suit consiste à apparier la combinaison de fonctions sélectionnée par l utilisateur avec les combinaisons d actions du modèle de calcul d indicateurs, au moyen d une analyse de similarité. Si les combinaisons ne sont pas similaires, le système va calculer chaque séquence de combinaison de fonctions sélectionnées par l utilisateur et analyser les résultats obtenus. Si les résultats correspondent au calcul d indicateur, le système va évaluer le temps d exécution de cette nouvelle combinaison proposée. Si le temps d exécution de cette combinaison est inferieur à la combinaison de fonctions de la base de connaissance alors le système va proposer cette nouvelle combinaison, pour l indicateur étudié, au concepteur du système pour une évaluation dans une perspective d intégration de cette nouvelle combinaison de fonctions dans le système. Dans le cas où le besoin formulé par l utilisateur n existe pas dans la base de connaissance, alors le système va tout d abord identifier et analyser les suites d actions sélectionnées par l utilisateur. Une fois analysées, ces suites d actions vont être appariées avec les suites d actions qui existent déjà dans la base de connaissances. Nous notons qu une suite d actions peut répondre à un même besoin qui peut être formulé de différentes manières selon les compétences de l utilisateur. Si cette suite d actions existe dans la base de connaissance, alors le système va calculer le temps de son exécution. Si le temps de traitement de cette suite d actions est inferieur à celui de la suite d actions de la base alors le système va proposer cette nouvelle suite d actions et le nouveau besoin identifié au besoin déjà mémorisé dans la base de connaissance. Si la suite d actions de l utilisateur n existe pas dans la base alors le système va mémoriser cette suite d actions et son besoin informationnel dans une base de test et la soumettre au concepteur pour valider ce nouveau besoin et son traitement.

150 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle Synthèse Figure 66 : processus d apprentissage. Au cours de ce chapitre, nous avons tout d abord présenté dans la section 2.11 le processus d analyse exploratoire multidimensionnelle. Le processus proposé a pour objectif de calculer des indicateurs qui permettent de synthétiser l environnement informationnel d un problème décisionnel posé. Dans ce contexte, nos travaux distinguent deux types : Les indicateurs uni-variés (section ) Les indicateurs relationnels (section ) Au cours de cette section, nous avons détaillé pour chaque étape du processus l approche adaptée dans le cadre de nos travaux. Ce processus repose sur deux modèles qui représentent l essentiel de notre contribution à savoir : Le modèle de représentation multidimensionnelle des documents (section 2.12) Le modèle de calcul d indicateurs (section Erreur! Source du renvoi introuvable.) Le modèle de représentation multidimensionnelle des documents, au niveau de cette section nous avons proposé deux types de modélisation des dépendances intra et inter documents, la première à deux dimensions et la seconde à trois dimensions. La modélisation à deux dimensions (section ), nous permet de décrire les relations de dépendances basées sur des mesures de cooccurrences et de présenceabsence. Ce type de représentation va nous permettre de synthétiser l ensemble des liens statique d un

151 Chapitre 3 : Xplor : modèle d analyse exploratoire multidimensionnelle 151 domaine donné. Quant à la modélisation à trois dimensions (section ), nous a permis de définir et représenter l aspect dynamique des différents liens inter et intra documents du corpus ciblé. À partir de cette représentation, nous avons définis le modèle de calcul d indicateurs. L objectif de ce modèle est d offrir un ensemble de fonctions élémentaires, qui combinées permettent de calculer de façon générique un ensemble d indicateurs robustes. Outre ces deux modèles, nous proposons un modèle de gestion et de partage d informations (section ) entre les différents acteurs impliqués dans le processus proposé. Afin d améliorer et enrichir les combinaisons de fonctions proposées, nous définissons un processus d apprentissage permettant d offrir au concepteur du système d information des stratégies d intégration d indicateurs et de combinaisons de fonctions. Dans ce contexte, nous proposons dans le chapitre quatre une implémentation du système proposé. Cette implémentation concerne plus précisément : La représentation multidimensionnelle des documents selon une modélisation à trois dimensions. Le calcul d indicateurs de type univariés et relationnel. Dans un souci de validation de cette implémentation, nous présenterons dans le chapitre quatre une expérimentation portant sur un cas réel.

152

153 3 Chapitre 4. Implantation et expérimentation 4.1 Introduction Motivations & objectifs Limites de la plateforme Tétralogie Limites de la première version du prototype Xplor Objectifs Notre approche Modèle de données Compilation des matrices Architecture du prototype Xplor Fonctionnalités du prototype XPLOR Concepts IE et veille Classification des liens IE Analyse générale Analyse détaillée Expérimentations Enjeux et problématique Proposition Besoin informationnel Collecte de document Structuration Homogénéisation Représentation multidimensionnelle Calcul d indicateur & Visualisation Synthèse

154

155 Chapitre 4: Implantation et expérimentation Introduction L objectif de ce chapitre est d implanter et expérimenter le modèle d analyse multidimensionnel. Notre contribution consiste à proposer un système d analyse et de navigation en ligne, que nous nommons Xplor, exploitant systématiquement les données relationnelles et leur évolution. Notre approche consiste à privilégier l'extraction d'information en fonction du contexte général et non exclusivement par décryptage du contenu de quelques documents pris séparément. Il devient ainsi possible de retrouver, à partir d'un élément connu (acteur, mot clé), toute ou une partie de l'information qui lui est connexe (équipes, collaborations, concepts, mots associés, etc.) ainsi que son évolution (émergence, rupture, etc.). Le prototype proposé à pour objectif d'aider l'utilisateur non initié dans sa navigation et sa quête de nouveautés ou de compléments d'information ainsi que dans la recherche d'éléments de comparaison avec des connaissances antérieurs. La possibilité qui leur est donnée de pouvoir eux mêmes naviguer sans contrainte dans l'information élaborée est un plus indéniable, car aucun analyste ne peut aller au devant de l'ensemble des préoccupations de chacun, ou alors il faut qu'il soit à leur entière disponibilité, c'est à dire appartenir intégralement à leur structure et très bien connaître leurs problématiques. Notre démarche cible l analyse des informations relationnelles évolutives reposant sur des interfaces de visualisation pertinentes et des modes d interaction adaptés aux tâches de l utilisateur. Elle repose sur les quatre étapes bien connues de découverte interactive de connaissances proposées par [Newell, 1972] : La caractérisation de l environnement. Il s agit d extraire les propriétés et opérations pertinentes et accessibles à l utilisateur pour la découverte de connaissances nouvelles, Le choix d une représentation formelle pour définir l espace de navigation, L implémentation informatique de cette représentation formelle : son codage et sa représentation visuelle, L implémentation de la procédure de découverte de connaissances : l interactivité. Nous présentons, en section 4.2, les objectifs et l approche, dans la section 3.3, adoptée au niveau du prototype Xplor. Dans un second temps, nous définirons son architecture (section 3.4) et en section ses fonctionnalités (section 3.5). Dans la section 3.6, nous présentons l expérimentation effectuée pour valider chaque étape du processus de développement du système Xplor. Cette expérimentation a été effectuée dans le cadre des travaux de recherches du GDR-IE. L expérimentation porte sur l analyse des données issues de bases de données scientifiques chinoises. Enfin, une synthèse, des expérimentations et une validation du système Xplor sont proposées. 3.2 Motivations & objectifs Limites de la plateforme Tétralogie Problème de pertinence pour l'utilisateur Tétralogie est une plateforme particulièrement bien adaptée aux analyses stratégiques globales. Elle permet en effet de dégager les signaux forts, les signaux faibles et les tendances à partir d'un ensemble de documents collectés sur un sujet précis. Ces analyses sont obtenues par une combinaison de méthodes d analyse de données telles qu AFC, ACP, CAH, etc.

156 Chapitre 4: Implantation et expérimentation 156 Dans la Figure 67, nous présentons un exemple de carte factorielle obtenue après AFC sur une matrice de cooccurrence à deux dimensions Thèmes Auteurs, pour un grand laboratoire de recherche en informatique. Nous pouvons remarquer des groupes d auteurs corrélés par leur thématique de recherche, des thèmes interfaces (entre deux groupes d auteurs), certains experts des interfaces, des thèmes interfaces avec ou sans expert, des variations continues de thématiques. Après vérification, les équipes thématiques détectées correspondaient parfaitement avec celles de la plaquette de présentation du laboratoire en question. Trois constatations sont alors possibles : Le laboratoire concerné a réalisé une présentation objective de sa structure, Il est possible de connaître parfaitement cette structure depuis l extérieur, De plus, les qualités et les défauts de cette structure sont maintenant connus. Equipe à thématique cohérente Thème interface Thème interface Variation continue de la thématique Expert de l interface Equipe à thématique cohérente Figure 67 : Carte factorielle en 4D d une AFC Thématique Auteurs. Mais à l'issue de ces résultats que nous avons réalisés avec cette plateforme, il est apparu que les utilisateurs finaux (analystes ou décideurs) de l analyse produite veulent, en complément de l'aspect stratégique global, des zooms plus précis sur certains détails. Ce afin de satisfaire leur curiosité en matière d'information élaborée autour d'éléments qu'ils ont déjà identifiés. Parmi les exemples des besoins informationnels et complémentaires recherchés nous retrouvons : La productivité de chaque expert et son évolution, La productivité des thématiques et détecter celles qui sont émergentes,

157 Chapitre 4: Implantation et expérimentation 157 Des principaux experts pour chaque thématique, L évolution des thématiques des principaux experts, Le nombre de collaborations de chaque Expert, ainsi que leurs productivités et leur évolution, Les thématiques associées à chaque collaborateur d un expert choisi et son évolution, Des représentations des résultats sous formes de graphiques simples (Reporting). Les outils proposés jusque là se basent sur une notion de distance entre les données non jointes et non pas en terme de jointure. Il est alors difficile d étudier les données relationnelles et leur évolution. Aussi, les modules de visualisation intégrés dans la plateforme Tétralogie proposent des cartes graphiques à deux, trois et quatre dimensions. L interprétation de ces résultats exige des connaissances dans les domaines d extraction de connaissances et l analyse de données. Or, les résultats de l analyse dans le contexte d IE sont dédiés à des décideurs qui ne sont pas forcément experts dans ces domaines. D autre part, au delà des besoins informationnels, les utilisateurs expriment des besoins liés à l accessibilité, l interactivité et la navigation au sein de l information relationnelle. Ils souhaitent de disposer : D un système d extraction accessible via Internet ou Intranet, pour que les analyses soient à leurs dispositions au bon moment. Des scenarios d analyse prédéfinis basés sur des indicateurs informationnels, pour guider les utilisateurs dans leurs analyses, Une automatisation générique du processus d extraction ciblée, Une centralisation des analyses pour faciliter la gestion du partage et la sécurité des données, Un système ergonomique et interactif pour une navigation rapide et précise. De nombreux analystes ou décideurs ont donc besoin de plus de finesse dans l'approche des éléments constituant traditionnellement leur environnement immédiat. Notamment, pour tout ce qui concerne leur vocabulaire spécifique, les acteurs qu'ils côtoient, les marchés qu'ils convoitent et les alliances qu'ils projettent. Une analyse peut être revisitée par différents spécialistes du domaine et apporter à chacun des réponses précises aux questions stratégiques et parfois confidentielles qu'il se pose. Le but est ici d'aider le décideur dans sa navigation et dans sa quête de nouveautés ou de compléments d'information ainsi que dans la recherche d'éléments de comparaison avec des connaissances antérieurs. La possibilité qui lui est donnée de pouvoir lui même naviguer sans contrainte dans l'information élaborée est un plus indéniable, car aucun analyste ne peut aller au devant de l'ensemble des préoccupations de chacun, ou alors il faut qu'il soit à leur entière disponibilité, c'est à dire appartenir intégralement à leur structure et très bien connaître leurs problématiques. Le prototype visé doit offrir des possibilités d'exploration très fine et des représentations synthétiques de l environnement et son évolution, des informations recueillies et des nouvelles connaissances déduites. Il doit permettre une automatisation générique des indicateurs permettant aux décideurs d appréhender les données massives qu ils ont à traiter. En amont, il doit assurer le recoupement des informations collectées, la recherche, la sélection et le filtrage de l'information élaborée disponible dans des bases spécialisées internes, externes et sur Internet, ainsi que la prise en compte des données informelles collectées, sur le terrain, par les différents acteurs de la veille. En aval, pour la communication et la restitution des résultats, il doit privilégier l'ergonomie dans les fonctions de présentation, d'exploration, de navigation et de synthèse.

158 Chapitre 4: Implantation et expérimentation Problème de performance Comme mentionné déjà le logiciel Tétralogie, gère des fichiers contenant l information brute pour en extraire, des matrices de croisement, ces matrices de grande taille contiennent plus de zéro que de valeurs non nulles (matrices creuses), ce qui limite un peu la puissance du système, soit en volume d espace en mémoire et sur disque soit au niveau de la vitesse de lecture de ces matrices. Pour remédier à ces problèmes, au lieu de générer des matrices de cooccurrences entre tous les items, nous proposons de générer un fichier où ne sont enregistrés que les croisements effectifs entre items, ce qui permet de diminuer l espace utilisé et d augmenter la vitesse de lecture et de traitement de ce fichier. Le schéma de la base en est aussi grandement simplifié et sa mise à jour devient évidente. Figure 68: Exemple de matrice de cooccurrence Auteur-Auteur Compilation des matrices dans une base de données Une première méthode, pour générer la base de données qui sera utilisée pour la navigation interactive au niveau du prototype, est de partir directement des dictionnaires et des matrices utilisés par Tétralogie pour l analyse macroscopique. Cette approche présente de nombreux avantages : Compatibilité totale avec l analyse par Tétralogie, Ne nécessite pas de système d extraction complémentaire, Permet de compléter des analyses déjà prêtes, Renforce par la navigation la pertinence du rapport d'analyse.

159 Chapitre 4: Implantation et expérimentation 159 Cette technique est essentiellement destinée à compléter les analyses Tétralogie en permettant à l utilisateur final de naviguer à sa guise, afin de préciser certains passages de l analyse et de les ramener dans le contexte et l environnement requis. Pour certaines analyses généralistes disponibles en ligne, cette approche permet à chacun de compléter son interprétation des conclusions toujours un peu stéréotypées de ce type de démarche globale. Pour des analyses plus pointues sur des sujets très précis, la taille plus réduite des dictionnaires utilisés permet de conserver toute l information utile, notamment au niveau des champs sémantiques. Dans ce cas, cette approche nous semble la mieux indiquée Limites de la première version du prototype Xplor Le portail existant avec sa puissance et la multitude des opérations qu il offre, a des inconvénients liés surtout, au nombre important de tables dans la base de données, ce qui présente des difficultés par la suite pour la mise à jour de la base, des inconvénient liés à l architecture du site lui-même, on est obligé de parcourir plusieurs pages pour arriver au but. Le portail Xplor avait pour objectif de représenter deux types d informations sous forme de matrice représentant : les relations des unités de même nature. Elles peuvent représenter des associations de termes, réseaux d auteurs, réseaux de mots clés ou de concepts, etc. les relations entre deux entités différentes. Il peut s agir de représenter des réseaux documentstermes, auteurs-termes, auteurs-affiliations, etc. Ces deux représentations permettent une analyse visuelle et exploratoire statique des relations explicites, dans une optique de découverte de nouvelles relations implicites. La version améliorée que nous proposons doit, non seulement, simplifier considérablement le schéma de la base mais aussi y apporter une troisième dimension : le temps et ce systématiquement au niveau de toutes les relations prises en compte. L analyse n est ainsi plus simplement statique mais devient entièrement dynamique et tournée vers l évolution des relations Objectifs Le processus d exploration proposé au niveau du prototype Xplor est organisé à la base d un ensemble d indicateurs quantitatifs et relationnels. Ces indicateurs permettent de synthétiser les données relationnelles et d en extraire les connaissances implicites afin de répondre aux besoins de l utilisateur. L objectif principal du prototype est d offrir aux utilisateurs non initiés, au domaine de l extraction de connaissance, une compréhension qualitative du contenu de l information qu ils manipulent. Le prototype Xplor a donc pour objectif d offrir aux utilisateurs (décideurs) la possibilité de : Visualiser les analyses stratégiques globales issues de la plateforme Tétralogie. Ces analyses sont diffusées via le prototype Xplor sous forme hypertexte. Transférer et stocker l ensemble des données relationnelles issues de la plateforme Tétralogie dans la base de données du prototype Xplor. Conduire leurs propres analyses en ligne en naviguant dans l ensemble des relations proposées : par une vue claire et compréhensible des principaux acteurs (auteurs, sociétés, inventeurs, concurrents, pays) du domaine étudié, en sélectionnant les acteurs qui les intéressent et ainsi connaitre leurs caractéristiques et les éléments stratégiques qui les concernent.

160 Chapitre 4: Implantation et expérimentation 160 en étudiant l environnement de chaque acteur par une exploitation des réseaux qui lui sont connexes. Cette technique permet de mieux comprendre l organisation de son environnement. par la prise en compte de l élément temporelle au niveau des données relationnelles, les utilisateurs peuvent analyser l évolution des acteurs étudiés et de leur environnement. Ce qui permet d appréhender non seulement leurs structures implicites, mais aussi de comprendre leur évolution et donc détecter les événements clés et les stratégies mises en œuvres. conduire leurs analyses via des scenarios prédéfinis sous forme d un ensemble d indicateurs de tendances. Ces derniers ont pour objectifs de faciliter et guider l utilisateur dans son processus d exploration. visualiser les résultats de leurs analyses sous forme de graphiques ergonomique et facile à interpréter (Histogramme, tableaux, etc.). Partager des analyses simultanément et apprentissage. Sécuriser l accès aux analyses et aux informations manipulées. 3.3 Notre approche Le prototype développé dans le cadre de nos travaux est alimenté par des données relationnelles issues de la plateforme Tétralogie. Cette dernière permet d effectuer des analyses stratégiques globales sur des données textuelles ou factuelles provenant de bases bibliographiques en ligne, sur CD/Rom, d'internet ou de toute autre source informatisée, presse etc. Par l'intermédiaire de méthodes statistiques descriptives et exploratoire des données, Xplor fait apparaître, dans des temps très courts, de nouvelles connaissances stratégiques jusque là inexploitées comme : l'identité des acteurs, leur notoriété, leurs relations, leurs lieux d'action, leur mobilité, l'émergence et l'évolution des sujets et des concepts, la terminologie, les domaines porteurs. L approche adoptée, pour le développement du prototype Xplor, permet de combiner les techniques d extraction de connaissance à partir des données textuelles et les techniques de stockage, d analyse et de visualisation des données relationnelles. Chacune de ces techniques est vue comme un composant aux fonctionnalités précises et délimitées. Plus simples à développer, plus robustes et testés dans des contextes différents, ces composants peuvent s assembler de plusieurs manières pour créer ainsi des applications variées et adaptées aux besoins des utilisateurs. Notre approche, pour le développement du système Xplor, repose sur une architecture décisionnelle à trois niveaux : Sources et traitement, ce niveau permet d alimenter l entrepôt de donnée, à partir des corpus de données textuelles. Il permet le passage de la représentation des documents textuels (données qualitatives) sous forme de données quantitatives. Il concerne le traitement de l hétérogénéité des informations, d un point de vue : contenu sémantique : scientifique, technique, etc., structurel : fortement structuré (brevet) à non structuré ( s), linguistique (multilinguisme) : chinois, arabe, format du support : Word, html, pdf, etc., taille : définition de l unité d information à analyser (granularité de l information). Pour cette partie du traitement, les techniques employées s appuient sur les fonctionnalités du système Tétralogie développé antérieurement par les membres de l équipe SIG-EVI. Ces composantes permettent de répondre au problème d hétérogénéité des documents à analyser. Entrepôt de données, est un espace de stockage qui à premier niveau permet d offrir une vue unifié du corpus cible, et au deuxième niveau permet l extraction et le stockage des données sources structurées sous forme d une représentation multidimensionnelle. Le second niveau porte sur les

161 Chapitre 4: Implantation et expérimentation 161 traitements de création de l entrepôt de données. Il repose sur la création des matrices à deux et trois dimensions (contingences, cooccurrences, présence absence) à partir de la vue unifiée. Notre approche consiste à utiliser les composantes du système Tétralogie pour la création des matrices à deux dimensions et réajuster la structure des résultats obtenus pour faciliter le transfert des données dans l entrepôt de données du prototype. Cet entrepôt ne contiendra que les données sous forme relationnelles tel que : N doc-auteur, Auteur-Auteur-Date, etc. Cette représentation permet de synthétiser toutes les relations existantes entre les différents attributs constituant les documents à analyser. La base de données est interfacée grâce au système Xplor sur Intranet ou Internet, afin que l'utilisateur puisse lui même mener ses propres investigations. Analyse et restitution, ce niveau permet d effectuer des analyses multidimensionnelles en ligne sur les données issues de l entrepôt et restituer les résultats à l utilisateur par des fonctions de reporting. Il comporte les fonctionnalités de navigation et d analyse en ligne. Ces fonctions sont: administration des données, exploration des données relationnelles et visualisation des résultats. Chaque attribut peut être filtré au moyen de fonctions relationnelles prédéfinies en se servant des liens complexes qu'il possède avec lui même et les autres attributs de la base. Des statistiques descriptives interactives sont alors disponibles pour chaque extrait (fréquences, équivalences, etc.) ainsi que sur l évolution de leurs relations. Des fonctions de reporting sont prédéfinies pour permettre la visualisation des résultats. Sources et Traitements Entrepôt de données Analyse et Restitution Stockage Traitement du corpus Vue unifiée Structure 3D Analyse Modèle de données Figure 50 : Approche adoptée. Chaque analyse est implantée séparément, elle peut être accédée par mot de passe et sa description est consignée dans une table des analyses. Pour chaque analyse nous devons ensuite définir plusieurs entités : les attributs, les valeurs et les matrices constituant la structure actuelle ou future de l'analyse et définissant les points qui ont été traités et qui sont disponibles pour la navigation. D'un autre côté se trouvent les utilisateurs des analyses. Ils sont identifiés dans une table des utilisateurs, leurs accès sont sécurisés par mot de passe. Les analyses sur lesquelles ils ont des droits ainsi que les entités visibles sont aussi consignées dans des tables. Des extensions de droits sont données à l'administrateur, des restrictions peuvent aussi intervenir (données publiques, données privées) aussi bien en lecture, qu'en écriture.

162 Chapitre 4: Implantation et expérimentation 162 Figure 69 : Liens bases - utilisateur. Le modèle de données est présenté dans la figure suivante, il tient compte de son implantation future dans un serveur d'analyses accessible sur InterNet ou IntraNet. Comme le plus souvent, un rapport d'analyse sous forme électronique (.doc,.html) est associé à une base de données, il est possible de créer des liens entre les différents chapitres du rapport et les fonctions interactives de zoom et de reporting offertes par la base. Cette méthode permet de dynamiser la lecture du rapport et de s'en approprier le contenu de façon très personnelle. Un même sujet peut intéresser plusieurs personnes, d'où l'idée du partage de certaines analyses via le Web. Un corpus global pouvant être revisité de plusieurs manières tout en gardant, comme fil conducteur, la structure de l'analyse macroscopique déjà réalisée. C'est dans cette optique que nous avons conçu l'implantation des analyses dans un portail traitant de la veille et dans lequel se trouvent des espaces publics et des espaces privés suivant les possibilités de partage et les contraintes de confidentialité rencontrées. Figure 70 : Modèle de données Compilation des matrices L utilisation de la plateforme Tétralogie, offre la possibilité de créer des matrices à trois dimensions de type cooccurrences. Nous rappelons, dans le contexte de nos travaux, que la troisieme dimension prise en compte par ces matrices est systématiquement l attribut de type temporel. Pour traiter et exploiter les résultats de ces matrices dans le prototype Xplor, nous avons redéfinis les fonctions de créations des matrices de cooccurrences de Tétralogie. Cette réadaptation intervient principalement sur le format des résultats.

163 Chapitre 4: Implantation et expérimentation 163 Au préalable, le résultat de la fonction «Matrice de cooccurrence à trois dimensions», était sous forme d un fichier texte decrivant un tableau à deux dimensions. Pour chaque valeur prise par l attribut «Temps», un fichier était généré. Par exemple, pour la creation des matrices de coocurrence de type : Auteur-Auteur-Temps Auteur-Conference-Temps Les resultats obtenus par tétralogie sont décrits dans la Figure 71. Aut. 1 Aut. 2 Aut. 3 Aut. n Conf. 1 Conf. 2 Conf. 3 Conf. n Aut Aut Aut. 1 Aut. Aut. 2 Aut Aut. 6 n Conf. 1 Conf. 2 Conf. 8 3 Conf. 1 n Aut Aut Aut. n Aut. 1 Aut. Aut. 2 3 Aut. 3 3 Aut. 6 n Conf. 1 Conf. 2 Conf. 8 3 Conf. 1 n Aut Fichier 2 Aut Aut. n Aut Fichier 1 Aut. n Fichier 3 Figure 71 : Les résultats Tétralogie de la fonction «Matrice de cooccurrence à trois dimensions». Ces résultats ne sont pas adaptés à la structure de la base de données du prototype Xplor, pour y remedier, nous proposons une fonction pour générer trois fichiers tels que : Le premier fichier «Attribut», va décrire les attributs ciblés. Chaque attribut est identifié par un numéro, un code et un type. Le second fichier «Valeur», représentera les valeurs de chaque attribut ciblé. Chaque valeur est identifiée par son libellé, son numéro et le numéro de son attribut. Le troisième fichier «Cooccurrence», concernera toutes les relations de cooccurences identifiées dans le corpus ciblé. Chaque cooccurrence est identifiée par le numero de la valeur du premier attribut, le numero de valeur du second attribut, la valeur de la coocurrence et le libélé de l attribut «Temps» (Attribut1-Attribut2-Cooccurrence-Temps). Ces representations nous offrent une nouvelle structure qui permet de decrire de façon synthétique les resultats de la compilation des matrices. Cette structure a été proposée de façon a respecter le modèle de données associé à la base de données du prototype Xplor. Ainsi, les données obtenues seront facilement exportées vers le prototype. La Figure 72, represente un exemple de la nouvelle structure des resultats de la fonction «Matrice de cooccurrence à trois dimensions».

164 Chapitre 4: Implantation et expérimentation 164 N Attribut Code Type 1 Aut Auteurs 2 Conf Conférence Fichier Attribut Libellé Num um-valeur N Attribut Aut Aut Aut n n 1 Conf 1 n+1 2 Conf 2 n+2 2 Conf m n+m Fichier 2 Valeur Num-Valeur 1 Num-Val Valeur 2 Cooccurrences Temps n n n+m Fichier Cooccurrence.. Figure 72 : Nouvelle structure des résultats de la fonction «Matrice de cooccurrence à trois dimensions». 3.4 Architecture du prototype Xplor Le prototype Xplor fonctionne selon une architecture Client/serveur. Cette dernière permet la mise à disposition de plusieurs clients des services provenant d un serveur. L'architecture client/serveur désigne un mode de communication entre plusieurs ordinateurs d'un réseau qui distingue un ou plusieurs postes clients du serveur : chaque logiciel client peut envoyer des requêtes à un serveur. Un serveur peut être spécialisé en serveur d'applications, de fichiers, de terminaux, ou encore de messagerie électronique. Le client et le serveur doivent bien sûr utiliser le même protocole de communication. Un serveur est généralement capable de servir plusieurs clients simultanément. Cette architecture client/serveur dispose de nombreux avantages : Centralisation des ressources sur le serveur ; c est le serveur qui fournit le ou les services aux nombreux clients présents sur un réseau. Sécurité accrue due aux points d entrée qui peuvent être limités ou filtrés plus facilement. Une administration simplifiée puisqu elle se fait uniquement sur le serveur, d où aussi une sécurité accrue. Le prototype Xplor vient compléter la plateforme Tétralogie. Cette dernière fonctionne de manière distribuée au sein d un réseau. Aussi, elle passe par un système de fenêtrage appelé X Window. Celui-ci créer et gère des fenêtres dans lesquelles il affiche du texte et du graphique. Le fonctionnement de X Window est basé sur le modèle Client / Serveur. Le serveur X et le client X sont deux processus distincts qui communiquent entre eux par l'intermédiaire d'un protocole. Le serveur X est le programme qui assure la gestion et le contrôle des périphériques d'entrées et de sorties. Le client X est le programme utilisateur qui exploite les services du serveur X en lui soumettant des requêtes d'affichage ou de dialogue. Par rapport au modèle client / serveur classique, dans lequel le serveur s'exécute sur une machine à distance, tandis que l'application client réside sur la machine locale, X inverse géographiquement les rôles. Le serveur se trouve dans la machine locale (le terminal devant le quel se trouve l'utilisateur) tandis que X peut s'exécuter sur une machine à distance. Cependant, les principes du modèle client/serveur sont respectés. Le serveur X répond aux requêtes soumises par les clients X.

165 Chapitre 4: Implantation et expérimentation 165 En tant que serveur, si un client désire accéder à Tétralogie, il doit présenter son "Display". Il est l'entité qui regroupe le serveur et les périphéries d'entrées / sorties qu'il gère, c'est à dire la combinaison de l écran du client, clavier et souris. X Windows n'est pas une interface graphique proprement dite. Cependant il peut servir de base à d autres environnements graphiques tels que Motif, Open Look, News, CDE. La configuration de la plateforme Tétralogie est exige certaines contraintes d où la nécessité du passage au web qui permet une accessibilité via des navigateurs et qui permet des accès facile, rapide et sure avec des fonctionnalités simple et robuste Dans le cadre de nos travaux notre choix s est porté sur la combinaison serveur web Apache (serveur HTTP), MySQL (serveur de base de données) et PHP, tous gratuits et libres. Sous Linux, cette combinaison s'appelle LAMP (sigle de «Linux, Apache, Mysql, PHP»); sous Windows, WAMP («Windows, Apache, Mysql, PHP»); et sous Mac, MAMP («Macintosh, Apache, Mysql, PHP»). Apache HTTP Server, souvent appelé Apache, est un logiciel de serveur HTTP produit par l'apache Software Foundation. C'est le serveur HTTP le plus populaire du Web. MySQL est un système de gestion de base de données relationnelles SGBDR rapide, robuste er facile d utilisation. Il est adapté à la gestion de données dans un environnement réseau, notamment en architecture client/serveur. Il est fourni avec de nombreux outils et est compatible avec de nombreux langages de programmation. Il est le plus célèbre SGBDR du monde Open Source, particulièrement grâce à son interopérabilité avec le serveur de pages Web Apache et le langage de pages Web dynamiques PHP. MySQL est un système de gestion de Bases de Données fonctionnant sous Windows et Linux. L'application est installée sur un serveur Apache muni d'une base MySQL permettant de stocker les données rentrées en amont dans l'application. PHP est un langage de script qui s exécute coté serveur, le code PHP étant inclus dans une page HTML classique. Il peut donc être comparé à d autres langages de script qui fonctionnent sur le même principe : ASP (Active Sever Pages), JSP (Java Server Pages) ou PL/SQL Server Pages (PSP). A la différence d un langage comme le JavaScript, où le code est exécuté coté client (dans le navigateur), le code PHP est exécuté coté serveur. Le résultat de cette exécution est intégré dans la page HTML qui est envoyée au navigateur. Ce dernier n a aucune connaissance de l existence du traitement qui s est déroulé sur le serveur. Cette technique permet de réaliser des pages Web dynamiques dont le contenu peut être complètement ou partiellement généré au moment de l appel de la page, grâce à des informations récupérés dans un formulaire ou extraites d une base de données. Le protocole de communication utilisé est le protocole HTTP. Le but de ce dernier est de permettre un transfert de fichiers (essentiellement au format HTML) localisé grâce à une chaîne de caractères appelée URL entre un navigateur (le client) et un serveur Web. Le prototype Xplor est une application hébergée dans un serveur Apache et sa base de données est au niveau du serveur MySQL. Une application est un programme ou un groupe de programme conçus pour être exploités par un utilisateur final quel qu il soit. Lorsque l utilisateur final dialogue avec l application au moyen d un navigateur, on dit qu il s agit d une application de base de données sur le web ou plus simplement d une application web. Xplor consiste en deux composantes : La base de données MySQL est la mémoire du prototype, L application proprement dite consiste en un ou plusieurs programmes destinés à accomplir une certaine tâche. Les programmes créent l affichage que voit l utilisateur dans la fenêtre de son navigateur. C est ce qui rend l application interactive, en lui permettant d accepter des informations de l utilisateur, en traitant ces informations et en renvoyant une réponse composée d après les informations extraites de la base de donnée.

166 Chapitre 4: Implantation et expérimentation 166 Module PHP Serveur en ligne Http : Apache BDD MySQL Clients : Navigateur Web Figure 73 : architecture d implantation. Le fonctionnement de l échange client/serveur est comme suit : le client envoie une requête au serveur sous la forme d'une URL avec éventuellement un passage de paramètres (1). Le serveur commence par vérifier si la page demandé dépend du module PHP ou est statique (.htm,.html,...) (2). Si il s'agit d'une page PHP, le script est alors interprété par le moteur (3) qui peut éventuellement envoyer une requête vers le serveur de base de donnée MySQL (4) Celui-ci lui renverra alors les données demandées afin de terminer l'interprétation du script (5). Au final, il générera une page statique (6) du même type qu'une page html pouvant être interprétée par le navigateur du client (7). Les avantages de cette architecture sont : Des performances élevées Interface vers la base de données MySQL Simplicité d'utilisation et d'apprentissage Portabilité PHP gère les sessions. On peut donner des droits d'accès différents selon les utilisateurs en utilisant PHP session.

167 Chapitre 4: Implantation et expérimentation Fonctionnalités du prototype XPLOR Dans le cadre du travail médiatisé d utilisateurs non spécialistes de l informatique, il est primordial d avoir des fonctionnalités et un outil simple d utilisation. L application Xplor est ainsi souple et s exécute aisément sur toute machine. De même, elle doit être simple d utilisation et s intégrer aux pratiques de l utilisateur. La page d accueil (Figure 55) du prototype s affiche au niveau du navigateur de l utilisateur sous forme d un ensemble de liens hypertexte. Les menus du prototype Xplor sont représentés sous forme d un ensemble de liens qui sont suffisamment aérés pour s afficher dans des écrans grands (PC) ou petits (téléphonie portable). Le menu de la page d accueil du prototype s articule autour de quatre composantes principales : Informations et connaissances portant sur la Veille et IE. Une classification des liens des principaux acteurs de l IE. Analyse Générale : administration et diffusion des analyses stratégiques du système Tétralogie. Analyse Détaillée. Dans la suite de cette section nous présenterons le prototype xplor en détaillons chaque composante Concepts IE et veille Figure 74 : Page d accueil du prototype XPLOR. La première composante du menu de la page d accueil du prototype Xplor porte sur les différentes définitions et lexiques manipulées dans le contexte de : IE, Veille stratégique, extraction de connaissances, recherche d information, analyse de données etc. Le contenu des pages web «Définition» et «Lexique» associées à cette composante est organisé dans un sous-menu hypertexte selon un ordre alphabétique. Chaque lien du sous-menu représente la première lettre associée à un ensemble de concepts. Cette technique permet à l utilisateur de naviguer dans ces pages grâces au sous-menu qui offre une recherche rapide et simple.

168 Chapitre 4: Implantation et expérimentation 168 Figure 75 : Concepts IE et Veille Classification des liens IE La deuxième composante concerne une classification des liens des principaux acteurs de l IE en France. Cette classification s est basée sur un corpus collecté à partir du web. Ce corpus comporte 67 acteurs. Chaque acteur est décrit par un ensemble d attributs tels que : site internet, descripteurs, acteurs, date, type. Ce corpus nous a permis d effectuer une classification des acteurs par rapport à leur type : entreprise, école, association, gouvernement, etc. Cette classification a été effectuée par la plate forme Tétralogie, qui nous a permis d identifier les liens entre les acteurs et leur type sous forme de matrice de cooccurrence à deux dimensions puis à appliquer une AFC sur ces liens. Les résultats obtenus ont servi de modèle pour la représentation des acteurs dans le prototype Xplor. La figure ci-dessous décrit la page des liens des acteurs d IE en France sous forme d un ensemble de liens hypertexte où chaque lien référence le site web de l acteur associé. Ainsi nous offrons à l utilisateur un ensemble de sites internet des différents acteurs du domaine IE en précisant pour chacun leur compétences ce qui permet à l utilisateur d avoir une vision générale des différents organismes intervenants dans le domaine IE selon leur type, par une navigation rapide et interactive. Cette étude a été effectuée dans le cadre du stage de Melle Sophie Martin au sein de notre équipe.

169 Chapitre 4: Implantation et expérimentation Analyse générale Figure 58 : Classification des liens. La troisième composante du menu principal du prototype développé concerne l administration et la diffusion des analyses stratégiques globales issues de la plateforme Tétralogie. L objectif de cette composante est d offrir aux utilisateurs une navigation simple et rapide dans les nombreux dictionnaires extraits des corpus (triés par ordre alphabétique et par fréquences décroissantes) et de rendre directement accessible chaque rubrique particulière à l aide d un plan général. Une organisation différente du document hypertexte est proposée pour chaque cas spécifique (publications scientifiques, analyse de brevets, Internet, etc.) mais les nombreuses analogies constatées nous ont permis de standardiser une grande partie de ce mode de restitution. Ici encore, les exportations sous forme standard (formats et noms des fichiers) des graphiques et illustrations ainsi que celles des dictionnaires nous permettent un gain de temps lors de la production du document de synthèse de chaque analyse. Nous retrouvons tous les avantages de ce mode de diffusion : navigation libre, accès à toute l information disponible, portabilité, possibilité d utiliser le support CD-Rom, nombreuses fonctions prédéfinies (retour en arrière, enregistrement, impression, etc.), possibilité de mettre l analyse en ligne.

170 Chapitre 4: Implantation et expérimentation 170 Figure 76 : Fonction de téléchargement de l analyse issue de Tétralogie. Figure 77 : Diffusion de l analyse générale. Ce mode de diffusion ne fait pas double emploi avec le portail proposé, car il communique à tous l analyse générale (synthèse de l ensemble des informations stratégiques mises à jour) alors que le portail autorise la conduite des analyses plus profondes et mieux ciblées sur les préoccupations spécifiques de chaque utilisateur. La possibilité de pouvoir revenir à l analyse générale présente aussi de nombreux avantages, car l utilisateur peut confronter ses propres découvertes issues de son analyse détaillée à celles plus globales et stratégique

171 Chapitre 4: Implantation et expérimentation 171 de la macro analyse initiale issue de la plateforme Tétralogie. En effet, une micro analyse isolée peut être dangereuse voire erronée car l aspect stratégique issu du global est perdu de vue et ne sert plus de référence pour l extraction et la compréhension de connaissances locales Analyse détaillée La quatrième composante du menu principal du prototype développé est l «Analyse détaillée». C est à ce niveau que nos travaux se sont le plus concentrés. Cette partie permet à l utilisateur d explorer les données relationnelles mises en ligne pour un sujet d analyse donné. Elle est organisée en deux sections : Administration des données, Analyse des données Administration des données La première concerne l administration des données où l utilisateur peut effectuer des opérations de visualisation, rajout, suppression et modification des données. Figure 61 : Administration des données Aussi, nous avons définie dans cette partie des indicateurs qui permettent de décrire la base de données. Ces indicateurs permettent aux utilisateurs d avoir une vision générale des données à analyser tel que : Le nombre de champs contenus dans la base, Le nombre d enregistrement (items) pour chaque attribut, Le nombre total des enregistrements pour l ensemble des attributs, Le nombre de relations de type cooccurrence à trois dimensions.

172 Chapitre 4: Implantation et expérimentation Analyse des données Fonction de filtrage Figure 78 : Indicateurs de la base de données. Comment arriver à sélectionner, de façon interactive via le web, l'information pertinente pour l'utilisateur. Nous proposons tout un ensemble d'outils de filtrage basés sur l'utilisation des dictionnaires (thématiques, synonymes, hiérarchiques), des matrices (contingences, cooccurrences, présence absence), des tableaux 3D croisant le deux attributs et le temps. Nous pouvons activer un ou plusieurs filtres par champ afin de ne garder que l'information ponctuelle utile pour l'utilisateur tout en lui permettant de la croiser avec d'autres sur des volumes maîtrisables et compatibles avec les moyens classiques ou innovants des graphiques statistiques et géographiques. Les filtres utilisés sont de deux types: unaires ils ne font intervenir que la distribution du champ concerné, binaires ils s'appuient sur les relations avec les autres informations du corpus et font donc intervenir dans leur calcul des opérateurs complexes comme la connexité, les liens transitifs, la consistance, l'équivalence, les coïncidences positives et négatives, les distances et autres métriques. Filtrage unaire Filtrage binaire Fonction d analyse Figure 63 : Filtrage des données. Pour extraire l information stratégique de la base de données on a interrogé la base en utilisant les fonctions de requêtage issues du langage SQL, en formulant des requêtes selon les besoins de l utilisateur. Chaque requête représente un indicateur générique. Parmi ces requêtes on peut citer : Sélection d un ou plusieurs champs d analyse,

173 Chapitre 4: Implantation et expérimentation 173 Indicateur univarié - Nombre d occurrence d un item, - Fréquence d un item, - Sélection des X meilleurs items, Indicateur relationnel - Sélection de l évolution des x meilleurs items, - Sélection des X meilleurs pour une période précise, - Sélection de plusieurs items, et les comparer en fonction du temps pour étudier leur évolution, - Sélection des occurrences d un item en fonction du temps pour étudier son évolution, - Sélection des items de différents champs pour comparer un champ en fonction de plusieurs autres afin de faire une analyse N-dimensionnelle, - Sélection de l environnement d un ou plusieurs items, - Sélection de l évolution de l environnement d un ou plusieurs items. Figure 79: Indicateurs des X=10, 20, 30 meilleurs champ= auteurs et son évolution Fonction de visualisation Les fonctions de «reporting» sont essentielles pour réussir la présentation d'un travail de veille dans un contexte d IE et pour convaincre les décideurs par un document lisible, pertinent et concis. Outre les grands classiques (histogrammes 2 et 3D, camemberts, tableaux, zoom de matrices, etc.), nous intégrons des techniques de visualisation propres à chaque type de requête comme (histogrammes d évolution 2D et 3D, histogrammes comparatifs ou cumulatifs 2D et 3D, graphes relationnels, etc.). Cet ensemble de possibilités doit permettre à chacun de trouver les bons réglages pour découvrir puis communiquer l'information stratégique ciblée à intégrer dans son rapport d'analyse personnalisé.

174 Chapitre 4: Implantation et expérimentation 174 Indicateur uni-varié Indicateur relationnels 3.6 Expérimentations Figure 65 : Les fonctions de visualisation. Dans le cadre de la collaboration du Groupe de Recherche en Intelligence Economique, nous avons expérimenté le prototype Xplor sur une analyse stratégique de données portant sur le secteur des biotechnologies agricoles en chine. Nadège Guénec, dans le cadre de sa thèse CIFRE au sein de la société LIMAGRAIN, a joué le rôle de l expert (Biotechnologies et Langue Chinoise), et nous avons pris le rôle dédié à l analyste Enjeux et problématique L IE et les pratiques qui la caractérisent se définissent comme une analyse de l existant en vue d anticiper les évolutions possibles dans le but d orienter l action future [Martre, 1994]. La maitrise de l information est devenue un outil indispensable dans tous les domaines économiques touchant aux technologies de pointe : génie génétique, chimie, physique, aéronautique, nanotechnologie, etc. Selon [Guénec, 2009], les chercheurs chinois, qui maitrisent correctement l anglais, sont abonnés au travers de leur laboratoire aux grandes bases de données d articles scientifiques. Ils ont donc un accès et une viabilité sur l ensemble des travaux scientifiques au niveau mondial. Or, les chercheurs occidentaux n ont aucun moyen d accéder à l information scientifique chinoise. Seules les publications chinoises dans les revues internationales sont visibles. L information scientifique et techniques est une composante aussi importante pour : Le chercheur, désirant de maintenir une veille scientifique à jour et pertinente, Les décideurs privés et gouvernementaux lors de la conduite d une démarche d IE, principalement dans le cadre d applications de l innovation. Dans ce contexte de concurrence accrue, dans lequel les entreprises et les gouvernements s allient et s engagent au cœur de la recherche scientifique, il est nécessaire, voir indispensable, de disposer d un outil d analyse pertinent permettant de capter l information utile en temps record [Pierret, 2005]. L outil recherché, doit permettre d effectuer une exploration très fine afin de mettre à la disposition des décideurs des informations utiles et précises et lui permettre d affiner sa propre analyse de l environnement informationnel du domaine d étude [Guénec, 2008a]. Dans le cadre de cette collaboration, l outil visé doit pouvoir traiter et analyser les sources d informations chinoises. Étant donné l interdépendance des activités politiques, économiques et scientifiques en Chine, notre collaboration dans le contexte du GDR-IE consistait à traiter et analyser un corpus d articles scientifiques sur le secteur des biotechnologies agricoles en chine. Dans ce contexte, la difficulté posée était celle de

175 Chapitre 4: Implantation et expérimentation 175 l adaptation de la plateforme Tétralogie et du prototype Xplor au traitement des données chinoises. Dans la section 4.6.3, nous présentons notre proposition pour contourner cette problématique Proposition Nous proposons une adaptation de la plate-forme Tétralogie et du prototype Xplor au traitement de la langue chinoise, dont le codage peut être ramené au système UNICODE UTF-8, en utilisant les capacités de transcodage d outils comme MS-Word. Une évolution de la plateforme Tétralogie dans la phase de prétraitement a donc été le préalable de nos travaux afin de l adapter à l environnement linguistique du chinois d une part et à la structure des sources d informations chinoises (CNKI, CQVIP). Etant données que ces sources sont structurées, une fois le traitement linguistique réalisé, le l homogénéisation et la structuration des documents devraient pouvoir être réalisées de la même manière que des documents en langue occidentales. En se basant sur le codage informatique de la langue chinoise (UNICODE UTF8), nous pouvons détecter les entités nommées par le traitement de bases semi structurées comme les publications scientifiques, les brevets et la presse. Il est alors possible d établir des dictionnaires assez complets de termes scientifiques et technique (mots-clés, classifications, etc.), de noms d acteurs (auteurs, personnalités, entreprises, organismes publics, laboratoires, etc.), de lieux géographiques, de dates et de les traduire dans la langue de l utilisateur. Le croisement (cooccurrence, contingence, présence-absence) de ces briques signifiantes de texte doit nous conduire à l établissement des réseaux d acteurs et des réseaux sémantiques qui expliquent en grande partie les stratégies sous-jacentes du domaine. Si, de plus, le facteur temps est pris en compte (évolution des réseaux), nous pouvons alors avoir une vision prospective (tendances, trajectoires des acteurs, type d évolution, etc.) Besoin informationnel La capacité d analyse relationnelle d un domaine donné à partir des documents collectés d une base bibliographique chinoise était la base des travaux de notre collaboration avec [Guenec, 2008a]. Le besoin formulé par [Guénec, 2009], dans le cadre des travaux de recherches était de définir une approche approfondie du secteur des biotechnologies agricoles en Chine (sujet d analyse). En effet, ses travaux se situant dans une démarche d analyse d un environnement économique dans le but d apporter des connaissances stratégiques visant notamment à dégager des partenaires chinois éventuels et à surveiller la concurrence (thème d analyse) Source d information La source d information utilisée pour l analyse est CNKI (China National Knowledge Infrastructure). C est un portail d information construit pat l université Qinghua de Pekin et la Qinghua Dongfang Internet Technologie Cie. Ltd. Le projet a commencé en juin 1996 avec la publication d un CD-Rom recensant 2000 journaux académiques de chine [Guenec, 2008b]. en 2003, elle prend sa forme actuelle de portail regroupant plusieurs BDD de ressources académiques chinoises avec des fonctionnalités de recherches avancées. Elle est aujourd hui utilisée en Chine par plus de 5500 institutions : universités, bibliothèques, hôpitaux, organismes gouvernementaux, etc. et ambitionne de devenir le plus gros portail de ressources académiques du monde avec aujourd hui quelques 17 millions d articles. Adresse :

176 Chapitre 4: Implantation et expérimentation Indicateurs Les indicateurs visés sont : Déterminer les (10, 20, 50) principaux acteurs du domaine, leurs interactions et leur évolution, Déterminer les thématiques de recherches et leur évolution, Déterminer les principaux journaux, et leurs thématiques, Déterminer les principaux organismes et l évolution des publications qui leurs sont associées, Déterminer pour le ou les cinq principaux acteurs, leurs thématiques, leurs organismes et l évolution de leur environnement, Période d analyse Les attributs ciblés sont alors : les auteurs, les organismes, les descripteurs et le temps. Les valeurs associées à l attribut Temps sont : 2002, 2003,,2008. Relations entre attributs ciblés et le temps : Attributs Auteurs Organismes Journal Mots-clés Auteurs x x x x Organismes x x x Journal x x Mots-clés x Collecte de document Tableau 19 : Les relations des attributs ciblés. La première étape d analyse consiste à collecter les données selon le besoin exprimé. Cette collection de donnée va constituer le corpus ciblé. Dès la page d accueil du site CNKI, un moteur de recherche est disponible, il doit être alimenté par des requêtes en chinois qui peuvent être traduites depuis l anglais par les outils linguistiques de Google. Cet outil utilise la technologie Systran qui est l un des meilleurs outils de traduction à l heure actuelle. Figure 80 : Les fonctions de visualisation. Dans le cadre de l analyse stratégique sur les biotechnologies, notre requête consiste à rechercher tous les articles où les mots Blé et stérilité mal du blé apparait au niveau de l attribut ou champ «Titre», d octobre 2002 à octobre 2008.

177 Chapitre 4: Implantation et expérimentation 177 Une fois la requête formulée, le système retourne une liste de 1699 notices que nous pouvons collecter soit par : Un copier/coller vers MS-Word, Utilisation du système de télé-déchargement intégré dans le site, Utilisation de robot de type aspirateur. Figure 81 : Descriptif des attributs. Voici le protocole de travail que nous préconisons pour réaliser des analyses stratégiques depuis cette base documentaire. établir une équation de recherche en anglais et la traduire en chinois [Google]. soumettre cette équation au moteur de recherche de la base cqvip.com, pour chaque page de résultat, la copier-coller dans MS-Word 2003 ou dans Open Office 25, enregistrer le fichier obtenu au format html, l ouvrir avec Internet Explorer, afficher le code source de la page, l UNICODE apparaît en mode texte ASCII sous la forme «〹», réenregistrer le code source en format texte. 25 On se sert, ici, des capacités de transcodage de ces outils pour passer de polices chinoises diverses à l UNICODE. MS-WORD 2007 n est pas recommandé car il sait travailler avec plus de polices, il ne fait donc plus le transcodage voulu : «qui peut le plus peut le moins».

178 Chapitre 4: Implantation et expérimentation Structuration Figure 82 : Correspondance caractère chinois- UNICODE. Après avoir collecté les 302 notices, nous avons défini un programme permettant de rechercher l information utile à l analyse dans le fichier texte ASCII. Pour cela nous avons utilisé le langage perl pour pouvoir créer un fichier qui sera compatible avec la plateforme Tétralogie. Plusieurs étapes sont identifiables dans ce programme (figure 62) : Récupération du code HTML, Identification de l information à extraire, Réécriture de l information extraite dans le nouveau fichier. Le but de cette étape est multiple : éliminer la mise en forme du texte (html) qui n apporte rien au contenu, mais qui représente 90% du poids du fichier, reconstituer des chaînes de texte qui sont séparées en tronçons par la mise en forme. Cette étape est nécessaire car de nombreux mots clés, par exemple, sont coupés (changement de police au niveau html). Est-ce volontaire pour gêner l analyse automatique et l indexation? rebaliser le texte par des balises ASCII (du type : TI:, AU:, OR:, ) traduites des balises existantes en chinois, certaines balises et leur contenu ne sont pas visibles sur la page web, mais sont présentes dans le code source en ASCII (ex : KW:) rajouter des balises inexistantes dans le texte en les créant à partir de la mise en forme html : DP:, NO:, VA:, conserver les informations qui sont codées en caractères latins ou en chiffres arabes comme les dates, les numéros ou certains termes comme les auteurs occidentaux, les formules ou les éléments techniques, éviter les doublons dus à la présence simultanée de deux versions du même terme (ex : noms des auteurs cliquables sur la page web).

179 Chapitre 4: Implantation et expérimentation 179 Identification Règles d extraction et de réécriture Corpus structuré Homogénéisation Figure 83 : Identification et extraction de l information utile. Une fois la structuration terminée, le corpus se trouve sous une forme analysable par «Tétralogie» au même titre qu une base initialement codée en ASCII comme PASCAL, FRANCIS, INSPEC ou SCI. Des descripteurs de format spécifiques compatibles avec ce balisage vont permettre ensuite de piloter les automates qui vont traiter le texte : extraction des items (valeurs) de tous les champs balisés (attributs), puis le croisement des champs entre eux, afin d établir des tableaux de cooccurrences à trois dimensions. Dans le Tableau 14 nous décrivons les différentes informations décrites par le descripteur de format spécifique. Nom du champ Nom complet du champ dans une notice Abréviation Nom abrégé du champ dans une notice Champ Nom du champ dans la notice Tableau 20 : Les champs du descripteur de format spécifique. Visible Attribut qui permet d afficher ou non un champ dans les différents outils de «Tétralogie» TRUE = actif FALSE = passif Les descripteurs de formats spécifiques (à gauche de la figure 63) décrivent le format obtenu. Séparateurs Les séparateurs permettent d isoler les mots ou groupes de mots que l utilisateur recherche. Exemple : le contenu de la balise «Notice» sera délimité par le séparateur : «b"»

180 Chapitre 4: Implantation et expérimentation 180 Corpus structuré Descripteur de format spécifique Figure 84 : Descripteur de format spécifique. Dans la figure 63, nous pouvons remarquer que les attributs de chaque champ en ASCII et les valeurs (contenu) en UNICODE. Dans la notice C , le titre, le premier auteur, le journal et la date forment un abrégé en début de document, ces informations sont ensuite reprises dans les champs correspondants : TI:, AU:, JN:, DP:. Le champ VA : ne sera donc pas utilisé dans l analyse. Si nous analysons visuellement le document, il comporte 3 auteurs (de 3 idéogrammes chinois = 3 codes), un seul organisme, 8 mots clés (ici de 2 à 5 idéogrammes) plus le journal et la date : Dès que nous disposons du corpus reformaté et de ses descripteurs de format, il est possible de l analyser par les mêmes techniques que pour une source en alphabet latin, y compris réaliser son traitement sémantique et proposer une indexation plus fine et récente. Afin de décoder l UNICODE (et donc, ici, le chinois), nous avons établi des dictionnaires de correspondances entre les noms d auteurs en chinois et leur traduction en phonétique (Pinyin) grâce au traducteur de Google. Mais dans ce cas, se posent deux problèmes : Google n arrive pas à traduire tous les noms et restitue alors l UNICODE (voir 7 auteur) Plusieurs auteurs de codes différents peuvent avoir la même correspondance, d où une ambiguïté très néfaste à l établissement de réseaux sociaux pertinents et la nécessité impérative de corriger ce problème. Nous avons choisi, de garder les codes sans traduction Représentation entation multidimensionnelle Cette étape nous permet de définir et identifier les différentes corrélations existantes entre les attributs d un même document et leurs corrélations avec les autres documents du corpus ciblé. Notons que ces données vont permettre, à la suite, l alimentation de la base de données du prototype développé.

181 Chapitre 4: Implantation et expérimentation 181 Dans la Figure 85, nous présentons l interface de la plate forme Tétralogie contenant les deux fonctions développées à savoir : Xplor Items (valeurs) et champs (attributs), Xplor Cooccurrences. Figure 85 : Interface de la plateforme Tétralogie La fonction Xplor «Items et champs» L interface associé à la fonction Xplor Items et champs, permet à l utilisateur de sélectionner les attributs ciblés de l analyse. L objectif est de générer : l ensemble des attributs ciblés et des valeurs qui leurs sont associées. L organisation de cette interface se présente sous forme de tableau à deux dimensions où chaque case peut être sélectionnée (Figure 86). Les lignes du tableau correspondent aux différents attributs représentant le corpus homogénéisé, La première colonne permet de sélectionner les attributs (ciblés) à analyser, La seconde permet d effectuer un filtre sur les fréquences d apparition de chaque valeur associée à l attribut sélectionné. Dans notre expérimentation, nous avons retenus toutes les valeurs associées aux attributs ciblés qui apparaissent au moins une fois dans un document (Frq=1).

182 Chapitre 4: Implantation et expérimentation 182 Figure 86 : Interface de la fonction Xplor-Items et champs. Les résultats de cette fonction sont les fichiers, «Attribut» et «Valeur», dont nous décrivons un extrait du contenu dans la Figure 87. Figure 87 : Extrait des fichiers «Attribut» et «Valeur». La Figure 88 correspond à la traduction des valeurs extraites sous forme de caractère UNICODE. Cette traduction est effectuée pour vérifier si les informations extraites sont valides. UNICODE 陈爱平 邵庆均 Caractère en Chinois Français CHEN Ai-Ping SHAO Qing-jun 刘 21016;&# ;&# ; Xi Liu Figure 88 : Correspendance de l UNICODE des valeurs- Chinois-Français La fonction Xplor Cooccurrences L interface associée à la fonction Xplor Cooccurrences, nous permet de sélectionner les attributs ciblés à croiser. Pour chaque croisement, la prise en compte de l attribut «Temps» est systématique. L objectif de cette fonction est de générer : l ensemble des relations de type «Attribut-Attribut-Temps». Cette relation se base sur la mesure de cooccurrence. Nous rappelons que cette mesure consigne le nombre de documents qui possèdent simultanément les valeurs des trois attributs.

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1 La Geo-Business Intelligence selon GALIGEO avec ESRI 2005 session «Décisionnel» 26/10/2005 1 La Business Intelligence : Une Définition La Business intelligence permet l utilisation des données opérationnelles

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

En vue de l'obtention du. Présentée et soutenue par Eloïse LOUBIER Le 09 Octobre 2009

En vue de l'obtention du. Présentée et soutenue par Eloïse LOUBIER Le 09 Octobre 2009 THÈSE En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délivré par l'université Toulouse III - Paul Sabatier Discipline ou spécialité : Informatique Présentée et soutenue par Eloïse LOUBIER

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

ISTEX, vers des services innovants d accès à la connaissance

ISTEX, vers des services innovants d accès à la connaissance ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions

Plus en détail

SERVICE du COMMERCE EXTERIEUR 1

SERVICE du COMMERCE EXTERIEUR 1 SERVICE du COMMERCE EXTERIEUR 1 PROGRAMME : L Intelligence Economique 1. Présentation de la veille et de l'intelligence économique 2. Les types de Veille 3. Le Cycle de décision 4. Les 10 commandements

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS Nazih Selmoune (*), Zaia Alimazighi (*) Selmoune@lsi-usthb.dz, Alimazighi@wissal.dz (*) Laboratoire des systèmes

Plus en détail

Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau

Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché» 1- Présentation détaillée du programme d enseignement Répartition par modules et crédits ECTS :

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

ANGULAR JS AVEC GDE GOOGLE

ANGULAR JS AVEC GDE GOOGLE ANGULAR JS AVEC GDE GOOGLE JUIN 2015 BRINGING THE HUMAN TOUCH TO TECHNOLOGY 2015 SERIAL QUI SUIS-JE? ESTELLE USER EXPERIENCE DESIGNER BUSINESS ANALYST BRINGING THE HUMAN TOUCH TO TECHNOLOGY SERIAL.CH 2

Plus en détail

Mastère spécialisé. «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché»

Mastère spécialisé. «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché» Mastère spécialisé «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché» I- Présentation détaillée du programme d enseignement Répartition par modules et crédits ECTS : Intitulé

Plus en détail

sentée e et soutenue publiquement pour le Doctorat de l Universitl

sentée e et soutenue publiquement pour le Doctorat de l Universitl Du rôle des signaux faibles sur la reconfiguration des processus de la chaîne de valeur de l organisation : l exemple d une centrale d achats de la grande distribution française Thèse présent sentée e

Plus en détail

Conseil opérationnel en organisation, processus & système d Information. «Valorisation, Protection et Innovation de votre Patrimoine Numérique»

Conseil opérationnel en organisation, processus & système d Information. «Valorisation, Protection et Innovation de votre Patrimoine Numérique» "Innovation, Valorisation et Protection du Patrimoine Numérique!" Conseil opérationnel en organisation, processus & système d Information «Valorisation, Protection et Innovation de votre Patrimoine Numérique»

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012 CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des

Plus en détail

Quels outils pour prévoir?

Quels outils pour prévoir? modeledition SA Quels outils pour prévoir? Les modèles de prévisions sont des outils irremplaçables pour la prise de décision. Pour cela les entreprises ont le choix entre Excel et les outils classiques

Plus en détail

TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE

TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE INTRODUCTION GENERALE La situation concurrentielle des dernières années a confronté les entreprises à des problèmes économiques.

Plus en détail

Intelligence d affaires nouvelle génération

Intelligence d affaires nouvelle génération Intelligence d affaires nouvelle génération Sept étapes vers l amélioration de l intelligence d affaires par l entremise de la recherche de données À PROPOS DE CETTE ÉTUDE Les approches traditionnelles

Plus en détail

Cours n 2. UE706: Veille et intelligence économique EC3: Intelligence Économique et réseaux. Promo. Master : SIC. Documentation numérique

Cours n 2. UE706: Veille et intelligence économique EC3: Intelligence Économique et réseaux. Promo. Master : SIC. Documentation numérique UE706: Veille et intelligence économique EC3: Intelligence Économique et réseaux Cours n 2 Promo. Master : SIC. Documentation numérique Par : Sahbi SIDHOM MCF. Université de Lorraine Équipe de recherche

Plus en détail

Table des matières. Comment utiliser efficacement cet ouvrage pour en obtenir les meilleurs résultats?... 5

Table des matières. Comment utiliser efficacement cet ouvrage pour en obtenir les meilleurs résultats?... 5 Table des matières Sommaire.................................................................. v Avant-propos et remerciements............................................. 1 Note du traducteur.....................................................

Plus en détail

Objectifs pédagogiques de l enseignement «Métiers»

Objectifs pédagogiques de l enseignement «Métiers» É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Métiers Objectifs pédagogiques de l enseignement «Métiers» Les objectifs sont

Plus en détail

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Architecture d'entreprise : Guide Pratique de l'architecture Logique Guides Pratiques Objecteering Architecture d'entreprise : Guide Pratique de l'architecture Logique Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam

Plus en détail

Gestion des données de référence (MDM)

Gestion des données de référence (MDM) Chapitre 1 - COMPRENDRE LE MARCHÉ Gestion des données de référence (MDM) Copyright 2009 CXP. 1 All rights reserved. Reproduction or distribution of this document, in any form, is expressly prohibited without

Plus en détail

RAPID 3.34 - Prenez le contrôle sur vos données

RAPID 3.34 - Prenez le contrôle sur vos données RAPID 3.34 - Prenez le contrôle sur vos données Parmi les fonctions les plus demandées par nos utilisateurs, la navigation au clavier et la possibilité de disposer de champs supplémentaires arrivent aux

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE I N T E RS Y S T E M S INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE David Kaaret InterSystems Corporation INTERSySTEMS CAChé CoMME ALTERNATIvE AUx BASES de données RéSIdENTES

Plus en détail

White Paper ADVANTYS. Workflow et Gestion de la Performance

White Paper ADVANTYS. Workflow et Gestion de la Performance White Paper Workflow et Gestion de la Performance Présentation L automatisation des process combinée à l informatique décisionnelle (Business Intelligence) offre une nouvelle plateforme de gestion pour

Plus en détail

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...) Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE BUSINESS INTELLIGENCE : GOALS AND RESULTS OF A PILOT EXPERIMENT INVOLVING SEVEN SMEs FROM BOURGOGNE Ludovic DENOYELLE,

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal Direction des bibliothèques Sondage Ithaka S+R Questionnaire français Université de Montréal Décembre 2014 Modules retenus Découverte Activités de recherche numérique Compétences informationnelles des

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Séminaires Système D Information. Formation Conduite du Changement. Préambule

Séminaires Système D Information. Formation Conduite du Changement. Préambule Séminaires Système D Information Formation Conduite du Changement Préambule Sommaire Préambule L entreprise : système complexe en mouvement permanent Mickael Porter Harvard Business School - L avantage

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Intelligence économique : proposition d un outil dédié à l analyse relationnelle

Intelligence économique : proposition d un outil dédié à l analyse relationnelle Intelligence économique : proposition d un outil dédié à l analyse relationnelle Ilhème Ghalamallah (doctorante), Eloïse Loubier (doctorante), Bernard Dousset (professeur) ghalamal@irit.fr, loubier@irit.fr,

Plus en détail

Présentation du cursus Animateur de Cluster et de réseaux territoriaux Etat du 14 avril 2013

Présentation du cursus Animateur de Cluster et de réseaux territoriaux Etat du 14 avril 2013 MASTER ANIMATEUR DE CLUSTER ET DE RESEAUX TERRITORIAUX PRESENTATION DU DIPLOME FRANCO-ALLEMAND 1. OBJECTIFS DE LA FORMATION ET COMPETENCES A ACQUERIR: Former des animateurs de cluster et de réseaux territoriaux

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille

Plus en détail

VEILLE STRATEGIQUE EN ENTREPRISE. ( communication, Gouvernance et Intelligence Economique) Colloque International UFC Alger 14-16 Juin 2008

VEILLE STRATEGIQUE EN ENTREPRISE. ( communication, Gouvernance et Intelligence Economique) Colloque International UFC Alger 14-16 Juin 2008 VEILLE STRATEGIQUE EN ENTREPRISE ( communication, Gouvernance et Intelligence Economique) Colloque International UFC Alger 14-16 Juin 2008 1 I- Introduction I- I Historique de la veille S informer est

Plus en détail

Business Intelligence avec SQL Server 2012

Business Intelligence avec SQL Server 2012 Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Table des matières Les éléments à télécharger sont disponibles

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le tout fichier Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché

Plus en détail

CBBC Canadian Business & Biodiversity Council

CBBC Canadian Business & Biodiversity Council CBBC Canadian Business & Biodiversity Council Centre de la Science de la Biodiversité du Québec 72 chercheurs et 350 étudiants en thèse distribués sur un réseau de 8 partenaires universitaires et 2 institutions.

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 3 - Data

BI = Business Intelligence Master Data-ScienceCours 3 - Data BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse UPMC 8 février 2015 Rappel L Informatique Décisionnelle (ID), en anglais Business Intelligence (BI), est l informatique à l usage

Plus en détail

Faculté des Sciences Juridiques Économiques et Sociales Agadir. UFR : Économie et Gestion de l Espace. Pour l obtention du

Faculté des Sciences Juridiques Économiques et Sociales Agadir. UFR : Économie et Gestion de l Espace. Pour l obtention du UNIVERSITÉ IBN ZOHR Faculté des Sciences Juridiques Économiques et Sociales Agadir UFR : Économie et Gestion de l Espace THÈSE Pour l obtention du DOCTORAT EN SCIENCES DE GESTION Contribution à l étude

Plus en détail

Gestion de la relation Client (CRM)

Gestion de la relation Client (CRM) Gestion de la relation Client (CRM) Les meilleures pratiques pour gérer vos équipes de vente et marketing Claude Rose, président de Gestisoft Ordre du jour de la présentation Objectif d une solution CRM?

Plus en détail

Stratégie IT : au cœur des enjeux de l entreprise

Stratégie IT : au cœur des enjeux de l entreprise Stratégie IT : au cœur des enjeux de l entreprise Business Continuity Convention Tunis 27 Novembre 2012 Sommaire Sections 1 Ernst & Young : Qui sommes-nous? 2 Stratégie IT : au cœur des enjeux de l entreprise

Plus en détail

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

La Veille Scientifique

La Veille Scientifique La Veille Scientifique Anass EL HADDADI Objectifs Atteindre une connaissance générale des aspects méthodologique, technologiques de la veille scientifique: intérêts, difficultés, solutions actuelles et

Plus en détail

Management des organisations et stratégies Dossier n 10 Veille et intelligence économique

Management des organisations et stratégies Dossier n 10 Veille et intelligence économique Management des organisations et stratégies Dossier n 10 Veille et intelligence économique.i. Les enjeux et domaines de la veille.ii. La mise en place d un processus de veille.iii. Illustration d une démarche

Plus en détail

MYXTRACTION. 2009 La Business Intelligence en temps réel

MYXTRACTION. 2009 La Business Intelligence en temps réel MYXTRACTION 2009 La Business Intelligence en temps réel Administration Qui sommes nous? Administration et management des profils Connecteurs Base des données Gestion des variables et catégories de variables

Plus en détail

La formation continue Supply Chain & Achats Centrale Paris Executive Education. Ecole Centrale Paris Executive Education

La formation continue Supply Chain & Achats Centrale Paris Executive Education. Ecole Centrale Paris Executive Education La formation continue Supply Chain & Achats Centrale Paris Executive Education qui est recruté? qui est formé? Les offres d emplois (200 par mois) représentent la partie visible du marché: tous les autres

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

CRM dans le secteur tertiaire : agile ou fragile?

CRM dans le secteur tertiaire : agile ou fragile? CRM dans le secteur tertiaire : agile ou fragile? Note publiée sur le site CRM SECTOR en novembre 2005 dans la catégorie : «Extraits» Comme toutes les entreprises, celles du secteur tertiaire n échappent

Plus en détail

CIHEAM-IAMM - Janvier 2002 Synthèse documentaire - C. Adamolle. VEILLE STRATEGIQUE & RESEAU INTERNET des outils et méthodes à maîtriser

CIHEAM-IAMM - Janvier 2002 Synthèse documentaire - C. Adamolle. VEILLE STRATEGIQUE & RESEAU INTERNET des outils et méthodes à maîtriser CIHEAM-IAMM - Janvier 2002 Synthèse documentaire - C. Adamolle VEILLE STRATEGIQUE & RESEAU INTERNET des outils et méthodes à maîtriser 2 PLAN : 1 ère Partie : L information : un outil de gestion stratégique

Plus en détail

Skills Technology Software PARTENAIRE TECHNOLOGIQUE DE VOTRE DÉVELOPPEMENT

Skills Technology Software PARTENAIRE TECHNOLOGIQUE DE VOTRE DÉVELOPPEMENT Skills Technology Software w w w.s PARTENAIRE TECHNOLOGIQUE DE VOTRE DÉVELOPPEMENT ka ty s. co m E U OG ION L TA AT A C RM FO Accélérateur de votre RÉUSSITE 2 Formation Aujourd hui, la formation constitue

Plus en détail

Management Interculturel

Management Interculturel Management Interculturel La mondialisation et l ouverture des marchés ont permis l interconnexion des mondes. Ces phénomènes ont en même temps accéléré la mutation des modes de pensée et de consommation.

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

ARCHIVISTIQUE ET INGÉNIERIE DOCUMENTAIRE

ARCHIVISTIQUE ET INGÉNIERIE DOCUMENTAIRE M a s t e r p r o f e s s i o n n e l Patrimoine collectivités territoriales décentralisée En Archivistique Banque, Finance, Assurance ARCHIVISTIQUE ET INGÉNIERIE DOCUMENTAIRE Information Scientifique

Plus en détail

Introduction à la méthodologie de la recherche

Introduction à la méthodologie de la recherche MASTER DE RECHERCHE Relations Économiques Internationales 2006-2007 Introduction à la méthodologie de la recherche geraldine.kutas@sciences-po.org Les Etapes de la Recherche Les étapes de la démarche Etape

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation Data WareHouse Plan Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation 2 Présentation Besoin: prise de décisions

Plus en détail

UNIVERSITÉ DE LORRAINE Master MIAGE (Méthodes Informatiques Appliquées à la Gestion des Entreprises)

UNIVERSITÉ DE LORRAINE Master MIAGE (Méthodes Informatiques Appliquées à la Gestion des Entreprises) UNIVERSITÉ DE LORRAINE Master MIAGE (Méthodes s Appliquées à la Gestion des Entreprises) 1 Description générale L UFR Mathématiques et propose le Master avec trois spécialisations en deuxième année : ACSI

Plus en détail

Communiqué de Lancement

Communiqué de Lancement Direction du Marketing Produits Sage - Division Mid Market Communiqué de Lancement Rapprochement Bancaire 1000 Produit : Rapprochement Bancaire 1000 Bases de Données : Oracle - MS/SQL Server Microsoft

Plus en détail

«L intelligence économique dans les business models des entreprises : où en sommes-nous?»

«L intelligence économique dans les business models des entreprises : où en sommes-nous?» APPEL A COMMUNICATIONS «L intelligence économique dans les business models des entreprises : où en sommes-nous?» 18 & 19 novembre 2015 IDRAC Business School, Lyon L IDRAC Business School, dans le cadre

Plus en détail

Entreposage de données complexes pour la médecine d anticipation personnalisée

Entreposage de données complexes pour la médecine d anticipation personnalisée Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

MASTER GESTION DES ORGANISATIONS ACHAT A L INTERNATIONAL M1 2014/2015

MASTER GESTION DES ORGANISATIONS ACHAT A L INTERNATIONAL M1 2014/2015 MASTER GESTION DES ORGANISATIONS ACHAT A L INTERNATIONAL M1 2014/2015 Formation sur deux ans en apprentissage I - DÉROULEMENT DE LA FORMATION La formation se déroule en apprentissage selon un rythme alterné

Plus en détail

Modélisation Multidimensionnelle des Tableaux de Bord Prospectifs

Modélisation Multidimensionnelle des Tableaux de Bord Prospectifs Modélisation Multidimensionnelle des Tableaux de Bord Prospectifs Zaia Alimazighi (*), Nazih Selmoune (*) (Alimazighi, Selmoune)@wissal.dz (*) Laboratoire des systèmes informatiques (LSI), Faculté d Electronique

Plus en détail

Programme Bachelor Semestre d automne 2015

Programme Bachelor Semestre d automne 2015 Programme Bachelor Semestre d automne 2015 Catalogue de cours Droit International p. 2 International Marketing p. 3 Business Development Strategy p. 4 Analyse & Gestion Financière p. 5 Business Games I

Plus en détail

Méthode d'organisation de la veille juridique

Méthode d'organisation de la veille juridique Méthode d'organisation de la veille juridique "Je vois de loin, j atteins de même", Jean de La Fontaine* * L'Oracle et l'impie Journée Juriconnexion 25 novembre 2014 1 Toute activité de veille, pour être

Plus en détail

Master Information Communication 2ème année Spé. Intelligence Economique et Territoriale

Master Information Communication 2ème année Spé. Intelligence Economique et Territoriale Formation Informations pédagogiques Modalités diverses Objectifs La formation Master Intelligence économique et territoriale s inscrit dans le domaine de formation des sciences de l information et de la

Plus en détail

Forge. Présentation ( )

Forge. Présentation ( ) ( RetourListeFichesParThèmes ) Forge Présentation Définition Objectifs Services fournis, fonctions disponibles Services en ligne d hébergement de projets La solution des logiciels intégrés pour le déploiement

Plus en détail

Macroscope et l'analyse d'affaires. Dave Couture Architecte principal Solutions Macroscope

Macroscope et l'analyse d'affaires. Dave Couture Architecte principal Solutions Macroscope Macroscope et l'analyse d'affaires Dave Couture Architecte principal Solutions Macroscope Avis Avis d intention Ce document a pour but de partager des éléments de vision et d intentions de Fujitsu quant

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Introduction : du management au e-management.

Introduction : du management au e-management. Introduction : du management au e-management. Henri Isaac, Université Paris dauphine, Observatoire du e-management Dauphine-Cegos. L émergence du terme e-management a suscité de nombreuses interrogations

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Introduction : présentation de la Business Intelligence

Introduction : présentation de la Business Intelligence Les exemples cités tout au long de cet ouvrage sont téléchargeables à l'adresse suivante : http://www.editions-eni.fr Saisissez la référence ENI de l'ouvrage RI3WXIBUSO dans la zone de recherche et validez.

Plus en détail

De la Business Intelligence au Balanced Scorecard, les outils de décision pour une Performance durable de votre entreprise

De la Business Intelligence au Balanced Scorecard, les outils de décision pour une Performance durable de votre entreprise De la Business Intelligence au Balanced Scorecard, les outils de décision pour une Performance durable de votre entreprise 3 ème édition Mercredi 21 novembre 2012 Hotel TIAMA, Abidjan Dossier de presse

Plus en détail

La plateforme IRM. La maitrise des risques. L accès à la plateforme

La plateforme IRM. La maitrise des risques. L accès à la plateforme Plateforme IRM La plateforme IRM Une vue 360 sur l activité Le management proactif La maitrise des risques La valorisation de l impact social Les caractéristiques techniques Le processus intégral de traitement

Plus en détail

PÉRENNISER LA PERFORMANCE

PÉRENNISER LA PERFORMANCE PÉRENNISER LA PERFORMANCE La recherche de performance est aujourd hui au cœur des préoccupations des organisations : succession des plans de productivité et de profitabilité, plans de reprise d activités,

Plus en détail

MANAGEMENT PAR LA QUALITE ET TIC

MANAGEMENT PAR LA QUALITE ET TIC Garantir une organisation performante pour satisfaire ses clients et ses partenaires, telle est la finalité d une certification «qualité». On dénombre de nombreux référentiels dont le plus connu et le

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

Le concept de veille. Définitions. Définition de l AFNOR

Le concept de veille. Définitions. Définition de l AFNOR Le concept de veille OPERMIND Alain DELABY / UFR TOURS Ecole Doctorale 17-18 et 19 mars 2004 1 Définitions Définition du Commissariat du Plan : L intelligence économique est l ensemble des actions coordonnées

Plus en détail

1. Étude réalisée par l AFOPE en 2005. 2. Hellriegel D., Slocum J. W., Woodman R. W., Management des organisations, Bruxelles, De Boeck, 1992.

1. Étude réalisée par l AFOPE en 2005. 2. Hellriegel D., Slocum J. W., Woodman R. W., Management des organisations, Bruxelles, De Boeck, 1992. Introduction 1 I n t r o d u c t i o n Créer des usines, des entreprises, des organisations, des méthodes, des produits, des services nouveaux suppose d avoir des équipes motivées, obéissant à un calendrier

Plus en détail

Je découvre Lina Maintenance

Je découvre Lina Maintenance Je découvre Lina Maintenance Une interface simple et ergonomique pour optimiser la maintenance de vos équipements 1 Sommaire Présentation 4 La plateforme Lina 5 Référentiel 6 Agenda et données personnelles

Plus en détail

Architecture client riche Evolution ou révolution? Thomas Coustenoble IBM Lotus Market Manager

Architecture client riche Evolution ou révolution? Thomas Coustenoble IBM Lotus Market Manager Architecture client riche Evolution ou révolution? Thomas Coustenoble IBM Lotus Market Manager IBM Workplace : permettre aux personnes de communiquer, de partager l information, quel que soit le terminal

Plus en détail