Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails, pages web, vidéos, photos. Ces informations non structurées représentent 80% des données circulant dans les entreprises. Afin de valoriser ces données et ainsi les transformer en actifs numériques, il faut pouvoir les sauvegarder, les indexer et les rendre facilement et instantanément accessibles. Également source de formidables gains de productivité, la gestion de cette masse d informations non-structurées est donc le nouveau défi que doivent relever les entreprises. Dans ce contexte, la société ANT'inno propose une solution puissante et innovante de gestion documentaire et d accès à l information de l entreprise, l'ant'box. Principes simplicité d'utilisation maximale, à l'alimentation et à l'exploitation (recherche d'information), simplicité de mise en exploitation, protection efficace des données, très grande capacité de stockage. 1
Vision fonctionnelle globale ANT'box propose essentiellement les fonctions suivantes Alimenter un contenu informationnel, Exploiter ce contenu, Protéger ce contenu. Alimenter un contenu informationnel L'alimentation du contenu peut se faire de plusieurs manières (glisser-déposer, envoi par courriel, dépose dans un répertoire partagé du serveur,..). Dans tous les cas, le Box créé un «mémo» accompagnant le document versé, fiche permettant de l'enrichir de manière facultative de méta-données : droits d'accès, index divers, positionnement dans divers plans de classement, liens avec d'autres informations. Dans le cas de documents bureautiques, la Box les convertit en pdf, en extrait le contenu textuel, en reconnaît la langue et l'indexe intégralement via une analyse linguistique approfondie. Tous les formats de fichier sont acceptés, sans aucun traitement spécifique si leur extension n'est pas connu de l'outil. Le contributeur alimente ainsi ce corpus avec très peu d'efforts et sans connaissances particulières. Les documents versés sont alors accessibles aux ayant droits, via une simple question exprimée en langage courant, dans la même langue que celle du document ou dans une des autres langues mises en œuvre dans la plate forme. 2
Exploiter le contenu Différents moyens sont mis à la disposition de l'utilisateur pour exploiter le contenu : Consulter «à la découverte» : il peut visualiser le contenu, par exemple suivant un accès chronologique, Consulter de manière ciblée : il peut aussi demander tous les documents d'un projet, d'un certain type ou toute autre méta-donnée spécifiée, Rechercher de manière «ouverte» : il peut poser une question, en langage courant, à laquelle l'outil répond de manière structurée. Les documents «réponses» sont organisés par niveau de pertinence. Cette pertinence est «expliquée» simplement afin que l'utilisateur sache avant de les ouvrir quel est leur intérêt potentiel par rapport à la question posée. Cette pertinence s'appuie à la fois sur les mots «significatifs» de la question, mais aussi sur leurs liens syntaxiques et leurs synonymes courants. Cette possibilité assure l'accessibilité des documents sans aucune connaissance particulière de l'éventuelle organisation du contenu, Rechercher de manière filtrée : l'utilisateur peut aussi interroger le contenu via une requête combinant différentes méta-données. Ce même type de requête peut aussi filtrer une recherche en langage courant, Visualiser le déroulement d'un processus : les liens entre mémos, positionnés par les contributeurs, sont visualisables graphiquement, donnant à voir différents types d'enchaînements : processus de réflexion collective, déroulement d'un projet, enchaînement d'évènements, etc, Visualiser une partie du contenu : les méta-données valorisées par les contributeurs permettent de calculer, et de visualiser, des «cartographies» d'informations. Ces cartographies, sous la forme de tableaux à deux dimensions, éventuellement filtrées par d'autres méta-données (dates, etc..), sont autant de tableaux de bord focalisés sur certaines informations (croisement de préoccupations de veille, avancement de différents projets, etc.). 3
Protéger le contenu Les droits d'accès aux informations sont définis au niveau de chaque mémo : en lecture, via les notions combinées de liste d'accès (utilisateurs ou groupes) et de niveau d'habilitation. Cette combinaison assure une réponse simple et souple à des besoins organisationnels très variés, en écriture, via la notion supplémentaire de co-rédacteur. Sans co-rédacteur, un mémo et le document associé, n'est modifiable que par son rédacteur (le contributeur qui a versé le document dans la base), ce qui garantit, et protège, l'auteur du mémo. De plus, le lecteur d'un mémo associe la crédibilité de ce qu'il lit à sa connaissance de l'auteur indiqué dans le mémo, ce qui, dans un contexte d'expertise nous semble tout à fait indispensable. (33) 4 66 33 68 02 06 30 63 23 86 4 http://www.antinno.com
Traits caractéristiques généraux Alimentation Tout actif numérique : texte, image, plan, audio, vidéo,... Glisser-déposer de documents Sélection d'un fichier par un explorateur Alimentation par envoi de courriel Écriture de mémo par un éditeur Collecte automatique de documents Coffre-fort à documents et connaissances Analyse syntaxique du texte et indexation automatique Extraction du texte des images par OCR Génération automatique de PDF pour les documents texte Génération automatique de JPEG et de vignette pour les documents image Ajout optionnel de texte et méta-données Recherche et consultation Recherche en langage naturel Recherche crosslingue Recherche par méta-données Recherche combinant langage naturel et méta-données Filtrages par méta-données, par langue, etc Résultat ordonné par pertinence Prévisualisation des mémos et documents trouvés Navigation dans le résultat des recherches Navigation graphique par les graphes de proximité Publication Format original pour tous les documents PDF pour les formats texte JPEG pour les formats image HTML pour les mémos 5
Utilisateurs et droits Contributeurs identifiés pour l'alimentation et la consultation, Lecteurs identifiés pour la consultation, Lecteurs anonymes (invités) pour la consultation des documents publics, Annuaire des utilisateurs (contributeurs et lecteurs identifiés), Niveaux d'habilitation pour chaque utilisateur, Liste de contrôle d'accès (ACL) pour chaque mémo, Groupes d'utilisateurs et niveaux d'habilitation associés, Partage, collaboration Espace personnel Annotation par mémos, Cycle de vie des documents, brouillons, révisions, nouvelles versions, Abonnement aux nouveautés par déclaration de centres d'intérêt en langue naturelle, Notification par courriel d'un dépôt à l'initiative du déposant, Notification par courriel d'un dépôt par détection automatique d'un centre d'intérêt, Clavardage (discussions instantanées, mémorisables sur demande) 6
Modules optionnels ANT'web ANT'box web est une application spécifique dédiée à la consultation du contenu, s'appuyant sur une interface Web directement intégrée au navigateur utilisé. Les mécanismes de recherche et de consultation sont les mêmes que ceux offerts par l'application principale : question en langage naturel, filtrage sur les méta-données. L'IHM est personnalisable, en termes de charte graphique, et est susceptible d'être intégrée à un portail de type site Intranet ou Internet. ANT'crawl Cette application permet d'élargir le corpus à des sources d'informations externes qui seront automatiquement indexées et susceptibles d'être présentées en tant que réponses à une recherche de l'utilisateur. Ainsi, sans modification d'organisation, par une simple déclaration (paramétrage) de sources, le contenu de ces sources sera comme intégré au corpus d'ant'box. Ces sources peuvent de différents types : sites Web, disques partagés, site ftp ou base de données. NB : Par extension le contenu d'outils de type «gestion de contenu» (GED ou autre) peut aussi être intégré de la même façon. Il suffit de préciser, et développer, la fonction d'accès à leur contenu. Le paramétrage de cette collecte s'effectue dans l'outil d'administration de données, ce qui permet aussi de définir les plages horaires d'indexation des différentes sources et la fréquence d'indexation (journalière, hebdomadaire, mensuelle...).dans le cas d'une collecte de sites Web ou de disques partagés, seules les nouvelles données sont indexées. Dans le cas d'une base de données, le premier champ est utilisé comme clé primaire numérique et seuls sont indexés les enregistrements dont la clé primaire est supérieure au maximum de la dernière indexation. Les erreurs sont tracées dans un fichier journal. 7
ANT'ocr La reconnaissance automatique de caractères permet d'intégrer des documents issus d'une scanérisation (photo numérique). Ces documents peuvent initialement être des textes (en général au format pdf image ) ou des photos, des plans, et autres: dés lors qu ils contiennent du texte, la fonction OCR permet d adjoindre automatiquement au fichier au format natif (pdf image, tif, jpg, etc.) un fichier texte identifiant les mots (caractères) qu'ils contiennent (format pdf texte ), et dont le contenu est indexé. Autrement dit, le contenu textuel de ces actifs est alors accessible à la recherche au même titre que les autres actifs. (33) 4 66 33 68 02 06 30 63 23 86 8 http://www.antinno.com
Caractéristiques techniques Machine serveur PC sous Windows Server 2008 R2 64 bits Base documentaire compressée, espace disque (hors données) : environ 100 Mo, RAM : 8 Go, ou plus, Accès réseau à 2 Mo/s ou plus, Adresse mail et Adresse HTTP, Réception messagerie POP3 de préférence, ou IMAP, Applications installées pour le Serveur : base de données SQL, Apache, serveur ANT'box, moteur d indexation et de recherche, logiciel Open Office de conversion au format PDF, Serveur de nom CORBA. Si le serveur est en intranet (sur une machine du Client), la base de données est fournie et installée par le Client. ANT'inno peut fournir et installer la version gratuite de SQL Server de Microsoft La base de données doit être une base SQL, les versions supportées sont: SQL Server 2008, MySQl 5.1. Poste client Les types de machines et de logiciels requis pour le poste client sont : PC sous Windows XP/Vista/Seven, Unix, Linux Machine Apple MAC OS X, RAM : 2 Go, ou plus, Navigateur IE 6.0 +, FireFox 5.0 +, Chrome, et VM Java 1.6 + et Acrobat Reader. Il n'y a pas d'installation à faire sur le poste client, une simple connexion au serveur sur lequel l'application est installée suffit Volumétrie ANT'box gère un document donné selon les quatre formats suivants : 1. le document dans son format natif (Word, Excel, ) compressé, environ 30% de la taille au format natif, 2. le document dans son format PDF compressé, environ 30% de la taille du format natif, 3. le texte extrait non compressé, environ 20% de la taille du format natif, 4. l'index généré par le moteur de recherche ANT'search, environ 2 fois la taille du format natif La volumétrie totale est donc égale à environ 3 fois la taille des fichiers natifs. 9