Un document APROGED avec les contributions de : Ever Team, IBM, Intellique, Novadys, Normier, Banctec, Proxem, Magillem



Documents pareils
CONTRIBUTEURS MEMBRES APROGED... 2 CONTRIBUTEUR EXTERNE A L APROGED... 2

Déjeuner de la Technologie 23 Mars 2007 Gestion de Documents Electroniques. Thierry GUILLOTIN - Elie FRANCIS EVER TEAM

Constat ERP 20% ECM 80% ERP (Enterprise Resource Planning) = PGI (Progiciel de Gestion Intégré)

Algoba Systems valoriser et partager leur patrimoine numérique Orphea Studio

Gérez et diffusez vos contenus médias

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

Introduction au Data-Mining

ELOECM Conference2015

PRESENTATION 2009 L'ingénierie Documentaire

CIMAIL SOLUTION: EASYFOLDER SAE

Optimisez vos échanges avec vos clients. RF-CLOUD, l espace d échanges et de stockage sécurisés de vos documents professionnels!

LIVRE BLANC Décembre 2014

Campagne de Communication Prévisionnelle. Web Intelligence & Réputation Internet

... Catalogue des solutions. Rechercher. Indexer. Partager. Sommaire

Optimiser sa présence sur les médias sociaux

Bonnes pratiques RÉSEAUX SOCIAUX DES

Lundi de l Economie l Mardi 19 novembre. Foix. CCI Ariège

QUI SOMMES-NOUS? Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, disposant ou non d une structure de veille dédiée.

Cognit Ive Cas d utilisation

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

Fonctionnalités principales par métiers.

Créer un site e-commerce avec PrestaShop Cloud Mise en place et suivi du projet

Portail collaboratif Intranet documentaire Dématérialisation de processus

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

18 SEPTEMBRE E-réputation : une image positive pour une stratégie de conquête!

Gestion collaborative de documents

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Logiciel de capture et de gestion des flux de documents MOINS DE PAPIER, PLUS D EFFICACITÉ.

Convergence de A à Z 10000

Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, qu ils disposent ou non d une structure de veille dédiée.

Extensions, Documentation, Tutoriels, Astuces

Cours de Community Management Master 2 CAWEB

Marc SALLIERES CEO ALTIC

«Les nouvelles technologies & les compétences numériques»

(OPINIONS 2.0) Le rapport de restitution (papier et digital) reprend la totalité des réponses avec le classement des occurrences (histogrammes)

DIGITAL MINDS. Chapitre 7, Les médias sociaux. 12 Clés pour Développer votre Business sur le Web WSI. All rights reserved.

LE MEILLEUR DES SOLUTIONS COLLABORATIVE OPEN SOURCE. et pas que la GED

Recommandation prédictive

Les réseaux sociaux au service de l emploi

E-réputation Méthodes et outils pour les individus et les entreprises

Stratégie webmarketing

Documalis. Denis SCHIRRA GSM : Plus d information sur notre site Internet

communication digitale

TEXT MINING Tour d Horizon

I) - DEFINITIONS I-A) TERMINOLOGIE

Big data* et marketing

Déployer une Stratégie Web Globale

ELOECM Conference2015

Logiciel de capture et de gestion des flux de documents MOINS DE PAPIER, PLUS D EFFICACITÉ.

Livret de Stages 2014 / 2015

L environnement de travail de Windows 8

Anticiper et prédire les sinistres avec une approche Big Data

LoReNa : pour dynamiser votre Relation Client (CRM)

3 propos illustrant la transformation numérique de PagesJaunes Groupe

SAN07 IBM Social Media Analytics:

Formation Découverte du Web

Les enjeux de la dématérialisation du courrier entrant

Enterprise Content Management Introduction à la GED dans l entreprise (30 min)

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Les RH à l ère du Big Data: faites parler vos données! Mesurez et optimisez la performance de vos programmes RH 18 septembre 2013

accueil Ecole Supérieure du Numérique de Normandie Animateur Webmarketing

Gérer son e-réputation

+33 (0) Sarl ISB Altipolis2 av. Du Général Barbot Briancon - France

ARCHIVAGE. FastScan Archiving

Editoile Académie Mathieu Renault, formateur 9 rue Vauban Bordeaux Tél formation@editoile.fr

Le logiciel qui simplifie les relations avec tous les publics

PrestaShop Cloud. Créer un site e-commerce avec. PrestaShop Cloud. Mise en place et suivi du projet. Créer un site e-commerce avec

Bibliothèque Esparron en livres.

Les nouvelles technologies et les réseaux sociaux au service de l évènement. Inviter

Veille stratégique sur Internet Comprendre les enjeux, maîtriser les outils et partager l'information

Apprentissage Automatique

Solutions Open BeeTM. L extension documentaire de votre multifonction Konica Minolta OPEN BEETM. * La passion de l innovation

UserReplay. UserReplay. Départments ecommerce et Marketing. Service Client. Web Ops/ Infrastructure: Développement du site et Support technique

Création de site internet

DEMANDE D INFORMATION RFI (Request for information)

Un outil de communication et de Formation Agricole au service des jeunes ruraux

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Votre Intranet Collaboratif et sa dimension Réseau Social d Entreprise

Avantic Software Présentation de solutions GED pour mobiles (Gestion Electronique de Documents)

Transformation IT de l entreprise FAIRE DU DÉVELOPPEMENT D APPLICATIONS UN SYNONYME D AGILITÉ

Programme de formations 2012-S1

CONFÉRENCE WEB 2.0. UPDATE ASBL Michaël Barchy 23 janvier 2013

À PROPOS DE TALEND...

Pass / 28 Novembre By Philippe Coudol

Créer et animer une boutique en ligne avec Wordpress (environnement PC et MAC)

Les Ateliers Info Tonic. E-réputation : pourquoi et comment piloter son identité numérique? Mardi 15 janvier 2013

Design. Search. Cloud AMOA ECM. Intégration. IT Solutions. Formation. Développement. Mobilité. Open source. Infogérance. Ergonomie

LA TABLETTE, UN OUTIL POLYVALENT!

Rédiger : le numérique dans la préparation de la thèse

Google Apps for Business

RÉSEAUX SOCIAUX & BTOB

Gestion d E-réputation. Management de marque

ROI et performance web

Mode d emploi. Bienvenue sur notrehistoire.ch et merci de votre inscription. Introduction

Prestations (extrait) & grille tarifaire


Réseaux sociaux et recrutement : Quand, Pourquoi, Comment? présentation : Patrick Debray tél info@dmd.ch

Transcription:

Un document APROGED avec les contributions de : Ever Team, IBM, Intellique, Novadys, Normier, Banctec, Proxem, Magillem Groupe de travail piloté par Ever-Team 04 / 2013

Toujours plus de contenu Croissance de la volumétrie quotidienne des données 15 petabytes (1015) par jour 90% des contenus datent de moins de 2 ans 80% de l information est disponible sour une forme non structurée

Cohabitation des types de contenu Pas de séparation stricte entre le contenu structuré et non structuré. Constante cohabitation Contenu structuré: Reference d une tablette dans un catalogue (Marque, mémoire vive, résolution écran, ) Contenu non structuré mais lié Documents attachés : mode opératoire, texte réglementaire ou/et normatif associé, avis de consommateurs sur des forums, J aime sur Facebook ou Linkedin,

SAE Nulérisation Gestion des contenus non structurés (ECM = GED + BPM + SAE) COLD Fax ICR Acquisition Extraction Qualification Indexation PDF email Coffre-fort MoReq Record Classement Recherche Archivage Gestion Cycle de vie création Circulation Workflow Tâches QR Code BPM Case Management

Les 3V de l ECM Gérer l augmentation des volumes (Volume) Acquisition (numérisation, capture, ) Espaces de stockage, Cloud Storage, Sécuriser les contenus (sauvegardes, PRA, PCA) Gérer la diversité des contenus (Variété) Techniques (CAD), bureautiques Word, Excel, ), documents hybrides : Emails,.. Documents secrets : anonymaisation, chiffrement, Documents multimédias, vidéos, enregistrements sonores, Documents multilingues : thesaurus linguistique, lemmatisation, Documents multi métiers : états comptables, factures, documents RH, contrats, PV d AG, Valoriser et maîtriser les contenus (Valeur) Indexation, catégorisation, classement Recherche plein texte Archivage

La valorisation des contenus GED LinkedIn SAE Sources Contenus internes Réseaux sociaux Collecte Connecteurs Extraction des contenu CDMI Content Analytics Un coup d avance : Tendances et e-reputation Sens Text Mining Extraction des entités Détection des signaux Analyse morphologique, tonalité

Les 4 V de la Big Data économie Volume : Gérer l accroissement des volumes Variété : Détecter les relations entre les contenus Valeur : Valoriser les données extraites Vélocité : Détecter les tendances, les exceptions et signaux faibles et surveiller les évolutions.

Type de média: Sources de contenu et réseaux sociaux Contenu d entreprise (ECM, GED, ) Fil d information : twitter Classiques : Facebook, Linkedin, Google + VCA : Youtube Type de contenu Classiques : Articles, photos, vidéos, Commentaires : pauvres (kdo), riches, Tags : classification, catégorisation Opinion : Like, ou aucun deux indicateurs

Analyse niveau 1 Time line, population, géolocalisation, fréquentation Google Analystic Youtube Insight Des information sur : les contenus L intérêt associé Les catégories de contenu La fréquentation

Analyse niveau 2 : Text mining Le Text Mining, base du Content Analytics, repose sur des contenus textuels Extraction Web : du formulaire Web au métadonnées textuelles Speach2Text : De la parole au texte Image2Text : OCR, ICR, Barcode, Qr code, Video2Text : VCA = Speach2Text+ Image2Text++

Du texte au sens Extraction des entités nommées Entités connus (listes d autorité de produits, sociétés, ) Extraction des thématiques Entités découvertes (par analyse) Identifier les entités qui ne sont pas des entités nommées Extraction des opinions Analyse des avis, opinion mining, sentiment analysis

Analyse des sentiments Analyse globale Un texte dégage une tonalité positive ou négative Ex. Le beaujolais Nouveau est bon cette année Analyse fine Difficultés lorsque plusieurs opinions sont exprimées: Ex. Un avis sur un restaurant peut avoir une tonalité globalement positive sur la carte, l accueil mais des réserves peuvent être négatives sur le prix.

Analyse des tendances Natural Language Processing chaque mot à une tonalité intrinsèque : «aimer», «satisfait», «soulagement» sont positifs «Craindre», «mécontent» «douleur» sont négatifs Cependant Ce médicament me donne des douleurs négatif Ce médicament calme mes douleurs positif Ce médicament ne calme pas mes douleurs négatif J espérais que ce médicament calmerait mes douleurs négatif Est-ce que cela a calmé tes douleurs? pas de tonalité Ce médicament est indiqué pour calmer les douleurs pas de tonalité

Analyse des tonalités Les adverbes ou adjectifs inverse souvent la tonalité Diminution des bénéfices négatif Augmentation des bénéfices positif Une augmentation scandaleuse des bénéfices négatif Ce projet de loi devrait permettre e mettre un coup d arrêt à l augmentation scandaleuse des bénéfices du CAC40 Tonalité??? L analyse linguistique est indispensable pour résoudre ces ambiguïtés (composants morphologique, syntaxiques, sémantiques)

Composants d analyse Morphologique La tokenisation : identification des mots et des phrases d un texte (découpage) Le tagging: identification de la catégorie (verbe, nom, adjectif, ) La lemmatisation : identification de la forme canonique des mots (ou lemme)

Composants «syntaxiques» Analyse de surface d une phrase (chuncking) Identification des frontières majeures et/ou de relations majeurs entre les mots. Ex: Entité nommé Les actionnaires d Ever-Team ont décidé Ever-Team est une société

Composants «syntaxiques» Analyse de surface d une phrase (chuncking) Ex. Règles pour reconnaitre un nom de personne: «Prénom non ambiguë» suivi de «mot inconnu» nom de personne. Ex. «Joseph Merheb» «Prénom ambiguë» «mot inconnu» «nom de personne». Ex. Claire Merheb «Prénom ambiguë «nom commun» «nom de personne». Ex. Claire Potier

Composants «syntaxiques» Analyse syntaxique (parsing) Construction d un arbre représentant la structure de la phrase complète Ex. La société Ever-Team a pris une participation de 90% dans la société Creativ System [Société X] (actionnaire de) [société Y]

Composants «sémantiques» Sélection du sens (WSD pour Word Sense Disambiguation) Déterminer le sens de chaque mot lorsqu un mot à plusieurs sens : boucher verbe, métier? Résolution des anaphores Ex. François Hollande à peine élu. Il a déjà rencontré Obama, après avoir vu Angela, il lui a parlé.

Composants «sémantiques» Extraction de thématiques Le boucher propose du veau thématique commerce alimentaire L évier vient de se boucher thématique plomberie Limites de l exercice Les jumelles de ma voisine viennent de naître Ma voisine a des jumelles elle s en sert peu

Catégorisation Méthodes basées sur l apprentissage Lors de l arrivée d un nouveau contenu, une ou plusieurs catégories lui sont affectées. Nécessite l existence d un Corpus qui permet de construire un référentiel statistique (ES-CTS) Méthodes basées sur des profils linguistiques associées aux catégories Définir des formules de recherche thématiques associées aux catégories. Ex. Si recherche «mai 68» catégorie : manifestation

Exceptions et signaux faibles Définition des Signaux faibles : Relève souvent de la sphère de la veille (technologie concurrentielle, commerciale, environnementale, sociale, ) Elément peu visible, inattendu, perdu dans la masse Signal de faible fréquence, qu un agent a intérêt à détecter et à exploiter au plus tôt surveillance à mettre en oeuvre Surveillance et détection Proposition de candidats (fréquence d apparition est en croissance) Analyse dans l espace temps Pose de seuil d alerte : passage du signal faible au signal fort

2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 (janvier à Juillet) Exceptions et signaux faibles 2 500 000 35 000 000 2 000 000 1 500 000 30 000 000 25 000 000 20 000 000 1 000 000 500 000 15 000 000 10 000 000 5 000 000 "big data" dans les blogs (google) "big data" sur le web (google) - - Evolution du nombre de résultats de la recherche du buzz word "big data" via Google

Simplifier et représenter Représentation des contenus Gérer le niveau de détail : Corrélation entre la taille des données à analyser et le niveau de détail représenté représenter des statistiques sur 22 régions de France / sur 36700 communes. Définir le type de données à représenter: Données brutes, numériques Données calculées (comptage, somme, ) Données annotées Données habillées par du texte explicatif

Simplifier et représenter Possibilité d interactivité Dépendant du média : Zoomer, utiliser un curseur pour naviguer, un slider, Possibilité d utiliser des facettes Affectation de facettes sur les contenus pour permettre d avoir une navigation synthétique et guidée

Exemples de représentation

Exemples de représentation

Exemple d application du Content Analytics Réduction des risques dans une compagnie d assurance Amélioration de l efficacité des investigations policières Réduction du taux d attrition clients dans une société de telco Application d une taxe écologiste e@reputation d une personne, d une marque, d une société

Réduction des risques dans une compagnie d assurance Les besoins Détection et prévention de la fraude. Meilleure analyse des risques. La solution Analyse des dossiers de traitement des dommages des 15 dernières années, plus de 15 sources différentes. Détermination de profils et évolutions de comportements. Les bénéfices Proposition de catégorisation automatique des déclarations de sinistre selon niveau de risque et probabilité de tentative de fraude. Traitement par exception et suivi des déclarations à risque. Rapidité du traitement des dossiers. Réduction des coûts. Expertise croissante.

Amélioration de l efficacité des investigations policières Les besoins La partie rédactionnelle des déclarations d homicides, des rapports d investigations et d expertises emploient des termes sans standardisation dépendant de chaque individu. Il n est pas possible d exploiter ces informations. La solution Analyse de l ensemble de ces documents avec extraction d informations permettant une caractérisation des faits indépendamment du mode de formulation de chaque auteur. Les bénéfices techniques Capacité de traiter une information volumineuse avec mise en évidence de corrélations (homicides, auteurs, ) permettant la résolution de dossiers, la détermination de profils et une approche prédictive du comportement criminel

Réduction du taux d attrition clients dans une société de telco Les besoins Accroitre la satisfaction clients. Etre à l écoute de la «Voix du client» pour identifier de nouvelles opportunités, éviter des ruptures de contrat par une réponse plus efficace aux incidents et la proposition de nouveaux services. La solution Analyse des rapports d intervention du centre de support, des enquêtes de satisfaction et des messages clients. Identification pour action des clients à risque de rupture. Meilleur traitement des incidents fréquents par un site d information. Détermination de corrélations entre problèmes, comportements et offres Les bénéfices Diminution du taux d attrition de 50 %. Définition de nouvelles offres. Amélioration du support.

Application d une taxe écologiste Les besoins Mettre en œuvre une taxe écologiste pour les véhicules qui circulent sur les routes nationales et les voies rapides françaises. Gérer la volumétrie engendrée par l émission des points de collecte de passage des usagers. Etablir une taxe liée aux relevés de passage. La solution Collecte des points de passage des usagers. Extraction des entités (lieux, point de passage, identité, ) pour établir la taxe. Analyse des données par les organismes habilités au contrôle. Archivage à valeur probatoire. Les bénéfices techniques Mise en place d un mécanisme de calcul de la taxe basé sur l utilisation du réseau routier. Analyse des données pour optimisation de la taxe Détection de la fraude.

e@reputation e@reputation en B to C l individu au cœur de la Big Data Ebay : notation des vendeurs e@reputation en B to B L entreprise au cœur de la Big Data Valorisation des marques et du savoir faire Publications APROGED DocuCloud E-Reputation B2B Ethique et Big Data Video Content Analytics Archivage sur le Cloud

Merci pour votre écoute Christian DUBOURG Directeur EVER TEAM Software Editeur de progiciel ECM et Content Analytics Secrétaire APROGED c.dubourg@ever-team.com www.ever-team.com Tél. 06.82.85.32.80