Fouille de données et sémantique : des techniques pour donner du sens aux données

Documents pareils

Introduction au Data-Mining

Introduction au Data-Mining

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Big Data et Graphes : Quelques pistes de recherche

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Apprentissage Automatique

Masses de données et calcul : à l IRIT. 8 octobre 2013

Introduction au datamining

Big Data et Graphes : Quelques pistes de recherche

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Spécificités, Applications et Outils

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Extraction d informations stratégiques par Analyse en Composantes Principales

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Présentation générale du projet data.bnf.fr

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Les Entrepôts de Données

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

La classification automatique de données quantitatives

BIG DATA en Sciences et Industries de l Environnement

Big data : vers une nouvelle science des risques?

Analyse de grandes bases de données en santé

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

TEXT MINING Tour d Horizon

TRAVAUX DE RECHERCHE DANS LE

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

ISTEX, vers des services innovants d accès à la connaissance

PROFILAGE : UN DEFI POUR LA PROTECTION DES DONNEES PERSONNELLES Me Alain GROSJEAN Bonn & Schmitt

Open Data. Enjeux et perspectives dans les télécommunications

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Jean-François Boulicaut & Mohand-Saïd Hacid

Panorama des solutions analytiques existantes

4.2 Unités d enseignement du M1

Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan

Data Mining. Master 1 Informatique - Mathématiques UAG

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Le cinquième chapitre

Big Graph Data Forum Teratec 2013

Enjeux mathématiques et Statistiques du Big Data

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Entreprise et Big Data

Introduction Big Data

Conserver les Big Data, source de valeur pour demain

#BigData Dossier de presse Mai 2014

LIVRE BLANC Décembre 2014

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Hervé Couturier EVP, SAP Technology Development

THOT - Extraction de données et de schémas d un SGBD

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Publications, ressources, liens, logiciels,

Les technologies du Big Data

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Gestion collaborative de documents

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

UE 8 Systèmes d information de gestion Le programme

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Catalogue des formations Edition 2015

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Urbanisation des SI-NFE107

Pentaho Business Analytics Intégrer > Explorer > Prévoir

L apprentissage automatique

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Présentations personnelles. filière IL

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

Architectures d'intégration de données

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Travaux pratiques avec RapidMiner

Vision prospective et obstacles à surmonter pour les assureurs

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Business Intelligence avec Excel, Power BI et Office 365

Anticiper et prédire les sinistres avec une approche Big Data

JDev Atelier Datalift

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Conception des systèmes répartis

Problématiques de recherche. Figure Research Agenda for service-oriented computing

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

25 % EXPERTS PAR AN. + de de 35. près de 50 DE CROISSANCE DE L OPEN SOURCE ANNÉES D EXPERIENCE AU SERVICE DE L OPEN SOURCE

Introduction à la B.I. Avec SQL Server 2008

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Recherche bibliographique

Intégration de données hétérogènes et réparties. Anne Doucet

Ingénierie et gestion des connaissances

Business Intelligence

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

et les Systèmes Multidimensionnels

Transcription:

Fouille de données et sémantique : des techniques pour donner du sens aux données Nathalie Aussenac-Gilles (IRIT) co-animatrice avec M. Boughanem de l axe masse de données et calcul http://www.irit.fr/-masses-de-donnees-et-calcul,677-?lang=fr Responsable de l équipe MELODI aussenac@irit.fr Fouille de données et sémantique - MP-I 1

plan Fouille de données Définitions Techniques classiques Fouille de données et web Des données qui ont du sens Complémentarités : exemple de l analyse de textes Fouille de données et sémantique - MP-I 2

Fouille de données ou data mining : définitions Knowledge discovery in data bases (KDD) G. Piatetsky-Shapiro,1990 Des définitions Extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semiautomatiques. (Wikipedia) Processus d extractions automatique d informations prédictives à partir de grandes bases de données. Processus de découverte de règle, relations, corrélations et/ou dépendances à travers une grande quantité de données, grâce à des méthodes statistiques, mathématiques et de reconnaissances de formes. https://moodle.insa-rouen.fr/mod/resource/view.php?id=1916 Fouille de données et sémantique - MP-I 3

Fouille de données ou data mining : exemple 1 Exemple de données individuelles Revenu Espérance de vie Exemple de données collectives : pour un pays PIB Mortalité infantile Incidence de la tuberculose Exemples de corrélations ou règles Pays / taux de mortalité infantile (localiser les données) Évolution du Pib depuis 50 ans (dimension temporelle des données) Lien PIB / mortalité infantile Lien PIB / espérance de vie / mortalité infantile Proposer de nouveaux indicateurs notion de qualité de vie d un pays Visualiser ces indicateurs Fouille de données et sémantique - MP-I 4

Visualiser la qualité de la vie / pays A. N. Gorban, A. Zinovyev, Principal manifolds and graphs in practice: from molecular biology to dynamical systems, 2010 Fouille de données et sémantique - MP-I 5

Fouille de données ou data mining : aller plus loin Automatiser Trouver les indicateurs intéressants Identifier les corrélations qui ont du sens ou sont utiles Enjeux Commerciaux et économiques Données sur le client > réponses optimales pour le client et l entreprise Techniques Statistiques Apprentissage automatique Gestion de données Calcul haute performance Un domaine en plein essor Visualisation consultation Collecte Stockage Calcul Analyse Fouille de données et sémantique - MP-I 6

Exemple : analyse de risques Détection de fraudes pour les assurances Données : déclaration des assurés Technique : Apprentissage supervisé Analyse des déclarations par un expert pour identifier les cas de fraudes. Extraction de caractéristiques à partir de ces déclarations (type d accident, de blessures, etc...) Applications de méthodes statistiques pour identifier les caractéristiques des déclarations fortement corrélées à la fraude. Prêt Bancaire Objectif des banques : réduire le risque des prêts bancaires. Données : BS clients, historique de leurs transactions, emprunts, etc Technique : Apprentissage non supervisé Créer un modèle capable de Identifier des caractéristiques qui discriminent les clients à risque Appliquer ce modèle sur un jeu de données Fouille de données et sémantique - MP-I 7

Techniques de la fouille de données Données 1 individu = 1 vecteur de I caractéristiques valuées Ex: revenus et emprunts du client 1 Étude de J individus (variables) Statistique pour comparer, grouper, analyser les données Lois (binomiale, moindre carrés, variance ) Inférences statistiques, corrélations Analyse factorielle des correspondances entre données Traitement de lots de données Identification de séquences, de régularités, de classes Ex de logiciels : Matlab, R Fouille de données et sémantique - MP-I 8

Techniques de la fouille de données Types d apprentissage automatique (Machine learning) Apprentissage supervisé Apprentissage non-supervisé Apprentissage semi-supervisé WEKA http://www.cs.waikato.ac.nz/ml/weka/ Visualisation de données Logiciel pionnier : Mineset (1996) http://users.dcc.uchile.cl/~rbaeza/cursos/visual/sg/ On line : RapidMiner http://rapidminer.com/products/rapidminer-studio/ Logiciels pour tout le cycle de fouille Trétralogie http://atlas.irit.fr/pie/outils/tetralogie.htmlknime Knime http://www.knime.org/ RapidAnalytics http://rapidminer.com/products/rapidminer-server/ http://www.siliconafrica.com/the-best-data-minning-tools-you-can-usefor-free-in-your-company/ Fouille de données et sémantique - MP-I 9

Tétralogie (B. Doucet, IRIT) Fouille de données et sémantique - MP-I 10

Etapes d un projet classique de fouille de données 1. Comprendre et analyser les objectifs de l application 2. Créer une base de données pour la mise au point de l application Caractéristiques / individus 3. Prétraitement et nettoyage des données Éliminer les données bruitées, erronées, etc. 4. Analyse statistique des données (réduction de la dimension, projection, etc...) Matrices creuses, matrices triangulaires 5. Identifier le type de problèmes ( discrimination, clustering, etc...) et choisir un algorithme. 6. Evaluer les performances de l algorithme. 7. Réitérer les étapes précédentes si nécessaire. 8. Prévoir un mode de restitution des résultats visualisation des données et des analyses 9. Déployer l application. Fouille de données et sémantique - MP-I 11

plan Fouille de données Fouille de données et web Nouveaux enjeux Exemples Nouveaux défis techniques Des données qui ont du sens Complémentarités : exemple de l analyse de textes Fouille de données et sémantique - MP-I 12

Un nouvel essort : pourquoi? Plus de données De nouvelles infrastructures Le web, les entrepos de données Le Cloud > stockage distribué ET calcul distribué Calcul parallèle accessible (Hadoop etc.) La puissance de calcul (1000 tera-flops ) De nouveaux algorithmes Pour traiter de gros volumes de données et chercher des corrélations Avancées en Machine Learning, agents adaptatifs, programmation génétique Pour gérer l accès aux données Pour s adapter dynamiquement à des situations nouvelles Fouille de données et sémantique - MP-I 13

Plus de données, plus de problèmes? L échelle, le volume L hétérogénéité La vélocité La complexité Sécurité, faibilité, confidentialité, Fouille de données et sémantique - MP-I 14

Diversification de l origine des données Enterprise Apps Scientific data Web Apps Device explosion Machine Data Fouille de données et sémantique - MP-I Social Media Data 15

Rapidité de production des données 16 Enjeux économique fort : Les données sur les usages Qui détient ces données? Les producteurs de produits et de services Les producteurs d application web Fouille de données et sémantique - MP-I

Le phénomène Big Data Fouille de données et sémantique - MP-I 17

Nouveaux défis pour fouiller les données Une nouvelle manière de définir des applications Partir des données pour proposer de nouveaux services Combiner plusieurs types de données hétérogènes et complexes Nouveaux modèles économiques associés au web De nouvelles fragilités Sécurité dans le transfert des données Confidentialité / propriété des données (part. Données sociales) De nouveaux marchés et modèles économiques Données PUBLIQUES, OUVERTES, notion de COMMONS Des applications grand public sur le web Accès à l information : croiser de multiples sources Prise de décision Fouille de données et sémantique - MP-I 18

plan Fouille de données Fouille de données et web Des données qui ont du sens Le projet du web sémantique Bases des technologies du web sémantique Les linked Open Data Complémentarités : exemple de l analyse de textes Fouille de données et sémantique - MP-I 19

Le projet du web sémantique Projet de Tim Berners Lee dans la continuité de la création du web Connecter des ordinateurs Client-serveur Protocole http Connecter des documents / des contenus Hypertexte Connecter des ressources : Services, objets, personnes du monde et le web Identifiant unique de ressource URI Fouille de données et sémantique - MP-I 20

Sémantique dans web sémantique Donner du sens = Associer un type, une catégorie aux données Les représenter dans un format standard Permettre à un système informatique de les manipuler sans connaissance a priori Ex: web classique versus web sémantique Fouille de données et sémantique - MP-I 21

Exemple d application : Google Knowledge Graph Connecte les index de Google des données structures construites à partir du web Exploite la description structurée d entités (personnes, monuments, villes, ) Flower Person HasType Rose#1 Rose HasType Rose#2 Fouille de données et sémantique - MP-I 22

Les techniques de base du web sémantique Des formats Standards RDF: représentation par triplet La notion d espace de nom (et d entrepôt de données) URI (Unified Ressource Identifier) Des ressources structurées, partagées et réutilisables les ontologies De grandes collections de données structurées Les données liées City HasType Foaf ontology HasBirthPlace Person HasType Tim Berner s-lee HasBirthPlace HasBirthDate London HasBirthDate June 8th, 1955 Date HasType Fouille de données et sémantique - MP-I 23

Les données liées ouvertes LOD Linked Open Data http://linkeddata.org/ Données publiques Données décrites en RDF Stockées sur des serveurs Interrogeables et téléchargeables Fouille de données et sémantique - MP-I 24

Un nombre croissant de données en ligne Applications : BNF, BBC Fouille de données et sémantique - MP-I 25

Fouiller les données liées Plusieurs approches Fouiller des textes pour associer données et ontologies Interroger les LOD avec un langage de requête SPARQL Appliquer les techniques de data mining aux données liées Cf conférence Linked Data for Knowledge Discovery http://events.kmi.open.ac.uk/ld4kd2014/ Fouille de données et sémantique - MP-I 26

plan Fouille de données Fouille de données et web Des données qui ont du sens Complémentarités : exemple de l analyse de textes Sémantique distributionnelle Annotation sémantique et recherché d informations précises Fouille de données et sémantique - MP-I 27

Exemple de la fouille de textes Travaux fondateurs Analyse distributionnelle (Harris, 1954) Fouille de textes (Kodratoff, 1999) Sémantique distributionnelle (ex IRIT : Van de Cruys, 2013) Analyse distributionnelle : hypothèse Le contexte donne le sens Ce tnassiorc est délicieux! J aime ce tnassiorc. tnassiorc au beurre tnassiorc au petit déjeuner Contextes similaires > sens proches (ou identifiques) Ce croissant est délicieux! J aime ce croissant. croissant au beurre croissant au petit déjeuner => tnassiorc = croissant => NOURRITURE Fouille de données et sémantique - MP-I 28

Fouille de données et sémantique - MP-I 29 Analyse distributionnelle des mots Données = corpus de textes Domaines spécialisés Très grands corpus textuels Étude des mots ou syntagmes Études des co-occurrences des mots Suites de mots ou de lettres : n-grammes Matrices de co-occurrences Proximité : cosinus entre vecteurs Classes de synonymes ou d hyperonymes

Analyse distributionnelle plus poussée Paramétrages Corpus étiqueté suite à des analyses grammaticales Catégories : nom, adj Relations syntaxiques : sujet, verbe Nombre de mots voisins à prendre en compte Fouille de données et sémantique - MP-I 30

Analyse distributuionnelle plus poussée Prendre en compte 3 dimensions et non 2 Mots / documents / auteurs Sujets/ verbes / objets Utilisation de tenseurs Classes identifies Classes de sujets de mêmes verbes Aide à la désambiguïsation Le concertiste joue du piano Mon voisin joue aux cartes avec ses enfants. Fouille de données et sémantique - MP-I 31

Encore de nombreuses recherches à venir Des pbs pour l informatique Interroger des grands volumes données Flux de données scientifiques Gestion de la provenance, de la qualité et de la fiabilité Exploiter au mieux la distribution matérielle du calcul et du stockage Mais aussi pour les sciences humaines Le droit Propriété, droit des personnes Notions de Commons, gestion des données ouvertes L histoire et l info-comm Quel pérennité? Que conserver? Où? La linguistique Production à grande échelle de corpus naturels ou artificiels, plus ou moins fiables Fouille de données et sémantique - MP-I 32

Merci de de votre attention Fouille de données et sémantique - MP-I 33