Data Mining et Big Data



Documents pareils
Introduction au Data-Mining

Enjeux mathématiques et Statistiques du Big Data

Big Data et Graphes : Quelques pistes de recherche

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Introduction au Data-Mining

MABioVis. Bio-informatique et la

Big Data et Graphes : Quelques pistes de recherche

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Data Mining. Master 1 Informatique - Mathématiques UAG

We make your. Data Smart. Data Smart

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

TRAVAUX DE RECHERCHE DANS LE

Big data et sciences du Vivant L'exemple du séquençage haut débit

Business Intelligence avec Excel, Power BI et Office 365

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Spécificités, Applications et Outils

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Big Data et la santé

Jean-François Boulicaut & Mohand-Saïd Hacid

Base de données bibliographiques Pubmed-Medline

Big- Data: Les défis éthiques et juridiques. Copyright 2015 Digital&Ethics

Gènes Diffusion - EPIC 2010

Les datas = le fuel du 21ième sicècle

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Emergence du Big Data Exemple : Linked Open Data

Travailler avec les télécommunications

Pentaho Business Analytics Intégrer > Explorer > Prévoir

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Big data : vers une nouvelle science des risques?

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Publications, ressources, liens, logiciels,

IBM Software Big Data. Plateforme IBM Big Data

Introduction au datamining

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Agenda de la présentation

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

SÉRIE NOUVELLES ARCHITECTURES

BIG DATA en Sciences et Industries de l Environnement

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

BIG Data et R: opportunités et perspectives

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

Bases de données relationnelles : Introduction

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

WHITE PAPER Une revue de solution par Talend & Infosense

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Business Intelligence

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Apprentissage Automatique

Conserver les Big Data, source de valeur pour demain

Emergence du Big Data Exemple : Linked Open Data

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Business Intelligence

Big Data et Marketing : les competences attendues

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Prestations de conseil en SRM (Storage Ressource Management)

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

Entreprise et Big Data

CONFERENCE TECHNOM AIDE IBM

Masses de données et calcul : à l IRIT. 8 octobre 2013

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Introduction Big Data

Solocal Group Solocal Group pilote ses audiences via un ensemble de tableaux de bord complètement automatisés grâce à l API AT Internet.

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

La rencontre du Big Data et du Cloud

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Les sciences de l ingénieur appliquées à la prise en charge du

La classification automatique de données quantitatives

Big Graph Data Forum Teratec 2013

Biomarqueurs en Cancérologie

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Cognit Ive Cas d utilisation

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Les technologies du Big Data

Vision prospective et obstacles à surmonter pour les assureurs

Bases de données des mutations

Mécanicien(ne) Automaticien(ne)

Analyse de grandes bases de données en santé

Diplôme d Etat d infirmier Référentiel de compétences

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Better data. Better decisions. La carière digitale, nouvel outil de suivi et de gestion de l exploitation

Identification de nouveaux membres dans des familles d'interleukines

Quels outils pour prévoir?

Transcription:

Data Mining et Big Data Eric Rivals LIRMM & Inst. de Biologie Computationnelle CNRS et Univ. Montpellier 14 novembre 2015 E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 1 / 30

Introduction, contexte et enjeux Plan 1 Introduction, contexte et enjeux Méthodes et techniques 2 Analyse de données de séquençage génomique et indexation 3 Identification de sous-ensemble fréquents 4 Recommandation et recherche d information 5 Conclusion E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 2 / 30

Introduction, contexte et enjeux Data Mining & Big Data Data Mining ou fouille de données Extraction de connaissances à partir de (gros volumes) de données Big Data Big Data Predictive Analytics Data Science Big Analytics ou Broyage de données Masse de données E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 3 / 30

Introduction, contexte et enjeux Domaine central d applications Internet, fouille des comportements, des profils Proposition d annonces publicitaires Identification de cibles commerciales E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 4 / 30

Introduction, contexte et enjeux Domaine central d applications Internet, fouille des comportements, des profils Proposition d annonces publicitaires Identification de cibles commerciales E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 4 / 30

Introduction, contexte et enjeux La puissance de la fouille de données? E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 5 / 30

Introduction, contexte et enjeux La puissance de la fouille de données? Automatique, rapide, toujours active E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 5 / 30

Introduction, contexte et enjeux Deux types d approches Descriptives résumer les données (nuages de mots, statistiques, visualisation) E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 6 / 30

Introduction, contexte et enjeux Deux types d approches Descriptives trouver des motifs interprétables qui décrivent les données E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 6 / 30

Introduction, contexte et enjeux Deux types d approches Descriptives trouver des motifs interprétables qui décrivent les données Prédictives prédire certaines variables ou attributs en fonction d autres variables ou attributs E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 6 / 30

Introduction, contexte et enjeux Deux types d approches Descriptives trouver des motifs interprétables qui décrivent les données Prédictives prédire certaines variables ou attributs en fonction d autres variables ou attributs Remarque dans les deux cas : modélisation exploratoire E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 6 / 30

Introduction, contexte et enjeux Exemples d applications en médecine [P. Tufféry, Technip, 2010] Applications descriptives groupes de patients réagissant de façon similaire à un traitement thérapeutique association de médicaments et effets secondaires Applications prédictives des facteurs de décès / survie pour une pathologie à partir de données d essais cliniques d anomalies sur une échographie du temps de rétablissement après une opération fonction d un gène / protéine par recherche de similarité entre séquences reconnaissance de tumeurs identification des erreurs de diagnostic E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 7 / 30

Introduction, contexte et enjeux Raison de l existence des Big Data [Journal CNRS n 269] E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 8 / 30

Introduction, contexte et enjeux Raisons de l existence des Big Data Accroissement phénoménal des volumes de données (+40 % par an) ex : 30 milliards de contenu sur face book chaque mois Internet : échanges et comportements enregistrés sous forme d informations digitales Accroissement de la surveillance : capteurs, vidéo, tél. portables La masse d information à explorer permet de déceler des événements ou phénomènes plus cachés Diminution prix stockage Diminution prix du calcul : distribution calcul E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 9 / 30

Les 4 V du Big Data Introduction, contexte et enjeux Volume - Variété - Vélocité - Validité Volume empêche l utilisation d outils classiques de calcul (ex : tableur) exige une répartition sur plusieurs mémoires, disques, calculateurs Variété hétérogénéité de forme, de localisation, de codage besoin de procédures adaptées au type de données : image, texte, valeurs Vélocité les données peuvent arriver en flux : vidéo, pages ou requêtes oueb Validité toutes les informations ne sont pas valides : erreurs, bruit, spam E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 10 / 30

Introduction, contexte et enjeux Croisement ou intégration de données variées : cas médical Réseaux sociaux Données publiques open data (pollution, climat, bruit, etc.) Dossier patient Radiographies, scanner,... Rapport d analyse Génome, transcriptome, épigénome Comment combiner les informations aussi différentes? E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 11 / 30

Introduction, contexte et enjeux Méthodes et techniques Data Mining est pluridisciplinaire Mélange disciplines Statistiques Analyse de données (Statistique exploratoire) Base de données Apprentissage automatique (Machine learning), IA Informatique théorique, optimisation, algorithmique E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 12 / 30

Introduction, contexte et enjeux Méthodes et techniques Attention est portée au Passage à l échelle (scalability) Algorithmes optimisation temps de calcul et mémoire Architectures et modèles de calcul distribuée : Map-Reduce, algorithmes on-line pour les flux Automatisation du traitement des masses de données E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 13 / 30

Introduction, contexte et enjeux Méthodes et techniques Finalités et méthodes d analyse de données Description : trouver un résumé des données qui soit plus intelligible méthode : analyse factorielle - stat. descriptive Structuration : faire ressurgir des groupes naturels qui représentent des entités particulières méthode : classification Association : Trouver les ensembles de descripteurs qui sont les plus corrélés méthode : règles d association Explication : Prédire les valeurs d un attribut (endogène) à partir d autres attributs (exogènes) méthode : apprentissage supervisé E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 14 / 30

Plan Analyse de données de séquençage génomique et indexation 1 Introduction, contexte et enjeux Méthodes et techniques 2 Analyse de données de séquençage génomique et indexation 3 Identification de sous-ensemble fréquents 4 Recommandation et recherche d information 5 Conclusion E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 15 / 30

Analyse de données de séquençage génomique et indexation Localiser des lectures d ARN sur la séquence d un génome But : trouver tous les alignements des lectures sur le génome lecture épissée exon exon E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 16 / 30

Analyse de données de séquençage génomique et indexation Exemple de volumes de données transcriptomiques Transcriptome du Maïs Illumina HiSeq : 194 millions de lectures, 29 Tera - pb PacBio : 276000 lectures, 168 Giga - bp Correction d erreurs avec LoRDEC 10 heures et en memoire : 5 Giga octets E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 17 / 30

Analyse de données de séquençage génomique et indexation Détection d ARN de fusion comme marqueurs tumoral E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 18 / 30

Analyse de données de séquençage génomique et indexation Besoin d allier sensibilité et spécificité E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 19 / 30

Analyse de données de séquençage génomique et indexation Secret : structures d indexation compressées Index : Structure informatique en mémoire qui organise les éléments d information d un texte, d une base de données pour un accès rapide. Σ = {$, a, e, i, l, n} 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 i e e l $ n l n n i a n a n a a 1 0 0 1 0 1 1 1 1 1 0 1 0 1 0 0 {$, a, e} a n a a n n a 0 1 0 0 1 1 0 {i, l, n} i l n l n n i n n 0 1 1 1 1 1 0 1 1 {$} $ {a, e} e e a a a a 1 1 0 0 0 0 i {i} i {l, n} l n l n n n n 0 1 0 1 1 1 1 Transformée de Burrows-Wheeler sous forme d arbre à ondelettes E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 20 / 30

Identification de sous-ensemble fréquents Plan 1 Introduction, contexte et enjeux Méthodes et techniques 2 Analyse de données de séquençage génomique et indexation 3 Identification de sous-ensemble fréquents 4 Recommandation et recherche d information 5 Conclusion E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 21 / 30

Identification de sous-ensemble fréquents Formulation : item-sets Chaque patient : un ensemble d éléments dans son dossier éléments : traitements/médicaments et effets secondaires Item-set : associations potentielles entre médicaments et effets secondaires Les régles d association indiquent des relations fréquemment observées. {e 1,...,e i } X Critères numériques support : nb de patients ayant ce sous-ens. d éléments confiance : rapport support entre {e 1,...,e i } et {e 1,...,e i,x} Intérêt de la règle : différence entre la confiance et la probabilité de l élément prédit E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 22 / 30

Identification de sous-ensemble fréquents Difficulté algorithmique Objectif : calculer tous les item-sets avec un nb d occurrence > seuil Le calcul de paires fréquentes est le goulot d étranglement. Observations si un ens. X est fréquent alors tout sous-ens. de X l est aussi si un sous-ens. Y n est pas fréquent, alors aucun sur-ensemble de Y ne peut l être Algorithmes 1 à base de fonction de hachage limitation mémoire par rapport au nb d éléments 2 algorithme A priori mémoire linéaire par rapport au nb d éléments E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 23 / 30

Recommandation et recherche d information Plan 1 Introduction, contexte et enjeux Méthodes et techniques 2 Analyse de données de séquençage génomique et indexation 3 Identification de sous-ensemble fréquents 4 Recommandation et recherche d information 5 Conclusion E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 24 / 30

Recommandation et recherche d information Recommandation : défis [Servajean et al. 2013] Communauté en ligne partage des données à gde échelle utilise données transformées pour répondre à des requêtes pluridisciplinaires Ex : modèle mathématique pour la croissance des plantes Diversité des documents : prendre en compte les données de différentes disciplines (informatique, biologie,... ) E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 25 / 30

Recommandation et recherche d information Recommandation : incorporer confiance et diversité une approche probabiliste originale [Servajean et al. 2013] E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 26 / 30

Recommandation et recherche d information Recommandation : incorporer confiance et diversité une approche probabiliste originale [Servajean et al. 2013] et des optimisations de calcul Résultats montrent les gains en diversité de profils sur un jeu de données INRA génériques et validés par un benchmark du web validés avec des retours utilisateurs : 70% de satisfaction pour les requêtes interdisciplinaires E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 26 / 30

Conclusion Plan 1 Introduction, contexte et enjeux Méthodes et techniques 2 Analyse de données de séquençage génomique et indexation 3 Identification de sous-ensemble fréquents 4 Recommandation et recherche d information 5 Conclusion E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 27 / 30

Conclusion Conclusions Big Data viendra à la médecine Potentiel énorme d applications Open Data à l hôpital? Aspect privé des données, sécurité et éthique Identification grâce aux traces des données individuelles Contrôle des modes de requêtes des moteurs de recherches E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 28 / 30

Références Data Mining Conclusion Data mining et statistique décisionnelle : l intelligence des données Stéphane Tufféry, Editions TECHNIP, 3è édition Principles of Data Mining David Hand, Heikki Mannila, and Padhraic Smyth. MIT Press, Cambridge, MA, 2001. Analyse de données J.M. Bouroche et G. Saporta Collection Que sais-je? Presses Universitaires de France E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 29 / 30

Conclusion Références Bioinformatique et biologie LoRDEC : accurate and efficient long read error correction L. Salmela, E. Rivals Bioinformatics, doi:10.1093/bioinformatics/btu538, 30 (24) : 3506-3514, 2014. Detecting influenza epidemics using search engine query data J. Ginsberg, M.H. Mohebbi, R.S. Patel, L. Brammer, M.S. Smolinski, L. Brilliant Nature Vol 457. 19 February 2009 E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 30 / 30