Enjeux mathématiques et Statistiques du Big Data



Documents pareils
Introduction au Data-Mining

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Chapitre 3. Les distributions à deux variables

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Introduction au datamining

Big Data et Graphes : Quelques pistes de recherche

Introduction au Data-Mining

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

TRAVAUX DE RECHERCHE DANS LE

Les défis statistiques du Big Data

Big Data et Graphes : Quelques pistes de recherche

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Panorama des solutions analytiques existantes

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Entreprise et Big Data

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

La classification automatique de données quantitatives

Comment valoriser votre patrimoine de données?

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Apprentissage Automatique

Big Data On Line Analytics

Big data* et marketing

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

IBM Software Big Data. Plateforme IBM Big Data

Le géomarketing - Page 1 sur 7

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Introduction à l approche bootstrap

BIG DATA et DONNéES SEO

SÉRIE NOUVELLES ARCHITECTURES

Big Data et Marketing : les competences attendues

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens


L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

Introduction Big Data

Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur

TOP. année promet d être BIG (Business Intelligence Growth) PRINCIPALES TENDANCES EN MATIÈRE DE SOLUTIONS DÉCISIONNELLES POUR 2013

Exercices Corrigés Premières notions sur les espaces vectoriels

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Agenda de la présentation

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

données en connaissance et en actions?

STATISTIQUES. UE Modélisation pour la biologie

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

Évaluation de la régression bornée

Big Graph Data Forum Teratec 2013

Analyse en Composantes Principales

Intégration de la dimension sémantique dans les réseaux sociaux

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Vision prospective et obstacles à surmonter pour les assureurs

Titre : La BI vue par l intégrateur Orange

Cookies de session ils vous permettent de sauvegarder vos préférences d utilisation et optimiser l expérience de navigation de l Utilisateur ;

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Big Data : Risques et contre-mesures

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Programmes des classes préparatoires aux Grandes Ecoles

Cybermarché et analyse comportementale

Introduction à la B.I. Avec SQL Server 2008

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Les bases de données relationnelles

Fonctions de plusieurs variables

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

VI. Tests non paramétriques sur un échantillon

Spécificités, Applications et Outils

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

5. Apprentissage pour le filtrage collaboratif

Accélérer l agilité de votre site de e-commerce. Cas client

BIG Data et R: opportunités et perspectives

Chapitre 2. Matrices

Etude des propriétés empiriques du lasso par simulations

Le potentiel et les défis du Big Data. Mardi 2 et Mercredi 3 Juillet 2013

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

Jean-François Boulicaut & Mohand-Saïd Hacid

MABioVis. Bio-informatique et la

Le BigData, aussi par et pour les PMEs

Les RH à l ère du Big Data: faites parler vos données! Mesurez et optimisez la performance de vos programmes RH 18 septembre 2013

Exercice : la frontière des portefeuilles optimaux sans actif certain

Programmation linéaire

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Les Entrepôts de Données

La Révolution du Big Data Comment Extraire de la Valeur à partir des Big Data

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Transcription:

Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 1 / 23

Des données numériques en croissance permanente Facebook http://wikibon.org/blog/big-data-statistics La production de données numériques double tous les 3 ans, depuis 1980. Domaines: grande distribution, médical, industrie, astronomie... Que peut-on faire de ces données? A-t-on besoin d outils mathématiques pour les analyser? Quelles sont les difficultés? M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 2 / 23

Première application Big Data Etude de la grippe hivernale aux Etats-Unis, 2003-2008 Quand les mots deviennent des données numériques... Google: 3 milliards de requètes par jour Etude de la fréquence des requêtes du moteur de recherche toux, fièvre, médicaments contre la toux et la fièvre... en relation avec la propagation de la grippe en espace et en temps Modèle Prédictif Google Modèles mathématiques (450 millions testés). final: combinaisons de la fréquence de 45 mots clefs Intérets: Modèle beaucoup plus réactif que l analyse des données collectées par les centres de santé. Repérer en temps réel des zones contaminées à partir des requêtes (H1N1) M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 3 / 23

Exemple de données collectées Données transactionnelles 17/02/2004 15:02:25 fièvre toux ; grippe... Données analytiques agrégées: Fréquence d occurence de mots clefs M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 4 / 23

Un tableau à deux dimensions X 1 X 2... X j... X p 1 x 11... x 1j x 1p 2... i x i1... x ij x ip... n x n1... x nj x np n observations (ligne), p variables (colonne) La Volumétrie -valeurs n, p- dépend de la méthode de collecte manuelle ou exhaustive des données. Structure identique dans des domaines variés: - Aéronautique: n vols d avions (altitude, vitesse,...) - Banque, Marketing: n clients (revenu, crédit,...) M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 5 / 23

Que peut-on faire de ces données? Deux types de problématiques sont distingués: Exploratoire, segmentation (X ) : Toutes les variables jouent un rôle identique Découvrir des relations entre les groupes d individus, Modèle prédictif: Y = F (X ) Une variable particulière (variable cible Y) est définie modèle de régression permettant de prédire Y sur de nouvelles données A partir des données disponibles X 1 X 2... X j... X p Y 1 x 11... x 1j x 1p y 1... i x i1... x ij x ip y p... n x n1... x nj x np y n M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 6 / 23

Enjeux mathématiques et statistiques du big data Les données Les difficultés du Big Data: Segmentation: Fléau de la dimension Méthode prédictive: réduction de dimension Perspectives métiers, collaborations entre disciplines M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 7 / 23

Segmentation des données On considère deux observations (x i, x k ), x i R p, x k R p X 1 X 2... X j... X p 1 x 11... x 1j x 1p... i x i1... x ij x ip... k x k1... x kj x kp... n x n1... x nj x np Distance euclidienne l 2 entre ces deux observations: p x i x k 2 = d=1 (x i(d) x k (d)) 2 M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 8 / 23

Segmentation de données illustration 10 Observations matrice des distances Classification hiérarchique Clustering 3 classes M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 9 / 23

Etude de la distance euclidienne en fonction de la dimension p Illustrations: n = 100 observations, uniforme, en dimension 1, 2, 3,... Indicateur: max i j x i x k 2 min i j x i x k 2 22 435 346 47 p = 1 p = 2 p = 3 Fléau de la dimension M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 10 / 23

Fléau de la dimension Illustration: n = 100 observations uniformes (K = 500 répétitions) Evolution du rapport max i j x i x j min i j x i x j en fonction de la dimension p La distance euclidienne perd sa capacité de discrimination en grande dimension lorsque p augmente Problématique pour la segmentation, la discrimination des observations M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 11 / 23

Segmentation de données Faible dimension p=2 Données Matrice Classification Classification des distances hiérarchique non supervisée Grande dimension p=20 M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 12 / 23

Réduction de la dimension, sélection de variables Trouver de bonnes représentations des données initialement codées en grande dimension Features: Faible nombre de caractéristiques discriminantes (via l expertise métier) Compress Sensing: représentation parcimonieuse (S) de x comme combinaison linéaire de p vecteurs d une base données fonctionnelles. Estimation de variétés: On représente x dans un espace de basse dimension à l aide des vecteurs propres du Lapacien sur la variété, estimé à partir d un graphe de voisinages sur les exemples. outils mathématiques à l interface de l analyse harmonique, de la géométrie, des probabilités et des statistiques. M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 13 / 23

Enjeux mathématiques et statistiques du big data Les données Les difficultés: Segmentation: Fléau de la dimension Méthode prédictive: réduction de dimension Perspectives métiers, collaborations entre disciplines M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 14 / 23

Un tableau à deux dimensions Existence d une variable cible, Y X 1 X 2... X j... X p Y 1 x 11... x 1j x 1p y 1 2... i x i1... x ij x ip y p... n x n1... x nj x np y n Exemples: - Industrie:Y consommation de carburant, électrique, eau (variable quantitative) - Banque, Marketing: Y incident bancaire (0,1) - Médical: taux de glycémie, présence ou non d une maladie M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 15 / 23

Un modèle prédictif: le modèle linéaire p=2 modèle Ŷ = ˆβ 0 + ˆβ 1 X critère: i (Y i Ŷi ) 2 solution: ˆβ 1 = cov(x, Y )/var(x ) ˆβ 0 = Ȳ ˆβ 1 X p=3 modèle:ŷ = ˆβ 0 + ˆβ 2 X 1 + ˆβ 2 X 2 critère: i (Y i Ŷ i ) 2 solution: ˆβ =... M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 16 / 23

Le modèle linéaire classique Cadre classique - n > p: Nb d observations est supérieur au nombre de variables y 1 y 2 y n = x 11... x 1p x n1... x np Thin matrix β 1 β 2 β p + ɛ - X T X inversible, pas de co linéarité entre les co-variables Solution Unique: ˆβ = (X T X ) 1 X T Y M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 17 / 23

Le modèle linéaire en grande dimension En grande dimension - n << p: Nb de variables est supérieur au nombre d obs. β 1 y 1 x 11...... x 1p β 2 y 2 =...... + ɛ y n x n1... x np Fat matrix - X T X, NON inversible (ou forte colinéarité avec p < n). Infinité de solutions ˆβ.(Pseudo inverse: solution technique) Une solution unique nécessite des hypothèses sur β. β p M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 18 / 23

Le modèle linéaire en grande dimension La résolution du problème linéaire est obtenue en introduisant des contraintes sur les coefficients, β. Quelques exemples: l 0, Best subset : E(β, λ) = Y X β 2 + λσ j β j 0 solution complexe à calculer 2 p modèles à tester l 2, Ridge : Σ j β j 2 < S ˆβ ridge = (X T X + λi ) 1 X T Y l 1, Lasso : Σ j β j 1 < S solution parcimonieuse, faible nb. de coeff 0 M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 19 / 23

A la conquète du Big data Les enjeux sont: Mathématiques: modélisation statistique, optimisation,... Evolution: échantillonage etude exhaustive sur les données. Informatique: stockage, accès à des données volumineuses et traitement en un temps raisonnable (MapReduce, Hadoop) Complexité/Algorithmique: Adapter les méthodes de traitements traditionnels à des données volumineuses, à des environnements distribués. Ex: traitements sur clusters de processeurs, de BDD,... à des données non structurées: Extraction (rapide) d indicateurs clefs pour exploiter les données Twitter, commentaires faceboook, linkeln. Les 3 V : Volume, Variété, Vélocité M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 20 / 23

Appréhender le Big data Les formations aux Big Data se situent dans les domaines: Mathématiques, Informatique Droit: ex. problème juridique d exploitation de ces données Sociologie, psychologie... Mise en données (collecte des données de performances sportives...) Des données disponibles: Kaggle, concours en ligne sur des problématiques de Big Data Les Open Data: mise à disposition de BDD ± volumineuses Les opportunités métiers du futur: data scientist spécialiste de l exploration et de l analyse de grandes bases de données. Start-up: exploitation des données du web (gratuites) Imaginations & Technologies... M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 21 / 23

Classification automatique d images M. Mougeot (Paris Diderot) Mathe matiques en Mouvement 6 Juin 2015 22 / 23

Quelques Références Detecting Influenza Epidemics Using Serach Engine Queries, Nature 457, 2009. Big data : trois défis pour les Maths. David Larousserie, Le Monde, 27/01/2014 Le Data Scientist, un nouveau métier. David Larousserie, Le Monde, 27/01/2014 Kaggle, le site qui transforme le big data en or. Mathilde Damgé. Le monde Economist M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 23 / 23