Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 1 / 23
Des données numériques en croissance permanente Facebook http://wikibon.org/blog/big-data-statistics La production de données numériques double tous les 3 ans, depuis 1980. Domaines: grande distribution, médical, industrie, astronomie... Que peut-on faire de ces données? A-t-on besoin d outils mathématiques pour les analyser? Quelles sont les difficultés? M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 2 / 23
Première application Big Data Etude de la grippe hivernale aux Etats-Unis, 2003-2008 Quand les mots deviennent des données numériques... Google: 3 milliards de requètes par jour Etude de la fréquence des requêtes du moteur de recherche toux, fièvre, médicaments contre la toux et la fièvre... en relation avec la propagation de la grippe en espace et en temps Modèle Prédictif Google Modèles mathématiques (450 millions testés). final: combinaisons de la fréquence de 45 mots clefs Intérets: Modèle beaucoup plus réactif que l analyse des données collectées par les centres de santé. Repérer en temps réel des zones contaminées à partir des requêtes (H1N1) M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 3 / 23
Exemple de données collectées Données transactionnelles 17/02/2004 15:02:25 fièvre toux ; grippe... Données analytiques agrégées: Fréquence d occurence de mots clefs M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 4 / 23
Un tableau à deux dimensions X 1 X 2... X j... X p 1 x 11... x 1j x 1p 2... i x i1... x ij x ip... n x n1... x nj x np n observations (ligne), p variables (colonne) La Volumétrie -valeurs n, p- dépend de la méthode de collecte manuelle ou exhaustive des données. Structure identique dans des domaines variés: - Aéronautique: n vols d avions (altitude, vitesse,...) - Banque, Marketing: n clients (revenu, crédit,...) M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 5 / 23
Que peut-on faire de ces données? Deux types de problématiques sont distingués: Exploratoire, segmentation (X ) : Toutes les variables jouent un rôle identique Découvrir des relations entre les groupes d individus, Modèle prédictif: Y = F (X ) Une variable particulière (variable cible Y) est définie modèle de régression permettant de prédire Y sur de nouvelles données A partir des données disponibles X 1 X 2... X j... X p Y 1 x 11... x 1j x 1p y 1... i x i1... x ij x ip y p... n x n1... x nj x np y n M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 6 / 23
Enjeux mathématiques et statistiques du big data Les données Les difficultés du Big Data: Segmentation: Fléau de la dimension Méthode prédictive: réduction de dimension Perspectives métiers, collaborations entre disciplines M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 7 / 23
Segmentation des données On considère deux observations (x i, x k ), x i R p, x k R p X 1 X 2... X j... X p 1 x 11... x 1j x 1p... i x i1... x ij x ip... k x k1... x kj x kp... n x n1... x nj x np Distance euclidienne l 2 entre ces deux observations: p x i x k 2 = d=1 (x i(d) x k (d)) 2 M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 8 / 23
Segmentation de données illustration 10 Observations matrice des distances Classification hiérarchique Clustering 3 classes M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 9 / 23
Etude de la distance euclidienne en fonction de la dimension p Illustrations: n = 100 observations, uniforme, en dimension 1, 2, 3,... Indicateur: max i j x i x k 2 min i j x i x k 2 22 435 346 47 p = 1 p = 2 p = 3 Fléau de la dimension M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 10 / 23
Fléau de la dimension Illustration: n = 100 observations uniformes (K = 500 répétitions) Evolution du rapport max i j x i x j min i j x i x j en fonction de la dimension p La distance euclidienne perd sa capacité de discrimination en grande dimension lorsque p augmente Problématique pour la segmentation, la discrimination des observations M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 11 / 23
Segmentation de données Faible dimension p=2 Données Matrice Classification Classification des distances hiérarchique non supervisée Grande dimension p=20 M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 12 / 23
Réduction de la dimension, sélection de variables Trouver de bonnes représentations des données initialement codées en grande dimension Features: Faible nombre de caractéristiques discriminantes (via l expertise métier) Compress Sensing: représentation parcimonieuse (S) de x comme combinaison linéaire de p vecteurs d une base données fonctionnelles. Estimation de variétés: On représente x dans un espace de basse dimension à l aide des vecteurs propres du Lapacien sur la variété, estimé à partir d un graphe de voisinages sur les exemples. outils mathématiques à l interface de l analyse harmonique, de la géométrie, des probabilités et des statistiques. M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 13 / 23
Enjeux mathématiques et statistiques du big data Les données Les difficultés: Segmentation: Fléau de la dimension Méthode prédictive: réduction de dimension Perspectives métiers, collaborations entre disciplines M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 14 / 23
Un tableau à deux dimensions Existence d une variable cible, Y X 1 X 2... X j... X p Y 1 x 11... x 1j x 1p y 1 2... i x i1... x ij x ip y p... n x n1... x nj x np y n Exemples: - Industrie:Y consommation de carburant, électrique, eau (variable quantitative) - Banque, Marketing: Y incident bancaire (0,1) - Médical: taux de glycémie, présence ou non d une maladie M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 15 / 23
Un modèle prédictif: le modèle linéaire p=2 modèle Ŷ = ˆβ 0 + ˆβ 1 X critère: i (Y i Ŷi ) 2 solution: ˆβ 1 = cov(x, Y )/var(x ) ˆβ 0 = Ȳ ˆβ 1 X p=3 modèle:ŷ = ˆβ 0 + ˆβ 2 X 1 + ˆβ 2 X 2 critère: i (Y i Ŷ i ) 2 solution: ˆβ =... M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 16 / 23
Le modèle linéaire classique Cadre classique - n > p: Nb d observations est supérieur au nombre de variables y 1 y 2 y n = x 11... x 1p x n1... x np Thin matrix β 1 β 2 β p + ɛ - X T X inversible, pas de co linéarité entre les co-variables Solution Unique: ˆβ = (X T X ) 1 X T Y M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 17 / 23
Le modèle linéaire en grande dimension En grande dimension - n << p: Nb de variables est supérieur au nombre d obs. β 1 y 1 x 11...... x 1p β 2 y 2 =...... + ɛ y n x n1... x np Fat matrix - X T X, NON inversible (ou forte colinéarité avec p < n). Infinité de solutions ˆβ.(Pseudo inverse: solution technique) Une solution unique nécessite des hypothèses sur β. β p M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 18 / 23
Le modèle linéaire en grande dimension La résolution du problème linéaire est obtenue en introduisant des contraintes sur les coefficients, β. Quelques exemples: l 0, Best subset : E(β, λ) = Y X β 2 + λσ j β j 0 solution complexe à calculer 2 p modèles à tester l 2, Ridge : Σ j β j 2 < S ˆβ ridge = (X T X + λi ) 1 X T Y l 1, Lasso : Σ j β j 1 < S solution parcimonieuse, faible nb. de coeff 0 M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 19 / 23
A la conquète du Big data Les enjeux sont: Mathématiques: modélisation statistique, optimisation,... Evolution: échantillonage etude exhaustive sur les données. Informatique: stockage, accès à des données volumineuses et traitement en un temps raisonnable (MapReduce, Hadoop) Complexité/Algorithmique: Adapter les méthodes de traitements traditionnels à des données volumineuses, à des environnements distribués. Ex: traitements sur clusters de processeurs, de BDD,... à des données non structurées: Extraction (rapide) d indicateurs clefs pour exploiter les données Twitter, commentaires faceboook, linkeln. Les 3 V : Volume, Variété, Vélocité M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 20 / 23
Appréhender le Big data Les formations aux Big Data se situent dans les domaines: Mathématiques, Informatique Droit: ex. problème juridique d exploitation de ces données Sociologie, psychologie... Mise en données (collecte des données de performances sportives...) Des données disponibles: Kaggle, concours en ligne sur des problématiques de Big Data Les Open Data: mise à disposition de BDD ± volumineuses Les opportunités métiers du futur: data scientist spécialiste de l exploration et de l analyse de grandes bases de données. Start-up: exploitation des données du web (gratuites) Imaginations & Technologies... M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 21 / 23
Classification automatique d images M. Mougeot (Paris Diderot) Mathe matiques en Mouvement 6 Juin 2015 22 / 23
Quelques Références Detecting Influenza Epidemics Using Serach Engine Queries, Nature 457, 2009. Big data : trois défis pour les Maths. David Larousserie, Le Monde, 27/01/2014 Le Data Scientist, un nouveau métier. David Larousserie, Le Monde, 27/01/2014 Kaggle, le site qui transforme le big data en or. Mathilde Damgé. Le monde Economist M. Mougeot (Paris Diderot) Mathématiques en Mouvement 6 Juin 2015 23 / 23