Les défis statistiques du Big Data Anne-Sophie Charest Professeure adjointe au département de mathématiques et statistique, Université Laval 29 avril 2014 Colloque ITIS - Big Data et Open Data au cœur de la ville intelligente
Qu est-ce que le Big Data?
Qu est-ce que le Big Data? Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...
Qu est-ce que le Big Data? Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it... - Dan Ariely Professeur de psychologie et économie Comportemental à l Université Duke (Facebook, January 6, 2013)
Une définition possible [ ] big data should be defined at any point in time as "data whose size forces us to look beyond the triedand-true methods that are prevalent at that time." Jacobs, Adam. "The pathologies of big data." Communications of the ACM 52.8 (2009): 36-44.
Une définition possible [ ] big data should be defined at any point in time as "data whose size forces us to look beyond the triedand-true methods that are prevalent at that time." Dans la pratique, varie entre les domaines d applications
Pas qu un buzzword pour les statisticiens Joint Statistical Meetings 2014
Pas qu un buzzword pour les statisticiens
Pas qu un buzzword pour les statisticiens
Caractéristiques du Big Data Les 3 Vs de Gartner, Inc. : (http://www.gartner.com/newsroom/id/1731916) Volume Vélocité Variété
Caractéristiques du Big Data Les 3 Vs de Gartner, Inc. : (http://www.gartner.com/newsroom/id/1731916) Volume Vélocité Variété 2 autres Vs : Véracité Valeur
Volume - Un exemple } Large Synoptic Survey Telescope } Au Chili } Peut produire des photos de 3000 mega pixels } Produira 30 TB de données par nuit
Volume d autres exemples } Transactions financières en temps réel } Large Hadron Collider (600 millions collisions par sec) } Requêtes sur Google } Transactions sur E-bay, Amazon, } Commentaires sur Facebook } Senseurs automobiles de compagnies d assurances } Gazoullis sur Twitter }
Volume conséquences } Difficultés non-statistiques } Stockage, gestion, visualisation, partage,
Volume conséquences } Difficultés non-statistiques } Stockage, gestion, visualisation, partage, } Grande taille d échantillon } Difficulté au niveau des calculs } Possibilité de sous-échantillonner
Volume conséquences } Difficultés non-statistiques } Stockage, gestion, visualisation, partage, calcul } Grande taille d échantillon } Difficulté au niveau des calculs } Possibilité de sous-échantillonner } Grand nombre de variables } Fléau de la dimension } Problème de comparaisons multiples
Fléau de la dimension Si la dimension p d un jeu de données augmente, il faudra augmenter le nombre de données exponentiellement pour avoir la même précision dans l inférence.
Fléau de la dimension Si la dimension p d un jeu de données augmente, il faudra augmenter le nombre de données exponentiellement pour avoir la même précision dans l inférence. Illustration : p=1 p=3 0 1 Quelle est la distance moyenne entre 10 points choisis au hasard de façon uniforme dans cet intervalle? Et si ces 10 points sont choisis au hasard dans ce cube? Et si on a p = 1000 dimensions?
Fléau de la dimension Si la dimension p d un jeu de données augmente, il faudra augmenter le nombre de données exponentiellement pour avoir la même précision dans l inférence. Illustration : p=1 p=3 0 1 Quelle est la distance moyenne entre 10 points choisis au hasard de façon uniforme dans cet intervalle? Et si ces 10 points sont choisis au hasard dans ce cube? Et si on a p = 1000 dimensions? Réduction de la dimensionnalité, modèles plus parcimonieux, régularisation,
Problème de comparaisons multiples } 1 test statistique } Si valeur-p = 0.05 et aucun effet: 5% de chance d erreur
Problème de comparaisons multiples } 1 test statistique } Si valeur-p = 0.05 et aucun effet: 5% de chance d erreur } 100 tests statistiques } Si valeur-p = 0.05 et aucuns effets: 5 erreurs en moyenne } Méthodes relativement simples pour corriger ce problème
Problème de comparaisons multiples } 1 test statistique } Si valeur-p = 0.05 et aucun effet: 5% de chance d erreur } 100 tests statistiques } Si valeur-p = 0.05 et aucuns effets: 5 erreurs en moyenne } Méthodes relativement simples pour corriger ce problème } 100 000 tests statistiques } Si valeur-p = 0.05 et aucuns effets: résultats peu utiles } Un des défis statistiques du Big Data
Vélocité } Big Data souvent collecté de façon automatique } Les données s accumulent à des vitesses énormes } On doit parfois réagir en temps réel (e.g. transactions à haute fréquence)
Vélocité } Big Data souvent collecté de façon automatique } Les données s accumulent à des vitesses énormes } On doit parfois réagir en temps réel (e.g. transactions à haute fréquence) } Défis statistiques } Algorithmes très efficaces en temps de calcul } Apprentissage en ligne, i.e. mettre à jour son modèle au fur et à mesure qu on obtient les observations
Variété } Big Data contient souvent bien plus que de simples matrices de nombres } Images, vidéos, texte, réseaux, données géo-temporelles, } On parle de données non-structurées
Variété } Big Data contient souvent bien plus que de simples matrices de nombres } Images, vidéos, texte, réseaux, données géo-temporelles, } On parle de données non-structurées } Défis statistiques } Développer des modèles pour analyser ce nouveau type d information } Combiner différents types de données dans l inférence
Véracité } Big Data rarement le résultat d une collecte planifiée } Données parfois erronées (e.g. typo, abbréviations dans des données textuelles) } Données parfois manquantes } Données ne répondent parfois pas aux objectifs visés (e.g. déterminer la causalité)
Véracité } Big Data rarement le résultat d une collecte planifiée } Données parfois erronées (e.g. typo, abbréviations dans des données textuelles) } Données parfois manquantes } Données ne répondent parfois pas aux objectifs visés (e.g. déterminer la causalité) } Défis statistiques } Tenir compte des imperfections dans les données } Aider les utilisateurs à comprendre les limites de leurs données
Valeur Big Data = $ Exemples : Moneyball Google Facebook
En conclusion } Big Data est un terme un peu vague, mais qui réflète une vraie révolution dans la prévalence et la complexité de données à analyser. } Les défis statistiques du Big Data sont liés à ces caractéristiques: volume, vélocité, variété, véracité. } Une compréhension du small data est essentielle pour bien saisir les enjeux du Big Data
Pour aller plus loin } Fan, Jianqing, Fang Han, and Han Liu. "Challenges of Big Data Analysis." arxiv:1308.1479 (2013). } Présentation de Arthur Carpentier à l Université Laval vendredi dernier: http://freakonometrics.hypotheses.org/13121 } Boyd, Danah, and Kate Crawford. "Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon." Information, Communication & Society 15.5 (2012): 662-679.