Les défis statistiques du Big Data



Documents pareils
Marketing comportemental et digital hospitality

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

SMALL DATA DANS LA VEILLE

BIG DATA VOUS N Y ÉCHAPPEREZ PAS!

Les RH à l ère du Big Data: faites parler vos données! Mesurez et optimisez la performance de vos programmes RH 18 septembre 2013

Big Data et Graphes : Quelques pistes de recherche

Enjeux mathématiques et Statistiques du Big Data

Le BigData, aussi par et pour les PMEs

Jean-François Boulicaut & Mohand-Saïd Hacid

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Étude nationale sur les besoins des clients

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

Le Marketing en ligne: La clé du succès. Planification & outils

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Bigdata et Web sémantique. les données + l intelligence= la solution

BIG Data et R: opportunités et perspectives

Big Data et Graphes : Quelques pistes de recherche

ANGULAR JS AVEC GDE GOOGLE

Les PME sont-elles trop petites pour Big Data?

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Big Graph Data Forum Teratec 2013

Cloud Computing & PHP

SÉRIE NOUVELLES ARCHITECTURES

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Mégadonnées (Big data) et Complexité Session introductive

SONDAGE AUPRÈS DES ÉTUDIANTS CANADIENS

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

Jean-Daniel Fekete Directeur de Recherche, Resp. équipe-projet AVIZ INRIA

Protection des données personnelles : Vers un Web personnel sécurisé

Accès aux données Sentinelles

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Big data* et marketing

1.The pronouns me, te, nous, and vous are object pronouns.

Préparer un état de l art

Transformation Digitale Challenges et Opportunités

Les datas = le fuel du 21ième sicècle

RÉSEAUX SOCIAUX & BTOB

Construisez plus rapidement vos apps mobiles avec MicroStrategy 10. Ludivine Fèvre, Consultante Avant-vente 16 Juin 2015

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

CONFERENCE TECHNOM AIDE IBM

Le Product Backlog, qu est ce c est?

L Internet des objets

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Big Data : Risques et contre-mesures

VMware : De la Virtualisation. au Cloud Computing

IBM Software Big Data. Plateforme IBM Big Data

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Big Data et Statistique Publique

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Big data : vers une nouvelle science des risques?

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

LES DONNÉES : VOTRE AVANTAGE CONCURRENTIEL

Grandes tendances et leurs impacts sur l acquisition de produits et services TI.

Journée Futur et Ruptures 2015

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Annexe commune aux séries ES, L et S : boîtes et quantiles

Pourquoi intégrer le Big Data à son organisa3on?

Ad-exchanges & RTB (avec la participation de Fabien Magalon, La place

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Big- Data: Les défis éthiques et juridiques. Copyright 2015 Digital&Ethics

Big Data & HR. Winter Dans quelle mesure le Big Data pourrait op2miser la prise de décision RH. Lynda ATIF 18/06/2015

Extension fonctionnelle d un CRM. CRM étendu >> Conférence-débat 15 April Club Management des Systèmes d Information de l'iae de Paris Alumni

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Web Analytics. des Visiteurs en Ligne? Raquel de los Santos, Business Consultant Forum emarketing 2012

Improving the breakdown of the Central Credit Register data by category of enterprises

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Programme de formations 2012-S1

EN UNE PAGE PLAN STRATÉGIQUE

Introduction Big Data

TRAVAUX DE RECHERCHE DANS LE

CONVERSATION PRISM THE VISION PROSPECTIVE DES RESEAUX SOCIAUX. Visio-conférence de Brian SOLIS

Introduction au Data-Mining

Dis où ces gens vont d après les images / Tell where these people are going based on the pictures.

Transformez vos données en opportunités. avec Microsoft Big Data

18 SEPTEMBRE E-réputation : une image positive pour une stratégie de conquête!

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

Tâche finale : communiquer avec un locuteur natif par webconference lors d activités menées en classe par petits groupes. Niveau : Cycle 3 CM1 /CM2

Directions Marketing : réussir vos challenges stratégiques et opérationnels d aujourd hui

REJOINDRE VOS CLIENTS LOCAUX À TRAVERS LES RÉSEAUX SOCIAUX! PRÉSENTÉ PAR: MELANIE ROTH October 8, 2014 Mediative.com!

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Technologie, méthode et applications du Big Data.

TD : Codage des images

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Conférence Bales II - Mauritanie. Patrick Le Nôtre. Directeur de la Stratégie - Secteur Finance Solutions risques et Réglementations

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Complice Respectueuse Divertissante

Principe d un test statistique

5Visualisation. pièges à. éviter... de données : e-book : Visualisation & Ergonomie. Page 1 / 30. Partagez cet e-book :

Transcription:

Les défis statistiques du Big Data Anne-Sophie Charest Professeure adjointe au département de mathématiques et statistique, Université Laval 29 avril 2014 Colloque ITIS - Big Data et Open Data au cœur de la ville intelligente

Qu est-ce que le Big Data?

Qu est-ce que le Big Data? Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...

Qu est-ce que le Big Data? Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it... - Dan Ariely Professeur de psychologie et économie Comportemental à l Université Duke (Facebook, January 6, 2013)

Une définition possible [ ] big data should be defined at any point in time as "data whose size forces us to look beyond the triedand-true methods that are prevalent at that time." Jacobs, Adam. "The pathologies of big data." Communications of the ACM 52.8 (2009): 36-44.

Une définition possible [ ] big data should be defined at any point in time as "data whose size forces us to look beyond the triedand-true methods that are prevalent at that time." Dans la pratique, varie entre les domaines d applications

Pas qu un buzzword pour les statisticiens Joint Statistical Meetings 2014

Pas qu un buzzword pour les statisticiens

Pas qu un buzzword pour les statisticiens

Caractéristiques du Big Data Les 3 Vs de Gartner, Inc. : (http://www.gartner.com/newsroom/id/1731916) Volume Vélocité Variété

Caractéristiques du Big Data Les 3 Vs de Gartner, Inc. : (http://www.gartner.com/newsroom/id/1731916) Volume Vélocité Variété 2 autres Vs : Véracité Valeur

Volume - Un exemple } Large Synoptic Survey Telescope } Au Chili } Peut produire des photos de 3000 mega pixels } Produira 30 TB de données par nuit

Volume d autres exemples } Transactions financières en temps réel } Large Hadron Collider (600 millions collisions par sec) } Requêtes sur Google } Transactions sur E-bay, Amazon, } Commentaires sur Facebook } Senseurs automobiles de compagnies d assurances } Gazoullis sur Twitter }

Volume conséquences } Difficultés non-statistiques } Stockage, gestion, visualisation, partage,

Volume conséquences } Difficultés non-statistiques } Stockage, gestion, visualisation, partage, } Grande taille d échantillon } Difficulté au niveau des calculs } Possibilité de sous-échantillonner

Volume conséquences } Difficultés non-statistiques } Stockage, gestion, visualisation, partage, calcul } Grande taille d échantillon } Difficulté au niveau des calculs } Possibilité de sous-échantillonner } Grand nombre de variables } Fléau de la dimension } Problème de comparaisons multiples

Fléau de la dimension Si la dimension p d un jeu de données augmente, il faudra augmenter le nombre de données exponentiellement pour avoir la même précision dans l inférence.

Fléau de la dimension Si la dimension p d un jeu de données augmente, il faudra augmenter le nombre de données exponentiellement pour avoir la même précision dans l inférence. Illustration : p=1 p=3 0 1 Quelle est la distance moyenne entre 10 points choisis au hasard de façon uniforme dans cet intervalle? Et si ces 10 points sont choisis au hasard dans ce cube? Et si on a p = 1000 dimensions?

Fléau de la dimension Si la dimension p d un jeu de données augmente, il faudra augmenter le nombre de données exponentiellement pour avoir la même précision dans l inférence. Illustration : p=1 p=3 0 1 Quelle est la distance moyenne entre 10 points choisis au hasard de façon uniforme dans cet intervalle? Et si ces 10 points sont choisis au hasard dans ce cube? Et si on a p = 1000 dimensions? Réduction de la dimensionnalité, modèles plus parcimonieux, régularisation,

Problème de comparaisons multiples } 1 test statistique } Si valeur-p = 0.05 et aucun effet: 5% de chance d erreur

Problème de comparaisons multiples } 1 test statistique } Si valeur-p = 0.05 et aucun effet: 5% de chance d erreur } 100 tests statistiques } Si valeur-p = 0.05 et aucuns effets: 5 erreurs en moyenne } Méthodes relativement simples pour corriger ce problème

Problème de comparaisons multiples } 1 test statistique } Si valeur-p = 0.05 et aucun effet: 5% de chance d erreur } 100 tests statistiques } Si valeur-p = 0.05 et aucuns effets: 5 erreurs en moyenne } Méthodes relativement simples pour corriger ce problème } 100 000 tests statistiques } Si valeur-p = 0.05 et aucuns effets: résultats peu utiles } Un des défis statistiques du Big Data

Vélocité } Big Data souvent collecté de façon automatique } Les données s accumulent à des vitesses énormes } On doit parfois réagir en temps réel (e.g. transactions à haute fréquence)

Vélocité } Big Data souvent collecté de façon automatique } Les données s accumulent à des vitesses énormes } On doit parfois réagir en temps réel (e.g. transactions à haute fréquence) } Défis statistiques } Algorithmes très efficaces en temps de calcul } Apprentissage en ligne, i.e. mettre à jour son modèle au fur et à mesure qu on obtient les observations

Variété } Big Data contient souvent bien plus que de simples matrices de nombres } Images, vidéos, texte, réseaux, données géo-temporelles, } On parle de données non-structurées

Variété } Big Data contient souvent bien plus que de simples matrices de nombres } Images, vidéos, texte, réseaux, données géo-temporelles, } On parle de données non-structurées } Défis statistiques } Développer des modèles pour analyser ce nouveau type d information } Combiner différents types de données dans l inférence

Véracité } Big Data rarement le résultat d une collecte planifiée } Données parfois erronées (e.g. typo, abbréviations dans des données textuelles) } Données parfois manquantes } Données ne répondent parfois pas aux objectifs visés (e.g. déterminer la causalité)

Véracité } Big Data rarement le résultat d une collecte planifiée } Données parfois erronées (e.g. typo, abbréviations dans des données textuelles) } Données parfois manquantes } Données ne répondent parfois pas aux objectifs visés (e.g. déterminer la causalité) } Défis statistiques } Tenir compte des imperfections dans les données } Aider les utilisateurs à comprendre les limites de leurs données

Valeur Big Data = $ Exemples : Moneyball Google Facebook

En conclusion } Big Data est un terme un peu vague, mais qui réflète une vraie révolution dans la prévalence et la complexité de données à analyser. } Les défis statistiques du Big Data sont liés à ces caractéristiques: volume, vélocité, variété, véracité. } Une compréhension du small data est essentielle pour bien saisir les enjeux du Big Data

Pour aller plus loin } Fan, Jianqing, Fang Han, and Han Liu. "Challenges of Big Data Analysis." arxiv:1308.1479 (2013). } Présentation de Arthur Carpentier à l Université Laval vendredi dernier: http://freakonometrics.hypotheses.org/13121 } Boyd, Danah, and Kate Crawford. "Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon." Information, Communication & Society 15.5 (2012): 662-679.