Le Big Data : Aspects théoriques et pratiques

Dimension: px
Commencer à balayer dès la page:

Download "Le Big Data : Aspects théoriques et pratiques"

Transcription

1 Le Big Data : Aspects théoriques et pratiques Stéphane TUFFERY II èmes Rencontres STAT. à l UBS 21 novembre /11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 1

2 Plan Le Big Data Méthodes statistiques et Machine Learning pour le Big Data Réduction de la complexité et agrégation de modèles Les réseaux sociaux Exemple d analyse d un réseau social avec R Conclusion 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 2

3 Le Big Data 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 3

4 L escalade de la puissance Avant 1950 : la statistique avec quelques centaines d individus et quelques variables, recueillies dans un laboratoire selon un protocole strict pour une étude scientifique Années : l analyse des données avec quelques dizaines de milliers d individus et quelques dizaines de variables, recueillies de façon rigoureuse pour une enquête précise Années : le data mining avec plusieurs millions d individus et plusieurs centaines de variables hétérogènes, recueillies dans le système d information des entreprises pour de l aide à la décision À partir des années 2010 : le Big Data avec plusieurs centaines de millions d individus et plusieurs milliers de variables, de tous types, recueillies dans les entreprises, les systèmes, Internet, pour de l aide à la décision, de nouveaux services 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 4

5 L explosion de la production de données Données signalétiques et sociodémographiques Données de comportement (utilisation du téléphone, de la carte bancaire, du véhicule ) Données CRM (contact avec un service client, carte de fidélité, fidélisation ) Données externes provenant des administrations (Open Data) ou des mégabases de données privées Informations remontées par les capteurs industriels, routiers, climatiques, puces RFID, NFC, objets connectés (caméras, compteurs électriques, appareils médicaux, voitures ) Géolocalisation par GPS ou adresse IP Données de tracking sur Internet (sites visités, mots-clés recherchés...) Contenu partagé sur Internet (blogs, photos, vidéos ) Opinions exprimées dans les réseaux sociaux (sur une entreprise, une marque, un produit, un service ) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 5

6 Caractérisation des données Big Data : les 3 «V» Volume L ordre de grandeur de ces volumes est le pétaoctet (10 15 octets) L accroissement du volume vient de l augmentation : du nombre d individus observés (plus nombreux ou à un niveau plus fin) de la fréquence d observation et d enregistrement des données (mensuel quotidien, voire horaire) du nombre de caractéristiques observées Cet accroissement vient aussi de l observation de données nouvelles, provenant notamment d Internet : pages indexées, recherches effectuées, messages postés, éventuellement avec des données de géolocalisation Cet aspect est peut-être le plus visible et le plus spectaculaire, mais il n est pas le plus nouveau (grande distribution, banque, téléphonie manipulent de grands volumes de données) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 6

7 Caractérisation des données Big Data : les 3 «V» Variété Ces données sont de natures et de formes très diverses : numériques, logs web, textes (Word, PDF, courriels, SMS ), sons, images, données fonctionnelles Cette variété rend difficile l utilisation des bases de données usuelles et requiert une variété de méthodes (text mining, web mining ) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 7

8 Caractérisation des données Big Data : les 3 «V» Vitesse, ou Vélocité Vélocité des données qui proviennent de sources où elles sont mises à jour rapidement, parfois en temps réel (streaming data) Vitesse des traitements à mettre en œuvre sur ces données la décision du client sur Internet se fait vite car il suffit d un clic pour changer de site, aussi faut-il instantanément lui faire la meilleure offre commerciale la détection de la fraude par carte bancaire doit bien sûr aussi être instantanée Dans certains cas,vitesse de mise à jour des modèles,et pas seulement vitesse de leur application 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 8

9 Méthodes statistiques et Machine Learning pour le Big Data 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 9

10 Méthodes statistiques pour le Big Data Les principales méthodes de modélisation statistique appliquées aux Big Data sont fondées sur les techniques avancées d échantillonnage, le Machine Learning, les estimateurs du type Lasso, l analyse des données fonctionnelles et bien sûr le text mining pour l analyse des textes en langage naturel On peut ajouter la détection des règles d association, utilisée dans la grande distribution pour l analyse des tickets de caisse, qui sont des Big Data avec des nombres de tickets de plusieurs centaines de millions et des nombres de produits de plusieurs dizaines de milliers On peut mentionner un autre axe de recherche, sur la visualisation des données en grande dimension, qui est importante aussi parce qu il faut communiquer des informations à des interlocuteurs non spécialistes 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 10

11 Matrices en grande dimension L étude des matrices en grande dimension survient naturellement, avec des matrices dont les lignes sont des clients et les colonnes des produits téléchargés, achetés ou recommandés. Il peut aussi s agir de matrices représentant des relations entre individus, dans des contextes de marketing, de sociologie, de bio-statistique ou entre institutions financières cotées (rendements journaliers) dans un contexte d étude du risque systémique Recherche dans ces grandes matrices de sous-matrices (clusters) correspondant à des sous-ensembles pertinents de produits et d individus intéressés par ces produits Biclustering (co-clustering) pour la classification simultanée des lignes et des colonnes trouver des groupes de documents caractérisés par certains groupes de mots associer des groupes de phénotypes à des groupes de gènes 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 11

12 p >> n La régression en grande dimension pose le problème classique de sélection des variables On rencontre aussi, par exemple en bio-statistique (séquençage de l ADN) ou en chimiométrie (statistique appliquée aux données chimiques), des situations où le nombre de variables est supérieur, voire très supérieur, au nombre d individus (on parle de tableaux plats), et où les méthodes classiques de régression ne s appliquent pas et cèdent la place à des méthodes telles que la régression Lasso ou PLS Le nombre de variables étudiées peut varier entre 10 4 et 10 8, alors que le nombre d'observations est de quelques centaines 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 12

13 Données fonctionnelles Les données fonctionnelles sont des données qui ne sont pas ponctuelles mais sont continues, comme des courbes ou des images Ces données se sont multipliées avec les progrès technologiques qui permettent la collecte et le stockage d observations de plus en plus fines, captant en continu les informations sur un objet étudié (météorologique, environnemental, médical, alimentaire ) Ces données sont de grande taille, mais posent aussi des problèmes de corrélation élevée entre deux observations proches d un même phénomène continu Au lieu de discriminer des individus au vu de quelques caractéristiques en nombre fini observées en quelques instants choisis, on n a pas d a priori sur le moment et la durée des différences entre deux courbes d évolution, ce qui amène à les considérer dans leur intégralité au lieu de les discrétiser Travaux récents sur les séries temporelles fonctionnelles 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 13

14 Nouvelles approches en Machine Learning Les méthodes de Machine Learning (agrégation de modèles, SVM, réseaux de neurones ) sont utilisées pour leur pouvoir prédictif élevé, dans des situations où la lisibilité du modèle n est pas recherchée et où leur caractéristique «boîte noire» n est pas un inconvénient Exemple d une librairie en ligne, qui veut proposer des titres à ses clients. Dans ce problème, les variables (titres déjà achetés) sont excessivement nombreuses et créent des matrices creuses difficiles à modéliser. L approche courante est de décomposer la clientèle en un très grand nombre de segments, éventuellement des milliers, recalculés en permanence par des techniques statistiques qui permettent de situer chaque client dans un petit segment de clients ayant des goûts proches. Ensuite, on lui propose les titres souvent acquis par les autres clients de son segment, que lui-même n aurait pas encore acquis. Ces calculs sont refaits en permanence, sans recherche de segments et de modèles robustes et lisibles. 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 14

15 Les méthodes d agrégation Les méthodes d'agrégation, ou méthodes d'ensemble, ainsi que le stacking, consistent à combiner entre elles des méthodes prédictives Dans le stacking, on combine différentes méthodes ; dans les méthodes d agrégation, on applique un grand nombre de fois la même méthode Quand on agrège des modèles prédictifs, parfois simplement en faisant la moyenne de leurs prédictions, il vaut mieux agréger des modèles moins poussés, individuellement moins performants, pour obtenir un modèle final plus performant! Cela vient de ce que les modèles individuels plus poussés se ressemblent plus, et que le gain de leur agrégation est beaucoup moins grand On touche ici au besoin de puissance du Big Data, car ces méthodes peuvent être très gourmandes en temps de calcul 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 15

16 Remarque sur les méthodes appliquées au Big Data Toutes les méthodes utilisées pour le Big Data ne sont pas toutes très récentes, et la plupart faisait du Big Data comme Monsieur Jourdain : «Par ma foi! il y a plus de quarante ans que je dis de la prose sans que j'en susse rien,et je vous suis le plus obligé du monde de m'avoir appris cela.» Molière, Le Bourgeois gentilhomme, 1670 À côté des méthodes classiques, on utilise des méthodes plus modernes (les méthodes «d agrégation» par exemple) mais aussi des perfectionnements très récents de méthodes classiques (les méthodes «pénalisées», par exemple) C'est comme la musique dite classique,qui ne s'est pas arrêtée au XIX e siècle, et qui s'enrichit en permanence de nouvelles œuvres, certaines plus novatrices et originales que des œuvres de musique dite moderne 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 16

17 Réduction de la complexité et agrégation de modèles 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 17

18 Fonction de perte et risque d un modèle Si un modèle relie X et Y en sorte que Y = (X) + ε, avec E(ε) = 0 et V(ε) = σ², et si estime, des fonctions de perte L courantes sont : y continue L(y,(x)) = (y (x))² y = 1/+1 L(y,(x)) = ½ y (x) Risque (ou risque réel) = espérance de la fonction de perte sur l ensemble des valeurs possibles des données (x,y) comme on ne connaît pas la loi de probabilité conjointe de x et y, on ne peut qu estimer le risque l estimation la plus courante est le risque empirique ( ) ou ( ) (n = effectif) on retrouve le taux d erreur pour y = 1/+1 Dans le cas quadratique, le risque se décompose en : Erreur irréductible σ² + Biais²(modèle) + Variance(modèle) Variance de y autour de sa valeur moyenne + (différence entre espérance de la prédiction f(x) et valeur moyenne de y)² + variance de la prédiction 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 18

19 Dilemme Biais-Variance Plus un modèle est complexe, plus son biais diminue mais plus sa variance augmente Nous devons trouver le bon compromis entre biais et variance, entre ajustement aux données d apprentissage (biais) et capacité de généralisation (variance) Dans quelques cas simples, la complexité d un modèle est égale à p+1, où p est le nombre de paramètres Dans certaines situations, on ne peut pas diminuer le nombre de paramètres car les utilisateurs veulent voire apparaître simultanément des critères même s ils sont fortement corrélés : médecine, avec des mesures physiologiques, des résultats d analyses banque, avec des critères qualitatifs saisis sur les entreprises La complexité peut être diminuée par l introduction de bornes β C dans la recherche des coefficients d un modèle de régression (les observations étant dans une sphère de rayon R) complexité min[partie entière (R²C²),p] /11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 19

20 Solutions de réduction de la complexité La régression avec pénalisation L d (d 0) Minimiser -2.log-vraisemblance (ou Σ des carrés) + λσ β i d,d 0 minimiser -2.log-vraisemblance avec la contrainte λσ β i d C d 1:sélection de prédicteurs (AIC,BIC si d = 0,Lasso si d = 1) d > 1:rétrécissements de coefficients (Ridge si d = 2) La régression ridge (ou logistique ridge) est la plus répandue elle réduit les coefficients dans toutes les directions, surtout celles à faible variance (le coefficient de la ridge sur la 1 ère composante principale diminue moins que le coefficient sur la 2 e composante,etc.) La complexité peut aussi être réduite par la régression PLS avec une seule composante : les signes des coefficients sont égaux aux signes des corrélations entre prédicteurs et variable réponse la régression PLS réduit les coefficients dans les directions à faible variance, mais peut provoquer une hausse trop grande dans les directions à forte variance l erreur de prédiction de la PLS est souvent un peu supérieure 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 20

21 Ridge plot Évolution des coefficients en fonction de la pénalisation Régression ridge Régression lasso 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 21

22 Introduction aux méthodes d agrégation Nous avons vu que la complexité d un modèle doit être maîtrisée pour lui assurer une faible somme «biais² + variance» et donc une bonne généralisation La complexité d un modèle peut être diminuée par : la diminution du nombre de prédicteurs l introduction de bornes sur les coefficients de régression de ces prédicteurs l augmentation de la marge des SVM Nous allons voir une autre approche avec les méthodes d agrégation («méthodes d ensemble») qui consistent à agréger les prédictions de plusieurs modèles de même type, d une façon qui permette de réduire la variance voire le biais du modèle agrégé Si les prédictions sont identiquement distribuées mais dépendantes, avec une corrélation ρ > 0, la variance de la prédiction moyenne est ²+ ², et diminue si B est grand et ρ est faible 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 22

23 Bagging 1/2 En moyennant des classifieurs (par exemple des arbres) sur B échantillons bootstrap, on obtient un classifieur : dont le biais n a pas diminué dont la variance a diminué d autant plus que la corrélation entre les classifieurs est faible Les B modèles sont agrégés : par un vote ou une moyenne des probabilités P(Y=1 X) quand on sait calculer cette moyenne (classement) par une moyenne des estimations (régression) C est le bagging : Bootstrap AGGregatING, Breiman, 1996 La procédure de vote appliquée à des arbres de faible qualité peut conduire à un résultat pire lors de l agrégation supposons que Y = 1 pour tout x et que chaque classifieur prédise 1 avec la probabilité 0,4 et 0 avec la probabilité 0,6. L erreur de classement de chaque classifieur vaudra 0,6 mais l agrégation par vote donnera un classifieur dont l erreur vaudra 1. 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 23

24 Bagging 2/2 Le classifieur de base est le même à chaque itération : arbre de décision, réseau de neurones La corrélation entre les classifieurs est diminuée par : le mécanisme de bootstrap l augmentation de la complexité Le bagging s applique mieux aux classifieurs à faible biais et variance élevée particulièrement les arbres de décision La stratégie d élagage est simple : préférer le bagging sur des arbres profonds Bagging inefficace sur un classifieur fort, dont les différents modèles seront trop corrélés pour réduire la variance R : packages ipred, randomforest 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 24

25 Forêts aléatoires 1/3 Le bagging manque d efficacité quand les modèles sont trop corrélés on veut donc les décorréler Introduction d une 2 e randomisation : sur les individus (bagging) mais aussi sur les prédicteurs, en ajoutant à chaque scission un tirage aléatoire d un sous-ensemble de taille q (constante) parmi l ensemble des p prédicteurs (forêts aléatoires, Breiman, 2001) Plus la corrélation baisse (elle peut atteindre ρ = 0,05) plus la variance du modèle agrégé diminue :²+ ² Évite de voir apparaître trop souvent les mêmes variables les plus discriminantes Chaque arbre élémentaire est moins performant mais l agrégation conduit à un modèle agrégé plus performant : l augmentation du biais est plus que compensée par la diminution de la variance R :packages randomforest (sur arbre CART) et party (sur arbre Ctree) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 25

26 Forêts aléatoires 2/3 Diminuer le nombre q de prédicteurs augmente le biais mais diminue la corrélation entre les modèles et la variance du modèle final q permet de régler le compromis entre biais et variance Pour le classement, Breiman suggère un sous-ensemble de q = p variables ou [log(p)+1] ou 1 Mais il ne faut pas que ce nombre q soit trop faible si une forte proportion de variables sont peu discriminantes Les forêts aléatoires commencent à être très efficaces lorsque la probabilité de sélectionner un prédicteur discriminant est > 0,5. Cette probabilité est donnée par la loi hypergéométrique. Si 6 variables discriminantes sont mélangées à 30 non discriminantes, la probabilité de tirer au moins une variable discriminante parmi 6 est : > sum(dhyper(1:6, 6, 30, 6)) [1] /11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 26

27 Forêts aléatoires 3/3 Le nombre q de prédicteurs est le seul paramètre réellement à régler Le nombre d itérations est moins sensible à régler, et on a intérêt à le choisir assez élevé Le nombre de modèles à agréger devrait croître avec le nombre de prédicteurs À noter la convergence des performances atteinte avec un nombre de modèles agrégés parfois très inférieur au nombre de combinaisons de p variables parmi n (n!/p!(n p)!), c est-à-dire bien avant que toutes les combinaisons possibles de variables soient apparues. Les forêts aléatoires résistent bien au sur-apprentissage (contrairement aux réseaux de neurones et au boosting) même quand le nombre de modèles agrégés est grand 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 27

28 Similitudes entre forêts aléatoires et régression pénalisée ridge Le rétrécissement λ des coefficients dans la régression ridge sélection de q < p prédicteurs aléatoirement parmi les p prédicteurs Augmenter λ ou réduire q : augmente le biais, puisque la solution est cherchée dans un sousespace fixé par la contrainte réduit la variance,de façon à compenser la hausse du biais Autre analogie : tous les prédicteurs peuvent apparaître dans le modèle par rétrécissement de leurs coefficients dans la régression ridge ou par sélection au hasard dans les forêts aléatoires le travail de sélection des variables est simplifié! Pouvoir prédictif élevé! 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 28

29 Différences entre forêts aléatoires et régression pénalisée ridge Le paramètre de pénalisation λ permet un ajustement continu du biais-variance, alors que le nombre q est discret Il permet d ajuster les coefficients à l aide du ridge plot en sorte que tous les coefficients aient un signe cohérent voire que certains coefficients soient supérieurs à un certain seuil fixé par les experts du domaine La régression pénalisée est déterministe Les calculs de la régression pénalisée sont plus rapides mais les calculs des forêts aléatoires peuvent être parallélisés Manque de lisibilité d un modèle de forêts aléatoires, qui détruit la structure d arbre 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 29

30 Agrégation de modèles : le boosting BOOSTING, Freund et Schapire, 1996 Algorithme adaptatif et généralement déterministe : on travaille souvent sur toute la population et à chaque itération,on augmente le poids des individus mal classés ou mal ajustés dans les itérations précédentes à la fin,on agrège les modèles en les pondérant par leur qualité Diminue le biais et pas seulement la variance (grâce au mécanisme d agrégation) mais peut être sujet au sur-ajustement Nombreux algorithmes : Discrete AdaBoost, Real AdaBoost, Gentle AdaBoost, LogitBoost, Arcing (Adaptative Resampling and Combining) performances pas toujours très différenciées sur des données réelles R :packages ada,gbm et mboost 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 30

31 Illustration (Robert Schapire) Extrait d une conférence visible ici : 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 31

32 Les réseaux sociaux 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 32

33 Les réseaux sociaux Un réseau social est un ensemble d'acteurs (individus, groupes ou organisations) reliés par des liens sociaux (familiales, amicales, professionnelles) On le représente sous la forme d un graphe dont les acteurs sont les sommets et les liens sont les arêtes On peut étudier le graphe,son nombre de sommets (= nœuds), d arêtes (= liens), sa densité, son diamètre, ses éléments centraux (avec le plus de liens) Dans la recherche sur Internet, on peut aussi s intéresser à des réseaux de sites et regrouper les sites par similarité Les sites de commerce en ligne identifient des groupes d acheteurs en ligne pour formuler des conseils d achat 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 33

34 Recherches sur les réseaux sociaux Prédiction de liens (link mining) détection de liens anormaux, ou au contraire de liens cachés, par exemple par l évaluation du score d un lien entre deux sommets Détection de communautés s apparente à la classification en analyse des données, et est utile dans des domaines tels que le marketing viral Identification des acteurs importants Systèmes de recommandation Rôles des individus en fonction de leurs liens Analyse de la diffusion de l information, de l influence Évolution des graphes et des communautés 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 34

35 Caractéristiques des graphes 1/2 Voisinage d un sommet = ensemble des sommets adjacents (directement connectés) Degré d un sommet = nombre d de ses voisins Un chemin est une suite d arêtes et de sommets reliant deux sommets longueur du chemin = nombre d arêtes Distance entre deux sommets = distance minimale des chemins les reliant (exprimée en «hops» : deux voisins sont à un hop de distance) graphe «petit-monde» : faible distance moyenne entre deux sommets ( log(nombre sommets)) Diamètre d'un graphe = distance maximale entre deux sommets du graphe Densité d un graphe = nombre d arêtes / nombre maximal d arêtes possibles (quand toute paire de sommets est directement connectée) densité = # arêtes / n(n 1)/2,avec n = # sommets 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 35

36 Caractéristiques des graphes 2/2 Un graphe est connexe si toute paire de sommets est reliée par un chemin (aucun sommet n est isolé) un graphe connexe n a pas nécessairement une forte densité, car le chemin entre deux sommets peut être plus ou moins long La distribution du degré des sommets est variable graphe «sans échelle» : graphe où cette distribution suit une loi de puissance :le nombre de sommets ayant un degré donné d est proportionnel à d k,où k est une constante (comprise entre 2 et 3 pour beaucoup de réseaux) cela se traduit par le fait que beaucoup de sommets ont un faible degré et quelques sommets ont un degré élevé loi de puissance notion de sparsité Un graphe peut être ou non orienté, distinguant une arête entre sommetsa et B,et entre B eta (arc = arête orientée) Les arêtes peuvent être pondérées, par exemple par le nombre de messages entrea et B poids d un chemin = somme des poids des arêtes qui le composent 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 36

37 Exemples de graphes «petit-monde» Stanley Milgram a réalisé en 1967 une expérience pour tester une hypothèse formulée par Frigyes Karinthy en 1929, selon laquelle, si deux personnes sont reliées quand elles se connaissent, la distance entre deux individus sur Terre est toujours inférieure ou égale à 6 : autrement dit, elles sont séparées par au plus 5 intermédiaires Le graphe formé par Facebook (720 millions d utilisateurs et 69 milliards de connexions) a une distance moyenne entre utilisateurs de 4,74, avec 92 % des paires d utilisateurs qui ont une distance de 5 ou moins (https://www.facebook.com/notes/facebook-data-team/anatomy-offacebook/ ) cette distance moyenne est inférieure (environ 4) si l on se limite à un pays cette distance moyenne diminue au fil des années (5,28 en 2008, mais 4,74 en 2011) 84 % des connexions restent à l intérieur d un pays Selon une étude de 2010,la distance moyenne vaut 5,67 pourtwitter 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 37

38 Caractérisation des réseaux sociaux Les réseaux sociaux sont des graphes avec des propriétés particulières : ils sont très grands et peuvent avoir des millions de sommets les sommets ont un ensemble d attributs (nom, adresse, âge, langue ) les sommets avec des attributs proches sont plus souvent connectés (propriété d homophilie, bien sûr particulièrement vraie de la langue) ce sont des graphes «sans échelle» ce sont des graphes «petit-monde» ils ont un coefficient de clustering (transitivité) élevé : probabilité que deux voisins d'un sommet choisis aléatoirement soient eux-mêmes connectés ils se décomposent généralement en «communautés», qui sont des sous-graphes dont les sommets sont fortement connectés entre eux et faiblement connectés aux sommets des autres communautés 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 38

39 Méthodes de détection des communautés : classification hiérarchique descendante Méthode de Girvan-Newman (edge betweenness) : classification hiérarchique descendante (divisive) procédant en retirant une à une les arêtes en commençant par celles à fort degré d intermédiarité, car les arêtes reliant des communautés différentes sont plus souvent contenues dans des géodésiques (il y a peu de chemins pour passer d une communauté à une autre) complexité en O(m².n),où n = # sommets et m = # arêtes Méthode de Radicchi et al.du même type complexité en O(m²) Méthode de Fortunato et al. du même type (centralité d information) complexité en O(m 3.n) Méthode spectrale (leading eigenvector) : classification hiérarchique descendante binaire (comme Varclus) complexité en O(n 3 ) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 39

40 Méthodes de détection des communautés : classification hiérarchique ascendante Algorithme «glouton» (greedy) de Newman, perfectionné par Clauset, Newman et Moore : classification hiérarchique ascendante (agglomérative) partant des sommets et les fusionnant de proche en proche de façon à maximiser une fonction de modularité (proportion d arêtes intra-communautés par rapport à une répartition aléatoire des arêtes dans un graphe ayant la même distribution des sommets) complexité en O((m+n).n) = O(m.n), améliorée en O(n.log²(n)), où n = # sommets et m = # arêtes assez rapide seulement pour les graphes non orientés Méthode de Wakita et Tsurumi : variante passant mieux à l échelle Méthode de Louvain : aussi basée sur la notion de modularité et très rapide ces deux algorithmes peuvent traiter plusieurs millions de sommets 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 40

41 Méthodes de marches aléatoires Algorithme Walktrap de Pons : effectue un certain nombre de marches aléatoires, en se basant sur le fait qu une marche aléatoire tend à faire rester dans la même communauté (sommets faiblement connectés aux sommets des autres communautés) permet de définir une distance utilisable dans une méthode de classification hiérarchique ascendante complexité en O(n²log(n)) ou au pire O(m.n²) Algorithme Markov Cluster de van Dongen : calcule les probabilités de transition entre tous les sommets complexité en O(n 3 ) Autres méthodes :Harel et Koren,Zhou et Lipowsky complexité en O(n 3 ) Nombreuses autres méthodes 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 41

42 Réseaux sociaux et statistique publique L analyse des messages Twitter aux Pays-Bas a montré une corrélation entre les sentiments exprimés et l indice public de confiance des ménages Twitter a succédé aux médias classiques dans les analyses classiques en sciences humaines sur les discours, l opinion Les journalistes de Bloomberg intègrent aussi les données de Twitter D autres données peuvent aussi être utiles : tickets de caisse et calcul du taux d inflation, sites de recherche d emploi et estimation du taux de chômage, recherches sur Google et apparition d une épidémie Ces exemples illustrent l apport possible des analyses privées de Big Data à la statistique publique, avec des indicateurs équivalents mais calculés bien plus rapidement et peut-être, du moins à terme,à moindre coût 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 42

43 Exemple d analyse d un réseau social avec R 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 43

44 R pour explorer Twitter Il faut d abord se connecter à l interface Twitter (https://dev.twitter.com/) avec un compte et créer une application avec le bon paramétrage des droits d accès Récupérer des codes qui permettent de se connecter à l API Twitter api_key <- "YOUR API KEY" api_secret <- "YOUR API SECRET" access_token <- "YOUR ACCESS TOKEN" access_token_secret <- "YOUR ACCESS TOKEN SECRET" setup_twitter_oauth(api_key,api_secret,access_token,ac cess_token_secret) Quelques commandes de base getuser( xxx")$followerscount # nombre de followers getuser( xxx")$friendscount # nombre de followees usertimeline( xxx",n=100) # fil d un utilisateur trend <- availabletrendlocations() # tendances gettrends(trend[which(trend$country=="france"),]$woeid ) # tendances sur la France 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 44

45 Récupération de tweets Extraction de tweets sur un sujet entre deux dates tweets <- searchtwitter("patrick Modiano", lang='fr', n=30000, since=' ', until=' ') Conversion en data frame df <- twlisttodf(tweets) df <- do.call("rbind", lapply(tweets, as.data.frame)) # commande équivalente table(as.date(df$created)) # date des tweets table(df$screenname) # auteurs des tweets table(df$longitude), table(df$latitude) # localisation texte <- unlist(lapply(df$text, function(x) gsub("[^[:print:]]", "", x))) # suppression des caractères non imprimables 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 45

46 Mise en forme du corpus 1/2 Création d un corpus : ensemble de documents mycorpus <- Corpus(VectorSource(texte)) Affichage du corpus inspect(mycorpus[1:6]) Passage en bas de casse mycorpus <- tm_map(mycorpus, tolower) Suppression des mots commençant mycorpus <- tm_map(mycorpus, function(x) "", x)) Suppression de la ponctuation mycorpus <- tm_map(mycorpus, function(x) removepunctuation(x, preserve_intra_word_dashes = TRUE)) Suppression des URL mycorpus <- tm_map(mycorpus, function(x) gsub("http[[:alnum:]]*", "", x)) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 46

47 Mise en forme du corpus 2/2 Définition de mots-outils («mots-vides», ou stop-words) mystopwords <- c(stopwords('french'), "via", "amp", "a", "rt", "où", "ça") Les mots-outils sont des termes, comme les prépositions, les articles, les pronoms et les conjonctions («mots grammaticaux»), qui, par opposition aux «mots lexicaux» (substantifs, adjectifs, verbes), apportent peu d information car leur distribution est uniforme dans la plupart des textes Comme ils sont assez nombreux (environ 20% à 30% des mots d un texte standard), on les supprime à l aide d un «anti-dictionnaire», qui peut être éventuellement enrichi en fonction du contexte Suppression des mots-outils mycorpus <- tm_map(mycorpus, removewords, mystopwords) Suppression des blancs inutiles mycorpus <- tm_map(mycorpus, stripwhitespace) Export du texte du corpus texte.corpus <- data.frame(text=unlist(mycorpus), date=as.date(df$created), lon=df$longitude, lat=df$latitude, stringsasfactors=f) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 47

48 Racinisation Le but des transformations précédentes est de diminuer le nombre de termes différents tout en perdant le moins d information possible simplifier l analyse et réduire la sparsité Définition d un dictionnaire dictcorpus <- mycorpus Racinisation (stemming) : passage au radical (suppression de la fin du mot) corpus.stem <- tm_map(mycorpus, stemdocument, language = "fr") Inconvénient de la racinisation :la racine n'est pas toujours un mot réel et le résultat manque de lisibilité et de pertinence > stemdocument("fraises",language = "french") [1] "frais" > stemdocument("cherche",language = "fr") [1] "cherch" > stemdocument("cherchent",language = "fr") [1] "cherchent" 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 48

49 Lemmatisation "stem completion" : remplacer chaque radical par sa forme originale la plus fréquente (ou la 1 ère ou au hasard ) dans un dictionnaire spécifié corpus.stem <- tm_map(corpus.stem, stemcompletion, dictionary=dictcorpus) Lemmatisation : passage des flexions à la forme canonique (lemme) pour un verbe : infinitif pour un nom, adjectif, article : masculin singulier difficulté : une même forme graphique (homographie) peut correspondre à plusieurs formes canoniques, et seule l analyse grammaticale permet de déterminer la forme canonique pertinente exemples : suis (suivre, être), été (être, été), sens (sens, sentir) on peut tenter une désambiguïsation automatique mais il faut peut-être exclure certaines formes graphiques de la lemmatisation automatique La lemmatisation est plus complexe et plus longue que la racinisation mais plus adaptée aux langues latines,qui ont un fort taux de flexion 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 49

50 Exemple : tweets parlant du Crédit Agricole 3945 tweets extraits entre le 16 septembre et le13 octobre 2014 > df <- twlisttodf(searchtwitter("credit_agricole", lang='fr', n=5000)) > table(as.date(df$created)) Les six premiers tweets > head(df$text) [1] "Crédit agricole Assurances crée une plate-forme unique en assurance vie patrimoniale: UAF Patrimoin... #Assurance" [2] "La banquiere le retour vendredi dans les bacs du crédit agricole à Blain.. Qui veut placer son argent? Venez venez :)" [3] #Logement : Faut-il un apport personnel pour acheter? #CreditAgricole" [4] #Assurance : Profitez de votre domicile en toute tranquillité avec nos assurances [5] #MozaicM6 : Jusqu'au 30 septembre, gagnez vos places pour le concert à Paris [6] "Demain go to Crédit Agricole." 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 50

51 Mise en forme des tweets Transformation du corpus (sans racinisation) Passage du corpus transformé à un data frame > texte.corpus <- data.frame(text=unlist(sapply(mycorpus, `[`, "content")), date=as.date(df$created), lon=df$longitude, lat=df$latitude, stringsasfactors=f) Résultat de la mise en forme du texte > head(texte.corpus$text) [1] "crédit_agricole assurances crée plate-forme unique assurance vie patrimoniale uaf patrimoin assurance" [2] " banquiere retour vendredi bacs crédit_agricole blain veut placer argent venez venez " [3] " logement faut- apport personnel acheter crédit_agricole" [4] " assurance profitez domicile toute tranquillité assurances " [5] " mozaicm6 jusqu 30 septembre gagnez places concert paris " [6] "demain go to crédit_agricole" 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 51

52 Passage à une forme matricielle Construction d une matrice «termes (lignes) / documents (colonnes)» à partir du corpus > tdm <- TermDocumentMatrix(myCorpus, control = list(wordlengths=c(1,inf))) > nterms(tdm) # nb de termes de la matrice [1] 4534 On a 4534 termes et une matrice très «sparse» : seulement cases non nulles sur (= 4534 x 3945) > tdm A term-document matrix (4534 terms, 3945 documents) Non-/sparse entries: 29910/ Sparsity : 100% Maximal term length: 44 Vérification de la loi de Zipf > Zipf_plot(tdm) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry log(frequency) log(rank)

53 Wordcloud Le wordcloud permet de repérer les termes les plus fréquents (plus gros, et placés au centre du graphique) > wordcloud(d$word, d$freq, min.freq=5, random.order = FALSE, colors=graylevels, rot.per=.2, max.words=100) participant préconisé générale engage situation belle comme emploi clients lindustrie f rançois saisit bancaire application protégez assurance crédit_agricole groupe découv rez va france gouvernance accompagne etat agricole 1 solutions domicile télésurveillance banque pret aca problème of f re 2014assurances banques f inancière hollande analy ste chez licenciée contre-pied recrute caisse Limite : le wordcloud ne rapproche pas les termes voisins dans le corpus village plan tond the tank pub of f toute santé hf cliente nouvelle 3sialerte - grand comment unique lanceurs partout bastille rh sécuricompte handicap f inanceinnov ation v eut accepter prend bien inaugurer calme rse mozaicm6 plus pubs conseil coupe engagement près auto septembre candidats surendettement tour semaine record prendre demande nepassezpasacote 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 53 niort tout siège paris

54 Classification des termes On veut rapprocher les termes voisins dans le corpus, en considérant des termes comme d autant plus proches qu ils sont co-occurrents dans un plus grand nombre de documents La structure matricielle construite permet d appliquer les méthodes habituelles d analyse factorielle et de classification (ici une CAH) assurance télésurveillance domicile protégez solutions nouvelle banques saisit conseil etat gouvernance alerte problème - lanceurs banque application toute accompagne partout comment clients sécuricompte tond agricole groupe 2014 bancaire france the off record françois hollande village innovation crédit_agricole va 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 54 Height

55 Classification des documents On peut classer des termes mais aussi des documents Une méthode permet d identifier 5 classes, caractérisées par les termes suivants : cluster 1 : accompagne banque crédit_agricole nouvelle partout application toute cluster 2 : assurance domicile protégez solutions télésurveillance cluster 3 : crédit_agricole banque agricole alerte comment problème - cluster 4 : gouvernance conseil crédit_agricole nouvelle etat banques saisit cluster 5 : hollande village crédit_agricole françois off the record Les classes (ou «clusters») sont de tailles inégales : > kmeansresult$size [1] Plusieurs méthodes de classification existent (k-means, k-medoids ) Certaines méthodes peuvent déterminer un nombre de classes optimal selon un certain critère exemple : les k-means avec l algorithme clustersim qui s appuie sur un critère tel que l indice Silhouette de Rousseeuw (s assurant d une faible distance entre les éléments d une même classe et d une distance moyenne plus grande entre eux et les éléments d une autre classe) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 55

56 Score d opinion (ou analyse de sentiments) Méthode de base :partir d une liste de mots positifs et d une liste de mots négatifs, compter dans chaque document le nombre de mots positifs et lui soustraire le nombre de mots négatifs Cela donne le «score» du document Voici sur le corpus de tweets la distribution des scores : > table(texte.corpus$score) La brièveté des tweets entraîne bien sûr la faible amplitude du «score 1500 d opinion» La qualité du score dépend de celle des listes 1000 count /11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry texte.corpus$score

57 Évolution du score d opinion dans le temps On calcule le score moyen et le score médian chaque jour Score moyen Score médian sept. 15 sept. 16 sept. 18 sept. 20 sept. 22 sept. 24 sept. 26 sept. 28 sept. 29 sept. 30 oct. 02 oct. 04 oct. 06 oct. 08 oct. 10 oct. 12oct. 13 Date 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 57

58 Graphe des termes avec leur connotation On crée un graphe dont les sommets sont les termes, et dont les arêtes relient deux termes s ils sont co-occurrents dans un document Les termes plus fréquents correspondent à des sommets plus gros Les sommets sont coloriés en rouge s il s agit de «mots négatifs» et en vert si ce sont des «mots positifs» 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 58

59 Graphe des termes avec leur connotation 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 59

60 Détection des communautés # plusieurs méthodes disponibles cm <- fastgreedy.community(g) cm <- edge.betweenness.community(g) cm <- walktrap.community(g) length(cm) # nombre de communautés sizes(cm) # taille des communautés # association de chaque sommet à sa communauté memb <- community.to.membership(g,cm$merges,which.max(cm$modularity)-1) # coloriage des communautés colbar <- rainbow(length(cm)) col <- colbar[memb$membership+1] # graphe interactif tkplot(g,vertex.color=col) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 60

61 Communautés dans le graphe des termes Méthode Walktrap 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 61

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Formation Actuaire Data-Scientist PROGRAMME

Formation Actuaire Data-Scientist PROGRAMME Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 Programme Séance inaugurale : révolu-on numérique besoins des entreprises cadre

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Bouchekif Abdesselam 11 mars 2012

Bouchekif Abdesselam 11 mars 2012 Expériences sur les données du répertoire de données de UCI avec une boîte à outils Bouchekif Abdesselam 11 mars 2012 Résumé Les dix dernières années ont été témoin de grands progrès réalisés dans le domaine

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Théorie des graphes. Introduction. Programme de Terminale ES Spécialité. Résolution de problèmes à l aide de graphes. Préparation CAPES UCBL

Théorie des graphes. Introduction. Programme de Terminale ES Spécialité. Résolution de problèmes à l aide de graphes. Préparation CAPES UCBL Introduction Ces quelques pages ont pour objectif de vous initier aux notions de théorie des graphes enseignées en Terminale ES. Le programme de Terminale (voir ci-après) est construit sur la résolution

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Quels usages des données massives pour les statistiques publiques? Enjeux, méthodes et perspectives

Quels usages des données massives pour les statistiques publiques? Enjeux, méthodes et perspectives Quels usages des données massives pour les statistiques publiques? Enjeux, méthodes et perspectives Stéphanie Combes et Pauline Givord (DMCSI) INSEE-DMSCI 02/04/2015 Plan Qu'est-ce que le Big Data? Les

Plus en détail

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé I. Réseau Artificiel de Neurones 1. Neurone 2. Type de réseaux Feedforward Couches successives Récurrents Boucles de rétroaction Exemples de choix pour la fonction : suivant une loi de probabilité Carte

Plus en détail

AT41 - «Métropoles et réseaux»

AT41 - «Métropoles et réseaux» AT41 - «Métropoles et réseaux» Une approche par la théorie des graphes Plan Problématiques Quelques définitions Théorie des graphes: 1. Partitionnement de graphe : ex. les communautés 2. Analyse des réseaux

Plus en détail

Pierre-Louis GONZALEZ

Pierre-Louis GONZALEZ SEGMENTATION Pierre-Louis GONZALEZ 1 I. Les méthodes de segmentation. Introduction Les méthodes de segmentation cherchent à résoudre les problèmes de discrimination et de régression en divisant de façon

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le Qui je suis Innovation Utilisation des réseaux sociaux pour le data mining Business & Decision Françoise Soulié Fogelman francoise.soulie@outlook.com Atos KDD_US CNAM Séminaire de Statistique appliquée

Plus en détail

Analyse des réseaux sociaux et apprentissage

Analyse des réseaux sociaux et apprentissage Analyse des réseaux sociaux et apprentissage Emmanuel Viennet Laboratoire de Traitement et Transport de l Information Université Paris 13 - Sorbonne Paris Cité Réseaux sociaux? Réseaux sociaux? Analyse

Plus en détail

Les techniques d exploitation de données (Data Mining)

Les techniques d exploitation de données (Data Mining) Les techniques d exploitation de données (Data Mining) 1 Présenté par : Emer Mestiri, M.sc Finance, Data Scientist Conseiller Gestion de risque de crédit, Mouvement Desjardins Sommaire 2 I. Logiciel SAS

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

Graphes, réseaux et internet

Graphes, réseaux et internet Graphes, réseaux et internet Clémence Magnien clemence.magnien@lip6.fr LIP6 CNRS et Université Pierre et Marie Curie (UPMC Paris 6) avec Matthieu Latapy, Frédéric Ouédraogo, Guillaume Valadon, Assia Hamzaoui,...

Plus en détail

Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014

Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014 Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014 résumé : Ce projet a pour but de récupérer des données géolocalisées

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012

Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012 Extraction et analyse des mesures haut-débit pour l identification de biomarqueurs : problèmes méthodologiques liés à la dimension et solutions envisagées EA 2415 Epidémiologie, Biostatistique et Santé

Plus en détail

Baccalauréat ES Centres étrangers 12 juin 2014 - Corrigé

Baccalauréat ES Centres étrangers 12 juin 2014 - Corrigé Baccalauréat ES Centres étrangers 1 juin 14 - Corrigé A. P. M. E. P. Exercice 1 5 points Commun à tous les candidats 1. On prend un candidat au hasard et on note : l évènement «le candidat a un dossier

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

Méthodes avancées en décision

Méthodes avancées en décision Méthodes avancées en décision Support vector machines - Chapitre 2 - Principes MRE et MRS Principe MRE. Il s agit de minimiser la fonctionnelle de risque 1 P e (d) = y d(x;w, b) p(x, y) dxdy. 2 La densité

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Table des matières 1 Graph Kernels for Molecular Structure-Activity Relationship Analysis

Plus en détail

Architecture des calculateurs

Architecture des calculateurs Chapitre 1 Architecture des calculateurs 1.1 Introduction Ce paragraphe n a pas la prétention de présenter un cours d informatique. D une manière générale, seuls les caractéristiques architecturales qui

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Une nouvelle approche de détection de communautés dans les réseaux sociaux UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d informatique et d ingénierie Une nouvelle approche de détection de communautés dans les réseaux sociaux Mémoire (INF 6021) pour l obtention du grade de Maîtrise

Plus en détail

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Formation Actuaire Data Scientist. Programme au 24 octobre 2014 Formation Actuaire Data Scientist Programme au 24 octobre 2014 A. Eléments logiciels et programmation Python 24h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

Chapitre 3 RÉGRESSION ET CORRÉLATION

Chapitre 3 RÉGRESSION ET CORRÉLATION Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 3 RÉGRESSION ET CORRÉLATION La corrélation est une notion couramment utilisée dans toutes les applications

Plus en détail

Introduction data science

Introduction data science Introduction data science Data science Master 2 ISIDIS Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/~verel Université du Littoral Côte d Opale Laboratoire LISIC Equipe

Plus en détail

Introduction aux CRF via l annotation par des modèles graphiques. Isabelle Tellier. LIFO, Université d Orléans

Introduction aux CRF via l annotation par des modèles graphiques. Isabelle Tellier. LIFO, Université d Orléans Introduction aux CRF via l annotation par des modèles graphiques Isabelle Tellier LIFO, Université d Orléans Plan 1. Annoter pour quoi faire 2. Apprendre avec un modèle graphique 3. Annnoter des chaînes

Plus en détail

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données.

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données. COURS DE DATA MINING 3 : MODELISATION PRESENTATION GENERALE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET Phase 4 : Modelisation 1 Classement des techniques

Plus en détail

Introduction et définition

Introduction et définition Loi de puissance Introduction et définition Propriétés de la loi de puissance(ldp) LdP et loi probabilités LdP et loi d échelle LdP et graphes complexes LdP et SOC Exemples d applicabilité Economie Réseaux

Plus en détail

COURS SYRRES RÉSEAUX SOCIAUX. Jean-Loup Guillaume

COURS SYRRES RÉSEAUX SOCIAUX. Jean-Loup Guillaume COURS SYRRES RÉSEAUX SOCIAUX Jean-Loup Guillaume Le cours http://jlguillaume.free.fr/www/teaching/syrres/ Exemple 1 : Expérience de Milgram Objectif faire transiter une lettre depuis les Nebraska à un

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

Analyse Quantitative et Qualitative de données textuelles. Normand Péladeau, Ph.D. Président Recherches Provalis

Analyse Quantitative et Qualitative de données textuelles. Normand Péladeau, Ph.D. Président Recherches Provalis Analyse Quantitative et Qualitative de données textuelles Normand Péladeau, Ph.D. Président Recherches Provalis Les Produits de Recherches Provalis SIMSTAT (1989) Analyses Statistiques Simstat v2.5 Les

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat...

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat... But du cours Vocabulaire, principes et techniques du Data Mining Méthodes et Algorithmes Interprétation des résultats. Data Mining : Concepts and Techniques J. Han, M. Kamber Morgan Kaufmann Le Data Mining

Plus en détail

Data Mining et Big Data

Data Mining et Big Data Data Mining et Big Data Eric Rivals LIRMM & Inst. de Biologie Computationnelle CNRS et Univ. Montpellier 14 novembre 2015 E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 1 / 30 Introduction, contexte

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Calcul Scientifique L2 Maths Notes de Cours

Calcul Scientifique L2 Maths Notes de Cours Calcul Scientifique L2 Maths Notes de Cours Le but de ce cours est d aborder le Calcul Scientifique, discipline arrivant en bout d une d une chaîne regroupant divers concepts tels que la modélisation et

Plus en détail

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne Adrien GUILLE, C. Favre, Djamel Abdelkader Zighed To cite this version: Adrien GUILLE, C. Favre, Djamel Abdelkader

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

TP 1 : Présentation générale du logiciel, l aide en ligne et les bases du langage

TP 1 : Présentation générale du logiciel, l aide en ligne et les bases du langage TP 1 : Présentation générale du logiciel, l aide en ligne et les bases du langage est distribué gratuitement à partir du site du CRAN (Comprehensive R Archive Network) : http://www.r-project.org/. Je vous

Plus en détail

Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées.

Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées. Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées. Baptiste Gregorutti 12, Bertrand Michel 2 & Philippe Saint Pierre 2 1 Safety

Plus en détail

Fouille de données et sémantique : des techniques pour donner du sens aux données

Fouille de données et sémantique : des techniques pour donner du sens aux données Fouille de données et sémantique : des techniques pour donner du sens aux données Nathalie Aussenac-Gilles (IRIT) co-animatrice avec M. Boughanem de l axe masse de données et calcul http://www.irit.fr/-masses-de-donnees-et-calcul,677-?lang=fr

Plus en détail

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Formation continue. Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat

Plus en détail

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population

Plus en détail

Formation. Data-Science pour l Actuariat. 6 Juillet 2015

Formation. Data-Science pour l Actuariat. 6 Juillet 2015 Formation Data-Science pour l Actuariat 6 Juillet 2015 Formation Data Science pour l Actuariat Pourquoi? Nouveau contexte : nouveau besoin - Révolution numérique : données massives et hétérogènes, nouveaux

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

Les logiciels Ucinet et Netdraw

Les logiciels Ucinet et Netdraw École d été Web intelligence 6 au 10 juillet 2009 Les graphes et leurs différentes formes Des données à la construction du graphe Une forme plus avancée de représentation Densité d un graphe Graphe connexe

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Apprentissage automatique

Apprentissage automatique Apprentissage automatique François Denis, Hachem Kadri, Cécile Capponi Laboratoire d Informatique Fondamentale de Marseille LIF - UMR CNRS 7279 Equipe QARMA francois.denis@lif.univ-mrs.fr 2 Chapitre 1

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

Besoin de concevoir des systèmes massivement répartis. Comment tester le système? Solution. Évaluation de systèmes répartis à large échelle

Besoin de concevoir des systèmes massivement répartis. Comment tester le système? Solution. Évaluation de systèmes répartis à large échelle Besoin de concevoir des systèmes massivement répartis. Évaluation de systèmes répartis à large échelle Sergey Legtchenko Motivation : LIP6-INRIA Tolérance aux pannes Stockage de données critiques Coût

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013 Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine

Plus en détail

Une pénalité de groupe pour des données multivoie de grande dimension

Une pénalité de groupe pour des données multivoie de grande dimension Une pénalité de groupe pour des données multivoie de grande dimension Laurent Le Brusquet 1, Arthur Tenenhaus 1,2, Gisela Lechuga 1, Vincent Perlbarg 2, Louis Puybasset 3 & Damien Galanaud 4. 1 Laboratoire

Plus en détail

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01

Plus en détail

CRM PERFORMANCE CONTACT

CRM PERFORMANCE CONTACT CRM PERFORMANCE CONTACT PREMIUM 3ème génération Un concentré de haute technologie pour augmenter de 30 % vos rendez-vous Le Vinci, 2 place Alexandre Farnèse 84000 Avignon Tél : + 33 (0)4 90 13 15 88 Télécopie

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Sondage stratifié. Myriam Maumy-Bertrand. Master 2ème Année 12-10-2011. Strasbourg, France

Sondage stratifié. Myriam Maumy-Bertrand. Master 2ème Année 12-10-2011. Strasbourg, France 1 1 IRMA, Université de Strasbourg Strasbourg, France Master 2ème Année 12-10-2011 Ce chapitre s appuie essentiellement sur deux ouvrages : «Les sondages : Principes et méthodes» de Anne-Marie Dussaix

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Factorisation des matrices creuses

Factorisation des matrices creuses Chapitre 5 Factorisation des matrices creuses 5.1 Matrices creuses La plupart des codes de simulation numérique en mécanique des fluides ou des structures et en électromagnétisme utilisent des discrétisations

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail