Le Big Data : Aspects théoriques et pratiques

Dimension: px
Commencer à balayer dès la page:

Download "Le Big Data : Aspects théoriques et pratiques"

Transcription

1 Le Big Data : Aspects théoriques et pratiques Stéphane TUFFERY II èmes Rencontres STAT. à l UBS 21 novembre /11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 1

2 Plan Le Big Data Méthodes statistiques et Machine Learning pour le Big Data Réduction de la complexité et agrégation de modèles Les réseaux sociaux Exemple d analyse d un réseau social avec R Conclusion 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 2

3 Le Big Data 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 3

4 L escalade de la puissance Avant 1950 : la statistique avec quelques centaines d individus et quelques variables, recueillies dans un laboratoire selon un protocole strict pour une étude scientifique Années : l analyse des données avec quelques dizaines de milliers d individus et quelques dizaines de variables, recueillies de façon rigoureuse pour une enquête précise Années : le data mining avec plusieurs millions d individus et plusieurs centaines de variables hétérogènes, recueillies dans le système d information des entreprises pour de l aide à la décision À partir des années 2010 : le Big Data avec plusieurs centaines de millions d individus et plusieurs milliers de variables, de tous types, recueillies dans les entreprises, les systèmes, Internet, pour de l aide à la décision, de nouveaux services 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 4

5 L explosion de la production de données Données signalétiques et sociodémographiques Données de comportement (utilisation du téléphone, de la carte bancaire, du véhicule ) Données CRM (contact avec un service client, carte de fidélité, fidélisation ) Données externes provenant des administrations (Open Data) ou des mégabases de données privées Informations remontées par les capteurs industriels, routiers, climatiques, puces RFID, NFC, objets connectés (caméras, compteurs électriques, appareils médicaux, voitures ) Géolocalisation par GPS ou adresse IP Données de tracking sur Internet (sites visités, mots-clés recherchés...) Contenu partagé sur Internet (blogs, photos, vidéos ) Opinions exprimées dans les réseaux sociaux (sur une entreprise, une marque, un produit, un service ) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 5

6 Caractérisation des données Big Data : les 3 «V» Volume L ordre de grandeur de ces volumes est le pétaoctet (10 15 octets) L accroissement du volume vient de l augmentation : du nombre d individus observés (plus nombreux ou à un niveau plus fin) de la fréquence d observation et d enregistrement des données (mensuel quotidien, voire horaire) du nombre de caractéristiques observées Cet accroissement vient aussi de l observation de données nouvelles, provenant notamment d Internet : pages indexées, recherches effectuées, messages postés, éventuellement avec des données de géolocalisation Cet aspect est peut-être le plus visible et le plus spectaculaire, mais il n est pas le plus nouveau (grande distribution, banque, téléphonie manipulent de grands volumes de données) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 6

7 Caractérisation des données Big Data : les 3 «V» Variété Ces données sont de natures et de formes très diverses : numériques, logs web, textes (Word, PDF, courriels, SMS ), sons, images, données fonctionnelles Cette variété rend difficile l utilisation des bases de données usuelles et requiert une variété de méthodes (text mining, web mining ) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 7

8 Caractérisation des données Big Data : les 3 «V» Vitesse, ou Vélocité Vélocité des données qui proviennent de sources où elles sont mises à jour rapidement, parfois en temps réel (streaming data) Vitesse des traitements à mettre en œuvre sur ces données la décision du client sur Internet se fait vite car il suffit d un clic pour changer de site, aussi faut-il instantanément lui faire la meilleure offre commerciale la détection de la fraude par carte bancaire doit bien sûr aussi être instantanée Dans certains cas,vitesse de mise à jour des modèles,et pas seulement vitesse de leur application 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 8

9 Méthodes statistiques et Machine Learning pour le Big Data 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 9

10 Méthodes statistiques pour le Big Data Les principales méthodes de modélisation statistique appliquées aux Big Data sont fondées sur les techniques avancées d échantillonnage, le Machine Learning, les estimateurs du type Lasso, l analyse des données fonctionnelles et bien sûr le text mining pour l analyse des textes en langage naturel On peut ajouter la détection des règles d association, utilisée dans la grande distribution pour l analyse des tickets de caisse, qui sont des Big Data avec des nombres de tickets de plusieurs centaines de millions et des nombres de produits de plusieurs dizaines de milliers On peut mentionner un autre axe de recherche, sur la visualisation des données en grande dimension, qui est importante aussi parce qu il faut communiquer des informations à des interlocuteurs non spécialistes 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 10

11 Matrices en grande dimension L étude des matrices en grande dimension survient naturellement, avec des matrices dont les lignes sont des clients et les colonnes des produits téléchargés, achetés ou recommandés. Il peut aussi s agir de matrices représentant des relations entre individus, dans des contextes de marketing, de sociologie, de bio-statistique ou entre institutions financières cotées (rendements journaliers) dans un contexte d étude du risque systémique Recherche dans ces grandes matrices de sous-matrices (clusters) correspondant à des sous-ensembles pertinents de produits et d individus intéressés par ces produits Biclustering (co-clustering) pour la classification simultanée des lignes et des colonnes trouver des groupes de documents caractérisés par certains groupes de mots associer des groupes de phénotypes à des groupes de gènes 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 11

12 p >> n La régression en grande dimension pose le problème classique de sélection des variables On rencontre aussi, par exemple en bio-statistique (séquençage de l ADN) ou en chimiométrie (statistique appliquée aux données chimiques), des situations où le nombre de variables est supérieur, voire très supérieur, au nombre d individus (on parle de tableaux plats), et où les méthodes classiques de régression ne s appliquent pas et cèdent la place à des méthodes telles que la régression Lasso ou PLS Le nombre de variables étudiées peut varier entre 10 4 et 10 8, alors que le nombre d'observations est de quelques centaines 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 12

13 Données fonctionnelles Les données fonctionnelles sont des données qui ne sont pas ponctuelles mais sont continues, comme des courbes ou des images Ces données se sont multipliées avec les progrès technologiques qui permettent la collecte et le stockage d observations de plus en plus fines, captant en continu les informations sur un objet étudié (météorologique, environnemental, médical, alimentaire ) Ces données sont de grande taille, mais posent aussi des problèmes de corrélation élevée entre deux observations proches d un même phénomène continu Au lieu de discriminer des individus au vu de quelques caractéristiques en nombre fini observées en quelques instants choisis, on n a pas d a priori sur le moment et la durée des différences entre deux courbes d évolution, ce qui amène à les considérer dans leur intégralité au lieu de les discrétiser Travaux récents sur les séries temporelles fonctionnelles 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 13

14 Nouvelles approches en Machine Learning Les méthodes de Machine Learning (agrégation de modèles, SVM, réseaux de neurones ) sont utilisées pour leur pouvoir prédictif élevé, dans des situations où la lisibilité du modèle n est pas recherchée et où leur caractéristique «boîte noire» n est pas un inconvénient Exemple d une librairie en ligne, qui veut proposer des titres à ses clients. Dans ce problème, les variables (titres déjà achetés) sont excessivement nombreuses et créent des matrices creuses difficiles à modéliser. L approche courante est de décomposer la clientèle en un très grand nombre de segments, éventuellement des milliers, recalculés en permanence par des techniques statistiques qui permettent de situer chaque client dans un petit segment de clients ayant des goûts proches. Ensuite, on lui propose les titres souvent acquis par les autres clients de son segment, que lui-même n aurait pas encore acquis. Ces calculs sont refaits en permanence, sans recherche de segments et de modèles robustes et lisibles. 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 14

15 Les méthodes d agrégation Les méthodes d'agrégation, ou méthodes d'ensemble, ainsi que le stacking, consistent à combiner entre elles des méthodes prédictives Dans le stacking, on combine différentes méthodes ; dans les méthodes d agrégation, on applique un grand nombre de fois la même méthode Quand on agrège des modèles prédictifs, parfois simplement en faisant la moyenne de leurs prédictions, il vaut mieux agréger des modèles moins poussés, individuellement moins performants, pour obtenir un modèle final plus performant! Cela vient de ce que les modèles individuels plus poussés se ressemblent plus, et que le gain de leur agrégation est beaucoup moins grand On touche ici au besoin de puissance du Big Data, car ces méthodes peuvent être très gourmandes en temps de calcul 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 15

16 Remarque sur les méthodes appliquées au Big Data Toutes les méthodes utilisées pour le Big Data ne sont pas toutes très récentes, et la plupart faisait du Big Data comme Monsieur Jourdain : «Par ma foi! il y a plus de quarante ans que je dis de la prose sans que j'en susse rien,et je vous suis le plus obligé du monde de m'avoir appris cela.» Molière, Le Bourgeois gentilhomme, 1670 À côté des méthodes classiques, on utilise des méthodes plus modernes (les méthodes «d agrégation» par exemple) mais aussi des perfectionnements très récents de méthodes classiques (les méthodes «pénalisées», par exemple) C'est comme la musique dite classique,qui ne s'est pas arrêtée au XIX e siècle, et qui s'enrichit en permanence de nouvelles œuvres, certaines plus novatrices et originales que des œuvres de musique dite moderne 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 16

17 Réduction de la complexité et agrégation de modèles 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 17

18 Fonction de perte et risque d un modèle Si un modèle relie X et Y en sorte que Y = (X) + ε, avec E(ε) = 0 et V(ε) = σ², et si estime, des fonctions de perte L courantes sont : y continue L(y,(x)) = (y (x))² y = 1/+1 L(y,(x)) = ½ y (x) Risque (ou risque réel) = espérance de la fonction de perte sur l ensemble des valeurs possibles des données (x,y) comme on ne connaît pas la loi de probabilité conjointe de x et y, on ne peut qu estimer le risque l estimation la plus courante est le risque empirique ( ) ou ( ) (n = effectif) on retrouve le taux d erreur pour y = 1/+1 Dans le cas quadratique, le risque se décompose en : Erreur irréductible σ² + Biais²(modèle) + Variance(modèle) Variance de y autour de sa valeur moyenne + (différence entre espérance de la prédiction f(x) et valeur moyenne de y)² + variance de la prédiction 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 18

19 Dilemme Biais-Variance Plus un modèle est complexe, plus son biais diminue mais plus sa variance augmente Nous devons trouver le bon compromis entre biais et variance, entre ajustement aux données d apprentissage (biais) et capacité de généralisation (variance) Dans quelques cas simples, la complexité d un modèle est égale à p+1, où p est le nombre de paramètres Dans certaines situations, on ne peut pas diminuer le nombre de paramètres car les utilisateurs veulent voire apparaître simultanément des critères même s ils sont fortement corrélés : médecine, avec des mesures physiologiques, des résultats d analyses banque, avec des critères qualitatifs saisis sur les entreprises La complexité peut être diminuée par l introduction de bornes β C dans la recherche des coefficients d un modèle de régression (les observations étant dans une sphère de rayon R) complexité min[partie entière (R²C²),p] /11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 19

20 Solutions de réduction de la complexité La régression avec pénalisation L d (d 0) Minimiser -2.log-vraisemblance (ou Σ des carrés) + λσ β i d,d 0 minimiser -2.log-vraisemblance avec la contrainte λσ β i d C d 1:sélection de prédicteurs (AIC,BIC si d = 0,Lasso si d = 1) d > 1:rétrécissements de coefficients (Ridge si d = 2) La régression ridge (ou logistique ridge) est la plus répandue elle réduit les coefficients dans toutes les directions, surtout celles à faible variance (le coefficient de la ridge sur la 1 ère composante principale diminue moins que le coefficient sur la 2 e composante,etc.) La complexité peut aussi être réduite par la régression PLS avec une seule composante : les signes des coefficients sont égaux aux signes des corrélations entre prédicteurs et variable réponse la régression PLS réduit les coefficients dans les directions à faible variance, mais peut provoquer une hausse trop grande dans les directions à forte variance l erreur de prédiction de la PLS est souvent un peu supérieure 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 20

21 Ridge plot Évolution des coefficients en fonction de la pénalisation Régression ridge Régression lasso 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 21

22 Introduction aux méthodes d agrégation Nous avons vu que la complexité d un modèle doit être maîtrisée pour lui assurer une faible somme «biais² + variance» et donc une bonne généralisation La complexité d un modèle peut être diminuée par : la diminution du nombre de prédicteurs l introduction de bornes sur les coefficients de régression de ces prédicteurs l augmentation de la marge des SVM Nous allons voir une autre approche avec les méthodes d agrégation («méthodes d ensemble») qui consistent à agréger les prédictions de plusieurs modèles de même type, d une façon qui permette de réduire la variance voire le biais du modèle agrégé Si les prédictions sont identiquement distribuées mais dépendantes, avec une corrélation ρ > 0, la variance de la prédiction moyenne est ²+ ², et diminue si B est grand et ρ est faible 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 22

23 Bagging 1/2 En moyennant des classifieurs (par exemple des arbres) sur B échantillons bootstrap, on obtient un classifieur : dont le biais n a pas diminué dont la variance a diminué d autant plus que la corrélation entre les classifieurs est faible Les B modèles sont agrégés : par un vote ou une moyenne des probabilités P(Y=1 X) quand on sait calculer cette moyenne (classement) par une moyenne des estimations (régression) C est le bagging : Bootstrap AGGregatING, Breiman, 1996 La procédure de vote appliquée à des arbres de faible qualité peut conduire à un résultat pire lors de l agrégation supposons que Y = 1 pour tout x et que chaque classifieur prédise 1 avec la probabilité 0,4 et 0 avec la probabilité 0,6. L erreur de classement de chaque classifieur vaudra 0,6 mais l agrégation par vote donnera un classifieur dont l erreur vaudra 1. 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 23

24 Bagging 2/2 Le classifieur de base est le même à chaque itération : arbre de décision, réseau de neurones La corrélation entre les classifieurs est diminuée par : le mécanisme de bootstrap l augmentation de la complexité Le bagging s applique mieux aux classifieurs à faible biais et variance élevée particulièrement les arbres de décision La stratégie d élagage est simple : préférer le bagging sur des arbres profonds Bagging inefficace sur un classifieur fort, dont les différents modèles seront trop corrélés pour réduire la variance R : packages ipred, randomforest 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 24

25 Forêts aléatoires 1/3 Le bagging manque d efficacité quand les modèles sont trop corrélés on veut donc les décorréler Introduction d une 2 e randomisation : sur les individus (bagging) mais aussi sur les prédicteurs, en ajoutant à chaque scission un tirage aléatoire d un sous-ensemble de taille q (constante) parmi l ensemble des p prédicteurs (forêts aléatoires, Breiman, 2001) Plus la corrélation baisse (elle peut atteindre ρ = 0,05) plus la variance du modèle agrégé diminue :²+ ² Évite de voir apparaître trop souvent les mêmes variables les plus discriminantes Chaque arbre élémentaire est moins performant mais l agrégation conduit à un modèle agrégé plus performant : l augmentation du biais est plus que compensée par la diminution de la variance R :packages randomforest (sur arbre CART) et party (sur arbre Ctree) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 25

26 Forêts aléatoires 2/3 Diminuer le nombre q de prédicteurs augmente le biais mais diminue la corrélation entre les modèles et la variance du modèle final q permet de régler le compromis entre biais et variance Pour le classement, Breiman suggère un sous-ensemble de q = p variables ou [log(p)+1] ou 1 Mais il ne faut pas que ce nombre q soit trop faible si une forte proportion de variables sont peu discriminantes Les forêts aléatoires commencent à être très efficaces lorsque la probabilité de sélectionner un prédicteur discriminant est > 0,5. Cette probabilité est donnée par la loi hypergéométrique. Si 6 variables discriminantes sont mélangées à 30 non discriminantes, la probabilité de tirer au moins une variable discriminante parmi 6 est : > sum(dhyper(1:6, 6, 30, 6)) [1] /11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 26

27 Forêts aléatoires 3/3 Le nombre q de prédicteurs est le seul paramètre réellement à régler Le nombre d itérations est moins sensible à régler, et on a intérêt à le choisir assez élevé Le nombre de modèles à agréger devrait croître avec le nombre de prédicteurs À noter la convergence des performances atteinte avec un nombre de modèles agrégés parfois très inférieur au nombre de combinaisons de p variables parmi n (n!/p!(n p)!), c est-à-dire bien avant que toutes les combinaisons possibles de variables soient apparues. Les forêts aléatoires résistent bien au sur-apprentissage (contrairement aux réseaux de neurones et au boosting) même quand le nombre de modèles agrégés est grand 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 27

28 Similitudes entre forêts aléatoires et régression pénalisée ridge Le rétrécissement λ des coefficients dans la régression ridge sélection de q < p prédicteurs aléatoirement parmi les p prédicteurs Augmenter λ ou réduire q : augmente le biais, puisque la solution est cherchée dans un sousespace fixé par la contrainte réduit la variance,de façon à compenser la hausse du biais Autre analogie : tous les prédicteurs peuvent apparaître dans le modèle par rétrécissement de leurs coefficients dans la régression ridge ou par sélection au hasard dans les forêts aléatoires le travail de sélection des variables est simplifié! Pouvoir prédictif élevé! 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 28

29 Différences entre forêts aléatoires et régression pénalisée ridge Le paramètre de pénalisation λ permet un ajustement continu du biais-variance, alors que le nombre q est discret Il permet d ajuster les coefficients à l aide du ridge plot en sorte que tous les coefficients aient un signe cohérent voire que certains coefficients soient supérieurs à un certain seuil fixé par les experts du domaine La régression pénalisée est déterministe Les calculs de la régression pénalisée sont plus rapides mais les calculs des forêts aléatoires peuvent être parallélisés Manque de lisibilité d un modèle de forêts aléatoires, qui détruit la structure d arbre 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 29

30 Agrégation de modèles : le boosting BOOSTING, Freund et Schapire, 1996 Algorithme adaptatif et généralement déterministe : on travaille souvent sur toute la population et à chaque itération,on augmente le poids des individus mal classés ou mal ajustés dans les itérations précédentes à la fin,on agrège les modèles en les pondérant par leur qualité Diminue le biais et pas seulement la variance (grâce au mécanisme d agrégation) mais peut être sujet au sur-ajustement Nombreux algorithmes : Discrete AdaBoost, Real AdaBoost, Gentle AdaBoost, LogitBoost, Arcing (Adaptative Resampling and Combining) performances pas toujours très différenciées sur des données réelles R :packages ada,gbm et mboost 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 30

31 Illustration (Robert Schapire) Extrait d une conférence visible ici : 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 31

32 Les réseaux sociaux 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 32

33 Les réseaux sociaux Un réseau social est un ensemble d'acteurs (individus, groupes ou organisations) reliés par des liens sociaux (familiales, amicales, professionnelles) On le représente sous la forme d un graphe dont les acteurs sont les sommets et les liens sont les arêtes On peut étudier le graphe,son nombre de sommets (= nœuds), d arêtes (= liens), sa densité, son diamètre, ses éléments centraux (avec le plus de liens) Dans la recherche sur Internet, on peut aussi s intéresser à des réseaux de sites et regrouper les sites par similarité Les sites de commerce en ligne identifient des groupes d acheteurs en ligne pour formuler des conseils d achat 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 33

34 Recherches sur les réseaux sociaux Prédiction de liens (link mining) détection de liens anormaux, ou au contraire de liens cachés, par exemple par l évaluation du score d un lien entre deux sommets Détection de communautés s apparente à la classification en analyse des données, et est utile dans des domaines tels que le marketing viral Identification des acteurs importants Systèmes de recommandation Rôles des individus en fonction de leurs liens Analyse de la diffusion de l information, de l influence Évolution des graphes et des communautés 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 34

35 Caractéristiques des graphes 1/2 Voisinage d un sommet = ensemble des sommets adjacents (directement connectés) Degré d un sommet = nombre d de ses voisins Un chemin est une suite d arêtes et de sommets reliant deux sommets longueur du chemin = nombre d arêtes Distance entre deux sommets = distance minimale des chemins les reliant (exprimée en «hops» : deux voisins sont à un hop de distance) graphe «petit-monde» : faible distance moyenne entre deux sommets ( log(nombre sommets)) Diamètre d'un graphe = distance maximale entre deux sommets du graphe Densité d un graphe = nombre d arêtes / nombre maximal d arêtes possibles (quand toute paire de sommets est directement connectée) densité = # arêtes / n(n 1)/2,avec n = # sommets 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 35

36 Caractéristiques des graphes 2/2 Un graphe est connexe si toute paire de sommets est reliée par un chemin (aucun sommet n est isolé) un graphe connexe n a pas nécessairement une forte densité, car le chemin entre deux sommets peut être plus ou moins long La distribution du degré des sommets est variable graphe «sans échelle» : graphe où cette distribution suit une loi de puissance :le nombre de sommets ayant un degré donné d est proportionnel à d k,où k est une constante (comprise entre 2 et 3 pour beaucoup de réseaux) cela se traduit par le fait que beaucoup de sommets ont un faible degré et quelques sommets ont un degré élevé loi de puissance notion de sparsité Un graphe peut être ou non orienté, distinguant une arête entre sommetsa et B,et entre B eta (arc = arête orientée) Les arêtes peuvent être pondérées, par exemple par le nombre de messages entrea et B poids d un chemin = somme des poids des arêtes qui le composent 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 36

37 Exemples de graphes «petit-monde» Stanley Milgram a réalisé en 1967 une expérience pour tester une hypothèse formulée par Frigyes Karinthy en 1929, selon laquelle, si deux personnes sont reliées quand elles se connaissent, la distance entre deux individus sur Terre est toujours inférieure ou égale à 6 : autrement dit, elles sont séparées par au plus 5 intermédiaires Le graphe formé par Facebook (720 millions d utilisateurs et 69 milliards de connexions) a une distance moyenne entre utilisateurs de 4,74, avec 92 % des paires d utilisateurs qui ont une distance de 5 ou moins (https://www.facebook.com/notes/facebook-data-team/anatomy-offacebook/ ) cette distance moyenne est inférieure (environ 4) si l on se limite à un pays cette distance moyenne diminue au fil des années (5,28 en 2008, mais 4,74 en 2011) 84 % des connexions restent à l intérieur d un pays Selon une étude de 2010,la distance moyenne vaut 5,67 pourtwitter 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 37

38 Caractérisation des réseaux sociaux Les réseaux sociaux sont des graphes avec des propriétés particulières : ils sont très grands et peuvent avoir des millions de sommets les sommets ont un ensemble d attributs (nom, adresse, âge, langue ) les sommets avec des attributs proches sont plus souvent connectés (propriété d homophilie, bien sûr particulièrement vraie de la langue) ce sont des graphes «sans échelle» ce sont des graphes «petit-monde» ils ont un coefficient de clustering (transitivité) élevé : probabilité que deux voisins d'un sommet choisis aléatoirement soient eux-mêmes connectés ils se décomposent généralement en «communautés», qui sont des sous-graphes dont les sommets sont fortement connectés entre eux et faiblement connectés aux sommets des autres communautés 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 38

39 Méthodes de détection des communautés : classification hiérarchique descendante Méthode de Girvan-Newman (edge betweenness) : classification hiérarchique descendante (divisive) procédant en retirant une à une les arêtes en commençant par celles à fort degré d intermédiarité, car les arêtes reliant des communautés différentes sont plus souvent contenues dans des géodésiques (il y a peu de chemins pour passer d une communauté à une autre) complexité en O(m².n),où n = # sommets et m = # arêtes Méthode de Radicchi et al.du même type complexité en O(m²) Méthode de Fortunato et al. du même type (centralité d information) complexité en O(m 3.n) Méthode spectrale (leading eigenvector) : classification hiérarchique descendante binaire (comme Varclus) complexité en O(n 3 ) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 39

40 Méthodes de détection des communautés : classification hiérarchique ascendante Algorithme «glouton» (greedy) de Newman, perfectionné par Clauset, Newman et Moore : classification hiérarchique ascendante (agglomérative) partant des sommets et les fusionnant de proche en proche de façon à maximiser une fonction de modularité (proportion d arêtes intra-communautés par rapport à une répartition aléatoire des arêtes dans un graphe ayant la même distribution des sommets) complexité en O((m+n).n) = O(m.n), améliorée en O(n.log²(n)), où n = # sommets et m = # arêtes assez rapide seulement pour les graphes non orientés Méthode de Wakita et Tsurumi : variante passant mieux à l échelle Méthode de Louvain : aussi basée sur la notion de modularité et très rapide ces deux algorithmes peuvent traiter plusieurs millions de sommets 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 40

41 Méthodes de marches aléatoires Algorithme Walktrap de Pons : effectue un certain nombre de marches aléatoires, en se basant sur le fait qu une marche aléatoire tend à faire rester dans la même communauté (sommets faiblement connectés aux sommets des autres communautés) permet de définir une distance utilisable dans une méthode de classification hiérarchique ascendante complexité en O(n²log(n)) ou au pire O(m.n²) Algorithme Markov Cluster de van Dongen : calcule les probabilités de transition entre tous les sommets complexité en O(n 3 ) Autres méthodes :Harel et Koren,Zhou et Lipowsky complexité en O(n 3 ) Nombreuses autres méthodes 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 41

42 Réseaux sociaux et statistique publique L analyse des messages Twitter aux Pays-Bas a montré une corrélation entre les sentiments exprimés et l indice public de confiance des ménages Twitter a succédé aux médias classiques dans les analyses classiques en sciences humaines sur les discours, l opinion Les journalistes de Bloomberg intègrent aussi les données de Twitter D autres données peuvent aussi être utiles : tickets de caisse et calcul du taux d inflation, sites de recherche d emploi et estimation du taux de chômage, recherches sur Google et apparition d une épidémie Ces exemples illustrent l apport possible des analyses privées de Big Data à la statistique publique, avec des indicateurs équivalents mais calculés bien plus rapidement et peut-être, du moins à terme,à moindre coût 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 42

43 Exemple d analyse d un réseau social avec R 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 43

44 R pour explorer Twitter Il faut d abord se connecter à l interface Twitter (https://dev.twitter.com/) avec un compte et créer une application avec le bon paramétrage des droits d accès Récupérer des codes qui permettent de se connecter à l API Twitter api_key <- "YOUR API KEY" api_secret <- "YOUR API SECRET" access_token <- "YOUR ACCESS TOKEN" access_token_secret <- "YOUR ACCESS TOKEN SECRET" setup_twitter_oauth(api_key,api_secret,access_token,ac cess_token_secret) Quelques commandes de base getuser( xxx")$followerscount # nombre de followers getuser( xxx")$friendscount # nombre de followees usertimeline( xxx",n=100) # fil d un utilisateur trend <- availabletrendlocations() # tendances gettrends(trend[which(trend$country=="france"),]$woeid ) # tendances sur la France 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 44

45 Récupération de tweets Extraction de tweets sur un sujet entre deux dates tweets <- searchtwitter("patrick Modiano", lang='fr', n=30000, since=' ', until=' ') Conversion en data frame df <- twlisttodf(tweets) df <- do.call("rbind", lapply(tweets, as.data.frame)) # commande équivalente table(as.date(df$created)) # date des tweets table(df$screenname) # auteurs des tweets table(df$longitude), table(df$latitude) # localisation texte <- unlist(lapply(df$text, function(x) gsub("[^[:print:]]", "", x))) # suppression des caractères non imprimables 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 45

46 Mise en forme du corpus 1/2 Création d un corpus : ensemble de documents mycorpus <- Corpus(VectorSource(texte)) Affichage du corpus inspect(mycorpus[1:6]) Passage en bas de casse mycorpus <- tm_map(mycorpus, tolower) Suppression des mots commençant mycorpus <- tm_map(mycorpus, function(x) "", x)) Suppression de la ponctuation mycorpus <- tm_map(mycorpus, function(x) removepunctuation(x, preserve_intra_word_dashes = TRUE)) Suppression des URL mycorpus <- tm_map(mycorpus, function(x) gsub("http[[:alnum:]]*", "", x)) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 46

47 Mise en forme du corpus 2/2 Définition de mots-outils («mots-vides», ou stop-words) mystopwords <- c(stopwords('french'), "via", "amp", "a", "rt", "où", "ça") Les mots-outils sont des termes, comme les prépositions, les articles, les pronoms et les conjonctions («mots grammaticaux»), qui, par opposition aux «mots lexicaux» (substantifs, adjectifs, verbes), apportent peu d information car leur distribution est uniforme dans la plupart des textes Comme ils sont assez nombreux (environ 20% à 30% des mots d un texte standard), on les supprime à l aide d un «anti-dictionnaire», qui peut être éventuellement enrichi en fonction du contexte Suppression des mots-outils mycorpus <- tm_map(mycorpus, removewords, mystopwords) Suppression des blancs inutiles mycorpus <- tm_map(mycorpus, stripwhitespace) Export du texte du corpus texte.corpus <- data.frame(text=unlist(mycorpus), date=as.date(df$created), lon=df$longitude, lat=df$latitude, stringsasfactors=f) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 47

48 Racinisation Le but des transformations précédentes est de diminuer le nombre de termes différents tout en perdant le moins d information possible simplifier l analyse et réduire la sparsité Définition d un dictionnaire dictcorpus <- mycorpus Racinisation (stemming) : passage au radical (suppression de la fin du mot) corpus.stem <- tm_map(mycorpus, stemdocument, language = "fr") Inconvénient de la racinisation :la racine n'est pas toujours un mot réel et le résultat manque de lisibilité et de pertinence > stemdocument("fraises",language = "french") [1] "frais" > stemdocument("cherche",language = "fr") [1] "cherch" > stemdocument("cherchent",language = "fr") [1] "cherchent" 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 48

49 Lemmatisation "stem completion" : remplacer chaque radical par sa forme originale la plus fréquente (ou la 1 ère ou au hasard ) dans un dictionnaire spécifié corpus.stem <- tm_map(corpus.stem, stemcompletion, dictionary=dictcorpus) Lemmatisation : passage des flexions à la forme canonique (lemme) pour un verbe : infinitif pour un nom, adjectif, article : masculin singulier difficulté : une même forme graphique (homographie) peut correspondre à plusieurs formes canoniques, et seule l analyse grammaticale permet de déterminer la forme canonique pertinente exemples : suis (suivre, être), été (être, été), sens (sens, sentir) on peut tenter une désambiguïsation automatique mais il faut peut-être exclure certaines formes graphiques de la lemmatisation automatique La lemmatisation est plus complexe et plus longue que la racinisation mais plus adaptée aux langues latines,qui ont un fort taux de flexion 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 49

50 Exemple : tweets parlant du Crédit Agricole 3945 tweets extraits entre le 16 septembre et le13 octobre 2014 > df <- twlisttodf(searchtwitter("credit_agricole", lang='fr', n=5000)) > table(as.date(df$created)) Les six premiers tweets > head(df$text) [1] "Crédit agricole Assurances crée une plate-forme unique en assurance vie patrimoniale: UAF Patrimoin... #Assurance" [2] "La banquiere le retour vendredi dans les bacs du crédit agricole à Blain.. Qui veut placer son argent? Venez venez :)" [3] #Logement : Faut-il un apport personnel pour acheter? #CreditAgricole" [4] #Assurance : Profitez de votre domicile en toute tranquillité avec nos assurances [5] #MozaicM6 : Jusqu'au 30 septembre, gagnez vos places pour le concert à Paris [6] "Demain go to Crédit Agricole." 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 50

51 Mise en forme des tweets Transformation du corpus (sans racinisation) Passage du corpus transformé à un data frame > texte.corpus <- data.frame(text=unlist(sapply(mycorpus, `[`, "content")), date=as.date(df$created), lon=df$longitude, lat=df$latitude, stringsasfactors=f) Résultat de la mise en forme du texte > head(texte.corpus$text) [1] "crédit_agricole assurances crée plate-forme unique assurance vie patrimoniale uaf patrimoin assurance" [2] " banquiere retour vendredi bacs crédit_agricole blain veut placer argent venez venez " [3] " logement faut- apport personnel acheter crédit_agricole" [4] " assurance profitez domicile toute tranquillité assurances " [5] " mozaicm6 jusqu 30 septembre gagnez places concert paris " [6] "demain go to crédit_agricole" 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 51

52 Passage à une forme matricielle Construction d une matrice «termes (lignes) / documents (colonnes)» à partir du corpus > tdm <- TermDocumentMatrix(myCorpus, control = list(wordlengths=c(1,inf))) > nterms(tdm) # nb de termes de la matrice [1] 4534 On a 4534 termes et une matrice très «sparse» : seulement cases non nulles sur (= 4534 x 3945) > tdm A term-document matrix (4534 terms, 3945 documents) Non-/sparse entries: 29910/ Sparsity : 100% Maximal term length: 44 Vérification de la loi de Zipf > Zipf_plot(tdm) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry log(frequency) log(rank)

53 Wordcloud Le wordcloud permet de repérer les termes les plus fréquents (plus gros, et placés au centre du graphique) > wordcloud(d$word, d$freq, min.freq=5, random.order = FALSE, colors=graylevels, rot.per=.2, max.words=100) participant préconisé générale engage situation belle comme emploi clients lindustrie f rançois saisit bancaire application protégez assurance crédit_agricole groupe découv rez va france gouvernance accompagne etat agricole 1 solutions domicile télésurveillance banque pret aca problème of f re 2014assurances banques f inancière hollande analy ste chez licenciée contre-pied recrute caisse Limite : le wordcloud ne rapproche pas les termes voisins dans le corpus village plan tond the tank pub of f toute santé hf cliente nouvelle 3sialerte - grand comment unique lanceurs partout bastille rh sécuricompte handicap f inanceinnov ation v eut accepter prend bien inaugurer calme rse mozaicm6 plus pubs conseil coupe engagement près auto septembre candidats surendettement tour semaine record prendre demande nepassezpasacote 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 53 niort tout siège paris

54 Classification des termes On veut rapprocher les termes voisins dans le corpus, en considérant des termes comme d autant plus proches qu ils sont co-occurrents dans un plus grand nombre de documents La structure matricielle construite permet d appliquer les méthodes habituelles d analyse factorielle et de classification (ici une CAH) assurance télésurveillance domicile protégez solutions nouvelle banques saisit conseil etat gouvernance alerte problème - lanceurs banque application toute accompagne partout comment clients sécuricompte tond agricole groupe 2014 bancaire france the off record françois hollande village innovation crédit_agricole va 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 54 Height

55 Classification des documents On peut classer des termes mais aussi des documents Une méthode permet d identifier 5 classes, caractérisées par les termes suivants : cluster 1 : accompagne banque crédit_agricole nouvelle partout application toute cluster 2 : assurance domicile protégez solutions télésurveillance cluster 3 : crédit_agricole banque agricole alerte comment problème - cluster 4 : gouvernance conseil crédit_agricole nouvelle etat banques saisit cluster 5 : hollande village crédit_agricole françois off the record Les classes (ou «clusters») sont de tailles inégales : > kmeansresult$size [1] Plusieurs méthodes de classification existent (k-means, k-medoids ) Certaines méthodes peuvent déterminer un nombre de classes optimal selon un certain critère exemple : les k-means avec l algorithme clustersim qui s appuie sur un critère tel que l indice Silhouette de Rousseeuw (s assurant d une faible distance entre les éléments d une même classe et d une distance moyenne plus grande entre eux et les éléments d une autre classe) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 55

56 Score d opinion (ou analyse de sentiments) Méthode de base :partir d une liste de mots positifs et d une liste de mots négatifs, compter dans chaque document le nombre de mots positifs et lui soustraire le nombre de mots négatifs Cela donne le «score» du document Voici sur le corpus de tweets la distribution des scores : > table(texte.corpus$score) La brièveté des tweets entraîne bien sûr la faible amplitude du «score 1500 d opinion» La qualité du score dépend de celle des listes 1000 count /11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry texte.corpus$score

57 Évolution du score d opinion dans le temps On calcule le score moyen et le score médian chaque jour Score moyen Score médian sept. 15 sept. 16 sept. 18 sept. 20 sept. 22 sept. 24 sept. 26 sept. 28 sept. 29 sept. 30 oct. 02 oct. 04 oct. 06 oct. 08 oct. 10 oct. 12oct. 13 Date 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 57

58 Graphe des termes avec leur connotation On crée un graphe dont les sommets sont les termes, et dont les arêtes relient deux termes s ils sont co-occurrents dans un document Les termes plus fréquents correspondent à des sommets plus gros Les sommets sont coloriés en rouge s il s agit de «mots négatifs» et en vert si ce sont des «mots positifs» 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 58

59 Graphe des termes avec leur connotation 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 59

60 Détection des communautés # plusieurs méthodes disponibles cm <- fastgreedy.community(g) cm <- edge.betweenness.community(g) cm <- walktrap.community(g) length(cm) # nombre de communautés sizes(cm) # taille des communautés # association de chaque sommet à sa communauté memb <- community.to.membership(g,cm$merges,which.max(cm$modularity)-1) # coloriage des communautés colbar <- rainbow(length(cm)) col <- colbar[memb$membership+1] # graphe interactif tkplot(g,vertex.color=col) 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 60

61 Communautés dans le graphe des termes Méthode Walktrap 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 61

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014

Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014 Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014 résumé : Ce projet a pour but de récupérer des données géolocalisées

Plus en détail

Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012

Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012 Extraction et analyse des mesures haut-débit pour l identification de biomarqueurs : problèmes méthodologiques liés à la dimension et solutions envisagées EA 2415 Epidémiologie, Biostatistique et Santé

Plus en détail

Quels usages des données massives pour les statistiques publiques? Enjeux, méthodes et perspectives

Quels usages des données massives pour les statistiques publiques? Enjeux, méthodes et perspectives Quels usages des données massives pour les statistiques publiques? Enjeux, méthodes et perspectives Stéphanie Combes et Pauline Givord (DMCSI) INSEE-DMSCI 02/04/2015 Plan Qu'est-ce que le Big Data? Les

Plus en détail

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le Qui je suis Innovation Utilisation des réseaux sociaux pour le data mining Business & Decision Françoise Soulié Fogelman francoise.soulie@outlook.com Atos KDD_US CNAM Séminaire de Statistique appliquée

Plus en détail

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Formation Actuaire Data Scientist. Programme au 24 octobre 2014 Formation Actuaire Data Scientist Programme au 24 octobre 2014 A. Eléments logiciels et programmation Python 24h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Analyse des réseaux sociaux et apprentissage

Analyse des réseaux sociaux et apprentissage Analyse des réseaux sociaux et apprentissage Emmanuel Viennet Laboratoire de Traitement et Transport de l Information Université Paris 13 - Sorbonne Paris Cité Réseaux sociaux? Réseaux sociaux? Analyse

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Formation. Data-Science pour l Actuariat. 6 Juillet 2015

Formation. Data-Science pour l Actuariat. 6 Juillet 2015 Formation Data-Science pour l Actuariat 6 Juillet 2015 Formation Data Science pour l Actuariat Pourquoi? Nouveau contexte : nouveau besoin - Révolution numérique : données massives et hétérogènes, nouveaux

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Une nouvelle approche de détection de communautés dans les réseaux sociaux UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d informatique et d ingénierie Une nouvelle approche de détection de communautés dans les réseaux sociaux Mémoire (INF 6021) pour l obtention du grade de Maîtrise

Plus en détail

Une pénalité de groupe pour des données multivoie de grande dimension

Une pénalité de groupe pour des données multivoie de grande dimension Une pénalité de groupe pour des données multivoie de grande dimension Laurent Le Brusquet 1, Arthur Tenenhaus 1,2, Gisela Lechuga 1, Vincent Perlbarg 2, Louis Puybasset 3 & Damien Galanaud 4. 1 Laboratoire

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Formation continue. Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013 Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Cours de Data Mining PageRank et HITS

Cours de Data Mining PageRank et HITS Cours de Data Mining PageRank et HITS Andreea Dragut Univ. Aix-Marseille, IUT d Aix-en-Provence Andreea Dragut Cours de Data Mining PageRank et HITS 1 / 48 Plan du cours Présentation Andreea Dragut Cours

Plus en détail

Méthodes d apprentissage statistique «Machine Learning»

Méthodes d apprentissage statistique «Machine Learning» Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

Apprentissage automatique

Apprentissage automatique Apprentissage automatique François Denis, Hachem Kadri, Cécile Capponi Laboratoire d Informatique Fondamentale de Marseille LIF - UMR CNRS 7279 Equipe QARMA francois.denis@lif.univ-mrs.fr 2 Chapitre 1

Plus en détail

COURS SYRRES RÉSEAUX SOCIAUX. Jean-Loup Guillaume

COURS SYRRES RÉSEAUX SOCIAUX. Jean-Loup Guillaume COURS SYRRES RÉSEAUX SOCIAUX Jean-Loup Guillaume Le cours http://jlguillaume.free.fr/www/teaching/syrres/ Exemple 1 : Expérience de Milgram Objectif faire transiter une lettre depuis les Nebraska à un

Plus en détail

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION Jean-Loup Guillaume Le cours Enseignant : Jean-Loup Guillaume équipe Complex Network Page du cours : http://jlguillaume.free.fr/www/teaching-syrres.php Évaluation

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Données biologiques haut-débit :

Données biologiques haut-débit : Données biologiques haut-débit : problèmes méthodologiques liés à la dimension et utilisation des algorithmes génétiques Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

Statistiques avec R 3/4 - Machine Learning/Data Mining

Statistiques avec R 3/4 - Machine Learning/Data Mining Statistiques avec R 3/4 - Machine Learning/Data Mining Christophe Lalanne ch.lalanne@gmail.com www.aliquote.org Cours R (ESME), 2015 1 Synopsis Positionnement du problème Réduction de dimension Sélection

Plus en détail

Une introduction aux arbres de décision

Une introduction aux arbres de décision Une introduction aux arbres de décision Stéphane Caron http://scaroninfo 31 août 2011 Les arbres de décision sont l'une des structures de données majeures de l'apprentissage statistique Leur fonctionnement

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Explorer l espace des mots : du linéaire au non-linéaire

Explorer l espace des mots : du linéaire au non-linéaire Explorer l espace des mots : du linéaire au non-linéaire Ludovic Lebart CNRS ENST, 46 rue Barrault, 75013, Paris. Abstract To visualize the associations between words within a series of texts, it is frequent

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 18/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 18/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Points méthodologiques Adapter les méthodes statistiques aux Big Data

Points méthodologiques Adapter les méthodes statistiques aux Big Data Points méthodologiques Adapter les méthodes statistiques aux Big Data I. Répétition de tests et inflation du risque alpha II. Significativité ou taille de l effet? 2012-12-03 Biomédecine quantitative 36

Plus en détail

Introduction à l Analyse des Réseaux Sociaux

Introduction à l Analyse des Réseaux Sociaux Introduction à l Analyse des Réseaux Sociaux Erick Stattner Laboratoire LAMIA Université des Antilles et de la Guyane, France erick.stattner@univ-ag.fr Guadeloupe, Novembre 2012 Erick Stattner Introduction

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP)

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Loris Marchal, Guillaume Melquion, Frédéric Tronel 21 juin 2011 Remarques générales à propos de l épreuve Organisation

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

FaceBook aime les Maths!

FaceBook aime les Maths! FaceBook aime les Maths! Michel Rigo http://www.discmath.ulg.ac.be/ http://orbi.ulg.ac.be/ Réseaux Visualizing my Twitter Network by number of followers. Michael Atkisson http://woknowing.wordpress.com/

Plus en détail

Séries de Fourier. T f (x) exp 2iπn x T dx, n Z. T/2 f (x) cos ( ) f (x) dx a n (f) = 2 T. f (x) cos 2πn x )

Séries de Fourier. T f (x) exp 2iπn x T dx, n Z. T/2 f (x) cos ( ) f (x) dx a n (f) = 2 T. f (x) cos 2πn x ) Séries de Fourier Les séries de Fourier constituent un outil fondamental de la théorie du signal. Il donne lieu à des prolongements et des extensions nombreux. Les séries de Fourier permettent à la fois

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Théorie des graphes pour l analyse de réseaux réels

Théorie des graphes pour l analyse de réseaux réels Théorie des graphes pour l analyse de réseaux réels Bertrand Jouve Laboratoire ERIC - IXXI - Université Lyon 2 Plan 1 Entre théorie des graphes et réseaux réels 2 Partitionnement métrique Exemple d étude

Plus en détail

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01

Plus en détail

augmenter votre visibilité sur internet

augmenter votre visibilité sur internet moteurs de recherche: référencement & positionnement augmenter votre visibilité sur internet Un guide écrit par Fabrice Perrin & Nicolas Jan blue-infinity Genève blue-infinity est une société leader dans

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

CRM PERFORMANCE CONTACT

CRM PERFORMANCE CONTACT CRM PERFORMANCE CONTACT PREMIUM 3ème génération Un concentré de haute technologie pour augmenter de 30 % vos rendez-vous Le Vinci, 2 place Alexandre Farnèse 84000 Avignon Tél : + 33 (0)4 90 13 15 88 Télécopie

Plus en détail

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF Territoires, Environnement, Télédétection et Information Spatiale Unité mixte de recherche Cemagref - CIRAD - ENGREF Master ère année Analyse spatiale, analyse géographique, spatialité des sociétés Master

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca Une brève introduction aux Données Massives - Challenges et perspectives Romain Picot-Clémente Cécile Bothorel Philippe Lenca Plan 1 Big Data 2 4Vs 3 Hadoop et son écosystème 4 Nouveaux challenges, nouvelles

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Structures de données non linéaires

Structures de données non linéaires Structures de données non linéaires I. Graphes Définition Un graphe (simple) orienté G est un couple (S, A), où : S est un ensemble dont les éléments sont appelés les sommets. A est un ensemble de couples

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Quelques analyses simples avec R en écologie des communautés

Quelques analyses simples avec R en écologie des communautés Jérôme Mathieu janvier 2007 Quelques analyses simples avec R en écologie des communautés 1 Visualisation des données... 2 Aperçu rapide d'un tableau de données... 3 Visualiser les corrélations entre des

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail

Créer un site e-commerce avec PrestaShop Cloud Mise en place et suivi du projet

Créer un site e-commerce avec PrestaShop Cloud Mise en place et suivi du projet Chapitre 1 : Préparer son projet e-commerce A. Introduction 15 1. Objectif de ce livre 15 2. Pourquoi se lancer dans l e-commerce? 16 B. Les questions à se poser avant de se lancer 18 C. Identité du projet

Plus en détail

assurance Février 2012

assurance Février 2012 Modèles fréquence coût : Construire un générateur de scénarios Quelles perspectives économiques d évolution en? assurance Version 0.7 Version 1.2 Mars 2014 Février 2012 Frédéric PLANCHET frederic@planchet.net

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE Le schéma synoptique ci-dessous décrit les différentes étapes du traitement numérique

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail