Introduction au Data-Mining
|
|
- Victor Martel
- il y a 8 ans
- Total affichages :
Transcription
1 Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane Canu Introduction au Data-Mining / 29
2 Data-Mining : Qu est-ce donc? Traduction : Fouille de données. Terme récent (995) représentant un mélange d idées et d outils provenant de la Statistique, Science de l information et l Informatique. A évolué vers le data science Machine Learning, Data-Mining Big Data (explosion des données) Formalismes de stockage et de traitement distribués des données (NoSQL, NewSQL, Hadoop, MapReduce...) Gilles Gasso, Stéphane Canu Introduction au Data-Mining 2 / 29
3 Data-Mining : Qu est-ce donc? Définition Le data-mining est un processus de découverte de règle, relations, corrélations et/ou dépendances à travers une grande quantité de données, grâce à des méthodes statistiques, mathématiques et de reconnaissances de formes. Définition 2 Le data-mining est un processus d extractions automatique d informations predictives à partir de grandes bases de données. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 3 / 29
4 Data-Mining : les raisons du développement Données Big Data : augmentation sans cesse de données générées Twitter : 50M de tweets /jour (=7 téraoctets) Facebook : 0 téraoctets /jour Youtube : 50h de vidéos uploadées /minute 2.9 million de mail /seconde Puissance de calcul Augmentation des ordinateurs (loi de Moore) Recours à du calcul massivement distribué Création de valeur ajoutée Interêt économique : du produit aux clients. Extraire de la connaissance à partir des big data Gilles Gasso, Stéphane Canu Introduction au Data-Mining 4 / 29
5 Exemples d applications Entreprise et Relation Clients : système de création de profils clients, ciblage de clients potentiels et nouveaux marchés Finances : minimisation de risques financiers Bioinformatique : Analyse du génome, mise au point de médicaments,... Internet : spam, e-commerce, détection d intrusion, recherche d informations etc... Sécurité Y? Gilles Gasso, Stéphane Canu Introduction au Data-Mining 5 / 29
6 Exemples d applications : E-commerce Dell Stocker les séquences de clicks des visiteurs, analyser les caractéristiques des acheteurs Faire du targeting lors de la visite d un client potentiel Y? Amazon Opportunité : la liste des achats des clients est stockée en mémoire ; les clients notent les produits! Comment tirer profit de ces données pour proposer des produits à un autre client? Solutions : technique dit de filtrage collaboratif pour regrouper les clients ayant les mêmes goûts. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 6 / 29
7 Exemples d applications : Analyse des risques Détection de fraudes pour les assurances Analyse des déclarations des assurés par un expert afin d identifier les cas de fraudes. Applications de méthodes statistiques pour identifier les déclarations fortement corrélées à la fraude. Prêt Bancaire Objectif des banques : réduire le risque des prêts bancaires. Créer un modèle à partir de caractérisques des clients pour discriminer les clients à risque des autres. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 7 / 29
8 Exemples d applications : Commerce Opinion mining Exemple : analyser l opinion des usagers sur les produits d une entreprise à travers les commentaires sur les réseaux sociaux et les blogs Gilles Gasso, Stéphane Canu Introduction au Data-Mining 8 / 29
9 Mise en oeuvre d un projet d un projet de DM Data Preprocessing Learn a Model Evaluation General Guidelines Collect data 2 Preprocess the data 3 Statistical analysis of the data 4 Identify the learning task 5 Design a model and the learning algorithm Y? 6 Check its generalization ability Gilles Gasso, Stéphane Canu Introduction au Data-Mining 9 / 29
10 Ensemble de données Données d un problème de DM Les informations sont des exemples avec des attributs On dispose généralement d un ensemble de N données Attributs Un attribut est un descripteur d une entité. On l appelle également variable, champs ou caratéristiques Exemple Un exemple est une entité caractérisant un objet et est constitué d attributs. synonymes : point, vecteur (souvent dans R d ) Gilles Gasso, Stéphane Canu Introduction au Data-Mining 0 / 29
11 Données : illustration Variables Points x citric acid residual sugar chlorides sulfur dioxide Point x R Variable 3 : Chlorides Points Moyenne des points Variable 2 : Residual Sugar Variable 3 : Chlorides Variable 2 : Residual Sugar Gilles Gasso, Stéphane Canu Introduction au Data-Mining / 29 Variable 4 : Sulfur 2.8
12 Type de données Capteurs variables quantitatives, qualitatives, ordinales Texte Chaîne de caractères Parole Séries temporelles Images données 2D Videos données 2D + temps Réseaux Graphes Flux Logs, coupons... Etiquettes information d évaluation Big Data (volume, vélocité, variété) Flot "continu" de données Pre-traitement des données (nettoyage, normalisation, codage...) Représentation : des données aux vecteurs Gilles Gasso, Stéphane Canu Introduction au Data-Mining 2 / 29
13 Données et Métriques Les algorithmes nécessitent une notion de similarité dans l espace X des données. La similarité est traduite par la notion de distance. distance euclidienne : x, z R d, on a d(x, z) = x z 2 = d j= (x j z j ) 2 = (x z) (x z) Euclidien Manhattan Mahalanobis distance de manhattan d(x, z) = x z = d j= (x j z j ) distance de mahalanobis d(x, z) = (x z) Σ (x z) Σ R d d : matrice carrée définie positive Gilles Gasso, Stéphane Canu Introduction au Data-Mining 3 / 29
14 Caractérisation des méthodes de Data-Mining Types d apprentissage Apprentissage supervisé Apprentissage non-supervisé Apprentissage semi-supervisé Gilles Gasso, Stéphane Canu Introduction au Data-Mining 4 / 29
15 Caractérisation des méthodes de Data-Mining Apprentissage supervisé Objectifs : à partir des données {(x i, y i ) X Y, i =, N}, estimer les dépendances entre X et Y. Exemple : estimer les liens entre habitudes alimentaires et risque d infarctus. x i est un patient décrit par d attributs concernant son régime et y i une catégorie (risque, pas risque). On parle d apprentissage supervisé car les y i permettent de guider le processus d estimation. Méthodes : Méthode du plus proche voisin, SVM, arbre de décision... Applications : détection de fraude, diagnostic médical... Gilles Gasso, Stéphane Canu Introduction au Data-Mining 5 / 29
16 Caractérisation des méthodes de Data-Mining Apprentissage non-supervisé Objectifs : seules les observations {x i X, i =, N} sont disponibles. On cherche à décrire comment les données sont organisées et en extraire des sous-ensemble homogènes. Exemple : catégoriser les clients d un supermarché. x i représente un individu à travers ses caractéristiques sociales et ses habitudes lors des courses Exemples de méthodes : Classification hierarchique, Carte de Kohonen, K-means, extractions de règles... Exemples d applications : identification de segments de marchés, catégorisation de documents similaires, Gilles Gasso, Stéphane Canu Introduction au Data-Mining 6 / 29
17 Caractérisation des méthodes de Data-Mining Apprentissage semi-supervisé Objectifs : parmi les observations, seulement un petit nombre ont un label i.e {(x, y ),, (x n, y n ), x n+,, N}. L objectif est le même que pour l apprentissage supervisé mais on aimerait tirer profit des observations non labelisées. Exemple : pour la discrimination de pages Web, le nombre d exemples peut être très grand mais leur associer un label est coûteux. Exemples de méthodes : méthodes bayesiennes, Séparateur à Vastes Marges, etc... Gilles Gasso, Stéphane Canu Introduction au Data-Mining 7 / 29
18 Apprentissage supervisé : les concepts Soit deux ensembles X et Y munis d une loi de probabilité jointe p(x, Y ). Objectifs : On cherche une fonction f : X Y qui à X associe f (X ) qui permet d estimer la valeur y associée à x. f appartient à un espace H appelé espace d hypothèses. Exemple de H : ensemble des fonctions polynomiales Gilles Gasso, Stéphane Canu Introduction au Data-Mining 8 / 29
19 Apprentissage supervisé : les concepts On introduit une notion de coût L(Y, f (X )) qui permet d évaluer la pertinence de la prédiction de f, et de pénaliser les erreurs. L objectif est donc de choisir la fonction f qui minimise R(f ) = E X,Y [L(Y, f (X ))] où R est appelé le risque moyen ou erreur de généralisation. Il est également noté EPE(f ) pour expected prediction error Gilles Gasso, Stéphane Canu Introduction au Data-Mining 9 / 29
20 Apprentissage supervisé : les concepts Exemples de fonction coût et de risque moyen associé. Coût quadratique (moindres carrés) L(Y, f (X )) = (Y f (X )) 2 R(f ) = E[(Y f (X )) 2 ] = (y f (x)) 2 p(x, y)dxdy Coût l (moindres valeurs absolues) L(Y, f (X )) = Y f (X ) R(f ) = E[ Y f (X )) ] = y f (x) p(x, y)dxdy Gilles Gasso, Stéphane Canu Introduction au Data-Mining 20 / 29
21 y Apprentissage supervisé : les concepts Régression On parle de régression quand Y est un sous-espace de R d Support Vector Machine Regression 0.5 Fonction de coût typique : quadratique (y f (x)) x Gilles Gasso, Stéphane Canu Introduction au Data-Mining 2 / 29
22 0 Apprentissage supervisé : les concepts Discrimination si Y est un ensemble discret non-ordonné, (par exemple {, }), on parle de discrimination La fonction de coût la plus usitée est : Θ( yf (x)) où Θ est la fonction échelon Gilles Gasso, Stéphane Canu Introduction au Data-Mining 22 / 29
23 Apprentissage supervisé : les concepts En pratique, on a un ensemble de données {(x i, y i ) X Y} N i= appelé ensemble d apprentissage obtenu par échantillonnage indépendant de p(x, Y ) que l on ne connaît pas. On cherche une fonction f, appartenant à H qui minimise le risque empirique : R emp (f ) = N L(y i, f (x i )) N Le risque empirique ne permet pas d évaluer la pertinence d un modèle car il est possible de choisir f de sorte que le risque empirique soit nul mais que l erreur en généralisation soit élevée. On parle alors de sur-apprentissage i= Gilles Gasso, Stéphane Canu Introduction au Data-Mining 23 / 29
24 Illustration du sur-apprentissage Erreur de prediction Ensemble de Test Faible Ensemble d apprentissage Complexité du modèle Elevé Gilles Gasso, Stéphane Canu Introduction au Data-Mining 24 / 29
25 Sélection de modèles Problématique On cherche une fonction f qui minimise un risque empirique donné. On suppose que f appartient à une classe de fonctions paramétrées par α. Comment choisir α pour que f minimise le risque empirique et généralise bien? Exemple : On cherche un polynôme de degré α qui minimise un risque R emp (f α ) = N i= (y i f α (x i )) 2. Objectifs : proposer une méthode d estimation d un modèle afin de choisir (approximativement) le meilleur modèle appartenant à l espace hypothèses. 2 une fois le modèle choisi, calculer son erreur de généralisation. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 25 / 29
26 Sélection de modèles Cas idéal On est dans un cas où les données abondent. Dans ce cas, on sépare les données en 3 ensembles : données d apprentissage, données de validation et données de test. Le premier sert à construire un modèle, le deuxième à estimer l erreur de ce modèle. Le troisième ne sert qu une fois : à estimer l erreur en généralisation du modèle final. Cas usuel : On est pauvre en données. Utilisation de méthodes analytiques (AIC, BIC, etc...) ou de rééchantillonnage pour remplacer l étape de validation. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 26 / 29
27 Sélection de modèles : Validation Croisée Méthode d estimation de l erreur en généralisation d une fonction f par rééchantillonnage. Principe Séparer les N données en K ensembles de part égales. 2 Pour chaque k =,, K, apprendre un modèle en utilisant les K autres ensemble de données et évaluer le modèle sur la k-ième partie. 3 Moyenner les K estimations de l erreur obtenues pour avoir l erreur de validation croisée. K= K=2 K=3 K=4 K=5 APP APP TEST APP APP Gilles Gasso, Stéphane Canu Introduction au Data-Mining 27 / 29
28 Sélection de modèles : Validation Croisée (2) Détails : CV = K K N k N k k= i= L(y k i, f k (x k i )) où f k est le modèle f appris sur l ensemble des données sauf la k-ième partie. Propriétés : Si K = N, CV est approximativement un estimateur sans biais de l erreur en généralisation. L inconvénient est qu il faut apprendre N modèles. typiquement, on choisit K = 5 ou K = 0 pour un bon compromis entre le biais et la variance de l estimateur. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 28 / 29
29 Conclusions Pour bien mener un projet de DM Identifier et énoncer clairement les besoins. Créer ou obtenir des données représentatives du problème Identifier le contexte de l apprentissage Analyser et réduire la dimension des données Choisir un algorithme et/ou un espace d hypothèses. Choisir un modèle en appliquant l algorithme aux données prétraitées. Valider les performances de la méthode. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 29 / 29
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailOrganisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.
2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle
Plus en détailLes participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.
Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailLes enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013
Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine
Plus en détailAgenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Plus en détail1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données
1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l
Plus en détailPentaho Business Analytics Intégrer > Explorer > Prévoir
Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailMasses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA
Masses de données 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Rédacteurs : Mjo Huguet / N. Jozefowiez 1. Introduction : Besoins Informations et Aide
Plus en détail5. Apprentissage pour le filtrage collaboratif
686 PARTIE 5 : Au-delà de l apprentissage supervisé 5. Apprentissage pour le filtrage collaboratif Il semble que le nombre de choix qui nous sont ouverts augmente constamment. Films, livres, recettes,
Plus en détailL apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailIntroduction Big Data
Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailFormation Actuaire Data Scientist. Programme au 24 octobre 2014
Formation Actuaire Data Scientist Programme au 24 octobre 2014 A. Eléments logiciels et programmation Python 24h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques
Plus en détailNewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting
NewPoint IT Consulting BIG DATA WHITE PAPER NewPoint Information Technology Consulting Contenu 1 Big Data: Défi et opportunité pour l'entreprise... 3 2 Les drivers techniques et d'entreprise de BIG DATA...
Plus en détailMapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis
MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailBIG DATA et DONNéES SEO
BIG DATA et DONNéES SEO Vincent Heuschling vhe@affini-tech.com @vhe74 2012 Affini-Tech - Diffusion restreinte 1 Agenda Affini-Tech SEO? Application Généralisation 2013 Affini-Tech - Diffusion restreinte
Plus en détailAnnexe 6. Notions d ordonnancement.
Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document
Plus en détailProgrammes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailTransformez vos données en opportunités. avec Microsoft Big Data
Transformez vos données en opportunités avec Microsoft Big Data 1 VOLUME Augmentation du volume de données tous les cinq ans Vélocité x10 4,3 Nombre d appareils connectés par adulte VARIÉTÉ 85% Part des
Plus en détailEcole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales
Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailNe cherchez plus, soyez informés! Robert van Kommer
Ne cherchez plus, soyez informés! Robert van Kommer Le sommaire La présentation du contexte applicatif Le mariage: Big Data et apprentissage automatique Dialogues - interactions - apprentissages 2 Le contexte
Plus en détailGroupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be
Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailLes technologies du Big Data
Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailLes algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Plus en détailÀ PROPOS DE TALEND...
WHITE PAPER Table des matières Résultats de l enquête... 4 Stratégie d entreprise Big Data... 5 Intégration des Big Data... 8 Les défis liés à la mise en œuvre des Big Data... 10 Les technologies pour
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailReprésentation des Nombres
Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...
Plus en détailBIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara
BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse
Plus en détailSurmonter les 5 défis opérationnels du Big Data
Surmonter les 5 défis opérationnels du Big Data Jean-Michel Franco Talend Connect 9 octobre 2014 Talend 2014 1 Agenda Agenda Le Big Data depuis la découverte jusqu au temps réel en passant par les applications
Plus en détailPanorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle
Panorama des problématiques de traitement de l information Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle Conduite d une étude statistique Larbi Aït Hennani, maître de conférences en mathématiques
Plus en détailBIG DATA en Sciences et Industries de l Environnement
BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie
Plus en détailGENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT
Remarque : Tous les cours sont en français, sauf contre-indication. Pour des traductions anglaises des titres, des descriptifs, et plus de renseignements, consultez l intégralité du Programme des enseignements
Plus en détailSÉRIE NOUVELLES ARCHITECTURES
SÉRIE NOUVELLES ARCHITECTURES Alerte au tsunami des données : les entreprises doivent prendre la vague maintenant! Quels sont les faits qui sous-tendent cette réalité? Quelles entreprises sont aujourd
Plus en détailDes données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox
Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailFORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis
FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis Joseph Salmon Télécom ParisTech Jeudi 6 Février Joseph Salmon (Télécom ParisTech) Big Data Jeudi 6 Février 1 / 18 Agenda Contexte et opportunités
Plus en détailFouillez facilement dans votre système Big Data. Olivier TAVARD
Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche
Plus en détailCalculer avec Sage. Revision : 417 du 1 er juillet 2010
Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1
Plus en détailPréface Dunod Toute reproduction non autorisée est un délit. Les raisons de l émergence du Big Data sont bien connues. Elles sont d abord économiques et technologiques. La chute exponentielle des coûts
Plus en détailBIG Data et R: opportunités et perspectives
BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,
Plus en détail20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà
Plus en détailBig Data On Line Analytics
Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1 Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics
Plus en détailTRAVAUX DE RECHERCHE DANS LE
TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT
Plus en détailI. Polynômes de Tchebychev
Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire
Plus en détailDATA ANALYTICS Des données aux connaissances et à la création de valeur
DATA ANALYTICS Des données aux connaissances et à la création de valeur Sommaire Rencontres Inria Industrie p 3 Vos contacts au centre Inria Saclay - île-de-france p 4 Technologies Bertifier Sparklificator
Plus en détailLaboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Plus en détailFouille de données massives avec Hadoop
Fouille de données massives avec Hadoop Sebastiao Correia scorreia@talend.com Talend 2013 AAFD'14 29-30 avril 2014 1 Agenda Présentation de Talend Définition du Big Data Le framework Hadoop 3 thématiques
Plus en détailricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels,
Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens,
Plus en détailApprentissage statistique dans les graphes et les réseaux sociaux
Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailBig Data et Prévisions. Philippe Picard, le 24 juin 2015. Page 1
Big Data et Prévisions Philippe Picard, le 24 juin 2015. Page 1 Vous dites prévisions et prédictions? Neptune Météo Marées Boson de Higgs Loto PMU Economie Sismique + Nostradamus _ Philippe Picard, le
Plus en détailBig data* et marketing
Catherine Viot IAE de Bordeaux Maître de conférences HDR Responsable pédagogique du Master 2 Marketing Equipe de Recherche en Marketing - IRGO catherine.viot@u-bordeaux4.fr Big data* et marketing 2006
Plus en détailLe potentiel et les défis du Big Data. Mardi 2 et Mercredi 3 Juillet 2013
Big DATA & ANALYTICS Le potentiel et les défis du Big Data Mardi 2 et Mercredi 3 Juillet 2013 QUI SUIS-JE? AMPLEUR, QUELQUES FAITS SAILLANTS Mantra vertus magiques, vitesse de propagation, amplitude richterienne
Plus en détailBig Data -Comment exploiter les données et les transformer en prise de décisions?
IBM Global Industry Solution Center Nice-Paris Big Data -Comment exploiter les données et les transformer en prise de décisions? Apollonie Sbragia Architecte Senior & Responsable Centre D Excellence Assurance
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailAccélérer l agilité de votre site de e-commerce. Cas client
Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible
Plus en détailPanorama des solutions analytiques existantes
Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement
Plus en détailNoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Plus en détailPROFILAGE : UN DEFI POUR LA PROTECTION DES DONNEES PERSONNELLES Me Alain GROSJEAN Bonn & Schmitt
PROFILAGE : UN DEFI POUR LA PROTECTION DES DONNEES PERSONNELLES Me Alain GROSJEAN Bonn & Schmitt ASPECTS TECHNIQUES M. Raphaël VINOT CIRCL SEMINAIRE UIA ENJEUX EUROPEENS ET MONDIAUX DE LA PROTECTION DES
Plus en détailBig Data et Statistique Publique
Big Data et Statistique Publique Miracle ou mirage? Matthieu Cornec Mission Innovation Sommaire 1. Constat : Explosion des données 1. Constat 2. Exemples 2. Big Data : nouvelle révolution économique? 1.
Plus en détailLes datas = le fuel du 21ième sicècle
Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition
Plus en détailUtilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données
Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique
Plus en détailFormation continue. Ensae-Ensai Formation Continue (Cepe)
CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat
Plus en détailIntroduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours
Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP
Plus en détailMéthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Plus en détailTable des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Plus en détailWe make your. Data Smart. Data Smart
We make your We make your Data Smart Data Smart Une société Une société du du groupe Le groupe NP6 SPECIALISTE LEADER SECTEURS EFFECTIFS SaaS Marketing : 50% Data intelligence : 50% 15 sociétés du CAC
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailTRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,
Plus en détailAnticiper et prédire les sinistres avec une approche Big Data
Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél
Plus en détailFormes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions
Formes quadratiques Imen BHOURI 1 Ce cours s adresse aux étudiants de niveau deuxième année de Licence et à ceux qui préparent le capes. Il combine d une façon indissociable l étude des concepts bilinéaires
Plus en détailReconstruction de bâtiments en 3D à partir de nuages de points LIDAR
Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains
Plus en détailCours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques
Université de Provence Topologie 2 Cours3. Applications continues et homéomorphismes 1 Rappel sur les images réciproques Soit une application f d un ensemble X vers un ensemble Y et soit une partie P de
Plus en détailJuly 1, 2013. Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, 2013 1 / 15
Mastère Spécialisé Big Data Stéphan Clémençon Télécom ParisTech July 1, 2013 Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, 2013 1 / 15 Agenda Contexte et Opportunité Les grandes lignes
Plus en détailaccompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014
accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014 Big Data au-delà du "buzz-word", un vecteur d'efficacité et de différenciation business
Plus en détailContents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes
Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire
Plus en détailCOURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE
COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE Le cours de la première année concerne les sujets de 9ème et 10ème années scolaires. Il y a bien sûr des différences puisque nous commençons par exemple par
Plus en détail