Statistiques avec R 3/4 - Machine Learning/Data Mining
|
|
- Nathalie Charpentier
- il y a 8 ans
- Total affichages :
Transcription
1 Statistiques avec R 3/4 - Machine Learning/Data Mining Christophe Lalanne ch.lalanne@gmail.com Cours R (ESME),
2 Synopsis Positionnement du problème Réduction de dimension Sélection de variables Quelques modèles prédictifs Cours R (ESME),
3 RStudio et R Markdown Présentation Cours R (ESME),
4 Différentes questions, différentes approches approche supervisée vs. non-supervisée, voire semisupervisée ; prédiction vs. classification modèle explicatif vs. modèle prédictif ; modèle génératif vs. discriminant What s the model for the data? Leo Breiman, Statistical Modeling: The Two Cultures Cours R (ESME),
5 Rappels sur l'approche de régression Soit la réponse mesurée pour la ème unité, et les valeurs observées sur prédicteurs. Le modèle de régression linéaire (au niveau de ses paramètres) s'écrit avec ( ) les coefficients de régression qui reflètent le changement observé au niveau de lorsque varie de une unité, les autres prédicteurs étant maintenus constants. Cours R (ESME),
6 L'erreur quadratique moyenne (RMSE), définie comme permet de résumer l'écart entre les valeurs prédites et les valeurs observées, en d'autres termes la capacité prédictive du modèle. rmse <- function(obj) sqrt(mean(resid(obj)^2)) Cours R (ESME),
7 Cas d'une variable réponse binaire Régression logistique La régression logistique permet de traiter le cas où la variable réponse est de type binaire (oui/non, malade/pas malade, etc.), et non pas continu comme dans le modèle de régression linéaire. Tout en relaxant certaines des hypothèses du modèle de régression multiple, on maintient quand même l'idée d'une relation linéaire entre la réponse et les prédicteurs. Cours R (ESME),
8 Soit la probabilité d'observer l'événement (vs. 0), alors le log odds peut s'exprimer comme une fonction linéaire des paramètres du modèle à prédicteurs : et la probabilité prédite s'écrit alors Cours R (ESME),
9 Deux utilisations différentes (à ne pas confondre) : 1. prédiction (probabilité, ) 2. classification (e.g., si, sinon). Comme dans le cas de la régression linéaire on utilise des mesures du pouvoir prédictif (e.g., score de Brier) ou discriminant (taux de classification correcte, courbe ROC optimisant un compromis sensibilité/spécificité défini a priori). Voir les packages rms et ROCR. Cours R (ESME),
10 Exemples de problèmes de ML ou DM analyse de documents : mots/topics recherche médicale : expression de gènes et prédiction du type de tumeur cancéreuse commerce, banque : données clients et typologie (achat, crédit, etc.) système de recommendation etc. Cours R (ESME),
11 Le zoo des modèles ML Source : Cours R (ESME),
12 Un problème de surajustement Exemple de modèle (génératif) : f <- function(x) sin(sqrt(2*pi*x)) n < ## ou 30 x <- runif(n, 0, 2*pi) y <- f(x) + rnorm(n, 0, 0.25) library(splines) lm(y ~ bs(x, df=3), data=dfrm) Cours R (ESME),
13 Qualité du modèle de régression par splines : Quel modèle choisir : 3, 5 ou 10 paramètres? Cours R (ESME),
14 Cours R (ESME),
15 BS-15 estimé sur N=100, 30 nouvelles observations. Cours R (ESME),
16 BS-15 estimé sur N=30, 30 nouvelles observations. Cours R (ESME),
17 Compromis biais/variance Considérons un modèle polynomial d'ordre,. Problématique de sélection de modèle : Large biais quand petit, large variance quand grand. Comment choisir? Cours R (ESME),
18 Cours R (ESME),
19 Cours R (ESME),
20 Quel bon compromis pour éviter le sur-ajustement et contrôler la complexité du modèle? Limiter le nombre de prédicteurs,, ou maximiser (critère AIC). Procédure de sélection automatique de variable Validation croisée : 2 sous-échantillons, k-fold (avec ou sans répétition), bootstrap Techniques de pénalisation, incluant la sélection automatique de variables. Cours R (ESME),
21 Régression régularisée L'estimateur par MCO minimise la SSR. Lorsque, n'est pas de rang plein, et il n'y a plus unicité des solutions MCO. Pour la prédiction on peut chercher à minimiser le risque. Cours R (ESME),
22 Remarque : Une pénalisation avec une norme,, revient aux méthodes AIC/BIC. Packages R : glmnet (pas de data frame) ou penalized (inclut la possibilité de ne pénaliser qu'une partie des paramètres), parmi d'autres) Cours R (ESME),
23 Cours R (ESME),
24 f <- function(x) sin(sqrt(2*pi*x)) n < x <- runif(n, 0, 2*pi) sigma <- rnorm(n, 0, 0.25) y <- f(x) + sigma dfrm <- data.frame(x, y) library(penalized) lam <- c(seq(0, 2, by=.01), seq(2, 30, by=2)) X <- poly(dfrm$x, k) for (l in lam) { m <- penalized(response=dfrm$y, penalized=x, lambda1=0, lambda2=l) dfrm$pp <- predict(m, X)[,"mu"] plot(...) } Mais on pourrait très bien optimiser la valeur de. Comment? Cours R (ESME),
25 Application 1 Modèle :, 1. Simuler des données avec, et comparer un modèle linéaire classique à un modèle pénalisé (package glmnet). 2. Comparer les résultats avec une approcge par sélection de variable (step()) et de régression sur composantes principales (pls::pcr()) Cours R (ESME),
26 Exemple pour simuler les données : n <- 50 X <- replicate(10, rnorm(n)) colnames(x) <- paste("x", 1:10, sep="") y <- 1.1*X[,1] + 0.8*X[,2] - 0.7*X[,5] + 1.4*X[,6] + rnorm(n) dfrm <- data.frame(y=y, X) ## Modèle de base fm0 <- lm(y ~ 0+x1+x2+x3+x4, data=dfrm) Cours R (ESME),
27 Colinéarité, grande dimension, sélection de variable Soit, réponse continue, et trois prédicteurs continus,, mesurés sur un échantillon de taille, avec. Considérons 40 prédicteurs additionnels tirés indépendemment dans, de sorte qu'une estimation par simple MCO est moins recommendée. Cours R (ESME),
28 Par ailleurs, on considère que n'est pas corrélé à mais sa corrélation partielle avec n'est pas nulle. library(mass) n <- 80 Sigma <- matrix(c(1,-.5,-.5,0, -.5,1,.5,-.5, -.5,.5,1,-.5, 0,-.5,-.5,1), nc=4) dat <- mvrnorm(n, rep(0, 4), Sigma) dat <- cbind(dat, replicate(40, rnorm(n, 0, 1))) colnames(dat) <- c("y", paste("x", 1:(ncol(dat)-1), sep="")) Cours R (ESME),
29 Application 2 Est-il possible de recouvrer les prédicteurs? 1. Faire un filtrage univarié des prédicteurs à l'aide d'un simple test de corrélation, avec et sans correction pour les tests multiples (Bonferroni et FDR). 2. Comparer avec une approche par régularisation. 3. Comparer avec une approche par arbre de décision (package rpart). Cours R (ESME),
30 Sélection de variables Méthodes de filtrage : généralement univariées, sélection de variables indépendamment du classifieur Méthodes d'ensemble ("wrapper") : qualité de la classification, importance des prédicteurs, impossible d'enrichir la structure des classifieurs Méthodes intégrées ou enchâssées ("embedded") : processus de sélection de variables intégré à l'algorithme d'apprentissage, moins exigeantes en termes de calcul Cours R (ESME),
31 Source : Guyon, I., et al. (2006). Feature Extraction: Foundations And Applications Springer-Verlag. Cours R (ESME),
32 Méthodes d'ensemble L'idée est de générer des ensembles de classifieurs variés et suffisamment précis. On peut introduire de la variabilité en variant différents paramètres : varier le poids des observations (boosting/bagging) varier les valeurs des observations (ajout de bruit) considérer des sous-ensembles de variables (random forests) Cours R (ESME),
33 varier les paramètres du modèle varier le modèle utiliser (arbres, MARS, NNs, etc.) Les estimations peuvent ensuite être combinées par pondération des estimations, par une méthode de vote (en classification), ou par partitionnement de l'espace de design. Cours R (ESME),
34 Approches non-paramétriques Dans le cas des structures de données irrégulières ( ou ), les approches de filtrage univarié (tests t, régression) ou de réduction de dimension (PCA, SVD) ne prennent pas en compte la nature multivariée du problème. Une approche possible : Arbres de classification et de régression (CART). Cours R (ESME),
35 Cours R (ESME),
36 Avantages des arbres de décision (CART, ID3, C4.5/J48, etc.) : fonctionnent avec des variables numériques ou qualitatives, avec ou sans valeurs manquantes, moins sensibles aux valeurs extrêmes capturent les interactions, ignorent les prédicteurs de faible poids. En revanche, ils sont instables, ne capturent pas bien les combinaisons linéaires de variables, et sont impactés par la colinéarité (variables surrogates). Cours R (ESME),
37 Typiquement, il est nécessaire d'élaguer l'arbre de décision pour éviter le sur-ajustement : minimiser taille de l'arbre + minimiser fonction de coût. 1) root ) y< ) x< * 5) x>= * 3) y>= ) x< ) y< * 13) y>= * 7) x>= ) x< ) y< * 29) y>= * 15) x>= * Cours R (ESME),
38 Exemple : file <- " titanic.raw <- read.table(url(file), header = TRUE) library(rpart) m <- rpart(survived ~., data = titanic.raw) plotcp(m) printcp(m) Cours R (ESME),
39 Variables actually used in tree construction: [1] Age Class Sex Root node error: 711/2201 = n= 2201 CP nsplit rel error xerror xstd x (rel error) = erreur de resubstitution x (xerror) = erreur 10-fold CV Cours R (ESME),
40 Forêts aléatoires Extension des CART incluant une double étape de randomization (variables et individus). Il n'y a pas de modèle sous-jacent : il s'agit d'un algorithme : On spécifie le nombre de variables $p$ qui servira d'ensemble de prédicteurs parmi les variables de départ (généralement, ). Chaque arbre (de profondeur maximale) est construit à partir d'un échantillon bootstrap des individus de Cours R (ESME),
41 À chaque noeud, variables sont sélectionnées aléatoirement parmi les variables, la division de l'arbre se faisant selon un critère de maximisation du gain d'information sur ces variables (Gini : ou ). L'importance de chaque variable est évaluée par permutation. Package : randomforest Cours R (ESME),
42 Source : Cours R (ESME),
43 Source : Cours R (ESME),
44 Source : Cours R (ESME),
45 Source : Gene selection and classification of microarray data using random forest Cours R (ESME),
46 Application 3 1. Télécharger le jeu de données leukemia depuis le site du cours. 2. Vérifier la structure de données. 3. Comparer les prédictions d'un modèle de régression pénalisée avec celles d'un modèle RF. Cours R (ESME),
47 Lecture des données : x <- read.table("leukemia.data.txt")[,-1] x <- t(x) y <- scan("leukemia.class.txt", what = "character") y <- as.numeric(factor(y))-1 Cours R (ESME),
48 Validation croisée Source : Cours R (ESME),
49 On recommende généralement une procédure de type k-fold (k = 5 ou 10), répété (25 ou 100 fois), ou une approche par bootstrap pour de raisons de stabilité et de variance. À retenir : la validation croisée doit englober l'intégralité des étapes de construction et d'évaluation du modèle (optimisation des (hyper-)paramètres, sélection de variables, etc.). Cours R (ESME),
50 Le package caret Cours R (ESME),
51 partitionnement échantillon apprentissage/test : createdatapartition rffit <- train(x=traindescr, y=trainclass, method="rf", tunelength=10, importance=true, proximity=true, trcontrol=traincontrol(method="repeatedcv", number=5, repeats=10, verboseiter=true), metric = "Accuracy") rffit varused(rffit$finalmodel) plot(rffit$finalmodel) Cours R (ESME),
52 Autres modèles Il existe de nombreux autres modèles multivariés : SVM, GBM, MARS, sparse PLS, etc. Voir The Elements of Statistical Learning pour les détails téhoriques, pratiques et le code R. D'autres illustrations sont disponibles sur le site du package caret. Cours R (ESME),
53 Machines à vecteur de support Source : Cours R (ESME),
54 Cours R (ESME),
55 Exemple de SVM library(kernlab) set.seed(101) x <- rbind(matrix(rnorm(120),,2),matrix(rnorm(120,mean=3),,2)) y <- matrix(c(rep(1,60),rep(-1,60))) svp <- ksvm(x,y,type="c-svc") plot(svp,data=x) Voir aussi Support Vector Machines in R: a benchmark study (PDF). Cours R (ESME),
56 Cours R (ESME),
57 Equation de décision plot(scale(x), col=y+2, pch=y+2, xlab="", ylab="") w <- colsums(coef(svp)[[1]] * x[unlist(alphaindex(svp)),]) b <- b(svp) abline(b/w[1],-w[2]/w[1]) abline((b+1)/w[1],-w[2]/w[1],lty=2) abline((b-1)/w[1],-w[2]/w[1],lty=2) Source : Cours R (ESME),
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailTechniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailEtude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Plus en détailChapitre 6 Apprentissage des réseaux de neurones et régularisation
Chapitre 6 : Apprentissage des réseaux de neurones et régularisation 77 Chapitre 6 Apprentissage des réseaux de neurones et régularisation Après une introduction rapide aux réseaux de neurones et à la
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailScénario: Score d appétence de la carte visa premier
Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailMéthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailLES MODELES DE SCORE
LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailSAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
Plus en détailValidation probabiliste d un Système de Prévision d Ensemble
Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailOrganisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.
2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailAICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678
Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailRégression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr
Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailDonnées longitudinales et modèles de survie
ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailANALYSE STATISTIQUE PRÉDICTIVE
Yoshua Bengio Chaire de Recherche du Canada sur les Algorithmes d Apprentissage Statistique, Université de Montréal Charles Dugas ApSTAT Technologies Inc. Et Aviva Canada SALON INTELLIGENCE D AFFAIRE 8
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailAnalyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin
Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet
Plus en détailSTATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailUne méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailData mining II. Modélisation Statistique & Apprentissage
Publications du Laboratoire de Statistique et Probabilités Data mining II. Modélisation Statistique & Apprentissage Philippe BESSE Version janvier 2003 mises à jour : www.lsp.ups-tlse.fr/besse Laboratoire
Plus en détailApprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailApprentissage Statistique :
Apprentissage Statistique Apprentissage Statistique : modélisation, prévision et data mining PHILIPPE BESSE & BÉATRICE LAURENT 5ème année GMM - MMS Équipe de Statistique et Probabilités Institut de Mathématiques
Plus en détailApprentissage non paramétrique en régression
1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus
Plus en détailCHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle
CHAPITRE I Modélisation de processus et estimation des paramètres d un modèle I. INTRODUCTION. Dans la première partie de ce chapitre, nous rappelons les notions de processus et de modèle, ainsi que divers
Plus en détailESIEA PARIS 2011-2012
ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire
Plus en détail«Cours Statistique et logiciel R»
«Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire
Plus en détailApprentissage statistique dans les graphes et les réseaux sociaux
Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique
Plus en détailRenforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.
Master Mathématiques et Applications Spécialité : Ingénierie mathématique et modélisation Parcours : Mathématique et Informatique : Statistique, Signal, Santé (MI3S) 2015-2016 RÉSUMÉ DES COURS : (dernière
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailInitiation à l analyse en composantes principales
Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.
Plus en détailContexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailFormations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS
Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES
Plus en détailSolutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision
Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous
Plus en détailCALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING
CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détailIntroduction au Data Mining et à l apprentissage statistique
Introduction au Data Mining et à l apprentissage statistique Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC, CNAM, 292 rue Saint Martin, F-75003 Paris gilbert.saporta@cnam.fr http://cedric.cnam.fr/~saporta
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Plus en détailCalcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane
Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane Poteaux Adrien XLIM-DMI, UMR-CNRS 6172 Université de Limoges Soutenance de thèse 15 octobre
Plus en détailFormation continue. Ensae-Ensai Formation Continue (Cepe)
CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailExercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par
Plus en détailLe Big Data : Aspects théoriques et pratiques
Le Big Data : Aspects théoriques et pratiques Stéphane TUFFERY II èmes Rencontres STAT. à l UBS 21 novembre 2014 21/11/2014 Big Data IIe Rencontres STAT. à l UBS S.Tufféry 1 Plan Le Big Data Méthodes statistiques
Plus en détailCours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Plus en détailPREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailSoutenance de stage Laboratoire des Signaux et Systèmes
Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud
Plus en détailQue fait SAS Enterprise Miner?
Développez une connaissance plus précise avec un processus data mining plus productif La transformation de données brutes en informations utiles reste une problématique pour les entreprises. Pour apporter
Plus en détailIntroduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
Plus en détailSélection de Caractéristiques pour le Filtrage de Spams
Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. k_menghour@yahoo.fr, souici_labiba@yahoo.fr
Plus en détailExemple PLS avec SAS
Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailComplet Intuitif Efficace. Références
Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute
Plus en détailCAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Plus en détailPhilippe BESSE*, Hélène MILHEM*, Olivier MESTRE*,**, Anne DUFOUR***, Vincent-Henri PEUCH*** Résumé
Comparaison de techniques de «Data Mining» pour lʼadaptation statistique des prévisions dʼozone du modèle de chimie-transport MOCAGE A comparison of Data Mining techniques for the statistical adaptation
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailCommande Prédictive des. Convertisseurs Statiques
Commande Prédictive des Convertisseurs Statiques 1 Classification des méthodes de commande pour les convertisseurs statiques Commande des convertisseurs Hystérésis MLI Cde Linéaire Fuzzy Logic Sliding
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailMasters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»
Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :
Plus en détailIntérêt du découpage en sous-bandes pour l analyse spectrale
Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,
Plus en détailIBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailTests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
Plus en détailK. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau
Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailLaboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailTransmission d informations sur le réseau électrique
Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailTable des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détail1 Imputation par la moyenne
Introduction au data mining L3 MIS - STA 1616-2010 V. Monbet Données manquantes L'objectif de ce TD est de manipuler et de comparer plusieurs méthodes d'imputation de données manquantes. La première partie
Plus en détailchapitre 4 Nombres de Catalan
chapitre 4 Nombres de Catalan I Dénitions Dénition 1 La suite de Catalan (C n ) n est la suite dénie par C 0 = 1 et, pour tout n N, C n+1 = C k C n k. Exemple 2 On trouve rapidement C 0 = 1, C 1 = 1, C
Plus en détailUNIVERSITÉ DE STRASBOURG ÉCOLE DOCTORALE DES SCIENCES CHIMIQUES UMR 7177 THÈSE. présentée par. Ioana OPRISIU. soutenue le : 28 mars 2012
UNIVERSITÉ DE STRASBOURG ÉCOLE DOCTORALE DES SCIENCES CHIMIQUES UMR 7177 THÈSE présentée par Ioana OPRISIU soutenue le : 28 mars 2012 pour obtenir le grade de Docteur de l université de Strasbourg Discipline
Plus en détailDétection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.
Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air. Michel Bobbia 1 & Michel Misiti 2 & Yves Misiti 2 & Jean-Michel Poggi 3 & Bruno Portier 4 1 Air Normand,
Plus en détailCommunications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes
Loris MARCHAL Laboratoire de l Informatique du Parallélisme Équipe Graal Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes Thèse réalisée sous la direction
Plus en détailExercice 3 du cours Management Bancaire : «Risque de crédit et scoring»
Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring» Ce cas a pour objectif d étudier le risque de crédit d une entreprise à l aide de la méthode du scoring. Cette méthode statistique
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailNouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires
Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires Julien Jorge julien.jorge@univ-nantes.fr Laboratoire d Informatique de Nantes Atlantique,
Plus en détail