Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées.
|
|
|
- Augustin Pierre
- il y a 10 ans
- Total affichages :
Transcription
1 Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées. Baptiste Gregorutti 12, Bertrand Michel 2 & Philippe Saint Pierre 2 1 Safety Line 15 rue Jean-Baptiste Berlier, Paris, France 2 LSTA, Université Pierre et Marie Curie - Paris VI Boîte 158, Tour 15-25, 2ème étage 4 place Jussieu, Paris Cedex 05, France [email protected] Résumé. Dans cet article, nous étudions la sélection de groupes de variables avec les forêts aléatoires. Dans un premier temps, nous introduisons une nouvelle mesure d importance pour des groupes de variables. Nous étudions théoriquement cette mesure pour un modèle de régression additive. Nous montrons en particulier qu en toute généralité, l importance d un groupe ne peut s écrire comme la somme des importances individuelles des variables le composant. Dans une seconde partie, nous présentons une approche originale de sélection de variables en analyse de données fonctionnelles. En particulier, lorsque l on observe un grand nombre de covariables à valeurs dans un espace de fonctions, chacune de ces variables peut être vue comme le groupe formé par ses coefficients de base (ondelettes, ACP fonctionnelle, etc.). Nous proposons donc d utiliser l importance groupée et un algorithme pas-à-pas pour sélectionner les covariables fonctionnelles. Cette méthode est appliquée au problème de l analyse des données des enregistreurs de vol pour la prédiction des risques opérationnels en aéronautique. Mots-clés. Forêts aléatoires, Importance des variables, Sélection de variables groupées, Analyse des données fonctionnelles Abstract. In this paper, we study the selection of grouped variables using the random forests algorithm. We first propose a new importance measure adapted for groups of variables. Theoretical insights of this criterion are given for additive regression models. The second contribution of this paper is an original method for selecting functional variables based on the grouped variable importance measure. When we observe a large number of functional variables, we propose to regroup all of the basis coefficients (wavelet, functional PCA, etc.) and use a wrapper selection algorithm with these groups. The method is applied to a real life problem coming from aviation safety. Keywords. Random Forests, Variable Importance, Grouped variable Selection, Functional data analysis 1
2 1 Introduction Dans un contexte d apprentissage en grande dimension, toutes les variables explicatives ne sont pas nécessairement importantes pour la prédiction de la variable d intérêt. En effet, les variables non informatives peuvent avoir un effet néfaste sur la précision du modèle. Les techniques de sélection de variables fournissent une réponse naturelle à ce problème en éliminant les covariables qui n apportent pas assez d informations prédictives au modèle. La réduction du nombre de variables explicatives présente un double avantage. D une part, un modèle contenant peu de variables est plus interprétable. D autre part, l erreur de prédiction se trouve réduite de fait de la suppression de variables non informatives. Dans notre article Gregorutti et al [2], nous nous plaçons dans le contexte où les variables explicatives sont structurées en groupes de variables. Ce contexte statistique est motivé par des considérations pratiques. En effet, le choix de regrouper certaines variables est conduit par l a priori que le statisticien a sur les données. Par exemple, il peut être pertinent de regrouper des variables corrélées ou des variables ayant des caractéristiques physiques communes. Si la sélection de variables groupées a largement été étudiée dans le cas du modèle linéaire, notamment la méthode Group Lasso (Yuan, Lin [4]), ce problème n a pas été considéré dans le cas des forêts aléatoires (Breiman [1]). Cet algorithme non paramétrique présente d excellentes performances en pratique et peut être utilisé dans un contexte de sélection de variables au moyen de mesures d importance. Intégrées à des algorithmes pas-à-pas, les forêts aléatoires sont une alternative non linéaire aux méthodes de type Lasso. Les contributions de ce travail sont doubles. Dans un premier temps, nous définissons une nouvelle mesure d importance pour des groupes de variables basée sur le même principe que l importance par permutation définie par Breiman [1]. Une étude théorique de ce critère permet de montrer qu en toute généralité, l importance d un groupe ne peut s écrire comme la somme des importances individuelles des variables le composant. La seconde contribution de ce travail est une nouvelle approche de l analyse des données fonctionnelles (Ramsay, Silverman [3]) où l on observe plusieurs covariables à valeurs dans un espace de fonctions. Une démarche classique dans ce contexte est de projeter chaque variable fonctionnelle sur un sous-espace de dimension finie engendré par une base de fonctions. Par exemple les bases de splines, d ondelettes où d ACP fonctionnelles sont classiquement utilisées dans la littérature (voir par exemple Ramsay, Silverman [3]). Notre approche vise à utiliser la mesure d importance groupée dans ce contexte. En effet, chaque variable fonctionnelle est vue comme un groupe formé par ses coefficients de base. Nous sommes donc en mesure de proposer une procédure de sélection de variables fonctionnelles. 2
3 2 Mesure d importance groupée avec les forêts aléatoires On considère une variable d intérêt Y à valeur dans R et un vecteur aléatoire X = (X 1,..., X p ). La régression vise à estimer la fonction f(x) = E[Y X = x] à partir d un échantillon d apprentissage D n = {(X 1, Y 1 ),..., (X n, Y n )} de n vecteurs aléatoires indépendants et de même loi que (X, Y ) où X i = (X i1,..., X ip ). L erreur commise par un estimateur ˆf est alors R( ˆf) = E [( ˆf(X) ] Y ) 2. Cette quantité étant inconnue en pratique, nous en considérons un estimateur empirique basé un échantillon de validation D : ˆR( ˆf, D) = 1 D i:(x i,y i ) D (Y i ˆf(X i )) 2. Les forêts aléatoires sont une méthode non paramétrique très compétitive pour l estimation de f. Introduites par Breiman en 2001, elles consistent en l agrégation d un grand nombre d arbres aléatoires basés sur une partition dyadique et récursive de l espace des observations, ici R p. Plus précisément, M arbres aléatoires sont construits à partir d échantillons bootstrap Dn, 1..., Dn M des données d apprentissage D n. En conséquence, une collection d estimateurs ˆf 1,..., ˆf M de f est considérée. Une différence majeure dans la construction des arbres constituant la forêt par rapport aux algorithmes initiaux est la suivante : le critère de découpe intervenant dans le partitionnement est optimisé sur un faible nombre de variables choisi aléatoirement. L estimateur final de la forêt est alors défini comme la prédiction moyenne de chaque arbre ainsi randomisé. L aléa induit par l échantillonnage bootstrap ainsi que le choix aléatoire des variables à chaque étape du partitionnement permet à l estimateur agrégé de la forêt d être meilleur que les arbres pris individuellement. L algorithme des forêts aléatoires propose également des critères permettant d évaluer l importance des covariables sur la prédiction de Y. Nous considérons ici la mesure d importance par permutation due à Breiman [1]. Une variable X j est considérée comme importante pour la prédiction de Y si en brisant le lien entre X j et Y, l erreur de prédiction augmente. Pour briser le lien entre X j et Y, Breiman propose de permuter aléatoirement les valeurs de X j. Plus formellement, considérons une collection d ensembles out-of-bag (OOB) { D n m = D n \ Dn m, m = 1,..., M} contenant les observations non retenues dans les échantillons bootstrap. Ces ensembles seront utilisés pour calculer l erreur de chaque arbre ˆf m. À partir de ces ensembles, définissons les ensembles out-of-bag permutés mj { D n, m = 1,..., M} en permutant les valeurs de la j-ème variable des échantillons out-of-bag. La mesure d importance par permutation est alors définie par Î(X j ) = 1 M M [ ˆR( ˆf m, m=1 ] mj D n ) ˆR( ˆf m, D n m ). (1) 3
4 Cette quantité est l équivalent empirique de la mesure d importance I(X j ) comme l ont formulé récemment Zhu et al. [5] : I(X j ) = E [ (Y f(x(j) ) ) 2 ] E [ (Y f(x)) 2], (2) où X (j) = (X 1,..., X j,..., X p ) est un vecteur aléatoire tel que X j est une réplication indépendante de X j. La permutation de X j dans la définition de Î(X j) revient donc à remplacer X j par une variable indépendante et de même loi dans (2). Dans ce travail, nous supposons que l ensemble des variables (X 1,..., X p ) est structuré en K groupes. Plus formellement, soit J = (j 1,..., j k ) un vecteur de k indices de {1,..., p} et X J = (X j1,..., X jk ) le sous-vecteur de X associé. L importance du groupe X J est définie par Î(X J ) = 1 M [ ] ˆR( M ˆf mj m, D n ) ˆR( ˆf m, D n m ). m=1 D mj n À la différence du critère (1), l ensemble représente l ensemble OOB dans lequel les valeurs du groupe J sont aléatoirement permutées. L importance théorique est alors donnée par : I(X J ) = E [ Y f(x (J) ) ] 2 [ ] 2, E Y f(x) (3) où X (J) = (X 1,..., X j 1, X j1 +1,..., X j 2, X j2 +1,..., X j k, X jk +1,..., X p ) est tel que X J = (X j 1, X j 2,..., X j k ) est un réplication indépendante de X J. Dans la suite de cette Section, nous donnons des éléments théoriques du critère (3) pour l importance du groupe X (J). Notons tout d abord X J, le vecteur des variables n appartenant pas à X (J). Supposons que la distribution du vecteur (X, Y ) satisfait le modèle de régression Y = f(x) + ε = f J (X J ) + f J(X J) + ε, (4) où f J et f J sont deux fonctions mesurables, et ε est une variable aléatoire telle que E[ε X] = 0 et E[ε 2 X] est finie. Proposition 1. Sous le modèle (4), l importance du groupe J s écrit I(X J ) = 2 Var [f J (X J )]. Le corolaire suivant donne l importance groupée pour des modèles plus spécifiques. Corollary 1. Sous le modèle (4), 4
5 1. Si f J (x J ) = j J f j(x j ) et si (X j ) j J sont indépendantes, alors I(X J ) = 2 Var (f j (X j )) = I (X j ). j J j J 2. Si f J (x J ) = j J α jx j, alors I(X J ) = 2α J Cov(X J )α J, α J = (α j ) j J. Ce résultat montre que sous l hypothèse d additivité de la fonction de régression et si les variables du groupe sont indépendantes, alors l importance groupée se décompose en la somme des importances individuelles. Comme le montre le Point 2 du Corolaire, cette propriété est perdue dès que les variables sont corrélées. Dans Gregorutti et al [2], nous comparons numériquement l importance groupée aux importances individuelles pour plusieurs modèles. Ces simulations suggèrent qu en toute généralité, l importance groupée peut difficilement s écrire comme la somme des importances individuelles. 3 Application à l analyse des données fonctionnelles multivariées Dans cette Section, nous présentons une approche originale de l analyse des données fonctionnelles basée sur la mesure d importance groupée définie précédemment. En particulier, nous considérons le problème de la sélection de variables de p covariables fonctionnelles pour la prédiction d une variable aléatoire réelle Y. Supposons observer p variables aléatoires X 1,..., X p à valeurs dans l espace L 2 ([0, 1]) muni du produit scalaire f, g L 2 = f(t)g(t)dt, pour f, g L 2 ([0, 1]). Une approche naturelle consiste à projeter chaque variable fonctionnelle sur un sousespace de L 2 ([0, 1]) de dimension finie, c est-à-dire X u (t) = X u, ϕ k L 2ϕ k (t), k=1 d u k=1 X u, ϕ k L 2ϕ k (t), où {ϕ 1, ϕ 2,...} est une base de fonctions orthogonales. Il s agit ensuite de considérer les coefficients de base X u, ϕ 1 L 2,..., X u, ϕ du L 2 comme nouvelles variables explicatives 5
6 dans un algorithme d apprentissage. Ces variables aléatoires réelles résument l information portée par X u dans le sous-espace de L 2 ([0, 1]) de dimension d u. Dans Gregorutti et al [2], nous étudions le cas des bases d ondelettes. Dans ce contexte, sélectionner les variables fonctionnelles X 1,..., X p revient à sélectionner les groupes formés par leurs coefficients de base. Nous proposons alors l algorithme de sélection pas-à-pas suivant : 1. Projeter chaque variable fonctionnelle sur un sous-espace de dimension finie ; 2. Construire une forêt et calculer l erreur ; 3. Calculer l importance groupée pour chaque variable fonctionnelle ; 4. Éliminer la variable fonctionnelle la moins importante ; 5. Répéter 2 à 4 tant qu il reste des variables disponibles. Cet algorithme élimine récursivement les variables fonctionnelles les moins importantes (au sens du critère d importance groupée) et sélectionne celles qui minimisent l erreur de prédiction évaluée à l étape 2. Cette procédure est appliquée au problème de l analyse des données des enregistreurs de vol pour la prédiction des risques opérationnels en aéronautique. Nous avons accès à un grand nombre de données enregistrées chaque seconde et ce durant tout le vol. L analyse des données de vol constitue un réel défi pour les compagnies aériennes. Cela leur permet in fine d avoir des mesures objectives du niveau de risque et donc de garantir un niveau de sécurité élevé. Nous analysons ainsi ces données fonctionnelles multivariées pour prédire le risque d atterrissage long, risque auquel les compagnies aériennes sont fréquemment confrontées. Bibliographie [1] Breiman, L. (2001), Random Forests, Machine Learning, Vol. 45, pp [2] Gregorutti, B., Michel, B. and Saint Pierre, P. (2014) Grouped variable importance with random forests and application to multivariate functional data analysis, arxiv : [3] Ramsay, J. and Silverman, B. W. (2005), Functional data analysis, Springer Series in Statistics, Springer. [4] Yuan, M. and Lin, Y. (2006). Model selection and estimation in regression with grouped variables, Journal of the Royal Statistical Society, Series B 68 : [5] Zhu, R., Zeng, D. and Kosorok, M. R. (2012), Reinforcement learning trees, The University of North Carolina at Chapel Hill Department of Biostatistics Technical Report Series. 6
Principe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université
Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,[email protected]
Modélisation géostatistique des débits le long des cours d eau.
Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des
Apprentissage non paramétrique en régression
1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus
Méthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Filtrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage
Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Journées de Méthodologie Statistique Eric Lesage Crest-Ensai 25 janvier 2012 Introduction et contexte 2/27 1 Introduction
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,
Etude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
BIG Data et R: opportunités et perspectives
BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, [email protected] 2 Ecole des Sciences Géomatiques, IAV Rabat,
Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.
Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes. Benjamin Auder 1 & Jairo Cugliari 2 1 Laboratoire LMO. Université Paris-Sud. Bât 425. 91405 Orsay Cedex, France. [email protected]
Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale
Projet de thèse Intitulé de la thèse Détection automatisée de signaux en pharmacovigilance : Exploitation conjointe de données de notifications spontanées et médico- administratives. Spécialité du doctorat
NON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678
Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées
Le modèle de régression linéaire
Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L économétrie traite de la construction de modèles. Le premier point de l analyse consiste à se poser la question : «Quel est le modèle?». Le
3. Conditionnement P (B)
Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte
Corps des nombres complexes, J Paul Tsasa
Corps des nombres complexes, J Paul Tsasa One Pager Février 2013 Vol. 5 Num. 011 Copyright Laréq 2013 http://www.lareq.com Corps des Nombres Complexes Définitions, Règles de Calcul et Théorèmes «Les idiots
Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.
Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air. Michel Bobbia 1 & Michel Misiti 2 & Yves Misiti 2 & Jean-Michel Poggi 3 & Bruno Portier 4 1 Air Normand,
Évaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux [email protected] www.pressesagro.be
Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique
Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique Denis Brazey & Bruno Portier 2 Société Prynɛl, RD974 290 Corpeau, France [email protected] 2 Normandie Université,
La méthode de régression par discontinuité et l évaluation des politiques de l emploi
La méthode de régression par discontinuité et l évaluation des politiques de l emploi Thomas Lemieux University of British Columbia Le 24 novembre 2009 Plan de la présentation La méthode de régression
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux
Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
Objets Combinatoires élementaires
Objets Combinatoires élementaires 0-0 Permutations Arrangements Permutations pour un multi-ensemble mots sous-ensemble à k éléments (Problème du choix) Compositions LE2I 04 1 Permutations Supposons que
TABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
MAP 553 Apprentissage statistique
MAP 553 Apprentissage statistique Université Paris Sud et Ecole Polytechnique http://www.cmap.polytechnique.fr/~giraud/map553/map553.html PC1 1/39 Apprentissage? 2/39 Apprentissage? L apprentissage au
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Programmation linéaire et Optimisation. Didier Smets
Programmation linéaire et Optimisation Didier Smets Chapitre 1 Un problème d optimisation linéaire en dimension 2 On considère le cas d un fabricant d automobiles qui propose deux modèles à la vente, des
Data issues in species monitoring: where are the traps?
Data issues in species monitoring: where are the traps? French breeding bird monitoring : Animations locales : - dealing with heterogenous data - working with multi-species multi-sites monitoring schemes
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES [email protected] 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun
Résolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION
REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE
INTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Mesure et gestion des risques d assurance
Mesure et gestion des risques d assurance Analyse critique des futurs référentiels prudentiel et d information financière Congrès annuel de l Institut des Actuaires 26 juin 2008 Pierre THEROND [email protected]
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Chapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Enjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, [email protected] Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Probabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Christophe SANNIER [email protected]
Systèmes d Information à Référence Spatiale Utilisation d un Estimateur de Régression avec des Données Landsat pour l Estimation de l Etendu et des Changements du Couvert Forestier du Gabon de 1990 à 2010
Exemple PLS avec SAS
Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Calcul différentiel sur R n Première partie
Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité
Item 169 : Évaluation thérapeutique et niveau de preuve
Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes
TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897
Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes
Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes Baradat P. INRA-Département EFPA UMR AMAP 34398 Montpellier Cedex 5 FRANCE [email protected] Labbé T. INRA-Département
Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions
Formes quadratiques Imen BHOURI 1 Ce cours s adresse aux étudiants de niveau deuxième année de Licence et à ceux qui préparent le capes. Il combine d une façon indissociable l étude des concepts bilinéaires
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Arbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Introduction à la statistique non paramétrique
Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non
STATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
3 Approximation de solutions d équations
3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle
Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Echantillonnage Non uniforme
Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas
Le produit semi-direct
Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.
Une méthode d apprentissage pour la composition de services web
Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia [email protected],
Cours 02 : Problème général de la programmation linéaire
Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =
PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?
PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS? Pierre Baumann, Michel Émery Résumé : Comment une propriété évidente visuellement en dimensions deux et trois s étend-elle aux autres dimensions? Voici une
Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011
Non-réponse et données manquantes Sylvie Rousseau & Gilbert Saporta décembre 2011 1 EXEMPLES DE TAUX DE RÉPONSE À CERTAINES ENQUÊTES Pour les enquêtes auprès des entreprises, le taux de non-réponse est
La survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Modélisation et simulation
Modélisation et simulation p. 1/36 Modélisation et simulation INFO-F-305 Gianluca Bontempi Département d Informatique Boulevard de Triomphe - CP 212 http://www.ulb.ac.be/di Modélisation et simulation p.
Intérêt du découpage en sous-bandes pour l analyse spectrale
Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,
Table des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Le Modèle Linéaire par l exemple :
Publications du Laboratoire de Statistique et Probabilités Le Modèle Linéaire par l exemple : Régression, Analyse de la Variance,... Jean-Marc Azaïs et Jean-Marc Bardet Laboratoire de Statistique et Probabilités
Plan du cours : Zippers. Des fonctions sur les listes avec position. Des fonctions sur les listes avec position
Plan du cours : Le problème : naviguer efficacement une structure de données Ce qui ne marche pas Ce qui marche : les de Huet Exemples Comment dériver des pour tout type de données Pour en savoir plus
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi
e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi Julie Séguéla 1, 2, Gilbert Saporta 1, Stéphane Le Viet 2 1 Laboratoire Cédric CNAM 292 rue Saint Martin 75141 Paris
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons
L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011
L approche de régression par discontinuité Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011 Plan de la présentation L approche de régression par discontinuité (RD) Historique
Allocation Robuste et Restrictions sur les Contributions au Risque
Allocation Robuste et Restrictions sur les Contributions au Risque QuantValley/QMI Workshop, Geneve, 26 Septembre, 2013 http://ssrn.com/abstract=2192399 1/33 Les contributions du papier: Nous définissons
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion [email protected],
Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux
Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux Damien Stehlé LIP CNRS/ENSL/INRIA/UCBL/U. Lyon Perpignan, Février 2011 Damien Stehlé Problèmes arithmétiques issus de la cryptographie
Optimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Théorèmes de Point Fixe et Applications 1
Théorèmes de Point Fixe et Applications 1 Victor Ginsburgh Université Libre de Bruxelles et CORE, Louvain-la-Neuve Janvier 1999 Published in C. Jessua, C. Labrousse et D. Vitry, eds., Dictionnaire des
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
LECTURE CRITIQUE 1 ER PAS
1 LECTURE CRITIQUE D UN ARTICLE SCIENTIFIQUE 1 ER PAS FORUM PCI 20,05,14 MJ Thévenin / Inf. EPIAS/ SMPH BUTS ET ORGANISATION DE LA PRÉSENTATION Utiliser une grille de lecture critique d un article Comprendre
Entreposage de données complexes pour la médecine d anticipation personnalisée
Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée
CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle
CHAPITRE I Modélisation de processus et estimation des paramètres d un modèle I. INTRODUCTION. Dans la première partie de ce chapitre, nous rappelons les notions de processus et de modèle, ainsi que divers
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
