Package CAPUSHE pour le logiciel R

Documents pareils

Etude des propriétés empiriques du lasso par simulations

Principe de symétrisation pour la construction d un test adaptatif

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Francisco José Silva Álvarez

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

High Performance by Exploiting Information Locality through Reverse Computing. Mouad Bahi

FIMA, 7 juillet 2005

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Élue Correspondant le 25 avril 1994, puis Membre le 30 novembre 2004 dans la section Sciences mécaniques et informatiques

Curriculum Vitæ. Tél: Page web: Né le 2 mars 1983 Nationalité Française

Introduction à la Statistique Inférentielle

CURRICULUM VITAE Anne de Bouard

Cours d introduction à la théorie de la détection

Apprentissage Automatique

MCMC et approximations en champ moyen pour les modèles de Markov

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Professeur de Mathématiques à l Université de Toulouse 1 depuis septembre 2000.

Méthodes de Simulation

Filtrage stochastique non linéaire par la théorie de représentation des martingales

0 h(s)ds et h [t = 1 [t, [ h, t IR +. Φ L 2 (IR + ) Φ sur U par

Quantification Scalaire et Prédictive

Echantillonnage Non uniforme

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Théorie des sondages : cours 5

Mesure et gestion des risques d assurance

Jean-Baptiste AUBIN Maître de Conférence en Statistique

Alexis PARMENTIER Assistant de recherches (post-doctorat) au département d économie de l Université Catholique de Louvain (Belgique).

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

POURQUOI LA LOI DE BENFORD N EST PAS MYSTÉRIEUSE

4.2 Unités d enseignement du M1

Économetrie non paramétrique I. Estimation d une densité

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Charles BOUVEYRON. Docteur en Mathématiques appliquées Maître de Conférences (section CNU 26) Université Paris 1 Panthéon-Sorbonne

Né le 13/06/1984 Russe Célibataire Langues : Russe, Anglais,

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Tests exacts d indépendance sérielle dans les cas de distributions continues et discrètes

Probabilités III Introduction à l évaluation d options

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Finance, Navier-Stokes, et la calibration

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Sauvegarde collaborative en pair-à-pair

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

Modélisation du comportement habituel de la personne en smarthome

Introduction à la statistique non paramétrique

OPTIMISATION À UNE VARIABLE

Incertitude financière, mesures de risque et préférences robustes

CURRICULUM VITAE Johanna Etner. Situation actuelle. Situations antérieures. Activité administrative

On ne peut pas entendre la forme d un tambour

Curriculum Vitae. 1. Formation

Intérêt du découpage en sous-bandes pour l analyse spectrale

Fonctions de plusieurs variables

Emploi du temps prévisionnel

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Expérience 3 Formats de signalisation binaire

Classification non supervisée

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

L INRIA, institut français des STIC. (en Île-de-France) 24 septembre 2009

de calibration Master 2: Calibration de modèles: présentation et simulation d

MABioVis. Bio-informatique et la

Validation probabiliste d un Système de Prévision d Ensemble

PLAN DE COURS. GPA750 Ordonnancement des systèmes de production aéronautique

Apprentissage par renforcement (1a/3)

Le montant des garanties constituées aux fins du STPGV est-il excessif?

Travail en collaboration avec F.Roueff M.S.Taqqu C.Tudor

Gestion obligataire passive

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

ENSPS 3A ISAV Master ISTI AR. J. Gangloff

Christian BONTEMPS né le 08 juillet 1969

Freddy Huet. Adresse professionnelle : Adresse personnelle :

Dr. Prosper Bernard Tel: // portable

Publications de Stéphane Jaffard

Majeures et mineures

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

Introduction à l approche bootstrap

Allocation Robuste et Restrictions sur les Contributions au Risque

Mesure agnostique de la qualité des images.

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Évaluation de la régression bornée

CLIQUEZ ET MODIFIEZ LE TITRE

Cours de méthodes de scoring

Cours de Tests paramétriques

Algorithmes d'apprentissage

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Optimisation des canalisations électriques et des armoires de distribution

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

NON-LINEARITE ET RESEAUX NEURONAUX

Processus de comptage, Poisson mélange, fonction de perte exponentielle, système bonus-malus.

Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions.

Précision d un résultat et calculs d incertitudes

CURRICULUM VITAE. Célibataire

Prédiction et Big data

Produits de crédit en portefeuille

Théorie de l estimation et de la décision statistique

Contributions aux méthodes d estimation en aveugle

Évaluation et optimisation de requêtes

Transcription:

1 / 46 Package CAPUSHE pour le logiciel R Vincent Brault (1,2) & Jean-Patrick Baudry (3) & Cathy Maugis-Rabusseau (4) & Bertrand Michel (3) 1 Université Paris-Sud 11 2 INRIA Saclay Île de France Projet SELECT 3 LSTA Paris 6 4 Institut de Mathématiques de Toulouse http://www.math.univ-toulouse.fr/ maugis/capushe.html 1 er juillet 2012

2 / 46 Introduction Cadre : Sélection de modèle par minimisation d un critère pénalisé. Hypothèse : La pénalité est connue à une constante près. Objectif : Capushe permet de calibrer cette dernière.

3 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe

4 / 46 Introduction

5 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe

6 / 46 n-échantillon X 1,..., X n de X Paramètre d intérêt s S Fonction de contraste γ : S X R telle que Exemple : n = 1000 et X = R 3 s argmin t S s la densité de l échantillon γ(s, X) = log s(x) E X [γ(t, X)]

7 / 46 Contraste empirique t S, γ n (t) = 1 n Exemple : n γ(t, X i ) i=1 ( n ) γ n (s m ) = log s(x i ; θ) = i=1 n log s(x i ; θ) i=1

8 / 46 Famille de modèles (S m ) m M de complexité respective C m. Estimateur ŝ m de s dans S m : Exemple : ŝ m argmin t S m γ n (t). S m ensemble des mélanges sphériques avec m composantes. X m ) p i N (µ i, σi 2 I 3 i=1 C m = 4m + (m 1) nombre de paramètres libres de tout mélange de S m [ γ n (s m ) = 1 n m ( )] log p i (2π) 3/2 σ 3 n i exp 1 2σi 2 X i µ i 2 2 i=1 i=1

9 / 46 Modèle oracle : m argmin m M où l (s, t) = E X [γ(t, X)] E X [γ(s, X)] l est la divergence de Kullback-Leibler E X [ l ( s, ŝm )]

10 / 46 Modèle oracle : m argmin m M où l (s, t) = E X [γ(t, X)] E X [γ(s, X)] l est la divergence de Kullback-Leibler E X [ l ( s, ŝm )] crit(m) = γ n (ŝ m )

11 / 46 Modèle oracle : m argmin m M où l (s, t) = E X [γ(t, X)] E X [γ(s, X)] l est la divergence de Kullback-Leibler E X [ l ( s, ŝm )] Fonction de pénalité pen : M R + telle que le modèle m minimisant le critère pénalisé associé crit(m) = γ n (ŝ m ) + pen(m) ait un risque E X [ l(s, ŝ m ) ] proche de celui de l oracle.

12 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe

13 / 46 Pénalité optimale argmin m M La pénalité idéale serait : crit opt (m) = argmin m M l(s, ŝ m ) crit opt (m) = l(s, ŝ m ) γ n (ŝ m ) + pen opt (m) = l(s, ŝ m ) pen opt (m) = l(s, ŝ m ) γ n (ŝ m )

14 / 46 Pénalité optimale pen opt (m) = l(s, ŝ m ) γ n (ŝ m ) = (E X [γ(ŝ m, X)] E X [γ(s m, X)]) } {{ } =v m + (E X [γ(s m, X)] E X [γ(s, X)]) + (γ n (s m ) γ (ŝ m )) } {{ } = v m (γ n (s m ) γ n (s)) γ n (s) = v m + v m + n (s m ) γ n (s)

15 / 46 Heuristique de pente [SH1] pen κ = κ v m crit κ (m) = γ n (ŝ m ) + κ v m = γ n (ŝ m ) + κ ( γ n (s m ) γ ( ŝ m )) = (1 κ)γ n (ŝ m ) + κγ n (s m ) Birgé et Massart (2006) : pen min (m) v m

Heuristique de pente [SH2] v m v m n (s m ) 0 Nous obtenons : pen opt (m) = v m + v m + n (s m ) v m + v m 2 pen min (m) 16 / 46

17 / 46 Forme de la pénalité pen shape La pénalité à calibrer est de la forme pen shape (m) = κˆv m pen min (m) = κ min pen shape (m) Pour les mélanges gaussiens : pen shape (m) = C m

18 / 46 Données

19 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe

20 / 46 DDSE pen min (m) ˆv m γ n (s m ) γ n (ŝ m ) γ n (s m ) γ n (s) + γ n (s) γ n (ŝ m ) E X [l(s, s m )] + γ n (s) γ n (ŝ m )

21 / 46 Plot γ n (ŝ m ) γ n (s) E X [l(s, s m )] κ min pen shape (m)

22 / 46 Commande

23 / 46 Commande

24 / 46 Commande

25 / 46 Validation

26 / 46 Validation

27 / 46 Validation

28 / 46 Validation

29 / 46 Validation

30 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe

31 / 46 Djump C m(κ) la complexité du modèle minimisant le critère crit κ ( ) κ C m(κ) doit faire un saut au voisinage du κ min

32 / 46 C tresh

33 / 46 C tresh

34 / 46 C AreaJump

35 / 46 C AreaJump

36 / 46 Commande

37 / 46 Commande

38 / 46 Commande

39 / 46 Plan 1 Théorie 2 Heuristique de pente 3 DDSE 4 Djump 5 Capushe

40 / 46 Commande

41 / 46 Commande

42 / 46 Commande

43 / 46 Plot

44 / 46 Plot

45 / 46

46 / 46 Birgé, L. et Massart, P. (2001). Gaussian model selection. Journal of the European Mathematical Society, 3(3) :203-268. Birgé, L. et Massart, P. (2006). Minimal penalties for Gaussian model selection. Probability Theory and Related Fields, 138(1-2) :33-73. Lebarbier, E. (2005). Detecting multiple change-points in the mean of Gaussian process by model selection. Signal Processing, 85(4) :717-736. Massart, P. (2007). Concentration Inequalities and Model Selection. École d été de Probabilités de Saint-Flour 2003. Lecture Notes in Mathematics. Springer. Maugis, C. et Michel, B. (2011). A non asymptotic penalized criterion for Gaussian mixture model selection. ESAIM : P & S, 15, p 41-68. Baudry, J.-P., Maugis, C. and Michel, B. (2011) Slope Heuristics : Overview and Implementation. Statistics and Computing, 22(2), 455-470.