Validation croisée et modèles statistiques



Documents pareils
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Principe de symétrisation pour la construction d un test adaptatif

FIMA, 7 juillet 2005

Probabilités sur un univers fini

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Économetrie non paramétrique I. Estimation d une densité

MAP 553 Apprentissage statistique

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

La mesure de Lebesgue sur la droite réelle

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Probabilités sur un univers fini

Introduction au Data-Mining

Moments des variables aléatoires réelles

NON-LINEARITE ET RESEAUX NEURONAUX

Méthodes d apprentissage statistique «Machine Learning»

INF6304 Interfaces Intelligentes

Résolution de systèmes linéaires par des méthodes directes

Image d un intervalle par une fonction continue

Chapitre 3 : INFERENCE

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Etude des propriétés empiriques du lasso par simulations

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Introduction à la statistique non paramétrique

Texte Agrégation limitée par diffusion interne

La classification automatique de données quantitatives

Amphi 3: Espaces complets - Applications linéaires continues

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Introduction au Data-Mining

Apprentissage statistique dans les graphes et les réseaux sociaux

Théorie des sondages : cours 5

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Précision d un résultat et calculs d incertitudes

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Introduction à la Statistique Inférentielle

Objets Combinatoires élementaires

Introduction au Calcul des Probabilités

Intégration et probabilités TD1 Espaces mesurés Corrigé

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

CHAPITRE 5. Stratégies Mixtes

Chapitre 2 Le problème de l unicité des solutions

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Simulation de variables aléatoires

Modèles et Méthodes de Réservation

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Mesures gaussiennes et espaces de Fock

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Apprentissage non paramétrique en régression

PROBABILITES ET STATISTIQUE I&II

Exemple PLS avec SAS

4 Distributions particulières de probabilités

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Fibonacci et les paquerettes

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Le modèle de Black et Scholes

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Introduction à l approche bootstrap

Évaluation de la régression bornée

1 Complément sur la projection du nuage des individus

Chp. 4. Minimisation d une fonction d une variable

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Echantillonnage Non uniforme

Condition de stabilité d'un réseau de les d'attente à deux stations et N classes de clients 1

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

3 Approximation de solutions d équations

Suites numériques 3. 1 Convergence et limite d une suite

4. Martingales à temps discret

Intégrale de Lebesgue

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Chaînes de Markov au lycée

Introduction à l étude des Corps Finis

Gestion obligataire passive

3. Conditionnement P (B)

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Quantification Scalaire et Prédictive

Calcul différentiel. Chapitre Différentiabilité

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Programmation linéaire

CCP PSI Mathématiques 1 : un corrigé

Laboratoire d Automatique et Productique Université de Batna, Algérie

Cours de méthodes de scoring

PRIME D UNE OPTION D ACHAT OU DE VENTE

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Continuité en un point

Transcription:

Validation croisée et modèles statistiques appliqués Matthieu Cornec Université Paris X, Nanterre Thèse dirigée par le Professeur Patrice Bertail Le 4 Juin 2009

Plan Ch1 : ERM 1 Ch1 : ERM 2 3

Validation croisée : méthode très populaire depuis 40 ans au sein des practiciens pour estimer la performance d une méthode. 200000 citations sous Google Scholar. Mais, questions ouvertes : Est-ce que ça marche dans un cadre général? Faut-il découper en 2 ou en 10? Quand l estimateur de validation croisée est-il meilleur que l erreur de resubstitution? Remarque Validation croisée utilisée dans la résolution d un grand nombre de problèmes: la sélection de modèle, l adaptivité et l identification. Elle peut être vue comme une application particulière des méthodes dites de rééchantillonnage.

Principales méthodes de validation croisée leave-one-out cross-validation k-fold cross-validation Leave-υ-out cross-validation split-sample method

Apprentissage statistique : grands principes Définition (Prédicteur) φ : X Y, φ(x) = Ŷ Définition (Learning set) D n = (X i, Y i ) 1 i n X Y distribution inconnue P. i.i.d. variables aléatoires avec Définition (Learning algorithm) Φ : X n (X Y) n Y, Φ(X, D n ) = Ŷ

Fonction de perte Définition (Fonction de perte) L : Y 2 R + Exemple Pour la classification, L(y, ŷ) = 1(y ŷ). Pour les problèmes de régression, L(y, ŷ) = (y ŷ) 2.

Erreur de généralisation Définition (Erreur de généralisation) R n = R n (φ) : = E P [L(Y, φ(x, D n )) D n ] R(φ) : = E P [L(Y, φ(x))]

Erreur de resubstitution ou d apprentissage Définition (Erreur de resubstitution ou d apprentissage) R n := 1 n n i=1 L(Y i, φ(x i, D n )) Exemple L erreur de resubstitution pour le 1-plus proche voisin est toujours 0 quelque soit l erreur de généralisation.

Deux résultats importants Théorème (Inégalité d Hoeffding) Soient X 1,..., X n des variables aléatoires indépendantes dans [a i, b i ]. Alors pour tout ɛ > 0, P( X i E( X i ) nɛ) e 2ɛ 2 i (b i a i )2

Deux résultats importants Théorème (Inégalité de Vapnik-Chervonenkis) Soit C une classe de prédicteurs de dimension V C et L une fonction de perte bornée par 1. Alors pour tout ɛ > 0, P(sup( R n(φ) R(φ)) ɛ) c(n, V C )e ɛ 2 φ C 2σ(n) 2 avec c(n, V C ) = 2S(2n, C) 2(2n + 1) V C σ(n) 2 = 4 n et si n V C, 2S(2n, C) 2( 2ne V C ) V C et

Vecteurs de réechantillonnage Définition (Vecteur binaire) Soit (v n,i ) 1 i n un vecteur de réels de taille n. v n est un vecteur binaire si i, v n,i {0, 1} et si i v n,i 0. Définition (Sous échantillon) Soit D n = (X i, Y i ) 1 i n un learning set. Pour un vecteur binaire donné (v n,i ) 1 i n de taille n, nous définissons le sous-échantillon par : D vn := {(X i, Y i ) v n,i = 1, 1 i n} Définition (learning algorithm construit à partir d un sous-échantillon) Soit D n = (X i, Y i ) i un learning set. Pour un vecteur binaire (v n,i ) 1 i n de taille n, nous définissons un learning algorithm construite à partir du sous-échantillon : φ vn (.) := φ(., D vn )

Erreur de validation croisée Définition (Erreur empirique pondérée) Soit D n un learning set. Soit φ un prédicteur et L une fonction de perte. Pour un vecteur binaire donné (v n,i ) 1 i n de taille n, nous définissons une erreur empirique pondérée notée R vn (φ) associée à φ : R vn (φ) := 1 i v n,i n v n,i L(Y i, φ(x i )) i=1 Définition (Vecteur d apprentissage) Soit D n un learning set. Soit Vn tr un vecteur binaire aléatoire de taille n indépendant de D n, appelé vecteur d apprentissage. Nous notons Vn tr = 1n V tr n le vecteur de test.

Erreur de validation croisée Définition (Erreur de validation croisée) Soit D n un learning set. Soit φ n un learning algorithm et L une fonction de perte. Soit Vn tr un vecteur d apprentissage. Avec les notations précédentes, l erreur de validation croisée notée R CV (φ n ) est définie par : R CV (φ n ) := E V tr n R V ts (φ n Vn tr)

Exemples d utilisation des notations Exemple (leave-one-out cross-validation) Pr(V tr n Pr(V tr n = (0, 1,..., 1)) = 1 n = (1, 0, 1,..., 1)) = 1 n... Pr(V tr n = (1,..., 1, 0)) = 1 n.

Objectif de la première partie de la thèse est d obtenir dans un cadre général des inégalités du type : P( R CV R n ε) B(n, p n, ε) + V (n, p n, ε) avec p n pourcentage d observations dans le test set et où B(n, p n, ε) et V (n, p n, ε) peuvent s interpréter comme problème biais/variance. Remarque On aimerait en outre que que les bornes ne se détériorent pas avec le rééchantillonnage que les bornes discriminent la k fold validation croisée du split sample.

Trade-off biais/variance Trade off bias/variance in the estimation rate Probability bounds 0.0 0.2 0.4 0.6 0.8 1.0 Small test set Bias Variance estimation rate Large test set 0.0 0.2 0.4 0.6 0.8 1.0 Proportion of test set

Résumé des résultats sur la validation croisée leave-one-out hold-out k-fold ν-out resubsitution VC-algorithm Kearn, Holden Holden Holden Vapnik-Cher Hypothesis stability Devroye and W Devroye and W Error stability Kearn Kearn Uniform stability Bousquet and E. Partial stability Kutin and N Table: Bornes manquantes à trouver

Résultats de la thèse 1 Chapitre 1 : Minimisateur du risque empirique d une classe de VC-dimension finie. 2 Chapitre 2 : Algorithmes stables (k-plus proches voisins, adaboost, regularization networks). 3 Chapitre 3 : Amélioriation des bornes précédentes avec le Subagging.

Hypothèses Chapitre 1 1 le training set et le test set disjoints 2 nous supposons que les prédicteurs φn des minimiseurs du risque empirique de V C-dimension V C et L une fonction de perte bornée par 1. 3 le nombre d observations dans le training set et dans le test set sont respectivement n(1 p n ) and np n Notons ces hypothèses H.

Validation croisée avec de grands test sets Corollaire (Déviation absolue pour les grands échantillons) Supposons H. Alors, nous avons, pour tout ε > 0, avec Pr( R n R CV ε) B(n, p n, ε) + V (n, p n, ε), B(n, p n, ε) = 5(2n(1 p n) + 1) Vapnik-Chervonenkis 4V C 1 pn exp( nε2 25 ), une borne de type V (n, p n, ε) = exp( 2npnε2 ), une borne de type Hoeffding. 25

Validation croisée avec de petits ensembles de test Corollaire (Déviation absolue pour les petits échantillons ) Supposons H. Alors, nous avons pour tout ε > 0, Pr( R n R CV ε) B(n, p n, ε) + V (n, p n, ε), B(n, p n, ε) = 5(2n(1 p n) + 1) V (n, p n, ε) = 16 ε 4V C 1 pn exp( nε2 64 ) V C (ln(2n(1 p n) + 1) + 4). n(1 p n)

k-fold cross-validation Proposition (k-fold) Supposons H. Nous avons la borne suivante pour la k-fold cross-validation: P( R n R CV ε) 4(2n(1 p n) + 1) 1 pn exp( nɛ2 9 ) ( ) + 22 pn 1 nɛ 2 exp 16( V C log(2(2np n + 1)) + 2) 4V C Remarque Fait important, il n est pas nécessaire que la taille du test set croisse vers l infini pour que la validation croisée soit consistante.

k-fold cross-validation Corollaire (L 1 error for large test sample) Supposons H. Alors, nous avons: E R CV R V C (ln(2n(1 p n ) + 1) + 4) n 10 n(1 p n ) 2 + 5. np n Remark Nous pouvons montrer qu une règle optimale est alors p n V 1/3 C

Transition Ch1 : ERM k-plus proches voisins, ou boosting sont de VC-dimension infinie chapitre 2 : introduction de la notion d algorithmes stables.

Définition Z := X Y (Z i ) 1 i n := ((X i, Y i )) 1 i n F := {ψ R Z + ψ(z) = L(Y, φ(x)), φ G} Ψ(Z, D n ) := L(Y, Φ(X, D n ))

Notations Ch1 : ERM Définition R n := E Z [Ψ(Z, D n ) D n ] ψ Vn (.) := Ψ(., D Vn ).

Distance entre deux prédicteurs Définition Soient ψ 1, ψ 2 F. La distance uniforme est définie par : la distance L 1 par la distance erreur par d (ψ 1, ψ 2 ) = sup ψ 1 (Z) ψ 2 (Z) Z Z d 1 (ψ 1, ψ 2 ) = P ψ 1 ψ 2 d e (ψ 1, ψ 2 ) = P(ψ 1 ψ 2 ).

Definition stabilité Définition (Stabilité faible) Soit D n un échantillon initial. Soit α > 0. Soient λ, (δ n,pn ) n,pn des réels positifs. Un algorithme d apprentissage Ψ est dit faiblement (λ, (δ n,pn ) n,pn, d) stable si pour tout vecteur d apprentissage u n dont la somme des composantes est égale à n(1 p n ) : Pr(d(ψ un, ψ n ) λ P n,un P n α ) δ n,pn. Pour les algorithmes classiques, nous avons à l esprit δ n,pn = O n (exp( n(1 p n )a)).

Definition stabilité et validation croisée Définition (Validation croisée et stabilité faible) Soit D n = (Z i ) 1 i n un échantillon. Soit Vn tr un vecteur d apprentissage de distribution Q. Soient λ, (δ n,pn ) n,pn des réels positifs. Un algorithme d apprentissage Ψ est dit être faiblement (λ, (δ n,pn ) n,pn, d, Q) stable s il est faiblement (λ, (δ n,pn ) n,pn, d) stable et si : Pr( sup U n support(q) d(ψ Un, ψ n ) P n,un P n α λ) δ n,p n.

Definition stabilité et validation croisée Définition (Stabilité forte) Soit z Z. Soit D n = D n 1 {z} un échantillon initial. Soient λ, (δ n,pn ) n,pn des réels positifs. Un algorithme d apprentissage Ψ est dit fortement (λ, δ n,pn, d) stable si pour tout vecteur d apprentissage U n dont la somme des composantes est égale à n(1 p n ) : Pr(d(ψ Un, ψ n ) λ P n,un P n α ) δ n,pn.

Définition stabilité et validation croisée Définition (Validation croisée et stabilité forte) Soit z Z. Soit D n = D n 1 {z} un échantillon. Soit Vn tr un vecteur d apprentissage de distribution Q. Un algorithme d apprentissage Ψ est dit être fortement (λ, (δ n,pn ) n,pn, d, Q) stable s il est fortement (λ, (δ n,pn ) n,pn, d) stable et si : Pr( sup U n support(q) Définition (Stabilité sûre) d(ψ Un, ψ n ) P n,un P n α λ) δ n,p n. Remarquons que si δ n,pn = 0, les deux notions coincident et nous appelons alors la stabilité sûre.

Définition stabilité et validation croisée distance d d 1 d e Faible Lasso Fort Adaboost ERM k-nearest rule Bayesian algorithm Sure Regularization networks

Définition stabilité et validation forte Théorème (Validation croisée et stabilité forte) Supposons H. Soit Ψ une machine learning qui est fortement (λ, (δ n,pn ) n,pn, d, Q) stable. Alors, pour tout ε 0, Pr ( R CV R n ε + λ(2p n) α ) 2 exp( 2np nε 2 ) + δ n,pn. De plus, si d est la distance uniforme d, alors nous avons pour tout ε 0: Pr ( R CV R n ε + δ n,pn + λ(2p n) α ε 2 ) 4(exp( 8(10λ) 2 n(2p n) 2α ) avec δ n,p n = δ n,pn + (n + 1)δ n+1,1/(n+1). + n 5λ(2p n) α δ n,p n ).

Définition stabilité et validation croisée Théorème (L 1 norme) Supposons H et α = 1. Soit Ψ une machine learning qui est faiblement (λ, (δ n,pn ) n,pn, d, mathbbq) stable. Alors, nous avons : E Dn R CV R 2 n 2λp n + + δ n,pn. np n De plus, si Ψ est une règle d apprentissage qui est fortement (λ, (δ n) n, d, Q) stable, nous avons : E Dn R CV R n δ n,pn + 2λp n + 51λ np n + avec δ n,p n = δ n,pn + (n + 1)δ n+1,1/n+1 n 9λp n δ n,p n,

Definition stabilité et validation croisée Corollaire Supposons H. Soit Ψ une machine learning faiblement (λ, (δ n,pn ) n,pn, d) stable, nous définissons une règle de séparation optimale p n = p n (λ) 2/3 (1/n) 1/3. Alors, nous obtenons : E Dn R CV R n O n((λ/n) 1/3 ). De plus, si Ψ est une machine learning qui est fortement (λ, (δ n) n, d, Q) stable, nous utilisons la leave-one-out cross-validation pour n assez grand. Nous avons alors E Dn R CV R n = O n(λ/ n).

Transition Ch1 : ERM Les limites sont : sanity check bounds dans l esprit de [KEA95] pour n petit. V (n, p n, ε) + B(n, p n, ε) >> 1 dans le cadre de la minimisation empirique du risque, V C(n, ε) V (n, p n, ε) + B(n, p n, ε) Le but du chapitre 3 est d utiliser le réechantillonnage par le subagging pour améliorer ces résultats : Pr( ˆR CV R n ε) min(b(n, p n, ε), V (n, p n, ε)) < 1

Definition subagging Définition (Regresseur subaggé) Le prédicteur subaggé construit à partir de φ n et noté φ B n défini par: φ B n (.) := E V tr φ n Vn tr(.) est Dans le cas des classificateurs, la règle bagging correspond au vote à la majorité. Nous supposons dans ce cas que Y = {1,..., M}. Définition (Classificateur subaggé.) Le classificateur subaggé dénoté φ B n φ B n (X) := arg min E Vn k {1,...,M} tr peut être défini par: L(k, Φ(X, D V tr n ))

Definition validation croisée L idée est d adapter la validation croisée au prédicteur subaggé : Définition (Estimateur de validation croisée pour le subagging) L estimateur de validation croisée adapté au prédicteur subaggé φ B n est défini par : R Out CV (Φ B n ) := E V tr n P n,vn ts(ψ Vn tr)

Hypothèses la validation croisée symétrique. φ n appartient à une famille de prédicteurs de VC-dimension finie. L est supposée bornée de la façon suivante : L(Y, φ(x)) C(h(Y, φ(x)) avec C une fonction convexe -bornée elle-même par 1 sur le support de h(y, φ V tr (X)-, n h telle que pour n importe quel λ, 0 < λ < 1, nous avons h(y, λφ(x 1 )+(1 λ)φ(x 2 )) = λh(y, φ(x 1 ))+(1 λ)h(y, φ(x 2 )). Nous notons ces hypothèses H.

Etat de l art [BRE96] introduit le bagging. [BUH00] considère des prédicteurs non différentiables et discontinus [GRA04] apporte de nouveaux arguments pour expliquer l effet du bagging : les améliorations/détériorations du bagging sont expliquées par l influence positive ou négative d exemples très influençants. [ELI05] insiste sur le caractère stabilisant du bagging sur le prédicteur d origine et prouve des bornes non asymptotiques sur la déviation entre l erreur de généralisation et l erreur leave one out. [BUJ02] propose des statistiques quadratiques générales pour lesquelles le prédicteur baggé augmente à la fois le biais et la variance.

Resultats Ch1 : ERM Théorème (Déviation absolue pour la validation croisée symétrique) Supposons H. Alors, nous avons pour tout ε > 0, Pr( R n (Φ B n ) avec ˆR Out CV ε) min(b sym (n, p n, ε), V sym (n, p n, ε)) < 1 B sym (n, p n, ε) = (2np n + 1) 4V C/p n e nε2 V sym (n, p n, ε) = exp( 2np n ε 2 ).

Resultats Ch1 : ERM Théorème (Déviation absolue pour la validation croisée symétrique) Supposons H. Supposons aussi que φ n minimise le risque empirique. Mais au lieu de minimiser R n(φ), nous supposons que φ n minimise 1 n n i=1 C(h(Y i, φ(x i )). Par simplicité, nous supposons que l infimum est atteint i.e. φ n = arg min φ C 1 n n i=1 C(h(Y i, φ(x i )). Alors, nous avons pour tout ε > 0, avec Pr( R n(φ B n ) B ERM (n, p n, ε) = ˆR Out CV ε) min(b ERM (n, p n, ε), V ERM (n, p n, ε)) < 1 min((2np n + 1) 4V C/p n exp( nε 2 ), (2n(1 p n) + 1) 1 pn exp( nε 2 /9)) V ERM (n, p n, ε) = exp( 2np nε 2 ). 4V C

Demeure la question : en pratique, comment choisir p n? Supposons que l utilisateur final souhaite un degré de confiance η. Dans ce contexte, définissons : si δ δ n et si δ < δ n, f(n, p n, δ) := ln(1/δ) 2np n f(n, p n, δ) := 3 avec δ n := (2n(1 p n ) + 1) 4VC ln(2n(1 p n ) + 1)/(1 p n ) + ln(1/δ) n 4pnV C (1 pn)(1/9 2pn).

Définissons δ n,k par f(n, k/n, δ n,k ) = η Notons k n := arg min k {1...n 1} ˆR Out CV (k/n) + f(n, k/n, δ n,k ) et p n := k n/n.

Bibliographie S. B. Holden Cross-validation and the PAC learning model. Research Note RN/96/64, Dept. of CS, Univ. College, London, 1996. S. B. Holden PAC-like upper bounds for the sample complexity of leave-one-out cross validation. In Proceedings of the Ninth Annual ACM Workshop on Computational Learning Theory, pages 41 50, 1996. M. Kearns and D. Ron. Algorithmic stability and sanity-check bounds for leave-one-out cross-validation. Neural Computation, 11:1427 1453, 1999. M. Kearns and D. Ron. A bound on the error of cross validation, with consequences for the training-test split. In Advances in Neural Information Processing Systems 8. The MIT Press.

Bibliographie M. J. Kearns, Y. Mansour, A. Ng,, and D. Ron. An experimental and theoretical comparison of model selection methods. In Proceedings of the Eighth Annual ACM Workshop on Computational Learning Theory, pages 21 30, 1995. To Appear in Machine Learning, COLT95 Special Issue. S. Kutin. Extensions to McDiarmid s inequality when differences are bounded with high probability. Technical report, Department of Computer Science, The University of Chicago, 2002. In preparation. S. Kutin and P. Niyogi. Almost-everywhere algorithmic stability and generalization error. Technical report TR-2002-03, University of Chicago.

Bibliographie L. Breiman. Bagging predictors. Machine Learning, 24:2, 123 140,1996. P. Buhlmann, and B. Yu. Explaining Bagging., Vol. 30, No. 4 (Aug., 2002), pp. 927-961 The Annals of Statistics,2002. A. Buja and W. Stuetzle, Observations on Bagging, University of Pennsylvania and University of Washington, Seattle,2002. Y. Grandvalet. Bagging Equalizes Influence. Machine Learning. 55,3: 251 270.,2004. A. Elisseeff, T. Evgeniou, & M. Pontil. Stability of randomized learning algorithms. Journal of Machine Learning Research, 6: 55-79,2005.