Erreur de prédiction
|
|
- Aurélie Beauregard
- il y a 7 ans
- Total affichages :
Transcription
1 Erreur de prédiction Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
2 PLAN Introduction Erreur de prédiction Définition Décomposition Estimation Estimation par pénalisation C p, AIC, BIC. Estimation par simulation Validation croisée Bootstrap Estimateur naïf Estimateur out-of-bag Estimateur.632-bootstrap Remarques H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
3 Introduction La performance du modèle issu d une méthode d apprentissage s évalue par sa capacité de prédiction. La mesure de cette performance est très importante. Elle permet d opérer une sélection de modèle dans une famille associée à la méthode d apprentissage. Elle guide le choix de modèle en comparant chacun des modèles optimisés à l étape précédente. Elle fournit, tous choix faits, une mesure de la qualité ou de la confiance à accorder à la prévision. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
4 Introduction Trois stratégies sont proposées 1 Un partage de l échantillon (apprentissage, validation, test) afin de distinguer estimation du modèle et estimations de l erreur de prédiction. 2 Une pénalisation de l erreur d ajustement par la complexité du modèle. 3 Un usage intensif du calcul (computational statistics) par la mise en oeuvre de simulations.. Le choix dépend de plusieurs facteurs dont la taille de l échantillon initial, la complexité du modèle envisagé, la variance de l erreur, la complexité des algorithmes, c-à-d le volume de calcul admissible. L estimation de l erreur de prédiction est donc un élément central de la mise en place de la stratégie de data-mining. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
5 Définition Soient Y la variable à prédire, X la variable p-dimensionnelle ou l ensemble des variables explicatives, F la loi conjointe de Y et de X, z = {(x 1, y 1 ),..., (x n, y n )} et Y = φ(x) + ɛ le modèle à estimer avec E(ɛ) = 0, Var(ɛ) = σ 2 et ɛ indépendant de X ; X, comme chacun des x i est de dimension p. L erreur de prédiction est définie par E P (z, F) = E F {Q où Q est une fonction de perte. [ Y, φ(x) ]} Interprétation : Erreur mesurée par Q si les observations (X, Y ) étaient générées par la loi jointe F alors que le modèle appris sur D est ˆφ. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
6 Définition Si Y est quantitative : Q(y, ŷ) = (y ŷ) 2 : fonction de perte quadratique moyenne observée. Q(y, ŷ) = y ŷ, plus robuste car moins sensible aux valeurs extrêmes. Mais cette fonction de perte nécessite des algorithmes d optimisation plus complexes et pas nécessairement à solution unique. Si Y est qualitative, alors Q est une indicatrice de mals classés Q(y, ŷ) = 1I {y ŷ} : erreur de classification. Dans le cas quantitatif, l estimation du modèle par minimisation de E P revient à une approximation de la fonction φ et la solution est l espérance conditionnelle (connaissant l échantillon). Dans le cas qualitatif, c est la classe la plus probable désignée par le mode conditionnel qui est prédite. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
7 Décomposition L erreur de prédiction se décompose dans le cas quantitatif de la façon suivante. Soit x 0 un point de R p. [ { E P (x 0 ) = E F Y φ(x } ] 2 0 ) X = x0 [ } 2 }] 2 = σ 2 + E F { φ(x0 ) φ(x)] + EF [ φ(x0 ) E F { φ(x0 ) = σ 2 + Biais 2 + Variance. En général, plus un modèle (la famille des fonctions φ admissibles) est complexe, plus il est flexible et peut s ajuster aux données observées et donc plus le biais est réduit. Par contre, la partie variance augmente avec le nombre de paramètres à estimer et donc avec cette complexité. Objectif : rechercher un meilleur compromis entre biais et variance afin de minimiser le risque quadratique. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
8 Estimation Le premier type d estimation à considérer exprime la qualité d ajustement du modèle sur l échantillon observé. Ê P = 1 n n i=1 [ Q y i, φ(x ] i ). Estimation biaisée, car trop optimiste, de l erreur de prédiction : elle est liée aux données qui ont servi à l ajustement du modèle et est d autant plus fiable que le modèle est complexe. Estimation qui ne dépend que de la partie "biais" de l erreur de prédiction et ne prend pas en compte la partie "variance" de la décomposition. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
9 Estimation Idée : Calculer ÊP sur un échantillon indépendant n ayant pas participé à l estimation du modèle. Ainsi on divise l échantillon en 3 parties respectivement appelées apprentissage, validation et test : D = D Appr D Valid D Test. 1 Ê P (D Appr ) est minimisée pour estimer un modèle ˆφ. 2 Ê P (D Valid ) sert à la comparaison des modèles au sein d une même famille afin de sélectionner celui qui minimise cette erreur, 3 Ê P (D Test ) est utilisée pour comparer entre eux les meilleurs modèles de chacune des méthodes considérées. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
10 Estimation Cette solution n est acceptable que si la taille de l échantillon initial est importante, sinon la qualité de l ajustement est dégradée car n est petit, la variance de l estimation de l erreur peut être importante et ne peut être estimée. Si la taille de l échantillon est insuffisante, la sélection de modèle est basée sur une estimation de l erreur de prédiction faisant appel soit à une pénalisation soit à des simulations. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
11 Estimation avec pénalisation L erreur de prédiction se décompose en E P = ÊP(D Appr ) + Pénalité qui est l estimation par resubstitution ou taux d erreur apparent plus une pénalité qui corrige le biais par abus d optimisme. Il s agit d estimer cet optimisime pour apporter une correction et ainsi une meilleure estimation de l erreur recherchée. Cette correction est liée à l estimation de la variance dans la décomposition en biais et variance de l erreur ou c est encore une pénalisation associée à la complexité du modèle. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
12 Estimation avec pénalisation Le C P de Mallows fut le premier critère visant à une meilleure estimation de l erreur de prédiction que la seule considération de l erreur d ajustement (ou le R 2 ) dans le modèle linéaire. C P = ÊP + 2 d n s2 où d est le nombre de paramètres du modèle, n le nombre d observations et s 2 une estimation de la variance de l erreur par un modèle de faible biais. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
13 Estimation avec pénalisation Le critère d Akaike (AIC) se présente sous une forme similaire mais plus générale. Basé sur un critère de déviance, il s applique en effet à tout modèle estimé par minimisation d une log-vraisemblance log(l). AIC = 2 log(l) + 2 d n. Il suppose que la famille de densités considérées pour modéliser la loi de Y contient la "vraie" densité. Dans le cas gaussien à variance connue, moindres carrés et déviance coïncident, AIC est équivalent à C P. Il est facile de choisir le modèle présentant le plus faible AIC parmi ceux considérés, ce qui revient à minimiser un critère de vraisemblance pénalisée. Celui-ci n est vérifié qu asymptotiquement d où la motivation de proposer des critères modifiés plus adaptés à de petits échantillons. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
14 Estimation avec pénalisation Une argumentation de type bayésienne conduit à un autre critère BIC (Bayesian information criterion) qui cherche, approximativement, le modèle associé à la plus grande probabilité a posteriori dans le cadre de la maximisation d une log-vraisemblance. BIC = 2 log(l) + log(n) d n. On montre dans le cas gaussien et en supposant la variance connue que BIC est proportionnel à AIC avec le facteur 2 remplacé par log(n). Si n > e 2 7.4, BIC tend à pénaliser plus lourdement les modèles complexes. Asymptotiquement, on montre que la probabilité pour BIC de choisir le bon modèle tend vers 1 lorsque n tend vers l infini. Ce n est pas le cas d AIC qui tend alors à choisir des modèles trop complexes. Néanmoins à taille fini, BIC risque de se limiter à des modèles trop simples. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
15 Validation croisée Idée : Itérer l estimation de l erreur sur plusieurs échantillons de validation puis en calculer la moyenne. C est indispensable pour réduire la variance et améliorer la précision lorsque la taille de l échantillon initial est trop réduite pour en extraire un échantillon de validation ou test de taille suffisante. Découper aléatoirement l échantillon D en K parts de tailles approximativement égales selon une loi uniforme. Répéter K fois l opération qui consiste à mettre de côté l une des parties, estimer le modèle sur les K 1 parties restantes, calculer l erreur sur chacune des observations n ayant pas participé à l estimation. Moyenner toutes ces erreurs pour aboutir à l estimation par validation croisée. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
16 Validation croisée Soit τ : {1,..., n} {1,..., K } la fonction d indexation qui, pour chaque observation, donne l attribution uniformément aléatoire de sa classe. Ê CV = 1 n Q(y i, n φ ( τ(i)) (x i )), i=1 où φ ( k) désigne l estimation de φ sans prendre en compte la k ième partie de l échantillon. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
17 Validation croisée Le choix K = 10 est le plus courant, cas par défaut dans R. Le choix K = n (delete-one cross validation) n est possible que pour n petit à cause du volume des calculs et l estimation présente une variance souvent importante (chaque modèle estimé trop similaire au modèle estimé avec toutes les obsevations). En revanche si K est petit (K = 5), la variance sera plus faible mais le biais devient un problème dépendant de la façon dont la qualité de l estimation se dégrade avec la taille de l échantillon. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
18 Validation croisée Minimiser l erreur estimée par validation croisée est une approche largement utilisée pour optimiser le choix d un modèle au sein d une famille paramétrée. φ est défini par θ = argminê CV (θ). θ H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
19 Bootstrap Idée : Approcher par simulation (Monte-Carlo) la distribution d un estimateur lorsque l on ne connaît par la loi de l échantillon ou, plus souvent, lorsque l on ne peut pas supposer qu elle est gaussienne. Principe : Substituer, à la distribution de probabilité inconnue F dont est issu l échantillon d apprentissage, la distribution empirique F n qui donne un poids 1/n à chaque réalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrap selon la distribution empirique F n par n tirages aléatoires avec remise parmi les n observations initiales. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
20 Bootstrap Il est facile de construire un grand nombre d échantillons bootstrap (B = 100) sur lesquels calculer l estimateur concerné. La loi simulée de cet estimateur est une approximation asymptotiquement convergente sous des hypothèses raisonnables de la loi de l estimateur. Cette approximation fournit ainsi des estimations du biais, de la variance, donc d un risque quadratique et même des intervalles de confiance (avec B plus grand) de l estimateur sans hypothèse de normalité sur la vraie loi. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
21 Bootstrap ESTIMATEUR NAÏF Soit D un échantillon bootstrap des données D = { (x 1, y 1 ),..., (x n, y n ) }. L estimateur plug-in de l erreur de prédiction E P (D, F) est défini par E P (D, F n ) = 1 n n Q {y i, φ D (x i )}, i=1 où φ D désigne l estimation de φ à partir de l échantillon bootstrap. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
22 Bootstrap L estimateur plug-in conduit à l estimation bootstrap de l erreur moyenne de prédiction E F [E P (D, F)] par [ ] E Boot = E Fn [E P (D 1 n, F n )] = E Fn Q {y i, φ D (x i )}. n i=1 Cette estimation est approchée par simulation Ê Boot = 1 B B b=1 1 n n Q {y i, φ D b(x i )}. i=1 Cette estimation de l erreur de prédiction est généralement biaisée par optimisme. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
23 Bootstrap ESTIMATEUR OUT-OF-BAG Cette méthode s inspire de la validation croisée. Elle considère d une part, les observations tirées dans l échantillon bootstrap et d autre part, celles qui sont laissées de côté pour l estimation du modèle mais retenue pour l estimation de l erreur. Ê oob = 1 n n i=1 1 Q {y i, φ B D b(x i )}, i b K i où K i est l ensemble des indices b des échantillons bootstrap ne contenant pas la i ème observation à l issue des B simulations et B i = K i le nombre de ces échantillons. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
24 Bootstrap B doit être suffisamment grand pour que toute observation n ait pas été tirée au moins une fois ou bien les termes avec K i = 0 sont supprimés. L estimation Ê oob résout le problème d un biais optimiste auquel est confrontée Ê boot mais n échappe pas au biais introduit par la réduction tel qu il est signalé pour l estimation par validation croisée E CV. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
25 Bootstrap ESTIMATEUR.632-BOOTSTRAP La probabilité qu une observation soit tirée dans un échantillon bootstrap est [ P x i x b] ( = ) n 1 1 0, 632. n e Très approximativement, la dégradation de l estimation provoquée par le bootstrap et donc la surévaluation de l erreur sont analogues à celle de la validation croisée avec K = 2. Ainsi on compense l excès d optimisme du taux apparent d erreur et l excès de pessimisme du bootstrap out-of-bag par une combinaison Ê.632 = 0.368ÊP Êoob. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
26 Remarques Toutes les estimations de l erreur de prédiction considérées (pénalisation, validation croisée, bootstrap) sont asymptotiquement équivalentes. Il n est pas possible de savoir à n fini, laquelle sera la plus précise. Conceptuellement, le bootstrap est plus compliqué et pratiquement encore peu utilisé. Néanmoins cet outil joue un rôle central dans les algorithmes de combinaisons de modèles en association avec une estimation out-of-bag de l erreur. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
27 Conclusion L estimation d une erreur de prédiction est une opération délicate aux conséquences importantes. Il est donc nécessaire d utiliser le même estimateur pour comparer l efficacité des méthodes, de se montrer très prudent, en dehors de tout système d hypothèses probabilistes, sur le caractère absolu d une estimation dans l objectif d une certification. Dans cette situation, le recours à un échantillon test de bonne taille est difficilement contournable, alors qu en situation de choix de modèle au sein d une même famille, un estimateur (petit échantillon de validation, validation croisée) plus écomnomique est adapté en supposant implicitement que le biais induit est identique d un modèle à l autre. H. Milhem (IMT, INSA Toulouse) Erreur de prédiction IUP SID / 27
STATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailITIL Gestion de la capacité
ITIL Sommaire 1 GENERALITES 3 2 PERIMETRE DE LA GESTION DES CAPACITES 3 3 ACTIVITES ET LIVRABLES DE LA GESTION DES CAPACITES 4 3.1 ACTIVITES ITERATIVES OU GESTION DE PERFORMANCES : 4 3.2 GESTION DE LA
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailAICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678
Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées
Plus en détailTABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be
Plus en détailNOTE SUR LA MODELISATION DU RISQUE D INFLATION
NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailSoutenance de stage Laboratoire des Signaux et Systèmes
Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud
Plus en détailProbabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailAnalyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I
Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques
Plus en détailIntérêt du découpage en sous-bandes pour l analyse spectrale
Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,
Plus en détailTSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailChp. 4. Minimisation d une fonction d une variable
Chp. 4. Minimisation d une fonction d une variable Avertissement! Dans tout ce chapître, I désigne un intervalle de IR. 4.1 Fonctions convexes d une variable Définition 9 Une fonction ϕ, partout définie
Plus en détailIncertitude et variabilité : la nécessité de les intégrer dans les modèles
Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailListe des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...
Liste des notes techniques.................... xxi Liste des encadrés....................... xxiii Préface à l édition internationale.................. xxv Préface à l édition francophone..................
Plus en détailEtude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Plus en détailMéthodes de Simulation
Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents
Plus en détailCHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle
CHAPITRE I Modélisation de processus et estimation des paramètres d un modèle I. INTRODUCTION. Dans la première partie de ce chapitre, nous rappelons les notions de processus et de modèle, ainsi que divers
Plus en détailIBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détailModèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailContents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes
Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire
Plus en détailModélisation aléatoire en fiabilité des logiciels
collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailPROBABILITES ET STATISTIQUE I&II
PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailUne méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailK. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau
Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des
Plus en détailDirection des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Plus en détailProgrammes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailRésolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Plus en détailTP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options
Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce
Plus en détailFonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre
IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables
Plus en détailEXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG
Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette
Plus en détailMéthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Plus en détailLa problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites
La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur
Plus en détailALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE
ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE P. Baudet, C. Azzaro-Pantel, S. Domenech et L. Pibouleau Laboratoire de Génie Chimique - URA 192 du
Plus en détailProbabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur
Plus en détailL ANALYSE COUT-EFFICACITE
L ANALYSE COUT-EFFICACITE 1 Pourquoi utiliser cet outil en évaluation? L analyse coût-efficacité est un outil d aide à la décision. Il a pour but d identifier la voie la plus efficace, du point de vue
Plus en détailAnalyse des risques financiers
Analyse des risques financiers Version du 1 er octobre 2014 Cette fiche s'adresse aux services de l État mandatés pour mener une analyse financière et est susceptible de contribuer à la définition du niveau
Plus en détailTests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Plus en détailCorrection de l examen de la première session
de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi
Plus en détailRésumé des communications des Intervenants
Enseignements de la 1ere semaine (du 01 au 07 décembre 2014) I. Titre du cours : Introduction au calcul stochastique pour la finance Intervenante : Prof. M hamed EDDAHBI Dans le calcul différentiel dit
Plus en détailIBM SPSS Forecasting. Créez des prévisions d'expert en un clin d'œil. Points clés. IBM Software Business Analytics
IBM SPSS Statistics 19 IBM SPSS Forecasting Créez des prévisions d'expert en un clin d'œil Points clés Développer des prévisions fiables rapidement Réduire les erreurs de prévision Mettre à jour et gérer
Plus en détailConventions d écriture et outils de mise au point
Logiciel de base Première année par alternance Responsable : Christophe Rippert Christophe.Rippert@Grenoble-INP.fr Introduction Conventions d écriture et outils de mise au point On va utiliser dans cette
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailPROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES
Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.
Plus en détailDétection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique
Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique Denis Brazey & Bruno Portier 2 Société Prynɛl, RD974 290 Corpeau, France denis.brazey@insa-rouen.fr 2 Normandie Université,
Plus en détailTESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun
Plus en détailRenforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.
Master Mathématiques et Applications Spécialité : Ingénierie mathématique et modélisation Parcours : Mathématique et Informatique : Statistique, Signal, Santé (MI3S) 2015-2016 RÉSUMÉ DES COURS : (dernière
Plus en détailValue at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061
Value at Risk 27 février & 13 mars 20061 CNAM Gréory Taillard CNAM Master Finance de marché et estion de capitaux 2 Value at Risk Biblioraphie Jorion, Philippe, «Value at Risk: The New Benchmark for Manain
Plus en détailChapitre 2 : Systèmes radio mobiles et concepts cellulaires
Chapitre 2 : Systèmes radio mobiles et concepts cellulaires Systèmes cellulaires Réseaux cellulaires analogiques de 1ère génération : AMPS (USA), NMT(Scandinavie), TACS (RU)... Réseaux numériques de 2ème
Plus en détailUne introduction. Lionel RIOU FRANÇA. Septembre 2008
Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailFINANCEMENT OPTIMAL DE LA SOLVABILITE D UN ASSUREUR
FINANCEMENT OPTIMAL DE LA SOLVABILITE D UN ASSUREUR Guillaume PLANTIN GREMAQ Université Toulouse I 1 La détermination d un plan de réassurance optimal est une des applications les plus classiques de la
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailScénario: Score d appétence de la carte visa premier
Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision
Plus en détailIntroduction des. comptes d épargne libre d impôt
Introduction des comptes d épargne libre d impôt Comptes d épargne libre d impôt Une nouvelle façon d épargner Les comptes d épargne libre d impôt ont été introduits par le gouvernement fédéral dans le
Plus en détailChapitre 6 Apprentissage des réseaux de neurones et régularisation
Chapitre 6 : Apprentissage des réseaux de neurones et régularisation 77 Chapitre 6 Apprentissage des réseaux de neurones et régularisation Après une introduction rapide aux réseaux de neurones et à la
Plus en détailNouveau Barème W.B.F. de points de victoire 4 à 48 donnes
Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes Pages 4 à 48 barèmes 4 à 48 donnes Condensé en une page: Page 2 barèmes 4 à 32 ( nombre pair de donnes ) Page 3 Tous les autres barèmes ( PV de
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailImage d un intervalle par une fonction continue
DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction
Plus en détail8 Certifications Minergie
8 Chapitre 8 Être Minergie, est-ce aussi être «autrement»? Pour de nombreux acteurs du marché immobilier, un label de durabilité devrait s accompagner d une appréciation de la valeur de leur immeuble,
Plus en détailFICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique
NOM DE L'UE : Algorithmique et programmation C++ LICENCE INFORMATIQUE Non Alt Alt S1 S2 S3 S4 S5 S6 Parcours : IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques) MASTER INFORMATIQUE Non
Plus en détailProjet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Plus en détail«Cours Statistique et logiciel R»
«Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire
Plus en détailEquation LIDAR : exp 2 Equation RADAR :
Contexte scientifique Systèmes LIDAR/RADAR Equation LIDAR : exp Equation RADAR : p (r) : puissance rétrodiffusée r : altitude ou profondeur. C : constante instrumentale. β : coefficient de rétrodiffusion
Plus en détailData mining II. Modélisation Statistique & Apprentissage
Publications du Laboratoire de Statistique et Probabilités Data mining II. Modélisation Statistique & Apprentissage Philippe BESSE Version janvier 2003 mises à jour : www.lsp.ups-tlse.fr/besse Laboratoire
Plus en détailFIMA, 7 juillet 2005
F. Corset 1 S. 2 1 LabSAD Université Pierre Mendes France 2 Département de Mathématiques Université de Franche-Comté FIMA, 7 juillet 2005 Plan de l exposé plus court chemin Origine du problème Modélisation
Plus en détailF7n COUP DE BOURSE, NOMBRE DÉRIVÉ
Auteur : S.& S. Etienne F7n COUP DE BOURSE, NOMBRE DÉRIVÉ TI-Nspire CAS Mots-clés : représentation graphique, fonction dérivée, nombre dérivé, pente, tableau de valeurs, maximum, minimum. Fichiers associés
Plus en détailBest Styles ou comment capturer au mieux les primes de risque sur les marchés d actions
Stratégie Best Styles ou comment capturer au mieux les primes de risque sur les marchés d actions La recherche des primes de risque constitue une stratégie relativement courante sur les marchés obligataires
Plus en détailRepères Gérer la capacité
Repères Gérer la http://www.agilecom.fr Les enjeux de la gestion de la Réaliser cet ajustement est un effort continuel : La stratégie de l entreprise évolue avec la conjoncture ; Les métiers développent
Plus en détailTempérature corporelle d un castor (une petite introduction aux séries temporelles)
Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature
Plus en détailPREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,
Plus en détailSimulation de variables aléatoires
Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo
Plus en détailANNEXE VII EFFETS MACROECONOMIQUES DE LA REFORME PIECE JOINTE N 2 SIMULATIONS REALISEES A PARTIR DU MODELE MACROECONOMETRIQUE MESANGE
ANNEXE VII, PJ n 2, page 1 ANNEXE VII EFFETS MACROECONOMIQUES DE LA REFORME PIECE JOINTE N 2 SIMULATIONS REALISEES A PARTIR DU MODELE MACROECONOMETRIQUE MESANGE ANNEXE VII, PJ n 2, page 2 Les simulations
Plus en détailChapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Plus en détailFORMATION ECLAIRAGE PUBLIC
FORMATION ECLAIRAGE PUBLIC DIR Centre Est Mâcon 22/10/07 1 La norme éclairage NF EN 13 201 Avant : Recommandations AFE : référence pour la profession Février 2005: Application de la norme Éclairage NF
Plus en détailApproche modèle pour l estimation en présence de non-réponse non-ignorable en sondage
Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Journées de Méthodologie Statistique Eric Lesage Crest-Ensai 25 janvier 2012 Introduction et contexte 2/27 1 Introduction
Plus en détailAPPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE
SûretéGlobale.Org La Guitonnière 49770 La Meignanne Téléphone : +33 241 777 886 Télécopie : +33 241 200 987 Portable : +33 6 83 01 01 80 Adresse de messagerie : c.courtois@sureteglobale.org APPORT DES
Plus en détailModèles et Méthodes de Réservation
Modèles et Méthodes de Réservation Petit Cours donné à l Université de Strasbourg en Mai 2003 par Klaus D Schmidt Lehrstuhl für Versicherungsmathematik Technische Universität Dresden D 01062 Dresden E
Plus en détailProbabilités Loi binomiale Exercices corrigés
Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre
Plus en détailLes clients puissance cube
LETTRE CONVERGENCE Les clients puissance cube L intelligence artificielle au service du marketing des services N 28 To get there. Together. A PROPOS DE BEARINGPOINT BearingPoint est un cabinet de conseil
Plus en détail