Ricco RAKOTOMALALA. Ricco Rakotomalala Tutoriels Tanagra -
|
|
|
- Emma Benoît
- il y a 9 ans
- Total affichages :
Transcription
1 Ricco RAKOTOMALALA 1
2 1. Évaluation des performances 2. Erreur en resubstitution 3. Schéma apprentissage test 4. Validation croisée 5. Bootstrap 6. Influence du mode d échantillonnage 2
3 Évaluation des performances en apprentissage supervisé L impossibilité de mesurer l erreur de prédiction sur la population Point de départ : On dispose d un échantillon de taille «n» pour construire un modèle de prédiction M(n) Yˆ M ( X, n) Erreur de prédiction : Comptabilisée en confrontant «vraie» valeur de Y et valeur prédite par M dans la population [ Y( ) Yˆ( )] pop card ( pop ) Interprétation : Probabilité de mal classer avec le modèle de prédiction Problème : (1) On ne dispose (presque) jamais de la population (2) L accès à tous les individus serait trop coûteux Comment s en sortir en ne disposant en tout et pour tout que de l échantillon «n» pour construire le modèle et en évaluer les performances 3
4 Évaluation des performances en apprentissage supervisé Illustration avec les «Ondes» de Breiman (1984) Description : Prédire la forme d onde (3 valeurs possibles) à partir de 21 mesures continues Données simulées, donc virtuellement infinies n = 500 ind., utilisés pour construire les modèles (dataset) n = ind., pour mesurer les performances sur la «population» (notre référence) 3 modèles avec des caractéristiques différentes (LDA, C4.5 et RNA-Perceptron) Les «vrais» taux d erreur : Mesurés sur la «population». Erreur "théorique" (Calculé sur obs.) LDA C RNA (10 CC) Comment obtenir (approcher) ces valeurs en disposant uniquement des n=500 observations? 4
5 Erreur en resubstitution Utiliser le même «dataset» pour construire ET tester le modèle Démarche : Construire le modèle sur le dataset (n= 500) Ré appliquer le modèle sur ce même dataset Construire la matrice de confusion et en extraire une estimation de l erreur théorique On parle d erreur en resubstitution [ Y( ) Y )] e r n Résultats Erreur Erreur "théorique" Resubstitu LDA C RNA (10 CC) Commentaires : L erreur en resubstitution est (quasiment) toujours optimiste «Biais d optimisme» L optimisme dépend des caractéristiques du classifieur c.-à-d. de son aptitude à «coller» aux données Plus un point influe sur sa propre affectation, plus le biais d optimisme sera élevé (1) RNA, 1-ppv : 0% d erreur en apprentissage, etc. (2) Modèles à forte complexité (3) Cas des faibles effectifs (n petit) (4) Dimensionnalité élevée (surtout par rapport aux effectifs) et variables bruitées 5
6 Erreur en resubstitution et «vraie» erreur Selon la complexité du modèle et selon les effectifs Taux d'erreur Taux d'erreur Taux d'erreur selon la complexité du modèle (à effectif égal) On commence à «apprendre» les informations spécifiques (les scories) au fichier qui ne sont pas transposable à la population (ex. trop de variables ; trop de neurones dans la c.c. ; arbre de décision trop profond ) Complexité Err. Resub. (App.) Err. "vraie" (Popuplation) Erreur app. et théorique selon taille d'échantillon (à complexité égale) Plus la taille d échantillon augmente, plus on apprend efficacement la «relation sous-jacente» entre Y et les X dans la population Taille échantillon apprentissage Err. Vraie (Population) Err. Resub (Ech. App.) Plus la taille d échantillon augmente, moins on «sur apprend» les spécificités c.-à-d. (souvent) les probabilités conditionnelles P(Y/X) sont mieux estimées 6
7 Schéma Apprentissage Test Dissocier les données pour construire et pour évaluer le modèle n Dataset Apprentissage, learning set n a n t a 60% ~ 70% t 30% ~ 40% Test, test set e t M ( X, na ) [ Y( ) Y ˆ( )] t n t Erreur en test Estimateur sans biais de l erreur de M(X,n a )!!! Modèle : LDA(X,300) Calculé sur les obs. Test set : 200 obs Expérimentation Répéter 100 fois le schéma 300 ind. App., 200 ind. Test 7
8 Schéma Apprentissage-test Biais et variance et Est un estimateur sans biais de l erreur de M ( X, na ) LDA(X,300) C est un estimateur biaisé de l erreur de M ( X, n) LDA(X,500) Une partie des données seulement (300 obs.) sert à construire le modèle l apprentissage est de moins bonne qualité (que si on utilise les 500 obs.) Moins on met d obs. en apprentissage, plus l estimation de l erreur sera biaisée Plus on met des observations en test, plus l estimation de l erreur sera précise 8
9 Schéma apprentissage-test Biais-variance (expérimentation) La partie apprentissage augmente «Vrai» taux d erreur de LDA(X,500) = Biais fort Variance faible Biais faible Variance forte Conclusion : L erreur en test est un estimateur non biaisé du modèle construit sur la partie apprentissage C est un mauvais estimateur de l erreur commis par le modèle construit sur l ensemble des données La subdivision «apprentissage-test» n est intéressant que sur les bases de taille importante Sinon, on est face à un dilemme : pénaliser le modèle pour mieux estimer ses performances, ou favoriser la construction du modèle sans savoir ce qu il vaut dans la population 9
10 Validation croisée Leave-one-out Bootstrap 10
11 Validation croisée Principe Algorithme Subdiviser l échantillon en K blocs Pour chaque k : Construire sur le modèle M(X,n-n k ) Calculer l erreur en test sur n k e k e cv = la moyenne des erreurs e k K=10 assure un bon compromis entre «biais» et «variance» pour la majorité des cas (données et méthodes) Utiliser la validation répétée (B x K-Fold Cross validation) en améliore les caractéristiques «Vrai» taux d erreur de LDA(X,500) = Sur les cas de fort sur apprentissage (certaines méthodes mal paramétrées, ratio élevé de variables vs. individus, beaucoup de variables non pertinentes, etc.), la validation croisée (avec K élevé) a tendance à sous-estimer l erreur!!! 11
12 Leave-one-out Validation croisée où K = n Algorithme Subdiviser l échantillon en K=n blocs Pour chaque individu k : Construire sur le modèle M(X,n-1) Calculer l erreur en test sur le k-ième ind. e k Calculer la moyenne e loo des erreurs en test e k = 1 (erreur) ou 0 (bon classement) Proportion des erreurs Nettement plus coûteux en calcul que la K validation croisée sans être meilleur Sous-estimation (dramatique) de l erreur en cas de sur apprentissage (ex. un classifieur 1- PPV dans un espace sur dimensionné) Erreur "théorique" (Calculé sur obs.) 10-CV Leave one out LDA C RNA (10 CC) On peut «stabiliser» en répétant la procédure Un seul essai possible sur un échantillon de taille n 12
13 Bootstrap Principe Algorithme Répéter B fois (on parle de réplications) Tirage avec remise d un échantillon de taille n Ω b Distinguer les individus non échantillonnés Ω (b) Apprentissage du modèle sur Ω b Erreur en resubstitution sur Ω b [e r (b)] Erreur en test sur Ω (b) [e t (b)] Calcul de l optimisme o b Sur l échantillon complet, calculer l erreur en resubstitution (1) e B e r b B o b e r est l erreur en resubstitution calculée sur la totalité de l échantillon C est l optimisme qui est estimé en bootstrap Il est utilisé pour corriger l erreur en resubstitution La correction est souvent un peu exagérée (l erreur est sous-estimée en bootstrap) (2) e 0.632B e r b e ( b) t B bootstrap Pondérer par la probabilité qu un individu fasse partie de Ω b sur une réplication (#0.632) La correction est plus réaliste (3) Il existe une troisième formule pour corriger le biais induit par la méthode d apprentissage : bootstrap 13
14 Bootstrap Simulation Bootstrap Augmentation du nombre de réplications «Vrai» taux d erreur LDA = Réduction de la variance B # 25 suffit généralement Peu d effet sur le biais Le biais vient du fait qu à chaque réplication, on utilise bien n obs. pour construire le modèle, mais comme certains individus se répètent, l information est redondante, la construction du modèle est pénalisée nous n avons pas prise dessus 14
15 Validation croisée ou bootstrap? A effort de calcul égal (ici 10 séquences apprentissage test) Bootstrap a une variance plus faible (c est flagrant ici) Mais la validation croisée est moins biaisée (nous avons un contre-exemple ici, ce n est qu une simulation à 100 essais) Dans les publications scientifiques, les chercheurs semblent plutôt privilégier la validation croisée peut être parce qu elle est plus simple à implémenter. 15
16 Impact sur l estimation de l erreur en la validation croisée 16
17 Stratification, effet grappe, etc. Principe général : le mode de constitution des blocs doit respecter le mode de constitution de l échantillon de données Si l échantillon est stratifié, les blocs doivent être stratifiés de la même manière (notamment, on essaie de respecter la distribution de la variable à prédire dans chaque bloc) Objectif : réduire la variance. L amélioration est faible dans la pratique Si l échantillon est formé par un tirage par grappes, les blocs doivent être formés à partir de tirages sur les grappes Attention : Dans le cas contraire, on sous-estime fortement l erreur, la V.C. est biaisée 17
18 Conclusion Erreur en resubstitution est (presque) toujours trop optimiste Son optimisme dépend des caractéristiques des données et du classifieur de l aptitude de ce dernier à «coller aux données» Le découpage apprentissage-test n est vraiment intéressant que sur les «grandes» bases L erreur en test estime l erreur du modèle construit sur la partie apprentissage Il n indique «rien» (ou très mal) sur les performances du modèle construit sur la totalité des données K-validation croisée et leave-one-out proposent des performances équivalentes en général K = 10 semble un bon compromis pour la validation croisée La 10-validation croisée répétée améliore la précision bootstrap a en général une variance plus faible que la validation croisée, mais un biais plus fort (et on ne peut pas réellement agir dessus) Bootstrap et validation croisée se valent, surtout lorsque la taille de l échantillon augmente En situation de fort sur apprentissage, validation croisée et bootstrap donnent de mauvaises indications 18
19 Références D. Zighed, R.Rakotomalala, «Graphes d induction», Hermès, Chapitre 11, pages , «Évaluation empirique des classifieurs» Ou «Graphes d Induction», R. Rakotomalala, 1997, Chapitre 2, pages J-C. Turlot, «Évaluation de la qualité d une règle de décision et sélection de variables», in G. Celeux, J-P. Nakache, Eds, «Analyse discriminante sur variables qualitatives», Polytechnica, Chapitre 6, pages , A. Molinaro, R. Simon, R. Pfeiffer, «Prediction error estimation: a comparison of resampling methods», in Bioinformatics, 21(15), pages ,
Arbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Méthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Etude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Scénario: Score d appétence de la carte visa premier
Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision
La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.
La NP-complétude Johanne Cohen PRISM/CNRS, Versailles, France. Références 1. Algorithm Design, Jon Kleinberg, Eva Tardos, Addison-Wesley, 2006. 2. Computers and Intractability : A Guide to the Theory of
Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC
Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche
K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau
Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas
CAC, DAX ou DJ : lequel choisir?
CAC, DAX ou DJ : lequel choisir? 1. Pourquoi cette question Tout trader «travaillant 1» sur les indices s est, à un moment ou un autre, posé cette question : «je sais que la tendance est bien haussière
Recommandation prédictive
Recommandation prédictive La promesse originelle du web : la relation one to one Le futur du web : la recommandation prédictive La data : Le pétrole brut des éditeurs et des marques Mais Au mieux
Travaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
NON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Des consultants forment des consultants Comment créer ma boite de consultant
Des consultants forment des consultants Comment créer ma boite de consultant Ce document a comme objectif de présenter le contenu d'un cycle d ateliers de formations à la création d entreprise, spécifique
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
TANAGRA : un logiciel gratuit pour l enseignement et la recherche
TANAGRA : un logiciel gratuit pour l enseignement et la recherche Ricco Rakotomalala ERIC Université Lumière Lyon 2 5, av Mendès France 69676 Bron [email protected] http://eric.univ-lyon2.fr/~ricco
TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux [email protected] www.pressesagro.be
www.habefast.ch [email protected] Agence web en Suisse romande CH-1260 Nyon 022 362 25 70
1 By Agence web en Suisse romande 2 Qu est ce qu est le SEO? Le référencement naturel ou SEO (Search Engine Optimisation) est une pratique qui, comme son nom l indique, permet d optimiser un site web pour
Arbres de Décision. 1 Introduction
Arbres de Décision Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 5, av. Mendés France 69676 BRON cedex e-mail : [email protected] Résumé Après avoir détaillé les points clés de la
Une comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Mesure agnostique de la qualité des images.
Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire
Figure 3.1- Lancement du Gambit
3.1. Introduction Le logiciel Gambit est un mailleur 2D/3D; pré-processeur qui permet de mailler des domaines de géométrie d un problème de CFD (Computational Fluid Dynamics).Il génère des fichiers*.msh
Le Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Optimisation Combinatoire et Colonies de Fourmis Nicolas Monmarche April 21, 1999 Sommaire Inspiration biologiques Ant Colony Optimization Applications TSP QAP Flow Shop Problemes dynamiques 1 Historique
FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique
NOM DE L'UE : Algorithmique et programmation C++ LICENCE INFORMATIQUE Non Alt Alt S1 S2 S3 S4 S5 S6 Parcours : IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques) MASTER INFORMATIQUE Non
FORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Christophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
4 Exemples de problèmes MapReduce incrémentaux
4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank
Data Mining, Data Scien-st, Data Analy-cs, CRM, Modélisa-on et ou-ls mathéma-ques Eclairages et principes
Data Mining, Data Scien-st, Data Analy-cs, CRM, Modélisa-on et ou-ls mathéma-ques Eclairages et principes Michel Béra Professeur du Cnam (Chaire de Modélisa-on sta-s-que du risque) Cours STA201 Comment
L apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Simulation en santé. Outil de gestion des risques. Avril 2014. Dr MC Moll 1
C E N T R E H O S P I T A L I E R U N I V E R S I T A I R E D ' A N G E R S Simulation en santé Outil de gestion des risques 1 La Simulation : définition 2 Le terme «simulation en santé» correspond à l
Choisir ses priorités: le développement incrémental de produit. Copyright Pyxis Technologies
Choisir ses priorités: le développement incrémental de produit Copyright Pyxis Technologies Ce qui m occupe... 2 nous nous préparons l Agile Tour Tour... je suis coach à Pyxis... Sylvie et moi avons publié
Des consultants forment des consultants Comment créer ma boite de consultant
Des consultants forment des consultants Comment créer ma boite de consultant Ce document a comme objectif de présenter le contenu d'un cycle d ateliers de formations à la création d entreprise, spécifique
Analyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Introduction au maillage pour le calcul scientifique
Introduction au maillage pour le calcul scientifique CEA DAM Île-de-France, Bruyères-le-Châtel [email protected] Présentation adaptée du tutorial de Steve Owen, Sandia National Laboratories, Albuquerque,
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
La nouvelle planification de l échantillonnage
La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage
Electron S.R.L. SERIE B46 - SYSTEMES DIDACTIQUES DE TELEPHONIE
Electron S.R.L. Design Production & Trading of Educational Equipment SERIE B46 - SYSTEMES DIDACTIQUES DE TELEPHONIE Specifications may change without notic Page 1 of 9 File BROCHURE B46xx B4610 UNITE DIDACTIQUE
RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Évaluation et implémentation des langages
Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation
Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet
Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Beat Wolf 1, Pierre Kuonen 1, Thomas Dandekar 2 1 icosys, Haute École Spécialisée de Suisse occidentale,
6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, [email protected]
6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, [email protected] Interface d un SGF Implémentation d un SGF Gestion de la correspondance entre la structure logique et la structure
Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier
Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration
Les technologies du Big Data
Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR
Pourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Des consultants forment des consultants Comment créer ma boite de consultant
Des consultants forment des consultants Comment créer ma boite de consultant Ce document a comme objectif de présenter le contenu d'un cycle d ateliers de formations à la création d entreprise, spécifique
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour [email protected] Une grande partie des illustrations viennent
Rapport de certification ANSSI-CSPN-2010/07. KeePass Version 2.10 Portable
PREM IE R M IN IS T R E Secrétariat général de la défense et de la sécurité nationale Agence nationale de la sécurité des systèmes d information Rapport de certification ANSSI-CSPN-2010/07 KeePass Version
Pour une mobilité sure et durable des
Safe Move For older drivers Pour une mobilité sure et durable des conducteurs âgés Claude Marin-Lamellet IFSTTAR-TS2-LESCOT 2 Partenaires Projet miroir en Suède Financeurs 3 Personnes impliquées IFSTTAR
Probabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Algorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Coefficients binomiaux
Probabilités L2 Exercices Chapitre 2 Coefficients binomiaux 1 ( ) On appelle chemin une suite de segments de longueur 1, dirigés soit vers le haut, soit vers la droite 1 Dénombrer tous les chemins allant
Probabilités Loi binomiale Exercices corrigés
Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre
TSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Chapitre 3 : INFERENCE
Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage
ESIEA PARIS 2011-2012
ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire
MERLIN GESTION PATRIMONIALE. Groupe GESTION PATRIMONIALE. Définition d un programme de renouvellement
Groupe MERLIN Une tradition d innovations au service des hommes GESTION PATRIMONIALE GESTION PATRIMONIALE Définition d un programme de renouvellement Indépendance - Expériences - Expertises - Proximité
Laboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Transmission d informations sur le réseau électrique
Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en
Jean-Philippe Préaux http://www.i2m.univ-amu.fr/~preaux
Colonies de fourmis Comment procèdent les colonies de fourmi pour déterminer un chemin presque géodésique de la fourmilière à un stock de nourriture? Les premières fourmis se déplacent au hasard. Les fourmis
COR-E : un modèle pour la simulation d agents affectifs fondé sur la théorie COR
COR-E : un modèle pour la simulation d agents affectifs fondé sur la théorie COR SABRINA CAMPANO DIRECTION: NICOLAS SABOURET ENCADREMENT : NICOLAS SABOURET, VINCENT CORRUBLE, ETIENNE DE SEVIN SOUTENANCE
Théorie des sondages : cours 5
Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : [email protected] Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur
Coup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Enregistrement et transformation du son. S. Natkin Novembre 2001
Enregistrement et transformation du son S. Natkin Novembre 2001 1 Éléments d acoustique 2 Dynamique de la puissance sonore 3 Acoustique géométrique: effets de diffusion et de diffraction des ondes sonores
Types de REA produites dans le cadre de la séquence pédagogique
Scénario pédagogique APPRENDRE À ENSEIGNER AUTREMENT Description générale du scénario Titre Les bases de données relationnelles Résumé Dans le cadre d'un cours à distance, la visioconférence est une REA
Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes
Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes Baradat P. INRA-Département EFPA UMR AMAP 34398 Montpellier Cedex 5 FRANCE [email protected] Labbé T. INRA-Département
Algorithmique répartie
Université Joseph Fourier 23/04/2014 Outline 1 2 Types de communication message envoyé à un groupe de processus Broadcast (diffusion) message envoyé à tous les processus du systèmes Unicast message envoyé
INTRODUCTION AUX SYSTEMES D EXPLOITATION. TD2 Exclusion mutuelle / Sémaphores
INTRODUCTION AUX SYSTEMES D EXPLOITATION TD2 Exclusion mutuelle / Sémaphores Exclusion mutuelle / Sémaphores - 0.1 - S O M M A I R E 1. GENERALITES SUR LES SEMAPHORES... 1 1.1. PRESENTATION... 1 1.2. UN
Les Enjeux du Référencement de Sites Internet. Un livre blanc réalisé par Benchmark Group pour Netbooster
Les Enjeux du Référencement de Sites Internet Un livre blanc réalisé par Benchmark Group pour Netbooster Pourquoi un livre blanc sur le référencement de sites? Alors qu au niveau mondial, on dénombre sur
Compression Compression par dictionnaires
Compression Compression par dictionnaires E. Jeandel Emmanuel.Jeandel at lif.univ-mrs.fr E. Jeandel, Lif CompressionCompression par dictionnaires 1/25 Compression par dictionnaire Principe : Avoir une
DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD
DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD BIGDATA PARIS LE 1/4/2014 VINCENT HEUSCHLING @VHE74! 1 NOUS 100% Bigdata Infrastructure IT + Data Trouver vos opportunités Implémenter les
Druais Cédric École Polytechnique de Montréal. Résumé
Étude de load balancing par un réseau de neurones de types HME (Hierarchical Mixture of s). Druais Cédric École Polytechnique de Montréal Résumé Cet article tente d introduire le principe de load balancing
PROJET D'INFORMATIQUE I IFT 592 PROJET EN SYSTÈMES INTELLIGENTS IFT-593 POKUS. Système d aide au poker. Travail présenté à M.
PROJET D'INFORMATIQUE I IFT 592 PROJET EN SYSTÈMES INTELLIGENTS IFT-593 POKUS Système d aide au poker Travail présenté à M. Shengrui Wang Par Marc-Alexandre Côté-Harnois 07 166 997 Julien Filion 07 177
Machines virtuelles Cours 1 : Introduction
Machines virtuelles Cours 1 : Introduction Pierre Letouzey 1 [email protected] PPS - Université Denis Diderot Paris 7 janvier 2012 1. Merci à Y. Régis-Gianas pour les transparents Qu est-ce qu une
Etude comparative de différents motifs utilisés pour le lancé de rayon
Etude comparative de différents motifs utilisés pour le lancé de rayon Alexandre Bonhomme Université de Montréal 1 Introduction Au cours des dernières années les processeurs ont vu leurs capacités de calcul
Exercices Alternatifs. Une fonction continue mais dérivable nulle part
Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version
Exercices Alternatifs. Une fonction continue mais dérivable nulle part
Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copyleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version
Intérêt du découpage en sous-bandes pour l analyse spectrale
Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,
Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
Irrigation Marketing. >1 : Un nouveau concept : l irrigation marketing
Irrigation Marketing C est un fait, Internet ne connaît pas la crise! Fort de sa souplesse et des capacités de tracking en temps réel, et offrant un avantage économique reconnu, Internet est aujourd hui
Système de Gestion de Fichiers
Chapitre 2 Système de Gestion de Fichiers Le système de gestion de fichiers est un outil de manipulation des fichiers et de la structure d arborescence des fichiers sur disque et a aussi le rôle sous UNIX
Soutien technique en informatique
Service de formation aux adultes Soutien technique en informatique PLAN DE COURS Utilisation et création de bases de données 420-B64-GR 2-2-2 75 heures Session automne 2010 NOM DE L ENSEIGNANT : JIE YANG
Systemes d'exploitation des ordinateurs
! " #$ % $ &' ( $ plan_ch6_m1 Systemes d'exploitation des ordinateurs Conception de Systèmes de Gestion de la Mémoire Centrale Objectifs 1. Conception de systèmes paginés 2. Conception des systèmes segmentés
Modèle GARCH Application à la prévision de la volatilité
Modèle GARCH Application à la prévision de la volatilité Olivier Roustant Ecole des Mines de St-Etienne 3A - Finance Quantitative Décembre 2007 1 Objectifs Améliorer la modélisation de Black et Scholes
Alarme domestique- Présentation
STI2D PROJET SIN Alarme domestique- Présentation Document réponses Séquence découverte Le fonctionnement du système d alarme domestique: (Démarche d investigation) Après avoir fait une présentation de
Les apports de l informatique. Aux autres disciplines
Les apports de l informatique Aux autres disciplines Le statut de technologie ou de sous-discipline est celui de l importation l et de la vulgarisation Le statut de science à part entière est lorsqu il
LISACode. Un simulateur opérationnel pour LISA. Antoine PETITEAU LISAFrance - le 16 mai 2006
LISACode Un simulateur opérationnel pour LISA Antoine PETITEAU LISAFrance - le 16 mai 2006 Plan Rappel sur LISACode. Validation du simulateur. Possibilités du simulateur. Résultats obtenus. Bruit de confusion.
Conception de réseaux de télécommunications : optimisation et expérimentations
Conception de réseaux de télécommunications : optimisation et expérimentations Jean-François Lalande Directeurs de thèse: Jean-Claude Bermond - Michel Syska Université de Nice-Sophia Antipolis Mascotte,
WEBANALYTICS Sur le chemin de l excellence
WEBANALYTICS Sur le chemin de l excellence Une démarche centrée sur l évaluation de sa propre performance! 2004-2008 Philippe FLOC H Strategic Consulting Tous droits réservés Reproduction interdite WEBMETRICS
STRICTEMENT CONFIDENTIEL
MOIS / ANNEE ETUDE DE VALORISATION Société «EDIVAL» STRICTEMENT CONFIDENTIEL BUREAUX 31, Rue de Brest 69002 LYON Tél : +33 (0)8 71 55 11 98 SIÈGE SOCIAL 94, Rue Saint Lazare 75009 PARIS Tél : +33 (0)1
VENTILATION POUR LE CONFORT D ETE
le climat et l'environnement du bâtiment Pourquoi ventiler? VENTILATION POUR LE CONFORT D ETE La ventilation consiste à renouveler l air d une pièce ou d un bâtiment. Elle agit directement sur la température
Dimensionnement Introduction
Dimensionnement Introduction Anthony Busson Dimensionnement Pourquoi dimensionner? Création d un système informatique ou réseau Problème de décision (taille des différents paramètres) Evaluer les performances
«Outils de gestion pour TPE CRM / ERP» Club
Réunion des membres du 7 juin 2011 «Outils de gestion pour TPE CRM / ERP» Comment faciliter la gestion journalière d un commerce ou d une TPE par l utilisation d outils TIC? L adoption d outils TIC mais
