Les arbres de décision
|
|
|
- Juliette Marchand
- il y a 10 ans
- Total affichages :
Transcription
1 Les arbres de décision 25 Septembre 2007 Datamining Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining
2 Les données du Titanic Le partitionnement récursif Données historiques sur 2201 passagers du Titanic Tâche : prédire la survie d'un passager sur la base de 4 variables Var cible : survie {yes, no} Vars prédictives classe {1st,2nd,3rd,crew} age {adult, child} sexe {male, female} class age sex surv 1st adult m yes crew adult m no 3rd child m no 2nd adult f yes Datamining Le principe du partitionnement Le partitionnement récursif Etant donné un ensemble de données S ayant d variables prédictives Trouver un test permettant de prédire la valeur de la variable cible 1 Choisir une variable de test x suivant un critère déni sex 2 Partitionner les exemples suivant les valeurs de x male female 3 A chaque partition, associer une valeur de la variable à prédire no yes Un arbre à un noeud Pour obtenir des arbres de complexité arbitraire, on applique cet algorithme de manière récursive. Datamining
3 Le partitionnement récursif L'algorithme de partitionnement récursif DT(S: données, X: vars prédictives, Y : var cible) 1 Créer noeud T 2 Si X = ou si Y a la même valeur s S alors retourner T avec prédiction : en classication : classe majoritaire dans S en régression : moyenne des y i dans S 3 Choisir une variable de test x X suivant un critère déni 4 Partitionner S en m sous-ensembles S suivant les valeurs de x 5 Si x discrète, X X {x} 6 Pour chaque partition S DT(S, X, Y ) Voir page 9 Datamining Remarques sur l'algorithme Le partitionnement récursif algorithme glouton pour éviter la recherche combinatoire : ni regard en avant, ni backtrack découpe des hyperrectangles dans l'espace des instances : frontières perpendiculaires aux axes sex no male female class 1 2 e n y y y yes yes yes e no 3 n m f Datamining
4 Variations sur l'algorithme de base Le partitionnement récursif Critère de choix de l'attribut de test (ligne 3) CART : index Gini C4.5 : gain d'information et rapport de gain Facteur de branchement b pour l'attribut de test X (ligne 4) CART : b = 2 (arbre binaire) C4.5 : par défaut, b = X si x nominal, b = 2 continu Même stratégie pour restreindre la complexité de l'arbre : Construire l'arbre jusqu'au bout, puis élaguer. Datamining Plan C4.5 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining
5 Entropie d'une variable C4.5 Soit une variable aléatoire X prenant ses valeurs dans l'alphabet X L'incertitude d'un événement x: l'inverse de sa probabilité log 1 p(x) = log p(x). L'entropie de X: H(X) = x X p(x)log p(x) où log s'entend à la base 2. L'entropie = nombre de bits requis pour décrire X ent(p) max H(X) = log X p Datamining Entropie conditionnelle C4.5 Soient 2 v.a. X et Y. L'entropie conditionnelle H(Y X) = x X p(x)h(y X = x) H(X Y) I(X;Y) H(Y X) = x X p(x) y Y p(y x) log p(y x) Pour que X serve à prédire Y, il faut H(Y ) H(Y X) > 0 H(X) H(Y) H(X,Y) Datamining
6 C4.5 Information mutuelle et choix de la variable L'information mutuelle entre X et Y = quantité d'info sur Y apportée par la connaissance de X et vice-versa = gain d'information I(X; Y ) = H(Y ) H(Y X) = H(X) H(X Y ) = 0 X et Y indpendantes Inconvénient : I(X; Y ) avec X : favorise les variables ayant bcp de valeurs distinctes Solution dans C5 : normaliser le gain d'info par l'entropie de la variable prédictive X rapport de gain (critère par défaut) IGR = I(X; Y ) H(X) Datamining C4.5 Exemple : choix de la variable racine Sur l'ensemble d'apprentissage TRN H(surv) = I(class; surv) = I(age; surv) = I(sex, surv) = sex male female no yes Datamining
7 Arbre C4.5 sur le Titanic C4.5 m = 2 (nb min d'ex par feuille) arbre page 5 avec m = 20 Datamining Partitionnement binaire sur les variables continues C4.5 E.d. une variable X, trouver un seuil t permettant de partitionner les données en 2 groupes homogènes par rapport à la var cible 1 Identier les seuils potentiels parmi les valeurs distinctes x i de X 1 Trier les exemples dans l'ordre croissant des x i 2 Les seuils potentiels = x i adjacents ayant des classes diérentes Ex. iris: petal.length : 36 valeurs distinctes, mais 6 seuils potentiels 2 Choisir la partition qui maximise le critère choisi (gain d'info ou rapport de gain en C4.5) Datamining
8 Arbre C4.5 sur les iris C4.5 p.length Setosa Versicolor Virginica p.width Datamining Plan CART 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining
9 CART Mesure d'impureté en classication L'index Gini G(t) mesure l'impureté des données au noeud t G(t) = i p i (1 p i ) où i = valeur de la variable cible Y et p i = p(i t). Min(G) = 0 tous les examples ont la même valeur de la variable cible Max(G) = 1 1 Y toutes les valeurs i sont équiprobables hx entropy Gini px Datamining CART Mesure d'impureté en régression La prédiction y(t) au noeud t: la moyenne des y i, valeurs de la variable cible dans les n t exemples au noeud t. La mesure d'impureté = MSE (erreur quadratique moyenne) R(t) = 1 n t n t i=1 (y i y(t)) 2. Puisque y(t) = ȳ i, la mesure d'impureté d'erreur = la variance intra-noeud des y i. L'erreur totale de l'arbre = somme des erreurs variances aux feuilles. Datamining
10 CART Dichotomie et impureté des données On mesure la baisse d'impureté des données S après une dichotomie eectuée au noeud t. Classication : G(S, t) = G(t) (p g G(t g ) + p d G(t d )) Régression : R(S, t) = R(t) (p g R(t g ) + p d R(t d )) t g t d = ls gauche/droit p g p d = proportion des cas ls gauche/droit tg t t d G(t) R(t) G( tg) + G( t d) R( tg) + R( t d) Calculer G pour toutes les dichotomies possibles au noeud t, puis choisir celle qui maximise G. Datamining CART Choix de la dichotomie/de la variable Pour chaque variable candidate X (dom. X ) en lice au noeud t calculer G R pour tous les tests binaires possibles var continue x t? (t =seuil potentiel, voir p. 13) var discrète x X X? choisir la dichotomie qui maximise G R Choisir la variable concernée par la dichotomie ayant G R maximale. Datamining
11 Post-élagage de l'arbre CART Critère : compromis entre erreur et complexité d'un arbre T : C λ (T ) = E(T ) + λ T où E(T ) = erreur totale (TBC ou MSE) aux feuilles de T, λ = un paramètre de régularisation (pénalise la complexité), T = nombre de feuilles de l'arbre T. 1 A partir de l'arbre complet T 0, couper successivement les sous-arbres sous les noeud internes dont la transformation en feuille minimise C λ. Résultat : une série d'arbres imbriqués T 1,..., T k. 2 Tester les arbres T 1,..., T k sur un ensemble de validation et choisir celui/ceux qui minimisent l'erreur (à une erreur standard près). S'il reste plusieurs, choisir le plus petit. Datamining Arbre CART sur le Titanic CART sex male female n y 1, 2, e no class n 3 no 3rd 1st, 2nd, crew m yes f m(insplit) = 20. cf l'arbre C4.5 m = 20 page 5 Datamining
12 Arbre de régression CART CART age < 31 >= ncig < 22.5 >= ncig age Datamining Plan Evaluation de performances 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining
13 Principes de base de l'évaluation Evaluation de performances Pour évaluer l'ecacité d'un prédicteur, il faut 1 une mesure de performance classication : T BC = nb de cas bien classés nb total de cas régression : MSE = 1 n n i=1 (ŷ i y i ) 2 2 une référence de base (baseline) le classieur par défaut : prédit toujours la classe majoritaire le régresseur par défaut : prédit toujours la moyenne de la var. cible 3 un ensemble de test indépendant de l'ensemble d'apprentissage Datamining Répartition des données Evaluation de performances Pour éviter le surapprentissage, nous répartissons les données en 2 sous-ensembles (proportions suivant la taille des données) l'ensemble d'entraînement (TRN) : servira à construire nos modèles l'ensemble de test (TST) : servira à valider les modèles construits Les partitions doivent être stratifées : doivent conserver la distribution d'origine de la variable cible tout trn tst % surv=oui surv=non total Datamining
14 Evaluation de performances Evaluation des modèles sur le Titanic Classication TBC TRN [n=1100] TST [n=1101] CPX Baseline 68% 68% J48, m=2 79.5% % T =9 J48, m= % 77.66% T =5 CART, m= % 77.66% T =3 Régression MSE TRN [n=14] TST [n=6] CPX Baseline CART, m= T =3 Datamining Bilan Bilan Avantages apprentissage très rapide compréhensibilité du modèle robustesse aux variables non pertinentes Inconvénients instabilité : très sensible aux variations des données incapacité à détecter les interactions entre variables puissance de représentation assez limitée : découpes orthogonales trop peu adaptées aux problèmes demandant des frontières obliques et lisses Datamining
Algorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Arbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
Arbres binaires de recherche
1 arbre des comparaisons 2 recherche dichotomique l'arbre est recalculé à chaque recherche 2 5 3 4 7 9 1 6 1 2 3 4 5 6 7 9 10 conserver la structure d'arbre au lieu de la reconstruire arbre binaire de
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
chapitre 4 Nombres de Catalan
chapitre 4 Nombres de Catalan I Dénitions Dénition 1 La suite de Catalan (C n ) n est la suite dénie par C 0 = 1 et, pour tout n N, C n+1 = C k C n k. Exemple 2 On trouve rapidement C 0 = 1, C 1 = 1, C
Christophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34
Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Resolution limit in community detection
Introduction Plan 2006 Introduction Plan Introduction Introduction Plan Introduction Point de départ : un graphe et des sous-graphes. But : quantifier le fait que les sous-graphes choisis sont des modules.
Les algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
CAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Apprentissage. Intelligence Artificielle NFP106 Année 2012-2013. Plan. Apprentissage. Apprentissage
Intelligence Artificielle NFP106 Année 2012-2013 Apprentissage! F.-Y. Villemin! Plan! Apprentissage! Induction! Règles d'inférence inductive! Apprentissage de concepts!! Arbres de décision! ID3! Analogie
Pourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation
Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des
Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires
Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires Julien Jorge [email protected] Laboratoire d Informatique de Nantes Atlantique,
RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : [email protected] Page personnelle : http://www.lri.fr/ hivert
1 de 46 Algorithmique Trouver et Trier Florent Hivert Mél : [email protected] Page personnelle : http://www.lri.fr/ hivert 2 de 46 Algorithmes et structures de données La plupart des bons algorithmes
Quantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Chapitre 6 Apprentissage des réseaux de neurones et régularisation
Chapitre 6 : Apprentissage des réseaux de neurones et régularisation 77 Chapitre 6 Apprentissage des réseaux de neurones et régularisation Après une introduction rapide aux réseaux de neurones et à la
1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Méthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Arbres de Décision. 1 Introduction
Arbres de Décision Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 5, av. Mendés France 69676 BRON cedex e-mail : [email protected] Résumé Après avoir détaillé les points clés de la
introduction Chapitre 5 Récursivité Exemples mathématiques Fonction factorielle ø est un arbre (vide) Images récursives
introduction Chapitre 5 Images récursives http ://univ-tln.fr/~papini/sources/flocon.htm Récursivité http://www.poulain.org/fractales/index.html Image qui se contient elle-même 1 Exemples mathématiques
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Algorithmes de recherche
Algorithmes de recherche 1 Résolution de problèmes par recherche On représente un problème par un espace d'états (arbre/graphe). Chaque état est une conguration possible du problème. Résoudre le problème
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Programmation Objet - Cours II
Programmation Objet - Cours II - Exercices - Page 1 Programmation Objet - Cours II Exercices Auteur : E.Thirion - Dernière mise à jour : 05/07/2015 Les exercices suivants sont en majorité des projets à
Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.
Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis
Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs
Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs Carine Hue, Marc Boullé France Télécom R & D; 2, avenue Pierre Marzin; 22307 Lannion cedex [email protected];
Cours de Master Recherche
Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction
Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation
Complexité Objectifs des calculs de complexité : - pouvoir prévoir le temps d'exécution d'un algorithme - pouvoir comparer deux algorithmes réalisant le même traitement Exemples : - si on lance le calcul
t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :
Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant
Apprentissage non paramétrique en régression
1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus
ARBRES BINAIRES DE RECHERCHE
ARBRES BINAIRES DE RECHERCHE Table de symboles Recherche : opération fondamentale données : éléments avec clés Type abstrait d une table de symboles (symbol table) ou dictionnaire Objets : ensembles d
Conception. Génie Logiciel. Renaud Marlet. LaBRI / INRIA http://www.labri.fr/~marlet. (d'après A.-M. Hugues) màj 17/04/2007
1 Génie Logiciel (d'après A.-M. Hugues) Conception Renaud Marlet LaBRI / INRIA http://www.labri.fr/~marlet màj 17/04/2007 2 Position dans le cycle de vie Contexte : étant donnée une spécification (ce que
1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles
CEA-N-1195 Note CEA-N-1195 Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles Service d'etudes de Protections de Piles PROPAGATION DES NEUTRONS
SAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
Travaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Probabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme
TFE Ingénieur Civil Mathématiques Appliquées 24 juin 2010 Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme Auteur Christophe Pochet Promoteur Pierre Devolder Comment garantir la
Fast and furious decision tree induction
Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline
Application de K-means à la définition du nombre de VM optimal dans un cloud
Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février
Systèmes de communications numériques 2
Systèmes de Communications Numériques Philippe Ciuciu, Christophe Vignat Laboratoire des Signaux et Systèmes CNRS SUPÉLEC UPS SUPÉLEC, Plateau de Moulon, 91192 Gif-sur-Yvette [email protected] Université
1.5 0.5 -0.5 -1.5 0 20 40 60 80 100 120. (VM(t i ),Q(t i+j ),VM(t i+j ))
La logique oue dans les PME/PMI Application au dosage de l'eau dans les bétons P.Y. Glorennec INSA de Rennes/IRISA [email protected] C. Hérault Hydrostop [email protected] V. Hulin Hydrostop [email protected]
CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle
CHAPITRE I Modélisation de processus et estimation des paramètres d un modèle I. INTRODUCTION. Dans la première partie de ce chapitre, nous rappelons les notions de processus et de modèle, ainsi que divers
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES [email protected] 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1
Master IMEA Calcul Stochastique et Finance Feuille de T.D. n o Corrigé exercices8et9 8. On considère un modèle Cox-Ross-Rubinstein de marché (B,S) à trois étapes. On suppose que S = C et que les facteurs
Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG
Data Mining Master 2 Informatique UAG Bibliographie (1) U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy, editors, Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996 Gilbert
Ebauche Rapport finale
Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide
Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping
Chapitre V : La gestion de la mémoire Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping Introduction Plusieurs dizaines de processus doivent se partager
Recherche dans un tableau
Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6
a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :
a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN
MICRO-INFORMATIQUE DÉFINITION DU DOMAINE D'EXAMEN BASE DE DONNÉES CONSULTATION INF-5060-1
MICRO-INFORMATIQUE DÉFINITION DU DOMAINE D'EXAMEN BASE DE DONNÉES CONSULTATION INF-5060-1 OCTOBRE 1996 MICRO-INFORMATIQUE DÉFINITION DU DOMAINE D'EXAMEN BASE DE DONNÉES CONSULTATION INF-5060-1 OCTOBRE
Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances
Département d Informatique MEMOIRE Présenté par : KADEM Habib Pour obtenir LE DIPLOME DE MAGISTER Spécialité : Informatique Option : Informatique & Automatique Intitulé : Conception d une Plateforme Open
Les arbres binaires de recherche
Institut Galilée Année 2010-2011 Algorithmique et arbres L2 TD 6 Les arbres binaires de recherche Type en C des arbres binaires (également utilisé pour les ABR) : typedef struct noeud_s { struct noeud_s
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour [email protected] Une grande partie des illustrations viennent
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence
Master 1 Informatique MIF11 - Réseau Codage et éléments de théorie de l'information
Master 1 Informatique MIF11 - Réseau Codage et éléments de théorie de l'information Florent Dupont Université Claude Bernard Lyon1 / Laboratoire LIRIS [email protected] http://liris.cnrs.fr/florent.dupont
UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.
UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases
Une comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
INF601 : Algorithme et Structure de données
Cours 2 : TDA Arbre Binaire B. Jacob IC2/LIUM 27 février 2010 Plan 1 Introuction 2 Primitives u TDA Arbin 3 Réalisations u TDA Arbin par cellules chaînées par cellules contiguës par curseurs (faux pointeurs)
GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau
GEA II Introduction aux probabilités Poly. de révision Lionel Darondeau Table des matières Énoncés 4 Corrigés 10 TD 1. Analyse combinatoire 11 TD 2. Probabilités élémentaires 16 TD 3. Probabilités conditionnelles
Stratégie de recherche adaptative en programmation par contrainte
Université Paul Sabatier École Nationale de l Aviation Civile Master 2 Recherche Informatique et Télécommunication parcours Intelligence Artificielle Simon Marchal Stratégie de recherche adaptative en
Principe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2
Probabilités Table des matières I Petits rappels sur le vocabulaire des ensembles 2 I.1 s................................................... 2 I.2 Propriétés...................................................
Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte
Projet d informatique M1BI : Compression et décompression de texte Le but de ce projet est de coder un programme réalisant de la compression et décompression de texte. On se proposera de coder deux algorithmes
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Probabilités conditionnelles Exercices corrigés
Terminale S Probabilités conditionnelles Exercices corrigés Exercice : (solution Une compagnie d assurance automobile fait un bilan des frais d intervention, parmi ses dossiers d accidents de la circulation.
Programmation par contraintes. Laurent Beaudou
Programmation par contraintes Laurent Beaudou On se trouve où? Un problème, une solution : la solution est-elle une solution du problème? simulation, vérification 2 On se trouve où? Un problème, une solution
Seconde et première Exercices de révision sur les probabilités Corrigé
I_ L'univers. _ On lance simultanément deux dés indiscernables donc il n'y a pas d'ordre. Il y a répétition, les dbles. On note une issue en écrivant le plus grand chiffre puis le plus petit. 32 signifie
I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M 20 20 80 80 100 100 300 300
I3, Probabilités 2014 Travaux Dirigés TD 1 : rappels. Exercice 1 Poker simplié On tire 3 cartes d'un jeu de 52 cartes. Quelles sont les probabilités d'obtenir un brelan, une couleur, une paire, une suite,
6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses
6. Hachage Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses PLAN Définition Fonctions de Hachage Méthodes de résolution de collisions Estimation
Chapitre 9 : Informatique décisionnelle
Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle
Suivi statistique des scores - Document descriptif des solutions retenues
Rapport de mission Suivi statistique des scores - Document descriptif des solutions retenues Mathurin Aché Statisticien cellule Scores TGPF/OPF/DPF/DBIGP/SCORES Suivi statistique des scores Titre Résumé
Vers une Optimisation de l Algorithme AntTreeStoch
Revue des Sciences et de la Technologie - RST- Volume 3 N 1 / janvier 2012 Vers une Optimisation de l Algorithme AntTreeStoch O. KADRI, H. MOUSS, A. ABDELHADI, R. MAHDAOUI Laboratoire d Automatique et
Régression linéaire. Nicolas Turenne INRA [email protected]
Régression linéaire Nicolas Turenne INRA [email protected] 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R
Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane
Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane Poteaux Adrien XLIM-DMI, UMR-CNRS 6172 Université de Limoges Soutenance de thèse 15 octobre
Le risque Idiosyncrasique
Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes
Définitions. Numéro à préciser. (Durée : )
Numéro à préciser (Durée : ) On étudie dans ce problème l ordre lexicographique pour les mots sur un alphabet fini et plusieurs constructions des cycles de De Bruijn. Les trois parties sont largement indépendantes.
Etude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Quelques Algorithmes simples
Quelques Algorithmes simples Irène Guessarian [email protected] 10 janvier 2012 Je remercie Patrick Cegielski de son aide efficace pour la programmation Java ; la section sur le codage de Huffman a été
Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur
Excel Avancé Plan Outils de résolution La valeur cible Le solveur Interactivité dans les feuilles Fonctions de recherche (ex: RechercheV) Utilisation de la barre d outils «Formulaires» Outils de simulation
Coup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Traitement bas-niveau
Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.
Formats d images. 1 Introduction
Formats d images 1 Introduction Lorsque nous utilisons un ordinateur ou un smartphone l écran constitue un élément principal de l interaction avec la machine. Les images sont donc au cœur de l utilisation
Master Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2.
Master Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2. Techniques de correction pour les options barrières 25 janvier 2007 Exercice à rendre individuellement lors
Le Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Probabilités. C. Charignon. I Cours 3
Probabilités C. Charignon Table des matières I Cours 3 1 Dénombrements 3 1.1 Cardinal.................................................. 3 1.1.1 Définition............................................. 3
Soutenance de stage Laboratoire des Signaux et Systèmes
Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud
ESIEA PARIS 2011-2012
ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire
Fête de la science Initiation au traitement des images
Fête de la science Initiation au traitement des images Détection automatique de plaques minéralogiques à partir d'un téléphone portable et atelier propose de créer un programme informatique pour un téléphone
La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites
La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur
