Fouille de données. Approches supervisées
|
|
- Adrien Ringuette
- il y a 6 ans
- Total affichages :
Transcription
1 Fouille de données Approches supervisées 1
2 Plan du cours 1. Le pré-traitement des données 2. Méthodes non supervisées 3. Méthodes supervisées 4. Méthodes semi-supervisées 5. Fouille de données Web 2
3 Approches supervisées 3
4 Exemple d application Société de crédit Pour chaque client qui veut emprunter : - Age - Statut marital - Salaire annuel - Dettes contractées - Faut-il accorder le crédit? 4
5 Apprentissage supervisé - On apprend des expériences passées - Un ordinateur n a pas d expérience - Il apprend à partir des données - Objectif: apprendre une fonction objectif pour prédire la valeur d une classe - Plusieurs noms possibles: classification, apprentissage supervisé, machine learning 5
6 Un processus en deux étapes 1. Apprentissage du modèle sur un jeu de données d apprentissage X Y Z Classe A C E 1 B D E 2 A C E 1 A D F 2 Données d apprentissage Modèle 2. Test du modèle sur un jeu de données test X Y Z Classe B D E? A C F? A D E? B D F? Données de test Modèle 6 X Y Z Classe prédite B D E 2 A C F 1 A D E 1 B D F 2 Prédiction
7 Hypothèse fondamentale Hypothèse Distribution des classes identique entre le jeu d apprentissage et le jeu de test Remarques - Ce n est jamais vraiment le cas en pratique - Si la distribution est vraiment différente alors la classification sera de mauvaise qualité - Le jeu d apprentissage doit être suffisamment représentatif du jeu de test 7
8 Jeu de données Choix des jeux de données de test et d apprentissage Principes Soit le jeu de données. On note le jeu d apprentissage et le jeu de test. On a : - - Objectif - Etre représentatif de l ensemble du jeu de donnée - Eviter l overfitting (sur-apprentissage) 8
9 Principes Jeu de données Validation simple Découpe du jeu de données en 2 : apprentissage et test A appliquer lorsque le jeu de données est large Répartition courante : - 50 % apprentissage - 50% test - 2/3 apprentissage - 1/3 test Tirage aléatoire ou en fonction de la temporalité de la donnée = 9
10 Jeu de données Tirage multiple aléatoire Principes Applicable si le jeu de données est petit Application n fois de la validation simple Obtention de n indicateurs de performance Efficacité moyenne = la moyenne des n indicateurs de performance = = 10
11 Jeu de données Validation croisée Principes Découpe du jeu de données en k (5 ou 10 généralement) parties On apprend sur k-1 parties et on teste sur la k ème partie Processus répété k fois (chaque partie sert de jeu de données de test) Calcul de l efficacité globale identique au tirage multiple aléatoire Apprentissage Test Round 1 Round 2 Round 3 Round 4 11
12 Evaluation des méthodes - Efficacité de la classification - Temps de calcul - Passage à l échelle: - Interprétabilité - Compacité 12
13 Mesures Efficacité n est qu une mesure Erreur = 1 - efficacité Pas toujours valide sur jeux de données déséquilibrés - Fouille de texte - Détection d intrusion - Détection de fraude Communément : - Classe d intérêt : classe positive - Autre classe : classe négative 13
14 Précision et rappel - Très utilisé en recherche d information - Utilisation d une matrice de contingence Classe prédite + - Classe réelle + VP FN - FP VN 14
15 Précision et rappel Precision Classe prédite Rappel F-mesure Classe réelle VP FN - FP VN 15
16 Précision et rappel Precision Classe prédite Rappel Classe réelle F-mesure Remarques 1. Précision et rappel ne s occupent que de la classe positive 2. Peut facilement être étendu au cas où nbclasses > 2 16
17 Courbe ROC Receiver Operating Characteristic - Communément utilisé pour évaluer les performances d un classifieur bi-classe - Nécessité d ordonner les instances selon la vraisemblance d appartenir à la classe positive Ratio Vrai Positif (RVP) Sensitivité Ratio Faux Positif (RFP) 1 - spécificité 17
18 Courbe ROC Receiver Operating Characteristic Exploitation de la courbe - Calcul de l aire sous la courbe (AUC) - AUC = 1 équivaut à un tirage aléatoire - AUC = 1 équivaut à un classifieur parfait 18
19 Courbe ROC Construction Rang Classe VP FP VN FN RVP 0 0,25 0,5 0,5 RFP ,17 19
20 Courbe ROC Construction Rang Classe VP FP VN FN RVP 0 0,25 0,5 0,5 0,5 0,75 0,75 0, RFP ,17 0,33 0,33 0,50 0,67 0,67 0,
21 Arbres de décision - Une des techniques les plus utilisées - Efficacité compétitive - Rapide à construire - Résultat facile à interpréter Chaque instance du jeu d apprentissage est couverte une et une seule fois 21
22 Arbres de décision Algorithme C4.5 [Quinlan J.,1993] Quilan J. C4.5: programs for machine learning. 1993: Morgan Kaufmann Publishers. 22
23 Arbres de décision Gestion d attributs numériques - Ne gère pas nativement les attributs numériques - Nécessité de discrétiser - Deux classes sont souvent suffisantes (valeur qui maximise le gain) - Nécessite de modifier légèrement l algorithme initial (on garde l attribut numérique) - Impact négatif sur la complexité temporelle 23
24 Arbres de décision Elagage de l arbre - Arbre potentiellement très profond - Bruit, complexité des données, caractère aléatoire - L arbre produit ne généralise pas bien les données (surapprentissage) - Elagage nécessaire (pré ou post traitement) - Si l erreur estimée d un noeud est inférieure ou proche de l erreur estimée moyenne du sous-arbre alors on élague 24
25 Arbres de décision Données manquantes et classes non-équilibrées Données manquantes Situation très courante si pré-traitement mal effectué Plusieurs manières d aborder le problème - Remplacement par une valeur joker - Remplacement par la valeur la plus fréquente ou la moyenne Classes non-équilibrées Une classe apparaît significativement plus qu une autre (alarmes) Plusieurs manières d aborder le problème - Augmenter la proportion de la classe sous-représentée - Echantillonner la classe sur-représentée 25
26 Arbres de décision Résumé AVANTAGES - Très utilisé - Efficacité compétitive - Rapide à construire - Attributs numérique ou catégoriel - Résultats interprétables INCONVÉNIENTS - Données manquantes - Classes non-équilibrées Inconvénients 26
27 Classification naive bayésienne Point de vue probabiliste de l apprentissage Soit A 1,,A k des attributs discrets et C la classe à prédire On cherche la classe c telle que : Pr(C=c A 1 =a1,,a k=ak) soit maximale Fonctionne sur données catégorielles Articles fondateurs Domingos, P., & Pazzani, M. (1997). On the optimality of the simple Bayesian classifier under zero-one loss. Machine learning, 29(2-3), Langley, P., Iba, W., & Thompson, K. (1992, July). An analysis of Bayesian classifiers. In AAAI (Vol. 90, pp ). Kohavi, R., Becker, B., & Sommerfield, D. (1997). Improving simple bayes. 27
28 Classification naive bayésienne Par le théorème de Bayes on a : Probabilité a priori Inutile à des fins de classification 28
29 Classification naive bayésienne Hypothèse d indépendance conditionnelle et de façon similaire pour les autres attributs Sous l hypothèse d indépendance conditionnelle, on a : 29
30 Classification naive bayésienne Classe prédite 30
31 Classification naive bayésienne Exercice A B C m b f m s f g q f h s f g q f g q t g s t h b t h q t m b t A = m, B = q, C =? 31
32 Classification naive bayésienne Attributs numériques,valeurs absentes et valeurs manquantes Attributs numériques Situation très courante On peut utiliser une technique de discrétisation vue précédemment Valeurs absentes Problème si une valeur apparaît uniquement dans le jeu de test On utilise un facteur correcteur : où nij le nombre d instances avec ai et cj, nj le nombre d instances avec cj, mi le nombre de valeurs d Ai et (n est la taille du jeu) Valeurs manquantes Elles sont ignorées dans le calcul 32
33 Classification naive bayésienne Résumé AVANTAGES - Implémentation aisée - Efficacité compétitive - Rapide à construire INCONVÉNIENTS - Indépendance Inconvénients - Attributs numériques - Valeurs absentes - Valeurs manquantes 33
34 Classification naive bayésienne sur les textes [McCallum A. et Nigam K., 1998] Classification de textes Assigner un document à une classe (e.g., Sports, Politique, Finance, ) Constat Méthode précédente assez peu efficace sur des textes Améliorations Cadre probabiliste pour les textes Idées similaires à l approche précédente McCallum, A., & Nigam, K. (1998, July). A comparison of event models for naive bayes text classification. In AAAI-98 workshop on learning for text categorization (Vol. 752, pp ). 34
35 CNB sur les textes Cadre probabiliste pour les textes - Modèle génératif probabiliste - Chaque document est généré par une distribution paramétrique - Estimation des paramètres via le jeu de données d apprentissage Suppositions du modèle génératif probabiliste 1. Les données (ou les textes) sont générés par un modèle de mixture 2. Correspondance une à une entre les composants de la mixture et les classes 35
36 CNB sur les textes Cadre probabiliste pour les textes Notations Génération de di Probabilité que di soit généré par le modèle de mixture 36
37 Modélisation d un texte CNB sur les textes Quelques hypothèses sur les textes Les textes sont représentés comme des sacs de mots (comme en Recherche d Information) Hypothèses - Chaque mot d un document est généré indépendamment de son contexte, i.e., des autres mots du document et de la classe - La probabilité d un mot est indépendante de sa position dans le texte - La longueur des documents est indépendante de la classe Génération de di Par une distribution multinomiale k tirages avec k la taille du document 37
38 CNB sur les textes Calcul de la probabilité conditionnelle Application de la fonction de probabilité d une distribution mulinomiale Indépendant de la classe Le nombre d apparitions de wt dans di 38
39 CNB sur les textes Estimation des paramètres Estimation à partir du jeu d apprentissage L estimation de wt sachant cj est simplement le nombre de fois que wt apparaît dans un document de la classe cj Cas des valeurs absentes 39
40 CNB sur les textes Probabilités a priori et classification Probabilités a priori Probabilités a priori = poids des mixtures Classification 40
41 Classification naive bayésienne Résumé AVANTAGES - Efficace même si violation des hypothèses (indépendance des mots et correspondance une à une entre classes et composants de la mixture) - Rapide à construire INCONVÉNIENTS Inconvénients 41
42 SVM Support Vector Machine Séparateur à Vaste Marge [Vapnik V., 2013] Quand? Classification binaire Attributs réels Principe Trouver un séparateur dont la marge est maximale Séparateur Marge Vapnik, V. (2013). The nature of statistical learning theory. Springer Science & Business Media. 42
43 SVM Pré-requis mathématiques Optimisation non-linéaire - Méthode de Lagrange, lagrangien, multiplicateur de Lagrange - Problèmes primal et dual - Problèmes convexes et leurs résolution Analyse fonctionnelle - Espaces de Hilbert - Espace de Hilbert à noyau reproduisant 43
44 SVM Formulation mathématique du problème Z Z Minimiser ce terme maximise la séparabilité Formulation 44
45 Séparateur rarement linéaire SVM Difficultés Séparateur Séparation rarement parfaite Séparateur 45
46 SVM SVM non linéaire «Dans une tâche de classification supervisée, plus la dimension des données est grande, i.e., plus ils ont d attributs linéairement indépendants, plus la probabilité que les classes soient linéairement séparables est grande» [Théoreme de Cover, 1965] Principe Pulvérisation des données dans un espace potentiellement infini Problème : produit scalaire en grandes dimensions est coûteux Astuce du noyau : noyau symétrique défini positif pour calculer le produit scalaire des données pulvérisées dans l espace de représentation d origine Noyaux usuels Noyau polynomial Noyau gaussien 46
47 SVM Cas linéairement non séparable Principe Introduction de nouvelles contraintes Nouveau problème de minimisation avec contraintes 47
48 Un contre tous Construction SVM Multi-classes Construction de M classifier binaires (classe + pour une classe et - pour toutes les autres) Test Le classifieur donnant la marche la plus élevée remporte le vote et sa décision sera suivie Un contre un Construction Construction de M(M-1)/2 classifieurs Test Vote majoritaire 48
49 SVM Données catégorielles Solutions possibles Création d une variable prenant n valeurs numériques Création de n variables binaires Remarques Meilleures performances des variables binaires Très utilisé pour la classification de documents Fonctionne très bien pour de grandes dimensions 49
50 SVM Résumé AVANTAGES INCONVÉNIENTS - Solides fondations théoriques - Très bonnes performances - Supporte les grandes dimensions - Attributs réels Inconvénients - Classification binaire - Modèle difficilement interprétable 50
51 K plus proches voisins - Pas de construction de modèle (lazy learning vs eager learning) - Nécessite une fonction de distance - Compte la classe majoritaire dans le voisinage 2 plus proches voisins 1 plus proche voisin 3 plus proches voisins 51
52 K plus proches voisins Classification - La classe majoritaire est élue - Possibilité de pondérer en fonction de la distance 2 plus proches voisins 1 plus proche voisin? 3 plus proches voisins Très sensible au paramètre k 52
53 K plus proches voisins Résumé AVANTAGES INCONVÉNIENTS - Simplicité - Efficacité - Gestion des multi-classes - Classification lente Inconvénients - Non gestion des données manquantes 53
54 Constat Questions Classification supervisée Approches ensemblistes Classifieurs isolés peuvent peiner à résoudre un problème de classification Mais ils peuvent chacun être efficaces sur une partie de l espace de données Ne peut on pas construire de nombreux modèles puis les combiner? Comment les combiner? Solutions Génériques : Spécifique: - Bagging - Boosting - Random forest 54
55 Approches ensemblistes Bagging (Bootstrap Aggregating) [Breiman L., 1996] Notations Un jeu de données D avec n exemples et un algorithme d apprentissage M Apprentissage Test 1. Création de k jeu d apprentissage, S1 à Sk, par tirage aléatoire avec remise de n exemples 2. Création de k modèles construites sur S1 Sk avec le même algorithme M - Système de vote (poids égaux) - Election de la classe majoritaire Breiman, L. (1996). Bagging predictors. Machine learning, 24(2),
56 Bagging Forces et faiblesses AVANTAGES INCONVÉNIENTS Peut significativement augmenter les performances des méthodes instables (arbres de décision) Peut dégrader les résultats Inconvénients des méthodes stables (KPP et classification bayésienne) 56
57 Approches ensemblistes Boosting [Schapire R., 1990] Idée générale Un classifieur dit «faible» est exécuté à plusieurs reprises sur le jeu de données repondéré. Mécanisme A chaque itération t : 1. Pondération de chaque exemple selon s il a été bien classé précédemment (fort poids si mal classé) 2. Apprentissage d un modèle noté ht 3. Affection d une force à ce modèle noté Sortie Combinaison linéaire du vote des différents modèles pondéré par leur force Schapire, R. E. (1990). The strength of weak learnability. Machine learning, 5(2),
58 Boosting Pondération du jeu de données Les exemples ne sont pas égaux Plus un exemple est dur à classer plus celui-ci devrait être «sur-représenté» dans le jeu de données Jeu de données pondéré On note D(i) le poids du i ème exemple (xi, yi) Interprétation : - Le i ème exemple compte pour D(i) exemples - Si on doit «resampler» le jeu de données, les exemples ayant un fort poids seront plus présents 58
59 Boosting AdaBoost 59
60 Références Ces ouvrages pointent vers de nombreuses références d articles scientifiques décrivant les approches vues en cours ou des variantes de celles-ci - Data Mining - Concepts and Techniques par J. Han et M.Kamber (ed. Morgan Kauffman) - Web Data Mining - ExploringHyperlink, Contents and Usage Data par B. Liu (ed. Springer) - Statistiques Exploratoires Multidimensionnelles par L. Lebart et al. (ed. Dunod) 60
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailLaboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Plus en détailIntroduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailMéthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailCALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING
CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailSélection de Caractéristiques pour le Filtrage de Spams
Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. k_menghour@yahoo.fr, souici_labiba@yahoo.fr
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailTechniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailNouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires
Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires Julien Jorge julien.jorge@univ-nantes.fr Laboratoire d Informatique de Nantes Atlantique,
Plus en détailMathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans
Mathématique et Automatique : de la boucle ouverte à la boucle fermée Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans Maitine.Bergounioux@labomath.univ-orleans.fr Plan 1. Un peu de
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailSujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailRésolution d équations non linéaires
Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailOrdonnancement temps réel
Ordonnancement temps réel Laurent.Pautet@enst.fr Version 1.5 Problématique de l ordonnancement temps réel En fonctionnement normal, respecter les contraintes temporelles spécifiées par toutes les tâches
Plus en détailEchantillonnage Non uniforme
Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas
Plus en détailLe modèle de Black et Scholes
Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un
Plus en détailAmélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons
Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons Ahmad OSMAN 1a, Valérie KAFTANDJIAN b, Ulf HASSLER a a Fraunhofer Development Center
Plus en détailApprentissage symbolique et statistique à l ère du mariage pour tous
Apprentissage symbolique et statistique à l ère du mariage pour tous Stéphane Canu asi.insa-rouen.fr/enseignants/~scanu RFIA 2014, INSA Rouen 2 juillet 2014 Apprentissage : humain vs. machine Les apprentissages
Plus en détailUtilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données
Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique
Plus en détailCommunications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes
Loris MARCHAL Laboratoire de l Informatique du Parallélisme Équipe Graal Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes Thèse réalisée sous la direction
Plus en détailCréation intuitive des éléments d un paysage
Création intuitive des éléments d un paysage Marie-Paule Cani Univ. Grenoble-Alpes, CNRS & Inria Organisation du cours «Façonner l imaginaire» Partie 1 : Création numérique 3D Modélisation géométrique
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailLes algorithmes de base du graphisme
Les algorithmes de base du graphisme Table des matières 1 Traçage 2 1.1 Segments de droites......................... 2 1.1.1 Algorithmes simples.................... 3 1.1.2 Algorithmes de Bresenham (1965).............
Plus en détailExercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA
75. Un plombier connaît la disposition de trois tuyaux sous des dalles ( voir figure ci dessous ) et il lui suffit de découvrir une partie de chacun d eux pour pouvoir y poser les robinets. Il cherche
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailFormation continue. Ensae-Ensai Formation Continue (Cepe)
CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat
Plus en détailUEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.
UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases
Plus en détailThéorie et codage de l information
Théorie et codage de l information Les codes linéaires - Chapitre 6 - Principe Définition d un code linéaire Soient p un nombre premier et s est un entier positif. Il existe un unique corps de taille q
Plus en détailApprentissage statistique dans les graphes et les réseaux sociaux
Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique
Plus en détailSécurité par compression! ReSIST 2010. Gilles RICHARD IRIT www.irit.fr/bite www.bite.ac.uk
Sécurité par compression! ReSIST 2010 Gilles RICHARD IRIT www.irit.fr/bite www.bite.ac.uk Introduction Sécurité.. intrusion réseau, attaques (DoS,DDoS etc.) virus, etc... spams code injection (SQL,XSS,CSRF,...)
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailLa programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique
La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailCHAPITRE 5. Stratégies Mixtes
CHAPITRE 5 Stratégies Mixtes Un des problèmes inhérents au concept d équilibre de Nash en stratégies pures est que pour certains jeux, de tels équilibres n existent pas. P.ex.le jeu de Pierre, Papier,
Plus en détailMéthodologie d'évaluation des filtres anti-spam
Méthodologie d'évaluation des filtres anti-spam José-Marcio Martins da Cruz Mines ParisTech Centre de Calcul et Systèmes d'information 60, bd Saint Michel 75006 - Paris email:jose-marcio.martins@mines-paristech.fr
Plus en détailOptimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante
Plus en détailTests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Plus en détailchoisir H 1 quand H 0 est vraie - fausse alarme
étection et Estimation GEL-64943 Hiver 5 Tests Neyman-Pearson Règles de Bayes: coûts connus min π R ( ) + ( π ) R ( ) { } Règles Minimax: coûts connus min max R ( ), R ( ) Règles Neyman Pearson: coûts
Plus en détailResolution limit in community detection
Introduction Plan 2006 Introduction Plan Introduction Introduction Plan Introduction Point de départ : un graphe et des sous-graphes. But : quantifier le fait que les sous-graphes choisis sont des modules.
Plus en détailOptimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h
Télécom Physique Strasbourg Master IRIV Optimisation et programmation mathématique Professeur Michel de Mathelin Cours intégré : 20 h Programme du cours d optimisation Introduction Chapitre I: Rappels
Plus en détailNombres premiers. Comment reconnaître un nombre premier? Mais...
Introduction Nombres premiers Nombres premiers Rutger Noot IRMA Université de Strasbourg et CNRS Le 19 janvier 2011 IREM Strasbourg Definition Un nombre premier est un entier naturel p > 1 ayant exactement
Plus en détailMéthodologie d'évaluation des filtres anti-spam
Méthodologie d'évaluation des filtres anti-spam José-Marcio Martins da Cruz Mines ParisTech Centre de Calcul et Systèmes d'information 60, bd Saint Michel 75006 - Paris Résumé Depuis une dizaine d'années,
Plus en détailAPPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE
SûretéGlobale.Org La Guitonnière 49770 La Meignanne Téléphone : +33 241 777 886 Télécopie : +33 241 200 987 Portable : +33 6 83 01 01 80 Adresse de messagerie : c.courtois@sureteglobale.org APPORT DES
Plus en détailMaster Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2.
Master Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2. Techniques de correction pour les options barrières 25 janvier 2007 Exercice à rendre individuellement lors
Plus en détailProjet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Plus en détailContinuité et dérivabilité d une fonction
DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité
Plus en détailphysicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178
Thèse no. 7178 PROBLEMES D'OPTIMISATION DANS LES SYSTEMES DE CHAUFFAGE A DISTANCE présentée à l'ecole POLYTECHNIQUE FEDERALE DE ZURICH pour l'obtention du titre de Docteur es sciences naturelles par Alain
Plus en détailProblèmes arithmétiques issus de la cryptographie reposant sur les réseaux
Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux Damien Stehlé LIP CNRS/ENSL/INRIA/UCBL/U. Lyon Perpignan, Février 2011 Damien Stehlé Problèmes arithmétiques issus de la cryptographie
Plus en détailRésolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Plus en détailI- Définitions des signaux.
101011011100 010110101010 101110101101 100101010101 Du compact-disc, au DVD, en passant par l appareil photo numérique, le scanner, et télévision numérique, le numérique a fait une entrée progressive mais
Plus en détailBrève introduction à la fouille de grandes bases de données océaniques
Brève introduction à la fouille de grandes bases de données océaniques Guillaume Maze 1, Herlé Mercier 2, Ronan Fablet 3, Philippe Lenca 3 et Jean-François Piollé 4 1 Ifremer, UMR 6523, Laboratoire de
Plus en détailSéance 4. Gestion de la capacité. Gestion des opérations et de la logistique 4-530-03
Gestion des opérations et de la logistique Séance 4 4-530-03 Gestion de la capacité Points importants présentés au dernier cours Les principaux types d aménagement Étude du travail et l amélioration des
Plus en détailANALYSE STATISTIQUE PRÉDICTIVE
Yoshua Bengio Chaire de Recherche du Canada sur les Algorithmes d Apprentissage Statistique, Université de Montréal Charles Dugas ApSTAT Technologies Inc. Et Aviva Canada SALON INTELLIGENCE D AFFAIRE 8
Plus en détailLogiciel Libre Cours 3 Fondements: Génie Logiciel
Logiciel Libre Cours 3 Fondements: Génie Logiciel Stefano Zacchiroli zack@pps.univ-paris-diderot.fr Laboratoire PPS, Université Paris Diderot 2013 2014 URL http://upsilon.cc/zack/teaching/1314/freesoftware/
Plus en détailLa valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]
Evaluation de la rentabilité d un projet d investissement La décision d investir dans un quelconque projet se base principalement sur l évaluation de son intérêt économique et par conséquent, du calcul
Plus en détailTABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be
Plus en détailLOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.
Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de
Plus en détailPrincipe d optimisation. Optimisation technico-économique. Coût. Isolation thermique. Isolation optimale
Optimisation technico-économique Objectif : obtenir une certaine prestation à moindre coût Dans le domaine du bâtiment, cette optimisation peut s appliquer à trois niveaux différents : choix des composants
Plus en détailObjectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)
Objectifs du cours d aujourd hui Informatique II : Cours d introduction à l informatique et à la programmation objet Complexité des problèmes Introduire la notion de complexité d un problème Présenter
Plus en détailFIMA, 7 juillet 2005
F. Corset 1 S. 2 1 LabSAD Université Pierre Mendes France 2 Département de Mathématiques Université de Franche-Comté FIMA, 7 juillet 2005 Plan de l exposé plus court chemin Origine du problème Modélisation
Plus en détailConception systematique d'algorithmes de detection de pannes dans les systemes dynamiques Michele Basseville, Irisa/Cnrs, Campus de Beaulieu, 35042 Rennes Cedex, bassevilleirisa.fr. 1 Publications. Exemples
Plus en détailLes algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Plus en détailSolution A La Gestion Des Objets Java Pour Des Systèmes Embarqués
International Journal of Engineering Research and Development e-issn: 2278-067X, p-issn: 2278-800X, www.ijerd.com Volume 7, Issue 5 (June 2013), PP.99-103 Solution A La Gestion Des Objets Java Pour Des
Plus en détailApprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailCalculer avec Sage. Revision : 417 du 1 er juillet 2010
Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1
Plus en détailValidation probabiliste d un Système de Prévision d Ensemble
Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste
Plus en détailChapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Plus en détailFigure 3.1- Lancement du Gambit
3.1. Introduction Le logiciel Gambit est un mailleur 2D/3D; pré-processeur qui permet de mailler des domaines de géométrie d un problème de CFD (Computational Fluid Dynamics).Il génère des fichiers*.msh
Plus en détailLa NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.
La NP-complétude Johanne Cohen PRISM/CNRS, Versailles, France. Références 1. Algorithm Design, Jon Kleinberg, Eva Tardos, Addison-Wesley, 2006. 2. Computers and Intractability : A Guide to the Theory of
Plus en détailArithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot
Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,
Plus en détailNouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires
Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires Julien Jorge, Xavier Gandibleux Laboratoire d Informatique de Nantes Atlantique
Plus en détailAnnexe 6. Notions d ordonnancement.
Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document
Plus en détail1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données
1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l
Plus en détailContexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Plus en détailTransformations nucléaires
Transformations nucléaires Stabilité et instabilité des noyaux : Le noyau d un atome associé à un élément est représenté par le symbole A : nombre de masse = nombre de nucléons (protons + neutrons) Z :
Plus en détailQuantification et hiérarchisation des incertitudes dans un processus de simulation numérique
Proposition de thèse CIFRE CERMICS-EDF Quantification et hiérarchisation des incertitudes dans un processus de simulation numérique 13 Janvier 2015 1 Contexte industriel et problématique En tant qu équipement
Plus en détailOptimisation Discrète
Prof F Eisenbrand EPFL - DISOPT Optimisation Discrète Adrian Bock Semestre de printemps 2011 Série 7 7 avril 2011 Exercice 1 i Considérer le programme linéaire max{c T x : Ax b} avec c R n, A R m n et
Plus en détail