DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé



Documents pareils
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Méthodes d apprentissage statistique «Machine Learning»

Coup de Projecteur sur les Réseaux de Neurones

4.2 Unités d enseignement du M1

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Identification de nouveaux membres dans des familles d'interleukines

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Introduction au Data-Mining

Apprentissage Automatique

Programmation linéaire

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

ÉTUDE ET DÉVELOPPEMENT D UN SYSTÈME EXPERT BASÉ SUR LES RÉSEAUX DE NEURONES POUR LE DIAGNOSTIC DES DÉFAUTS DE ROULEMENTS

Introduction au Data-Mining

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Druais Cédric École Polytechnique de Montréal. Résumé

Les algorithmes de fouille de données

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

ANALYSE STATISTIQUE PRÉDICTIVE

Apprentissage statistique dans les graphes et les réseaux sociaux

Introduction au datamining

Validation probabiliste d un Système de Prévision d Ensemble

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

La classification automatique de données quantitatives

Outrepasser les limites des techniques classiques de Prise d'empreintes grâce aux Réseaux de Neurones

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Probabilités Loi binomiale Exercices corrigés

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

5. Apprentissage pour le filtrage collaboratif

Scénario: Score d appétence de la carte visa premier

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Thèse. Mathieu RAMONA

Commande Prédictive des. Convertisseurs Statiques

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

4 Exemples de problèmes MapReduce incrémentaux

Évaluation et implémentation des langages

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Arbres binaires de décision

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

NON-LINEARITE ET RESEAUX NEURONAUX

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Agrégation des portefeuilles de contrats d assurance vie

Laboratoire d Automatique et Productique Université de Batna, Algérie

Stages de Formation en Statistique Appliquée et Logistique

L apprentissage automatique

Vers une Optimisation de l Algorithme AntTreeStoch

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Poker. A rendre pour le 25 avril

Philippe BESSE*, Hélène MILHEM*, Olivier MESTRE*,**, Anne DUFOUR***, Vincent-Henri PEUCH*** Résumé

Notice d Utilisation du logiciel Finite Element Method Magnetics version 3.4 auteur: David Meeker

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

PROGRAMME (Susceptible de modifications)

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Happy birthday ZSet High performance computing dans ZSet

Stages de Formation en Statistique Appliquée et Logistique

Simulation de variables aléatoires

Programmation linéaire et Optimisation. Didier Smets

Exercice : la frontière des portefeuilles optimaux sans actif certain

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Reconnaissance de gestes : approches 2D & 3D

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Optimisation Discrète

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Résolution de systèmes linéaires par des méthodes directes

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Sujet 4: Programmation stochastique propriétés de fonction de recours

Quantification Scalaire et Prédictive

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Formation à la C F D Computational Fluid Dynamics. Formation à la CFD, Ph Parnaudeau

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Introduction à l approche bootstrap

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Cours 7 : Utilisation de modules sous python

Conception de réseaux de télécommunications : optimisation et expérimentations

Data Mining et Statistique

Programmation linéaire

Introduction à MATLAB R

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Annexe 6. Notions d ordonnancement.

TABLE DES MATIÈRES CHAPITRE I. Les quanta s invitent

T.P. FLUENT. Cours Mécanique des Fluides. 24 février 2006 NAZIH MARZOUQY

Sélection de Caractéristiques pour le Filtrage de Spams

Analyse d opinions de tweets par réseaux de neurones convolutionnels

Transcription:

I. Réseau Artificiel de Neurones 1. Neurone 2. Type de réseaux Feedforward Couches successives Récurrents Boucles de rétroaction Exemples de choix pour la fonction : suivant une loi de probabilité Carte autoorganisatrice Neurones reliés Autoassociateur Objectif : réduction de dimension Réseaux profonds Réseaux à multiples couches. Réseau convolutionnel Poids liés, forme un filtre de convolution MultiLayer Perceptron Radial Basis Function Network Time Delay Neural Networks NARMAX, Jordan, Elman, Self-Organized Map Carte de Cohonen Les réseaux profonds nécessitent qu on initialise les poids pour stabiliser les calculs. Pour cela, on préapprend les couches basses (vertes) avec des auto-associateurs (cf ex d auto-associateur). 3. Perceptron Multi-Couches a. Définition d une couche Pour une couche, on a entrées notées, sorties notées. [ ] Entrée Poids Sommage Sortie b. Principe pour une couche c. Calcul pour couches et rétropropagation La technique consiste à choisir une fonction pour la Sortie sortie finale (ex : où est l objectif de sortie) et de calculer. Paramètres ( ) Pour les autres couches ( rétropropagation du gradient, soit ), on applique la Entrée ( ) 1

II. Mélange de classifieurs 1. Généralités sur les mélanges Principe Consiste à combiner les décisions de plusieurs classifieurs. Limitations d un classifieur unique Limitation Problème du classifieur seul Statistique Il existe plusieurs classifieurs avec (variance) les mêmes performances en test. Représentation On peut créer un nombre limité (biais) de classifieurs. Computationnelle On tombe souvent dans des minimas locaux. Avantage du mélange Moyenner plusieurs classifieurs aussi performants. Obtenir un classifieur qu on ne pourrait pas construire directement. S approcher du minimum global. Types de mélanges Hétérogènes (classifieurs de types ) / Homogènes (classifieurs de même type) Approches Injecter de l aléatoire / Manipuler les données (apprentissage, entrée, sortie) / 2. Bootstrap Méthode de ré-échantillonnage permettant d estimer une grandeur d un jeu initial de valeurs en créant jeux de données de valeurs par tirage aléatoire avec remise sur le jeu. } } } ( ) ( ( ) ) 3. Bagging a. Principe Le bagging applique l idée du bootstrap à la classification. A partir du jeu initial, on crée (souvent 50) jeux par tirage bootstrap (souvent ) sur lesquels on apprends des classifieurs que l on combine finalement (souvent vote majoritaire). b. Out-Of-Bag L OOB d un jeu est l ensemble de valeurs de qui ne sont pas dans (en moyenne 37%). Cet ensemble peut servir comme jeu de test lors de l apprentissage sur le jeu. 2

4. Boosting a. Principe Apprentissage itératif/adaptatif d un ensemble de classifieurs par pondération de chaque donnée en fonction de son erreur par les classifieurs précédents. pour b. Algorithme d apprentissage AdaBoost Initialisation des poids faire Apprentissage de fin pour c. Classification On fait de la classification par vote pondéré, c est-à-dire : Calcul de l erreur pondérée de Calcul du coefficient de pondération de Mise à jour des poids des données ( ) 5. Foret aléatoires a. Arbres de décision 1. Créer un premier groupe avec l ensemble de données 2. Apprendre une règle pour séparer le groupe en 2 sous-groupes les plus purs possibles 3. Répéter l opération 2 sur chaque sous-groupe, sauf si on a atteint le critère d arrêt On peut prendre par exemple comme critères d arrêts une pureté minimale à atteindre et/ou une hauteur maximale de l arbre. b. Principe de la forêt aléatoire Apprendre un ensemble d arbres de décision à partir de données différentes mais suivant la même distribution statistique et combiner leurs décisions. c. Construction des jeux de données Pour augmenter les performances des forêts, on ajoute de l aléatoire dans la création du jeu d apprentissage de chaque arbre à partir des données. Création des jeux par bootstrap Construction des arbres par rapport à une seule variable (Random Feature Selection TODO a revoir ) Sélection d un sous-ensemble de variables parmi les variables de d. Décision de la forêt Vote majoritaire simple des décisions des arbres Pondération des arbres par leur performance sur l OOB 3

III. SVM et noyaux 1. Rappel : le SVM linéaire a. Problème primal } ( ) Données initiales Problème SVM linéaire primal Fonction de décision b. Problème dual Lagrangien du problème primal ( ) Focus sur la complémentarité : cas possibles de classement des points Bien classés Vecteurs supports Mal classés (inutiles) (définissent la frontière) (influent) ( ) Problème dual Problème SVM linéaire dual 2. Passage au problème non-linéaire : noyau On se propose de rendre linéaire un problème qui ne l est pas en changeant d espace via une feature map passant des aux, on utilisera donc les dans le problème. L espace d arrivée est très grand. Dans le primal, le nombre de variable explose. Dans le dual, on a toujours autant de variables mais il faut calculer les produits scalaires entre les. On définit le kernel permettant de calculer à partir de. En pratique donc, on ne calcule pas les, on intègre la fonction kernel au problème quand on a besoin des produits scalaires des. Le problème et la fonction de décision deviennent donc :.. ( ) Fonction de décision Exemple de polynomiale : Exemple de kernels :. ( ). ( ). Problème primal Problème dual Fonction de décision 4

IV. Choix des paramètres par validation croisée 1. Estimation de l erreur par validation croisée } Erreur : Data Splitées Appretissages Erreurs Erreur finale 2. Optimisation des hyperparamètres Pour optimiser paramètres, on génère une grille de dimension et on calcule l erreur pour chaque point de la grille. On peut répéter l opération sur plusieurs grilles de plus en plus précises. V. Support Vector Data Description 1. Minimum enclosing ball problem avec Problème primal Problème dual 2. Ajout d un kernel avec Problème SVDD primal Problème SVDD dual Centre Fonction de décision VI. SVM multi-classe Approche Problem size Nb of sub-problems Total size Discrimination Rejection All together + -- 1 vs. all ++ - Décomposition 1 vs. 1 ++ - c SVDD - ++ Couplage CH + + All together 5

VII. Multi kernel SVM 1. Principe avec et Mélange de kernels : combinaison linéaire de kernels 2. Problème d optimisation Fonction de décision ( ) ( ) Problème MKL primal Problème MKL primal bi-niveaux 3. Résolution On résout le problème par descente de gradient. A chaque itération on résout et on calcule son gradient, on en déduit la direction de descente et le pas optimal dans cette direction. Cout à l optimum Gradient Direction de descente 6