Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6



Documents pareils
Introduction au Data-Mining

Introduction au Data-Mining

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Apprentissage Automatique

1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Chapitre 3. Les distributions à deux variables

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Analyse en Composantes Principales

Programmes des classes préparatoires aux Grandes Ecoles

La classification automatique de données quantitatives

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Température corporelle d un castor (une petite introduction aux séries temporelles)

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Simulation de variables aléatoires

Filtrage stochastique non linéaire par la théorie de représentation des martingales

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Enjeux mathématiques et Statistiques du Big Data

de calibration Master 2: Calibration de modèles: présentation et simulation d

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Coup de Projecteur sur les Réseaux de Neurones

Quantification Scalaire et Prédictive

Big Data et Graphes : Quelques pistes de recherche

Spécificités, Applications et Outils

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Sélection de Caractéristiques pour le Filtrage de Spams

Espérance conditionnelle

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Extraction d informations stratégiques par Analyse en Composantes Principales

Introduction au datamining

Agenda de la présentation

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

4.2 Unités d enseignement du M1

STATISTIQUES. UE Modélisation pour la biologie

3. Conditionnement P (B)

Programmation linéaire

5. Apprentissage pour le filtrage collaboratif

Exercice : la frontière des portefeuilles optimaux sans actif certain

Big Data et Graphes : Quelques pistes de recherche

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Modèles et Méthodes de Réservation

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Résolution de systèmes linéaires par des méthodes directes

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L apprentissage automatique

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

données en connaissance et en actions?

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Apprentissage non paramétrique en régression

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Interception des signaux issus de communications MIMO

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Moments des variables aléatoires réelles

Table des matières. I Mise à niveau 11. Préface

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

3. Caractéristiques et fonctions d une v.a.

Que faire lorsqu on considère plusieurs variables en même temps?

Les algorithmes de base du graphisme

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Annexe 6. Notions d ordonnancement.

BI = Business Intelligence Master Data-Science

FORMULAIRE DE STATISTIQUES

Cours de méthodes de scoring

Econométrie et applications

Introduction à l approche bootstrap

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Application du data mining pour l évaluation de risque en assurance automobile

Correction de l examen de la première session

INF6304 Interfaces Intelligentes

Relation entre deux variables : estimation de la corrélation linéaire

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Statistique Descriptive Élémentaire

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vérification audiovisuelle de l identité

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Mesure agnostique de la qualité des images.

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Pourquoi l apprentissage?

Qu est-ce qu une probabilité?

Le modèle de Black et Scholes

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

TRAVAUX DE RECHERCHE DANS LE

NON-LINEARITE ET RESEAUX NEURONAUX

Transcription:

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1

Contexte Observation La plupart des bonnes solutions à un problème prédictif/analytique provient de la qualité des caractéristiques fournies au systèmes. Problèmes Inutilité : Certaines caractéristiques sont inutiles Malédiction des grandes dimensions : Le nombre d exemples nécessaires pour antrainer un système croit exponnetiellement ebn fonction de la taille de l espace d entrée Autres problèmes : coût des caractéristiques, type de caractéristiques,... Problématique : Comment découvrir de bonnes caractéristiques Ludovic Denoyer () FDMS 21 septembre 2015 2 / 1

Malédiction des grandes dimensions Intuition Un même nombre d exemples prend moins de place quand la dimensionnalité du problème est petite. Concrètement : Au dessus d une certaine dimension, la performance (en généralisation) de notre classifier va avoir tendance à décroitre fortement perte de la capacité à généraliser Ludovic Denoyer () FDMS 21 septembre 2015 3 / 1

Plan du Cours Problématique : Comment trouver des caractéristiques pertinentes? Sélection de caractéristiques : Sélectionner un sous-ensemble des caractéristiques existantes : Approches de type Filtering Approches de type Wrappers Extraction de caractéristiques : Combiner des caractéristiques existantes pour obtenir un (petit nombre) de caractéristiques pertinentes : Approches de type PCA Approches de type Auto-Encodage Approches de type Representation Learning (Deep Learning) Ludovic Denoyer () FDMS 21 septembre 2015 4 / 1

Features Selection Soit un ensemble d entrée X = R n tel que x = (x 1, x 2,..., x n ) On cherche à trouver un sous-ensemble de dimensions caractérisé par un ensemble I d index dans [1; n] Etant donné I = (i 1,...i M ), le nouvel espace d entrée sera caractérisé par x = (x i1, x i2,..., x im ) Ludovic Denoyer () FDMS 21 septembre 2015 5 / 1

Problème La sélection de caractéristique est un problème de recherche discret : très grand espace de recherche développement de stratégies approchées Ludovic Denoyer () FDMS 21 septembre 2015 6 / 1

Deux stratégies Méthodes de filtrage Les méthodes de filtrage considèrent que la sélection des caractéristiques s effectue a priori de l apprentissage On ne garde que les caractéristiques dont le pouvoir prédictif est élevé Ce pouvoir prédictif est estimé par l étude mono-dimensionnelle de la caractéristique Méthodes de wrappers Les méthodes Wrappers sélectionnent les caractéristiques directement sur la qualité du modèle obtenu Ludovic Denoyer () FDMS 21 septembre 2015 7 / 1

Méthodes de Filtrage On considère l espace de sortie Y. Principe Pour chaque caractéristique i [1; n], on va calculer un score R(i) et ne conserver que les caractéristiques dont le score est le plus élevé. Quel score utiliser? Intuitivement, R(i) doit nous donner une idée de la capacité de la caractéristique i a aider la prédiction (i.e Y) Plusieurs critères : Théorie de l information Corrélation Test statistiques Ludovic Denoyer () FDMS 21 septembre 2015 8 / 1

Corrélation Corrélation En probabilités et en statistiques, étudier la corrélation entre deux ou plusieurs variables aléatoires ou statistiques numériques, c est étudier l intensité de la liaison qui peut exister entre ces variables.source : Wikipedia, comme d habitude Différents types de liaisons peuvent exister entre variables. La plus simple est la liaison linéaire corrélation linéaire Corrélation linéaire Soit la variable X i (caractéristique) et la variable Y (étiquette) : Corr(X, Y ) = Cov(X i, Y ) Var(Xi )Var(Y ) (1) avec Cov(X i, Y ) = E[X i Y ] E[X i ]E[Y ] = E [(X i E[X i ])(Y E[Y ])], Cov(X i, Y ) = 0 ssi X i et Y sont indépendantes Ludovic Denoyer () FDMS 21 septembre 2015 9 / 1

Corrélation Estimation Les lois de distributions de X i et Y sont inconnues, il faut dont les estimer à partir de l ensemble d apprentissage : R(i) = N (xi k x i )(y k ȳ) k=1 (2) N (xi k x i ) 2 N (y k ȳ) 2 k=1 k=1 Conclusion : Mesure la dépendance linéaire entre la caractéristique et la sortie. D autres mesures non-linéaire peuvent être utilisées... Ludovic Denoyer () FDMS 21 septembre 2015 10 / 1

Information Mutuelle Information Mutuelle Dans la théorie des probabilités et la théorie de l information, l information mutuelle de deux variables aléatoires est une quantité mesurant la dépendance statistique de ces variables. Elle se mesure souvent en bit.source : Wikipedia I(i) = x i y p(x i, y) log p(x i, y) p(x i )p(y) dx i dy (3) I(i) mesure ici la dépendance entre la distribution de X i et la ditrribution de la sortie Y Cas des variables discrètes I(i) = x i y P(x i, y) log P(x i, y) P(x i )P(y) (4) P(y) est la probabilité a priori de la classe P(x i ) est la probabilité a priori de la modalité P(x Ludovic i, Denoyer y) est() la probabilité jointefdms 21 septembre 2015 11 / 1

Méthodes de filtrage Voir livre de I. Guyon - Chapitre 3 Ludovic Denoyer () FDMS 21 septembre 2015 12 / 1

Méthodes de Filtrage Les méthodes de filtrage visent à ordonner les variables par ordre de pertinence, et à ne conserver que les meilleures. Elles traitent les caractéristiques indépendamment les unes des autres. Ce sont des méthodes rapides de sélection de variables. Quelles en sont les limites? Ludovic Denoyer () FDMS 21 septembre 2015 13 / 1

Limites Ludovic Denoyer () FDMS 21 septembre 2015 14 / 1

Limites Est-ce qu une variable qui n est pas utile toute seule peut être utile quand même? Ludovic Denoyer () FDMS 21 septembre 2015 15 / 1

Méthodes de Wrappers Principe La sélection des variables est directement faites en fonction de la performance du prédicteur utilisé Solution Naive On peut tester tous les sous-ensembles de features. Problème NP-complet!! Différents algorithmes de recherche : glouton, beam-search,... Exemple : Recherche gloutonne Ajout graduel de caractéristiques basé sur un score à chaque pas de l algorithme Ce score doit refléter la performance du système (en généralisation! ) cross-validation Ludovic Denoyer () FDMS 21 septembre 2015 16 / 1

Méthodes embarquées Ludovic Denoyer () FDMS 21 septembre 2015 17 / 1

Méthodes d arbres (MORACOI / BI) Ludovic Denoyer () FDMS 21 septembre 2015 18 / 1

Construction de features et réduction de dimensionnalité Features Extraction Le but de l extraction de features est de construire un nouveau sous-ensemble de caractéristiques de taille plus faible que l ensemble original, les nouvelles cractéristiques permettant d obtenir une performance meilleure Différentes méthodes : Non-supervisé - Clustering, PCA, SVD,... Supervisé - Neural Networks Ludovic Denoyer () FDMS 21 septembre 2015 19 / 1

Clustering Clustering Une méthode de clustering est une méthode permettant de regrouper des données par groupes de données similaires. Dans le cadre de la sélection de caractéristiques : Le clustering est effectué sur les caractéristiques Le cluster remplace dans l espace de représentation l ensemble des caractéristiques qu il contient Ludovic Denoyer () FDMS 21 septembre 2015 20 / 1

SVD et Factorisation Matricielle Singular Value Decomposition Le but de la SVD est de former un ensemble de features par combinaison linéaire de features existantes. Le critère de création de ces features est un critère de de reconstruction de données (au sens des moindres carrés) X = P Q T min X P Q T 2 (5) Ludovic Denoyer () FDMS 21 septembre 2015 21 / 1

SVD et Factorisation Matricielle Ludovic Denoyer () FDMS 21 septembre 2015 22 / 1

PCA La PCA est une méthode permettant de trouver des variables décorrélées dans nos données Cov(X 1, X 2 ) = ( 16.87 ) 14.94 14.94 17.27 (6) Ludovic Denoyer () FDMS 21 septembre 2015 23 / 1

PCA Cov(X 1, X 2) = ( ) 1.06 0 0 16.0 La transformation est obtenue par un changement de base : X = PX Les lignes de P sont les nouveaux vecteurs bases des données Sur quel critère trouver P et de quelle manière? LudovicOn Denoyer veut () enlever de la redondance FDMS dans les données (et 21 septembre du bruit) 2015 24 / 1 (7)

PCA Quelles sont les critères permettant de caractériser la redondance? Ludovic Denoyer () FDMS 21 septembre 2015 25 / 1

PCA Considérons que X est une matrice m n (m variables, n individus) dont la variance des variables est 0 (données centrées). La matrice de variance/covariance s écrit : S X est une matrice carrée m m S X = 1 n 1 XX T (8) Ludovic Denoyer () FDMS 21 septembre 2015 26 / 1

PCA Le but de l ACP est de trouver la transformation P telle que : Minimise la redondance (les termes hors diagonals doivent être proches de 0) Maximise le signal (les termes diagonals doivent être élevés) obtention d une matrice diagonale S Y = S PX. L ACP considère que les vecteurs base de la matrice P sont orthogonaux ( p i.p j = 0) De plus, les directions avec la variance max sont les directions les plus importantes (principales) Ludovic Denoyer () FDMS 21 septembre 2015 27 / 1

Algorithme PCA 1 Sélectionner la direction dans laquelle la variance est maximisée 2 Trouver la second direction sous contrainte qu elle soit orthogonale à la première 3 Continuer jusqu à avoir sélectionné m directions 4 Les variances associées aux directions résument l importance de chaque direction Il existe une solution analytique à cette algorithme. Ludovic Denoyer () FDMS 21 septembre 2015 28 / 1

PCA S Y = 1 n 1 YY T = 1 n 1 (PX)(PX)T = 1 n 1 (PX)X T P T = 1 n 1 P(XX T )P T = 1 n 1 PAPT avec A qui est une matrice symétrique et peut être écrite en fonction de ses vecteurs propres : A = EDE T avec D diagonale. (9) Ludovic Denoyer () FDMS 21 septembre 2015 29 / 1

PCA Si l on sélectionne P = E T alors : S Y = 1 n 1 PAPT = 1 n 1 P(PT DP)P T = 1 n 1 (PPT )D(PP T ) = 1 n 1 (PP 1 )D(PP 1 ) car P est orthonormale et P T = P 1 = 1 n 1 D : CQFD (10) Il faut donc trouver les vecteurs propres de XX T Ludovic Denoyer () FDMS 21 septembre 2015 30 / 1

PCA : Workflow Centrer les données en soustrayant la moyenne de chaque variable Calculer la matrice de covariance Calculer les vecteurs propres de cette matrice Projeter les données dans le nouvel espace Ne conserver que les nouvelle caractéristique dont les valeurs propres sont les plus importantes Ludovic Denoyer () FDMS 21 septembre 2015 31 / 1

PCA : Exemple Ludovic Denoyer () FDMS 21 septembre 2015 32 / 1

Autres méthodes Risque régularisé L 1 Réseaux de neurones Représentation Learning Ludovic Denoyer () FDMS 21 septembre 2015 33 / 1

Conclusion - from Guyon 2003 Ludovic Denoyer () FDMS 21 septembre 2015 34 / 1

Conclusion - from Guyon 2003 Ludovic Denoyer () FDMS 21 septembre 2015 35 / 1

Conclusion La sélection de caractéristiques est un point clef de la data science Un gros catalogue de méthodes existent En TP : une autre famille de méthodes les méthodes L 1 En AS : les réseaux de neurones profonds Ludovic Denoyer () FDMS 21 septembre 2015 36 / 1