Outils mathématiques pour le datamining. http://www.elseware.fr/univevry



Documents pareils
Programmes des classes préparatoires aux Grandes Ecoles

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Moments des variables aléatoires réelles

Simulation de variables aléatoires

Espérance conditionnelle

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

PROBABILITES ET STATISTIQUE I&II

3. Conditionnement P (B)

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Calcul différentiel. Chapitre Différentiabilité

La classification automatique de données quantitatives

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

3. Caractéristiques et fonctions d une v.a.

Correction du baccalauréat ES/L Métropole 20 juin 2014

Cours d Analyse. Fonctions de plusieurs variables

Introduction au datamining

3 Approximation de solutions d équations

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Probabilités et statistique. Benjamin JOURDAIN

Programmation linéaire

Cours de méthodes de scoring

Différentiabilité ; Fonctions de plusieurs variables réelles

Introduction au Data-Mining

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Quantification Scalaire et Prédictive

Économetrie non paramétrique I. Estimation d une densité

Travaux dirigés d introduction aux Probabilités

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Programmation linéaire

Introduction au Data-Mining

Intégration sur des espaces produits

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Fonctions de plusieurs variables

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Résolution d équations non linéaires

Calculs de probabilités conditionelles

Texte Agrégation limitée par diffusion interne

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Introduction à la Statistique Inférentielle

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités sur un univers fini

Optimisation des fonctions de plusieurs variables

Théorie de la Mesure et Intégration

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

4. Martingales à temps discret

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Chapitre 2 Le problème de l unicité des solutions

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

TSTI 2D CH X : Exemples de lois à densité 1

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Cours 02 : Problème général de la programmation linéaire

Cours Fonctions de deux variables

Loi binomiale Lois normales

Le modèle de Black et Scholes

Table des matières. I Mise à niveau 11. Préface

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

1 Complément sur la projection du nuage des individus

RO04/TI07 - Optimisation non-linéaire

Méthodes de Simulation

Évaluation de la régression bornée

CHAPITRE 5. Stratégies Mixtes

Analyse en Composantes Principales

Dunod, Paris, 2014 ISBN

MA6.06 : Mesure et Probabilités

FORMULAIRE DE STATISTIQUES

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Optimisation Discrète

Couples de variables aléatoires discrètes

Chapitre 3. Les distributions à deux variables

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Précision d un résultat et calculs d incertitudes

OM 1 Outils mathématiques : fonction de plusieurs variables

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Cours d introduction à la théorie de la détection

4.2 Unités d enseignement du M1

Indépendance Probabilité conditionnelle. Chapitre 3 Événements indépendants et Probabilités conditionnelles

Probabilités III Introduction à l évaluation d options

Probabilités. C. Charignon. I Cours 3

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

NON-LINEARITE ET RESEAUX NEURONAUX

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Théorie de l estimation et de la décision statistique

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

TABLE DES MATIERES. C Exercices complémentaires 42

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Fonctions de plusieurs variables

Calculs de probabilités

Introduction au Calcul des Probabilités

Fonctions de plusieurs variables. Sébastien Tordeux

Transcription:

Outils mathématiques pour le datamining http://wwwelsewarefr/univevry

Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation

Probabilités Définition Théorème de Bayes Distributions Moments d une distribution Distributions gaussiennes Estimation

Performances Mesures Erreur Entropie Lift, Généralisation Techniques de validation Notion de VC-dimension

Géométrie

Distance : définition générale Une distance peut être définie sur un ensemble quelconque Par définition, elle doit vérifier les propriétés d(a,b)=d(b,a) d(a,b) 0 d(a,b)=0 a=b d(a,c) d(a,b)+d(b,c) Une dissimilarité vérifie seulement les propriétés d(a,b)=d(b,a) d(a,b) 0 d(a,a)=0

Distance euclidienne ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) [ ] ( ) ( ) ( ) = = = = n n n n t i i i n n y x y x y x y x y x y x d d d R x x x,,, 2 2 1 1 2 2 1 1 2 2 2 2 2 1 y x y x y x y x y x y x x

Autres distances réelles Distance euclidienne généralisée (M est une matrice symétrique définie positive) Distance de Mahalanobis d 2 t ( x, y) = ( x y) M ( x y) M = V 1

Distances sur données discrètes Données binaires Distance de Hamming : nombre de bits différents entre X et Y Dissimilarités basées sur la combinaison du nombre de présence et d absence de critères communs Données discrètes Codage disjonctif complet Permet de se ramener au cas binaire

Dissimilarités entre parties Saut minimum : la plus petite distance entre éléments des deux parties Diamètre : la plus grande distance entre éléments des deux parties

Inertie : présentation intuitive Notion d inertie On démontre facilement G ( ) = = i i i i i i g e p g e d p I 2, = i j j i j i e e p p I 2

Formalisation Matrice des données Matrice des poids Centre de gravité Matrice de variance-covariance = p n j i x x x 1 1 X = n i p p p 1 D ( ) p x x x,,, 2 1 g'= gg' X'DX V =

Calcul de l inertie Matrice de distance Calcul de l inertie = 2 2 2 2 1 1 0 1 0 0 0 1 s p s s M ( ) MV I G = Tr

Matrice de variance-covariance Matrice des données Matrice des poids Centre de gravité Matrice de variancecovariance = p n j i x x x 1 1 X = n i p p p 1 D ( ) p x x x,,, 2 1 g'= gg' X'DX V =

Minimisation Fonction à une ou plusieurs variables min f(x), x U IR n Définitions : x* est un minimum local de f s il existe a > 0 tel que f(x*) f(x) pour tout x tel que x-x* <a x* est un minimum local strict de f s il existe a > 0 tel que f(x*) < f(x) pour tout x tel que xx* <a x* est un minimum global de f si f(x*) f(x) pour tout x U

Condition nécessaire d optimalité Le gradient de f, f est le vecteur des dérivées partielles de f Si x* est un minimum local de f, alors: f(x*) = 0 2 f(x*) est semi-définie positive (d t 2 f(x*)d 0 pour tout d IR n ) f = f x 1 f x 2 f x n

Descente de gradient Soit x IR n tel que f(x) 0 Considérons la demi-droite x α = x α f(x) Théorème de Taylor (1 er ordre) f(x+δ) = f(x) + f(x) T δ + o( δ ) Avec δ = x α -x f(x α ) = f(x) α f(x) 2 + o(α)

Descente de gradient (suite) f(x α ) = f(x) α f(x) 2 + o(α) Si α est petit, on peut négliger o(α) Donc, pour α positif mais petit, f(x α ) < f(x) Théorème : Il existe δ tel que, pour tout α ]0,δ[ f(x- α f(x)) < f(x)

Descente de gradient (illustration)

Cas des fonctions convexes f(λa+(1- λ)b) λ f(a)+(1- λ)f(b) f possède un minimum global et la descente de gradient converge Cas de la forme quadratique : f(x)=x t Mx M est une matrice symétrique Si M est définie positive, f(x) est convexe Exemple : la régression linéaire

Régression linéaire 400E-05 350E-05 300E-05 Voltage 250E-05 200E-05 150E-05 0100 0120 0140 0160 0180 0200 0220 Intensité

Régression linéaire N observations (u i,v i ) Hypothèse v=au+b On recherche a et b tels que soit minimal i La fonction en (a,b) est convexe ( a u + ) b v i i 2

Probabilités

Epreuve et événement Une expérience est dite aléatoire si ses résultats ne sont pas prévisibles avec certitude en fonction des conditions initiales On appelle épreuve la réalisation d'une expérience aléatoire et dont le résultat est élément d un ensemble donné appelé univers On appelle événement la propriété du système qui une fois l'épreuve effectuée est ou n'est pas réalisée Exemple : Expérience = Lancer deux dés Epreuve = Résultat (3,4) Evénement = Obtenir un double

Tribu E est une épreuve d univers Ω Une tribu de Ω est un ensemble de parties de Ω : Z P(Ω) telle que Ω Z Z L union d un ensemble fini ou dénombrable d éléments de Z appartient à Z A i Z A i Z

Probabilité Si P est une application de Z dans R telle que P(A) [0,1] P(Ω)=1 A i A j = (pour tout (i,j)) P( A i )=ΣP(A i ) Alors P est une probabilité (Ω,Z,P) est un espace probabilisé

Probabilité conditionnelle - 1 B A A Ω

Probabilité conditionnelle - 2 Probabilité de A conditionnellement à B (si P(B)>0) P(A B)=P(A B)/P(B) P B est une probabilité Exemples : P(Somme 2 Dés 3 ) = 3/36 (1-1, 2-1, 1-2) P(Somme 2 Dés 3 1 Dé = 1) = 2/6 = (2/36)/(1/6) P(Somme 2 Dés 3 Premier Dé = 6) = 0

Probabilité marginale B = B i est une ensemble complet d événements, c est-à-dire tel que B i B j = B i =Ω On définit la probabilité marginale par rapport à B comme P B (A)=ΣP(A B i ) P B est une probabilité

Théorème de Bayes A = A i est une ensemble complet d événements, c est-à-dire tel que A i A j = A i =Ω Alors (th de Bayes) P(B)=ΣP(B A i )P(A i )

Indépendance A, B et C sont des événements A et B sont indépendants ssi : P(A B) = P(A)P(B) P(A B)=P(A) A et B sont indépendants conditionnellement à C ssi : P(A B C) = P(A C)P(B C)

Variables aléatoires E est une épreuve et (Ω,Z,P) est l espace probabilisé associé : Une variable aléatoire X est une application de Ω dans R Un vecteur aléatoire est un p-uplet de variables aléatoires (X 1, X 2,, X p ), ie une application de Ω dans R p

Exemple Lancer de deux dés «parfaits» Ω= {(1,1) ; (1,2) ; ; (6,6)} P(ω) = 1/36 Somme des points marqués par deux dés S ω S(ω) Ω E={2,3,,12}

Types de variables aléatoires Une variable aléatoire X liée à E est : Discrète lorsque l ensemble X(Ω) de ses valeurs possibles est fini ou dénombrable Finie si X(Ω) est fini Réelle si pour tout réel x, X -1 (]-,x]) Z et P(x)=0 Mixte si pour tout réel x, X -1 (]-,x]) Z Exemple : Somme des valeurs de deux dés Discrète Finie Mixte Rendement d un actif : continue

Loi d une variable aléatoire discrète E est une épreuve et (Ω,Z,P) est l espace probabilisé associé X est une variable aléatoire discrète associée à E La loi de X est définie par : L ensemble X(Ω)={x i }de ses valeurs possibles La probabilité de chaque événement (X=x i ) Cette définition se généralise à un vecteur aléatoire

Indépendance Deux variables aléatoires discrètes X et Y sont indépendantes ssi : Pour tout couple (x i, y j ), les deux ensembles (X=x i ) et (Y=y j ) sont indépendants Elles sont indépendantes conditionnellement à Z ssi : Pour tout triplet (x i, y j, z k ), les deux ensembles (X=x i ) et (Y=y j ) sont indépendants conditionnellement à (Z=z k )

Fonction de répartition E est une épreuve et (Ω,Z,P) est l espace probabilisé associé X est une variable aléatoire continue associée à E La fonction de répartition de X est la fonction de R dans R telle que F(x) = P(X x)

Densité de probabilité Si elle existe, c est la fonction f telle que F(x)=P(X x)= ]-,x] f(x)dx Le vecteur aléatoire (X 1, X 2,, X m ) admet une densité s il existe µ telle que P( (X x i ))= ]-,x1] ]-,xm] µ(x 1,, x m )dx 1 dx m

Indépendance de deux va Deux variables aléatoires continues X et Y sont indépendantes si et seulement si : Pour tout couple x i et y j, P(X<xi Y<yj)= P(X<xi)P(Y<yj)

Fonction de répartition

Distributions gaussiennes

Distribution gaussienne monovariée Densité de probabilité p ( x ) = 1 e x 2 2 2 π 045 04 035 03 025 02 015 01 005 0 1 4 7 10 13 16 19 22 25 28 31 34 37 40

Théorème Central Limite Si (X 1, X 2,, X n ) sont des VA continues de même distribution dont les deux premiers moments E(X i ) et Var(X i ) sont définis Alors (ΣX i )/n tend vers une distribution normale de même moments quand n

Distribution gaussienne multivariée Densité de probabilité p ( x ) = ( 2π ) p /2 S 1 exp 2 1 1 1/2 ( ) t ( x µ S x µ )

Stabilité des gaussiennes Marginalisation Multiplication Addition Conditionnement Chaînage + V U V UV UV V U Y X Y X A X X U V U,,

Estimation

Estimation Objectif A partir de données d'échantillons représentatifs, on cherche à obtenir des résultats sur la population dans laquelle les échantillons ont été prélevés Plus exactement : donner des valeurs aux paramètres d une distribution à partir d un échantillon d observations Hypothèse Chaque observation est une VA, et toutes ont la même distribution (celle qu on cherche) Toutes ces VA sont indépendantes

Estimation statistique Exemple simple : moyenne Si les VA suivent toutes la même loi, on peut connaître la distribution de la moyenne empirique Celle-ci converge vers une loi normale (TCL) Exemple plus complexe : test d indépendance Exemple encore plus complexe : modèle de dépendance

Estimation statistique Observations Loi Mais : La transposition nécessite une hypothèse a priori sur les distributions Toutes les conclusions tirées suivent aussi une distribution, et ont une variance

Estimation bayésienne Tous les paramètres suivent des lois de probabilités a priori Ces lois sont déformées par les observations, par la propriété (th Bayes): P(X Y)=kP(Y X)P(X) APosteriori = VraisemblanceAPriori

Comparaison Pile Face Comment estimer la probabilité θ? Statistique θ = p p + f Bayésienne p( θ X( p, f )) = k p( X( p, f ) θ) p( θ) p( θ X( p, f )) = k θ ( 1 θ) p( θ) p f

Performance des modèles

Mesures d erreur Modèles quantitatifs Moindres carrés = Σ(y-d) 2 Variance expliquée Fonction de coût Modèles qualitatifs Matrice de confusion Fonction de coût/utilité Entropie

Matrice de confusion Matrice de confusion Classe théorique 0 0 1 2 Classe calculée 1 2

Courbe de lift Courbes de Lift 120% 100% 80% 60% 40% 20% 0% % variable cible reconnue 0% 20% 40% 60% 80% 100% % base Lift_Ideal Lift_Alea Lift_Model

Problèmes de la généralisation Quelle est le meilleur modèle parmi les 3 cidessous? Comment allons-nous prédire d autres points issus de la même distribution?

Méthode de l ensemble de test Principe Mettre de côté 30% des données Construire le modèle sur 70% L évaluer sur les 30% mis de côté Problèmes Certaines données ne sont pas utilisées Forte variance

Méthode du point isolé Pour tous les exemples disponibles Le mettre de côté Construire le modèle avec les autres exemples Calculer l erreur sur l exemple mis de côté Evaluer l erreur moyenne

Méthode théorique Minimisation du risque structurel (Vapnik) On introduit la complexité du modèle Intuitivement, un réseau neuronal est plus complexe qu un modèle linéaire Vapnik mesure effectivement la complexité d une famille de modèles (pulvérisation d un ensemble de points)

Principe de la VC-dimension Nombre maximum de points pulvérisables par une classe de fonction donnée x2 x1 x3

Méthode théorique Pas d hypothèse de distribution Le nombre d exemples nécessaire pour apprendre une classe de façon stable dépend de la VC dimension de la famille de modèles (linéaire, RN, etc) Les bornes sont peu utilisables dans la pratique R ( α) R emp ( α) + h(log(2n / h) + 1) log( δ / 4) N

Méthode théorique La performance augmente quand la complexité augmente Mais Le risque augmente quand la complexité augmente Erreur théorique Risque structurel Erreur d apprentissage Complexité du modèle