Réseaux de neurones : rappels de probabilités et statistiques

Documents pareils
Espérance conditionnelle

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Moments des variables aléatoires réelles

Simulation de variables aléatoires

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Méthodes de Simulation

Programmes des classes préparatoires aux Grandes Ecoles

Probabilités et statistique. Benjamin JOURDAIN

Intégration et probabilités TD1 Espaces mesurés

TSTI 2D CH X : Exemples de lois à densité 1

Amphi 3: Espaces complets - Applications linéaires continues

3. Conditionnement P (B)

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

4 Distributions particulières de probabilités

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Image d un intervalle par une fonction continue

Intégration et probabilités TD1 Espaces mesurés Corrigé

Introduction à l étude des Corps Finis

Indépendance Probabilité conditionnelle. Chapitre 3 Événements indépendants et Probabilités conditionnelles

4. Martingales à temps discret

Travaux dirigés d introduction aux Probabilités

Probabilités III Introduction à l évaluation d options

Loi d une variable discrète

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Variables Aléatoires. Chapitre 2

Introduction à la théorie des files d'attente. Claude Chaudet

Bases : Probabilités, Estimation et Tests.

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Calculs de probabilités conditionelles

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Théorie de la Mesure et Intégration

MA6.06 : Mesure et Probabilités

3. Caractéristiques et fonctions d une v.a.

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

CALCUL DES PROBABILITES

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Que faire lorsqu on considère plusieurs variables en même temps?

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Probabilités sur un univers fini

Continuité d une fonction de plusieurs variables

Soutenance de stage Laboratoire des Signaux et Systèmes

1 TD1 : rappels sur les ensembles et notion de probabilité

ILT. Interfacultair Instituut voor Levende Talen. Actes de communication. Serge Verlinde Evelyn Goris. Katholieke Universiteit Leuven

Calculs de probabilités avec la loi normale

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

M2 IAD UE MODE Notes de cours (3)

CHAPITRE 5. Stratégies Mixtes

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

P1 : Corrigés des exercices

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Lois de probabilité. Anita Burgun

I. Polynômes de Tchebychev

Chapitre 3. Les distributions à deux variables


ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

FORMULAIRE DE STATISTIQUES

Cours de Tests paramétriques

EI - EXERCICES DE PROBABILITES CORRIGES

Probabilités sur un univers fini

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Probabilités avancées. Florin Avram

Le modèle de Black et Scholes

Quantification Scalaire et Prédictive

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Température corporelle d un castor (une petite introduction aux séries temporelles)

Calcul Stochastique pour la finance. Romuald ELIE

Résolution d équations non linéaires

Commun à tous les candidats

Sujet 4: Programmation stochastique propriétés de fonction de recours

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Cours de méthodes de scoring

Correction de l examen de la première session

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Raisonnement probabiliste

Mesure et Intégration (Notes de cours de L3)

TD1 Signaux, énergie et puissance, signaux aléatoires

MARTINGALES POUR LA FINANCE

Probabilités conditionnelles Exercices corrigés

OUTILS STATISTIQUES ET NUMÉRIQUES

Exercices sur le chapitre «Probabilités»

PROBABILITES ET STATISTIQUE I&II

Calculs de probabilités

Transcription:

Réseaux de neurones : rappels de probabilités et statistiques Fabrice Rossi http://apiacoa.org/contact.html. Université Paris-IX Dauphine Réseaux de neurones Rappels de probabilités et statistiques p.1/49

Plan des rappels 1. Probabilités 2. Conditionnement et indépendance 3. Variable aléatoire 4. Moments 5. Retour sur le conditionnement 6. Notion d estimateur 7. Théorèmes limites 8. Vraisemblance 9. Estimation bayesienne Réseaux de neurones Rappels de probabilités et statistiques p.2/49

Modélisation stochastique Phénomènes intrinsèquement aléatoires : mécanique quantique Phénomènes chaotiques : rupture d équilibre (stylo en équilibre sur sa pointe!) phénomènes très complexes (météo par exemple) Connaissance incomplète, exemple : lien entre z et x x = 1 2 2 1 4 5 3 1 2 2 5 4 2 1 5 3 5 2 5 2 5 4 3 5 5 2 3 2 3 2 z = 0 3 1 0 4 5 3 1 1 3 4 5 1 1 6 2 6 2 5 2 6 4 2 5 5 2 4 2 2 2 P(z = 3 x = 2) = 1, P(z = 2 x = 2) = 1 et 5 2 P(z = 1 x = 2) = 3 10 en fait z = x + y avec et y = -1 1-1 -1 0 0 0 0-1 1-1 1-1 0 1-1 1 0 0 0 1 0-1 0 0 0 1 0-1 0 Réseaux de neurones Rappels de probabilités et statistiques p.3/49

Probabilités Deux visions : 1. objective : vision fréquentiste calcul de fréquence par comptage probabilité : limite des fréquences exemple : probabilité qu un accident soit une conséquence de la consommation d alcool 2. subjective : vision bayesienne connaissance/croyance a priori prise en compte de l expérience pour modifier la croyance exemple : probabilité qu une pièce tombe sur pile Réseaux de neurones Rappels de probabilités et statistiques p.4/49

Probabilités (2) Modèle probabiliste, (Ω, M,P) : Ω : l univers, l ensemble des possibles : lancé d un dé : Ω = {1, 2, 3, 4, 5, 6} lancé d une pièce deux fois de suite : Ω = {(P,P), (P,F), (F,P), (F,F)} M : les évènements étudiables (M P(Ω)) : conditions techniques : une σ-algèbre, i.e. : contient Ω (évènement sûr) et (évènement impossible) stable par passage au complémentaire (pour pouvoir dire que A n a pas eu lieu) stable par union dénombrable (pour pouvoir dire que A ou B ont eu lieu) exemple : M = P(Ω) Réseaux de neurones Rappels de probabilités et statistiques p.5/49

Probabilités (3) Modèle probabiliste, (Ω, M,P) : P : une probabilité : une fonction de M dans [0, 1] donne la probabilité d un évènement P(Ω) = 1 si les (A i ) i sont des évènements deux à deux disjoints P ( A i ) = P(A i ) i=0 i=0 exemple pour dé non pipé, P({i}) = 1 6 P définit une intégrale, et on a P(B) = 1 B dp pour tout i Réseaux de neurones Rappels de probabilités et statistiques p.6/49

Conditionnement Un des concepts les plus importants en probabilité : qu est-ce qu apporte une information? P(A B) : la probabilité de l évènement A sachant que l évènement B a eu lieu (P(B) > 0) P(A B) = P(A B) P(B) = P(AB) P(B) exemple : A = {le dé donne une valeur > 4} et B = {le dé donne une valeur > à 2} P(AB) = P(A) (car A B) et donc P(AB) = 1 3 P(B) = 2 3 P(A B) = 1 2 Réseaux de neurones Rappels de probabilités et statistiques p.7/49

Indépendance Deux évènements sont indépendants si la connaissance de l un n apporte rien sur l autre : A et B indépendants P(AB) = P(A)P(B) si P(B) > 0, A et B indépendants P(A B) = P(A) Hypothèse très utile en pratique. Par exemple : on lance n fois une pièce (P(P) = P(F) = 1) 2 univers Ω = {P,F } n lancés indépendants, implique P({l 1,...,l n }) = 1 2 n par indépendance, connaître P pour les évènements réduits à un lancé permet d obtenir P sur M toute entière Réseaux de neurones Rappels de probabilités et statistiques p.8/49

Une application subtile Le jeu des portes : le joueur est placé devant trois portes un cadeau est caché derrière une porte (il n y a rien derrière les autres) le joueur choisit la porte i l animateur lui indique que le cadeau n est pas derrière la porte j (j i!) Question : le joueur a-t-il intérêt à changer de porte? Réseaux de neurones Rappels de probabilités et statistiques p.9/49

Une application subtile Le jeu des portes : le joueur est placé devant trois portes un cadeau est caché derrière une porte (il n y a rien derrière les autres) le joueur choisit la porte i l animateur lui indique que le cadeau n est pas derrière la porte j (j i!) Question : le joueur a-t-il intérêt à changer de porte? Modélisation : Ω : position du trésor, choix du joueur, choix de l animateur position du trésor et choix du joueur indépendants (et uniformes) choix de l animateur uniforme (sachant la position du trésor et le choix du joueur) Réseaux de neurones Rappels de probabilités et statistiques p.9/49

Une application subtile (2) Calculs : problème totalement symétrique P(T = 1 J = 1,A = 2)? Réseaux de neurones Rappels de probabilités et statistiques p.10/49

Une application subtile (2) Calculs : problème totalement symétrique P(A = 2 T = 1,J = 1) = 1 2 P(T = 1,J = 1) = 1 1 3 3 P(T = 1,J = 1,A = 2) = 1 18 Réseaux de neurones Rappels de probabilités et statistiques p.10/49

Une application subtile (2) Calculs : problème totalement symétrique P(A = 2 T = 1,J = 1) = 1 2 P(T = 1,J = 1) = 1 1 3 3 P(T = 1,J = 1,A = 2) = 1 18 P(J = 1,A = 2) = P(J = 1,A = 2,T = 1) + P(J = 1,A = 2,T = 3) P(A = 2 T = 3,J = 1) = 1 donc P(J = 1,A = 2,T = 3) = 1 9 P(J = 1,A = 2) = 3 18 Réseaux de neurones Rappels de probabilités et statistiques p.10/49

Une application subtile (2) Calculs : problème totalement symétrique P(A = 2 T = 1,J = 1) = 1 2 P(T = 1,J = 1) = 1 1 3 3 P(T = 1,J = 1,A = 2) = 1 18 P(J = 1,A = 2) = P(J = 1,A = 2,T = 1) + P(J = 1,A = 2,T = 3) P(A = 2 T = 3,J = 1) = 1 donc P(J = 1,A = 2,T = 3) = 1 9 P(J = 1,A = 2) = 3 18 donc P(T = 1 J = 1,A = 2) = 1 3 Réseaux de neurones Rappels de probabilités et statistiques p.10/49

Une application subtile (2) Calculs : problème totalement symétrique P(A = 2 T = 1,J = 1) = 1 2 P(T = 1,J = 1) = 1 1 3 3 P(T = 1,J = 1,A = 2) = 1 18 P(J = 1,A = 2) = P(J = 1,A = 2,T = 1) + P(J = 1,A = 2,T = 3) P(A = 2 T = 3,J = 1) = 1 donc P(J = 1,A = 2,T = 3) = 1 9 P(J = 1,A = 2) = 3 18 donc P(T = 1 J = 1,A = 2) = 1 3 Moralité : il faut changer de porte! Réseaux de neurones Rappels de probabilités et statistiques p.10/49

Variables aléatoires On se donne D et A une σ-algèbre de D. Une variable aléatoire sur (Ω, M) est une fonction X de Ω dans D mesurable : pour tout A A, X 1 (A) M Intuitivement, on veut pouvoir calculer la probabilité d un évènement de la forme X A. Exemples de variables aléatoires pour Ω défini par le résultat du lancé de deux dés : S : la somme des deux dés M : la plus grande de deux valeurs obtenues Si D est au plus dénombrable, on parle de variable aléatoire discrète. Réseaux de neurones Rappels de probabilités et statistiques p.11/49

Loi et fonction de répartition X définit une probabilité sur D, notée P X grâce à : P X (A) = P(X 1 (A)) = P(X A) P X est la loi de X. Si X est à valeurs dans R, on définit la fonction de répartion de X, F X par F X (y) = P(X y) une variable aléatoire X admet une densité quand il existe une fonction f X de R dans R telle que pour tout A A P(X A) = f X (x)dx A Réseaux de neurones Rappels de probabilités et statistiques p.12/49

Exemples S = somme de deux dés : 1 P S 36 1 F S 36 2 3 4 5 6 7 8 9 10 11 12 2 36 3 36 3 36 6 36 4 36 10 36 M = max de deux dés : 1 P M 36 1 F M 36 5 36 15 36 6 36 21 36 5 36 26 36 4 36 30 36 1 2 3 4 5 6 3 36 4 36 5 36 9 36 7 36 16 36 9 11 36 36 25 36 1 3 36 33 36 2 1 36 36 35 36 1 loi exponentielle : fxλ(x) = 1 FXλ(y) = 1 +(y) ( 1 e λy) +(x)λe λx, Réseaux de neurones Rappels de probabilités et statistiques p.13/49

Espérance Version mathématique de la notion de moyenne : l espérance. Basée sur l intégrale associée à une probabilité : E(X) = XdP si X est une variable aléatoire positive, E(X) est bien définie (mais on peut avoir E(X) = ) Propriété intéressante E(f(X)) = f(x)dp = fdp X cas discret : E(X) = k=0 α k P X (α k ) Réseaux de neurones Rappels de probabilités et statistiques p.14/49

Exemples Valeur d un dé : E(V ) = 7 2 Somme de deux dés : E(S) = 7 (par linéarité de l espérance!) Max de deux dés : E(M) = 161 4.47 36 Variable avec une densité E(X) = xf X (x)dx v.a. exponentielle : E(X λ ) = 1 λ v.a. gaussienne (ou normale), notée N(µ,σ) : f X (x) = 1 σ 2π e (x µ) 2 2σ 2 et E(X) = µ Réseaux de neurones Rappels de probabilités et statistiques p.15/49

Variance Idée : mesurer la dispersion d une variable aléatoire autour de sa moyenne. Variance : σ 2 (X) = E ((X E(X)) 2 ) Ecart-type : σ(x) = σ 2 (X) (!) P( X E(X) > ɛ) σ2 (X) (Bienaymé-Tchebychev) ɛ 2 Exemples : Variable avec une densité : σ 2 (X) = (x E(X)) 2 f X (x)dx v.a. exponentielle : σ 2 (X λ ) = 1 λ 2 v.a. gaussienne : σ 2 (X λ ) = σ 2. Remarque : P( X E(X) 1.96σ) 0.95 (BT donne 0.74) Réseaux de neurones Rappels de probabilités et statistiques p.16/49

Corrélation Idée : mesurer le lien entre deux variables aléatoires. Covariance : Γ(X,Y ) = E [(X E(X))(Y E(Y ))] si X et Y sont à valeurs dans R n, on définit une matrice de covariance : Γ(X,Y ) = Γ(X 1, Y 1 ) Γ(X 1, Y n ). Γ(X i, Y j ). Γ(X n, Y 1 ) Γ(X n, Y n ) Coefficient de corrélation : ρ(x,y ) = Γ(X,Y ) σ(x)σ(y ) ρ(x,y ) = 0 : variables dites non corrélées X et Y indépendantes X et Y non corrélées (le contraire est faux!) σ 2 (X + Y ) = σ 2 (X) + σ 2 (Y ) + Γ(X,Y ) Réseaux de neurones Rappels de probabilités et statistiques p.17/49

Conditionnement Idée : approcher Y par une fonction de X (i.e. expliquer Y grâce à X). Pour tout couple de v.a. X et Y, il existe une v.a., mesurable au sens de σ(x), notée E(Y X) telle que pour tout B E(Y 1 X B ) = E [E(Y X)1 X B ] ou encore X B Y dp = X B E(Y X)dP en fait, E(Y X) = f(x) pour une certaine fonction f si Y possède une variance, f(x) est la meilleure approximation de Y par une fonction de X au sens des moindres carrés Réseaux de neurones Rappels de probabilités et statistiques p.18/49

Conditionnement (2) On note E(Y X = x) = f(x) point de vue intuitif : E(Y X = x) associe à x la valeur moyenne des Y qu on peut obtenir quand X = x si X est discrète, le point de vue intuitif est exact, i.e. E(Y X = x) = E(Y 1 X=x) P(X = x) exemple : S, somme de deux dés, X 1, valeur du premier dé. x 1 2 3 4 5 6 E(S X 1 = x) 9 2 S obtient par indépendance : E(S X 1 = x) = E(X 1 + X 2 X 1 = x) = E(x + X 2 X 1 = x) = x + E(X 2 ) 11 2 13 2 15 2 17 2 19 2 Réseaux de neurones Rappels de probabilités et statistiques p.19/49

Conditionnement (3) si X et Y ont une densité jointe, i.e., il existe une fonction f XY telle que P ((X,Y ) V ) = f XY (x,y)dxdy alors E(Y X) admet pour densité f Y X (y x) = f XY (x,y) f X (x) V avec f X (x) = f XY (x,y)dy Réseaux de neurones Rappels de probabilités et statistiques p.20/49

Conditionnement (4) conditionnement par un évènement E(Y B) = 1 P(B) B Y dp exemple : M, max des lancés de deux dés, X 1, valeur du premier dé : E(M X 1 3) = 59 4.92 12 si Y = f(x), E(Y X) = f(x) si Y = f(x) + E et que E et X sont indépendants : E(Y X) = f(x) + E(E) Réseaux de neurones Rappels de probabilités et statistiques p.21/49

Statistiques Principe général : on observe des variables aléatoires X 1,...,X n de même loi P on cherche obtenir des informations sur la loi P à partir des observations par exemple, on fixe une famille de lois P {P θ θ Θ}, et on cherche à trouver la valeur de θ telle que P = P θ plus généralement, on cherche à estimer α(θ) Exemples : X i N(µ, 1) et on cherche µ Modèle linéaire : Y i = αx i + β + E i avec E i N(0,σ) et on cherche α et β Réseaux de neurones Rappels de probabilités et statistiques p.22/49

Estimateur On suppose les X i à valeur dans A Un estimateur de α(θ) B est une fonction mesurable α de A n dans l image de B Exemples avec P µ,σ une loi de moyenne µ et d écart-type σ : Estimateur de µ : la moyenne empirique µ(x 1,...,X n ) = 1 n n i=1 X i Estimateur de σ 2 : σ 2 = 1 n n i=1 (X i µ) 2 Biais d un estimateur : E( α(x 1,...,X n )) α(θ) Exemples : E( µ(x 1,...,X n )) = µ : estimateur sans biais ( ) E σ2 (X 1,...,X n ) = n 1 n σ2 : estimateur biaisé (on lui préfère donc σ 2 = 1 n 1 n i=1 (X i µ) 2 ) Réseaux de neurones Rappels de probabilités et statistiques p.23/49

Exemple Procédure : on prend X i λe λx, avec λ = 2, soit : E(X i ) = 1 2 σ 2 (X i ) = 1 4 on considère n = 20 réalisations on calcule µ et σ 2 on recommence 2000 fois pour chaque estimateur, on trace l histogramme des valeurs obtenues on calcule la moyenne des valeurs (approximation de l espérance d après la loi des grands nombres) : E( µ) 0.503 E( σ 2 ) 0.256 Réseaux de neurones Rappels de probabilités et statistiques p.24/49

Exemple (2) Estimateur de l espérance Effectif 0 100 200 300 0.2 0.4 0.6 0.8 1.0 µ Réseaux de neurones Rappels de probabilités et statistiques p.25/49

Exemple (3) Estimateur de la variance Effectif 0 50 100 150 200 250 300 350 0.0 0.2 0.4 0.6 0.8 1.0 1.2 σ 2 Réseaux de neurones Rappels de probabilités et statistiques p.26/49

Estimateur (2) Risque d un estimateur : E [ ( α(x 1,...,X n ) α(θ)) 2] Variance d un estimateur : E [ ( α(x 1,...,X n ) E( α(x 1,...,X n ))) 2] Décomposition biais+variance du risque (on note α = α(x 1,...,X n )) : E [ ( α α(θ)) 2] = (E( α) α(θ)) 2 + E [ ( α E( α)) 2] Exemple, risque de la moyenne empirique : σ2 n Empiriquement (sur l exemple précédent) : risque de la moyenne : 0.0126 (théorique 0.0125) risque de la variance : 0.0262 Réseaux de neurones Rappels de probabilités et statistiques p.27/49

Loi forte des grands nombres (X i ) i indépendantes et identiquement distribuées E(X i ) = µ < Alors lim n 1 n n X i = µ p.s. i=1 Version intuitive : la moyenne empirique converge (presque sûrement) vers la moyenne mathématique (i.e., l espérance) Base de l approche fréquentiste Dans le cas de variables indépendantes, l estimateur de la moyenne est donc fortement consistant Réseaux de neurones Rappels de probabilités et statistiques p.28/49

Exemple Procédure : on prend X i λe λx, avec λ = 2, soit : E(X i ) = 1 2 σ 2 (X i ) = 1 4 on considère n réalisations on calcule µ n = 1 n n i=1 X i on trace l évolution de µ n Réseaux de neurones Rappels de probabilités et statistiques p.29/49

Exemple (2) Estimateur de l espérance µ n 0.3 0.4 0.5 0.6 0.7 0 20 40 60 80 100 n Réseaux de neurones Rappels de probabilités et statistiques p.30/49

Exemple (3) Estimateur de l espérance µ n 0.44 0.46 0.48 0.50 0.52 0 500 1000 1500 2000 n Réseaux de neurones Rappels de probabilités et statistiques p.31/49

Théorème de la limite centrale (X i ) i indépendantes et identiquement distribuées E(X i ) = µ < et σ 2 (X i ) = σ 2 < Alors la suite Y n = n( 1 n n i=1 X i µ) converge en loi vers N(0,σ) Signification mathématique : l intégrale au sens de la loi P Yn de toute fonction continue bornée converge vers l intégrale de cette fonction au sens d une loi normale N(0,σ) Signification intuitive : quand n est grand, Y n se comporte presque comme une variable aléatoire gaussienne Donne une idée de la dispersion de la moyenne empirique autour de la moyenne mathématique Réseaux de neurones Rappels de probabilités et statistiques p.32/49

Suite de l exemple (4) Estimateur de l espérance µ n 0.3 0.4 0.5 0.6 0.7 0 20 40 60 80 100 n Réseaux de neurones Rappels de probabilités et statistiques p.33/49

Suite de l exemple (5) Estimateur de l espérance µ n 0.44 0.46 0.48 0.50 0.52 0 500 1000 1500 2000 n Réseaux de neurones Rappels de probabilités et statistiques p.34/49

Une autre vérification expérimentale Procédure : on prend X i λe λx, avec λ = 2, soit : E(X i ) = 1 2 σ 2 (X i ) = 1 4 pour différentes valeurs de n : on considère n réalisations on calcule n( µ n µ) on recommence k fois on trace l histogramme des valeurs obtenues on étudie l évolution de l histogramme quand n augmente Réseaux de neurones Rappels de probabilités et statistiques p.35/49

1 0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Résultat 2 5 0 1 2 3 1 0 1 2 0.0 0.5 1.0 1.5 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 7 1.0 0.5 0.0 0.5 1.0 1.5 2.0 Evolution de la dispersion de µ 10 20 1 0 1 2 1 0 1 2 0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 Réseaux de neurones Rappels de probabilités et statistiques p.36/49

Vraisemblance Modèle paramétrique, P {P θ θ Θ} dominé : chaque P θ possède une densité Vraisemblance : L(θ,.), une densité pour P θ Vraisemblance d un échantillon i.i.d. : L(θ,x 1,...,x n ) = n i=1 L(θ,x i) Estimateur du maximum de vraisemblance : estimateur θ qui maximise L(θ,x 1,...,x n ), i.e. ) L ( θ(x1,...,x n ),x 1,...,x n = sup θ Θ L(θ,x 1,...,x n ) Idée intuitive : la vraisemblance L(θ,x 1,...,x n ) donne une idée de la probabilité d obtenir les observations si celles-ci sont engendrées par P θ Cas discret : mise en œuvre de l idée intuitive Réseaux de neurones Rappels de probabilités et statistiques p.37/49

Vraisemblance (2) En général, on maximise la log-vraisemblance, i.e. n i=1 log L(θ,x i ) Exemple, pile ou face truqué : paramètre p (probabilité d avoir pile, soit x i = 1) observations i.i.d. (k fois pile) L(p,x 1,...,x n ) = x i =1 p x i =0 (1 p) = p k (1 p) n k estimateur du maximum de vraisemblance : p = k n La moyenne empirique est en général l estimateur du maximum de vraisemblance pour l espérance Réseaux de neurones Rappels de probabilités et statistiques p.38/49

Exemple de mise en œuvre Procédure : X i : pile ou face (probabilité p d avoir pile) k n : nombre de piles obtenus pour n lancés on trace l évolution de p n = k n n d après la loi des grands nombres, p n converge vers p Réseaux de neurones Rappels de probabilités et statistiques p.39/49

Exemple (2) Estimateur de p p n 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0 20 40 60 80 100 n Réseaux de neurones Rappels de probabilités et statistiques p.40/49

Exemple (3) Estimateur de p p n 0.52 0.54 0.56 0.58 0.60 0 500 1000 1500 2000 n Réseaux de neurones Rappels de probabilités et statistiques p.41/49

Vraisemblance (3) Problèmes possibles : n existe pas toujours n est pas toujours sans biais. Exemple : X i N(0,σ) L(σ,x 1,...,x n ) = 1 (2σ 2 π) n 2 e n i=1 x 2 i 2σ 2 on montre que l estimateur du MV de σ 2 est alors qui est biaisé! 1 n n i=1 x2 i Néanmoins très pratique, en particulier car un estimateur du MV est en général consistant. Réseaux de neurones Rappels de probabilités et statistiques p.42/49

Estimation bayesienne Idée : mettre une distribution sur Θ, un a priori. Règle de Bayes P(A B) = P(B A)P(A) P(B) Permet d estimer P(θ x 1,...,x n ) grâce à : P(x 1,...,x n θ) : modèle paramétrique P(θ) : a priori sur Θ P(x 1,...,x n ) : par intégration Permet de tenir compte de connaissances expertes Réseaux de neurones Rappels de probabilités et statistiques p.43/49

Exemple : pile ou face truqué probabilité d obtenir pile : p on observe P n le nombre de piles obtenues dans n lancés P(P n = k p) = ( ) n k p k (1 p) n k probabilité a priori sur p : uniforme sur [0, 1] on utilise la règle de Bayes avec densité : on obtient p(p P n = k) = p(p P n = k) = P(P n = k p)p(p) P(P n = k) pk (1 p) n k 1 0 pk (1 p) n k dp on reconnaît une loi Beta de paramètres k + 1 et n k + 1, d espérance k+1 (k+1)(n k+1) et de variance n+2 (n+2) 2 (n+3) Réseaux de neurones Rappels de probabilités et statistiques p.44/49

Exemple : pile ou face truqué (2) k loi des grands nombres lim = p n n asymptotiquement k+1 p n+2 asymptotiquement (k+1)(n k+1) p(1 p) (n+2) 2 (n+3) n = σ2 n intuitivement : la distribution a posteriori de p se resserre autour de son espérance Réseaux de neurones Rappels de probabilités et statistiques p.45/49

Exemple (3) n=20 Evolution de p(p P n ) n=50 n=100 p(p Pn) 0 1 2 3 p(p Pn) 0 1 2 3 4 5 p(p Pn) 0 2 4 6 8 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 n=500 n=1000 n=2000 p(p Pn) 0 5 10 15 p(p Pn) 0 5 10 15 20 25 p(p Pn) 0 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Réseaux de neurones Rappels de probabilités et statistiques p.46/49

A priori non uniforme On sait que la pièce est truquée et on a des informations sur la nature du trucage : probabilité d obtenir pile : p distribué selon une loi Beta de paramètres a et b on montre alors que p(p P n = k) est une Beta de paramètres k + a et n k + b k+a espérance de p sachant P n = k : variance de p sachant P n = k : n+a+b (k+a)(n k+b) (n+a+b) 2 (a+b+n+1) Réseaux de neurones Rappels de probabilités et statistiques p.47/49

Exemple (4) A priori : loi Beta(60, 50) Densité de la loi Beta(60,50) 0 2 4 6 8 0.0 0.2 0.4 0.6 0.8 1.0 Réseaux de neurones Rappels de probabilités et statistiques p.48/49

Exemple (5) n=20 Evolution de p(p P n ) n=50 n=100 p(p Pn) 0 2 4 6 8 p(p Pn) 0 2 4 6 8 10 p(p Pn) 0 2 4 6 8 10 12 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 n=500 n=1000 n=2000 p(p Pn) 0 5 10 15 20 p(p Pn) 0 5 10 15 20 25 p(p Pn) 0 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Réseaux de neurones Rappels de probabilités et statistiques p.49/49