Introduction à la modélisation statistique

Documents pareils
Annexe commune aux séries ES, L et S : boîtes et quantiles

Logiciel XLSTAT version rue Damrémont PARIS

Chapitre 3. Les distributions à deux variables

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Leçon N 4 : Statistiques à deux variables

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Peut-on imiter le hasard?

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Introduction à l approche bootstrap

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La classification automatique de données quantitatives

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Résumé non technique

Relation entre deux variables : estimation de la corrélation linéaire

FORMULAIRE DE STATISTIQUES

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Faire un semi variograme et une carte krigée avec surfer

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Principe d un test statistique

Introduction au datamining

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Best Styles ou comment capturer au mieux les primes de risque sur les marchés d actions

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

Données longitudinales et modèles de survie

données en connaissance et en actions?

Ecran principal à l ouverture du logiciel

La place de SAS dans l'informatique décisionnelle


Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

STATISTIQUES. UE Modélisation pour la biologie

Introduction au Data-Mining

Statistique Descriptive Élémentaire

Programmation Linéaire - Cours 1

PRIME D UNE OPTION D ACHAT OU DE VENTE

Exemples d application

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

MODELE A CORRECTION D ERREUR ET APPLICATIONS

MABioVis. Bio-informatique et la


Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

PLAN DE COURS. Reconnaître le rôle des mathématiques ou de l informatique dans la société contemporaine (0011)

TABLE DES MATIERES. C Exercices complémentaires 42

Capital économique en assurance vie : utilisation des «replicating portfolios»

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

1 Modélisation d être mauvais payeur

Solution logicielle pour le pilotage et l ERM. Journées d études IARD 26 mars mars 2010

M2 IAD UE MODE Notes de cours (3)

Les Eléments clés du projet

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Régression linéaire. Nicolas Turenne INRA

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

1 Importer et modifier des données avec R Commander

La pratique du coaching en France. Baromètre 2010

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 2/ La fonction de consommation et la fonction d épargne

Rappel sur les bases de données

Gestion Comptable Sage 100

4.14 Influence de la température sur les résistances

enquête pour les fautes sur le fond, ce qui est graves pour une encyclopédie.

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

L assurance de la qualité à votre service

PRÉSENTATION DE L OFFRE

Le risque Idiosyncrasique

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

Les coûts de la production. Microéconomie, chapitre 7

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Pourquoi l apprentissage?

Température corporelle d un castor (une petite introduction aux séries temporelles)

Les outils de simulation. Myriam HUMBERT CETE Ouest

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Le logiciel M4R (Monitoring for Results)

LE BUDGET DES VENTES

Est-il possible de réduire les coûts des logiciels pour mainframe en limitant les risques?

Création de maquette web

CA Mainframe Chorus for Security and Compliance Management version 2.0


Plate-forme Cloud CA AppLogic pour les applications d entreprise

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Analyse de la variance Comparaison de plusieurs moyennes

avec des nombres entiers

MAITRISER LE BLENDED LEARNING EN 4 ÉTAPES

Travail de projet sur VBA

Une étude de différentes analyses réalisées par le BIT

Note de service À : De :

Les audits de l infrastructure des SI

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Statistiques Descriptives à une dimension

Avis sur la 1 ère révision du schéma d'aménagement et de gestion des eaux «Nappes profondes de Gironde»

GENIE DES SYSTEMES INDUSTRIELS

IBM SPSS Regression 21

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

LE TABLEAU DE BORD DE SUIVI DE L ACTIVITE

Banque nationale suisse

Transcription:

Introduction à la modélisation statistique Illustrée avec XLSTAT Jean Paul Maalouf webinar@xlstat.com 29 novembre 2016 www.xlstat.com 1

PLAN XLSTAT : qui sommes-nous? Statistiques : categories Rappel : tests statistiques Modélisation statistique : principes Régression linéaire simple / ANOVA Principes Démonstration XLSTAT et interprétation des sorties : coefficients, p-values, R² Hypothèses sur les résidus et diagnostic graphique Régression linéaire multiple Principe, mises en garde : sur-ajustement et multicollinéarité Démonstration XLSTAT et interprétation des sorties Quelle méthode de modélisation choisir? Annexe : résidus-outils de diagnostic alternatifs Annexe : outils de modélisation alternatifs Toutes les données de cette formation ont été inventées sauf mention contraire 2

Logiciel XLSTAT XLSTAT est un logiciel d analyse de données convivial qui s intègre à Excel 3

XLSTAT, Historique Un logiciel en pleine croissance, une équipe grandissante Première vente sur internet Nouvelle version, Interface : VBA, Calculs : C++ 7 langues Nouveaux produits Nouveau site Equipe grandissante 1993 2000 2009 2016 Thierry Fahmy développe une alternative userfriendly pour l analyse de données : Naissance d XLSTAT 1996 Création de la société Addinsoft 2006 Nouvelles offres modulaires 2015 XLSTAT 365 Version Cloud pour Excel 365 XLSTAT-Free Version gratuite 4

XLSTAT en quelques chiffres 200+ fonctionnalités statistiques Réparties dans des solutions généralistes ou orientées-métier 50k utilisateurs A travers le monde. Secteurs privé, éducation, recherche 16 salariés A l écoute des utilisateurs 130k visites/mois sur le site web Tutoriels didactiques en 5 langues 7 langues 400 téléchargements/jour 5

Statistiques : 4 catégories 6

Statistiques : 4 catégories Enregistrement Enregistrement Enregistrement Description Exploration Tests Modélisation Je veux résumer Je veux plonger Je veux accepter / Je cherche à des données (1-3 facilement dans un rejeter une hypothèse comprendre comment variables) grâce à gros jeu de données bien précise en évolue un phénomène des calculs ou des sans forcément avoir assumant des risques en fonction d un graphiques simples une question précise d erreur (test t, ANOVA, ensemble de (moyenne, écart derrière la tête (ACP, khi², corrélation...) paramètres (régression, type, box plot ) CAH...) ANCOVA, ANOVA) 7

Tests statistiques : rappel 8

Tests statistiques : rappel? Question La moyenne A est-elle significativement différente de la moyenne B? Le test renvoie une p-value. 0 < p-value < 1 H0 Ha Hypothèse nulle En général absence de différence ou de relation. H0 : moyenne A = moyenne B Hypothèse alternative En général existence de différence ou de relation Ha : moyenne A moyenne B Décision : Si p-value < alpha, on rejette H0 et on accepte Ha en prenant un risque p-value de se tromper 9

Modélisation statistique - principes Je cherche à comprendre la manière dont évolue un phénomène en fonction d un ensemble de variables 10

Modélisation statistique : principes Définition Un modèle statistique est une représentation simplifiée et chiffrée d un phénomène. Il nous permet de mieux comprendre la réalité voire de faire des prédictions. 11

Modélisation statistique : exemple caricatural On vous demande : quelle-est la taille des français? Première manière de répondre Vous récitez l intégralité du tableau, ligne par ligne Deuxième manière de répondre Vous calculez la moyenne et l écart type de vos données et vous contentez de fournir ces deux chiffres Vous disposez de ce tableau contenant l info taille d un échantillon représentatif de 200 Français Français Taille Janine 169 Françoise 158 Roger 159 Albert 168 Isabelle 171 Jean-Luc 187 Nicolas 171 Benoît 162...... Représenter la taille des Français par une moyenne et un écart type est une manière de modéliser cette taille 12

Modélisation statistique : principes Définition Un modèle statistique est une représentation simplifiée et chiffrée d un phénomène. Il nous permet de mieux comprendre la réalité voire de faire des prédictions. Techniquement, comment ça marche? Un modèle permet d expliquer une variable (à expliquer, dépendante) par des variables (explicatives, indépendantes) via des équations mathématiques impliquant des paramètres. Le modèle caricatural de la moyenne n implique pas de variables explicatives 13

Régression linéaire simple Principes, démonstration XLSTAT, interprétation des sorties 14

Individus Tableau de données : plateforme de vente de chaussures en ligne Variables Question : comment le montant de la facture varie-t-il en fonction du temps passé sur le site? 15

Exemple : modélisation du montant facture en fonction du temps passé sur le site 16

Exemple : modélisation du montant facture en fonction du temps passé sur le site On peut partir sur une Régression linéaire simple (y = a*x + b) Notre manière de simplifier la réalité : un modèle «droite» paramètres Ce qu on n a pas réussi à capturer avec notre modèle Montant facture = a*temps passé sur le site + b + résidus Variable dépendante ( = à expliquer) Variable explicative Erreurs (Résidus) PS : on a choisi une modélisation linéaire, mais rien ne nous y obligeait. La question nous donne le droit de choisir un modèle plus courbe, si les données et l interprétation le justifient. 17

Salaire moyen L ANOVA peut être elle aussi perçue comme un modèle statistique (variables explicatives qualitatives) modèle Modèle un paramètre Salaire moyen = moyenne(modalité de référence) + écart(modalité du point considéré) + résidus deux paramètres Modalité de référence Terre Pluton Mars Origine Erreurs (Résidus) ANOVA, régression linéaire & ANCOVA font partie de la famille du modèle linéaire 18

Modélisation - Comment estimer les paramètres? Cas de la régression linéaire simple Pour un modèle donné, les meilleures valeurs de paramètres sont celles qui minimisent la somme des carrés des résidus : n S a, b = i=1 y i ax i + b 2 y observés (données) y prédits par le modèle Erreurs (Résidus) C est ce qu on appelle l estimation par les moindres carrés 19

Exemple : modélisation du montant facture en fonction du temps passé sur le site - XLSTAT 20

Modélisation linéaire du montant facture en fonction du temps passé sur le site Régression linéaire simple, sorties XLSTAT Estimation des paramètres (moindres carrés) Intervalles de confiance autour de l estimation b a P-values associées à: H0 : paramètre = 0 Ha : paramètre 0 Equation peut être utilisée pour prédire le montant de la facture en fonction de nouvelles valeurs de temps passé sur le site 21

Modélisation linéaire du montant facture en fonction du temps passé sur le site Régression linéaire simple, sorties XLSTAT Le R² reflète la bonne adéquation du modèle aux données. 0<R²<1 Intervalle de confiance du modèle ( = lié à l estimation des paramètres) Intervalle de confiance de prédiction = 95% des nouvelles prédictions tomberont dans cette enveloppe 22

modèle linéaire hypothèses sur les résidus Un modèle linéaire n est fiable que sous certaines hypothèses relatives aux résidus associés 23

Modèle linéaire : hypothèses sur les résidus Indépendance Pas d autocorrélation. Une mesure par individu. Normalité Résidus suivent une distribution normale Pas trop de valeurs hors-normes En général, pas plus de 5% de résidus hors-normes Homoscedasticité Homogénéité de la variance des résidus 24

Modèle linéaire : hypothèses sur les résidus, diagnostic graphique Graphique des résidus en fonction des var. explicatives : Répartition homogène des points autour de la droite y = 0 modèle valide 25

Examen des résidus, cas courants de violation des hypothèses Violation de l indépendance ( résidus autocorrélés) Violation de l homoscedasticité ( hétérogénéité de la variance) Rencontrée surtout dans séries temporelles avec périodicité Cas où la variance est fonction de la moyenne par exemple 26

Solutions aux violations des hypothèses sur les résidus Réfléchir aux valeurs hors normes (les éliminer?) Transformer les données y ou x (log, racine carrée, Box-Cox ) Opter pour un modèle plus adapté (non-linéaire, de Poisson ) Autocorrélation : modèle de Cochrane-Orcutt (XLSTAT-Forecast) 27

Régression linéaire multiple y = a*x1 + b*x2 +... 28

Régression linéaire multiple - principes Etudier l influence linéaire de plusieurs variables explicatives sur la variable à expliquer, augmenter la qualité prédictive 29

Régression linéaire multiple mises en garde outre les hypothèses sur les résidus : sur-ajustement et multicollinéarité 30

Ajouter des variables explicatives Régression linéaire multiple (y = a*x1 + b*x2 +...) mises en garde Ajouter des variables explicatives augmente le R² Et par conséquent la qualité prédictive du modèle. Attention : ne pas en inclure beaucoup trop Pour éviter d avoir des modèles trop ajustés sur nos données particulières, et par conséquent peu généralisables. L indice de qualité de modèle AIC. Compromis entre : bon ajustement aux données faible nombre de paramètres. L AIC est un indice de qualité relative donc à utiliser uniquement pour comparer des modèles entre eux. Le modèle à l AIC le plus faible est le meilleur. Attention aux variables redondantes Certaines variables très corrélées peuvent se masquer les unes les autres dans l évaluation de leurs effets. On parle de multicollinéarité (indice VIF > 5). Exemples : température du jour et température de la nuit ; poids et taille 31

Modélisation linéaire du montant facture en fonction d une série de variables Régression linéaire multiple Question : quelles variables (colonnes D-G) ont la meilleure influence linéaire sur le montant de la facture? Peut-on prédire le montant de la facture de deux nouveaux clients? 32

Modélisation linéaire du montant facture en fonction d une série de variables Régression linéaire multiple 33

Modélisation linéaire du montant facture en fonction d une série de variables Régression linéaire multiple : examen de la multicollinéarité VIF très élevé Variables redondantes Solution : relancer le modèle en excluant une des deux variables 34

Modélisation linéaire du montant facture en fonction d une série de variables Régression linéaire multiple : coefficients lorsqu on exclut la taille Interprétation : Effet positif significatif du poids sur le montant de la facture 35

Modélisation linéaire du montant facture en fonction d une série de variables Prédiction 36

Selon le type de variable(s) à expliquer et explicatives, plusieurs solutions possibles : Quelle méthode de modélisation choisir? Lien : choisir un modèle statistique approprié en fonction de votre situation 37

Conclusion : Revenons à cette question sur la taille... Différents modèles pour répondre à la même question On vous demande : quelle-est la taille des Français? Taille des Français : variable à expliquer 4 Elle dépend linéairement de l âge et de l origine ANCOVA Leur taille a telle moyenne plus ou 1 moins tel écart type 5 Distribution normale (moyenne et écart type) Elle dépend linéairement de l âge et de la taille du père Régression linéaire multiple Elle dépend de l origine géographique 2 6 ANOVA à un facteur Elle dépend de l origine géographique et du sexe ANOVA à 2 facteurs Elle dépend linéairement de l âge 3 7 Régression linéaire simple Etc. etc. Var. explicatives quantitatives Var. explicatives qualitatives 38

En somme 39

Introduction à la modélisation statistique - résumé La modélisation statistique permet D examiner le comportement de variables dites à expliquer en fonction de variables dites explicatives via une equation mathématique impliquant des paramètres. De faire des prédictions grâce à cette équation. Les modèles linéaires classiques sont valables uniquement sous certaines hypothèses portant sur les résidus : normalité, homoscedasticité, absence d autorrélation. Attention aux problèmes liés à l introduction d un trop grand nombre de variables explicatives : sur-ajustement et multicollinéarité. Selon les types de variables et la question, différents modèles existent. 40

Merci pour votre attention! Tous les outils vus sont disponibles dans toutes les solutions XLSTAT (sauf la Free) Survey time 41

Disponibilité des webinars en ligne Jusqu au 16 décembre 2016 42

Alternatives au diagnostic graphique pour verifier les Hypothèses sur les résidus Indépendance Test de Durbin-Watson exécuté sur les résidus std. (XLSTAT-Forecast) Normalité Tests de normalité exécuté sur les résidus std. Pas trop de valeurs hors-normes Vérifier que 5% des résidus std. ne dépassent pas 1.96 Homoscedasticité Tests de l hétéroscedasticité (Breusch- Pagan ou White) exécuté sur les résidus std. 43

Alternatives à la modélisation statistique classique Tableaux avec un grand nombre de var. explicatives ( > nombre d observations) présentant une multicollinéarité potentielle importante : régression PLS Machine learning supervisé : KNN, Naïve Bayes, SVM (surtout pour la prédiction) ; arbres de décision 44