Introduction à la modélisation statistique

Introduction à la modélisation statistique Illustrée avec XLSTAT Jean Paul Maalouf webinar@xlstat.com 29 novembre 2016 www.xlstat.com 1

PLAN XLSTAT : qui sommes-nous? Statistiques : categories Rappel : tests statistiques Modélisation statistique : principes Régression linéaire simple / ANOVA Principes Démonstration XLSTAT et interprétation des sorties : coefficients, p-values, R² Hypothèses sur les résidus et diagnostic graphique Régression linéaire multiple Principe, mises en garde : sur-ajustement et multicollinéarité Démonstration XLSTAT et interprétation des sorties Quelle méthode de modélisation choisir? Annexe : résidus-outils de diagnostic alternatifs Annexe : outils de modélisation alternatifs Toutes les données de cette formation ont été inventées sauf mention contraire 2

Logiciel XLSTAT XLSTAT est un logiciel d analyse de données convivial qui s intègre à Excel 3

XLSTAT, Historique Un logiciel en pleine croissance, une équipe grandissante Première vente sur internet Nouvelle version, Interface : VBA, Calculs : C++ 7 langues Nouveaux produits Nouveau site Equipe grandissante 1993 2000 2009 2016 Thierry Fahmy développe une alternative userfriendly pour l analyse de données : Naissance d XLSTAT 1996 Création de la société Addinsoft 2006 Nouvelles offres modulaires 2015 XLSTAT 365 Version Cloud pour Excel 365 XLSTAT-Free Version gratuite 4

XLSTAT en quelques chiffres 200+ fonctionnalités statistiques Réparties dans des solutions généralistes ou orientées-métier 50k utilisateurs A travers le monde. Secteurs privé, éducation, recherche 16 salariés A l écoute des utilisateurs 130k visites/mois sur le site web Tutoriels didactiques en 5 langues 7 langues 400 téléchargements/jour 5

Statistiques : 4 catégories 6

Statistiques : 4 catégories Enregistrement Enregistrement Enregistrement Description Exploration Tests Modélisation Je veux résumer Je veux plonger Je veux accepter / Je cherche à des données (1-3 facilement dans un rejeter une hypothèse comprendre comment variables) grâce à gros jeu de données bien précise en évolue un phénomène des calculs ou des sans forcément avoir assumant des risques en fonction d un graphiques simples une question précise d erreur (test t, ANOVA, ensemble de (moyenne, écart derrière la tête (ACP, khi², corrélation...) paramètres (régression, type, box plot ) CAH...) ANCOVA, ANOVA) 7

Tests statistiques : rappel 8

Tests statistiques : rappel? Question La moyenne A est-elle significativement différente de la moyenne B? Le test renvoie une p-value. 0 < p-value < 1 H0 Ha Hypothèse nulle En général absence de différence ou de relation. H0 : moyenne A = moyenne B Hypothèse alternative En général existence de différence ou de relation Ha : moyenne A moyenne B Décision : Si p-value < alpha, on rejette H0 et on accepte Ha en prenant un risque p-value de se tromper 9

Modélisation statistique - principes Je cherche à comprendre la manière dont évolue un phénomène en fonction d un ensemble de variables 10

Modélisation statistique : principes Définition Un modèle statistique est une représentation simplifiée et chiffrée d un phénomène. Il nous permet de mieux comprendre la réalité voire de faire des prédictions. 11

Modélisation statistique : exemple caricatural On vous demande : quelle-est la taille des français? Première manière de répondre Vous récitez l intégralité du tableau, ligne par ligne Deuxième manière de répondre Vous calculez la moyenne et l écart type de vos données et vous contentez de fournir ces deux chiffres Vous disposez de ce tableau contenant l info taille d un échantillon représentatif de 200 Français Français Taille Janine 169 Françoise 158 Roger 159 Albert 168 Isabelle 171 Jean-Luc 187 Nicolas 171 Benoît 162...... Représenter la taille des Français par une moyenne et un écart type est une manière de modéliser cette taille 12

Modélisation statistique : principes Définition Un modèle statistique est une représentation simplifiée et chiffrée d un phénomène. Il nous permet de mieux comprendre la réalité voire de faire des prédictions. Techniquement, comment ça marche? Un modèle permet d expliquer une variable (à expliquer, dépendante) par des variables (explicatives, indépendantes) via des équations mathématiques impliquant des paramètres. Le modèle caricatural de la moyenne n implique pas de variables explicatives 13

Régression linéaire simple Principes, démonstration XLSTAT, interprétation des sorties 14

Individus Tableau de données : plateforme de vente de chaussures en ligne Variables Question : comment le montant de la facture varie-t-il en fonction du temps passé sur le site? 15

Exemple : modélisation du montant facture en fonction du temps passé sur le site 16

Exemple : modélisation du montant facture en fonction du temps passé sur le site On peut partir sur une Régression linéaire simple (y = a*x + b) Notre manière de simplifier la réalité : un modèle «droite» paramètres Ce qu on n a pas réussi à capturer avec notre modèle Montant facture = a*temps passé sur le site + b + résidus Variable dépendante ( = à expliquer) Variable explicative Erreurs (Résidus) PS : on a choisi une modélisation linéaire, mais rien ne nous y obligeait. La question nous donne le droit de choisir un modèle plus courbe, si les données et l interprétation le justifient. 17

Salaire moyen L ANOVA peut être elle aussi perçue comme un modèle statistique (variables explicatives qualitatives) modèle Modèle un paramètre Salaire moyen = moyenne(modalité de référence) + écart(modalité du point considéré) + résidus deux paramètres Modalité de référence Terre Pluton Mars Origine Erreurs (Résidus) ANOVA, régression linéaire & ANCOVA font partie de la famille du modèle linéaire 18

Modélisation - Comment estimer les paramètres? Cas de la régression linéaire simple Pour un modèle donné, les meilleures valeurs de paramètres sont celles qui minimisent la somme des carrés des résidus : n S a, b = i=1 y i ax i + b 2 y observés (données) y prédits par le modèle Erreurs (Résidus) C est ce qu on appelle l estimation par les moindres carrés 19

Exemple : modélisation du montant facture en fonction du temps passé sur le site - XLSTAT 20

Modélisation linéaire du montant facture en fonction du temps passé sur le site Régression linéaire simple, sorties XLSTAT Estimation des paramètres (moindres carrés) Intervalles de confiance autour de l estimation b a P-values associées à: H0 : paramètre = 0 Ha : paramètre 0 Equation peut être utilisée pour prédire le montant de la facture en fonction de nouvelles valeurs de temps passé sur le site 21

Modélisation linéaire du montant facture en fonction du temps passé sur le site Régression linéaire simple, sorties XLSTAT Le R² reflète la bonne adéquation du modèle aux données. 0<R²<1 Intervalle de confiance du modèle ( = lié à l estimation des paramètres) Intervalle de confiance de prédiction = 95% des nouvelles prédictions tomberont dans cette enveloppe 22

modèle linéaire hypothèses sur les résidus Un modèle linéaire n est fiable que sous certaines hypothèses relatives aux résidus associés 23

Modèle linéaire : hypothèses sur les résidus Indépendance Pas d autocorrélation. Une mesure par individu. Normalité Résidus suivent une distribution normale Pas trop de valeurs hors-normes En général, pas plus de 5% de résidus hors-normes Homoscedasticité Homogénéité de la variance des résidus 24

Modèle linéaire : hypothèses sur les résidus, diagnostic graphique Graphique des résidus en fonction des var. explicatives : Répartition homogène des points autour de la droite y = 0 modèle valide 25

Examen des résidus, cas courants de violation des hypothèses Violation de l indépendance ( résidus autocorrélés) Violation de l homoscedasticité ( hétérogénéité de la variance) Rencontrée surtout dans séries temporelles avec périodicité Cas où la variance est fonction de la moyenne par exemple 26

Solutions aux violations des hypothèses sur les résidus Réfléchir aux valeurs hors normes (les éliminer?) Transformer les données y ou x (log, racine carrée, Box-Cox ) Opter pour un modèle plus adapté (non-linéaire, de Poisson ) Autocorrélation : modèle de Cochrane-Orcutt (XLSTAT-Forecast) 27

Régression linéaire multiple y = a*x1 + b*x2 +... 28

Régression linéaire multiple - principes Etudier l influence linéaire de plusieurs variables explicatives sur la variable à expliquer, augmenter la qualité prédictive 29

Régression linéaire multiple mises en garde outre les hypothèses sur les résidus : sur-ajustement et multicollinéarité 30

Ajouter des variables explicatives Régression linéaire multiple (y = a*x1 + b*x2 +...) mises en garde Ajouter des variables explicatives augmente le R² Et par conséquent la qualité prédictive du modèle. Attention : ne pas en inclure beaucoup trop Pour éviter d avoir des modèles trop ajustés sur nos données particulières, et par conséquent peu généralisables. L indice de qualité de modèle AIC. Compromis entre : bon ajustement aux données faible nombre de paramètres. L AIC est un indice de qualité relative donc à utiliser uniquement pour comparer des modèles entre eux. Le modèle à l AIC le plus faible est le meilleur. Attention aux variables redondantes Certaines variables très corrélées peuvent se masquer les unes les autres dans l évaluation de leurs effets. On parle de multicollinéarité (indice VIF > 5). Exemples : température du jour et température de la nuit ; poids et taille 31

Modélisation linéaire du montant facture en fonction d une série de variables Régression linéaire multiple Question : quelles variables (colonnes D-G) ont la meilleure influence linéaire sur le montant de la facture? Peut-on prédire le montant de la facture de deux nouveaux clients? 32

Modélisation linéaire du montant facture en fonction d une série de variables Régression linéaire multiple 33

Modélisation linéaire du montant facture en fonction d une série de variables Régression linéaire multiple : examen de la multicollinéarité VIF très élevé Variables redondantes Solution : relancer le modèle en excluant une des deux variables 34

Modélisation linéaire du montant facture en fonction d une série de variables Régression linéaire multiple : coefficients lorsqu on exclut la taille Interprétation : Effet positif significatif du poids sur le montant de la facture 35

Modélisation linéaire du montant facture en fonction d une série de variables Prédiction 36

Selon le type de variable(s) à expliquer et explicatives, plusieurs solutions possibles : Quelle méthode de modélisation choisir? Lien : choisir un modèle statistique approprié en fonction de votre situation 37

Conclusion : Revenons à cette question sur la taille... Différents modèles pour répondre à la même question On vous demande : quelle-est la taille des Français? Taille des Français : variable à expliquer 4 Elle dépend linéairement de l âge et de l origine ANCOVA Leur taille a telle moyenne plus ou 1 moins tel écart type 5 Distribution normale (moyenne et écart type) Elle dépend linéairement de l âge et de la taille du père Régression linéaire multiple Elle dépend de l origine géographique 2 6 ANOVA à un facteur Elle dépend de l origine géographique et du sexe ANOVA à 2 facteurs Elle dépend linéairement de l âge 3 7 Régression linéaire simple Etc. etc. Var. explicatives quantitatives Var. explicatives qualitatives 38

En somme 39

Introduction à la modélisation statistique - résumé La modélisation statistique permet D examiner le comportement de variables dites à expliquer en fonction de variables dites explicatives via une equation mathématique impliquant des paramètres. De faire des prédictions grâce à cette équation. Les modèles linéaires classiques sont valables uniquement sous certaines hypothèses portant sur les résidus : normalité, homoscedasticité, absence d autorrélation. Attention aux problèmes liés à l introduction d un trop grand nombre de variables explicatives : sur-ajustement et multicollinéarité. Selon les types de variables et la question, différents modèles existent. 40

Merci pour votre attention! Tous les outils vus sont disponibles dans toutes les solutions XLSTAT (sauf la Free) Survey time 41

Disponibilité des webinars en ligne Jusqu au 16 décembre 2016 42

Alternatives au diagnostic graphique pour verifier les Hypothèses sur les résidus Indépendance Test de Durbin-Watson exécuté sur les résidus std. (XLSTAT-Forecast) Normalité Tests de normalité exécuté sur les résidus std. Pas trop de valeurs hors-normes Vérifier que 5% des résidus std. ne dépassent pas 1.96 Homoscedasticité Tests de l hétéroscedasticité (Breusch- Pagan ou White) exécuté sur les résidus std. 43

Alternatives à la modélisation statistique classique Tableaux avec un grand nombre de var. explicatives ( > nombre d observations) présentant une multicollinéarité potentielle importante : régression PLS Machine learning supervisé : KNN, Naïve Bayes, SVM (surtout pour la prédiction) ; arbres de décision 44