2.1.1 Sélectionner les variables... 10

Transcription

1 Web'Stat est le dernier né des logiciels Sphinx. Entièrement en ligne, il propose un panel complet d'outils d'analyses statistiques avancées : équations structurelles, classifications hiérarchiques, régressions logistiques et PLS, AFC et ACP... Modélisez et donnez du sens à vos données! Le Sphinx Développement - 27 rue Cassiopée - Parc Altaïs Chavanod - Tél. : Fax : contact@lesphinx-developpement.fr - Internet :

2 1 INTRODUCTION : L ANALYSE STATISTIQUE MULTI VARIEE SYNTHETISER Classification hiérarchique ascendante Analyse en composantes principales Analyse des correspondances multiples EXPLIQUER Régression linéaire multiple Régression logistique Régression PLS Equations structurelles QUELLE METHODE CHOISIR? COMMENT S Y PRENDRE? REGRESSION LINEAIRE MULTIPLE LES VARIABLES A ANALYSER Sélectionner les variables Bien choisir les variables Régression pas à pas ou non? COMPRENDRE LES RESULTATS Les données Le modèle de régression linéaire Interprétation des résultats Valeurs calculées EXEMPLES Données d enquêtes : les touristes du lac Les facteurs explicatifs de la dépense totale Les facteurs explicatifs de la satisfaction Base de données statistiques REGRESSION LOGISTIQUE LES VARIABLES A ANALYSER Sélectionner les variables Bien choisir les variables Régression pas à pas ou non? COMPRENDRE LES RESULTATS Les données Le modèle de régression logistique Interprétation des résultats Valeurs calculées REGRESSION PLS LES VARIABLES A ANALYSER Sélectionner les variables Bien choisir les variables Options : nombre composantes COMPRENDRE LES RESULTATS Les données Le modèle de régression linéaire PLS Les équations du modèle Qualité du modèle Les représentations graphiques du modèle Copyright Le Sphinx Développement Version Provisoire 2

3 Représentation arborescente Carte des composantes Hiérarchie des variables explicatives Tableaux des paramètres du modèle Influence des composantes Influence des variables explicatives Tableau récapitulatif des R Valeurs calculées EQUATIONS STRUCTURELLES LES PRINCIPES SELECTIONNER LES VARIABLES ET DEFINIR LE MODELE BIEN CHOISIR LES VARIABLES REFLECTIF OU FORMATIF, QUE CHOISIR? COMPRENDRE LES RESULTATS Les données Caractéristique des variables Matrice des corrélations entre variables manifestes Les re présentations graphiques du modèle La qu alité du modèle Est ce que les variables latentes représentent bien les données de départ? Est ce que les relations postulées par le modèle s adaptent bien aux données? Est ce que les différenciations apportées par le modèle reflètent une différenciation effective dans les données? Résultats détaillés : Le modèle interne Résultats détaillés : Le modèle externe Matrice de corrélation entre variables latentes et variables manifestes CLASSIFICATION HIERARCHIQUE ASCENDANTE LES VARIABLES A ANALYSER Bien choisir les variables Les options COMPRENDR E LES RESULTATS Les do nnées Caractéristique des variables Matrice des corrélations entre variables manifestes Le dendrogramme et la détermination du nombre de classes Caractérisation des classes Détail des classes Enregistrement des classes EXEMPLES Exploitation de bases de données statistiques : La démographie des pays du monde Analyse des réponses à des questions fermées multiples : Les touristes du Lac Classification et analyse en composants principales : les résultats du bac ANALYSE EN COMPOSANTES PRINCIPALES LES VARIABLES A ANALYSER Sélectionner les variables Bien choisir les variables Les options COMPRENDRE LES RESULTATS Les données Les facteurs La carte factorielle Caractéristique des facteurs Vecteurs pr op res Corrélation e ntre les variables et les facteurs Contribution des variables Copyright Le Sphinx Développement Version Provisoire 3

4 7.2.5 Caractéristique des projections sur le plan factoriel Coordonnées des variables Cosinus carré des variables Coordonnées des individus Cosinus carré des individus Utilisation des scores factoriels EXEMPLE : SPONSOR Tester la dimensionnalité des échelles Explorer et interpréter les dimensions multiples Interprétation des facteurs à partir de la contribution des variables Les caractéristiques des facteurs après rotation varimax Utiliser les scores factoriels ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES LES VARIABLES A ANALYSER Sélectionner des variables Bien choisir les éléments à analyser Options Nombre d axe factoriels à extraire : Choix du plan factoriel : Colorier Nom des modalités COMPRENDRE LES RESULTATS Les données Les cartes factorielles La carte factorielle individus modalités La carte des modalités La carte des individus La qualité des représentations factorielles Variance expliquée par les principaux facteurs Vecteurs propre Contribution des modalités Poids et coordonnées des modalités Cosinus carré des modalités Enregistrement des scores factoriels EXEMPLE : LE REVE DES FRANÇAIS Carte factorielle et configurations des critères socio démographiques Construction d une typologie fondée les 2 premiers facteurs Analyse des réponses à la question ouverte La typologie fondées sur la signalétiques correspond t elle à des différences dans les contenus de la réponse ouverte? Copyright Le Sphinx Développement Version Provisoire 4

5 1 Introduction : L analyse statistique multivariée Ces méthodes ont pour but de faciliter le passage des données brutes à la connaissance des populations et des phénomènes étudiés. Pour cela 2 grandes directions : la synthèse pour dégager les traits essentiels qui résument les données en les caractérisant au mieux l explication pour comprendre les mécanismes, les causalités, les influences et prévoir les évolutions La voie de la synthèse consiste plutôt à explorer sans a priori les données pour mettre à jour des faits ou structures remarquables (analyse exploratoire ou datamining). Au contraire, l explication est plus souvent recherchée à partir de connaissances a priori dont on veut à vérifier la pertinence (analyse confirmatoire, modélisation). Cependant il peut aussi arriver qu on cherche des explications en tâtonnant, ou que l exploration ne revienne en fait qu à retrouver des connaissances déjà bien établies. Selon leur objectif les méthodes mettent en œuvre des algorithmes spécifiques qui dépendent de la nature des données : numériques (questions numérique ou échelle) ou nominales (questions fermée ou texte). Les possibilités d analyse sont donc déterminées dès la conception du questionnaire (ou dès la sélection du fichier de données à traiter), non seulement par la signification des données mais également par leur forme. D une manière générale les possibilités d analyse sont plus riches lorsque le questionnaire ou les données ont été établis à partir d un modèle et lorsque les données sont numériques. La qualité de l analyse dépend donc très largement de la réflexion et des choix effectués au moment de la collecte. Copyright Le Sphinx Développement Version Provisoire 5

6 1.1 Synthétiser Classification hiérarchique ascendante Regroupement d observations proches pour définir des classes homogènes et bien séparées en différenciant les populations étudiées. Exemples : Dans une étude de marché, des prospects décrivent leurs attentes en indiquant sur des échelles l importance qu ils accordent aux différentes caractéristiques d un produit nouveau. L enquête d un observatoire du tourisme recueille l opinion des personnes qui sont venues dans la région. Ces opinions sont décrites sur 10 échelles d accord désaccord. Un magazine économique publie les indicateurs économiques et sociaux des 500 premières entreprises françaises. Une grande banque analyse les comportements de ses clients par rapport à l usage qu ils font des différents services de la banque La classification permet d identifier des groupes de prospects, de touristes ou entreprises ayant des profils voisins relativement aux critères qui les définissent. Elle permet de construire des typologies et de rapporter chaque observation individuelle à un groupe d appartenance défini par un profil qui le distingue des autres groupes Analyse en composantes principales Réduction d un ensemble de variables numériques par extraction d un petit nombre de composantes qui synthétisent les évaluations et permettent de visualiser les observations. Exemples : En psychologie on cherche à identifier des traits de personnalités en demandant aux répondants de donner leur degré d accord avec des énoncés portant sur les réactions qu il pourraient avoir dans telle ou telle circonstance. Dans les enquêtes de comportement du consommateur on fait évaluer le produit étudié par rapport aux critères qui entrent en jeu au moment de l achat De grandes enquêtes internationales cherchent à différencier les cultures à partir de questionnaires portant sur les valeurs et les croyances des répondants Dans les enquêtes de satisfactions on recueille les évaluations des clients ou des usagers sur chaque attribut du produit ou du service. L analyse en composantes principales permet d établir si les différentes opinons ou évaluations vont toutes dans le même sens. Si au contraire elles diffèrent elle conduit à identifier les évaluations variant de manière simultanée et à définir les composantes. On peut ainsi établir si oui ou non la satisfaction est mono dimensionnelle ou si au contraire on peut identifier des dimensions qui résument en les différenciant les critères pris en considérations pour caractériser les grandes composantes de la satisfaction. Copyright Le Sphinx Développement Version Provisoire 6

7 1.1.3 Analyse des correspondances multiples Simplification de données multidimensionnelles par l extraction de facteurs qui résument l information initiale apportée par des variables nominales en situant les observations par rapports à ces informations. Exemples : Dans les enquêtes les comportements et l identité des répondants sont décrits par des modalités qui les caractérisent. L analyse factorielle des correspondances multiples permet d identifier des profils et de mettre en évidence les associations remarquables en synthétisant les données selon leurs affinités. L analyse lexicale permet d associer à chaque réponse aux questions ouvertes d un questionnaire ou à chaque fragment du corpus analysé la liste des mots significatifs (ou les plus fréquents) qui les composent. L analyse factorielle permet alors de mette en évidence les termes les plus fréquemment associés en définissant des facteurs correspondant à ces «constellations». On peut ainsi résumer la variété des situations ou des formes linguistiques par des profils qui différencient les répondants ou des thèmes présents dans le texte analysé. 1.2 Expliquer Régression linéaire multiple Calcul d une variable à expliquer (Y) sous la forme d une fonction linéaire de variables explicatives (X i ). La variable à expliquer et les variables explicatives sont des variables numériques ou échelles. Exemples : Dans les études économiques on cherche à expliquer un résultat (taux de croissance, niveau de l emploi ) par la situation des économies nationales (population, structure démographique ) et les actions de politique économique (taux directeur du crédit, niveau des prélèvements ) En météorologie on cherche à expliquer l ensoleillement par les mesures de pression, de vents, d hygrométrie En médecine on cherche à expliquer les taux de guérisons par les doses médicamenteuses prescrites et les caractéristiques physiques de populations test. En marketing on cherche à expliquer le niveau de consommation par l intensité de l exposition à la publicité et le revenu La régression linéaire multiple permet d estimer ces résultats à partir des éléments pris en considérations. L équation à laquelle elle conduit permet aussi bien d évaluer l importance relative des différentes variables explicatives que de prévoir des résultats. Copyright Le Sphinx Développement Version Provisoire 7

8 1.2.2 Régression logistique Calcul de la probabilité d un évènement à partir d un score (S) établi comme une combinaison linéaire de variables explicatives. La variable à expliquer (Y qui vaut 0 ou 1) est une modalité d'une variable fermée. Les variables explicatives (X i ), sont des nombres (variables numériques ou échelles). Exemples : Les banques cherchent à comprendre pourquoi certains prêts ne sont pas remboursés et ainsi prévoir les risques de défaillance. En médecine on cherche à prévoir le risque d apparition d une maladie en fonctions des résultats d examens biologiques. En marketing on veut connaître les chances pour qu un prospect devienne acheteur Quand on cherche à expliquer un évènement la régression logistique est mieux adaptée. Elle permet d établir le modèle qui donne la probabilité de défaillance, d apparition de la maladie ou d achat Régression PLS On recourt à PLS quand plus de variable que d observation.la méthode fait 2 choses simultanément regroupant de nombreuses variables en un petit nombre de composantes le plus explicatives du phénomène explique Calcul de la variable à expliquer (Y) comme combinaison linéaire de composantes PLS (ti). Les composantes PLS regroupent les variables explicatives (X i ) selon les relations qu elles ont entre elles. La variable à expliquer et les variables explicatives sont des variables numériques ou échelles. Exemples : En chimie on cherche à expliquer comment les dosages d une peinture expliquent sa résistance et à comprendre comment ses ingrédients se marient pour lui donner ses propriétés de dureté et de stabilité. Dans les enquêtes de satisfactions on veut connaître l importance des différents éléments qui composent le service mais aussi comprendre comment ceux ci se combinent entre eux La régression PLS est une alternative à la régression linéaire multiple. Elle a l avantage d être plus tolérantes (elle supporte les données manquantes et ne suppose pas la normalité des données). Elle donne aussi une information supplémentaire sur la manière dont les variables explicatives doivent être regroupées. Dans l exemple ci dessus donnant ainsi de la dureté ou de la satisfaction différents aspects synthétiques. Copyright Le Sphinx Développement Version Provisoire 8

9 1.2.4 Equations structurelles Calcul par l approche PLS de variables latentes et des relations qui définissent le modèle. Le modèle est défini par les relations entre variables latentes (équations structurelles) Chaque variable latente est mesurée par les variables manifestes choisies par le chercheur Exemples: En psychologie on utilise des batteries de questions pour mesurer certains traits de personnalité et expliquer le niveau d intelligence mesuré par un autre ensemble de questions. Dans les thèses en gestions on cherche à vérifier des théories en construisant des modèles pour expliquer la sensibilité des consommateurs à la publicité, le niveau d utilité perçu d un système d information, l acceptation des règles de management. Dans les enquêtes de satisfactions on cherche à savoir comment les évaluations des différents aspects du produit ou du service sont reliées entre elles contribuent à la formation de la satisfaction globale. La modélisation en équations structurelles permet à la fois de construire des concepts généraux qui synthétisent les différentes mesures effectuées et de tester les relations postulées par la théorie. On pourra ainsi vérifier que la personnalité a une influence sur l intelligence, que les modèles théoriques des sciences de gestion se vérifient empiriquement ou sur quoi agir pour améliorer la satisfaction. 1.3 Quelle méthode choisir? Le choix de la méthode dépend bien sûr de ce qu on cherche à faire (expliquer et comprendre, synthétiser ou classifier), des variables qu on veut analyser (quelle est leur signification et pourquoi les analyser simultanément) et enfin de la nature statistique des données. Ainsi on s oriente vers une classification ou une analyse factorielle si toutes les variables sont sur le même plan. Au contraire on envisage la mise en œuvre d une méthode de régression si l une des variables peut être expliquée par les autres. Enfin si on est capable de décrire un système de relations plus complexe on peut opter pour une modélisation en équations structurelles. Les variables numériques offrent plus de possibilités. Dans le cas d une variable à expliquer nominale on choisit la régression logistique. Si toutes les variables sont nominales il faut choisir l analyse factorielle des correspondances multiples enfin, les variables nominales ne peuvent pas entrer dans un modèle d équations structurelles. La classification hiérarchique peut s exécuter indifféremment sur des variables numériques et ou nominales. 1.4 Comment s y prendre? D une manière pratique on choisit d abord la méthode, puis les variables. Seules figurent dans la (les) liste(s) proposée(s) les variables dont le type convient. Les options proposées permettent quelques réglages optionnels des algorithmes de calcul. Le bouton ouvrir permet de reprendre des analyses antérieurement effectuées sans avoir à sélectionner à nouveau les variables et les options. L enregistrement d une analyse se fait après avoir obtenus les résultats. Les résultats obtenus portent sur la description des données analysées, les réponses apportées par la méthode et la possibilité d enrichir les données en créant les nouvelles variables. Copyright Le Sphinx Développement Version Provisoire 9

10 2 Régression linéaire multiple 2.1 Les variables à analyser Sélectionner les variables La variable à expliquer est choisie dans la première liste. Les variables explicatives sont choisies ensuite. Toutes les variables sont numériques. Utiliser les flèches pour transférer les variables dans les zone des variables sélectionnées ou les en retirer Bien choisir les variables D un point de vue sémantique il convient de s assurer qu on définit bien une relation causale ou d explication et que l ensemble des variables explicatives est complet et non redondant. C'est à dire qu on n oublie pas une cause importante (complétude) et que chaque variable explicative renvoie bien à une cause différente (non redondance). D un point de vue statistique il faut vérifier que la distribution des variables sélectionnées suit une loi normale et que les variables explicatives sont statistiquement indépendantes (non corrélées entre elles). Les algorithmes fonctionnent si ces conditions ne sont pas respectées, mais les seuils de risques des tests statistiques Régression pas à pas ou non? La régression pas à pas descendante consiste à faire sortir les variables explicatives les moins reliées à la variable dans le calcul de l équation jusqu à ce qu une sortie supplémentaire détériore la qualité du modèle. En décochant régression pas à pas toutes les variables apparaîtront dans l équation, y compris celles qui n ont pas d influence significative. Copyright Le Sphinx Développement Version Provisoire 10

11 2.2 Comprendre les résultats Les données La régression est calculée sur les observations complètement documentées pour les variables sélectionnées. Le logiciel élimine automatiquement les observations qui contiennent des données manquantes et fournit le nombre d observations effectivement pris en considération dans les calculs. Le premier tableau indique les caractéristiques des variables pour ces observations. La dernière colonne «corrélation avec la variable à expliquer» donne une première idée de l influence des variables explicatives. Le tableau suivant contient les corrélations entre variables explicatives et permet de vérifier que la condition d indépendance est satisfaite. La valeur de l alpha de Cronbach résume cette information. Plus précisément les coefficients VIF (Variance Inflation Factors) donnent l intensité de la colinéarité imputable à chaque variable explicative. Celles qui ont nu VIF>5 devraient être retirées Le modèle de régression linéaire. L algorithme consiste à calculer par une méthode des moindres carrés les coefficients de l équation linéaire permettant de calculer la variable explicative à partir des variables expliquées (on parle aussi de variable endogène et exogènes) y =a 0 +a 1 x 1 +a 2 x 2 +.+a p x p avec y variable à expliquer calculée, x i variable explicatives, a 0 constante et a i coefficient de régression Cette équation permet de prédire la valeur de y pour des valeurs données des variables explicatives La qualité de la prévision dépend de l ajustement entre les données (y) et le modèle (y ) caractérisée par : le pourcentage de variance expliquée : c est le rapport entre la variance de y calculé et de y observé le coefficient de corrélation multiple (racine carré de la variance expliquée) p : la probabilité pour que la valeur de R soit nulle Le F Test Cet ajustement est visualisé par le graphique portant en abscisse les valeurs de y observées et en ordonnées les valeurs de y calculées. Si l ajustement est parfait les points sont strictement alignés et le coefficient de corrélation multiple est égal à 1. Plus les écarts entre y observés et y calculés sont fréquents et importants, plus les points sont dispersés sur le graphique et plus le coefficient de corrélation est faible Interprétation des résultats L équation permet de calculer la variable à expliquer en fonction des valeurs des variables explicatives. Elle permet aussi de définir l importance relative des variables explicatives. En effet les coefficients de régression (ou poids) significatifs (a i >0) indiquent l accroissement de la variable calculée sous l effet de la variable x i toutes valeurs égales par ailleurs. Les variables explicatives ne figurant pas dans l équation (régression pas à pas) ou celles dont les coefficients de régression ont une valeur p supérieure au seuil de risque accepté, n ont aucune influence (ai=0). Copyright Le Sphinx Développement Version Provisoire 11

12 L ordre de grandeur des coefficients de régression dépend de l unité de mesure des variables explicatives et de leur dispersion ce qui interdit toute comparaison lorsque ces unités sont différentes. Pour remédier à cet inconvénient et éliminer l effet des unités de mesure on calcule des coefficients standardisés. On peut alors comparer les coefficients standardisés entre eux et pointer les variables ayant le plus d influence. La formule de calcul du coefficient de régression standardisé (a ) est la suivante : a i = a 1 *S i /Sy avec : a 1 coefficient de régression de la variable i, S i écart type de la variable i, Sy écart type de la variable expliquée. Les beta indique l accroissement en écart type de y pour un écart type de x On peut également calculer la contribution de chaque variable explicative. Elle exprime en pourcentage le poids du coefficient standardisé d une variable par rapport à la somme de tous les coefficients. Ces calculs se font en valeur absolue et sont indiqués dans la dernière colonne du tableau «influence des variables explicatives». Ils établissent pour quel pourcentage chaque variable explicative contribue à la variation de la variable expliquée. La formule de calcul de la contribution est la suivante : c i =100*a i / a i L histogramme des contributions permet de visualiser ces pourcentages Valeurs calculées Les valeurs estimées à partir de l équation de régression peuvent être stockées dans la table de donnée ce qui permet ensuite de les utiliser pour d autres analyses, notamment pour déterminer les caractéristiques des observations qui s écartent de la valeur calculée. 2.3 Exemples Données d enquêtes : les touristes du lac Cette enquête porte sur les comportements, les attentes et la satisfaction d une population touristique. L échantillon porte sur 554 individus Les facteurs explicatifs de la dépense totale Les répondants étaient invités à indiquer leur dépense totale (V7) et celle correspondant aux postes suivants : hébergement(v8), alimentation(v9), restaurant(v10), loisir(v11). Par ailleurs ils donnent la durée de leur séjour(v5) et leur âge(v24). On sélectionne la dépense totale comme variable à expliquer et on effectue 2 régressions, la première cherche à vérifier que la dépense totale se déduit bien des différents postes de dépenses, la deuxième vise à expliquer la dépense totale par la durée du séjour et l âge. Une régression pas à pas donne les résultats ci dessous : La dépense totale se déduit-elle des différents postes de dépense? Nombre d observations complètes : 100 Caractéristique des variables explicatives : Alpha de Cronbach standardisé : La forte valeur de l'alpha indique que les variables explicatives ne sont pas indépendantes mais fortement corrélées entre elles. La dépense totale dépend elle des caractéristiques du séjour ou de celles du touriste? Nombre d observations complètes : 300 Caractéristique des variables explicatives : Alpha de Cronbach standardisé : La valeur de l alpha indique que les conditions d indépendance des variables explicatives sont assez bien satisfaites Copyright Le Sphinx Développement Version Provisoire 12

13 Equation du modèle Dépense totale = * Dépense loisirs * Dépense hébergement * Dépense alimentation Variables non significatives (au seuil de 5%) : Dépense restaurant. Contributions des variables explicatives Equation du modèle Dépense totale = * Age * Durée du séjour Contributions des variables explicatives Qualité du modèle : Le modèle rend compte de 69.34% de la variance de la variable à expliquer. Coefficient de corrélation multiple : R = Qualité du modèle : Le modèle rend compte de 13.64% de la variance de la variable à expliquer. Coefficient de corrélation multiple : R = Ces résultats mettent d abord en évidence la qualité médiocre des données. De nombreux répondants n ont pas répondu aux questions sur la dépense, les observations manquantes sont automatiquement éliminées. Malgré le faible effectif traité (100 observations complètes) on vérifie que la dépense totale se déduit bien des différents postes : le coefficient de corrélation multiple est de 0,83 et la valeur calculée par l équation restitue 70% de la variance. En revanche la deuxième analyse ne livre pas de résultats concluant : la valeur du coefficient de corrélation multiple est faible et l âge et la durée du séjour n expliquent qu une faible partie de la variance de la dépense totale. C est dommage car la condition d indépendance des variables explicatives est bien vérifiée. Ce n est pas le cas pour l explication par les postes de dépenses, ce qui revient à dire que la vérification statistique n en est pas vraiment une puisque par définition on sait déjà que tous ces éléments doivent se déduire comptablement les uns des autres. Tout au plus vérifie t on que les déclarations des touristes correspondent bien à cette réalité. On peut donc utiliser le modèle pour d éventuelles prévisions. Copyright Le Sphinx Développement Version Provisoire 13

14 Enfin ces régressions nous apprennent également que : les dépenses de restaurant ne pèsent pas pour estimer la dépense totale et que la contribution la plus forte est celle des dépenses d alimentation. la durée du séjour a certainement une influence plus forte que l âge sur le niveau de la dépense totale (contribution près de 2 fois plus grande). Mais ceci ne doit pas faire oublier que plus de 80% de la variance reste inexpliquée ce qui signifie que d autres facteurs non pris en compte dans l analyse jouent un rôle plus important que l âge ou la durée du séjour Les facteurs explicatifs de la satisfaction Les répondants étaient également invités à noter sur 20 leur satisfaction par rapport à leurs vacances (V22). Par ailleurs ils avaient à donner leur accord sur chacune des 10 propositions suivantes assorties dune échelle d accord en 5 points : Pour moi les vacances idéales c est : le soleil, le sport, les contacts, la vie de club, le monde, le confort, la nature, le tout compris, le repos calme, la famille. (V12 à V21). On cherche à déterminer si la satisfaction résulte des attentes exprimées par la définition des vacances idéales. La note de satisfaction est la variable dépendante, les opinions exprimées sur les vacances idéales sont les variables indépendantes. L examen des corrélations avec la variable à expliquer permet de se faire une idée de l influence de chaque variable. Monde, Sport et Soleil considérées indépendamment l une de l autre sont les variables les plus corrélées à la satisfaction. La régression multiple permet d affiner ce résultat en tenant compte de la combinaison des influences. Variable Min Max Moyenne Ecarttype A expliquer Satisfaction Explicative Soleil Sport Contacts Club Monde Confort Nature Tout_compris Repos_calme Famille Corrélation avec la variable à expliquer Le tableau des corrélations nous renseigne sur les interactions entre variables explicatives. Ici les valeurs faibles des coefficients nous indiquent que les variables sont indépendantes les unes des autres à l exception de Club et Tout compris. La valeur de l alpha de Cronbach confirme cela. Soleil Sport Contacts Club Monde Confort Nature Soleil - Sport Contacts Club < Monde Confort Tout_compri s Repos_calm e Famille Copyright Le Sphinx Développement Version Provisoire 14

15 Nature Tout_compris < Repos_calme Famille < Alpha de Cronbach standardisé : La valeur de l alpha indique que les conditions d indépendance des variables explicatives sont assez bien satisfaites On effectue successivement une régression pas à pas (l algorithme élimine automatiquement les variables n ayant pas d influence significative) et une régression dans laquelle figureront toutes les variables. Avec régression pas à pas Equation du modèle Satisfaction = * Soleil * Sport * Contacts * Monde * Confort Variables non significatives (au seuil de 5%) : Repos_calme, Famille, Club, Tout_compris, Nat ure. Qualité Le modèle rend compte de 69.34% de la variance de la variable à expliquer. Coefficient de corrélation multiple : R = Contributions Sans régression pas à pas Equation du modèle Satisfaction = * Soleil * Sport * Contacts * Club * Monde * Confort * Nature * Tout_compris * Repos_calme * Famille Qualité Le modèle rend compte de 69.53% de la variance de la variable à expliquer. Coefficient de corrélation multiple : R = Contributions Influence des variables explicatives Coeff. p-value Coeff. std Contrib const < Soleil 1.03 < Sport 0.93 < Contacts 1.01 < Monde 1.07 < Confort 0.94 < Coeff. : Coefficient Coeff. std : Coefficient Standardisé Contrib. : Contribution Influence des variables explicatives Coeff. p-value Coeff. std Contrib const < Soleil 1.03 < Sport 0.93 < Contacts 1.01 < Club Monde 1.06 < Confort 0.94 < Nature Tout_compris Repos_calme Famille On constate qu en prenant toutes les variables en considération on n améliore pas la qualité de l estimation. D autre part dans l équation complète les coefficients des variables éliminées par la régression pas à pas ont tous une valeur p supérieure à 0,05. Cela signifie que la probabilité pour que la valeur du coefficient soit nulle (p) n est pas négligeable. C est la raison pour laquelle il est raisonnable de ne pas tenir compte de ces variables. Copyright Le Sphinx Développement Version Provisoire 15

16 Finalement on conclura : que les critères qui influencent la satisfaction sont le monde, le sport, les contacts, le soleil et le confort. C est ce que nous indique l histogramme des contributions. Plus les répondants considèrent que ces éléments font des vacances idéales, plus ils sont satisfaits de leur séjour dans la région. cette explication n est certainement pas complète en effet 30% de la variance de la satisfaction n est pas expliquée par ces variables. Cet écart peut venir des imperfections des données mais il indique aussi qu on ne peut pas prétendre expliquer complètement la satisfaction par le simple fait que les attentes sont satisfaites Base de données statistiques Considérons à nouveau la base de données démographique des 195 pays et cherchons ce qui explique la croissance naturelle. Sans plus réfléchir sélectionnons Croissance naturelle (V8) comme variable à expliquer et toutes les autres variables comme variables explicatives. Le résultat est évident et nous rappelle que par définition le taux de croissance naturelle est égal à la différence entre le taux de natalité et le taux de mortalité. Il n est donc pas étonnant que dans ce cas trivial le modèle nous permette de «prévoir» très exactement la variable à expliquer. Taux de croissance naturelle = * Taux de natalité * Taux de mortalité Le modèle rend compte de % de la variance de la variable à expliquer. Coefficient de corrélation multiple : R = Pour essayer de trouver une explication non triviale enlevons le taux de mortalité de l ensemble des variables explicatives. On obtient un très bon ajustement. Sans surprise le taux de natalité a une influence positive et les taux de mortalité infantile ainsi que la part de la population âgée une influence négative. Le graphe des contributions nous informe sur le sens et l importance relative des variables explicatives. Copyright Le Sphinx Développement Version Provisoire 16

17 Taux de croissance naturelle = * % population + 65 ans * Taux de natalité * Mortalité infantile Qualité du modèle Contribution des variables explicatives Ce cas nous apprend bien plus sur l efficacité des méthodes statistiques pour révéler la structure des données que sur la démographie. Les calculs donnent toujours des résultats justes, mais leur intérêt dépend des données choisies. Copyright Le Sphinx Développement Version Provisoire 17

18 3 Régression logistique 3.1 Les variables à analyser Sélectionner les variables On cherche à estimer la probabilité de la modalité choisie d une variable nominale, connaissant les valeurs de variables explicatives numériques. Par exemple connaître la probabilité pour qu un séjour touristique ait été effectué à l hôtel connaissant le coût total du séjour sa durée et l âge de celui qui l a effectué. La variable à expliquer (Y vaut 0 ou 1) est une modalité d'une variable fermée. Les variables explicatives (X i ), sont des nombres (variables numériques ou échelles). La modalité dont on veut estimer la probabilité est choisie en sélectionnant d abord la variable à la laquelle elle appartient ( ) puis en cliquant la modalité choisie et en l envoyant dans la zone définissant la modalité à expliquer. Les variables explicatives sont choisies dans la deuxième liste puis envoyées dans zone des variables explicatives Bien choisir les variables D un point de vue sémantique il convient de s assurer qu on définit bien une relation causale ou d explication et que l ensemble des variables explicatives est complet et non redondant. C'est à dire qu on n oublie pas une cause importante (complétude) et que chaque variable explicative renvoie bien à une cause différente (non redondance). D un point de vue statistique il faut vérifier que la distribution des variables sélectionnées suit une loi normale et que les variables explicatives sont statistiquement indépendantes (non corrélées entre elles). Les algorithmes fonctionnent si ces conditions ne sont pas respectées, mais la signification des résultats obtenus n est plus garantie par la science statistique Régression pas à pas ou non? La régression pas à pas consiste à faire progressivement entrer les variables explicatives dans le calcul de l équation jusqu à ce que plus aucune des variables candidates n apporte d explication significative. En décochant régression pas à pas toutes les variables apparaîtront dans l équation, y compris celles qui n ont pas d influence significative. Copyright Le Sphinx Développement Version Provisoire 18

19 3.2 Comprendre les résultats Les données La régression est calculée sur les observations complètement documentées. Le logiciel élimine automatiquement celles qui contiennent des données manquantes et fournit le nombre d observations effectivement pris en considération dans les calculs. Le premier tableau indique l effectif de la modalité à expliquer et son pourcentage dans la population totale. Le deuxième tableau donne les caractéristiques des variables à explicatives (étendue, moyenne et écarttype) Le troisième tableau donne pour chaque variable explicative une analyse de la variance entre la catégorie des individus correspondant à la modalité choisie et les autres. On établit ainsi quelles variables explicatives sont discriminantes (p <0,05) Le dernier tableau fournit les coefficients de corrélation entre les variables explicatives ainsi que l alpha de Cronbach. De fortes corrélations et ou un alpha de Cronbach élevé indiquent une dépendance entre variables explicatives ce qui limite le pouvoir explicatif du modèle Le modèle de régression logistique On calcule la probabilité P(Y=1) de la modalité considérée à partir d un score (S) établi comme une combinaison linéaire des variables explicatives. La probabilité est une fonction logistique du score. P(Y=1)= exps/(1+exps) S=a 0 +a 1 x 1 +a 2 x 2 +.+a p x p La fonction logistique permet de convertir le score en une mesure de probabilité variant entre 0 et 1. Avec cette probabilité on peut prédire l apparition de l évènement ou de la situation correspondant à Y=1. La qualité du modèle est estimée par le gain apporté par le modèle. Celui ci se définit en référence à la notion de déviance. Elle mesure la somme des écarts entre la valeur observée de y (0 ou 1) et l estimation qu on peut en faire grâce au modèle logistique : La déviance totale est calculée en ne tenant compte que de la constante du score (sans information sur les variables explicatives). La déviance du modèle est calculée pour les valeurs du score correspondant à celles des variables explicatives. Le gain apporté par le modèle ((100*déviance totale déviance du modèle/déviance totale) donne une indication de sa qualité. Une autre manière d apprécier la qualité du modèle est de calculer dans quelle proportion il permet de correctement prévoir la modalité qu on cherche à estimer. L estimation correcte absolue consiste à prendre la valeur 0,5 comme seuil de probabilité pour prévoir la modalité. L estimation correcte relative consiste à prendre comme seuil la proportion dans laquelle la modalité est présente dans la population (c est le pourcentage donné dans le premier tableau de caractéristique des variables). Cette estimation conduit à mieux prévoir l existence de la modalité mais à moins bien prévoir son absence. Copyright Le Sphinx Développement Version Provisoire 19

20 3.2.3 Interprétation des résultats L équation permet de définir l importance relative des variables explicatives. En effet les coefficients du score significatifs (a i >0) indiquent l accroissement du score et par conséquent de la probabilité sous l effet de la variable xi toutes valeurs égales par ailleurs. Les variables explicatives ne figurant pas dans l équation du score (pas à pas) ou celles dont les coefficients de régression ont une valeur p supérieure au seuil de risque accepté, n ont aucune influence (a i =0). L ordre de grandeur des coefficients du score dépend de l unité de mesure des variables explicatives et de leur dispersion ce qui interdit toute comparaison lorsque ces unités sont différentes. Pour remédier à cet inconvénient et éliminer l effet des unités de mesure on calcule des coefficients standardisés. On peut alors comparer les coefficients standardisés entre eux et pointer les variables ayant le plus d influence. La formue de calcul du coefficient de régression standardisé est la suivante : a i = a 1 *S i /Sy avec : a 1 coefficient de la variable i, S i écart type de la variable i, Sy écart type de la variable expliquée. On peut également calculer la contribution de chaque variable explicative. Elle exprime en pourcentage le poids du coefficient standardisé d une variable par rapport à la somme de tous les coefficients. Ces calculs se font en valeur absolue et sont indiqués dans la dernière colonne du tableau «influence des variables explicatives». Ils établissent pour quel pourcentage chaque variable explicative contribue à la variation de la variable expliquée. La formule de calcul de la contribution est la suivante : c i =100*a i / a i L histogramme des contributions permet de visualiser ces pourcentages Valeurs calculées La valeur des probabilités P(Y=1) et celle des scores calculés à partir des équations du modèle peuvent être stockées dans la table de donnée ce qui permet ensuite de les utiliser pour d autres analyses. Copyright Le Sphinx Développement Version Provisoire 20

21 4 Régression PLS La régression PLS peut être comparée à la régression linéaire multiple à laquelle elle ajoute d autres possibilités : les composantes PLS conduisent à identifier différentes combinaisons des variables explicatives dont les effets sont à leur tour combinés pour calculer la variable à expliquer. On obtient ainsi une description hiérarchisée de l influence des variables explicatives sur la variable à expliquer. plusieurs variables à expliquer peuvent être simultanément étudiées ce qui conduit à mette en évidence un système différencié d influence des variables explicatives selon la variable à expliquer ; On se rapproche des représentations en système d équation structurelles. Ainsi par exemple dans une enquête de satisfaction on pourra mettre en évidence comment les différentes appréciations du service (variables explicatives) peuvent être regroupées en quelques dimensions synthétiques (les composantes PLS) qui contribuent de manière différentes à la satisfaction globale et à l intention de ré achat (variables à expliquer). la régression PLS est plus tolérante que la régression linéaire multiple. Les données manquantes sont tolérées et la normalité des variables n est pas une condition nécessaire. 4.1 Les variables à analyser Sélectionner les variables La sélection des variables se fait de la même manière que pour la régression multiple mais la méthode permet de définir plusieurs variables à expliquer simultanément. La (les) variable(s) à expliquer sont choisies dans la première liste. Les variables explicatives sont choisies ensuite. Toutes les variables sont numériques. Utiliser les flèches pour transférer les variables dans les zone des variables sélectionnées ou les en retirer. Copyright Le Sphinx Développement Version Provisoire 21

22 4.1.2 Bien choisir les variables D un point de vue sémantique il convient de s assurer qu on définit bien une relation causale ou d explication et que l ensemble des variables explicatives est complet et non redondant. C'est à dire qu on n oublie pas une cause importante (complétude) et que chaque variable explicative renvoie bien à une cause différente (non redondance) Options : nombre composantes L algorithme calcule détermine le nombre de composantes significatives mais il est possible de fixer ce nombre à des fin exploratoires. 4.2 Comprendre les résultats Les données L algorithme fonctionne même si certaines données sont manquantes. Le logiciel élimine les observations intégralement vides et fournit le nombre d observations pris en considération dans les calculs. Le premier tableau indique les caractéristiques des variables pour ces observations. La dernière colonne «corrélation avec la variable à expliquer» donne une première idée de l influence des variables explicatives. Le tableau suivant contient les corrélations entre les variables et permet mettre en évidence l interdépendance entre les variables. La valeur de l alpha de Cronbach résume cette information. Dans le cas où il y a plusieurs variables à expliquer le Cronbach est calculé pour l ensemble des variables, pour les seules variables explicatives set pour les variables à expliquer Le modèle de régression linéaire PLS. L algorithme de la régression PLS est un processus itératif qui détermine simultanément les composantes PLS comme une somme pondérée des variables explicatives et la (les) variable à expliquer comme une somme pondérée des composantes. Les calculs sont effectués sur les données centrées réduites. Le modèle résultant s écrit de la manière suivante Les équations du modèle Equation des variables à expliquer dans le système des composantes y 1 =b 11 t 1 + b 12 t b 1p t p y 2 = b 21 t 1 + b 22 t b 2p t p y 1, y 2 : variable à expliquer, t 1, t 2, t 3 : composantes PLS, b ij poids de la composante j pour le calcul de variable expliquée i Equation des composantes dans le système des variables explicatives t 1 = a 11 x 1 +a 12 x 2 +.+a 1p x p t 2 = a 21 x 1 +a 22 x 2 +.+a 2p x p.. t 3 = a 31 x 1 +a 32 x 2 +.+a 3p x p x 1,x 2,..x p : variable explicatives t 1, t 2, t 3 : composantes PLS, a ij poids de la variable explicative j pour le calcul de composante i Copyright Le Sphinx Développement Version Provisoire 22

23 4.2.4 Qualité du modèle La qualité du modèle s apprécie globalement par le % de variance qu il explique. La qualité de cet ajustement est visualisée par la représentation des y observés et calculés. On peut également qualifier l apport de la décomposition en composantes par le % de la variance des variables explicatives exploité par chaque composante. A la différence de la régression il n est pas possible de calculer le risque que les relations mises en évidence ne dépendent pas que du jeu de données considéré. Ce la tient au caractère non paramétrique de la méthode Les représentations graphiques du modèle Représentation arborescente Le schéma ci dessous permet de représenter les composantes en mettant en évidence leur influence sur chacune des variables à expliquer et les variables explicatives qui les déterminent le plus fortement. Sur ce schéma figurent les b ij : coefficients de la j ème composante PLS sur la i ème variable à expliquer les a ij : coefficients de la j ème variable explicative sur i ème variable explicative. Seules figurent sur le schéma les variables explicatives ayant une influence dominante sur la composante considérée (valeur absolue élevée du coefficient et écart important avec la valeur du coefficient correspondant dans les autres composantes). Copyright Le Sphinx Développement Version Provisoire 23

24 Carte des composantes Pour interpréter les composantes on construit une carte avec t1 en abscisse et t2 en ordonné. Dans ce système on représente les variables à expliquer et les variables explicatives. Variables à expliquer. Elles sont représentées par un trait issu de l origine des axes et dont le sommet a pour coordonnées les coefficients bi1 et bi2 de l équation de yi. Plus l angle avec l un des axes est aigu plus la variable est influencée par la composante correspondante. Variables explicatives. Leurs coordonnées sont les coefficients a1j et a2j de la variable j dans les équations des composantes t1 et t2. Plus une variables explicative se trouve à droite ou en haut du graphique, plus elle charge la composante t1 ou t2. De même plus elle se trouve proche de la ligne d une variable à expliquer plus elle contribue à l influencer Hiérarchie des variables explicatives Ce graphique représente un indicateur de l influence globale des variables explicatives sur l ensemble des variables à expliquer. Copyright Le Sphinx Développement Version Provisoire 24

25 4.2.6 Tableaux des paramètres du modèle Influence des composantes Ces tableaux indiquent pour chaque variable à expliquer : Les coefficients de l équation de la variable à expliquée y i : b ij. Les contributions des composantes t j à la variable à expliquer y i : b ij /( j b ij )*100. C est le pourcentage de l influence de la composante j par rapport aux autres. La corrélation entre la composante j et la variable i : c ij Influence des variables explicatives. Ces tableaux indiquent pour chaque composante : Les coefficients de l équation de la composante t i : a ij Les contributions des variables explicatives x j à la composante t i : a ij /( j b ij )*100. C est le pourcentage de l influence de la variable explicative x i par rapport aux autres. Il donne en % l importance de la variable pour le calcul de la composante. La corrélation entre la composante j et la variable x i : c ij L histogramme qui suit met en évidence les différences de contribution des variables explicatives selon la composante considérées Tableau récapitulatif des R 2 Ces tableaux donnent le détail de la variance de chaque variable explicative restituée par chacune des composantes la variance des variables à expliquer, expliquée par le modèle (les composantes t1 et t2) la valeur du R2 (% de variance expliquée) qui est égale au carré du coefficient de corrélation Valeurs calculées Les valeurs des composantes PLS et de la variable explicative calculée peuvent être ajoutées à la table des données et ainsi être utilisées dans des analyses ultérieures. Cliquer sur Valeurs Calculées Copyright Le Sphinx Développement Version Provisoire 25

Montrer encore