2.1.1 Sélectionner les variables... 10
|
|
- Pierre-Antoine Guertin
- il y a 8 ans
- Total affichages :
Transcription
1 Web'Stat est le dernier né des logiciels Sphinx. Entièrement en ligne, il propose un panel complet d'outils d'analyses statistiques avancées : équations structurelles, classifications hiérarchiques, régressions logistiques et PLS, AFC et ACP... Modélisez et donnez du sens à vos données! Le Sphinx Développement - 27 rue Cassiopée - Parc Altaïs Chavanod - Tél. : Fax : contact@lesphinx-developpement.fr - Internet :
2 1 INTRODUCTION : L ANALYSE STATISTIQUE MULTI VARIEE SYNTHETISER Classification hiérarchique ascendante Analyse en composantes principales Analyse des correspondances multiples EXPLIQUER Régression linéaire multiple Régression logistique Régression PLS Equations structurelles QUELLE METHODE CHOISIR? COMMENT S Y PRENDRE? REGRESSION LINEAIRE MULTIPLE LES VARIABLES A ANALYSER Sélectionner les variables Bien choisir les variables Régression pas à pas ou non? COMPRENDRE LES RESULTATS Les données Le modèle de régression linéaire Interprétation des résultats Valeurs calculées EXEMPLES Données d enquêtes : les touristes du lac Les facteurs explicatifs de la dépense totale Les facteurs explicatifs de la satisfaction Base de données statistiques REGRESSION LOGISTIQUE LES VARIABLES A ANALYSER Sélectionner les variables Bien choisir les variables Régression pas à pas ou non? COMPRENDRE LES RESULTATS Les données Le modèle de régression logistique Interprétation des résultats Valeurs calculées REGRESSION PLS LES VARIABLES A ANALYSER Sélectionner les variables Bien choisir les variables Options : nombre composantes COMPRENDRE LES RESULTATS Les données Le modèle de régression linéaire PLS Les équations du modèle Qualité du modèle Les représentations graphiques du modèle Copyright Le Sphinx Développement Version Provisoire 2
3 Représentation arborescente Carte des composantes Hiérarchie des variables explicatives Tableaux des paramètres du modèle Influence des composantes Influence des variables explicatives Tableau récapitulatif des R Valeurs calculées EQUATIONS STRUCTURELLES LES PRINCIPES SELECTIONNER LES VARIABLES ET DEFINIR LE MODELE BIEN CHOISIR LES VARIABLES REFLECTIF OU FORMATIF, QUE CHOISIR? COMPRENDRE LES RESULTATS Les données Caractéristique des variables Matrice des corrélations entre variables manifestes Les re présentations graphiques du modèle La qu alité du modèle Est ce que les variables latentes représentent bien les données de départ? Est ce que les relations postulées par le modèle s adaptent bien aux données? Est ce que les différenciations apportées par le modèle reflètent une différenciation effective dans les données? Résultats détaillés : Le modèle interne Résultats détaillés : Le modèle externe Matrice de corrélation entre variables latentes et variables manifestes CLASSIFICATION HIERARCHIQUE ASCENDANTE LES VARIABLES A ANALYSER Bien choisir les variables Les options COMPRENDR E LES RESULTATS Les do nnées Caractéristique des variables Matrice des corrélations entre variables manifestes Le dendrogramme et la détermination du nombre de classes Caractérisation des classes Détail des classes Enregistrement des classes EXEMPLES Exploitation de bases de données statistiques : La démographie des pays du monde Analyse des réponses à des questions fermées multiples : Les touristes du Lac Classification et analyse en composants principales : les résultats du bac ANALYSE EN COMPOSANTES PRINCIPALES LES VARIABLES A ANALYSER Sélectionner les variables Bien choisir les variables Les options COMPRENDRE LES RESULTATS Les données Les facteurs La carte factorielle Caractéristique des facteurs Vecteurs pr op res Corrélation e ntre les variables et les facteurs Contribution des variables Copyright Le Sphinx Développement Version Provisoire 3
4 7.2.5 Caractéristique des projections sur le plan factoriel Coordonnées des variables Cosinus carré des variables Coordonnées des individus Cosinus carré des individus Utilisation des scores factoriels EXEMPLE : SPONSOR Tester la dimensionnalité des échelles Explorer et interpréter les dimensions multiples Interprétation des facteurs à partir de la contribution des variables Les caractéristiques des facteurs après rotation varimax Utiliser les scores factoriels ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES LES VARIABLES A ANALYSER Sélectionner des variables Bien choisir les éléments à analyser Options Nombre d axe factoriels à extraire : Choix du plan factoriel : Colorier Nom des modalités COMPRENDRE LES RESULTATS Les données Les cartes factorielles La carte factorielle individus modalités La carte des modalités La carte des individus La qualité des représentations factorielles Variance expliquée par les principaux facteurs Vecteurs propre Contribution des modalités Poids et coordonnées des modalités Cosinus carré des modalités Enregistrement des scores factoriels EXEMPLE : LE REVE DES FRANÇAIS Carte factorielle et configurations des critères socio démographiques Construction d une typologie fondée les 2 premiers facteurs Analyse des réponses à la question ouverte La typologie fondées sur la signalétiques correspond t elle à des différences dans les contenus de la réponse ouverte? Copyright Le Sphinx Développement Version Provisoire 4
5 1 Introduction : L analyse statistique multivariée Ces méthodes ont pour but de faciliter le passage des données brutes à la connaissance des populations et des phénomènes étudiés. Pour cela 2 grandes directions : la synthèse pour dégager les traits essentiels qui résument les données en les caractérisant au mieux l explication pour comprendre les mécanismes, les causalités, les influences et prévoir les évolutions La voie de la synthèse consiste plutôt à explorer sans a priori les données pour mettre à jour des faits ou structures remarquables (analyse exploratoire ou datamining). Au contraire, l explication est plus souvent recherchée à partir de connaissances a priori dont on veut à vérifier la pertinence (analyse confirmatoire, modélisation). Cependant il peut aussi arriver qu on cherche des explications en tâtonnant, ou que l exploration ne revienne en fait qu à retrouver des connaissances déjà bien établies. Selon leur objectif les méthodes mettent en œuvre des algorithmes spécifiques qui dépendent de la nature des données : numériques (questions numérique ou échelle) ou nominales (questions fermée ou texte). Les possibilités d analyse sont donc déterminées dès la conception du questionnaire (ou dès la sélection du fichier de données à traiter), non seulement par la signification des données mais également par leur forme. D une manière générale les possibilités d analyse sont plus riches lorsque le questionnaire ou les données ont été établis à partir d un modèle et lorsque les données sont numériques. La qualité de l analyse dépend donc très largement de la réflexion et des choix effectués au moment de la collecte. Copyright Le Sphinx Développement Version Provisoire 5
6 1.1 Synthétiser Classification hiérarchique ascendante Regroupement d observations proches pour définir des classes homogènes et bien séparées en différenciant les populations étudiées. Exemples : Dans une étude de marché, des prospects décrivent leurs attentes en indiquant sur des échelles l importance qu ils accordent aux différentes caractéristiques d un produit nouveau. L enquête d un observatoire du tourisme recueille l opinion des personnes qui sont venues dans la région. Ces opinions sont décrites sur 10 échelles d accord désaccord. Un magazine économique publie les indicateurs économiques et sociaux des 500 premières entreprises françaises. Une grande banque analyse les comportements de ses clients par rapport à l usage qu ils font des différents services de la banque La classification permet d identifier des groupes de prospects, de touristes ou entreprises ayant des profils voisins relativement aux critères qui les définissent. Elle permet de construire des typologies et de rapporter chaque observation individuelle à un groupe d appartenance défini par un profil qui le distingue des autres groupes Analyse en composantes principales Réduction d un ensemble de variables numériques par extraction d un petit nombre de composantes qui synthétisent les évaluations et permettent de visualiser les observations. Exemples : En psychologie on cherche à identifier des traits de personnalités en demandant aux répondants de donner leur degré d accord avec des énoncés portant sur les réactions qu il pourraient avoir dans telle ou telle circonstance. Dans les enquêtes de comportement du consommateur on fait évaluer le produit étudié par rapport aux critères qui entrent en jeu au moment de l achat De grandes enquêtes internationales cherchent à différencier les cultures à partir de questionnaires portant sur les valeurs et les croyances des répondants Dans les enquêtes de satisfactions on recueille les évaluations des clients ou des usagers sur chaque attribut du produit ou du service. L analyse en composantes principales permet d établir si les différentes opinons ou évaluations vont toutes dans le même sens. Si au contraire elles diffèrent elle conduit à identifier les évaluations variant de manière simultanée et à définir les composantes. On peut ainsi établir si oui ou non la satisfaction est mono dimensionnelle ou si au contraire on peut identifier des dimensions qui résument en les différenciant les critères pris en considérations pour caractériser les grandes composantes de la satisfaction. Copyright Le Sphinx Développement Version Provisoire 6
7 1.1.3 Analyse des correspondances multiples Simplification de données multidimensionnelles par l extraction de facteurs qui résument l information initiale apportée par des variables nominales en situant les observations par rapports à ces informations. Exemples : Dans les enquêtes les comportements et l identité des répondants sont décrits par des modalités qui les caractérisent. L analyse factorielle des correspondances multiples permet d identifier des profils et de mettre en évidence les associations remarquables en synthétisant les données selon leurs affinités. L analyse lexicale permet d associer à chaque réponse aux questions ouvertes d un questionnaire ou à chaque fragment du corpus analysé la liste des mots significatifs (ou les plus fréquents) qui les composent. L analyse factorielle permet alors de mette en évidence les termes les plus fréquemment associés en définissant des facteurs correspondant à ces «constellations». On peut ainsi résumer la variété des situations ou des formes linguistiques par des profils qui différencient les répondants ou des thèmes présents dans le texte analysé. 1.2 Expliquer Régression linéaire multiple Calcul d une variable à expliquer (Y) sous la forme d une fonction linéaire de variables explicatives (X i ). La variable à expliquer et les variables explicatives sont des variables numériques ou échelles. Exemples : Dans les études économiques on cherche à expliquer un résultat (taux de croissance, niveau de l emploi ) par la situation des économies nationales (population, structure démographique ) et les actions de politique économique (taux directeur du crédit, niveau des prélèvements ) En météorologie on cherche à expliquer l ensoleillement par les mesures de pression, de vents, d hygrométrie En médecine on cherche à expliquer les taux de guérisons par les doses médicamenteuses prescrites et les caractéristiques physiques de populations test. En marketing on cherche à expliquer le niveau de consommation par l intensité de l exposition à la publicité et le revenu La régression linéaire multiple permet d estimer ces résultats à partir des éléments pris en considérations. L équation à laquelle elle conduit permet aussi bien d évaluer l importance relative des différentes variables explicatives que de prévoir des résultats. Copyright Le Sphinx Développement Version Provisoire 7
8 1.2.2 Régression logistique Calcul de la probabilité d un évènement à partir d un score (S) établi comme une combinaison linéaire de variables explicatives. La variable à expliquer (Y qui vaut 0 ou 1) est une modalité d'une variable fermée. Les variables explicatives (X i ), sont des nombres (variables numériques ou échelles). Exemples : Les banques cherchent à comprendre pourquoi certains prêts ne sont pas remboursés et ainsi prévoir les risques de défaillance. En médecine on cherche à prévoir le risque d apparition d une maladie en fonctions des résultats d examens biologiques. En marketing on veut connaître les chances pour qu un prospect devienne acheteur Quand on cherche à expliquer un évènement la régression logistique est mieux adaptée. Elle permet d établir le modèle qui donne la probabilité de défaillance, d apparition de la maladie ou d achat Régression PLS On recourt à PLS quand plus de variable que d observation.la méthode fait 2 choses simultanément regroupant de nombreuses variables en un petit nombre de composantes le plus explicatives du phénomène explique Calcul de la variable à expliquer (Y) comme combinaison linéaire de composantes PLS (ti). Les composantes PLS regroupent les variables explicatives (X i ) selon les relations qu elles ont entre elles. La variable à expliquer et les variables explicatives sont des variables numériques ou échelles. Exemples : En chimie on cherche à expliquer comment les dosages d une peinture expliquent sa résistance et à comprendre comment ses ingrédients se marient pour lui donner ses propriétés de dureté et de stabilité. Dans les enquêtes de satisfactions on veut connaître l importance des différents éléments qui composent le service mais aussi comprendre comment ceux ci se combinent entre eux La régression PLS est une alternative à la régression linéaire multiple. Elle a l avantage d être plus tolérantes (elle supporte les données manquantes et ne suppose pas la normalité des données). Elle donne aussi une information supplémentaire sur la manière dont les variables explicatives doivent être regroupées. Dans l exemple ci dessus donnant ainsi de la dureté ou de la satisfaction différents aspects synthétiques. Copyright Le Sphinx Développement Version Provisoire 8
9 1.2.4 Equations structurelles Calcul par l approche PLS de variables latentes et des relations qui définissent le modèle. Le modèle est défini par les relations entre variables latentes (équations structurelles) Chaque variable latente est mesurée par les variables manifestes choisies par le chercheur Exemples: En psychologie on utilise des batteries de questions pour mesurer certains traits de personnalité et expliquer le niveau d intelligence mesuré par un autre ensemble de questions. Dans les thèses en gestions on cherche à vérifier des théories en construisant des modèles pour expliquer la sensibilité des consommateurs à la publicité, le niveau d utilité perçu d un système d information, l acceptation des règles de management. Dans les enquêtes de satisfactions on cherche à savoir comment les évaluations des différents aspects du produit ou du service sont reliées entre elles contribuent à la formation de la satisfaction globale. La modélisation en équations structurelles permet à la fois de construire des concepts généraux qui synthétisent les différentes mesures effectuées et de tester les relations postulées par la théorie. On pourra ainsi vérifier que la personnalité a une influence sur l intelligence, que les modèles théoriques des sciences de gestion se vérifient empiriquement ou sur quoi agir pour améliorer la satisfaction. 1.3 Quelle méthode choisir? Le choix de la méthode dépend bien sûr de ce qu on cherche à faire (expliquer et comprendre, synthétiser ou classifier), des variables qu on veut analyser (quelle est leur signification et pourquoi les analyser simultanément) et enfin de la nature statistique des données. Ainsi on s oriente vers une classification ou une analyse factorielle si toutes les variables sont sur le même plan. Au contraire on envisage la mise en œuvre d une méthode de régression si l une des variables peut être expliquée par les autres. Enfin si on est capable de décrire un système de relations plus complexe on peut opter pour une modélisation en équations structurelles. Les variables numériques offrent plus de possibilités. Dans le cas d une variable à expliquer nominale on choisit la régression logistique. Si toutes les variables sont nominales il faut choisir l analyse factorielle des correspondances multiples enfin, les variables nominales ne peuvent pas entrer dans un modèle d équations structurelles. La classification hiérarchique peut s exécuter indifféremment sur des variables numériques et ou nominales. 1.4 Comment s y prendre? D une manière pratique on choisit d abord la méthode, puis les variables. Seules figurent dans la (les) liste(s) proposée(s) les variables dont le type convient. Les options proposées permettent quelques réglages optionnels des algorithmes de calcul. Le bouton ouvrir permet de reprendre des analyses antérieurement effectuées sans avoir à sélectionner à nouveau les variables et les options. L enregistrement d une analyse se fait après avoir obtenus les résultats. Les résultats obtenus portent sur la description des données analysées, les réponses apportées par la méthode et la possibilité d enrichir les données en créant les nouvelles variables. Copyright Le Sphinx Développement Version Provisoire 9
10 2 Régression linéaire multiple 2.1 Les variables à analyser Sélectionner les variables La variable à expliquer est choisie dans la première liste. Les variables explicatives sont choisies ensuite. Toutes les variables sont numériques. Utiliser les flèches pour transférer les variables dans les zone des variables sélectionnées ou les en retirer Bien choisir les variables D un point de vue sémantique il convient de s assurer qu on définit bien une relation causale ou d explication et que l ensemble des variables explicatives est complet et non redondant. C'est à dire qu on n oublie pas une cause importante (complétude) et que chaque variable explicative renvoie bien à une cause différente (non redondance). D un point de vue statistique il faut vérifier que la distribution des variables sélectionnées suit une loi normale et que les variables explicatives sont statistiquement indépendantes (non corrélées entre elles). Les algorithmes fonctionnent si ces conditions ne sont pas respectées, mais les seuils de risques des tests statistiques Régression pas à pas ou non? La régression pas à pas descendante consiste à faire sortir les variables explicatives les moins reliées à la variable dans le calcul de l équation jusqu à ce qu une sortie supplémentaire détériore la qualité du modèle. En décochant régression pas à pas toutes les variables apparaîtront dans l équation, y compris celles qui n ont pas d influence significative. Copyright Le Sphinx Développement Version Provisoire 10
11 2.2 Comprendre les résultats Les données La régression est calculée sur les observations complètement documentées pour les variables sélectionnées. Le logiciel élimine automatiquement les observations qui contiennent des données manquantes et fournit le nombre d observations effectivement pris en considération dans les calculs. Le premier tableau indique les caractéristiques des variables pour ces observations. La dernière colonne «corrélation avec la variable à expliquer» donne une première idée de l influence des variables explicatives. Le tableau suivant contient les corrélations entre variables explicatives et permet de vérifier que la condition d indépendance est satisfaite. La valeur de l alpha de Cronbach résume cette information. Plus précisément les coefficients VIF (Variance Inflation Factors) donnent l intensité de la colinéarité imputable à chaque variable explicative. Celles qui ont nu VIF>5 devraient être retirées Le modèle de régression linéaire. L algorithme consiste à calculer par une méthode des moindres carrés les coefficients de l équation linéaire permettant de calculer la variable explicative à partir des variables expliquées (on parle aussi de variable endogène et exogènes) y =a 0 +a 1 x 1 +a 2 x 2 +.+a p x p avec y variable à expliquer calculée, x i variable explicatives, a 0 constante et a i coefficient de régression Cette équation permet de prédire la valeur de y pour des valeurs données des variables explicatives La qualité de la prévision dépend de l ajustement entre les données (y) et le modèle (y ) caractérisée par : le pourcentage de variance expliquée : c est le rapport entre la variance de y calculé et de y observé le coefficient de corrélation multiple (racine carré de la variance expliquée) p : la probabilité pour que la valeur de R soit nulle Le F Test Cet ajustement est visualisé par le graphique portant en abscisse les valeurs de y observées et en ordonnées les valeurs de y calculées. Si l ajustement est parfait les points sont strictement alignés et le coefficient de corrélation multiple est égal à 1. Plus les écarts entre y observés et y calculés sont fréquents et importants, plus les points sont dispersés sur le graphique et plus le coefficient de corrélation est faible Interprétation des résultats L équation permet de calculer la variable à expliquer en fonction des valeurs des variables explicatives. Elle permet aussi de définir l importance relative des variables explicatives. En effet les coefficients de régression (ou poids) significatifs (a i >0) indiquent l accroissement de la variable calculée sous l effet de la variable x i toutes valeurs égales par ailleurs. Les variables explicatives ne figurant pas dans l équation (régression pas à pas) ou celles dont les coefficients de régression ont une valeur p supérieure au seuil de risque accepté, n ont aucune influence (ai=0). Copyright Le Sphinx Développement Version Provisoire 11
12 L ordre de grandeur des coefficients de régression dépend de l unité de mesure des variables explicatives et de leur dispersion ce qui interdit toute comparaison lorsque ces unités sont différentes. Pour remédier à cet inconvénient et éliminer l effet des unités de mesure on calcule des coefficients standardisés. On peut alors comparer les coefficients standardisés entre eux et pointer les variables ayant le plus d influence. La formule de calcul du coefficient de régression standardisé (a ) est la suivante : a i = a 1 *S i /Sy avec : a 1 coefficient de régression de la variable i, S i écart type de la variable i, Sy écart type de la variable expliquée. Les beta indique l accroissement en écart type de y pour un écart type de x On peut également calculer la contribution de chaque variable explicative. Elle exprime en pourcentage le poids du coefficient standardisé d une variable par rapport à la somme de tous les coefficients. Ces calculs se font en valeur absolue et sont indiqués dans la dernière colonne du tableau «influence des variables explicatives». Ils établissent pour quel pourcentage chaque variable explicative contribue à la variation de la variable expliquée. La formule de calcul de la contribution est la suivante : c i =100*a i / a i L histogramme des contributions permet de visualiser ces pourcentages Valeurs calculées Les valeurs estimées à partir de l équation de régression peuvent être stockées dans la table de donnée ce qui permet ensuite de les utiliser pour d autres analyses, notamment pour déterminer les caractéristiques des observations qui s écartent de la valeur calculée. 2.3 Exemples Données d enquêtes : les touristes du lac Cette enquête porte sur les comportements, les attentes et la satisfaction d une population touristique. L échantillon porte sur 554 individus Les facteurs explicatifs de la dépense totale Les répondants étaient invités à indiquer leur dépense totale (V7) et celle correspondant aux postes suivants : hébergement(v8), alimentation(v9), restaurant(v10), loisir(v11). Par ailleurs ils donnent la durée de leur séjour(v5) et leur âge(v24). On sélectionne la dépense totale comme variable à expliquer et on effectue 2 régressions, la première cherche à vérifier que la dépense totale se déduit bien des différents postes de dépenses, la deuxième vise à expliquer la dépense totale par la durée du séjour et l âge. Une régression pas à pas donne les résultats ci dessous : La dépense totale se déduit-elle des différents postes de dépense? Nombre d observations complètes : 100 Caractéristique des variables explicatives : Alpha de Cronbach standardisé : La forte valeur de l'alpha indique que les variables explicatives ne sont pas indépendantes mais fortement corrélées entre elles. La dépense totale dépend elle des caractéristiques du séjour ou de celles du touriste? Nombre d observations complètes : 300 Caractéristique des variables explicatives : Alpha de Cronbach standardisé : La valeur de l alpha indique que les conditions d indépendance des variables explicatives sont assez bien satisfaites Copyright Le Sphinx Développement Version Provisoire 12
13 Equation du modèle Dépense totale = * Dépense loisirs * Dépense hébergement * Dépense alimentation Variables non significatives (au seuil de 5%) : Dépense restaurant. Contributions des variables explicatives Equation du modèle Dépense totale = * Age * Durée du séjour Contributions des variables explicatives Qualité du modèle : Le modèle rend compte de 69.34% de la variance de la variable à expliquer. Coefficient de corrélation multiple : R = Qualité du modèle : Le modèle rend compte de 13.64% de la variance de la variable à expliquer. Coefficient de corrélation multiple : R = Ces résultats mettent d abord en évidence la qualité médiocre des données. De nombreux répondants n ont pas répondu aux questions sur la dépense, les observations manquantes sont automatiquement éliminées. Malgré le faible effectif traité (100 observations complètes) on vérifie que la dépense totale se déduit bien des différents postes : le coefficient de corrélation multiple est de 0,83 et la valeur calculée par l équation restitue 70% de la variance. En revanche la deuxième analyse ne livre pas de résultats concluant : la valeur du coefficient de corrélation multiple est faible et l âge et la durée du séjour n expliquent qu une faible partie de la variance de la dépense totale. C est dommage car la condition d indépendance des variables explicatives est bien vérifiée. Ce n est pas le cas pour l explication par les postes de dépenses, ce qui revient à dire que la vérification statistique n en est pas vraiment une puisque par définition on sait déjà que tous ces éléments doivent se déduire comptablement les uns des autres. Tout au plus vérifie t on que les déclarations des touristes correspondent bien à cette réalité. On peut donc utiliser le modèle pour d éventuelles prévisions. Copyright Le Sphinx Développement Version Provisoire 13
14 Enfin ces régressions nous apprennent également que : les dépenses de restaurant ne pèsent pas pour estimer la dépense totale et que la contribution la plus forte est celle des dépenses d alimentation. la durée du séjour a certainement une influence plus forte que l âge sur le niveau de la dépense totale (contribution près de 2 fois plus grande). Mais ceci ne doit pas faire oublier que plus de 80% de la variance reste inexpliquée ce qui signifie que d autres facteurs non pris en compte dans l analyse jouent un rôle plus important que l âge ou la durée du séjour Les facteurs explicatifs de la satisfaction Les répondants étaient également invités à noter sur 20 leur satisfaction par rapport à leurs vacances (V22). Par ailleurs ils avaient à donner leur accord sur chacune des 10 propositions suivantes assorties dune échelle d accord en 5 points : Pour moi les vacances idéales c est : le soleil, le sport, les contacts, la vie de club, le monde, le confort, la nature, le tout compris, le repos calme, la famille. (V12 à V21). On cherche à déterminer si la satisfaction résulte des attentes exprimées par la définition des vacances idéales. La note de satisfaction est la variable dépendante, les opinions exprimées sur les vacances idéales sont les variables indépendantes. L examen des corrélations avec la variable à expliquer permet de se faire une idée de l influence de chaque variable. Monde, Sport et Soleil considérées indépendamment l une de l autre sont les variables les plus corrélées à la satisfaction. La régression multiple permet d affiner ce résultat en tenant compte de la combinaison des influences. Variable Min Max Moyenne Ecarttype A expliquer Satisfaction Explicative Soleil Sport Contacts Club Monde Confort Nature Tout_compris Repos_calme Famille Corrélation avec la variable à expliquer Le tableau des corrélations nous renseigne sur les interactions entre variables explicatives. Ici les valeurs faibles des coefficients nous indiquent que les variables sont indépendantes les unes des autres à l exception de Club et Tout compris. La valeur de l alpha de Cronbach confirme cela. Soleil Sport Contacts Club Monde Confort Nature Soleil - Sport Contacts Club < Monde Confort Tout_compri s Repos_calm e Famille Copyright Le Sphinx Développement Version Provisoire 14
15 Nature Tout_compris < Repos_calme Famille < Alpha de Cronbach standardisé : La valeur de l alpha indique que les conditions d indépendance des variables explicatives sont assez bien satisfaites On effectue successivement une régression pas à pas (l algorithme élimine automatiquement les variables n ayant pas d influence significative) et une régression dans laquelle figureront toutes les variables. Avec régression pas à pas Equation du modèle Satisfaction = * Soleil * Sport * Contacts * Monde * Confort Variables non significatives (au seuil de 5%) : Repos_calme, Famille, Club, Tout_compris, Nat ure. Qualité Le modèle rend compte de 69.34% de la variance de la variable à expliquer. Coefficient de corrélation multiple : R = Contributions Sans régression pas à pas Equation du modèle Satisfaction = * Soleil * Sport * Contacts * Club * Monde * Confort * Nature * Tout_compris * Repos_calme * Famille Qualité Le modèle rend compte de 69.53% de la variance de la variable à expliquer. Coefficient de corrélation multiple : R = Contributions Influence des variables explicatives Coeff. p-value Coeff. std Contrib const < Soleil 1.03 < Sport 0.93 < Contacts 1.01 < Monde 1.07 < Confort 0.94 < Coeff. : Coefficient Coeff. std : Coefficient Standardisé Contrib. : Contribution Influence des variables explicatives Coeff. p-value Coeff. std Contrib const < Soleil 1.03 < Sport 0.93 < Contacts 1.01 < Club Monde 1.06 < Confort 0.94 < Nature Tout_compris Repos_calme Famille On constate qu en prenant toutes les variables en considération on n améliore pas la qualité de l estimation. D autre part dans l équation complète les coefficients des variables éliminées par la régression pas à pas ont tous une valeur p supérieure à 0,05. Cela signifie que la probabilité pour que la valeur du coefficient soit nulle (p) n est pas négligeable. C est la raison pour laquelle il est raisonnable de ne pas tenir compte de ces variables. Copyright Le Sphinx Développement Version Provisoire 15
16 Finalement on conclura : que les critères qui influencent la satisfaction sont le monde, le sport, les contacts, le soleil et le confort. C est ce que nous indique l histogramme des contributions. Plus les répondants considèrent que ces éléments font des vacances idéales, plus ils sont satisfaits de leur séjour dans la région. cette explication n est certainement pas complète en effet 30% de la variance de la satisfaction n est pas expliquée par ces variables. Cet écart peut venir des imperfections des données mais il indique aussi qu on ne peut pas prétendre expliquer complètement la satisfaction par le simple fait que les attentes sont satisfaites Base de données statistiques Considérons à nouveau la base de données démographique des 195 pays et cherchons ce qui explique la croissance naturelle. Sans plus réfléchir sélectionnons Croissance naturelle (V8) comme variable à expliquer et toutes les autres variables comme variables explicatives. Le résultat est évident et nous rappelle que par définition le taux de croissance naturelle est égal à la différence entre le taux de natalité et le taux de mortalité. Il n est donc pas étonnant que dans ce cas trivial le modèle nous permette de «prévoir» très exactement la variable à expliquer. Taux de croissance naturelle = * Taux de natalité * Taux de mortalité Le modèle rend compte de % de la variance de la variable à expliquer. Coefficient de corrélation multiple : R = Pour essayer de trouver une explication non triviale enlevons le taux de mortalité de l ensemble des variables explicatives. On obtient un très bon ajustement. Sans surprise le taux de natalité a une influence positive et les taux de mortalité infantile ainsi que la part de la population âgée une influence négative. Le graphe des contributions nous informe sur le sens et l importance relative des variables explicatives. Copyright Le Sphinx Développement Version Provisoire 16
17 Taux de croissance naturelle = * % population + 65 ans * Taux de natalité * Mortalité infantile Qualité du modèle Contribution des variables explicatives Ce cas nous apprend bien plus sur l efficacité des méthodes statistiques pour révéler la structure des données que sur la démographie. Les calculs donnent toujours des résultats justes, mais leur intérêt dépend des données choisies. Copyright Le Sphinx Développement Version Provisoire 17
18 3 Régression logistique 3.1 Les variables à analyser Sélectionner les variables On cherche à estimer la probabilité de la modalité choisie d une variable nominale, connaissant les valeurs de variables explicatives numériques. Par exemple connaître la probabilité pour qu un séjour touristique ait été effectué à l hôtel connaissant le coût total du séjour sa durée et l âge de celui qui l a effectué. La variable à expliquer (Y vaut 0 ou 1) est une modalité d'une variable fermée. Les variables explicatives (X i ), sont des nombres (variables numériques ou échelles). La modalité dont on veut estimer la probabilité est choisie en sélectionnant d abord la variable à la laquelle elle appartient ( ) puis en cliquant la modalité choisie et en l envoyant dans la zone définissant la modalité à expliquer. Les variables explicatives sont choisies dans la deuxième liste puis envoyées dans zone des variables explicatives Bien choisir les variables D un point de vue sémantique il convient de s assurer qu on définit bien une relation causale ou d explication et que l ensemble des variables explicatives est complet et non redondant. C'est à dire qu on n oublie pas une cause importante (complétude) et que chaque variable explicative renvoie bien à une cause différente (non redondance). D un point de vue statistique il faut vérifier que la distribution des variables sélectionnées suit une loi normale et que les variables explicatives sont statistiquement indépendantes (non corrélées entre elles). Les algorithmes fonctionnent si ces conditions ne sont pas respectées, mais la signification des résultats obtenus n est plus garantie par la science statistique Régression pas à pas ou non? La régression pas à pas consiste à faire progressivement entrer les variables explicatives dans le calcul de l équation jusqu à ce que plus aucune des variables candidates n apporte d explication significative. En décochant régression pas à pas toutes les variables apparaîtront dans l équation, y compris celles qui n ont pas d influence significative. Copyright Le Sphinx Développement Version Provisoire 18
19 3.2 Comprendre les résultats Les données La régression est calculée sur les observations complètement documentées. Le logiciel élimine automatiquement celles qui contiennent des données manquantes et fournit le nombre d observations effectivement pris en considération dans les calculs. Le premier tableau indique l effectif de la modalité à expliquer et son pourcentage dans la population totale. Le deuxième tableau donne les caractéristiques des variables à explicatives (étendue, moyenne et écarttype) Le troisième tableau donne pour chaque variable explicative une analyse de la variance entre la catégorie des individus correspondant à la modalité choisie et les autres. On établit ainsi quelles variables explicatives sont discriminantes (p <0,05) Le dernier tableau fournit les coefficients de corrélation entre les variables explicatives ainsi que l alpha de Cronbach. De fortes corrélations et ou un alpha de Cronbach élevé indiquent une dépendance entre variables explicatives ce qui limite le pouvoir explicatif du modèle Le modèle de régression logistique On calcule la probabilité P(Y=1) de la modalité considérée à partir d un score (S) établi comme une combinaison linéaire des variables explicatives. La probabilité est une fonction logistique du score. P(Y=1)= exps/(1+exps) S=a 0 +a 1 x 1 +a 2 x 2 +.+a p x p La fonction logistique permet de convertir le score en une mesure de probabilité variant entre 0 et 1. Avec cette probabilité on peut prédire l apparition de l évènement ou de la situation correspondant à Y=1. La qualité du modèle est estimée par le gain apporté par le modèle. Celui ci se définit en référence à la notion de déviance. Elle mesure la somme des écarts entre la valeur observée de y (0 ou 1) et l estimation qu on peut en faire grâce au modèle logistique : La déviance totale est calculée en ne tenant compte que de la constante du score (sans information sur les variables explicatives). La déviance du modèle est calculée pour les valeurs du score correspondant à celles des variables explicatives. Le gain apporté par le modèle ((100*déviance totale déviance du modèle/déviance totale) donne une indication de sa qualité. Une autre manière d apprécier la qualité du modèle est de calculer dans quelle proportion il permet de correctement prévoir la modalité qu on cherche à estimer. L estimation correcte absolue consiste à prendre la valeur 0,5 comme seuil de probabilité pour prévoir la modalité. L estimation correcte relative consiste à prendre comme seuil la proportion dans laquelle la modalité est présente dans la population (c est le pourcentage donné dans le premier tableau de caractéristique des variables). Cette estimation conduit à mieux prévoir l existence de la modalité mais à moins bien prévoir son absence. Copyright Le Sphinx Développement Version Provisoire 19
20 3.2.3 Interprétation des résultats L équation permet de définir l importance relative des variables explicatives. En effet les coefficients du score significatifs (a i >0) indiquent l accroissement du score et par conséquent de la probabilité sous l effet de la variable xi toutes valeurs égales par ailleurs. Les variables explicatives ne figurant pas dans l équation du score (pas à pas) ou celles dont les coefficients de régression ont une valeur p supérieure au seuil de risque accepté, n ont aucune influence (a i =0). L ordre de grandeur des coefficients du score dépend de l unité de mesure des variables explicatives et de leur dispersion ce qui interdit toute comparaison lorsque ces unités sont différentes. Pour remédier à cet inconvénient et éliminer l effet des unités de mesure on calcule des coefficients standardisés. On peut alors comparer les coefficients standardisés entre eux et pointer les variables ayant le plus d influence. La formue de calcul du coefficient de régression standardisé est la suivante : a i = a 1 *S i /Sy avec : a 1 coefficient de la variable i, S i écart type de la variable i, Sy écart type de la variable expliquée. On peut également calculer la contribution de chaque variable explicative. Elle exprime en pourcentage le poids du coefficient standardisé d une variable par rapport à la somme de tous les coefficients. Ces calculs se font en valeur absolue et sont indiqués dans la dernière colonne du tableau «influence des variables explicatives». Ils établissent pour quel pourcentage chaque variable explicative contribue à la variation de la variable expliquée. La formule de calcul de la contribution est la suivante : c i =100*a i / a i L histogramme des contributions permet de visualiser ces pourcentages Valeurs calculées La valeur des probabilités P(Y=1) et celle des scores calculés à partir des équations du modèle peuvent être stockées dans la table de donnée ce qui permet ensuite de les utiliser pour d autres analyses. Copyright Le Sphinx Développement Version Provisoire 20
21 4 Régression PLS La régression PLS peut être comparée à la régression linéaire multiple à laquelle elle ajoute d autres possibilités : les composantes PLS conduisent à identifier différentes combinaisons des variables explicatives dont les effets sont à leur tour combinés pour calculer la variable à expliquer. On obtient ainsi une description hiérarchisée de l influence des variables explicatives sur la variable à expliquer. plusieurs variables à expliquer peuvent être simultanément étudiées ce qui conduit à mette en évidence un système différencié d influence des variables explicatives selon la variable à expliquer ; On se rapproche des représentations en système d équation structurelles. Ainsi par exemple dans une enquête de satisfaction on pourra mettre en évidence comment les différentes appréciations du service (variables explicatives) peuvent être regroupées en quelques dimensions synthétiques (les composantes PLS) qui contribuent de manière différentes à la satisfaction globale et à l intention de ré achat (variables à expliquer). la régression PLS est plus tolérante que la régression linéaire multiple. Les données manquantes sont tolérées et la normalité des variables n est pas une condition nécessaire. 4.1 Les variables à analyser Sélectionner les variables La sélection des variables se fait de la même manière que pour la régression multiple mais la méthode permet de définir plusieurs variables à expliquer simultanément. La (les) variable(s) à expliquer sont choisies dans la première liste. Les variables explicatives sont choisies ensuite. Toutes les variables sont numériques. Utiliser les flèches pour transférer les variables dans les zone des variables sélectionnées ou les en retirer. Copyright Le Sphinx Développement Version Provisoire 21
22 4.1.2 Bien choisir les variables D un point de vue sémantique il convient de s assurer qu on définit bien une relation causale ou d explication et que l ensemble des variables explicatives est complet et non redondant. C'est à dire qu on n oublie pas une cause importante (complétude) et que chaque variable explicative renvoie bien à une cause différente (non redondance) Options : nombre composantes L algorithme calcule détermine le nombre de composantes significatives mais il est possible de fixer ce nombre à des fin exploratoires. 4.2 Comprendre les résultats Les données L algorithme fonctionne même si certaines données sont manquantes. Le logiciel élimine les observations intégralement vides et fournit le nombre d observations pris en considération dans les calculs. Le premier tableau indique les caractéristiques des variables pour ces observations. La dernière colonne «corrélation avec la variable à expliquer» donne une première idée de l influence des variables explicatives. Le tableau suivant contient les corrélations entre les variables et permet mettre en évidence l interdépendance entre les variables. La valeur de l alpha de Cronbach résume cette information. Dans le cas où il y a plusieurs variables à expliquer le Cronbach est calculé pour l ensemble des variables, pour les seules variables explicatives set pour les variables à expliquer Le modèle de régression linéaire PLS. L algorithme de la régression PLS est un processus itératif qui détermine simultanément les composantes PLS comme une somme pondérée des variables explicatives et la (les) variable à expliquer comme une somme pondérée des composantes. Les calculs sont effectués sur les données centrées réduites. Le modèle résultant s écrit de la manière suivante Les équations du modèle Equation des variables à expliquer dans le système des composantes y 1 =b 11 t 1 + b 12 t b 1p t p y 2 = b 21 t 1 + b 22 t b 2p t p y 1, y 2 : variable à expliquer, t 1, t 2, t 3 : composantes PLS, b ij poids de la composante j pour le calcul de variable expliquée i Equation des composantes dans le système des variables explicatives t 1 = a 11 x 1 +a 12 x 2 +.+a 1p x p t 2 = a 21 x 1 +a 22 x 2 +.+a 2p x p.. t 3 = a 31 x 1 +a 32 x 2 +.+a 3p x p x 1,x 2,..x p : variable explicatives t 1, t 2, t 3 : composantes PLS, a ij poids de la variable explicative j pour le calcul de composante i Copyright Le Sphinx Développement Version Provisoire 22
23 4.2.4 Qualité du modèle La qualité du modèle s apprécie globalement par le % de variance qu il explique. La qualité de cet ajustement est visualisée par la représentation des y observés et calculés. On peut également qualifier l apport de la décomposition en composantes par le % de la variance des variables explicatives exploité par chaque composante. A la différence de la régression il n est pas possible de calculer le risque que les relations mises en évidence ne dépendent pas que du jeu de données considéré. Ce la tient au caractère non paramétrique de la méthode Les représentations graphiques du modèle Représentation arborescente Le schéma ci dessous permet de représenter les composantes en mettant en évidence leur influence sur chacune des variables à expliquer et les variables explicatives qui les déterminent le plus fortement. Sur ce schéma figurent les b ij : coefficients de la j ème composante PLS sur la i ème variable à expliquer les a ij : coefficients de la j ème variable explicative sur i ème variable explicative. Seules figurent sur le schéma les variables explicatives ayant une influence dominante sur la composante considérée (valeur absolue élevée du coefficient et écart important avec la valeur du coefficient correspondant dans les autres composantes). Copyright Le Sphinx Développement Version Provisoire 23
24 Carte des composantes Pour interpréter les composantes on construit une carte avec t1 en abscisse et t2 en ordonné. Dans ce système on représente les variables à expliquer et les variables explicatives. Variables à expliquer. Elles sont représentées par un trait issu de l origine des axes et dont le sommet a pour coordonnées les coefficients bi1 et bi2 de l équation de yi. Plus l angle avec l un des axes est aigu plus la variable est influencée par la composante correspondante. Variables explicatives. Leurs coordonnées sont les coefficients a1j et a2j de la variable j dans les équations des composantes t1 et t2. Plus une variables explicative se trouve à droite ou en haut du graphique, plus elle charge la composante t1 ou t2. De même plus elle se trouve proche de la ligne d une variable à expliquer plus elle contribue à l influencer Hiérarchie des variables explicatives Ce graphique représente un indicateur de l influence globale des variables explicatives sur l ensemble des variables à expliquer. Copyright Le Sphinx Développement Version Provisoire 24
25 4.2.6 Tableaux des paramètres du modèle Influence des composantes Ces tableaux indiquent pour chaque variable à expliquer : Les coefficients de l équation de la variable à expliquée y i : b ij. Les contributions des composantes t j à la variable à expliquer y i : b ij /( j b ij )*100. C est le pourcentage de l influence de la composante j par rapport aux autres. La corrélation entre la composante j et la variable i : c ij Influence des variables explicatives. Ces tableaux indiquent pour chaque composante : Les coefficients de l équation de la composante t i : a ij Les contributions des variables explicatives x j à la composante t i : a ij /( j b ij )*100. C est le pourcentage de l influence de la variable explicative x i par rapport aux autres. Il donne en % l importance de la variable pour le calcul de la composante. La corrélation entre la composante j et la variable x i : c ij L histogramme qui suit met en évidence les différences de contribution des variables explicatives selon la composante considérées Tableau récapitulatif des R 2 Ces tableaux donnent le détail de la variance de chaque variable explicative restituée par chacune des composantes la variance des variables à expliquer, expliquée par le modèle (les composantes t1 et t2) la valeur du R2 (% de variance expliquée) qui est égale au carré du coefficient de corrélation Valeurs calculées Les valeurs des composantes PLS et de la variable explicative calculée peuvent être ajoutées à la table des données et ainsi être utilisées dans des analyses ultérieures. Cliquer sur Valeurs Calculées Copyright Le Sphinx Développement Version Provisoire 25
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailFONCTION DE DEMANDE : REVENU ET PRIX
FONCTION DE DEMANDE : REVENU ET PRIX 1. L effet d une variation du revenu. Les lois d Engel a. Conditions du raisonnement : prix et goûts inchangés, variation du revenu (statique comparative) b. Partie
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailLeçon N 4 : Statistiques à deux variables
Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailBiostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détailItem 169 : Évaluation thérapeutique et niveau de preuve
Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailSimulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat
CONSEIL D ORIENTATION DES RETRAITES Séance plénière du 10 avril 2014 à 9 h 30 «Carrières salariales et retraites dans les secteurs et public» Document N 9 Document de travail, n engage pas le Conseil Simulation
Plus en détailt 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :
Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant
Plus en détailLa méthode des scores, particulièrement de la Banque de France
La méthode des scores, particulièrement de la Banque de France Devant la multiplication des défaillances d entreprises au cours des années 80 et début des années 90, la Banque de France a produit des travaux
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailL analyse de la gestion de la clientèle
chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses
Plus en détailRelation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Plus en détailBaccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé
Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailTravailler avec les télécommunications
Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la
Plus en détailAnalyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Plus en détailSPHINX Logiciel de dépouillement d enquêtes
SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil
Plus en détailTraitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Plus en détailUFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailChapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Plus en détailLe Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes
Le Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes Le Sphinx Développement Parc Altaïs 74650 CHAVANOD Tél : 33 / 4.50.69.82.98. Fax : 33 / 4.50.69.82.78. Web : http://www.lesphinx-developpement.fr
Plus en détailAnalyse en Composantes Principales
Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées
Plus en détailSatisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013
Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013 Cahier méthodologique, tableau récapitulatif 2009-2013 et Matrices importance/performance Mars 2014 Service Études et Statistiques Table
Plus en détailLE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.
LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. Synthèse des travaux réalisés 1. Problématique La question D7 du plan d exécution du Programme National de Recherches
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailExercices Corrigés Premières notions sur les espaces vectoriels
Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3
Plus en détailLes critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,
SYNTHÈSE DU CHAPITRE 11 : LA SEGMENTATION DE LA DEMANDE. La segmentation. La segmentation de la demande consiste à définir des groupes de clients (des segments de clientèle) ayant des comportements homogènes
Plus en détail1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailComment évaluer une banque?
Comment évaluer une banque? L évaluation d une banque est basée sur les mêmes principes généraux que n importe quelle autre entreprise : une banque vaut les flux qu elle est susceptible de rapporter dans
Plus en détailBaccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé
Baccalauréat S/L Métropole La Réunion 13 septembre 2013 Corrigé A. P. M.. P. XRCIC 1 Commun à tous les candidats Partie A 1. L arbre de probabilité correspondant aux données du problème est : 0,3 0,6 H
Plus en détailLes Français et le chauffage. Résultats de l étude menée
Les Français et le chauffage Résultats de l étude menée par IPSOS pour Via sèva Méthodologie et échantillon METHODOLOGIE : Cette étude a été réalisée en adhoc online, auprès d un échantillon issu de l
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailAgenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailBaccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Plus en détailCorrection du baccalauréat STMG Polynésie 17 juin 2014
Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé
Plus en détailDéfinitions. Définitions sur le logement
Définitions sur le logement Logement Un logement est défini par son utilisation : c est un local séparé et indépendant utilisé pour l habitation. Il doit être séparé d autres locaux par des murs ou cloisons
Plus en détailDETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES
Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application
Plus en détailCorrection du baccalauréat ES/L Métropole 20 juin 2014
Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)
Plus en détailBac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)
Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre
Plus en détailL ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS
ATELIER PARISIEN D URBANISME - 17, BD MORLAND 75004 PARIS TÉL : 01 42 71 28 14 FAX : 01 42 76 24 05 http://www.apur.org Observatoire de l'habitat de Paris L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN
Plus en détailCAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Plus en détailEntrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Plus en détailCours d électricité. Circuits électriques en courant constant. Mathieu Bardoux. 1 re année
Cours d électricité Circuits électriques en courant constant Mathieu Bardoux mathieu.bardoux@univ-littoral.fr IUT Saint-Omer / Dunkerque Département Génie Thermique et Énergie 1 re année Objectifs du chapitre
Plus en détailCours 9 : Plans à plusieurs facteurs
Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailCompte rendu de LA37 B, TP numéro 1. Evolution de la température et du degrée d'hydratation
4 6 8 2 4 8 22 26 3 34 38 42 46 5 54 58 62 66 7 74 78 83 89 96 8 44 Bertin Morgan Compte rendu de LA37 B, TP numéro. Les essais effectués par le laboratoire des ponts et chaussés nous ont fournis la température
Plus en détailVision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007
Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................
Plus en détailÉtude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014
n 26 mai 2014 Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 Sommaire 1.INTRODUCTION 4 2.LE MARCHÉ DE L ASSURANCE VIE INDIVIDUELLE 6 2.1.La bancassurance
Plus en détailMigration: un plus pour la Suisse Relations entre État social et migration: la position de Caritas
Migration: un plus pour la Suisse Relations entre État social et migration: la position de Caritas Prise de position de Caritas_mars 2011 Migration: un plus pour la Suisse En bref: Quel est l effet de
Plus en détailLogiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement 74650 Chavanod
Logiciel Le Sphinx Plus 2 version 5 Le Sphinx Développement 74650 Chavanod 2005-2006 Plan Présentation générale du logiciel Stade Élaboration du questionnaire Stade Collecte des réponses Stade Traitements
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailSoit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.
ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailUNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************
************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque
Plus en détail4. Résultats et discussion
17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détail1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Plus en détailExploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailGUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU
GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU Table des matières Page I. DÉMARRER... 4 1. Comment accéder au Centre de données de l ISU?... 4 2. Quels sont les types de tableaux statistiques disponibles
Plus en détailAssociations Dossiers pratiques
Associations Dossiers pratiques Le tableau de bord, outil de pilotage de l association (Dossier réalisé par Laurent Simo, In Extenso Rhône-Alpes) Difficile d imaginer la conduite d un bateau sans boussole
Plus en détailLIVRE BLANC Décembre 2014
PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis
Plus en détailFICHE 1 Fiche à destination des enseignants
FICHE 1 Fiche à destination des enseignants 1S 8 (b) Un entretien d embauche autour de l eau de Dakin Type d'activité Activité expérimentale avec démarche d investigation Dans cette version, l élève est
Plus en détailLes critères d identification des pays les moins avancés
Les critères d identification des pays les moins avancés Vue d ensemble Ce document reprend les éléments présentés sur le site du Comité des politiques de développement http://www.un.org/en/development/desa/policy/cdp/ldc/ldc_criteria.shtml
Plus en détailwww.styleanalytics.com
www.styleanalytics.com Style Analytics EuroPerformance a le plaisir de vous présenter Style Analytics, outil de mesure des risques et de la performance des fonds d investissement. Style Analytics offre
Plus en détailIBM SPSS Direct Marketing 21
IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS
Plus en détailIntroduction à Business Objects. J. Akoka I. Wattiau
Introduction à Business Objects J. Akoka I. Wattiau Introduction Un outil d'aide à la décision accès aux informations stockées dans les bases de données et les progiciels interrogation génération d'états
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détail1. Étude réalisée par l AFOPE en 2005. 2. Hellriegel D., Slocum J. W., Woodman R. W., Management des organisations, Bruxelles, De Boeck, 1992.
Introduction 1 I n t r o d u c t i o n Créer des usines, des entreprises, des organisations, des méthodes, des produits, des services nouveaux suppose d avoir des équipes motivées, obéissant à un calendrier
Plus en détailTerminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader
Terminale STMG O. Lader Table des matières Interrogation 1 : Indice et taux d évolution........................... 2 Devoir maison 1 : Taux d évolution................................ 4 Devoir maison 1
Plus en détail23. Interprétation clinique des mesures de l effet traitement
23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d
Plus en détailEtude relative aux rapports des présidents sur les procédures de contrôle interne et de gestion des risques pour l exercice 2011
Etude relative aux rapports des présidents sur les procédures de contrôle interne et de gestion des risques pour l exercice 2011 SOMMAIRE Synthèse et Conclusion... 1 Introduction... 4 1. La description
Plus en détailHistorique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications
L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d
Plus en détailL'analyse des données à l usage des non mathématiciens
Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailChapitre 2/ La fonction de consommation et la fonction d épargne
hapitre 2/ La fonction de consommation et la fonction d épargne I : La fonction de consommation keynésienne II : Validations et limites de la fonction de consommation keynésienne III : Le choix de consommation
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailA. Le contrôle continu
L audit d achat est une action volontaire décidée par l entreprise avec pour objet d apprécier la qualité de l organisation de sa fonction achats et le niveau de performance de ses acheteurs. L audit achat
Plus en détailCycle de formation certifiante Sphinx
Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives
Plus en détailAnalyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts
Analyse des coûts Les techniques de calcul et d analyse des coûts portent le nom de comptabilité analytique ou comptabilité de gestion. Ces deux termes seront utilisés indifféremment dans ce cours. Contrairement
Plus en détailAccédez au test ici http://myspeed.visualware.com/index.php
Test de vitesse VoIP Pourquoi faire le test? Un test de vitesse VoIP est un moyen efficace d évaluer la capacité de votre connexion Internet à prendre en charge un système de téléphonie VoIP. D autres
Plus en détailLes indices à surplus constant
Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailAnalyse et interprétation des données
8 Analyse et interprétation des données Les données de l enquête peuvent être utilisées pour différents types d analyses aussi bien au niveau national qu au niveau international. Ce chapitre explique comment
Plus en détailUne étude de différentes analyses réalisées par le BIT
Association internationale de la sécurité sociale Quinzième Conférence internationale des actuaires et statisticiens de la sécurité sociale Helsinki, Finlande, 23-25 mai 2007 Comparaison des hypothèses
Plus en détail