Statistiques II UE n 4665.178 Bachelor Module : M4 Recherche appliquée Enseignant-e-s : Jean-François Bickel Semestre de printemps 2008 : Lundi 10h15-12h00 Salle : STA 0.106 Ce cours s inscrit dans la suite des cours Statistique I et Analyse secondaire de données et suppose acquis leur contenu. Il vise à introduire les étudiant-e-s à de nouveaux outils statistiques et à un apprentissage de leur utilisation pratique au moyen d un logiciel statistique (SPSS), ces deux aspects n allant pas l un sans l autre. Le cours porte sur l analyse de régression linéaire. De manière générale, celle-ci consiste à traiter la distribution d une variable dite «dépendante» ou une des caractéristiques de cette distribution (moyenne par exemple) comme étant une fonction (linéaire) d une ou (généralement) plusieurs autres variables dites «indépendantes». Nous partirons du cas le plus simple dans lequel l analyse porte sur une variable dépendante quantitative (continue ou intervalle) comme étant fonction d une variable quantitative. Puis, progressivement, nous traiterons de différentes extensions possibles, comment autant de complexifications mais aussi d enrichissements, du cas le plus simple : ajout d autres variables indépendantes quantitatives ; utilisation de variables indépendantes de type qualitatif ; introduction d interactions entre deux variables indépendantes. Enfin, nous aborderons les cas des variables dépendantes qualitatives ou avec un nombre limité de catégories, en focalisant plus particulièrement celui des variables dépendantes binaires, analysées au moyen de la régression dite logistique (celle-ci étant un cas particulier d une même «famille» d analyse statistique, appelée «modèles linéaires généralisés). Ce cours est conçu selon une perspective appliquée centrée sur l usage des méthodes statistiques pour les sciences sociales. L orientation adoptée est celle d utilisateurs potentiels au cours des études ou dans la vie professionnelle de techniques statistiques dans le domaine des sciences sociales, ou du moins qui se trouvent confrontés à ces techniques, au travers de leurs lectures par exemple. Nous ne nous intéresserons donc pas aux démonstrations ou procédures mathématiques qui sous-tendent les techniques abordées, et le recours au langage formel sera minimal. Ce sur quoi nous insisterons par contre, c est sur l examen de l adéquation des techniques aux questions de recherche et aux types de données à disposition, la mise en pratique de ces techniques au moyen d un logiciel statistique (SPSS) et l interprétation des résultats des analyses ainsi mises en pratique. Les étudiant-e-s de ce cours auront accès à un site Web, sur lequel ils-elles trouveront les différents documents du cours ainsi que les données qui serviront de support à l enseignement et aux travaux que les étudiants seront appelés à effectuer.
Exercices : Un tel cours de statistique n a de raison d être et d utilité que s il s accompagne de la part des étudiants d une mise en pratique de la «théorie». A cet effet, des exercices seront proposés aux étudiant-e-s pour être effectués entre les séances. Je m efforcerai de proposer des exercices relativement simples, ne requérant pas une grosse dépense en temps et énergie. Mais réciproquement, j attends des étudiant-e-s un engagement à s acquitter de leurs tâches de manière régulière et du mieux possible. Les exercices seront remis au plus tard à la séance suivante, sous format papier exclusivement. Ils ne seront pas notés, mais un corrigé sera mis à disposition des étudiant-e-s ; selon les besoins les exercices seront également commentés en cours. Modalités de validation : Chaque étudiant-e réalisera un dossier de 10 à 15 pages (annexes compris) portant sur l analyse statistique d une problématique de son choix ; cette analyse devra répondre à un certain nombre d exigences qui seront précisées durant le cours. Pour réaliser ce travail, des données d enquête seront mises à disposition des étudiant-e-s. Les travaux seront évalués du point de vue de leur adéquation aux exigences posées, de la capacité à utiliser SPSS pour effectuer les analyses, de l interprétation correcte et sensée de l analyse effectuée. Dates de remise : 1 ère échéance : jeudi 29 mai 08 2 ème échéance : jeudi 4 septembre 08 3 ème échéance : jeudi 18 décembre 08 Le travail est à déposer au secrétariat (jusqu à 11h30) ou à envoyer par poste (le cachet postal faisant foi). Les documents envoyés par mail ne sont pas acceptés. Consignes : Des consignes pour les exercices à remettre et pour le dossier de validation seront distribuées et expliquées aux étudiants en séance ; le document en question sera également consultable sur le site du cours. Données : Pour les exercices et le dossier de validation, des données issues du Panel suisse des ménages seront à disposition sur le site du cours. Pour les séances du cours, j aurai recours à ces mêmes données, mais aussi, selon les besoins, à d autres bases de données. Logiciel : Pour ce cours, nous nous appuierons sur le logiciel SPSS. De manière générale, on utilise son interface graphique, avec ses menus déroulant, fenêtres, etc. Nous ferons de même. Mais nous apprendrons aussi à donner nos instructions au programme via le mode syntaxe, qui offre quelques avantages (on passe d ailleurs facilement du mode graphique au mode syntaxe). Je m efforcerai de fournir en cours les indications les plus claires possibles sur «comment faire» telle ou telle analyse, ainsi que de décrire et expliquer les résultats (outputs) tels que produits par SPSS ; ces documents seront aussi accessibles sur le site. Acquis pédagogiques : assimiler de manière critique la matière du cours Crédits attribués : 3 ECTS
Planification des séances : 18 février 08 Session 1 : Introduction 25 février 08 Session 2 : La régression linéaire simple, avec une variable indépendante quantitative 3 mars 08 Session 3 : Introduire d autres variables quantitatives 10 mars 08 Session 4 : Les variables indépendantes qualitatives (1) 17 mars 08 Pas de cours : semaine d'étude 24 mars 08 Pas de cours : vacances de Pâques 31 mars 08 Session 5 : Les variables indépendantes qualitatives (2) 7 avril 08 Session 6 : Effets d interaction (1) 14 avril 08 Session 7 : Effets d interaction (2) 21 avril 08 Session 8 : Les assomptions du modèle linéaire Diagnostics 28 avril 08 Session 9 : La régression logistique (1) 5 mai 08 Session 10 : La régression logistique (2) 12 mai 08 Pas de cours : Lundi de Pentecôte 19 mai 08 Session 11 : Répétitoire Du 26 au 30 mai 08 : semaine générale d'examen Sous réserve de changements de dates indiqués sur GESTENS Attention l'inscription aux cours de la chaire francophone de Travail social et politiques sociales n'est pas à prendre à la légère! L inscription aux cours, exercices et examens (par le portail internet de la Faculté des lettres) doit se faire avant le 15 octobre de chaque année pour les cours du semestre d automne (SA) et les cours annuels (AA), avant le 15 mars de chaque année pour les cours du semestre de printemps (SP). En s'inscrivant à un cours, l'étudiant-e s'inscrit automatiquement aux diverses procédures de validation du cours. Pour les étudiant-e-s en domaine, l'étudiant-e doit s'inscrire à toutes les composantes du module en question. Une fois inscrit-e, l'étudiant-e ne peut plus retarder une procédure de validation. Par le biais du programme internet de la Faculté, l'étudiant-e peut, au plus tard 14 jours avant la première session de validation d'une unité d'enseignement, annuler son inscription (cliquer sur "annuler"). Pour les étudiant-e-s en domaine, il/elle doit alors annuler toutes les inscriptions du module en question. Cet-te
étudiant-e doit alors se réinscrire à l'unité d'enseignement / module au moment désiré. Il n'est pas possible d'annuler une inscription à un cours/module après un premier échec. Chaque étudiant-e a droit à trois tentatives pour chaque unité d'enseignement (deux répétitions). Les sessions sont liées entre elles, aucun report n'est possible (sauf raisons majeures mentionnées par le règlement de la Faculté des lettres et le règlement de Département). Bibliographie sélective : Cette sélection de références se base sur mon expérience et n a donc qu une valeur indicative. L objectif est double : indiquer sur quels ouvrages je m appuie ; fournir quelques repères aux étudiant-e-s, qui seraient désireux «d aller plus loin» et d approfondir la matière du cours, ou qui seraient amenés à devoir le faire durant leurs études ultérieures ou leur vie professionnelle. Il n y a donc aucune obligation à lire l un ou l autre de ces ouvrages : les seules lectures obligatoires sont celles des documents servant de support au cours. La majorité des livres sont en anglais! C est que de fait ils sont beaucoup plus nombreux que ceux en français, mais surtout je les trouve mieux faits, souvent plus simples 1 et plus complets. Cette liste comprend deux ouvrages en français à caractère généraliste. Le livre de Jean-Claude Combessie (2003) est publié dans l excellente petite collection «Repères» (Edition La Découverte). C est un bon petit livre, que je signale pour son introduction qui contient une intéressante discussion sur la méthodologie scientifique, et une bonne présentation de ce qui concerne la collecte et l organisation des données. Celui d Olivier Martin (2005) est également bien fait et propose sur quelques pages une introduction à l analyse de régression (cf. pp. 114-119). En français toujours, Luc Behaghel (2006) propose une relativement pédagogique introduction sur la régression linéaire «ordinaire» ; le livre se base sur un cours de première année pour économètres, ce qui nous vaut d intéressants exemples sur le fonctionnement du marché du travail par exemple En anglais, comme ouvrage général, je recommande le livre d Alan Agresti et Barbara Finlay (1997). Je le trouve particulièrement clair et bien conçu. On y trouve une présentation compréhensive de tous les thèmes traités dans le cours (c est également un excellent ouvrage pour le cours de statistique I...). Une excellente et très lisible introduction à la régression «ordinaire» est celle proposée par Paul Allison (1999). Cet ouvrage peut être utilement complété par celui, plus ancien, de Christopher Achen (1982), qui est surtout centré sur l interprétation des résultats des analyses, en adoptant une approche essentiellement descriptive. Pour l analyse des effets d interaction, on peut se référer au petit livre de James Jaccard et Robert Turrisi (2003). Sur la régression logistique, on peut consulter Fred Pampel (2000) ou Scott Menard (1995) pour de bons textes d introduction, à celui de James Jaccard (2001) pour ce qui concerne les effets d interaction. L ouvrage de David Hosmer et Stanley Lemeshow (2000), deux bio-statisticiens, est souvent considéré comme une référence. Le texte de Alfred DeMaris (1992) est une bonne 1 Cela peut paraître paradoxal. Mais ceci est probablement dû à la prégnance du pragmatisme dans la manière de voir anglo-saxonne ; de plus, il existe aux Etats-Unis (surtout) une vraie tradition d enseignement de la méthodologie statistique dans les départements (sections, facultés) de sciences sociales, un enseignement qui n est pas réservé aux seuls statisticiens purs et qui est articulé, de longue date, à la pratique de la recherche. Il en résulte le côté «appliqué» (applied) de nombreux ouvrages de méthodes, et que l on retrouve, me semblet-il, dans les ouvrages cités ici.
introduction sur les modèles de régression pour variables dépendantes catégorielles (dont la régression logistique est un cas particulier). Pour un traitement plus complet et approfondi de cette classe de modèle, on peut se reporter au livre d Alan Agresti (2007). Scott Long (1997) consacre à la régression logistique un chapitre de son ouvrage, très bien fait de mon point de vue, qui porte plus généralement sur les modèles de régression pour variables dépendantes catégorielles ou autrement «limitées» (variables dépendantes dites «tronquées» ou variables dépendantes du type nombre de fois qu un événement X survient), i.e. un ensemble de cas dans lequel le modèle linéaire «ordinaire» n est pas applicable. Pour un traitement plus exhaustif et technique de l ensemble de la famille des modèles (linéaires) de régression, on peut se référer aux livres de John Fox (1997) ou d Alfred DeMaris (2004). Références : Achen C.H., Interpreting and using regression, Newburry Park, Sage, 1982, 85 p. Agresti A., An introduction to categorical data analysis (2nd edition), Hoboken, Wiley, 2007, 374 p. Agresti A. & Finlay B., Statistical methods for the social sciences (3rd ed.), Upper Saddle River, Prentice-Hall, 1997, 706 p. Allison P.D., Multiple regression. A primer, Thousand Oaks, Pine Forge, 1999, 202 p. Behaghel L., Lire l'économétrie, Paris, Éditions La Découverte ("Repères"), 2006, 120 p. Combessie J.-C., La Méthode en sociologie (4e éd.), Paris, Éditions La Découverte ("Repères"), 2003, 124 p. Demaris A., Regression with social data : modeling continuous and limited response variables, Hoboken, Wiley, 2004, 534 p. Demaris A., Logit modelling. Practical applications, Newburry Park, Sage, 1992, 87 p. Fox J., Applied regression analysis, linear models, and related methods, Thousand Oaks, Sage, 1997, 596 p. Hosmer D.W. & Lemeshow S., Applied logistic regression (2nd ed.), New York, Wiley, 2000, 375 p. Jaccard J., Interaction effects in logistic regression, Thousands Oaks, Sage, 2001, 69 p. Jaccard J. & Turrisi R., Interaction effects in multiple regression (2nd edition), Thousand Oaks, Sage, 2003, 91 p. Long J. S., Regression models for categorical and limited dependant variables, Thousand Oaks, Sage, 1997, 296 p. Martin O., L'Analyse de données quantitatives, Paris, Éditions Armand Colin («128»), 2005, 128 p. Menard S., Applied logistic regression analysis, Thousand Oaks, Sage, 1995, 97 p. Pampel F.C., Logistic regression. A primer, Thousands Oaks, Sage, 2000, 84 p.