Mémoire. Benjamin Beauregard. Maîtrise en statistiques Maître ès sciences (M.Sc.) Québec, Canada

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Mémoire. Benjamin Beauregard. Maîtrise en statistiques Maître ès sciences (M.Sc.) Québec, Canada"

Transcription

1 Comparaison de modèles de régression logistique utilisés pour l analyse de données recueillies dans le cadre d études de type cas-témoins appariés sur le déplacement animal Mémoire Benjamin Beauregard Maîtrise en statistiques Maître ès sciences (M.Sc.) Québec, Canada Benjamin Beauregard, 2013

2

3 Résumé L étude de la sélection des ressources en fonction du déplacement des animaux est un sujet qui intéresse plusieurs chercheurs en écologie, qui cherchent à prédire comment les ressources disponibles influencent le déplacement des animaux dans un environnement hétérogène. Pour ce faire, une stratégie souvent utilisée consiste à comparer les caractéristiques des lieux visités à celles des lieux disponibles mais non visités à différents instants. Comme l étendue du territoire des lieux disponibles est généralement imposant, un échantillonnage aléatoire des lieux non-visités devient pratiquement inévitable. Toutefois, une méthode d échantillonnage non adéquate peut induire un biais dans les inférences. L échantillonnage des lieux non-visités peut se faire selon une étude longitudinale cas-témoins appariée dont la variable réponse prend la valeur 1 dans le cas d une ressource sélectionnée et la valeur 0 dans le cas contraire. Un modèle de régression logistique peut donc être ajusté aux données. L objectif de ce mémoire est d étudier les avantages et les limites de divers modèles de régression logistique, tout particulièrement le modèle à effets mixtes, dans le cadre d études cas-témoins appariées. Une étude de simulation ainsi que l analyse de données réelles nous a permis de comparer les inférences obtenues par le modèle mixte à ceux d un modèle à effets fixes. Les conclusions observables indiquent que les modèles mixtes sont plus performants que les modèles fixes lorsque le type d environnement est "homogène" et "très homogène" avec une faible force de sélection, mais rarement dans d autres situations. iii

4

5 Table des matières Résumé Table des matières Liste des tableaux Liste des figures Remerciements iii v vii ix xi 1 La régression logistique Notation générale Fondements de la régression logistique La régression logistique standard avec données indépendantes La régression logistique conditionnelle avec données indépendantes La régression logistique avec données corrélées Régression logistique conditionnelle avec données corrélées La sélection des ressources Notation Écriture du modèle Fonction de vraisemblance conditionnelle Échantillonnage des lieux témoins Étude de Forester La régression logistique conditionnelle mixte Notation de la régression logistique conditionnelle mixte avec données corrélées Écriture du modèle Hétérogénéité des individus et l influence de l environnement sur la sélection des lieux Estimations des paramètres et inférences Exemple de Duchesne et al. (2010) Discussion Modèle mixte appliqué aux simulations de Forester et al. (2009) Modèle à effets aléatoires Constats Discussion Application d un modèle mixte au jeu de données sur les bisons 43 v

6 5.1 Étude sur les bisons de Craiu et al. (2008) Conclusion 47 Bibliographie 49 A Résultats des simulations 51 B Code R 69 vi

7 Liste des tableaux 1.1 Coefficients de régression obtenus avec la méthode GEE (matrice de corrélation de travail de type "indépendante") Coefficients de régression obtenus avec la méthode GEE par Stokes et al. (2000) (matrice de corrélation de travail de type "non structurée") Résultats du modèle de régression logistique conditionnelle avec la méthode GEE appliqué aux données sur les bisons de Craiu et al. (2008) La fonction de sélection des ressources obtenue avec un modèle à effets fixes par Duchesne et al. (2010). Les intervalles sont à 95% La fonction de sélection des ressources obtenue avec un modèle à effets aléatoires pour le type "terres agricoles" par Duchesne et al. (2010). Les intervalles sont à 95% Résultats de l analyse des données sur les bisons de Craiu et al. (2008), avec une distribution supposée normale pour le coefficient de régression de la variable "prairie" A.1 Exponentiel - β = 0 et paramètre d étendue : 0,1 la moyenne des déplacements observés par Forester et al. (2009) A.2 Exponentiel - β = 0 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.3 Exponentiel - β = 0 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.4 Exponentiel - β = 0 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.5 Exponentiel - β = 0.5 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.6 Exponentiel - β = 0.5 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.7 Exponentiel - β = 0.5 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.8 Exponentiel - β = 0.5 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.9 Exponentiel - β = 1 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.10 Exponentiel - β = 1 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.11 Exponentiel - β = 1 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) vii

8 A.12 Exponentiel - β = 1 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.13 Exponentiel - β = 2 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.14 Exponentiel - β = 2 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.15 Exponentiel - β = 2 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.16 Exponentiel - β = 2 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.17 Weibull - β = 0 et paramètre d étendue : 0,1 la moyenne des déplacements observés par Forester et al. (2009) A.18 Weibull - β = 0 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.19 Weibull - β = 0 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.20 Weibull - β = 0 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.21 Weibull - β = 0.5 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.22 Weibull - β = 0.5 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.23 Weibull - β = 0.5 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.24 Weibull - β = 0.5 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.25 Weibull - β = 1 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.26 Weibull - β = 1 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.27 Weibull - β = 1 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.28 Weibull - β = 1 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.29 Weibull - β = 2 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.30 Weibull - β = 2 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.31 Weibull - β = 2 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.32 Weibull - β = 2 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) viii

9 Liste des figures 2.1 Environnements de Forester et al. (2009) Résultats de Forester et al. (2009) ix

10

11 Remerciements Mes remerciements vont à toutes les personnes qui, par leurs encouragements, leur positivisme et leur soutien ont contribué directement ou indirectement à la réalisation de mon mémoire. Je n aurais toutefois pu y parvenir sans l appui et le dévouement constant de mon directeur de maîtrise, monsieur Thierry Duchesne, professeur au Département de mathématiques et de statistique de l Université Laval. Je lui témoigne toute ma reconnaissance et je le remercie pour son entière disponibilité, ses judicieux conseils et sa grande connaissance, qui m ont permis de persévérer tout au long de ma rédaction. De plus, je tiens grandement à remercier les professeurs Louis-Paul Rivest et Claude Bélisle pour leurs nombreuses suggestions qui m ont amené à améliorer globalement le contenu de mon mémoire. Mon mémoire représente une grande réussite personnelle pour laquelle j ai dû concilier mes responsabilités professionnelles et familiales. Je tiens donc à souligner le soutien et la compréhension de ma conjointe Caroline, de mes soeurs, de mes frères ainsi que de mes parents. Ils ont cru en moi. Ils représentent les fondations de mes études supérieures. Je partage avec eux ma fiereté d avoir relevé ce défi. Je remercie particulièrement mon frère Sébastien pour le nombre incalculable de fois où il m a aidé en informatique et en statistique. Je dédie mon mémoire de maîtrise à mes deux fils, Gabriel et Mathis, pour qui j ai une admiration profonde et un amour inconditionnel. xi

12

13 Introduction L étude du comportement des animaux en fonction de leur environnement est un sujet d importance en écologie. L objectif premier est de déterminer l influence qu ont les composantes de l environnement sur les individus, pour lesquels les chercheurs soient mieux en mesure de comprendre les interactions entre l individu et son milieu. Plusieurs chercheurs ont analysé la sélection des ressources selon le déplacement des individus, tels que Forester et al. (2009), Craiu et al. (2008) et Craiu et al. (2011). Une approche populaire est de comparer les caractéristiques des lieux visités par les individus à celles de lieux supposés disponibles, mais non visités (Manly et al. (2002)). Dans ce type d étude, on connait généralement les lieux visités. Par contre, ce n est pas le cas pour les lieux non-visités, pour lesquels un échantillonnage aléatoire est requis. Toutefois, un échantillonnage non adéquat de ces lieux peut induire un biais dans les inférences (Forester et al. (2009)). En attribuant la valeur 1 aux lieux visités et la valeur 0 aux lieux non-visités, un modèle de régression logistique peut être ajusté aux données afin de déterminer les ressources les plus recherchées par les individus. Dans les études de sélection des ressources, un même individu peut être observé à plusieurs reprises. Par conséquent, les données pour ce même individu sont fort probablement corrélées. Par ailleurs, dans ce type d études, les interactions entre l individu et son milieu peuvent être importantes (Boyce et al. (2003)) et l hétérogénéité dans la disponibilité des ressources propre à chacun des individus peut affecter les inférences. Ainsi, dans le cadre d une étude de sélection des ressources où une corrélation intra-individu et une hétérogénéité inter-individus sont probablement existantes, le traitement des données peut nécessiter l emploi d un modèle de régression logistique pouvant traiter les données corrélées. Ce mémoire porte donc sur l association entre la sélection des ressources et le déplacement des individus. Plus spécifiquement, nous illustrons le cheminement statistique qui nous a menés à appliquer un modèle mixte à une étude longitudinale du déplacement animal. Au chapitre 2, la théorie de divers modèles de régression logistique est présentée. Les forces et les faiblesses des modèles quand ils sont utilisés pour les études de sélection des ressources y sont décrites. Des exemples réels d applications sont également détaillés. Le chapitre 3 est entièrement consacré à l étude de Forester et al. (2009). Ces chercheurs ont démontré, 1

14 à partir d une étude de simulation, l importance de bien choisir la méthode d échantillonnage des lieux non visités et de tenir compte de cette méthode dans les inférences. Au chapitre 4, le modèle de régression logistique mixte est introduit. Ce modèle permet de traiter les données corrélées en plus de tenir compte d une variabilité inter-individus dans la sélection des ressources. Comme au chapitre 2, sa théorie ainsi qu un exemple d application sont présentés. L étude de Forester et al. (2009) a démontré l impact sur les inférences d un échantillonnage non adéquat des lieux non-visités. Toutefois, ils n ont pas considéré dans leur analyse une corrélation intra-individu ni une hétérogénéité inter-individus dans la sélection des ressources. Pour cette raison, leur modèle de simulation a été repris, au chapitre 5, afin d ajuster aux données un modèle mixte et de comparer les résultats obtenus avec ce modèle à ceux de leur étude. Au chapitre 6, le modèle mixte a été ajusté au jeu de données réel sur les bisons du Parc national de Prince Albert considéré par Craiu et al. (2008). L objectif est de voir si le modèle mixte s ajuste bien aux données et si les interprétations des coefficients de régression sont modifiées. 2

15 Chapitre 1 La régression logistique Ce chapitre introduit les modèles de régression logistique standard et conditionnel. Ceux-ci sont présentés dans deux contextes différents, soit celui où les données sont indépendantes et celui où les données sont corrélées, comme dans les expériences où plusieurs observations sont recueillies sur une même unité expérimentale. La section 2.1 définit la notation générale employée dans ce chapitre. À la section 2.2, les hypothèses de base sur lesquelles s appuie la régression logistique sont énumérées. La section 2.3 considère la régression logistique standard avec données indépendantes. Après une brève présentation du modèle, on y discute de l estimation des paramètres. La section 2.4 décrit la régression logistique conditionnelle dans le cadre d une étude cas-témoins appariée. Une généralisation de la régression logistique qui tient compte d une corrélation entre les mesures prises sur un même individu est présentée à la section 2.5. La section 2.6 se penche sur la régression logistique conditionnelle avec données corrélées et présente un bref aperçu de la régression logistique conditionnelle mixte. 1.1 Notation générale 1. i représente le i e individu, où i = 1,...,n ; 2. Y i est la valeur pour l individu i de la variable dépendante qui prend comme valeur 1 lors d un succès, 0 lors d un échec ; 3. x i = (1,x i1,...,x ip ) est le vecteur des variables indépendantes de l individu i ; 4. x i j représente la j e variable indépendante du i e individu, où j = 1,..., p ; 5. π i dénote la probabilité de succès (Y i = 1) chez l individu i lors d un essai ; 6. η i est le prédicteur linéaire qui sert à modéliser la moyenne de la variable dépendante en fonction des valeurs des variables indépendantes de l individu i ; 7. β = (β 0,β 1,...,β p ) est le vecteur des coefficients de régression. 3

16 1.2 Fondements de la régression logistique Le modèle de régression logistique est un membre de la famille des modèles linéaires généralisés. Les hypothèses sur lesquelles il s appuie sont les suivantes : 1. Sachant x i, Y i suit une distribution provenant de la famille exponentielle, soit la loi binomiale, Y i Binomiale(m i,π i ) ; dans ce mémoire, nous ne considérons que le cas m i = 1 i. 2. Le prédicteur linéaire est défini par η i = x i β. 3. La fonction de lien donnant la relation entre E[Y i x i ] et le prédicteur linéaire que nous considérons est celle qui est la plus communément utilisée, c est-à-dire la fonction de lien logit : ( ) E[Yi x i ] η i = log E[Y i x i ] = exp(η i) 1 E[Y i x i ] 1 + exp(η i ). (1.1) 1.3 La régression logistique standard avec données indépendantes Le modèle de régression logistique standard avec données indépendantes est souvent utilisé, en pratique, afin d évaluer l impact de facteurs sur une variable réponse binaire. Il se base sur la prémisse que les observations sont indépendantes entre elles Écriture du modèle pour l individu i { 1, si succès Soit Y i = 0, sinon. On définit µ i = E[Y i x i ], où µ i = 0 P[Y i = 0 x i ] + 1 P[Y i = 1 x i ] = P[Y i = 1 x i ] = π i. (1.2) À partir de l équation (1.2) et du lien logit, tel qu exprimé à l équation (1.1), on a que π i = exp(x i β ) 1 + exp(x i β ) = exp(β 0 + β 1 x i1 + + β p x ip ) 1 + exp(β 0 + β 1 x i1 + + β p x ip ). (1.3) Tel qu on peut le déduire de (1.3), les paramètres du vecteur β s interprètent de la façon suivante : 1. Si β j > 0, la probabilité d obtenir un succès, P[Y i = 1 x i ], augmente si x i j croît et que la valeur de toutes les autres variables de x i demeure inchangée. Si β j < 0, la probabilité de succès diminue lorsque x i j augmente et que la valeur de toutes les autres variables de x i reste inchangée. Si β j = 0, alors la variable x i j n a aucun effet sur la probabilité de succès. 2. Si β j = 0, la cote d un succès, représentée par π i /(1 π i ), est multipliée par exp(β j ) si x i j croît d une unité et que la valeur de toutes les autres variables de x i demeure inchangée. À noter que le terme exp(β j ) est le rapport de cotes, soit le quotient de la cote de l événement Y i = 1 lorsque x i j = x + 1 sur cette cote quand x i j = x. 4

17 1.3.2 Estimation des paramètres par la méthode du maximum de vraisemblance Selon l équation (1.3), les paramètres à estimer sont les éléments du vecteur β. La méthode la plus commune pour estimer la valeur de ces paramètres lorsque nous sommes en présence de n observations indépendantes, soit (Y 1,x 1 ),...,(Y n,x n ), est la méthode du maximum de vraisemblance. Elle consiste, en premier lieu, à définir la fonction de vraisemblance, soit la fonction de probabilité conjointe de Y 1,...,Y n. Celle-ci est obtenue à partir de la fonction de probabilité de chaque observation individuelle en considérant l hypothèse que les observations sont indépendantes. La fonction de probabilité pour l observation i est f β (y i ;x i ) = π y i i (1 π i ) 1 y i, y i = 0,1, (1.4) et donc la fonction de probabilité conjointe de l échantillon observé sera L(β;y,x) = n i=1 Il s en suit que la fonction de log-vraisemblance est donnée par l(β;y,x) = log{l(β;y,x)} = = n i=1 n i=1 y i log(π i ) + [ ] π y i i (1 π i ) 1 y i. (1.5) n log(1 π i ) + i=1 n (1 y i )log(1 π i ) i=1 ( πi ) y i log. (1.6) 1 π i La deuxième étape est de calculer la dérivée de la log-vraisemblance, que l on appelle fonction de score : β l(β;y,x) = = = β n i=1 n i=1 n i=1 { ( πi log(1 π i ) + y i log y i x i + β n i=1 ( log(1 π i ) )} 1 π i ) (1.7) (1.8) x i ( y i π i ). (1.9) La transition de (1.7) à (1.8) est la conséquence de log( πi 1 π i ) = η i = x i β. Selon la définition de π i, l équation (1.9) est obtenue en déduisant que log(1 π i ) = log [ 1 1+exp(x i β )]. Pour obtenir les estimateurs, il ne reste qu à poser l équation (1.9) égale à 0, n i=1 x i (y i π i ) = 0, (1.10) et résoudre pour les éléments de β. Sous un lien logit, π i = exp(x i β )/[ 1 + exp(x i β )], l équation (1.10) ne peut se résoudre en β avec une solution analytique. Une méthode itérative, telle que la méthode de Newton, permet de solutionner ce problème (voir les pages 114 à 116 du livre de McCullagh 5

18 et Nelder (1989)). La valeur de β qui maximise (1.5) et qui résout (1.10) est notée β. La variance de β est obtenue en considérant les dérivées secondes de l(β;y,x), soit 2 l(β;y,x) β 2 j = β j n i=1 n x i j i=1 x i j (y i π i ) = n x i j i=1 exp(β x i ) = β j 1 + exp(β x i ) { xi j exp(β } x i ) = x i j (1 + exp(β x i )) 2 = n i=1 x 2 i jπ i (1 π i ) (y i π i ) = β j n x i j i=1 π i β j et, par un raisonnement similaire, 2 l(β;y,x) β j β l = n i=1 x i j x il π i (1 π i ). L élément en position ( j,l) de la matrice d information observée est 2 l(β;y,x)/ β j β l évalué en β = β. On pose l inverse de cette matrice égale à Var( β ), qui est un estimateur convergent de Var( β ) (Hosmer et Lemeshow (2000)). 1.4 La régression logistique conditionnelle avec données indépendantes Plusieurs recherches ont pour objectif l étude du comportement animal dans un environnement hétérogène. Dans les études de Craiu et al. (2008) et Duchesne et al. (2010), à chaque moment préalablement défini, les données du lieu visité par chaque animal ont été recueillies grâce à des colliers GPS. Dans un modèle de régression logistique, ces lieux visités correspondent à un succès (Y i = 1). Pour chacun d entre eux, les caractéristiques géographiques peuvent être compilées, correspondant au vecteur des variables indépendantes x i. Ainsi, à ce stade, nous possédons uniquement l information sur les lieux visités. Aucun modèle de régression ne peut s appliquer aux données, car chacun des lieux a la particularité que Y i égale 1. Afin d obtenir des lieux pour lesquels Y i = 0, nous devons procéder à un échantillonnage de lieux non visités. Pour ce faire, diverses méthodes d échantillonnage seront présentées au chapitre 3. De l information a priori connue introduit un aspect dit "rétrospectif" dans les données. Dans le type d études décrites ci-dessus, la valeur de Y est connue avant même le début de l expérience et ce sont les valeurs de x qui sont aléatoires. Par conséquent, l analyse des données devra se faire par une méthode permettant de considérer de l information a priori connue et le mode d échantillonnage des lieux non visités dans l ajustement du modèle et les inférences sur les éléments de β. Craiu et al. (2008), Duchesne et al. (2010) et plusieurs autres chercheurs qui s intéressent à l étude du comportement animal réalisent donc des études que l on appelle cas-témoins appariées. Ce type 6

19 d étude consiste, dans le cadre de l étude du comportement animal, à échantillonner des lieux pour lesquels Y i = 1 et de les apparier à un ensemble de lieux pour lesquels Y i = 0. On mesure ensuite les valeurs des variables explicatives, x i, des lieux sélectionnés. Nous utiliserons la terminologie suivante. Strate : Une strate est un groupe de lieux appariés. Échantillonnage stratifié 1 : C : Un échantillon stratifié 1 : C est tel que dans toute strate, le nombre de cas (Y = 1) est 1 et le nombre de témoins (Y = 0) est C. Ainsi, sous ce type d échantillonnage, chaque strate compte 1 lieu visité et C lieux non visités, pour un total de C + 1 lieux. Étant donné l information initialement disponible d une étude cas-témoins appariée, l utilisation de méthodes d inférence standards telles que décrites à la section 2.3 pour le modèle de régression logistique ne sont pas appropriées. En effet, ces méthodes ont été développées pour un modèle dit "prospectif" où Y i est aléatoire et x i est fixée, et donc ne permettent pas de tenir compte de l aspect rétrospectif de l échantillonnage des lieux non visités dans l ajustement du modèle et dans l interprétation des β j. Pour nos besoins, nous devrons donc modifier les méthodes d inférence en utilisant une approche dite de régression logistique conditionnelle Notation de la régression logistique conditionnelle 1. k est le numéro de la strate d appariement, où k = 1,...,K ; 2. i représente le i e lieu d une strate, où i = 1,...,n k ; 3. Y k constitue le vecteur des variables dépendantes de la strate k, soit Y k = (Y k1,...,y knk ) ; 4. x ki est le vecteur des variables indépendantes du lieu i de la strate k ; 5. β = (β 1,...,β p ) est le vecteur des coefficients de régression Écriture du modèle La régression logistique conditionnelle fait intervenir le même type de données que la régression logistique standard. En effet, pour le lieu i de la k e strate, on a { 1, lieu i de la strate k est visité Y ki = 0, sinon. Soit (Y ki,x ki ), où x ki = (x ki1,...,x kip ). L hypothèse de base du modèle de régression logistique conditionnelle est que dans l ensemble des lieux disponibles d où les données seront tirées, π ki = P[Y ki = 1 x ki,α k ] = exp(α k + β x ki ) 1 + exp(α k + β x ki ). (1.11) Le terme α k est communément appelé "variable de stratification" ou "effet de strate". Il permet de tenir compte du fait que lorsque des observations sont appariées, les règles d appariement peuvent induire une certaine corrélation entre les observations d une même strate. 7

20 1.4.3 Estimation des paramètres par la méthode du maximum de vraisemblance conditionnelle Dans le contexte où la somme des Y ki est déterminée pour chaque strate avant même de recueillir les données, la méthode qui sera privilégiée pour estimer β sera la méthode du maximum de vraisemblance conditionnelle. La première étape de cette méthode est d obtenir toutes les combinaisons possibles que Y k peut prendre dans une strate, étant donné le mode d échantillonnage. Par exemple, prenons le cas d un modèle stratifié 1 : 2, soit 1 succès et 2 échecs par strate. Voici les valeurs que peut prendre Y k : { (1,0,0) ;(0,1,0) ;(0,0,1) }. En général, avec un plan d échantillonnage stratifié 1 : C, on a que Y k peut prendre C + 1 valeurs possibles, puisque ( ) C + 1 (C + 1)! = = C + 1. (1.12) 1 C!1! La seconde étape consiste à définir la fonction de vraisemblance conditionnelle d une strate pour un modèle stratifié 1 : C. Celle-ci peut s écrire comme étant la probabilité d observer le vecteur (Y k1,y k2,...,y knk ) sachant qu il ne peut y avoir qu un et un seul Y ki = 1 dans ce vecteur. Dénotons par l indice z l une des C + 1 valeurs possibles de Y k. Sans perte de généralité, supposons que la première observation de la strate, Y k1, est celle pour laquelle y = 1, donc Y k = (1,0,...,0). La vraisemblance pour la strate k est donnée par [ L k (β ) = P Y k1 = 1,Y k2 = 0,...,Y knk = 0 x k, C+1 z=1 ] Y kz = 1. (1.13) Dans le cas où C + 1 = 2, l équation (1.13) devient [ 2 ] P Y k1 = 1,Y k2 = 0 x k, Y kz = 1 z=1 = P[Y k1 = 1,Y k2 = 0 x k ] P [ 2 z=1 Y kz = 1 x k ], (1.14) où et P[Y k1 = 1,Y k2 = 0 x k ] = exp(α k + β x k1 ) exp(α k + β x k1 ) 1 + exp(α k + β x k2 ) [ 2 P z=1 ] Y kz = 1 x k = (1.15) exp(α k + β x k1 ) + exp(α k + β x k2 ) [1 + exp(α k + β x k1 )][1 + exp(α k + β x k2 )]. (1.16) En substituant les équations (1.15) et (1.16) dans l équation (1.14) et en réduisant le facteur commun exp(α k ) du numérateur et du dénominateur, on obtient [1+exp(α k +β x k1 )][1+exp(α k +β x k2 )] L k (β ) = exp(β x k1 ) exp(β x k1 ) + exp(β x k2 ). (1.17) Dans le cas général du modèle stratifié 1 : C, l équation (1.17) se généralise et permet d obtenir la fonction de vraisemblance pour la k e strate, L k (β ) = exp(β x k1 ) C+1 z=1 exp(β x kz ). (1.18) 8

21 Finalement, pour obtenir la fonction de vraisemblance pour tout l échantillon en supposant l indépendance entre les strates, il suffit de multiplier toutes les fonctions de vraisemblance des strates individuelles, L(β ) = K k=1 L k (β ) = K k=1 La log-vraisemblance découlant de l équation (1.19) est [ l(β ) = K k=1 β x k1 log exp(β x k1 ) C+1 z=1 exp(β x kz ). (1.19) { C+1 } ] exp(β x kz ) z=1 et la fonction de score est U(β ) = l(β ) [ K β = x k1 C+1 z=1 x ] kz exp(β x kz ) k=1 C+1 z=1 exp(β. (1.20) x kz ) On remarque que le côté droit de l équation (1.20) correspond à la fonction de score de vraisemblance partielle permettant d estimer les coefficients de régression pour un modèle de Cox stratifié (Hosmer et Lemeshow (2000)). Puisque plusieurs logiciels permettent d ajuster un modèle de Cox stratifié, la régression logistique conditionnelle est facile à appliquer en pratique. 1.5 La régression logistique avec données corrélées Fréquemment, dans les études du comportement animal, un même individu est observé à plus d une reprise. Bien que l hypothèse d indépendance entre les individus soit raisonnable, les valeurs de la variable réponse pour un même individu sont fort probablement corrélées. On peut donc s attendre à ce qu une possible corrélation intra-individu existe. Avec des données longitudinales, les inférences des modèles de régression logistique standard et conditionnelle décrites respectivement aux sections 2.3 et 2.4 ne sont pas appropriées. En effet, cellesci se basent sur l hypothèse d indépendance entre les observations et entre les strates. Elles ne permettent donc pas de tenir compte d une possible corrélation intra-individu. Ainsi, les inférences sur les β j pourraient s avérer erronées. Afin de tenir compte de cette possible dépendance, on doit utiliser des modèles de régression logistique pouvant traiter des données corrélées Notation de la régression logistique avec données corrélées 1. n est le nombre d individus de l étude ; 2. Y i représente le vecteur des variables dépendantes du i e individu, soit Y i = (Y i1,...,y ini ), avec j = 1,...,n i, où n i représente le nombre de mesures prises sur l individu i ; 3. le nombre total d observations est défini par n i=1 n i = N ; 4. x i correspond à la matrice des variables indépendantes pour l individu i, où x i = (x i1,...,x ini ) ; 5. µ i j (β ) est l espérance de Y i j sachant x i j pour l individu i. 9

22 1.5.2 Écriture du modèle La présente section introduit la méthode des équations d estimation généralisées (GEE) permettant d effectuer des inférences robustes sur le paramètre β dans la situation où les observations prises sur un même individu sont dépendantes entre elles (Y i j est dépendante de Y i j j = j ). Toutefois, les individus demeurent indépendants entre eux (Y i est indépendant de Y i i = i ). Les équations d estimation généralisées sont utilisées afin que les estimés des β j et leurs estimateurs de variances et covariances tiennent compte d une possible corrélation intra-individu, sans pour autant que l on ait besoin de spécifier correctement cette corrélation. Nous discuterons d une approche basée sur les modèles mixtes qui, elle, implique une modélisation spécifique de la dépendance, au chapitre 4. Nous utilisons une matrice symétrique communément appelée "matrice de corrélation de travail", notée R i (α) et qui est définie ci-dessous, où α est le vecteur des paramètres de corrélation à estimer, 1 corr(y R i (α) = corr(y i x i ) = i1,y i2 x i1,x i2 ) corr(y i1,y ini x i1,x ini )... corr(y i(ni 1),Y ini x i(ni 1),x ini ) 1 L idée est d essayer de spécifier la vraie structure de corrélation des Y i. Dans le cas où nous spécifions une mauvaise structure de corrélation, les inférences sur β seront tout de même valides. Si la structure de corrélation est bonne, alors les inférences seront plus précises. La structure de la matrice de corrélation de travail R i (α) est en lien avec le plan d expérience et le type d association possible entre les observations d un individu. Voici quelques structures communes pour R i (α). 1. La matrice de corrélation ayant la structure de type "indépendante" correspond à l absence de corrélation entre Y i j et Y i j, j = j, R i = La structure de type "échangeable" indique que la corrélation entre deux observations d un même individu est la même et égale à une valeur α pour toute paire d observations, 1 α α... α 1 α... R i (α) = α α

23 3. La structure de type "non structuré" permet à la corrélation entre les observations d un même individu de différer pour toutes les paires d observations, 1 α 1,2... α 1,ni. α 1, R i (α) = αni 1,n i α 1,ni... α ni 1,n i 1 4. La structure "auto-régressive d ordre 1" considère que la corrélation entre deux observations d un même individu diminue de manière géométrique lorsque les observations se distancent ( j j augmente) dans le temps (ou l espace), 1 α... α n i 1. α 1... R i (α) = α α n i 1... α 1 Équations d estimation sous l indépendance Afin d introduire le concept des équations d estimation généralisées, considérons l hypothèse possiblement erronée d indépendance entre les observations d un même individu. Dénotons l estimateur de β sous l hypothèse d indépendance par β ind p. Sous cette hypothèse, on peut définir la matrice de corrélation R i (α) comme étant la matrice de type "indépendante" de taille n i n i. Nous pouvons donc obtenir β ind p en maximisant la fonction de vraisemblance (1.5). Le résultat est la valeur de β qui résout le système d équations suivant : U indep (β ) = n i=1 x i i { Y i µ i (β ) } = 0, (1.21) où i est une matrice diagonale de taille n i n i dont les éléments sur la diagonale sont Θ i j / η i j où j = 1,...,n i et avec Θ i j le paramètre canonique de la famille exponentielle et µ i (β ) = ( µ i1 (β ),..., µ ini (β ) ). Soulignons que le paramètre canonique de la loi binomiale est Θ i j = log ( π i ) 1 π i ; en isolant πi, on obtient exp(θ i j ) = π i 1 π i π i = exp(θ i j) 1+exp(Θ i j. Selon l équation (1.1) de la section 2.2, on trouve que ) Θ i j = η i j, et donc Θ i j / η i j = 1. À partir du système d équations (1.21) et en supposant l hypothèse d indépendance vraie, on peut démontrer que n( β ind p β ) converge en distribution vers la loi normale de moyenne nulle et de variance V = n ( n i=1 x i i A i i x i) 1, (1.22) 11

24 où A i = π i1 (1 π i1 ) π i2 (1 π i2 ) π ini (1 π ini ). Équations d estimation généralisées Le concept d équations d estimation généralisées est en fait une généralisation du système d équations (1.21), où une corrélation intra-individu autre que l indépendance pour R i (α) peut être intégrée. La matrice de variance pour les observations Y i est alors donnée par V i = φa 1/2 i R i (α)a 1/2 i. (1.23) Dans l équation (1.23), les paramètres α et φ (paramètre de surdispersion) sont inconnus. Selon Liang et Zeger (1986), on peut les estimer à partir des résidus de Pearson qui sont définis comme suit : r i j = Y i j µ i j Var(Yi j ) et obtenir l estimé du paramètre φ par φ = 1 N (p + 1) L estimation du paramètre α dépend de la forme choisie pour R i (α). Le lecteur peut, par exemple, n i=1 n i j=1 consulter l aide de la procédure GENMOD de SAS pour voir les formules des estimateurs pour chacune des structures de corrélation mentionnées précédemment. Pour estimer β, on trouve la valeur de β qui résout le système d équations d estimation généralisées U corr (β ) = N i=1 Pour ce faire, on a recours à l algorithme itératif suivant. r 2 i j. (A i i x i ) V 1 { Y i µ i (β ) } = 0. (1.24) i Algorithme de la méthode GEE Soit D i = φa i i x i et V i = φa 1/2 i R i ( α)a 1/2 i. 1. Calculer β ind p et poser β (0) = β ind p. 2. Poser m = Calculer les résidus de Pearson à partir de β (m 1). 4. Estimer α (m) et φ (m) en fonction des résidus de Pearson. 12

25 5. Calculer β (m) à partir de l équation β (m) = β (m 1) + ( N [ D i V i D ) 1 N i D i V 1 { i Y i µ i ( β (m 1) ) }] = 0, i=1 i=1 où D i et V i sont évaluées en β = β (m). 6. Poser m = m + 1. On itère les étapes 2 à 7 jusqu à ce que la différence entre β (m) et β (m 1) soit négligeable et on pose β = β (m). Estimation de la matrice de variances-covariances Une fois β obtenu, il nous est maintenant possible d estimer sa matrice de variances-covariances. Si la matrice R i (α) est correctement spécifiée, la matrice de variances-covariances de β s estime de façon convergente par V t = ( N i=1 ) 1 D i V 1 i D i. Cependant, la matrice R i (α) ne reflète possiblement pas la véritable structure de corrélation de Y i. Pour remédier à ce problème, on corrige, de façon empirique, la matrice V t en prenant l estimateur "sandwich" robuste V s = V t [ N i=1 D i V 1 1 i {Y i µ i ( β )}{Y i µ i ( β )} V i D i ]V t. (1.25) Plus la matrice R i (α) est proche de la vraie matrice, plus les inférences seront efficaces. L estimateur β obtenu par la méthode des GEE est approximativement de loi normale de moyenne β et de variance V s, en autant que la fonction µ i j (β ) soit correctement spécifiée. Ainsi, des inférences de type Wald peuvent être effectuées sur les éléments de β. Par exemple, pour le test H 0 : β = β 0 contre H 1 : β = β 0, on pose w = ( β β 0 ) V 1 s ( β β 0 ) et sous H 0, w suit approximativement une loi du khi-deux à p degrés de liberté Exemple Stokes et al. (2000) Deux traitements contre les troubles respiratoires ont été testés sur n = 111 patients recrutés aléatoirement dans deux centres hospitaliers (Stokes et al. (2000)). Pour chacun des patients, on mesure la variable réponse, soit le statut respiratoire, (0 pour un "mauvais" statut et 1 pour un "bon" statut). Soit y i j la valeur de la variable réponse pour le i e patient à la j e visite où l on mesure le statut respiratoire, j = 1,...,4. À noter que même si la majorité des variables explicatives demeure constante à chaque visite, l indice j a été conservé par souci de cohérence avec la notation employée à la section 5.1. Le vecteur des variables explicatives est donc x i j = (1,x i j1,...,x i j5 ), où, lors de la visite j, x i j1 représente l âge du patient i ; x i j2 est le sexe du patient i (égal à 0 si le patient est un homme, 1 sinon) ; x i j3 13

26 correspond au traitement reçu par le patient i (égal à 0 si le traitement est le placebo, 1 sinon) ; x i j4 indique le statut respiratoire de base du patient i (égal à 0 si le statut respiratoire de base est mauvais, 1 sinon) et x i j5 est l hôpital d où est recruté le patient i (égal à 0 si c est le centre 1, 1 sinon). Un modèle de régression logistique a été considéré et a été ajusté avec la méthode GEE. Voici respectivement la matrice de corrélation de travail de type "non structuré" estimée, R i ( α) ; la matrice des covariances de ˆβ basée sur le modèle, V t et l estimateur "sandwich" robuste, V s, obtenus avec une structure de type "non structuré" tel qu utilisée par Stokes et al. (2000). R i ( ˆα) = V t = V s = Les estimés ˆβ obtenus à partir des matrices de corrélation de travail de type "indépendante" et de type "non structuré" sont présentés respectivement aux tableaux 1.1 et 1.2. À noter que pour le test sur un seul coefficient β i, la statistique du test de Wald (fréquemment dénoté z) est donnée par z = ( β i 0)/(écart-type robuste de β i ) et le seuil observé est 2P[N(0,1) > z ]. D après les estimations des paramètres du vecteur α de la matrice de corrélation de travail de type "non structuré", une corrélation intra-individu semble exister. Toutefois, les valeurs α sont assez rapprochées l une de l autre, pouvant suggérer une structure de type "échangeable". L impact de la corrélation intra-individu semble se refléter dans l estimation de la matrice des covariances de ˆβ. En effet, l estimateur "sandwich" robuste V s et la matrice des covariances de ˆβ basé sur le modèle, V t, affichent des corrélations parfois divergentes. Cependant, cela a eu peu de répercussions sur les estimés ˆβ et 14

27 TABLE 1.1: Coefficients de régression obtenus avec la méthode GEE (matrice de corrélation de travail de type "indépendante") Écart-type Paramètres Estimés Naïf Robuste Statistique de Wald Seuil observé Ordonnée Âge Sexe Traitement Statut de base < Hôpital TABLE 1.2: Coefficients de régression obtenus avec la méthode GEE par Stokes et al. (2000) (matrice de corrélation de travail de type "non structurée") Écart-type Paramètres Estimés Naïf Robuste Statistique de Wald Seuil observé Ordonnée Âge Sexe Traitement Statut de base < Hôpital leur écart-type robuste. De plus, les estimés β et leurs variances-covariances obtenus sous la matrice de corrélation de travail de type "indépendante" sont pratiquement identiques à ceux obtenus avec la matrice de type "non structuré". Par ailleurs, le fait de ne pas corriger les écarts-types pour tenir compte de la corrélation intra-individu aurait mené à une sous-estimation de ceux-ci. Le test de type Wald suggère que le traitement a une influence significative sur le statut respiratoire des patients (variable réponse). Pour cette covariable, la valeur de ˆβ indique que le traitement augmente la probabilité qu un patient ait un "bon" statut. Lorsqu un patient reçoit le traitement, on estime que la cote de succès est multipliée par exp(1.2442) = Régression logistique conditionnelle avec données corrélées Dans le cadre d une étude longitudinale cas-témoins appariée, Craiu et al. (2008) ont observé les déplacements de mêmes animaux à plusieurs reprises et ont comparé les lieux visités à des lieux non visités obtenus en fonction d un échantillonnage stratifié 1 : 10. Contrairement au modèle de régression logistique conditionnelle présenté à la section 2.4, l hypothèse d indépendance entre les strates n était pas raisonnable. En effet, la sélection d un lieu au temps t et celui au temps t +1 risquent d être corrélés pour un même individu. Quant au modèle de régression logistique avec données corrélées décrit à la section 2.5, celui-ci est un modèle "prospectif" ne permettant pas de considérer l information a priori connue lorsque la variable réponse est fixée avant même le début de l échantillonnage. Par 15

28 conséquent, afin de tenir compte à la fois de la dépendance entre les strates d un même individu et de l aspect "rétrospectif" d une étude longitudinale cas-témoins appariée, un modèle de régression logistique conditionnelle avec données corrélées construit avec la méthode des GEE est utilisé. Les avantages de la méthode GEE (variance robuste, estimateurs toujours valides lors d une mauvaise spécification de la matrice de corrélation des observations) peuvent ainsi être exploités Notation pour la régression logistique conditionnelle avec données corrélées 1. n est le nombre d individus de l étude, i = 1,...,n ; 2. K (i) représente le nombre de strates du i e individu, k = 1,...,K (i) ; 3. Y (i) k dénote le vecteur de la variable dépendante de la k e strate du i e individu, où Y (i) k avec l = 1,...,(C + 1) ; 4. X (i) k est la matrice, de taille (C+1) p, des variables indépendantes de la k e strate du i e individu, avec x (i) kl = ( x (i) ) kl1,...,x(i) (i) kl p et X k = { x (1) } k1,...,x(i) kl,...,x(i) k(c+1) Écriture du modèle { Soit Y (i) 1, lieu visité kl = 0, lieu non visité. Le modèle de régression logistique conditionnelle avec données corrélées se base sur les hypothèses suivantes : 1. avant d échantillonner les lieux non visités, on fixe C+1 l=1 Y (i) kl = 1 i,k ; 2. on suppose l indépendance entre les individus. Encore une fois, l indice z représente l une des C + 1 combinaisons possibles, composées d une seule valeur de 1 et de C valeurs de 0, que peut prendre le vecteur Y (i) k. On a que pour une strate ( L (i) k β C+1 l=1 Y (i) kl ) = 1,x (i) kl = exp ( C+1 l=1 β x (i) kl Y (i) ) kl (C+1) z=1 exp ( C+1 l=1 β x (i) kl v(i) zl = ( Y (i) (i) k1,...,y kl,...,y (i) ) k(c+1) ), (1.26) où (C+1) z=1 représente la somme sur tous les vecteurs possibles v z (i) tels que v (c) zl {0,1} et C+1 l=1 v(i) zl = 1. Prenons par exemple le cas d une étude cas-témoins 1 : 2. Les vecteurs possibles de v z (i) sont donc (1,0,0) ; (0,1,0) ;(0,0,1). Afin de pallier à la singularité de la matrice de variances-covariances des Y (i) k linéaire C+1 l=1 Y (i) kl démontré par Craiu et al. (2008). En effet, si l on définit x (i) kl variables explicatives "réduit", alors L (i) k en raison de la contrainte = 1, on peut récrire l équation (1.26) en omettant la première observation, tel que = x (i) kl x (i) k1 avec l = 1, le vecteur des ( (i) ) exp ( C+1 β x kl l=2 β x (i) kl (C+1) z=1 exp ( C+1 Y (i) kl l=2 β x (i) kl ) v (i) ) = L (i) k zl ( β C+1 l=1 Y (i) kl ) = 1,x (i) kl. (1.27) 16

29 1.6.3 Lien avec la méthode GEE L hypothèse de dépendance entre les strates d un même individu fait qu on ne peut obtenir sa contribution à la vraisemblance à partir de l équation (1.27), et donc de définir les équations à résoudre pour estimer β. Néanmoins, commençons par supposer que les strates d un même individu sont indépendantes. De (1.27), on a que pour la log-vraisemblance et la fonction de score avec le vecteur des variables explicatives "réduit" pour l ensemble des individus sont données respectivement par [ ( )] C+1 l (i) (β x (i) kl ) = βx (i) kl Y (i) (C+1) C+1 kl log exp βx (i) kl v (i) zl i,k l=2 z=1 l=2 U (β ) = i,k = i,k [ C+1 i=2 [ C+1 l=2 x (i) kl Y (i) kl (C+1) z=1 x (i) kl (C+1) x kl{y (i) kl où le théorème 1 à la page suivante indique que µ (i) kl µ (i) kl (β )} v (i) zl exp ( C+1 l=2 βx (i) kl z=1 exp ( C+1 l=2 βx (i) kl v (i) ) zl ], v (i) zl )] est l espérance conditionnelle de Y (i) kl. Sous l hypothèse d indépendance entre les strates, le système d équations à résoudre permettant d obtenir β est U (β ) = 0. (1.28) Lorsqu il existe une corrélation entre les strates d un même individu, une meilleure robustesse dans les inférences sur β est requise. Une possibilité est d écrire l équation (1.28) sous la forme des GEE. Il sera donc utile de définir les variables à nouveau : Y = ( Y (1),...,Y (n) ) ( ) où Y (i) = Y (i) (i) 1,...,Y i = 1,...,n K (i) Y (i) k = ( Y (i) (i) ) k2,...,y k(c+1) [ ] C+1 µ(β ) = E Y Y (i) kl = 1;X kl l=1 [ ] µ (i) (β ) = E Y (i) C+1 = 1;X kl, où X kl = { x k1,...,x k(c+1)}. Le théorème qui suit est démontré par Craiu et al. (2008). l=1 Y (i) kl Théorème 1. Soit D (i) = µ (i) (β )/ β la matrice des dérivées du vecteur des moyennes conditionnelles de l individu i de taille { ( )} K(i) k=1 (C + 1) 1 p et V (i) ind pendante = Var[ Y (i) (C+1) l=1 Y (i) kl = 1;X kl]. Alors, U ind pendante (β ) = n i=1 D (i)( { } V (i) ) 1 independante Y (i) µ (i) (β ) (1.29) 17

30 où µ (i) (β ) = (C+1) z=1 v zl exp ( (C+1) l=2 βx kl v ) zl (C+1) z=1 exp ( (C+1) l=2 βx kl v ), zl (1.30) µ (im) (β ) = (C+1) z=1 v zl v zm exp ( (C+1) l=2 βx kl v ) zk (C+1) z=1 exp ( C+1 l=2 βx kl v ) zl i = m. (1.31) et V (i) (i) independante est une matrice bloc diagonale. Les éléments en position (i, j) de V 0, si i et j ne proviennent pas de la même strate V i j = µ i (1 µ i ), si i = j µ i j µ i µ j, i = j, i et j proviennent de la même strate. independante sont La variance robuste de l estimateur β résolvant l équation (1.28), notée V g, est donnée par V g = ( n ) D (i) ( (i) ) 1 1D V (i) ind pendante i=1 { n D (i) ( (i) ) 1 ( V ind pendante Y (i) µ (i) (β ) ) i=1 ( Y (i) µ (i) (β ) ) ( (i) ) 1D V (i) ind pendante } ( n ) D (i) ( (i) ) 1 1D V (i) ind pendante (1.32) i=1 que l on évalue en β= β Exemple de Craiu et al. (2008) L étude des bisons du Parc national de Prince Albert présentée par Craiu et al. (2008) a pour but d investiguer les relations entre la répartition d une population de bisons et les caractéristiques de leur environnement. L expérience a été réalisée sur neuf bisons munis d un collier GPS localisés à chaque heure à raison de deux jours par semaine sur une période de trois mois. Une étude longitudinale cas-témoins appariée a été effectuée, où chaque lieu visité par un bison (Y = 1), par intervalle d une heure, est apparié à 10 lieux non visités (Y = 0). Ces derniers ont été échantillonnés aléatoirement dans un cercle de rayon de 300 mètres centré autour du lieu observé. Ce rayon permet de capturer 85% des distances de l ensemble des déplacements observés. Par ailleurs, les covariables du modèle correspondent aux caractéristiques géographiques de l environnement. En se basant sur une image satellite Landstat TM, la zone à l étude a été subdivisée en 7 catégories : les terres agricoles, les prairies, les regroupements de conifères, les regroupements d arbres à feuilles caduques, les plans d eau, la zone riveraine et les routes. Un modèle de régression logistique conditionnelle avec données corrélées a été retenu pour l analyse afin de respecter l aspect "rétrospectif" de l étude et de considérer la possibilité d une corrélation intra-individu. 18

31 Dans le modèle de régression cas-témoins appariée, les 9 bisons sont représentés par l indice i = 1,...,9. On dénombre au total 624 strates par individu, soit 2 jours 24 heures 13 semaines. Craiu et al. (2008) se sont intéressés aux différents types d habitats des bisons : 7 types d habitats ont été codés avec 6 variables indicatrices avec les regroupements d arbres à feuilles caduques comme catégorie de référence, en plus de la proportion de prairies dans un cercle de 300 mètres ("P300"), une variable continue, et à l interaction entre cette dernière proportion et le type d habitat "Prairies", notée "Prairies_int". Les différents types d habitats ainsi que les variables "P300" et "Prairies_int" constituent le vecteur x des variables indépendantes. La méthode des GEE a été appliquée aux données de Craiu et al. (2008) à l intérieur d un modèle de régression logistique conditionnelle avec données corrélées. La matrice de corrélation de travail de type "indépendante" a été utilisée, tel que suggéré par Craiu et al. (2008). Le tableau 1.3 fournit les résultats du modèle de régression : la 1 re colonne identifie le type d environnement ; la 2 e affiche la valeur des ˆβ j ; la 3 e donne l écart-type des ˆβ j en supposant une corrélation intra-individu nulle ; la 4 e donne les seuils observés obtenus, par le test de Wald sous l hypothèse d indépendance (p-value naive) ; la 5 e est l écart-type des ˆβ j qui considère une corrélation intra-individu et la 6 e colonne donne les seuils observés pour le test de Wald qui utilise l estimateur de la variance robuste (p-value robuste). TABLE 1.3: Résultats du modèle de régression logistique conditionnelle avec la méthode GEE appliqué aux données sur les bisons de Craiu et al. (2008) Variables ˆβ j Var ˆ I ˆβ p-value naive Var ˆ j Robuste ˆβ p-value robuste j P Prairies < < Prairies_int Conifères < < Plans d eau Riverains Zones agricoles < Routes < < Les résultats présenté au tableau 1.3 révèlent que les déplacements des individus ne sont pas totalement aléatoires. Relativement aux regroupements d arbres à feuilles caduques, les bisons sont davantage attirés par les "zones agricoles" et les "routes". Également, la force de sélection des "prairies" diminue lorsque la proportion des prairies ("Prairies_int") est dense à l intérieur du cercle de 300 mètres. De plus, les bisons sont plus attirés par les regroupements d arbres à feuilles caduques que par les "plans d eau", les "conifères" et les "zones riveraines". L interprétation de l attrait des "plans d eau" varie si l on tient compte ou non de la corrélation intraindividu. En effet, le seuil observé "naïf" permet de considérer cette covariable significative au seuil de 10%, ce qui n est pas le cas avec le seuil observé robuste. 19

32 1.6.5 Contrainte d interprétation de β causée par l utilisation de la méthode GEE Tel que discuté aux sections 2.5 et 2.6, la corrélation intra-individu peut être considérée dans les inférences grâce à la méthode GEE. Cependant, cette méthode fournit des estimés des coefficients de régression qui représentent l effet d un changement dans les variables indépendantes sur la valeur moyenne des Y dans la population, soit une approche marginale. De plus, elle ne modélise pas explicitement l hétérogénéité dans le comportement inter-individus. Au chapitre suivant, nous verrons que dans le cas d études du déplacement animal, cette approche marginale possède des lacunes, ce qui nous incitera, au chapitre 4, à introduire une approche conditionnelle basée sur un modèle mixte pour effectuer la régression logistique conditionnelle. 20

33 Chapitre 2 La sélection des ressources La sélection des ressources par un animal se définit en fonction du comportement de ce dernier vis-àvis la disponibilité des ressources à sa disposition. Elle nous renseigne donc sur les ressources les plus recherchées chez l animal. Par exemple, si 50% des localisations observées pour un animal sont dans les marais, mais que les marais ne représentent que 10% de son domaine vital, on pourra conclure que cet animal a une préférence pour ce type d habitat puisqu il s y retrouve plus souvent que ce à quoi on s attendait sous une sélection d habitat aléatoire. Plusieurs études ont analysé ce sujet pour un troupeau d animaux, telle que l étude de Boyce et al. (2003), de même que pour des animaux individuels, par exemple l étude de Craiu et al. (2011). Pour ce faire, elles comparent les lieux visités aux lieux disponibles non visités par chaque individu (Thomas et Taylor (2006)). Ce chapitre discute des études du déplacement des animaux en fonction de la sélection des lieux visités et de l échantillonnage des lieux non visités. De ce fait, il est nécessaire d introduire les concepts de fonction de sélection des ressources et de fonction de sélection des déplacements. Tout d abord, la fonction de sélection des ressources, notée RSF, est proportionnelle à la probabilité qu un lieu soit visité étant donné les caractéristiques qui le composent. Elle permet ainsi de prédire les ressources les plus susceptibles d attirer l animal. Elle se définit ainsi : Définition 2.1. La RSF est proportionnelle à la probabilité que l animal visite un lieu étant donné les caractéristiques de ce lieu ; c est-à-dire qu il exite une constante q telle que RSF = qp[ lieu est visité les caractéristiques de ce lieu]. Quant à la fonction de sélection des déplacements, notée SSF, elle a été introduite par Fortin et al. (2005). Son objectif est d expliquer ou de prédire le déplacement d un animal en incorporant simultanément les caractéristiques du déplacement (angle, distance, énergie à déployer, danger le long du trajet, etc.) et l information sur les ressources disponibles au bout du déplacement. De ce fait, contrairement à la RSF, elle permet de tenir compte des caractéristiques du trajet de déplacement entre deux lieux. 21

34 Les paramètres d une SSF peuvent être estimés à partir d un modèle de régression logistique conditionnelle avec données indépendantes sous un étude cas-témoins appariée en associant à chaque lieu visité plusieurs lieux non visités, aussi appelés "lieux témoins", dans le domaine des lieux disponibles. Forester et al. (2009) présentent trois méthodes d échantillonnage de ces lieux témoins en fonction de l emplacement du lieu visité. Selon l étude de Forester et al. (2009), un échantillonnage non adéquat des lieux témoins peut induire un biais dans l inférence sur les coefficients de régression d une SSF. 2.1 Notation 1. i = 1,...,n dénote l animal ; 2. a indique le lieu où se trouve l animal au temps t ; 3. a 0 indique le lieu où se trouvait l animal au temps t 1 ; 4. b est le prochain lieu visité par l animal au temps t + 1 ; 5. D a représente l ensemble des lieux disponibles que l animal peut visiter à partir du lieu a dans un pas de temps donné, soit le domaine des lieux disponibles ; 6. X représente les caractéristiques d un lieu et constitue le vecteur des variables indépendantes ; 7. H est le nombre de lieux témoins échantillonnés que l animal aurait pu visiter à partir du lieu a ; 8. T i correspond au vecteur des temps où la localisation de l animal i est observée, où T i = (t i1,...,t igi ) avec g = 1,...,G i. 2.2 Écriture du modèle En se basant sur les travaux de Rhodes et al. (2005), pour un animal qui a visité les lieux a 0 et a respectivement aux temps t 1 et t, on peut modéliser la densité de probabilité qu il se trouvera au lieu b ε D a au temps t + 1 par f (b a,a 0,X(b)) = φ(a 0,a,b;θ)ω{X(b);β} lεd a φ(a 0,a,l;θ)ω{X(l);β}dl, (2.1) où X(b) représente les caractéristiques du lieu b. La densité (2.1) est proportionnelle au produit de la RSF, représentée par ω{x(l); β}, et d un noyau de déplacement indépendant des ressources, noté φ(a 0,a,l;θ). Ce dernier décrit le mouvement d un animal dans un environnement homogène en fonction de la distance parcourue et de l angle de pivotement. Il représente ainsi la probabilité qu un animal se déplace du lieu a au lieu b en l absence de sélection de ressources. L hypothèse la plus fréquente consiste à définir la RSF sous une forme log-linéaire, ω{x(b);β} = exp{x(b) β}. (2.2) 22

35 Quant au noyau de déplacement indépendant des ressources, on peut lui attacher une forme paramétrique ou non paramétrique, selon la disponibilité des données ou l état de nos connaissances. Forester et al. (2009) suggèrent une distribution de Weibull de paramètres (ν,λ ), dont la fonction de densité est donnée par le numérateur de l équation (2.3), pour la distance qui sépare le lieu a du lieu b et une loi uniforme sur l intervalle [0, 2π] pour l ange de pivotement, et l indépendance entre l angle et la distance. Cette spécification mène au noyau de déplacement φ(a 0,a,b;θ) = νλ (λr ab) ν 1 exp[ (λr ab ) ν ] 2πr ab, θ = (ν,λ ), (2.3) où r ab correspond à la distance qui sépare le lieu a du lieu b. À noter que Forester et al. (2009) définissent la SSF comme étant le produit de la RSF et du noyau de déplacement, soit le numérateur de l équation (2.1). 2.3 Fonction de vraisemblance conditionnelle Le calcul de la vraisemblance totale permettant d estimer les paramètres β et θ nécessite d évaluer l intégrale au dénominateur de l équation (2.1). Rhodes et al. (2005) mentionnent que cette intégrale risque d être difficile à évaluer si D a est large. Par ailleurs, peu importe l étendue de D a, la résolution de l intégrale requiert l emploi d une méthode numérique pour plusieurs spécifications de φ, ω ou X. La difficulté d évaluation de cette intégrale a amené Forester et al. (2009) à développer une fonction de vraisemblance conditionnelle basée sur un échantillonnage de lieux témoins. À noter qu afin d alléger l écriture de certaines équations, la dépendance sur a 0 sera omise. Pour tenir compte de la méthode d échantillonnage des lieux témoins, on définit un ensembe de lieux non ordonnés s = {l 0,l 1,...,l H } contenant H lieux témoins échantillonnés à l intérieur de D a, où D a D a, selon une méthode d échantillonnage prédéterminée et un lieu visité b autour du lieu de départ a à un pas de temps donné. En fonction de la méthode d échantillonnage, la densité du vecteur s sachant a, b et les caractéristiques de l environnement est donnée par (Forester et al. (2009)) 1 u(s b,a,x) = φ (a,b;κ) (H 1)! φ (a,l;κ), (2.4) lεs où φ correspond à un noyau de déplacement indépendant des ressources, mais dépendant de l angle de pivotement et de la distance à parcourir dénotés par κ. En somme, φ est une distribution connue définie par l utilisateur qui approxime la distribution inconnue φ. 23

36 La probabilité conditionnelle d observer l animal au lieu b sachant s, a et X est donc P[lieu = b s,a,x] = = = = f (b a,x)u(s b,a,x) lεs f (l a,x)u(s l,a,x) (2.5) 1 f (b a,x) φ (a,b;θ) (H 1)! lεs φ (a,l;κ) 1 lεs f (l a,x) φ (a,l;κ) (H 1)! vεs φ (a,v;κ) (2.6) f (b a,x)/φ (a,b;κ) lεs f (l a,x)/φ (a,l;κ) (2.7) φ(a,b;θ)exp{x(b) β}/φ (a,b;κ) lεs φ(a,l;θ)exp{x(l) β}/φ (a,b;κ). (2.8) L équation (2.5) est le résultat du théorème de Bayes impliquant les fonctions de densité du lieu b et de l ensemble des lieux s provenant des équations (2.1) et (2.4). Le passage de l équation (2.6) à l équation (2.7) est dû aux termes communs (H 1)! lεs φ (a,l;κ) du numérateur et de chaque terme du dénominateur. En développant la fonction f ( ) de l équation (2.7), l intégrale sur tout le domaine des lieux disponibles de l équation (2.1) se retrouve au numérateur et au dénominateur, nous permettant ainsi de l annuler afin d obtenir l expression (2.8). Voici une version réorganisée de l équation (2.8) : P[lieu = b;s,a,x] = exp[x(b) β + log{φ(a,b;θ)/φ (a,b;κ)}] lεs exp[x(l) β + log{φ(a,l;θ)/φ (a,l;κ)}]. (2.9) Il est important de choisir D a D a. Si ce n est pas le cas, il peut arriver que le lieu b soit à l extérieur de D a. Par conséquent, φ(a,b;θ)/φ (a,b;κ) devient infinie, car φ = 0. À partir de l équation (2.9), on constate que lorsque que φ est proportionnelle à φ, alors le terme φ(a,b;θ)/φ (a,b;κ) est constant et son log s annule. Dans ce cas, l équation (2.9) se simplifie à P[lieu = b;s,a,x] = exp{x(b) β} lεs exp{x(l) β}, (2.10) ce qui correspond à la vraisemblance de la régression logistique conditionnelle avec données indépendantes pour un échantillonnage de type cas-témoins 1 : H. En effet, l équation (2.10) correspond à l équation de la vraisemblance pour une strate si b ε s (équation (1.18) du chapitre 2) où, pour le lieu b, on a y = 1 et, pour les H lieux témoins, on a y = 0. Par conséquent, considérant le vecteur du temps de déplacement T i de l animal i, β peut être estimé en maximisant la fonction de vraisemblance de la régression logistique conditionnelle pour l ensemble de l échantillon, L(β ) = Π n i=1π G i d=1 exp{x(b id ) β} lεsid exp{x(l) β}, (2.11) où b id et s id sont respectivement les lieux visités et l ensemble des lieux échantillonnés pour l individu i au temps t id. 24

37 Le modèle de régression logistique conditionnelle avec données indépendantes n a cependant pas la propriété de tenir compte dans son inférence du plan d échantillonnage des lieux témoins. Par conséquent, lorsque φ(a,b;θ)/φ (a,b;κ), que nous appellerons le poids d échantillonnage, dépend de la distance à parcourir pour atteindre le lieu b à partir du lieu a, alors l estimateur ˆβ peut être biaisé dû à l impact sur la vraisemblance de φ(a,b;θ)/φ (a,b;κ). Cependant, lorsque φ est connu et que φ est préalablement défini, il est possible d estimer β et θ en incluant le poids d échantillonnage φ(a,b;θ)/φ (a,b;κ) dans l équation (2.11), par exemple sous la forme d un terme d offset log{φ(a,b id ;θ)/φ (a,b id ;κ)} : L(β ) = Π n i=1π G exp[x(b i id ) β + log{φ(a,b id ;θ)/φ (a,b id ;κ)}] d=1 lεsid exp[x(l) β + log{φ(a,l;θ)/φ (a,l;κ)}]. (2.12) 2.4 Échantillonnage des lieux témoins Comme Forester et al. (2009) l ont fait, nous considérons trois modes d échantillonnage des lieux témoins. 1. L échantillonnage uniforme sélectionne de façon aléatoire les lieux témoins à l intérieur d un cercle D a, de rayon r, autour du lieu a. Chaque lieu a la même probabilité de sélection. Par exemple, à partir du lieu a, les lieux témoins pourraient être échantillonnés aléatoirement dans un cercle de rayon v qui inclut 80% des distances parcourues observées chez les animaux. 2. L échantillonnage empirique se base sur la distribution empirique conjointe des distances parcourues et des angles de pivotement observés chez les animaux : on sélectionne avec remise une paire constituée d une distance et d un angle dans l ensemble des déplacements observés chez les individus. 3. L échantillonnage paramétrique se base sur une distribution connue φ (a 0,a,b;κ), avec support D a, qui est régie par le paramètre κ, où D a et κ sont définis par l utilisateur. Le but est de choisir un φ proche de ce que l on croit être φ. Par exemple, φ (a,b;κ) peut être la loi exponentielle ayant comme paramètre κ 1 égal à deux fois la moyenne des distances des déplacements observés combinée à la loi uniforme sur [0,2π] pour les angles Utilisation de la régression logistique conditionnelle avec données indépendantes Bien que l équation (2.12) tienne compte du plan d échantillonnage des lieux témoins, il est toujours possible d utiliser la régression logistique conditionnelle avec données indépendantes, pourvu que le poids d échantillonnage φ/φ ait une forme simple. Par exemple, si φ et φ sont des exponentielles de moyennes respectives (1/θ) et (1/κ), alors log{φ(a,l;θ)/φ (a,l;κ)} = (κ θ)r al +log(θ /κ). Ainsi, l équation (2.12) devient L(β ) = Π n i=1π G i d=1 (θ /κ)exp[x(b id ) β + (κ θ)r al ] lεsid (θ /κ)exp[x(l) β + (κ θ)r al + log(θ /κ)]. 25

38 La distance r al entre le lieu a et le lieu témoin lεs devient une covariable du modèle avec comme coefficient de régression (κ θ), et la constante θ /κ n a aucune influence sur les inférences sur β. Forester et al. (2009) proposent, étant donné la distribution inconnue de φ, de modéliser sous une forme paramétrique et sans hypothèse directe sur φ le rapport φ/φ en tant qu une fonction loglinéaire de r al, log{φ(a,r al ;θ)/φ (a,r al ;κ)} = θr al. (2.13) Des modèles plus riches pour log{φ(a,r al ;θ)/φ (a,r al ;κ)} peuvent être construits en incluant comme covariable r 2 al ou en considérant d autres fonctions non linéaires pour r al. Une autre solution est de faire appel à une fonction spline linéaire sur r al (Harrell (2001)) : log{φ(a,r al ;θ)/φ (a,r al ;κ)} = θ 0 r al + θ 1 (r al τ 1 ) θ H (r al τ q ) +, (2.14) où u + = u si u > 0 et 0 sinon, et les q noeuds τ 1,...,τ q sont spécifiés par l utilisateur, comme par exemple q quantiles de la distribution empirique des distances parcourues. 2.5 Étude de Forester Forester et al. (2009) ont examiné la performance des modèles donnés aux équations (2.13) et (2.14) ainsi que les conséquences d omettre le poids d échantillonnage φ(a,b;θ)/φ (a,b;κ) dans l estimation des paramètres β à partir du modèle de régression logistique conditionnelle avec données indépendantes. Pour ce faire, ils ont simulé le déplacement d animaux sur différentes cartes d environnement, X(b), et sous diverses forces de sélection (différentes valeurs de β). Chaque lieu visité a été apparié à plusieurs lieux témoins dans le cadre d un échantillonnage cas-témoins apparié selon diverses spécifications de φ. Par conséquent, ils ont pu comparer les biais dans les inférences sur β Génération des environnements Afin d analyser le comportement de l animal en fonction des ressources disponibles, quatre environnements ont été générés et ont été représentés sur une carte cartésienne { X(x,y) : x,y = 1,...,1024 }, où X(x, y) est une valeur réelle qui représente une caractéristique du lieu ayant les coordonnées (x, y). Les ressources disponibles X(x, y) sur ces cartes ont été simulées selon un champ aléatoire gaussien (Gaussian random field, GRF) de moyenne 0 et de variance 1 basé sur une fonction de covariance exponentielle (Stein (1999)) ayant comme paramètre d étendue (0.1; 1; 5 et 10) fois la moyenne des distances parcourues (µ = 21) du noyau de déplacement indépendant des ressources. Les quatre environnements montrant les valeurs de X(b) sont présentés à la figure 2.1. On remarque que plus le paramètre d étendue est élevé, plus les regroupements d une même ressource sont visibles (l environnement devient plus homogène). 26

39 F IGURE 2.1: Les quatre environnements utilisés par Forester et al. (2009) pour leurs simulations. Le paramètre d étendue de chaque environnement est (0.1, 1, 5 et 10) fois la moyenne des distances parcourues Modèle de déplacement Une fois les environnements générés, il faut simuler les déplacements de l animal à partir de l un des deux noyaux de déplacement illustrés aux équations (2.15) et (2.16) et selon l un des quatre degrés, β = {0; 0.5; 1; 2}, de sélection de la ressource X de la RSF (équation (2.2)). Le premier noyau de déplacement est donné par φ1 (a, b) = λ1 exp( λ1 rab ), 2πrab (2.15) et le second est donné par ν1 λ2 (λ2 rab )ν1 1 exp{ (λ2 rab )ν1 } 2πrab ν2 λ3 (λ3 rab )ν2 1 exp{ (λ3 rab )ν2 } + 0, 29. 2πrab φ2 (a, b) = 0, 71 (2.16) Les paramètres de φ1 et φ2 ont été déterminés par Forester et al. (2009). Ils les ont choisis de telle sorte que la distance moyenne entre le lieu a et le lieu b soit d environ 21 unités sur la carte. Plus précisément, ils ont choisi λ1 = 1/21, λ2 = 1/14, λ3 = 1/42, ν1 = 1, 22 et ν2 = 1,

40 Pour simuler un déplacement du lieu a au lieu b, 2000 lieux tirés d une distribution centrée au lieu a ont été échantillonnés. Les coordonnées cartésiennes de ces lieux sont calculées ainsi : p x = a x + r p sin(u p ) et p y = a y + r p cos(u p ), où (a x,a y ) sont les coordonnées du lieu a, (p x, p y ) sont les coordonnées du lieu simulé p, r p est la distance à parcourir entre les lieux a et p suivant la fonction de densité φ p (r p ) = λ l exp( λ l r p ) avec λ l = 1/45 et u p est un tir provenant d une distribution uniforme sur [0,2π). Le lieu b est tiré parmi ces 2000 lieux avec probabilité d échantillonnage P(b) = φ(a, p)ω{x(p)}/φ p (r p ) p εp φ(a, p )ω{x(p )}/φ p (r p). (2.17) Rappelons que ω{x(p)} est la fonction de sélection des ressources et que, selon l équation (2.2), ω{x(p)} = exp{x(p)β} où β est un scalaire pouvant prendre comme valeur (0, 0.5, 1, 2) et X peut représenter, par exemple, la biomasse disponible à une localisation ou la présence d un prédateur. Un lieu de départ pour chacun de 100 animaux a été choisi aléatoirement dans un carré au centre de la carte et dont la superficie est 1/9 de celle de la carte. Pour chaque animal, 30 déplacements basés sur le modèle (2.17) sont simulés. Ce procédé a été répété 1000 fois. En somme, la simulation de Forester et al. (2009) est basée sur 1000 réplicats de 3000 déplacements chacun Analyse Pour chaque réplicat, un modèle cas-témoins apparié 1 : 20 sous les trois méthodes d échantillonnage des lieux témoins (uniforme, empirique et paramétrique) est appliqué. Après avoir généré trois ensembles de lieux témoins pour chaque lieu visité par animal, un modèle de régression logistique conditionnelle avec données indépendantes est ajusté à chacun des 1000 échantillons de la simulation. Trois modèles sont utilisés : 1. Modèle nul (sans tenir compte de la distance) : w{x(l)} = exp{β x X(l)} 2. Modèle distance (fonction linéaire de la distance ; réfère au modèle (2.13)) : w{x(l)} = exp{β x X(l)+ β al r al } 3. Modèle spline (fonction non linéaire de la distance ; réfère au modèle (2.14)) : w{x(l)} = exp{β x X(l) + θ 1 (r al τ q1 ) + + θ 2 (r al τ q2 ) + + θ 3 (r al τ q3 ) + } où q j est le j e quartile de la longueur des déplacements observés pour un réplicat donné Constats L étude de Forester et al. (2009) a permis de démontrer que le type d échantillonnage des lieux témoins et le modèle utilisé peuvent influencer le biais et la variabilité de l estimateur ˆβ x. L échantillonnage uniforme produit des estimateurs biaisés lorsque β x = 0. Le biais est réduit sous le modèle "distance". De plus, par rapport aux deux autres méthodes d échantillonnage, les estimateurs obtenus ont une plus grande variabilité. Toutefois, l échantillonnage uniforme identifie bien l absence de sélection des ressources quand β x = 0. 28

41 L échantillonnage empirique produit des estimateurs biaisés lorsque la valeur de β x est grande. Ce biais est moindre sous le modèle "spline". Ainsi, lorsque β x = 2 les modèles "nul" et "distance" donnent des estimateurs biaisés, spécialement dans le cas où l environnement est très hétérogène (paramètre d étendue petit), car φ s éloigne de φ. Lorsque β x 1, alors les estimateurs sont peu biaisés. L échantillonnage empirique est optimal lorsque β x = 0, car dans ce cas φ = φ. L échantillonnage paramétrique fournit des estimateurs avec un biais plus important que l échantillonnage empirique lorsque β x est grand. Toutefois, ce biais est largement réduit sous les modèles "distance" et "spline" en autant que, pour ce dernier, φ suive une distribution exponentielle. Ceci est également vrai lorsque β x = 2 et que le paramètre d étendue est élevé : le modèle "distance" produit des estimés acceptables ainsi que le modèle "spline" lorsque φ est exponentielle. Dans le cas où β x 1 et que φ suit une distribution exponentielle, alors les modèles "distance" et "spline" perfoment bien étant donné que log{φ/φ } est exact. Pour tous les modèles, l échantillonnage paramétrique permet de bien identifier l absence de sélection des ressources quand β x = 0. En résumé, l échantillonnage uniforme produit particulièrement des estimateurs biaisés. Cela pourrait s expliquer, en partie, par le choix arbitraire du rayon du cercle centré au lieu a qui ne pourrait pas être approprié pour contenir l ensemble des déplacements potentiels. Les échantillonnages empirique et paramétrique évitent à l utilisateur de définir arbitrairement le territoire des lieux disponibles. De plus, ils performent mieux que l échantillonnage uniforme. Toutefois, un biais plus élevé est observé lorsque β x est grand. Généralement, ce biais peut être réduit en considérant les modèles "distance" et "spline". À noter que les résultats des simulations de Forester et al. (2009) sont présentés à la figure Extension du modèle Forester et al. (2009) utilisent un modèle de régression logistique conditionnelle avec données indépendantes, tel que vu à la section 2.4 du chapitre 2. Cependant, ce type de modèle ne permet pas de tenir compte de la corrélation intra-individu qui pourrait découler du fait que chaque individu n a pas accès aux mêmes types d habitats. Également, les inférences sont marginales sur Y et ne permettent peut-être donc pas de considérer de potentielles interactions entre l individu et son milieu. Tel que mentionné à la section du chapitre 2, le chapitre 4 introduit le modèle multinomial mixte qui permettra d inférer au niveau de l individu tout en tenant compte de la corrélation intra-individu. 29

42 FIGURE 2.2: Les résultats des simulations de Forester et al. (2009) pour les 1000 réplicats sont présentés de la façon suivante : l axe des abscisses représente la valeur du paramètre d étendue, l axe des ordonnées situé à droite indique les valeurs de β à estimer, l axe des ordonnées situé à gauche donne l écart entre ˆβ et β. L entête de chaque colonne indique le modèle et la méthode d échantillonnage des lieux témoins utilisés. Les graphiques a) et b) présentent les résultats pour des déplacements simulés respectivement sous le noyau exponentiel et un mélange de lois de Weibull. 30

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Chapitre VI Échantillonages et simulations

Chapitre VI Échantillonages et simulations Chapitre VI Commentaires : Récursivement, les commentaires ne sont pas à l attention des élèves.. Fluctuation d échantillonnage Définition : En statistiques, un échantillon de taille n est la liste des

Plus en détail

9. Distributions d échantillonnage

9. Distributions d échantillonnage 9. Distributions d échantillonnage MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v3) MTH2302D: distributions d échantillonnage 1/46 Plan 1. Échantillons aléatoires 2. Statistiques et distributions

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1 Introduction Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1 L auteur remercie Mme Sylvie Gervais, Ph.D., maître

Plus en détail

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE [Prénom Nom] Rapport sur le stage effectué du [date] au [date] Dans la Société : [NOM DE LA SOCIETE : Logo de la société] à [Ville] [Intitulé du

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

5 Méthodes algorithmiques

5 Méthodes algorithmiques Cours 5 5 Méthodes algorithmiques Le calcul effectif des lois a posteriori peut s avérer extrêmement difficile. En particulier, la prédictive nécessite des calculs d intégrales parfois multiples qui peuvent

Plus en détail

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Master Modélisation et Simulation / ENSTA TD 1 2012-2013 Les méthodes dites de Monte-Carlo consistent en des simulations expérimentales de problèmes

Plus en détail

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Université Paris1, Licence 00-003, Mme Pradel : Principales lois de Probabilité 1 DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Notations Si la variable aléatoire X suit la loi L, onnoterax

Plus en détail

Population étudiante en médecine vétérinaire : projections

Population étudiante en médecine vétérinaire : projections Population étudiante en médecine vétérinaire : projections Assemblée Générale des étudiants de Louvain 17 juin 2015 1 Avant-propos Depuis quelques semaines, la question de la surpopulation dans les filières

Plus en détail

La régression logistique

La régression logistique La régression logistique Présentation pour le cours SOL6210, Analyse quantitative avancée Claire Durand, 2015 1 Utilisation PQuand la variable dépendante est nominale ou ordinale < Deux types selon la

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Cours 1: lois discrétes classiques en probabilités

Cours 1: lois discrétes classiques en probabilités Cours 1: lois discrétes classiques en probabilités Laboratoire de Mathématiques de Toulouse Université Paul Sabatier-IUT GEA Ponsan Module: Stat inférentielles Définition Quelques exemples loi d une v.a

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Baccalauréat ES Centres étrangers 12 juin 2014 - Corrigé

Baccalauréat ES Centres étrangers 12 juin 2014 - Corrigé Baccalauréat ES Centres étrangers 1 juin 14 - Corrigé A. P. M. E. P. Exercice 1 5 points Commun à tous les candidats 1. On prend un candidat au hasard et on note : l évènement «le candidat a un dossier

Plus en détail

Introduction à l analyse quantitative

Introduction à l analyse quantitative Introduction à l analyse quantitative Vue d ensemble du webinaire Le webinaire sera enregistré. Les diapositives et tous les autres documents seront envoyés aux participants après la séance. La séance

Plus en détail

Épreuve de mathématiques Terminale ES 200 minutes

Épreuve de mathématiques Terminale ES 200 minutes Examen 2 Épreuve de mathématiques Terminale ES 200 minutes L usage de la calculatrice programmable est autorisé. La bonne présentation de la copie est de rigueur. Cet examen comporte 7 pages et 5 exercices.

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

MATHÉMATIQUES ET SCIENCES HUMAINES

MATHÉMATIQUES ET SCIENCES HUMAINES MATHÉMATIQUES ET SCIENCES HUMAINES B. MARCHADIER Dépendance et indépendance de deux aléas numériques images Mathématiques et sciences humaines, tome 25 (1969), p. 2534.

Plus en détail

Introduction au modèle linéaire général

Introduction au modèle linéaire général Résumé Introductions au modèle linéaire général Retour au plan du cours Travaux pratiques 1 Introduction L objet de ce chapitre est d introduire le cadre théorique global permettant de regrouper tous les

Plus en détail

Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée

Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée Philippe Gagnepain Université Paris 1 Ecole d Economie de Paris Centre d économie de la Sorbonne-UG 4-Bureau 405 philippe.gagnepain@univ-paris1.fr

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Chapitre IV : Couples de variables aléatoires discrètes

Chapitre IV : Couples de variables aléatoires discrètes UNIVERSITÉ DE CERG Année 0-03 UFR Économie & Gestion Licence d Économie et Gestion MATH0 : Probabilités Chapitre IV : Couples de variables aléatoires discrètes Généralités Définition Soit (Ω, P(Ω), P)

Plus en détail

Econométrie. février 2008. Boutin, Rathelot

Econométrie. février 2008. Boutin, Rathelot 5ème séance Xavier Boutin Roland Rathelot Supélec février 2008 Plan Variables binaires La question y = β 0 + β 1 x 1 +...β k x k + u Que se passe-t-il lorsque y est une variable {0, 1} et non plus une

Plus en détail

Méthodologie d échantillonnage et Échantillonneur ASDE

Méthodologie d échantillonnage et Échantillonneur ASDE Méthodologie d échantillonnage et Échantillonneur ASDE Par Michel Rochon L énoncé suivant définit de façon générale la méthodologie utilisée par Échantillonneur ASDE pour tirer des échantillons téléphoniques.

Plus en détail

STATISTIQUES A UNE VARIABLE EXERCICES CORRIGES

STATISTIQUES A UNE VARIABLE EXERCICES CORRIGES STATISTIQUES A UNE VARIALE EXERCICES CORRIGES Exercice n Les élèves d une classe ont obtenu les notes suivantes lors d un devoir : Note 4 5 8 0 4 5 8 0 Effectif 4 7 6 4 ) Déterminer l étendue et le mode

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes IUT HSE Probabilités et Statistiques Feuille : variables aléatoires discrètes 1 Exercices Dénombrements Exercice 1. On souhaite ranger sur une étagère 4 livres de mathématiques (distincts), 6 livres de

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Exercices : Probabilités

Exercices : Probabilités Exercices : Probabilités Partie : Probabilités Exercice Dans un univers, on donne deux événements et incompatibles tels que =0, et =0,7. Calculer,, et. Exercice Un dé (à faces) est truqué de la façon suivante

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

COMPORTEMENT ASYMPTOTIQUE D UNE FILE D ATTENTE À UN SERVEUR

COMPORTEMENT ASYMPTOTIQUE D UNE FILE D ATTENTE À UN SERVEUR Université Paris VII. Préparation à l Agrégation. (François Delarue) COMPORTEMENT ASYMPTOTIQUE D UNE FILE D ATTENTE À UN SERVEUR Ce texte vise à l étude du temps d attente d un client à la caisse d un

Plus en détail

Introduction à la simulation de Monte Carlo

Introduction à la simulation de Monte Carlo Introduction à la simulation de 6-601-09 Simulation Geneviève Gauthier HEC Montréal e 1 d une I Soit X 1, X,..., X n des variables aléatoires indépendantes et identiquement distribuées. Elles sont obtenues

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages

Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages S. Winandy, R. Palm OCA GxABT/ULg oca.gembloux@ulg.ac.be décembre 2011 1 Introduction La Direction Générale Statistique

Plus en détail

Cours et applications

Cours et applications MANAGEMENT SUP Cours et applications 3 e édition Farouk Hémici Mira Bounab Dunod, Paris, 2012 ISBN 978-2-10-058279-2 Table des matières Introduction 1 1 Les techniques de prévision : ajustements linéaires

Plus en détail

Intérêt et limites des estimations sur petits domaines HID «Petits domaines», une opération inhabituelle :

Intérêt et limites des estimations sur petits domaines HID «Petits domaines», une opération inhabituelle : Intérêt et limites des estimations sur petits domaines HID «Petits domaines», une opération inhabituelle : a. Une opération de «production» b. Visant l ensemble des variables d une enquête c. Recherchant

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Master 1 de Psychologie du Travail et des Organisations : Recueil et analyse des données - Corrigés des T.D. ( 2014/2015) -

Master 1 de Psychologie du Travail et des Organisations : Recueil et analyse des données - Corrigés des T.D. ( 2014/2015) - Dominique Ferrieux - Université Paul Valéry - Montpellier III Master de Psychologie du Travail et des Organisations : Recueil et analyse des données - Corrigés des T.D. ( /) - Deuxième partie : Plans :

Plus en détail

TS. 2012/2013. Lycée Prévert. Corrigé du contrôle n 3. Durée : 3 heures. Mardi 20/11/12

TS. 2012/2013. Lycée Prévert. Corrigé du contrôle n 3. Durée : 3 heures. Mardi 20/11/12 TS. 01/013. Lycée Prévert. Corrigé du contrôle n 3. Durée : 3 heures. Mardi 0/11/1 Exercice 1 : ( 6,5 pts) Première partie : Démonstration à rédiger { Démontrer que si ( ) et (v n ) sont deux suites telles

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous StatEnAction 2009/0/30 :26 page #27 CHAPITRE 0 Machines à sous Résumé. On étudie un problème lié aux jeux de hasard. Il concerne les machines à sous et est appelé problème de prédiction de bandits à deux

Plus en détail

Information sur le traitement des notes des élèves

Information sur le traitement des notes des élèves EXTRAITS du GUIDE DE GESTION DE LA SANCTION DES ÉTUDES ET DES ÉPREUVES MINISTÉRIELLES (MÉLS) Les notes finales obtenues pour les matières associées à des épreuves uniques tiennent compte, en général, du

Plus en détail

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini.

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. 1 Introduction Des actions comme lancer un dé, tirer une carte d un jeu, observer la durée de vie d une ampoule électrique, etc...sont

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Analyse de variance à un facteur Tests d hypothèses Analyse de variance à deux facteurs. Analyse de la variance ANOVA

Analyse de variance à un facteur Tests d hypothèses Analyse de variance à deux facteurs. Analyse de la variance ANOVA Analyse de la variance ANOVA Terminologie Modèles statistiques Estimation des paramètres 1 Analyse de variance à un facteur Terminologie Modèles statistiques Estimation des paramètres 2 3 Exemple. Analyse

Plus en détail

Régression de Poisson

Régression de Poisson ZHANG Mudong & LI Siheng & HU Chenyang 21 Mars, 2013 Plan Composantes des modèles Estimation Qualité d ajustement et Tests Exemples Conclusion 2/25 Introduction de modèle linéaire généralisé La relation

Plus en détail

CHÔMAGE ET STRATÉGIES DES FAMILLES : LES EFFETS MITIGÉS DU PASSAGE DE L ASSURANCE-CHÔMAGE À L ASSURANCE-EMPLOI

CHÔMAGE ET STRATÉGIES DES FAMILLES : LES EFFETS MITIGÉS DU PASSAGE DE L ASSURANCE-CHÔMAGE À L ASSURANCE-EMPLOI CHÔMAGE ET STRATÉGIES DES FAMILLES : LES EFFETS MITIGÉS DU PASSAGE DE L ASSURANCE-CHÔMAGE À L ASSURANCE-EMPLOI Édith Martel Université de Montréal Benoît Laplante Institut National de la Recherche Scientifique

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

Recensement de la population

Recensement de la population Recensement de la population Ménages et familles 1. Définition des concepts Un ménage Un ménage regroupe l ensemble des occupants d une résidence principale, qu ils aient ou non des liens de parenté. Un

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

DEPARTEMENT D ETUDES EUROPEENNES ECONOMIQUES

DEPARTEMENT D ETUDES EUROPEENNES ECONOMIQUES DEPARTEMENT D ETUDES EUROPEENNES ECONOMIQUES GUIDE DES ETUDIANTS Ce guide est destiné à vous introduire au fonctionnement du Collège et du Département d études économiques européennes, en présentant les

Plus en détail

Statistiques Appliquées Rôle des femmes dans la société

Statistiques Appliquées Rôle des femmes dans la société Statistiques Appliquées Rôle des femmes dans la société Denis Schelling Semestre d automne 2012 Résumé A partir de données concernant le rôle des femmes dans la société, nous avons effectué une analyse

Plus en détail

Master 1 Informatique Éléments de statistique inférentielle

Master 1 Informatique Éléments de statistique inférentielle Master 1 Informatique Éléments de statistique inférentielle Faicel Chamroukhi Maître de Conférences UTLN, LSIS UMR CNRS 7296 email: chamroukhi@univ-tln.fr web: chamroukhi.univ-tln.fr 2014/2015 Faicel Chamroukhi

Plus en détail

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban EXERCICE 1 : 4 Points Cet exercice est un questionnaire à choix multiples. Aucune justification n est demandée. Pour chacune des questions, une

Plus en détail

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières FONDEMENTS MATHÉMATIQUES 12 E ANNÉE Mathématiques financières A1. Résoudre des problèmes comportant des intérêts composés dans la prise de décisions financières. [C, L, RP, T, V] Résultat d apprentissage

Plus en détail

Sondage stratifié. Myriam Maumy-Bertrand. Master 2ème Année 12-10-2011. Strasbourg, France

Sondage stratifié. Myriam Maumy-Bertrand. Master 2ème Année 12-10-2011. Strasbourg, France 1 1 IRMA, Université de Strasbourg Strasbourg, France Master 2ème Année 12-10-2011 Ce chapitre s appuie essentiellement sur deux ouvrages : «Les sondages : Principes et méthodes» de Anne-Marie Dussaix

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48 Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation

Plus en détail

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Année 2008/2009 1 Décomposition QR On rappelle que la multiplication avec une matrice unitaire Q C n n (c est-à-dire Q 1 = Q = Q T ) ne change

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

La méthode des quotas

La méthode des quotas La méthode des quotas Oliviero Marchese, décembre 2006 1 La méthode des quotas Principe de la méthode Point de départ et but recherché Caractère «intuitif» de la méthode A quoi ressemble une feuille de

Plus en détail

A propos du calcul des rentabilités des actions et des rentabilités moyennes

A propos du calcul des rentabilités des actions et des rentabilités moyennes A propos du calcul des rentabilités des actions et des rentabilités moyennes On peut calculer les rentabilités de différentes façons, sous différentes hypothèses. Cette note n a d autre prétention que

Plus en détail

PROGRAMME D ANALYSE DES INCIDENTS ET DE SENSIBILISATION DU PUBLIC

PROGRAMME D ANALYSE DES INCIDENTS ET DE SENSIBILISATION DU PUBLIC PROGRAMME D ANALYSE DES INCIDENTS ET DE SENSIBILISATION DU PUBLIC Janvier 2014 AVANT-PROPOS Dans un service de sécurité incendie, il y a de nombreuses mesures par lesquelles nous pouvons évaluer l efficacité

Plus en détail

UNE ESTIMATION DU PARC AUTOMOBILE À L AIDE DES DURÉES DE VIE DES VÉHICULES

UNE ESTIMATION DU PARC AUTOMOBILE À L AIDE DES DURÉES DE VIE DES VÉHICULES UNE ESTIMATION DU PARC AUTOMOBILE À L AIDE DES DURÉES DE VIE DES VÉHICULES François JEGER Le parc de véhicules automobiles en service vieillit de trois mois par an depuis 1993 : la durée de vie médiane

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2 Sommaire Sommaire... 1 Introduction... 2 1 Trois différentes techniques de pricing... 3 1.1 Le modèle de Cox Ross Rubinstein... 3 1.2 Le modèle de Black & Scholes... 8 1.3 Méthode de Monte Carlo.... 1

Plus en détail

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS = 7 10 1 + 5 10 2 + 2 10 3

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS = 7 10 1 + 5 10 2 + 2 10 3 8 Systèmes de numération INTRODUCTION SYSTÈMES DE NUMÉRATION POSITIONNELS Dans un système positionnel, le nombre de symboles est fixe On représente par un symbole chaque chiffre inférieur à la base, incluant

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Sommaire des mises à jour au document : Indicateurs de rendement des mathématiques M à 9 de l Alberta

Sommaire des mises à jour au document : Indicateurs de rendement des mathématiques M à 9 de l Alberta Sommaire des mises à jour au document : Indicateurs de rendement des mathématiques M à 9 de l Alberta Ce document présente les mises à jour qui ont été faites au document d appui Indicateurs de rendement

Plus en détail

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

Cours de mathématiques pour la Terminale S

Cours de mathématiques pour la Terminale S Cours de mathématiques pour la Terminale S Savoir-Faire par chapitre Florent Girod 1 Année scolaire 2015 / 2016 1. Externat Notre Dame - Grenoble Table des matières 1) Suites numériques.................................

Plus en détail

Probabilités Loi exponentielle Exercices corrigés

Probabilités Loi exponentielle Exercices corrigés Probabilités Loi exponentielle Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : densité de probabilité Exercice 2 : loi exponentielle de paramètre

Plus en détail

Corrigé du baccalauréat ES Antilles Guyane 24 juin 2015

Corrigé du baccalauréat ES Antilles Guyane 24 juin 2015 Corrigé du baccalauréat ES Antilles Guyane 2 juin 2015 EXERCICE 1 Commun à tous les candidats Aucune justification n était demandée dans cet exercice. 1. La fonction f définie sur R par f (x)= x 3 + 6x

Plus en détail

Loi normale ou loi de Laplace-Gauss

Loi normale ou loi de Laplace-Gauss LivreSansTitre1.book Page 44 Mardi, 22. juin 2010 10:40 10 Loi normale ou loi de Laplace-Gauss I. Définition de la loi normale II. Tables de la loi normale centrée réduite S il y avait une seule loi de

Plus en détail

Cours de Mathématiques Seconde. Généralités sur les fonctions

Cours de Mathématiques Seconde. Généralités sur les fonctions Cours de Mathématiques Seconde Frédéric Demoulin 1 Dernière révision : 16 avril 007 Document diffusé via le site www.bacamaths.net de Gilles Costantini 1 frederic.demoulin (chez) voila.fr gilles.costantini

Plus en détail

Lignes directrices de l AAI sur l éducation 2013

Lignes directrices de l AAI sur l éducation 2013 Lignes directrices de l AAI sur l éducation 2013 1. Le Conseil de l AAI a approuvé le Programme-cadre d études et les Lignes directrices sur l éducation lors de la réunion qui a eu lieu le 6 juin 1998,

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

Faire et analyser un graphique de Bland-Altman pour évaluer la concordance entre deux instruments ou plus

Faire et analyser un graphique de Bland-Altman pour évaluer la concordance entre deux instruments ou plus Faire et analyser un graphique de Bland-Altman pour évaluer la concordance entre deux instruments ou plus Par Marie-Pierre Sylvestre Contexte On désire comparer deux instruments qui mesurent le même concept.

Plus en détail

RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB

RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB PAR : MAROOF ASIM DAN BENTOLILA WISSAM ESSID GROUPE 1 LM206 Lundi 10H45 INTRODUCTION : ( Ce rapport est un compte

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Simulation de variables aléatoires S. Robin INA PG, Biométrie Décembre 1997 Table des matières 1 Introduction Variables aléatoires discrètes 3.1 Pile ou face................................... 3. Loi de

Plus en détail

Questions pratiques 4: Transformer la variable dépendante

Questions pratiques 4: Transformer la variable dépendante Questions pratiques 4: Transformer la variable dépendante Jean-François Bickel Statistique II SPO8 Transformer une variable consiste en une opération arithmétique qui vise à construire une nouvelle variable

Plus en détail

Théorie des graphes. Introduction. Programme de Terminale ES Spécialité. Résolution de problèmes à l aide de graphes. Préparation CAPES UCBL

Théorie des graphes. Introduction. Programme de Terminale ES Spécialité. Résolution de problèmes à l aide de graphes. Préparation CAPES UCBL Introduction Ces quelques pages ont pour objectif de vous initier aux notions de théorie des graphes enseignées en Terminale ES. Le programme de Terminale (voir ci-après) est construit sur la résolution

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

I - Introduction à La psychologie Expérimentale

I - Introduction à La psychologie Expérimentale LA METHODE EXPERIMENTALE I - Introduction à La psychologie Expérimentale I.1. Introduction I.2. Critiques concernant l utilisation de la méthode expérimentale en psychologie I.2.A. Critiques morales I.2.A.

Plus en détail

Principes de Finance

Principes de Finance Principes de Finance 13. Théorie des options II Daniel Andrei Semestre de printemps 2011 Principes de Finance 13. Théorie des options II Printemps 2011 1 / 34 Plan I Stratégie de réplication dynamique

Plus en détail

MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE

MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE Pierre-Louis Gonzalez 1 I INTRODUCTION 1 variable qualitative. Tri à plat. Représentations graphiques. Modélisation : loi binomiale loi multinomiale

Plus en détail