Mémoire. Benjamin Beauregard. Maîtrise en statistiques Maître ès sciences (M.Sc.) Québec, Canada

Dimension: px
Commencer à balayer dès la page:

Download "Mémoire. Benjamin Beauregard. Maîtrise en statistiques Maître ès sciences (M.Sc.) Québec, Canada"

Transcription

1 Comparaison de modèles de régression logistique utilisés pour l analyse de données recueillies dans le cadre d études de type cas-témoins appariés sur le déplacement animal Mémoire Benjamin Beauregard Maîtrise en statistiques Maître ès sciences (M.Sc.) Québec, Canada Benjamin Beauregard, 2013

2

3 Résumé L étude de la sélection des ressources en fonction du déplacement des animaux est un sujet qui intéresse plusieurs chercheurs en écologie, qui cherchent à prédire comment les ressources disponibles influencent le déplacement des animaux dans un environnement hétérogène. Pour ce faire, une stratégie souvent utilisée consiste à comparer les caractéristiques des lieux visités à celles des lieux disponibles mais non visités à différents instants. Comme l étendue du territoire des lieux disponibles est généralement imposant, un échantillonnage aléatoire des lieux non-visités devient pratiquement inévitable. Toutefois, une méthode d échantillonnage non adéquate peut induire un biais dans les inférences. L échantillonnage des lieux non-visités peut se faire selon une étude longitudinale cas-témoins appariée dont la variable réponse prend la valeur 1 dans le cas d une ressource sélectionnée et la valeur 0 dans le cas contraire. Un modèle de régression logistique peut donc être ajusté aux données. L objectif de ce mémoire est d étudier les avantages et les limites de divers modèles de régression logistique, tout particulièrement le modèle à effets mixtes, dans le cadre d études cas-témoins appariées. Une étude de simulation ainsi que l analyse de données réelles nous a permis de comparer les inférences obtenues par le modèle mixte à ceux d un modèle à effets fixes. Les conclusions observables indiquent que les modèles mixtes sont plus performants que les modèles fixes lorsque le type d environnement est "homogène" et "très homogène" avec une faible force de sélection, mais rarement dans d autres situations. iii

4

5 Table des matières Résumé Table des matières Liste des tableaux Liste des figures Remerciements iii v vii ix xi 1 La régression logistique Notation générale Fondements de la régression logistique La régression logistique standard avec données indépendantes La régression logistique conditionnelle avec données indépendantes La régression logistique avec données corrélées Régression logistique conditionnelle avec données corrélées La sélection des ressources Notation Écriture du modèle Fonction de vraisemblance conditionnelle Échantillonnage des lieux témoins Étude de Forester La régression logistique conditionnelle mixte Notation de la régression logistique conditionnelle mixte avec données corrélées Écriture du modèle Hétérogénéité des individus et l influence de l environnement sur la sélection des lieux Estimations des paramètres et inférences Exemple de Duchesne et al. (2010) Discussion Modèle mixte appliqué aux simulations de Forester et al. (2009) Modèle à effets aléatoires Constats Discussion Application d un modèle mixte au jeu de données sur les bisons 43 v

6 5.1 Étude sur les bisons de Craiu et al. (2008) Conclusion 47 Bibliographie 49 A Résultats des simulations 51 B Code R 69 vi

7 Liste des tableaux 1.1 Coefficients de régression obtenus avec la méthode GEE (matrice de corrélation de travail de type "indépendante") Coefficients de régression obtenus avec la méthode GEE par Stokes et al. (2000) (matrice de corrélation de travail de type "non structurée") Résultats du modèle de régression logistique conditionnelle avec la méthode GEE appliqué aux données sur les bisons de Craiu et al. (2008) La fonction de sélection des ressources obtenue avec un modèle à effets fixes par Duchesne et al. (2010). Les intervalles sont à 95% La fonction de sélection des ressources obtenue avec un modèle à effets aléatoires pour le type "terres agricoles" par Duchesne et al. (2010). Les intervalles sont à 95% Résultats de l analyse des données sur les bisons de Craiu et al. (2008), avec une distribution supposée normale pour le coefficient de régression de la variable "prairie" A.1 Exponentiel - β = 0 et paramètre d étendue : 0,1 la moyenne des déplacements observés par Forester et al. (2009) A.2 Exponentiel - β = 0 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.3 Exponentiel - β = 0 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.4 Exponentiel - β = 0 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.5 Exponentiel - β = 0.5 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.6 Exponentiel - β = 0.5 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.7 Exponentiel - β = 0.5 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.8 Exponentiel - β = 0.5 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.9 Exponentiel - β = 1 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.10 Exponentiel - β = 1 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.11 Exponentiel - β = 1 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) vii

8 A.12 Exponentiel - β = 1 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.13 Exponentiel - β = 2 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.14 Exponentiel - β = 2 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.15 Exponentiel - β = 2 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.16 Exponentiel - β = 2 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.17 Weibull - β = 0 et paramètre d étendue : 0,1 la moyenne des déplacements observés par Forester et al. (2009) A.18 Weibull - β = 0 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.19 Weibull - β = 0 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.20 Weibull - β = 0 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.21 Weibull - β = 0.5 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.22 Weibull - β = 0.5 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.23 Weibull - β = 0.5 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.24 Weibull - β = 0.5 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.25 Weibull - β = 1 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.26 Weibull - β = 1 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.27 Weibull - β = 1 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.28 Weibull - β = 1 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) A.29 Weibull - β = 2 et paramètre d étendue : 0.1 la moyenne des déplacements observés par Forester et al. (2009) A.30 Weibull - β = 2 et paramètre d étendue : 1 la moyenne des déplacements observés par Forester et al. (2009) A.31 Weibull - β = 2 et paramètre d étendue : 5 la moyenne des déplacements observés par Forester et al. (2009) A.32 Weibull - β = 2 et paramètre d étendue : 10 la moyenne des déplacements observés par Forester et al. (2009) viii

9 Liste des figures 2.1 Environnements de Forester et al. (2009) Résultats de Forester et al. (2009) ix

10

11 Remerciements Mes remerciements vont à toutes les personnes qui, par leurs encouragements, leur positivisme et leur soutien ont contribué directement ou indirectement à la réalisation de mon mémoire. Je n aurais toutefois pu y parvenir sans l appui et le dévouement constant de mon directeur de maîtrise, monsieur Thierry Duchesne, professeur au Département de mathématiques et de statistique de l Université Laval. Je lui témoigne toute ma reconnaissance et je le remercie pour son entière disponibilité, ses judicieux conseils et sa grande connaissance, qui m ont permis de persévérer tout au long de ma rédaction. De plus, je tiens grandement à remercier les professeurs Louis-Paul Rivest et Claude Bélisle pour leurs nombreuses suggestions qui m ont amené à améliorer globalement le contenu de mon mémoire. Mon mémoire représente une grande réussite personnelle pour laquelle j ai dû concilier mes responsabilités professionnelles et familiales. Je tiens donc à souligner le soutien et la compréhension de ma conjointe Caroline, de mes soeurs, de mes frères ainsi que de mes parents. Ils ont cru en moi. Ils représentent les fondations de mes études supérieures. Je partage avec eux ma fiereté d avoir relevé ce défi. Je remercie particulièrement mon frère Sébastien pour le nombre incalculable de fois où il m a aidé en informatique et en statistique. Je dédie mon mémoire de maîtrise à mes deux fils, Gabriel et Mathis, pour qui j ai une admiration profonde et un amour inconditionnel. xi

12

13 Introduction L étude du comportement des animaux en fonction de leur environnement est un sujet d importance en écologie. L objectif premier est de déterminer l influence qu ont les composantes de l environnement sur les individus, pour lesquels les chercheurs soient mieux en mesure de comprendre les interactions entre l individu et son milieu. Plusieurs chercheurs ont analysé la sélection des ressources selon le déplacement des individus, tels que Forester et al. (2009), Craiu et al. (2008) et Craiu et al. (2011). Une approche populaire est de comparer les caractéristiques des lieux visités par les individus à celles de lieux supposés disponibles, mais non visités (Manly et al. (2002)). Dans ce type d étude, on connait généralement les lieux visités. Par contre, ce n est pas le cas pour les lieux non-visités, pour lesquels un échantillonnage aléatoire est requis. Toutefois, un échantillonnage non adéquat de ces lieux peut induire un biais dans les inférences (Forester et al. (2009)). En attribuant la valeur 1 aux lieux visités et la valeur 0 aux lieux non-visités, un modèle de régression logistique peut être ajusté aux données afin de déterminer les ressources les plus recherchées par les individus. Dans les études de sélection des ressources, un même individu peut être observé à plusieurs reprises. Par conséquent, les données pour ce même individu sont fort probablement corrélées. Par ailleurs, dans ce type d études, les interactions entre l individu et son milieu peuvent être importantes (Boyce et al. (2003)) et l hétérogénéité dans la disponibilité des ressources propre à chacun des individus peut affecter les inférences. Ainsi, dans le cadre d une étude de sélection des ressources où une corrélation intra-individu et une hétérogénéité inter-individus sont probablement existantes, le traitement des données peut nécessiter l emploi d un modèle de régression logistique pouvant traiter les données corrélées. Ce mémoire porte donc sur l association entre la sélection des ressources et le déplacement des individus. Plus spécifiquement, nous illustrons le cheminement statistique qui nous a menés à appliquer un modèle mixte à une étude longitudinale du déplacement animal. Au chapitre 2, la théorie de divers modèles de régression logistique est présentée. Les forces et les faiblesses des modèles quand ils sont utilisés pour les études de sélection des ressources y sont décrites. Des exemples réels d applications sont également détaillés. Le chapitre 3 est entièrement consacré à l étude de Forester et al. (2009). Ces chercheurs ont démontré, 1

14 à partir d une étude de simulation, l importance de bien choisir la méthode d échantillonnage des lieux non visités et de tenir compte de cette méthode dans les inférences. Au chapitre 4, le modèle de régression logistique mixte est introduit. Ce modèle permet de traiter les données corrélées en plus de tenir compte d une variabilité inter-individus dans la sélection des ressources. Comme au chapitre 2, sa théorie ainsi qu un exemple d application sont présentés. L étude de Forester et al. (2009) a démontré l impact sur les inférences d un échantillonnage non adéquat des lieux non-visités. Toutefois, ils n ont pas considéré dans leur analyse une corrélation intra-individu ni une hétérogénéité inter-individus dans la sélection des ressources. Pour cette raison, leur modèle de simulation a été repris, au chapitre 5, afin d ajuster aux données un modèle mixte et de comparer les résultats obtenus avec ce modèle à ceux de leur étude. Au chapitre 6, le modèle mixte a été ajusté au jeu de données réel sur les bisons du Parc national de Prince Albert considéré par Craiu et al. (2008). L objectif est de voir si le modèle mixte s ajuste bien aux données et si les interprétations des coefficients de régression sont modifiées. 2

15 Chapitre 1 La régression logistique Ce chapitre introduit les modèles de régression logistique standard et conditionnel. Ceux-ci sont présentés dans deux contextes différents, soit celui où les données sont indépendantes et celui où les données sont corrélées, comme dans les expériences où plusieurs observations sont recueillies sur une même unité expérimentale. La section 2.1 définit la notation générale employée dans ce chapitre. À la section 2.2, les hypothèses de base sur lesquelles s appuie la régression logistique sont énumérées. La section 2.3 considère la régression logistique standard avec données indépendantes. Après une brève présentation du modèle, on y discute de l estimation des paramètres. La section 2.4 décrit la régression logistique conditionnelle dans le cadre d une étude cas-témoins appariée. Une généralisation de la régression logistique qui tient compte d une corrélation entre les mesures prises sur un même individu est présentée à la section 2.5. La section 2.6 se penche sur la régression logistique conditionnelle avec données corrélées et présente un bref aperçu de la régression logistique conditionnelle mixte. 1.1 Notation générale 1. i représente le i e individu, où i = 1,...,n ; 2. Y i est la valeur pour l individu i de la variable dépendante qui prend comme valeur 1 lors d un succès, 0 lors d un échec ; 3. x i = (1,x i1,...,x ip ) est le vecteur des variables indépendantes de l individu i ; 4. x i j représente la j e variable indépendante du i e individu, où j = 1,..., p ; 5. π i dénote la probabilité de succès (Y i = 1) chez l individu i lors d un essai ; 6. η i est le prédicteur linéaire qui sert à modéliser la moyenne de la variable dépendante en fonction des valeurs des variables indépendantes de l individu i ; 7. β = (β 0,β 1,...,β p ) est le vecteur des coefficients de régression. 3

16 1.2 Fondements de la régression logistique Le modèle de régression logistique est un membre de la famille des modèles linéaires généralisés. Les hypothèses sur lesquelles il s appuie sont les suivantes : 1. Sachant x i, Y i suit une distribution provenant de la famille exponentielle, soit la loi binomiale, Y i Binomiale(m i,π i ) ; dans ce mémoire, nous ne considérons que le cas m i = 1 i. 2. Le prédicteur linéaire est défini par η i = x i β. 3. La fonction de lien donnant la relation entre E[Y i x i ] et le prédicteur linéaire que nous considérons est celle qui est la plus communément utilisée, c est-à-dire la fonction de lien logit : ( ) E[Yi x i ] η i = log E[Y i x i ] = exp(η i) 1 E[Y i x i ] 1 + exp(η i ). (1.1) 1.3 La régression logistique standard avec données indépendantes Le modèle de régression logistique standard avec données indépendantes est souvent utilisé, en pratique, afin d évaluer l impact de facteurs sur une variable réponse binaire. Il se base sur la prémisse que les observations sont indépendantes entre elles Écriture du modèle pour l individu i { 1, si succès Soit Y i = 0, sinon. On définit µ i = E[Y i x i ], où µ i = 0 P[Y i = 0 x i ] + 1 P[Y i = 1 x i ] = P[Y i = 1 x i ] = π i. (1.2) À partir de l équation (1.2) et du lien logit, tel qu exprimé à l équation (1.1), on a que π i = exp(x i β ) 1 + exp(x i β ) = exp(β 0 + β 1 x i1 + + β p x ip ) 1 + exp(β 0 + β 1 x i1 + + β p x ip ). (1.3) Tel qu on peut le déduire de (1.3), les paramètres du vecteur β s interprètent de la façon suivante : 1. Si β j > 0, la probabilité d obtenir un succès, P[Y i = 1 x i ], augmente si x i j croît et que la valeur de toutes les autres variables de x i demeure inchangée. Si β j < 0, la probabilité de succès diminue lorsque x i j augmente et que la valeur de toutes les autres variables de x i reste inchangée. Si β j = 0, alors la variable x i j n a aucun effet sur la probabilité de succès. 2. Si β j = 0, la cote d un succès, représentée par π i /(1 π i ), est multipliée par exp(β j ) si x i j croît d une unité et que la valeur de toutes les autres variables de x i demeure inchangée. À noter que le terme exp(β j ) est le rapport de cotes, soit le quotient de la cote de l événement Y i = 1 lorsque x i j = x + 1 sur cette cote quand x i j = x. 4

17 1.3.2 Estimation des paramètres par la méthode du maximum de vraisemblance Selon l équation (1.3), les paramètres à estimer sont les éléments du vecteur β. La méthode la plus commune pour estimer la valeur de ces paramètres lorsque nous sommes en présence de n observations indépendantes, soit (Y 1,x 1 ),...,(Y n,x n ), est la méthode du maximum de vraisemblance. Elle consiste, en premier lieu, à définir la fonction de vraisemblance, soit la fonction de probabilité conjointe de Y 1,...,Y n. Celle-ci est obtenue à partir de la fonction de probabilité de chaque observation individuelle en considérant l hypothèse que les observations sont indépendantes. La fonction de probabilité pour l observation i est f β (y i ;x i ) = π y i i (1 π i ) 1 y i, y i = 0,1, (1.4) et donc la fonction de probabilité conjointe de l échantillon observé sera L(β;y,x) = n i=1 Il s en suit que la fonction de log-vraisemblance est donnée par l(β;y,x) = log{l(β;y,x)} = = n i=1 n i=1 y i log(π i ) + [ ] π y i i (1 π i ) 1 y i. (1.5) n log(1 π i ) + i=1 n (1 y i )log(1 π i ) i=1 ( πi ) y i log. (1.6) 1 π i La deuxième étape est de calculer la dérivée de la log-vraisemblance, que l on appelle fonction de score : β l(β;y,x) = = = β n i=1 n i=1 n i=1 { ( πi log(1 π i ) + y i log y i x i + β n i=1 ( log(1 π i ) )} 1 π i ) (1.7) (1.8) x i ( y i π i ). (1.9) La transition de (1.7) à (1.8) est la conséquence de log( πi 1 π i ) = η i = x i β. Selon la définition de π i, l équation (1.9) est obtenue en déduisant que log(1 π i ) = log [ 1 1+exp(x i β )]. Pour obtenir les estimateurs, il ne reste qu à poser l équation (1.9) égale à 0, n i=1 x i (y i π i ) = 0, (1.10) et résoudre pour les éléments de β. Sous un lien logit, π i = exp(x i β )/[ 1 + exp(x i β )], l équation (1.10) ne peut se résoudre en β avec une solution analytique. Une méthode itérative, telle que la méthode de Newton, permet de solutionner ce problème (voir les pages 114 à 116 du livre de McCullagh 5

18 et Nelder (1989)). La valeur de β qui maximise (1.5) et qui résout (1.10) est notée β. La variance de β est obtenue en considérant les dérivées secondes de l(β;y,x), soit 2 l(β;y,x) β 2 j = β j n i=1 n x i j i=1 x i j (y i π i ) = n x i j i=1 exp(β x i ) = β j 1 + exp(β x i ) { xi j exp(β } x i ) = x i j (1 + exp(β x i )) 2 = n i=1 x 2 i jπ i (1 π i ) (y i π i ) = β j n x i j i=1 π i β j et, par un raisonnement similaire, 2 l(β;y,x) β j β l = n i=1 x i j x il π i (1 π i ). L élément en position ( j,l) de la matrice d information observée est 2 l(β;y,x)/ β j β l évalué en β = β. On pose l inverse de cette matrice égale à Var( β ), qui est un estimateur convergent de Var( β ) (Hosmer et Lemeshow (2000)). 1.4 La régression logistique conditionnelle avec données indépendantes Plusieurs recherches ont pour objectif l étude du comportement animal dans un environnement hétérogène. Dans les études de Craiu et al. (2008) et Duchesne et al. (2010), à chaque moment préalablement défini, les données du lieu visité par chaque animal ont été recueillies grâce à des colliers GPS. Dans un modèle de régression logistique, ces lieux visités correspondent à un succès (Y i = 1). Pour chacun d entre eux, les caractéristiques géographiques peuvent être compilées, correspondant au vecteur des variables indépendantes x i. Ainsi, à ce stade, nous possédons uniquement l information sur les lieux visités. Aucun modèle de régression ne peut s appliquer aux données, car chacun des lieux a la particularité que Y i égale 1. Afin d obtenir des lieux pour lesquels Y i = 0, nous devons procéder à un échantillonnage de lieux non visités. Pour ce faire, diverses méthodes d échantillonnage seront présentées au chapitre 3. De l information a priori connue introduit un aspect dit "rétrospectif" dans les données. Dans le type d études décrites ci-dessus, la valeur de Y est connue avant même le début de l expérience et ce sont les valeurs de x qui sont aléatoires. Par conséquent, l analyse des données devra se faire par une méthode permettant de considérer de l information a priori connue et le mode d échantillonnage des lieux non visités dans l ajustement du modèle et les inférences sur les éléments de β. Craiu et al. (2008), Duchesne et al. (2010) et plusieurs autres chercheurs qui s intéressent à l étude du comportement animal réalisent donc des études que l on appelle cas-témoins appariées. Ce type 6

19 d étude consiste, dans le cadre de l étude du comportement animal, à échantillonner des lieux pour lesquels Y i = 1 et de les apparier à un ensemble de lieux pour lesquels Y i = 0. On mesure ensuite les valeurs des variables explicatives, x i, des lieux sélectionnés. Nous utiliserons la terminologie suivante. Strate : Une strate est un groupe de lieux appariés. Échantillonnage stratifié 1 : C : Un échantillon stratifié 1 : C est tel que dans toute strate, le nombre de cas (Y = 1) est 1 et le nombre de témoins (Y = 0) est C. Ainsi, sous ce type d échantillonnage, chaque strate compte 1 lieu visité et C lieux non visités, pour un total de C + 1 lieux. Étant donné l information initialement disponible d une étude cas-témoins appariée, l utilisation de méthodes d inférence standards telles que décrites à la section 2.3 pour le modèle de régression logistique ne sont pas appropriées. En effet, ces méthodes ont été développées pour un modèle dit "prospectif" où Y i est aléatoire et x i est fixée, et donc ne permettent pas de tenir compte de l aspect rétrospectif de l échantillonnage des lieux non visités dans l ajustement du modèle et dans l interprétation des β j. Pour nos besoins, nous devrons donc modifier les méthodes d inférence en utilisant une approche dite de régression logistique conditionnelle Notation de la régression logistique conditionnelle 1. k est le numéro de la strate d appariement, où k = 1,...,K ; 2. i représente le i e lieu d une strate, où i = 1,...,n k ; 3. Y k constitue le vecteur des variables dépendantes de la strate k, soit Y k = (Y k1,...,y knk ) ; 4. x ki est le vecteur des variables indépendantes du lieu i de la strate k ; 5. β = (β 1,...,β p ) est le vecteur des coefficients de régression Écriture du modèle La régression logistique conditionnelle fait intervenir le même type de données que la régression logistique standard. En effet, pour le lieu i de la k e strate, on a { 1, lieu i de la strate k est visité Y ki = 0, sinon. Soit (Y ki,x ki ), où x ki = (x ki1,...,x kip ). L hypothèse de base du modèle de régression logistique conditionnelle est que dans l ensemble des lieux disponibles d où les données seront tirées, π ki = P[Y ki = 1 x ki,α k ] = exp(α k + β x ki ) 1 + exp(α k + β x ki ). (1.11) Le terme α k est communément appelé "variable de stratification" ou "effet de strate". Il permet de tenir compte du fait que lorsque des observations sont appariées, les règles d appariement peuvent induire une certaine corrélation entre les observations d une même strate. 7

20 1.4.3 Estimation des paramètres par la méthode du maximum de vraisemblance conditionnelle Dans le contexte où la somme des Y ki est déterminée pour chaque strate avant même de recueillir les données, la méthode qui sera privilégiée pour estimer β sera la méthode du maximum de vraisemblance conditionnelle. La première étape de cette méthode est d obtenir toutes les combinaisons possibles que Y k peut prendre dans une strate, étant donné le mode d échantillonnage. Par exemple, prenons le cas d un modèle stratifié 1 : 2, soit 1 succès et 2 échecs par strate. Voici les valeurs que peut prendre Y k : { (1,0,0) ;(0,1,0) ;(0,0,1) }. En général, avec un plan d échantillonnage stratifié 1 : C, on a que Y k peut prendre C + 1 valeurs possibles, puisque ( ) C + 1 (C + 1)! = = C + 1. (1.12) 1 C!1! La seconde étape consiste à définir la fonction de vraisemblance conditionnelle d une strate pour un modèle stratifié 1 : C. Celle-ci peut s écrire comme étant la probabilité d observer le vecteur (Y k1,y k2,...,y knk ) sachant qu il ne peut y avoir qu un et un seul Y ki = 1 dans ce vecteur. Dénotons par l indice z l une des C + 1 valeurs possibles de Y k. Sans perte de généralité, supposons que la première observation de la strate, Y k1, est celle pour laquelle y = 1, donc Y k = (1,0,...,0). La vraisemblance pour la strate k est donnée par [ L k (β ) = P Y k1 = 1,Y k2 = 0,...,Y knk = 0 x k, C+1 z=1 ] Y kz = 1. (1.13) Dans le cas où C + 1 = 2, l équation (1.13) devient [ 2 ] P Y k1 = 1,Y k2 = 0 x k, Y kz = 1 z=1 = P[Y k1 = 1,Y k2 = 0 x k ] P [ 2 z=1 Y kz = 1 x k ], (1.14) où et P[Y k1 = 1,Y k2 = 0 x k ] = exp(α k + β x k1 ) exp(α k + β x k1 ) 1 + exp(α k + β x k2 ) [ 2 P z=1 ] Y kz = 1 x k = (1.15) exp(α k + β x k1 ) + exp(α k + β x k2 ) [1 + exp(α k + β x k1 )][1 + exp(α k + β x k2 )]. (1.16) En substituant les équations (1.15) et (1.16) dans l équation (1.14) et en réduisant le facteur commun exp(α k ) du numérateur et du dénominateur, on obtient [1+exp(α k +β x k1 )][1+exp(α k +β x k2 )] L k (β ) = exp(β x k1 ) exp(β x k1 ) + exp(β x k2 ). (1.17) Dans le cas général du modèle stratifié 1 : C, l équation (1.17) se généralise et permet d obtenir la fonction de vraisemblance pour la k e strate, L k (β ) = exp(β x k1 ) C+1 z=1 exp(β x kz ). (1.18) 8

21 Finalement, pour obtenir la fonction de vraisemblance pour tout l échantillon en supposant l indépendance entre les strates, il suffit de multiplier toutes les fonctions de vraisemblance des strates individuelles, L(β ) = K k=1 L k (β ) = K k=1 La log-vraisemblance découlant de l équation (1.19) est [ l(β ) = K k=1 β x k1 log exp(β x k1 ) C+1 z=1 exp(β x kz ). (1.19) { C+1 } ] exp(β x kz ) z=1 et la fonction de score est U(β ) = l(β ) [ K β = x k1 C+1 z=1 x ] kz exp(β x kz ) k=1 C+1 z=1 exp(β. (1.20) x kz ) On remarque que le côté droit de l équation (1.20) correspond à la fonction de score de vraisemblance partielle permettant d estimer les coefficients de régression pour un modèle de Cox stratifié (Hosmer et Lemeshow (2000)). Puisque plusieurs logiciels permettent d ajuster un modèle de Cox stratifié, la régression logistique conditionnelle est facile à appliquer en pratique. 1.5 La régression logistique avec données corrélées Fréquemment, dans les études du comportement animal, un même individu est observé à plus d une reprise. Bien que l hypothèse d indépendance entre les individus soit raisonnable, les valeurs de la variable réponse pour un même individu sont fort probablement corrélées. On peut donc s attendre à ce qu une possible corrélation intra-individu existe. Avec des données longitudinales, les inférences des modèles de régression logistique standard et conditionnelle décrites respectivement aux sections 2.3 et 2.4 ne sont pas appropriées. En effet, cellesci se basent sur l hypothèse d indépendance entre les observations et entre les strates. Elles ne permettent donc pas de tenir compte d une possible corrélation intra-individu. Ainsi, les inférences sur les β j pourraient s avérer erronées. Afin de tenir compte de cette possible dépendance, on doit utiliser des modèles de régression logistique pouvant traiter des données corrélées Notation de la régression logistique avec données corrélées 1. n est le nombre d individus de l étude ; 2. Y i représente le vecteur des variables dépendantes du i e individu, soit Y i = (Y i1,...,y ini ), avec j = 1,...,n i, où n i représente le nombre de mesures prises sur l individu i ; 3. le nombre total d observations est défini par n i=1 n i = N ; 4. x i correspond à la matrice des variables indépendantes pour l individu i, où x i = (x i1,...,x ini ) ; 5. µ i j (β ) est l espérance de Y i j sachant x i j pour l individu i. 9

22 1.5.2 Écriture du modèle La présente section introduit la méthode des équations d estimation généralisées (GEE) permettant d effectuer des inférences robustes sur le paramètre β dans la situation où les observations prises sur un même individu sont dépendantes entre elles (Y i j est dépendante de Y i j j = j ). Toutefois, les individus demeurent indépendants entre eux (Y i est indépendant de Y i i = i ). Les équations d estimation généralisées sont utilisées afin que les estimés des β j et leurs estimateurs de variances et covariances tiennent compte d une possible corrélation intra-individu, sans pour autant que l on ait besoin de spécifier correctement cette corrélation. Nous discuterons d une approche basée sur les modèles mixtes qui, elle, implique une modélisation spécifique de la dépendance, au chapitre 4. Nous utilisons une matrice symétrique communément appelée "matrice de corrélation de travail", notée R i (α) et qui est définie ci-dessous, où α est le vecteur des paramètres de corrélation à estimer, 1 corr(y R i (α) = corr(y i x i ) = i1,y i2 x i1,x i2 ) corr(y i1,y ini x i1,x ini )... corr(y i(ni 1),Y ini x i(ni 1),x ini ) 1 L idée est d essayer de spécifier la vraie structure de corrélation des Y i. Dans le cas où nous spécifions une mauvaise structure de corrélation, les inférences sur β seront tout de même valides. Si la structure de corrélation est bonne, alors les inférences seront plus précises. La structure de la matrice de corrélation de travail R i (α) est en lien avec le plan d expérience et le type d association possible entre les observations d un individu. Voici quelques structures communes pour R i (α). 1. La matrice de corrélation ayant la structure de type "indépendante" correspond à l absence de corrélation entre Y i j et Y i j, j = j, R i = La structure de type "échangeable" indique que la corrélation entre deux observations d un même individu est la même et égale à une valeur α pour toute paire d observations, 1 α α... α 1 α... R i (α) = α α

23 3. La structure de type "non structuré" permet à la corrélation entre les observations d un même individu de différer pour toutes les paires d observations, 1 α 1,2... α 1,ni. α 1, R i (α) = αni 1,n i α 1,ni... α ni 1,n i 1 4. La structure "auto-régressive d ordre 1" considère que la corrélation entre deux observations d un même individu diminue de manière géométrique lorsque les observations se distancent ( j j augmente) dans le temps (ou l espace), 1 α... α n i 1. α 1... R i (α) = α α n i 1... α 1 Équations d estimation sous l indépendance Afin d introduire le concept des équations d estimation généralisées, considérons l hypothèse possiblement erronée d indépendance entre les observations d un même individu. Dénotons l estimateur de β sous l hypothèse d indépendance par β ind p. Sous cette hypothèse, on peut définir la matrice de corrélation R i (α) comme étant la matrice de type "indépendante" de taille n i n i. Nous pouvons donc obtenir β ind p en maximisant la fonction de vraisemblance (1.5). Le résultat est la valeur de β qui résout le système d équations suivant : U indep (β ) = n i=1 x i i { Y i µ i (β ) } = 0, (1.21) où i est une matrice diagonale de taille n i n i dont les éléments sur la diagonale sont Θ i j / η i j où j = 1,...,n i et avec Θ i j le paramètre canonique de la famille exponentielle et µ i (β ) = ( µ i1 (β ),..., µ ini (β ) ). Soulignons que le paramètre canonique de la loi binomiale est Θ i j = log ( π i ) 1 π i ; en isolant πi, on obtient exp(θ i j ) = π i 1 π i π i = exp(θ i j) 1+exp(Θ i j. Selon l équation (1.1) de la section 2.2, on trouve que ) Θ i j = η i j, et donc Θ i j / η i j = 1. À partir du système d équations (1.21) et en supposant l hypothèse d indépendance vraie, on peut démontrer que n( β ind p β ) converge en distribution vers la loi normale de moyenne nulle et de variance V = n ( n i=1 x i i A i i x i) 1, (1.22) 11

24 où A i = π i1 (1 π i1 ) π i2 (1 π i2 ) π ini (1 π ini ). Équations d estimation généralisées Le concept d équations d estimation généralisées est en fait une généralisation du système d équations (1.21), où une corrélation intra-individu autre que l indépendance pour R i (α) peut être intégrée. La matrice de variance pour les observations Y i est alors donnée par V i = φa 1/2 i R i (α)a 1/2 i. (1.23) Dans l équation (1.23), les paramètres α et φ (paramètre de surdispersion) sont inconnus. Selon Liang et Zeger (1986), on peut les estimer à partir des résidus de Pearson qui sont définis comme suit : r i j = Y i j µ i j Var(Yi j ) et obtenir l estimé du paramètre φ par φ = 1 N (p + 1) L estimation du paramètre α dépend de la forme choisie pour R i (α). Le lecteur peut, par exemple, n i=1 n i j=1 consulter l aide de la procédure GENMOD de SAS pour voir les formules des estimateurs pour chacune des structures de corrélation mentionnées précédemment. Pour estimer β, on trouve la valeur de β qui résout le système d équations d estimation généralisées U corr (β ) = N i=1 Pour ce faire, on a recours à l algorithme itératif suivant. r 2 i j. (A i i x i ) V 1 { Y i µ i (β ) } = 0. (1.24) i Algorithme de la méthode GEE Soit D i = φa i i x i et V i = φa 1/2 i R i ( α)a 1/2 i. 1. Calculer β ind p et poser β (0) = β ind p. 2. Poser m = Calculer les résidus de Pearson à partir de β (m 1). 4. Estimer α (m) et φ (m) en fonction des résidus de Pearson. 12

25 5. Calculer β (m) à partir de l équation β (m) = β (m 1) + ( N [ D i V i D ) 1 N i D i V 1 { i Y i µ i ( β (m 1) ) }] = 0, i=1 i=1 où D i et V i sont évaluées en β = β (m). 6. Poser m = m + 1. On itère les étapes 2 à 7 jusqu à ce que la différence entre β (m) et β (m 1) soit négligeable et on pose β = β (m). Estimation de la matrice de variances-covariances Une fois β obtenu, il nous est maintenant possible d estimer sa matrice de variances-covariances. Si la matrice R i (α) est correctement spécifiée, la matrice de variances-covariances de β s estime de façon convergente par V t = ( N i=1 ) 1 D i V 1 i D i. Cependant, la matrice R i (α) ne reflète possiblement pas la véritable structure de corrélation de Y i. Pour remédier à ce problème, on corrige, de façon empirique, la matrice V t en prenant l estimateur "sandwich" robuste V s = V t [ N i=1 D i V 1 1 i {Y i µ i ( β )}{Y i µ i ( β )} V i D i ]V t. (1.25) Plus la matrice R i (α) est proche de la vraie matrice, plus les inférences seront efficaces. L estimateur β obtenu par la méthode des GEE est approximativement de loi normale de moyenne β et de variance V s, en autant que la fonction µ i j (β ) soit correctement spécifiée. Ainsi, des inférences de type Wald peuvent être effectuées sur les éléments de β. Par exemple, pour le test H 0 : β = β 0 contre H 1 : β = β 0, on pose w = ( β β 0 ) V 1 s ( β β 0 ) et sous H 0, w suit approximativement une loi du khi-deux à p degrés de liberté Exemple Stokes et al. (2000) Deux traitements contre les troubles respiratoires ont été testés sur n = 111 patients recrutés aléatoirement dans deux centres hospitaliers (Stokes et al. (2000)). Pour chacun des patients, on mesure la variable réponse, soit le statut respiratoire, (0 pour un "mauvais" statut et 1 pour un "bon" statut). Soit y i j la valeur de la variable réponse pour le i e patient à la j e visite où l on mesure le statut respiratoire, j = 1,...,4. À noter que même si la majorité des variables explicatives demeure constante à chaque visite, l indice j a été conservé par souci de cohérence avec la notation employée à la section 5.1. Le vecteur des variables explicatives est donc x i j = (1,x i j1,...,x i j5 ), où, lors de la visite j, x i j1 représente l âge du patient i ; x i j2 est le sexe du patient i (égal à 0 si le patient est un homme, 1 sinon) ; x i j3 13

26 correspond au traitement reçu par le patient i (égal à 0 si le traitement est le placebo, 1 sinon) ; x i j4 indique le statut respiratoire de base du patient i (égal à 0 si le statut respiratoire de base est mauvais, 1 sinon) et x i j5 est l hôpital d où est recruté le patient i (égal à 0 si c est le centre 1, 1 sinon). Un modèle de régression logistique a été considéré et a été ajusté avec la méthode GEE. Voici respectivement la matrice de corrélation de travail de type "non structuré" estimée, R i ( α) ; la matrice des covariances de ˆβ basée sur le modèle, V t et l estimateur "sandwich" robuste, V s, obtenus avec une structure de type "non structuré" tel qu utilisée par Stokes et al. (2000). R i ( ˆα) = V t = V s = Les estimés ˆβ obtenus à partir des matrices de corrélation de travail de type "indépendante" et de type "non structuré" sont présentés respectivement aux tableaux 1.1 et 1.2. À noter que pour le test sur un seul coefficient β i, la statistique du test de Wald (fréquemment dénoté z) est donnée par z = ( β i 0)/(écart-type robuste de β i ) et le seuil observé est 2P[N(0,1) > z ]. D après les estimations des paramètres du vecteur α de la matrice de corrélation de travail de type "non structuré", une corrélation intra-individu semble exister. Toutefois, les valeurs α sont assez rapprochées l une de l autre, pouvant suggérer une structure de type "échangeable". L impact de la corrélation intra-individu semble se refléter dans l estimation de la matrice des covariances de ˆβ. En effet, l estimateur "sandwich" robuste V s et la matrice des covariances de ˆβ basé sur le modèle, V t, affichent des corrélations parfois divergentes. Cependant, cela a eu peu de répercussions sur les estimés ˆβ et 14

27 TABLE 1.1: Coefficients de régression obtenus avec la méthode GEE (matrice de corrélation de travail de type "indépendante") Écart-type Paramètres Estimés Naïf Robuste Statistique de Wald Seuil observé Ordonnée Âge Sexe Traitement Statut de base < Hôpital TABLE 1.2: Coefficients de régression obtenus avec la méthode GEE par Stokes et al. (2000) (matrice de corrélation de travail de type "non structurée") Écart-type Paramètres Estimés Naïf Robuste Statistique de Wald Seuil observé Ordonnée Âge Sexe Traitement Statut de base < Hôpital leur écart-type robuste. De plus, les estimés β et leurs variances-covariances obtenus sous la matrice de corrélation de travail de type "indépendante" sont pratiquement identiques à ceux obtenus avec la matrice de type "non structuré". Par ailleurs, le fait de ne pas corriger les écarts-types pour tenir compte de la corrélation intra-individu aurait mené à une sous-estimation de ceux-ci. Le test de type Wald suggère que le traitement a une influence significative sur le statut respiratoire des patients (variable réponse). Pour cette covariable, la valeur de ˆβ indique que le traitement augmente la probabilité qu un patient ait un "bon" statut. Lorsqu un patient reçoit le traitement, on estime que la cote de succès est multipliée par exp(1.2442) = Régression logistique conditionnelle avec données corrélées Dans le cadre d une étude longitudinale cas-témoins appariée, Craiu et al. (2008) ont observé les déplacements de mêmes animaux à plusieurs reprises et ont comparé les lieux visités à des lieux non visités obtenus en fonction d un échantillonnage stratifié 1 : 10. Contrairement au modèle de régression logistique conditionnelle présenté à la section 2.4, l hypothèse d indépendance entre les strates n était pas raisonnable. En effet, la sélection d un lieu au temps t et celui au temps t +1 risquent d être corrélés pour un même individu. Quant au modèle de régression logistique avec données corrélées décrit à la section 2.5, celui-ci est un modèle "prospectif" ne permettant pas de considérer l information a priori connue lorsque la variable réponse est fixée avant même le début de l échantillonnage. Par 15

28 conséquent, afin de tenir compte à la fois de la dépendance entre les strates d un même individu et de l aspect "rétrospectif" d une étude longitudinale cas-témoins appariée, un modèle de régression logistique conditionnelle avec données corrélées construit avec la méthode des GEE est utilisé. Les avantages de la méthode GEE (variance robuste, estimateurs toujours valides lors d une mauvaise spécification de la matrice de corrélation des observations) peuvent ainsi être exploités Notation pour la régression logistique conditionnelle avec données corrélées 1. n est le nombre d individus de l étude, i = 1,...,n ; 2. K (i) représente le nombre de strates du i e individu, k = 1,...,K (i) ; 3. Y (i) k dénote le vecteur de la variable dépendante de la k e strate du i e individu, où Y (i) k avec l = 1,...,(C + 1) ; 4. X (i) k est la matrice, de taille (C+1) p, des variables indépendantes de la k e strate du i e individu, avec x (i) kl = ( x (i) ) kl1,...,x(i) (i) kl p et X k = { x (1) } k1,...,x(i) kl,...,x(i) k(c+1) Écriture du modèle { Soit Y (i) 1, lieu visité kl = 0, lieu non visité. Le modèle de régression logistique conditionnelle avec données corrélées se base sur les hypothèses suivantes : 1. avant d échantillonner les lieux non visités, on fixe C+1 l=1 Y (i) kl = 1 i,k ; 2. on suppose l indépendance entre les individus. Encore une fois, l indice z représente l une des C + 1 combinaisons possibles, composées d une seule valeur de 1 et de C valeurs de 0, que peut prendre le vecteur Y (i) k. On a que pour une strate ( L (i) k β C+1 l=1 Y (i) kl ) = 1,x (i) kl = exp ( C+1 l=1 β x (i) kl Y (i) ) kl (C+1) z=1 exp ( C+1 l=1 β x (i) kl v(i) zl = ( Y (i) (i) k1,...,y kl,...,y (i) ) k(c+1) ), (1.26) où (C+1) z=1 représente la somme sur tous les vecteurs possibles v z (i) tels que v (c) zl {0,1} et C+1 l=1 v(i) zl = 1. Prenons par exemple le cas d une étude cas-témoins 1 : 2. Les vecteurs possibles de v z (i) sont donc (1,0,0) ; (0,1,0) ;(0,0,1). Afin de pallier à la singularité de la matrice de variances-covariances des Y (i) k linéaire C+1 l=1 Y (i) kl démontré par Craiu et al. (2008). En effet, si l on définit x (i) kl variables explicatives "réduit", alors L (i) k en raison de la contrainte = 1, on peut récrire l équation (1.26) en omettant la première observation, tel que = x (i) kl x (i) k1 avec l = 1, le vecteur des ( (i) ) exp ( C+1 β x kl l=2 β x (i) kl (C+1) z=1 exp ( C+1 Y (i) kl l=2 β x (i) kl ) v (i) ) = L (i) k zl ( β C+1 l=1 Y (i) kl ) = 1,x (i) kl. (1.27) 16

29 1.6.3 Lien avec la méthode GEE L hypothèse de dépendance entre les strates d un même individu fait qu on ne peut obtenir sa contribution à la vraisemblance à partir de l équation (1.27), et donc de définir les équations à résoudre pour estimer β. Néanmoins, commençons par supposer que les strates d un même individu sont indépendantes. De (1.27), on a que pour la log-vraisemblance et la fonction de score avec le vecteur des variables explicatives "réduit" pour l ensemble des individus sont données respectivement par [ ( )] C+1 l (i) (β x (i) kl ) = βx (i) kl Y (i) (C+1) C+1 kl log exp βx (i) kl v (i) zl i,k l=2 z=1 l=2 U (β ) = i,k = i,k [ C+1 i=2 [ C+1 l=2 x (i) kl Y (i) kl (C+1) z=1 x (i) kl (C+1) x kl{y (i) kl où le théorème 1 à la page suivante indique que µ (i) kl µ (i) kl (β )} v (i) zl exp ( C+1 l=2 βx (i) kl z=1 exp ( C+1 l=2 βx (i) kl v (i) ) zl ], v (i) zl )] est l espérance conditionnelle de Y (i) kl. Sous l hypothèse d indépendance entre les strates, le système d équations à résoudre permettant d obtenir β est U (β ) = 0. (1.28) Lorsqu il existe une corrélation entre les strates d un même individu, une meilleure robustesse dans les inférences sur β est requise. Une possibilité est d écrire l équation (1.28) sous la forme des GEE. Il sera donc utile de définir les variables à nouveau : Y = ( Y (1),...,Y (n) ) ( ) où Y (i) = Y (i) (i) 1,...,Y i = 1,...,n K (i) Y (i) k = ( Y (i) (i) ) k2,...,y k(c+1) [ ] C+1 µ(β ) = E Y Y (i) kl = 1;X kl l=1 [ ] µ (i) (β ) = E Y (i) C+1 = 1;X kl, où X kl = { x k1,...,x k(c+1)}. Le théorème qui suit est démontré par Craiu et al. (2008). l=1 Y (i) kl Théorème 1. Soit D (i) = µ (i) (β )/ β la matrice des dérivées du vecteur des moyennes conditionnelles de l individu i de taille { ( )} K(i) k=1 (C + 1) 1 p et V (i) ind pendante = Var[ Y (i) (C+1) l=1 Y (i) kl = 1;X kl]. Alors, U ind pendante (β ) = n i=1 D (i)( { } V (i) ) 1 independante Y (i) µ (i) (β ) (1.29) 17

30 où µ (i) (β ) = (C+1) z=1 v zl exp ( (C+1) l=2 βx kl v ) zl (C+1) z=1 exp ( (C+1) l=2 βx kl v ), zl (1.30) µ (im) (β ) = (C+1) z=1 v zl v zm exp ( (C+1) l=2 βx kl v ) zk (C+1) z=1 exp ( C+1 l=2 βx kl v ) zl i = m. (1.31) et V (i) (i) independante est une matrice bloc diagonale. Les éléments en position (i, j) de V 0, si i et j ne proviennent pas de la même strate V i j = µ i (1 µ i ), si i = j µ i j µ i µ j, i = j, i et j proviennent de la même strate. independante sont La variance robuste de l estimateur β résolvant l équation (1.28), notée V g, est donnée par V g = ( n ) D (i) ( (i) ) 1 1D V (i) ind pendante i=1 { n D (i) ( (i) ) 1 ( V ind pendante Y (i) µ (i) (β ) ) i=1 ( Y (i) µ (i) (β ) ) ( (i) ) 1D V (i) ind pendante } ( n ) D (i) ( (i) ) 1 1D V (i) ind pendante (1.32) i=1 que l on évalue en β= β Exemple de Craiu et al. (2008) L étude des bisons du Parc national de Prince Albert présentée par Craiu et al. (2008) a pour but d investiguer les relations entre la répartition d une population de bisons et les caractéristiques de leur environnement. L expérience a été réalisée sur neuf bisons munis d un collier GPS localisés à chaque heure à raison de deux jours par semaine sur une période de trois mois. Une étude longitudinale cas-témoins appariée a été effectuée, où chaque lieu visité par un bison (Y = 1), par intervalle d une heure, est apparié à 10 lieux non visités (Y = 0). Ces derniers ont été échantillonnés aléatoirement dans un cercle de rayon de 300 mètres centré autour du lieu observé. Ce rayon permet de capturer 85% des distances de l ensemble des déplacements observés. Par ailleurs, les covariables du modèle correspondent aux caractéristiques géographiques de l environnement. En se basant sur une image satellite Landstat TM, la zone à l étude a été subdivisée en 7 catégories : les terres agricoles, les prairies, les regroupements de conifères, les regroupements d arbres à feuilles caduques, les plans d eau, la zone riveraine et les routes. Un modèle de régression logistique conditionnelle avec données corrélées a été retenu pour l analyse afin de respecter l aspect "rétrospectif" de l étude et de considérer la possibilité d une corrélation intra-individu. 18

31 Dans le modèle de régression cas-témoins appariée, les 9 bisons sont représentés par l indice i = 1,...,9. On dénombre au total 624 strates par individu, soit 2 jours 24 heures 13 semaines. Craiu et al. (2008) se sont intéressés aux différents types d habitats des bisons : 7 types d habitats ont été codés avec 6 variables indicatrices avec les regroupements d arbres à feuilles caduques comme catégorie de référence, en plus de la proportion de prairies dans un cercle de 300 mètres ("P300"), une variable continue, et à l interaction entre cette dernière proportion et le type d habitat "Prairies", notée "Prairies_int". Les différents types d habitats ainsi que les variables "P300" et "Prairies_int" constituent le vecteur x des variables indépendantes. La méthode des GEE a été appliquée aux données de Craiu et al. (2008) à l intérieur d un modèle de régression logistique conditionnelle avec données corrélées. La matrice de corrélation de travail de type "indépendante" a été utilisée, tel que suggéré par Craiu et al. (2008). Le tableau 1.3 fournit les résultats du modèle de régression : la 1 re colonne identifie le type d environnement ; la 2 e affiche la valeur des ˆβ j ; la 3 e donne l écart-type des ˆβ j en supposant une corrélation intra-individu nulle ; la 4 e donne les seuils observés obtenus, par le test de Wald sous l hypothèse d indépendance (p-value naive) ; la 5 e est l écart-type des ˆβ j qui considère une corrélation intra-individu et la 6 e colonne donne les seuils observés pour le test de Wald qui utilise l estimateur de la variance robuste (p-value robuste). TABLE 1.3: Résultats du modèle de régression logistique conditionnelle avec la méthode GEE appliqué aux données sur les bisons de Craiu et al. (2008) Variables ˆβ j Var ˆ I ˆβ p-value naive Var ˆ j Robuste ˆβ p-value robuste j P Prairies < < Prairies_int Conifères < < Plans d eau Riverains Zones agricoles < Routes < < Les résultats présenté au tableau 1.3 révèlent que les déplacements des individus ne sont pas totalement aléatoires. Relativement aux regroupements d arbres à feuilles caduques, les bisons sont davantage attirés par les "zones agricoles" et les "routes". Également, la force de sélection des "prairies" diminue lorsque la proportion des prairies ("Prairies_int") est dense à l intérieur du cercle de 300 mètres. De plus, les bisons sont plus attirés par les regroupements d arbres à feuilles caduques que par les "plans d eau", les "conifères" et les "zones riveraines". L interprétation de l attrait des "plans d eau" varie si l on tient compte ou non de la corrélation intraindividu. En effet, le seuil observé "naïf" permet de considérer cette covariable significative au seuil de 10%, ce qui n est pas le cas avec le seuil observé robuste. 19

32 1.6.5 Contrainte d interprétation de β causée par l utilisation de la méthode GEE Tel que discuté aux sections 2.5 et 2.6, la corrélation intra-individu peut être considérée dans les inférences grâce à la méthode GEE. Cependant, cette méthode fournit des estimés des coefficients de régression qui représentent l effet d un changement dans les variables indépendantes sur la valeur moyenne des Y dans la population, soit une approche marginale. De plus, elle ne modélise pas explicitement l hétérogénéité dans le comportement inter-individus. Au chapitre suivant, nous verrons que dans le cas d études du déplacement animal, cette approche marginale possède des lacunes, ce qui nous incitera, au chapitre 4, à introduire une approche conditionnelle basée sur un modèle mixte pour effectuer la régression logistique conditionnelle. 20

33 Chapitre 2 La sélection des ressources La sélection des ressources par un animal se définit en fonction du comportement de ce dernier vis-àvis la disponibilité des ressources à sa disposition. Elle nous renseigne donc sur les ressources les plus recherchées chez l animal. Par exemple, si 50% des localisations observées pour un animal sont dans les marais, mais que les marais ne représentent que 10% de son domaine vital, on pourra conclure que cet animal a une préférence pour ce type d habitat puisqu il s y retrouve plus souvent que ce à quoi on s attendait sous une sélection d habitat aléatoire. Plusieurs études ont analysé ce sujet pour un troupeau d animaux, telle que l étude de Boyce et al. (2003), de même que pour des animaux individuels, par exemple l étude de Craiu et al. (2011). Pour ce faire, elles comparent les lieux visités aux lieux disponibles non visités par chaque individu (Thomas et Taylor (2006)). Ce chapitre discute des études du déplacement des animaux en fonction de la sélection des lieux visités et de l échantillonnage des lieux non visités. De ce fait, il est nécessaire d introduire les concepts de fonction de sélection des ressources et de fonction de sélection des déplacements. Tout d abord, la fonction de sélection des ressources, notée RSF, est proportionnelle à la probabilité qu un lieu soit visité étant donné les caractéristiques qui le composent. Elle permet ainsi de prédire les ressources les plus susceptibles d attirer l animal. Elle se définit ainsi : Définition 2.1. La RSF est proportionnelle à la probabilité que l animal visite un lieu étant donné les caractéristiques de ce lieu ; c est-à-dire qu il exite une constante q telle que RSF = qp[ lieu est visité les caractéristiques de ce lieu]. Quant à la fonction de sélection des déplacements, notée SSF, elle a été introduite par Fortin et al. (2005). Son objectif est d expliquer ou de prédire le déplacement d un animal en incorporant simultanément les caractéristiques du déplacement (angle, distance, énergie à déployer, danger le long du trajet, etc.) et l information sur les ressources disponibles au bout du déplacement. De ce fait, contrairement à la RSF, elle permet de tenir compte des caractéristiques du trajet de déplacement entre deux lieux. 21

34 Les paramètres d une SSF peuvent être estimés à partir d un modèle de régression logistique conditionnelle avec données indépendantes sous un étude cas-témoins appariée en associant à chaque lieu visité plusieurs lieux non visités, aussi appelés "lieux témoins", dans le domaine des lieux disponibles. Forester et al. (2009) présentent trois méthodes d échantillonnage de ces lieux témoins en fonction de l emplacement du lieu visité. Selon l étude de Forester et al. (2009), un échantillonnage non adéquat des lieux témoins peut induire un biais dans l inférence sur les coefficients de régression d une SSF. 2.1 Notation 1. i = 1,...,n dénote l animal ; 2. a indique le lieu où se trouve l animal au temps t ; 3. a 0 indique le lieu où se trouvait l animal au temps t 1 ; 4. b est le prochain lieu visité par l animal au temps t + 1 ; 5. D a représente l ensemble des lieux disponibles que l animal peut visiter à partir du lieu a dans un pas de temps donné, soit le domaine des lieux disponibles ; 6. X représente les caractéristiques d un lieu et constitue le vecteur des variables indépendantes ; 7. H est le nombre de lieux témoins échantillonnés que l animal aurait pu visiter à partir du lieu a ; 8. T i correspond au vecteur des temps où la localisation de l animal i est observée, où T i = (t i1,...,t igi ) avec g = 1,...,G i. 2.2 Écriture du modèle En se basant sur les travaux de Rhodes et al. (2005), pour un animal qui a visité les lieux a 0 et a respectivement aux temps t 1 et t, on peut modéliser la densité de probabilité qu il se trouvera au lieu b ε D a au temps t + 1 par f (b a,a 0,X(b)) = φ(a 0,a,b;θ)ω{X(b);β} lεd a φ(a 0,a,l;θ)ω{X(l);β}dl, (2.1) où X(b) représente les caractéristiques du lieu b. La densité (2.1) est proportionnelle au produit de la RSF, représentée par ω{x(l); β}, et d un noyau de déplacement indépendant des ressources, noté φ(a 0,a,l;θ). Ce dernier décrit le mouvement d un animal dans un environnement homogène en fonction de la distance parcourue et de l angle de pivotement. Il représente ainsi la probabilité qu un animal se déplace du lieu a au lieu b en l absence de sélection de ressources. L hypothèse la plus fréquente consiste à définir la RSF sous une forme log-linéaire, ω{x(b);β} = exp{x(b) β}. (2.2) 22

35 Quant au noyau de déplacement indépendant des ressources, on peut lui attacher une forme paramétrique ou non paramétrique, selon la disponibilité des données ou l état de nos connaissances. Forester et al. (2009) suggèrent une distribution de Weibull de paramètres (ν,λ ), dont la fonction de densité est donnée par le numérateur de l équation (2.3), pour la distance qui sépare le lieu a du lieu b et une loi uniforme sur l intervalle [0, 2π] pour l ange de pivotement, et l indépendance entre l angle et la distance. Cette spécification mène au noyau de déplacement φ(a 0,a,b;θ) = νλ (λr ab) ν 1 exp[ (λr ab ) ν ] 2πr ab, θ = (ν,λ ), (2.3) où r ab correspond à la distance qui sépare le lieu a du lieu b. À noter que Forester et al. (2009) définissent la SSF comme étant le produit de la RSF et du noyau de déplacement, soit le numérateur de l équation (2.1). 2.3 Fonction de vraisemblance conditionnelle Le calcul de la vraisemblance totale permettant d estimer les paramètres β et θ nécessite d évaluer l intégrale au dénominateur de l équation (2.1). Rhodes et al. (2005) mentionnent que cette intégrale risque d être difficile à évaluer si D a est large. Par ailleurs, peu importe l étendue de D a, la résolution de l intégrale requiert l emploi d une méthode numérique pour plusieurs spécifications de φ, ω ou X. La difficulté d évaluation de cette intégrale a amené Forester et al. (2009) à développer une fonction de vraisemblance conditionnelle basée sur un échantillonnage de lieux témoins. À noter qu afin d alléger l écriture de certaines équations, la dépendance sur a 0 sera omise. Pour tenir compte de la méthode d échantillonnage des lieux témoins, on définit un ensembe de lieux non ordonnés s = {l 0,l 1,...,l H } contenant H lieux témoins échantillonnés à l intérieur de D a, où D a D a, selon une méthode d échantillonnage prédéterminée et un lieu visité b autour du lieu de départ a à un pas de temps donné. En fonction de la méthode d échantillonnage, la densité du vecteur s sachant a, b et les caractéristiques de l environnement est donnée par (Forester et al. (2009)) 1 u(s b,a,x) = φ (a,b;κ) (H 1)! φ (a,l;κ), (2.4) lεs où φ correspond à un noyau de déplacement indépendant des ressources, mais dépendant de l angle de pivotement et de la distance à parcourir dénotés par κ. En somme, φ est une distribution connue définie par l utilisateur qui approxime la distribution inconnue φ. 23

36 La probabilité conditionnelle d observer l animal au lieu b sachant s, a et X est donc P[lieu = b s,a,x] = = = = f (b a,x)u(s b,a,x) lεs f (l a,x)u(s l,a,x) (2.5) 1 f (b a,x) φ (a,b;θ) (H 1)! lεs φ (a,l;κ) 1 lεs f (l a,x) φ (a,l;κ) (H 1)! vεs φ (a,v;κ) (2.6) f (b a,x)/φ (a,b;κ) lεs f (l a,x)/φ (a,l;κ) (2.7) φ(a,b;θ)exp{x(b) β}/φ (a,b;κ) lεs φ(a,l;θ)exp{x(l) β}/φ (a,b;κ). (2.8) L équation (2.5) est le résultat du théorème de Bayes impliquant les fonctions de densité du lieu b et de l ensemble des lieux s provenant des équations (2.1) et (2.4). Le passage de l équation (2.6) à l équation (2.7) est dû aux termes communs (H 1)! lεs φ (a,l;κ) du numérateur et de chaque terme du dénominateur. En développant la fonction f ( ) de l équation (2.7), l intégrale sur tout le domaine des lieux disponibles de l équation (2.1) se retrouve au numérateur et au dénominateur, nous permettant ainsi de l annuler afin d obtenir l expression (2.8). Voici une version réorganisée de l équation (2.8) : P[lieu = b;s,a,x] = exp[x(b) β + log{φ(a,b;θ)/φ (a,b;κ)}] lεs exp[x(l) β + log{φ(a,l;θ)/φ (a,l;κ)}]. (2.9) Il est important de choisir D a D a. Si ce n est pas le cas, il peut arriver que le lieu b soit à l extérieur de D a. Par conséquent, φ(a,b;θ)/φ (a,b;κ) devient infinie, car φ = 0. À partir de l équation (2.9), on constate que lorsque que φ est proportionnelle à φ, alors le terme φ(a,b;θ)/φ (a,b;κ) est constant et son log s annule. Dans ce cas, l équation (2.9) se simplifie à P[lieu = b;s,a,x] = exp{x(b) β} lεs exp{x(l) β}, (2.10) ce qui correspond à la vraisemblance de la régression logistique conditionnelle avec données indépendantes pour un échantillonnage de type cas-témoins 1 : H. En effet, l équation (2.10) correspond à l équation de la vraisemblance pour une strate si b ε s (équation (1.18) du chapitre 2) où, pour le lieu b, on a y = 1 et, pour les H lieux témoins, on a y = 0. Par conséquent, considérant le vecteur du temps de déplacement T i de l animal i, β peut être estimé en maximisant la fonction de vraisemblance de la régression logistique conditionnelle pour l ensemble de l échantillon, L(β ) = Π n i=1π G i d=1 exp{x(b id ) β} lεsid exp{x(l) β}, (2.11) où b id et s id sont respectivement les lieux visités et l ensemble des lieux échantillonnés pour l individu i au temps t id. 24

37 Le modèle de régression logistique conditionnelle avec données indépendantes n a cependant pas la propriété de tenir compte dans son inférence du plan d échantillonnage des lieux témoins. Par conséquent, lorsque φ(a,b;θ)/φ (a,b;κ), que nous appellerons le poids d échantillonnage, dépend de la distance à parcourir pour atteindre le lieu b à partir du lieu a, alors l estimateur ˆβ peut être biaisé dû à l impact sur la vraisemblance de φ(a,b;θ)/φ (a,b;κ). Cependant, lorsque φ est connu et que φ est préalablement défini, il est possible d estimer β et θ en incluant le poids d échantillonnage φ(a,b;θ)/φ (a,b;κ) dans l équation (2.11), par exemple sous la forme d un terme d offset log{φ(a,b id ;θ)/φ (a,b id ;κ)} : L(β ) = Π n i=1π G exp[x(b i id ) β + log{φ(a,b id ;θ)/φ (a,b id ;κ)}] d=1 lεsid exp[x(l) β + log{φ(a,l;θ)/φ (a,l;κ)}]. (2.12) 2.4 Échantillonnage des lieux témoins Comme Forester et al. (2009) l ont fait, nous considérons trois modes d échantillonnage des lieux témoins. 1. L échantillonnage uniforme sélectionne de façon aléatoire les lieux témoins à l intérieur d un cercle D a, de rayon r, autour du lieu a. Chaque lieu a la même probabilité de sélection. Par exemple, à partir du lieu a, les lieux témoins pourraient être échantillonnés aléatoirement dans un cercle de rayon v qui inclut 80% des distances parcourues observées chez les animaux. 2. L échantillonnage empirique se base sur la distribution empirique conjointe des distances parcourues et des angles de pivotement observés chez les animaux : on sélectionne avec remise une paire constituée d une distance et d un angle dans l ensemble des déplacements observés chez les individus. 3. L échantillonnage paramétrique se base sur une distribution connue φ (a 0,a,b;κ), avec support D a, qui est régie par le paramètre κ, où D a et κ sont définis par l utilisateur. Le but est de choisir un φ proche de ce que l on croit être φ. Par exemple, φ (a,b;κ) peut être la loi exponentielle ayant comme paramètre κ 1 égal à deux fois la moyenne des distances des déplacements observés combinée à la loi uniforme sur [0,2π] pour les angles Utilisation de la régression logistique conditionnelle avec données indépendantes Bien que l équation (2.12) tienne compte du plan d échantillonnage des lieux témoins, il est toujours possible d utiliser la régression logistique conditionnelle avec données indépendantes, pourvu que le poids d échantillonnage φ/φ ait une forme simple. Par exemple, si φ et φ sont des exponentielles de moyennes respectives (1/θ) et (1/κ), alors log{φ(a,l;θ)/φ (a,l;κ)} = (κ θ)r al +log(θ /κ). Ainsi, l équation (2.12) devient L(β ) = Π n i=1π G i d=1 (θ /κ)exp[x(b id ) β + (κ θ)r al ] lεsid (θ /κ)exp[x(l) β + (κ θ)r al + log(θ /κ)]. 25

38 La distance r al entre le lieu a et le lieu témoin lεs devient une covariable du modèle avec comme coefficient de régression (κ θ), et la constante θ /κ n a aucune influence sur les inférences sur β. Forester et al. (2009) proposent, étant donné la distribution inconnue de φ, de modéliser sous une forme paramétrique et sans hypothèse directe sur φ le rapport φ/φ en tant qu une fonction loglinéaire de r al, log{φ(a,r al ;θ)/φ (a,r al ;κ)} = θr al. (2.13) Des modèles plus riches pour log{φ(a,r al ;θ)/φ (a,r al ;κ)} peuvent être construits en incluant comme covariable r 2 al ou en considérant d autres fonctions non linéaires pour r al. Une autre solution est de faire appel à une fonction spline linéaire sur r al (Harrell (2001)) : log{φ(a,r al ;θ)/φ (a,r al ;κ)} = θ 0 r al + θ 1 (r al τ 1 ) θ H (r al τ q ) +, (2.14) où u + = u si u > 0 et 0 sinon, et les q noeuds τ 1,...,τ q sont spécifiés par l utilisateur, comme par exemple q quantiles de la distribution empirique des distances parcourues. 2.5 Étude de Forester Forester et al. (2009) ont examiné la performance des modèles donnés aux équations (2.13) et (2.14) ainsi que les conséquences d omettre le poids d échantillonnage φ(a,b;θ)/φ (a,b;κ) dans l estimation des paramètres β à partir du modèle de régression logistique conditionnelle avec données indépendantes. Pour ce faire, ils ont simulé le déplacement d animaux sur différentes cartes d environnement, X(b), et sous diverses forces de sélection (différentes valeurs de β). Chaque lieu visité a été apparié à plusieurs lieux témoins dans le cadre d un échantillonnage cas-témoins apparié selon diverses spécifications de φ. Par conséquent, ils ont pu comparer les biais dans les inférences sur β Génération des environnements Afin d analyser le comportement de l animal en fonction des ressources disponibles, quatre environnements ont été générés et ont été représentés sur une carte cartésienne { X(x,y) : x,y = 1,...,1024 }, où X(x, y) est une valeur réelle qui représente une caractéristique du lieu ayant les coordonnées (x, y). Les ressources disponibles X(x, y) sur ces cartes ont été simulées selon un champ aléatoire gaussien (Gaussian random field, GRF) de moyenne 0 et de variance 1 basé sur une fonction de covariance exponentielle (Stein (1999)) ayant comme paramètre d étendue (0.1; 1; 5 et 10) fois la moyenne des distances parcourues (µ = 21) du noyau de déplacement indépendant des ressources. Les quatre environnements montrant les valeurs de X(b) sont présentés à la figure 2.1. On remarque que plus le paramètre d étendue est élevé, plus les regroupements d une même ressource sont visibles (l environnement devient plus homogène). 26

39 F IGURE 2.1: Les quatre environnements utilisés par Forester et al. (2009) pour leurs simulations. Le paramètre d étendue de chaque environnement est (0.1, 1, 5 et 10) fois la moyenne des distances parcourues Modèle de déplacement Une fois les environnements générés, il faut simuler les déplacements de l animal à partir de l un des deux noyaux de déplacement illustrés aux équations (2.15) et (2.16) et selon l un des quatre degrés, β = {0; 0.5; 1; 2}, de sélection de la ressource X de la RSF (équation (2.2)). Le premier noyau de déplacement est donné par φ1 (a, b) = λ1 exp( λ1 rab ), 2πrab (2.15) et le second est donné par ν1 λ2 (λ2 rab )ν1 1 exp{ (λ2 rab )ν1 } 2πrab ν2 λ3 (λ3 rab )ν2 1 exp{ (λ3 rab )ν2 } + 0, 29. 2πrab φ2 (a, b) = 0, 71 (2.16) Les paramètres de φ1 et φ2 ont été déterminés par Forester et al. (2009). Ils les ont choisis de telle sorte que la distance moyenne entre le lieu a et le lieu b soit d environ 21 unités sur la carte. Plus précisément, ils ont choisi λ1 = 1/21, λ2 = 1/14, λ3 = 1/42, ν1 = 1, 22 et ν2 = 1,

40 Pour simuler un déplacement du lieu a au lieu b, 2000 lieux tirés d une distribution centrée au lieu a ont été échantillonnés. Les coordonnées cartésiennes de ces lieux sont calculées ainsi : p x = a x + r p sin(u p ) et p y = a y + r p cos(u p ), où (a x,a y ) sont les coordonnées du lieu a, (p x, p y ) sont les coordonnées du lieu simulé p, r p est la distance à parcourir entre les lieux a et p suivant la fonction de densité φ p (r p ) = λ l exp( λ l r p ) avec λ l = 1/45 et u p est un tir provenant d une distribution uniforme sur [0,2π). Le lieu b est tiré parmi ces 2000 lieux avec probabilité d échantillonnage P(b) = φ(a, p)ω{x(p)}/φ p (r p ) p εp φ(a, p )ω{x(p )}/φ p (r p). (2.17) Rappelons que ω{x(p)} est la fonction de sélection des ressources et que, selon l équation (2.2), ω{x(p)} = exp{x(p)β} où β est un scalaire pouvant prendre comme valeur (0, 0.5, 1, 2) et X peut représenter, par exemple, la biomasse disponible à une localisation ou la présence d un prédateur. Un lieu de départ pour chacun de 100 animaux a été choisi aléatoirement dans un carré au centre de la carte et dont la superficie est 1/9 de celle de la carte. Pour chaque animal, 30 déplacements basés sur le modèle (2.17) sont simulés. Ce procédé a été répété 1000 fois. En somme, la simulation de Forester et al. (2009) est basée sur 1000 réplicats de 3000 déplacements chacun Analyse Pour chaque réplicat, un modèle cas-témoins apparié 1 : 20 sous les trois méthodes d échantillonnage des lieux témoins (uniforme, empirique et paramétrique) est appliqué. Après avoir généré trois ensembles de lieux témoins pour chaque lieu visité par animal, un modèle de régression logistique conditionnelle avec données indépendantes est ajusté à chacun des 1000 échantillons de la simulation. Trois modèles sont utilisés : 1. Modèle nul (sans tenir compte de la distance) : w{x(l)} = exp{β x X(l)} 2. Modèle distance (fonction linéaire de la distance ; réfère au modèle (2.13)) : w{x(l)} = exp{β x X(l)+ β al r al } 3. Modèle spline (fonction non linéaire de la distance ; réfère au modèle (2.14)) : w{x(l)} = exp{β x X(l) + θ 1 (r al τ q1 ) + + θ 2 (r al τ q2 ) + + θ 3 (r al τ q3 ) + } où q j est le j e quartile de la longueur des déplacements observés pour un réplicat donné Constats L étude de Forester et al. (2009) a permis de démontrer que le type d échantillonnage des lieux témoins et le modèle utilisé peuvent influencer le biais et la variabilité de l estimateur ˆβ x. L échantillonnage uniforme produit des estimateurs biaisés lorsque β x = 0. Le biais est réduit sous le modèle "distance". De plus, par rapport aux deux autres méthodes d échantillonnage, les estimateurs obtenus ont une plus grande variabilité. Toutefois, l échantillonnage uniforme identifie bien l absence de sélection des ressources quand β x = 0. 28

41 L échantillonnage empirique produit des estimateurs biaisés lorsque la valeur de β x est grande. Ce biais est moindre sous le modèle "spline". Ainsi, lorsque β x = 2 les modèles "nul" et "distance" donnent des estimateurs biaisés, spécialement dans le cas où l environnement est très hétérogène (paramètre d étendue petit), car φ s éloigne de φ. Lorsque β x 1, alors les estimateurs sont peu biaisés. L échantillonnage empirique est optimal lorsque β x = 0, car dans ce cas φ = φ. L échantillonnage paramétrique fournit des estimateurs avec un biais plus important que l échantillonnage empirique lorsque β x est grand. Toutefois, ce biais est largement réduit sous les modèles "distance" et "spline" en autant que, pour ce dernier, φ suive une distribution exponentielle. Ceci est également vrai lorsque β x = 2 et que le paramètre d étendue est élevé : le modèle "distance" produit des estimés acceptables ainsi que le modèle "spline" lorsque φ est exponentielle. Dans le cas où β x 1 et que φ suit une distribution exponentielle, alors les modèles "distance" et "spline" perfoment bien étant donné que log{φ/φ } est exact. Pour tous les modèles, l échantillonnage paramétrique permet de bien identifier l absence de sélection des ressources quand β x = 0. En résumé, l échantillonnage uniforme produit particulièrement des estimateurs biaisés. Cela pourrait s expliquer, en partie, par le choix arbitraire du rayon du cercle centré au lieu a qui ne pourrait pas être approprié pour contenir l ensemble des déplacements potentiels. Les échantillonnages empirique et paramétrique évitent à l utilisateur de définir arbitrairement le territoire des lieux disponibles. De plus, ils performent mieux que l échantillonnage uniforme. Toutefois, un biais plus élevé est observé lorsque β x est grand. Généralement, ce biais peut être réduit en considérant les modèles "distance" et "spline". À noter que les résultats des simulations de Forester et al. (2009) sont présentés à la figure Extension du modèle Forester et al. (2009) utilisent un modèle de régression logistique conditionnelle avec données indépendantes, tel que vu à la section 2.4 du chapitre 2. Cependant, ce type de modèle ne permet pas de tenir compte de la corrélation intra-individu qui pourrait découler du fait que chaque individu n a pas accès aux mêmes types d habitats. Également, les inférences sont marginales sur Y et ne permettent peut-être donc pas de considérer de potentielles interactions entre l individu et son milieu. Tel que mentionné à la section du chapitre 2, le chapitre 4 introduit le modèle multinomial mixte qui permettra d inférer au niveau de l individu tout en tenant compte de la corrélation intra-individu. 29

42 FIGURE 2.2: Les résultats des simulations de Forester et al. (2009) pour les 1000 réplicats sont présentés de la façon suivante : l axe des abscisses représente la valeur du paramètre d étendue, l axe des ordonnées situé à droite indique les valeurs de β à estimer, l axe des ordonnées situé à gauche donne l écart entre ˆβ et β. L entête de chaque colonne indique le modèle et la méthode d échantillonnage des lieux témoins utilisés. Les graphiques a) et b) présentent les résultats pour des déplacements simulés respectivement sous le noyau exponentiel et un mélange de lois de Weibull. 30

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1 Introduction Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1 L auteur remercie Mme Sylvie Gervais, Ph.D., maître

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Le modèle de régression linéaire

Le modèle de régression linéaire Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L économétrie traite de la construction de modèles. Le premier point de l analyse consiste à se poser la question : «Quel est le modèle?». Le

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Journées de Méthodologie Statistique Eric Lesage Crest-Ensai 25 janvier 2012 Introduction et contexte 2/27 1 Introduction

Plus en détail

Correction de l examen de la première session

Correction de l examen de la première session de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne 2012. charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne 2012. charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free. Actuariat I ACT2121 septième séance Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.blog.free.fr/ Automne 2012 1 Exercice 1 En analysant le temps d attente X avant un certain événement

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

Résumé des communications des Intervenants

Résumé des communications des Intervenants Enseignements de la 1ere semaine (du 01 au 07 décembre 2014) I. Titre du cours : Introduction au calcul stochastique pour la finance Intervenante : Prof. M hamed EDDAHBI Dans le calcul différentiel dit

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Processus aléatoires avec application en finance

Processus aléatoires avec application en finance Genève, le 16 juin 2007. Processus aléatoires avec application en finance La durée de l examen est de deux heures. N oubliez pas d indiquer votre nom et prénom sur chaque feuille. Toute documentation et

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Que faire lorsqu on considère plusieurs variables en même temps?

Que faire lorsqu on considère plusieurs variables en même temps? Chapitre 3 Que faire lorsqu on considère plusieurs variables en même temps? On va la plupart du temps se limiter à l étude de couple de variables aléatoires, on peut bien sûr étendre les notions introduites

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Cours 02 : Problème général de la programmation linéaire

Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin. Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).

Plus en détail

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes IUT HSE Probabilités et Statistiques Feuille : variables aléatoires discrètes 1 Exercices Dénombrements Exercice 1. On souhaite ranger sur une étagère 4 livres de mathématiques (distincts), 6 livres de

Plus en détail

Probabilités conditionnelles Loi binomiale

Probabilités conditionnelles Loi binomiale Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Calculer avec Sage. Revision : 417 du 1 er juillet 2010 Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation

Plus en détail

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRISE EN ÉCONOMIE PAR MATHIEU SISTO NOVEMBRE

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

Chapitre 2/ La fonction de consommation et la fonction d épargne

Chapitre 2/ La fonction de consommation et la fonction d épargne hapitre 2/ La fonction de consommation et la fonction d épargne I : La fonction de consommation keynésienne II : Validations et limites de la fonction de consommation keynésienne III : Le choix de consommation

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. Pré-requis : Probabilités : définition, calculs et probabilités conditionnelles ; Notion de variables aléatoires, et propriétés associées : espérance,

Plus en détail

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé Baccalauréat S/L Métropole La Réunion 13 septembre 2013 Corrigé A. P. M.. P. XRCIC 1 Commun à tous les candidats Partie A 1. L arbre de probabilité correspondant aux données du problème est : 0,3 0,6 H

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Théorie des sondages : cours 5

Théorie des sondages : cours 5 Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce

Plus en détail

Probabilités Loi binomiale Exercices corrigés

Probabilités Loi binomiale Exercices corrigés Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE BACCALAURÉAT GÉNÉRAL SESSION 2012 MATHÉMATIQUES Série S Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE Les calculatrices électroniques de poche sont autorisées, conformément à la

Plus en détail

Exercices Corrigés Premières notions sur les espaces vectoriels

Exercices Corrigés Premières notions sur les espaces vectoriels Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

Représentation géométrique d un nombre complexe

Représentation géométrique d un nombre complexe CHAPITRE 1 NOMBRES COMPLEXES 1 Représentation géométrique d un nombre complexe 1. Ensemble des nombres complexes Soit i le nombre tel que i = 1 L ensemble des nombres complexes est l ensemble des nombres

Plus en détail

Analyse des durées de vie avec le logiciel R

Analyse des durées de vie avec le logiciel R Analyse des durées de vie avec le logiciel R Ségolen Geffray Des outils ainsi que des données pour l analyse des durées de vie sont disponibles dans les packages survival MASS Il est nécessaire de charger

Plus en détail

Correction du baccalauréat ES/L Métropole 20 juin 2014

Correction du baccalauréat ES/L Métropole 20 juin 2014 Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

ANNUITES. Les annuités définissent une suite de versements identiques ou non effectués à intervalles de temps égaux. -annuités non constantes

ANNUITES. Les annuités définissent une suite de versements identiques ou non effectués à intervalles de temps égaux. -annuités non constantes ANNUITES I Notions d annuités a.définition Les annuités définissent une suite de versements identiques ou non effectués à intervalles de temps égaux. Le processus de versements dépend du montant de l annuité,

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Le Modèle Linéaire par l exemple :

Le Modèle Linéaire par l exemple : Publications du Laboratoire de Statistique et Probabilités Le Modèle Linéaire par l exemple : Régression, Analyse de la Variance,... Jean-Marc Azaïs et Jean-Marc Bardet Laboratoire de Statistique et Probabilités

Plus en détail

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre 2001. Student Assessment and Program Evaluation Branch

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre 2001. Student Assessment and Program Evaluation Branch Principes de mathématiques 12 SÉRIE DE PROBLÈMES Septembre 2001 Student Assessment and Program Evaluation Branch REMERCIEMENTS Le Ministère de l Éducation tient à remercier chaleureusement les professionnels

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr Introduction à la théorie des files d'attente Claude Chaudet Claude.Chaudet@enst.fr La théorie des files d'attente... Principe: modélisation mathématique de l accès à une ressource partagée Exemples réseaux

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

Oscillations libres des systèmes à deux degrés de liberté

Oscillations libres des systèmes à deux degrés de liberté Chapitre 4 Oscillations libres des systèmes à deux degrés de liberté 4.1 Introduction Les systèmes qui nécessitent deux coordonnées indépendantes pour spécifier leurs positions sont appelés systèmes à

Plus en détail

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie.

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie. Résumé L expansion du secteur de la technologie de l information et des communications (TIC) a rendu nécessaire un plus grand nombre d indicateurs économiques propres à ce secteur. La Division des prix

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Modélisation de la dépendance entre les garanties applicables en assurance automobile

Modélisation de la dépendance entre les garanties applicables en assurance automobile RICHARD VERMETTE Modélisation de la dépendance entre les garanties applicables en assurance automobile Mémoire présenté à la Faculté des études supérieures de l Université Laval dans le cadre du programme

Plus en détail

Licence MASS 2000-2001. (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Licence MASS 2000-2001. (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7 Feuilles de 1 à 7 Ces feuilles avec 25 exercices et quelques rappels historiques furent distribuées à des étudiants de troisième année, dans le cadre d un cours intensif sur deux semaines, en début d année,

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail