4 MESURES STATISTIQUES EN ÉPIDÉMIOLOGIE Pour étudier la répartition d'une maladie et les différentes circonstances qui entourent son apparition et son développement au sein d'une population, l'épidémiologiste est appelé à regarder un certain nombre de variables descriptives, souvent assez fortement reliées au problème considéré. Le choix de variables se fait en tenant compte de leur pertinence vis-à-vis les objectifs de l'étude envisagée. VARIABLES EN ÉPIDÉMIOLOGIE Les variables en épidémiologie peuvent être regroupées suivant les trois aspects qui permettent de caractériser la maladie: les personnes atteintes, le lieu et le moment où elles ont été atteintes. On trouve donc les trois grandes familles de variables en épidémiologie : les variables de personnes, les variables de lieux et les variables (ou, pour mieux dire, la variable) de temps. Variables de personnes Les variables de personnes réfèrent aux attributs anatomiques, physiologiques, sociaux ou culturels. Les plus fréquemment utilisées en épidémiologie sont l'âge, le sexe, l'état civil, les habitudes de vie, l'occupation et le niveau socio-économique. On tient compte de certaines variables de personnes en épidémiologie pour les raisons suivantes : L'étude de la variation de la fréquence d'une maladie suivant certaines variables de personnes peut permettre de mieux comprendre les facteurs responsables de cette maladie. L ' association entre certaines de ces variables et la maladie peut voiler le rôle d'autres facteurs. L'effet d'autres facteurs peut être modifié par la présence de certaines caractéristiques de personnes. Une bonne description de la maladie suivant les caractéristiques de personnes permet généralement de mieux identifier l'intervention préventive ou curative à entreprendre. Variables de lieux L'étude de la répartition géographique de la fréquence d'une maladie suscite toujours l'intérêt de 1'épidémiologiste. La fréquence d'une maladie peut varier suivant le pays ou la région, le climat ou selon que la population habite dans une zone urbaine ou rurale. Variables de temps De façon générale, la fréquence de la maladie varie avec le temps. Par exemple, la fréquence du cancer du poumon a fortement augmenté au cours des trente dernières années. La grippe est un phénomène saisonnier. La durée est aussi une caractéristique de la maladie qui permet de marquer sa gravité et son évolution. Le temps, comme variable présente à tout phénomène, est donc un élément nécessaire à la définition des mesures épidémiologiques et une composante de base du concept de cause.
NOTIONS PRÉALABLES 5 VARIABLES SUR UN PLAN FORMEL Chaque variable considérée doit être clairement définie; certaines, comme le sexe, le sont d'emblée. Mais aura-t-on retenu le niveau socioéconomique comme variable dans une étude qu'il faudra la définir explicite- ment. On écartera ainsi toute ambiguïté dans la compréhension des variables, ce qui est indispensable à la clarté d'une étude, qu'elle soit médicale, épidémiologique ou de santé publique. Mais, formellement, qu'est- ce qu'une variable? Variable (ce qui peut varier) On appelle variable tout caractère sujet à prendre des états différents suivant les individus, le temps ou le lieu d'observation. Ainsi en est-il, par exemple, du sexe, de l'âge, du groupe sanguin, de la tension artérielle, du nombre de lits par hôpital, de la durée d'hospitalisation. Tout état possible que peut prendre le caractère étudié est une valeur pour une variable. A est une valeur pour la variable groupe sanguin, 420 une valeur pour le nombre de lits dans un hôpital. Une variable qui ne prend que deux valeurs est dite dichotomique ou binaire. C'est le cas du sexe: masculin, féminin; ou du fait de fumer: oui, non. Classification des variables Les variables ne sont pas toutes de même nature. Elles se distinguent d'abord par la nature numérique ou non de leurs valeurs, ensuite par le fait que leurs valeurs sont de nature isolée ou non les unes par rapport aux autres. Ces distinctions que nous faisons ici entraînent la classification des variables en variables quantitatives ou qualitatives, discrètes ou continues, comme l'illustre la figure 1-1. VARIABLE QUANTITATIVE Une variable est quantitative si les valeurs qu'elle prend sont d'emblée de nature numérique, des quantités. On distingue les variables quantitatives en variables discrètes et en variables continues. Une variable quantitative est discrète lorsque ses valeurs sont des quantités isolées, séparées les unes des autres. Elles sont isolées en ce sens qu'entre deux valeurs quelconques observables de la variable, il existe toujours une valeur nonobservable. La variable «nombre d'enfants par famille» prend les valeurs 0, 1, 2, 3, 4, etc. Entre les valeurs observables 3 et 4, il existe au moins une valeur non-observable, comme 3,1. Une famille peut avoir 3 ou 4 enfants, mais non 3,1 enfants. Le nombre d'enfants par famille
6 MESURES STATISTIQUES EN ÉPIDÉMIOLOGIE prend des valeurs isolées. C'est une variable quantitative discrète. Les valeurs d'une telle variable sont connues ou obtenues par dénombrement. Une variable quantitative est continue lorsque ses valeurs sont n'importe quelle quantité dans un certain intervalle. Cela veut dire que toute valeur entre deux valeurs observables quelconques de la variable est théoriquement observable. C'est le cas, par exemple, de la taille des individus. Toute valeur entre les deux valeurs observables 173 et 174 cm, par exemple, est théoriquement observable. La taille exacte d'un individu peut être 173,1 cm, pour un autre 173,14 cm, etc. Toutes les valeurs dans un certain intervalle sont possibles. La taille est une variable quantitative continue. Les valeurs d'une telle variable sont connues ou obtenues par un procédé de mesure au sens strict. VARIABLE QUALITATIVE Une variable est qualitative si les valeurs qu'elle prend correspondent à des qualités, des attributs. Ainsi en est-il du sexe (masculin, féminin), du groupe sanguin (A, B, AB, O), du stade d'un cancer (I, II, III, IV). La variable qualitative est de nature discrète. Il est utile de savoir reconnaître si une variable est qualitative ou quantitative, discrète ou continue. Le choix des instruments de description statistique et de mesure d'une variable dépend de la nature de celle-ci. Par exemple, on calculera volontiers la moyenne arithmétique des valeurs d'une variable quantitative discrète ou continue, comme la moyenne d'enfants par famille ou la tension artérielle systolique moyenne. Pour une variable qualitative, on calculera plutôt une proportion, comme la proportion d'individus de groupe sanguin A. CLASSEMENT DES OBSERVATIONS Le classement des observations faites sur les individus est la première étape à franchir pour organiser des données statistiques. Pour une variable donnée, les observations référant à une même valeur (ou ensemble de valeurs) sont regroupées dans une même classe (ou catégorie) définie par cette ou ces valeurs. Pour l'âge, par exemple, toutes les observations qui donnent 34 ans comme valeur peuvent être regroupées dans la classe 34 ans. Ou encore, dans la définition de classes plus larges, toutes les observations qui réfèrent à une valeur se situant entre 30 et 34 ans inclusivement peuvent être regroupées dans la classe 30-34 ans. Une classe réfère donc à une valeur ou à un regroupement de valeurs contiguës d'une variable. Échelle de classification Pour une variable donnée, l'ensemble des classes (ou catégories) définit ce que l'on appelle une échelle de classification. Les quatre classes (A, B, AB, O) constituent une échelle de classification pour le groupe sanguin. Les classes 40 kilos et moins, 40-49, 50-59, 60-69, 70-79 et 80 kilos et plus forment une échelle de classification possible pour le poids. Une échelle de classification doit permettre de classer toutes les observations, chacune ne pouvant être classée que dans une catégorie. Ainsi, pour qu'un classement des observations soit correct, les classes de l ' échelle doivent satisfaire les deux conditions suivantes:
NOTIONS PRÉALABLES 7 Elles doivent être mutuellement exclusives. Chaque individu ou encore chaque observation de la variable ne peut appartenir qu'à une seule classe. Les classes d'âge 1-5 ans, 5-15, 15-25, et 25 ans et plus ne sont pas mutuellement exclusives, car l'individu de 15 ans appartient à plus d'une classe (ici à deux); par contre, les classes 1-4 ans, 5-14, 15-24, et 25 ans et plus le sont. Elles doivent être collectivement exhaustives. Chaque individu ou encore chaque observation de la variable doit appartenir à une classe. Les deux classes A et O du groupe sanguin ne sont pas collectivement exhaustives, car un individu peut n'appartenir à aucune de ces deux classes. Pour certaines variables, comme le sexe, l'investigateur n'a aucune liberté quant au choix de l'échelle de classification, tandis que pour d'autres, plusieurs possibilités s'offrent à lui, d'aucunes étant jugées plus pertinentes. Veut-on uniquement distinguer les fumeurs des non-fumeurs ou cherche-t-on aussi à séparer les petits fumeurs des gros fumeurs? En tout cas, une échelle doit satisfaire les deux propriétés fondamentales qui sont les caractères d'exclusivité et d'exhaustivité de leurs classes. Le choix, l'adoption ou la construction d'une échelle de classification sont la base de l'organisation des données statistiques. Types d'échelles En distinguant les variables quantitatives et qualitatives, discrètes et continues, on peut répartir les échelles de classification suivant essentiellement quatre types. ÉCHELLE NOMINALE Dans une échelle nominale, les classes ne sont que nommées. Ainsi en est-il pour le sexe (masculin, féminin), le groupe sanguin (A, B, AB, O) ou le diagnostic de sinusite aiguë (sinusite maxillaire aiguë, frontale aiguë, autres sinusites aiguës). ÉCHELLE ORDINALE Dans une échelle ordinale, il existe une relation d'ordre entre les classes. C'est le cas pour l'échelle relative à l'évolution de l'état de santé d'un patient: amélioration, stabilité, détérioration. C'est le cas aussi pour le degré de satisfaction face aux soins dispensés par un service de santé: peu, moyennement, très satisfait. ÉCHELLE PAR INTERVALLE Dans une échelle par intervalle, il existe une notion de distance entre les valeurs. Mentionnons, à titre d'exemples, l'échelle moins de 0 C, 0-9, 10-19, 20-29, et 30 C et plus pour la température (climat) ou l'échelle 0-4 ans, 5-14, 15-24, 25-34, et 35 ans et plus pour l'âge. Si des individus appartiennent à la classe d'âge 15-24 ans, d'autres à la classe 25-34 ans, on peut dire que leur différence (distance) d'âge est en moyenne de dix ans. ÉCHELLE PROPORTIONNELLE Dans une échelle proportionnelle, la notion de rapport entre les grandeurs existe. Pour deux personnes, âgées respectivement de 30 et 10 ans, on peut dire que la première a vingt ans de plus que la seconde, mais on peut dire aussi
8 MESURES STATISTIQUES EN ÉPIDÉMIOLOGIE qu'elle est trois fois plus âgée. L'échelle pour l'âge est non seulement par intervalle mais aussi proportionnelle. L ' échelle pour la température moins de 0 C, 0-9, 10-19, 20-29 et 30 C et plus est une échelle par intervalle mais non proportionnelle. Quand on compare une température de 30 C à celle de 10 C, on constate une différence de 20 C. Mais on ne peut pas dire que 30 C (ou 86 F) indique une température trois fois plus chaude que 10 C (ou 50 F). En définitive, l'échelle nominale permet de répondre à la question: «Qui est qui?» Qui appartient au groupe sanguin A? L ' échelle ordinale permet de répondre à une question plus forte: «Qui est plus? ou Qui est moins?». Qui, parmi les patients, est le plus satisfait des soins dispensés par une clinique? L'échelle par intervalle permet de répondre à une question encore plus forte, du genre «Combien plus? ou Combien moins?». De combien d'années un individu est-il plus âgé qu'un autre? Finalement, l ' échelle proportionnelle permet de répondre à la question «Combien de fois plus? ou Combien de fois moins?» De combien de fois un individu est-il plus âgé qu'un autre? Il se dégage ainsi une hiérarchie des échelles qui va de la plus simple à la plus complexe: nominale: nomination; ordinale: nomination, ordre; par intervalle : nomination, ordre, distance; proportionnelle : nomination, ordre, distance, rapport. Pour les variables qualitatives, seules les échelles nominale et ordinale peuvent être envisagées; les échelles par intervalle ou proportionnelle ne sont utilisables que pour les variables quantitatives. Toutefois, là où une échelle par intervalle ou proportionnelle peut être utilisée, l'investigateur peut préférer une échelle nominale ou ordinale pour des raisons liées aux objectifs de son étude. Un investigateur pourrait adopter l'échelle ordinale : hypotendu, normotendu, hypertendu, au lieu d'une échelle par intervalle pour la tension artérielle. En pratique, on ne distingue généralement pas les échelles par intervalle et proportionnelle. RÉSUMÉ D'un point de vue pratique, les variables considérées en épidémiologie et en santé publique se répartissent en trois grandes familles: les variables de personnes, les variables de lieux et les variables de temps; l'âge, le sexe, les habitudes de vie, l'état civil, l'occupation, le niveau socioéconomique, le climat sont autant d'exemples de telles variables. D'un point de vue formel, les variables sont des caractères sujets à prendre des états différents suivant les individus, le temps, le lieu, etc. Les variables sont qualitatives ou quantitatives, discrètes ou continues. Leurs valeurs sont regroupées en classes mutuellement exclusives et collectivement exhaustives pour former une échelle de classification; on compte des échelles nominales, ordinales, par intervalle ou proportionnelles. LECTURES SUGGÉRÉES 1. JENICEK, M. et CLÉROUx, R. Épidémiologie, Saint-Hyacinthe, Edisem, 1982, chapitre 5, pp. 93-118. 2. MAC MAHON, B. et PUGH, T.F. Epidemiology: Principles and Methods, Boston, Little, Brown, 1970, chapitres 7, 8, 9 et 10, pp. 103-206.