ULaval:MED-2232/Inférence statistique

De Wikimedica
Ce guide d’étude a été élaboré par les volontaires de Wikimedica dans le cadre du cours MED-2232 à l'Université Laval et est basé sur le travail des responsables du cours. Il est fourni comme aide à l'étude et ne constitue pas un document officiel du cours.

Inférence statistique

L’étude d’une population dans son entièreté est souvent impossible, la valeur du paramètre ne peut donc pas être connue. Il est donc nécessaire d’estimer ce paramètre à partir de la statistique mesurée dans un échantillon. Cependant, la probabilité que le paramètre soit égal à la statistique est très faible.

L’inférence est le processus par lequel on déduit la valeur d’un paramètre à partir de la statistique qui est mesurée dans un échantillon.[1]

Il existe deux méthodes d’inférence : le test d’hypothèse et l’intervalle de confiance.

Test d’hypothèse

Le test d'hypothèse consiste à soupeser 2 hypothèses faites dans une population à partir des données d’un échantillon. Par exemple, une hypothèse peut être que les hommes sont plus atteints d’une maladie alors que l’autre hypothèse est que plus de femmes en sont atteintes. Le test d’hypothèse permet de retenir une des deux hypothèses avec une marge d’erreur.

Distribution de probabilités

Pour estimer un paramètre, il faut connaître sa distribution de probabilités. Une distribution de probabilités est un modèle représentant la fréquence des différentes valeurs d’une variable dans une population.

Distribution normale

La distribution normale est une distribution de probabilités très importante en statistique.

Une variable se distribuant normalement possède certaines caractéristiques :

  • Être continue
  • Être en forme de cloche
  • Être symétrique par rapport à la moyenne (μ).
  • Le 1er écart-type (σ) est égale à la distance entre la moyenne et le point d’inflexion de la courbe.

La moyenne et l’écart-type sont les paramètres de la distribution normale. Ils sont nécessaires pour la définir. L’aire sous la courbe de la distribution normale est égale à 1 puisque c’est une distribution de probabilités. Également, la moyenne, la médiane et l’écart-type ont une même valeur. La moyenne +/- 1 écart-type contient 68,3% de l’aire sous la courbe; la moyenne +/- 2 écart-types contient 95,4% et la moyenne +/- 3 écarts-types contient 99,7% de l’aire sous la courbe. La distribution normale permet d’évaluer la proportion des éléments qui se situent dans un intervalle de valeurs de la variable à l’étude. Les intervalles que l’on peut étudier correspondent à un nombre entier d’écarts-types.

Distribution normale centrée et réduite (Distribution standard ou distribution de Z)

Cette distribution est utile pour analyser d’autres intervalles que ceux constitués d’un nombre entier d’écarts-types. La distribution normale centrée et réduite est constituée d’une moyenne égale à 0 et d’un écart-type équivalant à 1. Toutes les distributions normales peuvent être converties en une distribution normale centrée et réduite en calculant le score Z :

Z = (x - μ) / σ

Où :

Z = variable ayant une distribution normale centrée et réduite

x = variable à transformer

μ = moyenne

σ = écart-type

Théorème de la limite centrale

La distribution normale représente peu de variables en statistique. Pour contourner ce problème, il est possible d’utiliser la distribution d’échantillonnage. C’est la distribution de probabilités d’une statistique pour tous les échantillons de même taille qui peuvent être constitués à partir d’une population. Pour définir la distribution d’échantillonnage, il faut considérer la statistique, la sélection de l’échantillon, la taille de l’échantillon et la taille de la population à l’étude.

L’erreur type correspond à l’écart-type des moyennes échantillonnales. C’est une valeur inconnue et il faut donc l’estimer à partir d’un échantillon. Pour ce faire, il faut diviser l'écart-type de l'échantillon (s) par la racine carrée de la taille de l'échantillon (n).

L’erreur type sert à indiquer le degré de certitude avec lequel la moyenne échantillonnale estime la moyenne dans la population. Plus la population étudiée est grande, plus l’erreur type est petite et mieux on estime la valeur du paramètre. La moyenne de la distribution échantillonnale équivaut au paramètre.

Lorsque la variable se distribue normalement, la distribution des moyennes échantillonnales est aussi une distribution normale. Aussi, si l’échantillon est d’une taille n ≥ 30, la distribution des moyennes échantillonnales est normale peu importe la distribution de la variable dans la population.

Ces propriétés sont à la base du théorème de la limite centrale. Ce théorème permet d’effectuer l’inférence statistique. Grâce à ce théorème, il est possible de transformer la moyenne en une variable de distribution normale centrée et réduite. Dans ce cas, la distribution de Z se calcule ainsi :

La normalité statistique et la normalité clinique

  • Normalité statistique : Répartition des valeurs observées pour une variable dans une population. Par exemple, une valeur est considérée anormale si elle est située dans la dernière tranche de 2.5% de chaque côté de la courbe de distribution normale.
  • Normalité clinique : Un seuil à partir duquel un résultat d’examen témoigne d’un risque pour la santé d’une personne ou d’une maladie.

La signification statistique

Le test d’hypothèse et l’intervalle de confiance sont les 2 approches permettant de faire l’inférence statistique.

Toutefois, ces méthodes ne peuvent pallier pour un protocole d’étude déficient et ne permettent pas de juger les biais influençant les résultats de l’étude.

Le test d’hypothèse

L’hypothèse nulle et l’hypothèse alternative

Lorsqu’on teste une hypothèse de recherche, on confronte deux hypothèses statistiques. Ces hypothèses sont l’hypothèse nulle (H0) et l’hypothèse alternative (H1). Pour le test d’hypothèse, après avoir formulé les hypothèses H0 et H1, on procède de façon à valider la vraisemblance de H1 en rejetant H0. Pour arriver à ce résultat, on suppose que H0 est vraie. Si cette supposition ne fonctionne pas à l’examen des données des échantillons, elle est rejetée et H1 est donc validée. Si l’hypothèse H0 se révèle vraie, cela signifie que les différences entre les deux groupes étudiés sont attribuables aux fluctuations entre les échantillons. Cela veut dire que les 2 groupes proviennent de 2 populations comparables en ce qui a trait à la statistique mesurée. Si c’est l’hypothèse H1 qui est vraie, cela veut dire que les distributions d’échantillonnages des 2 groupes étudiés sont différentes. Dans un test d’hypothèse, on compare 2 moyennes échantillonnales entre elles. Déterminer quelle hypothèse est vraie est simple. Si H0 est vraie, les valeurs des écarts gravitent autour de 0. Plus ces valeurs s’éloignent de 0, moins les écarts sont jugés compatibles avec H0. En présence d’un écart très important, il est permis de douter de la vraisemblance de H0.

La valeur p

La valeur p permet de déterminer la probabilité d’observer un écart prédéterminé si l’hypothèse nulle (H0) est vraie. Plus la valeur p est petite, moins H0 est vraisemblable. Si H0 est peu vraisemblable, on peut conclure que H1 est l’hypothèse vraie et que l’écart observé n’est pas attribuable uniquement au hasard.

Seuil de signification statistique (α)

L’erreur de type I est fixée par le chercheur. Elle représente un seuil de décision permettant de conserver ou de rejeter H0. Généralement, le chercheur fixe la valeur (α) à 0,05 ou 0,1. Le seuil de signification statistique doit être déterminé avant le début de l’étude et ne doit pas être modifié par la suite. Si la valeur p calculée est plus petite ou égale au seuil de signification statistique (α), H0 est rejetée et les résultats de l’étude sont statistiquement significatifs.

L’erreur de type II

L’erreur de type II correspond à conclure que l’hypothèse H0 est véridique alors que c’est H1 qui est vraie. La probabilité de commettre l’erreur de type II correspond à la valeur β.

Conclusions possibles lors d'un test d'hypothèse[1]
Jugement statistique Vérité: H1 vraie Vérité: H0 vraie
Rejet de H0 Aucune erreur: jugement concordant avec la vérité Erreur de type I: rejet de H0 alors que H0 est vraie
Non-rejet de H0 Erreur de type II: Non-rejet de H0 alors que H1 est vraie Aucune erreur: jugement concordant avec la vérité

Plus la différence observée entre les proportions est grande, plus il est facile de déterminer si la différence est statistiquement significative. La taille de l’échantillon a aussi une influence sur la signification statistique. En effet, plus la taille de l’échantillon est importante, moins la taille de l’effet doit être grande pour que le résultat soit statistiquement significatif.

La probabilité de commettre une erreur de type II, soit la valeur β peut être fixée à l’avance pour déterminer la taille d’échantillon nécessaire pour qu’une différence soit statistiquement significative. Cette probabilité peut aussi se calculer à la fin de l’étude à partir de la variabilité de la mesure, du seuil de signification statistique, de la taille de l’échantillon et de la différence observée.

Puissance statistique (Puissance)

La puissance d’une étude correspond, pour une certaine taille d’échantillon, à la probabilité de déceler une différence prédéterminée lorsque celle-ci existe réellement dans une population. Donc, la puissance correspond à la probabilité de rejeter H0 si H1 est vraie. La puissance de l’étude est la valeur complémentaire de β :

Le facteur influençant le plus sur la puissance d’une étude est la taille d’échantillon. Une puissance de 80% est généralement considéré comme acceptable. Il est possible de déterminer le nombre de sujets nécessaires pour atteindre une certaine puissance en début d’étude.

On se questionne sur la puissance d’une étude uniquement lorsque les résultats ne sont pas statistiquement significatifs. En effet, si une différence statistiquement significative est décelée, et donc si H0 est rejetée, cela signifie que la puissance était suffisante. Lorsque les résultats ne sont pas statistiquement significatifs, il faut s’interroger sur la puissance de l’étude. Plus la puissance est élevée, plus les conclusions statistiques sont fiables.

L’intervalle de confiance

Le test d’hypothèse ne fournit aucune information sur la valeur des paramètres étudiés. Pour mieux estimer le paramètre dans les populations à l’étude, il est préférable d’utiliser l’intervalle de confiance. Celui-ci correspond à un intervalle de valeurs qui a une bonne probabilité de contenir la valeur réelle du paramètre.

Plus l’intervalle de confiance est large, plus la probabilité que le paramètre se retrouve à l’intérieur de l’intervalle est élevée. Cependant, un intervalle trop large cause une estimation peu précise du paramètre.

Le niveau d’intervalle de confiance est fixé par le chercheur. Le plus souvent, on emploie un intervalle de confiance à 95%, c’est-à-dire un intervalle qui a 95% de chance de comprendre le paramètre.

La vérification d’une hypothèse à l’aide d’un intervalle de confiance

Comparaison d’intervalles de confiance

Pour évaluer la signification statistique de deux moyennes, on peut calculer la valeur p et vérifier si elle est plus petite ou égale au seuil de signification statistique qui a été fixé par le chercheur. On peut également comparer les intervalles de confiance des deux moyennes. Lorsque les intervalles de confiance des deux moyennes ne se recoupent pas, il est possible de conclure que la différence entre les deux valeurs est statistiquement significative. Si les deux intervalles se recoupent, on ne peut tirer de conclusion à partir de cette méthode.

Pour arriver à une conclusion si les intervalles de confiance se recoupent, on peut procéder de deux façons :

  • Recours à un test statistique de comparaison de 2 moyennes (ou de 2 proportions)

Pour procéder, on interprète la valeur p obtenue.

  • Construction d’un intervalle de confiance autour de la différence de moyennes (ou de proportions)

Pour ce faire, si la valeur nulle (0) est comprise à l’intérieur de l’intervalle de confiance de la différence de moyennes, on ne peut rejeter H0. À l’inverse, si 0 est exclut de l’intervalle, on rejette H0.

Intervalle de confiance et mesures d’association

On peut aussi utiliser l’intervalle de confiance pour faire un test d’hypothèse pour des rapports de cote ou des risques relatif. Pour ces mesures, l’absence d’association entre deux variables correspond à une valeur de 1. Si la valeur 1 est incluse dans l’intervalle de confiance, cela signifie que l’association entre les deux variables n’est pas statistiquement significative.

Pour étudier l’association entre une exposition et une maladie avec des mesures d’incidences cumulées, deux stratégies sont possibles :

  1. Comparer la différence entre les deux différences cumulées puis déterminer une valeur p et vérifier si elle est inférieure ou égale au seuil de signification statistique.
  2. Calculer le risque relatif (RR) correspondant et calculer son intervalle de confiance à 95%. Si l’intervalle de confiance ne recouvre pas la valeur 1, le RR est considéré comme statistiquement significatif.

Signification statistique et signification clinique

La signification statistique réfère à la probabilité que le hasard soit responsable de la différence observée dans l’étude.

La signification clinique correspond plutôt à une différence qui à des conséquences sur la prise de décision clinique.

Après avoir jugé de la validité et de la signification statistique des résultats d’une étude, il est nécessaire d’évaluer leur signification clinique. En effet, un résultat statistiquement significatif n’est pas obligatoirement cliniquement significatif.

Pour déterminer la signification clinique d’un résultat, il faut s’interroger sur l’importance clinique de l’écart obtenu dans l’étude par rapport aux connaissances actuelles. Il faut également évaluer la gravité et la fréquence des effets secondaires du nouveau médicament et les éléments associés au coût et à la posologie par rapport à l’adhésion au nouveau médicament. Il faut aussi se questionner sur la durée de la période d’observation lors de l’étude afin de savoir si elle évalue correctement l’innocuité à long terme du nouveau médicament.

Lorsque des résultats ne sont pas statistiquement significatifs, il faut évaluer la puissance de l’étude avant de déterminer si les résultats ont un intérêt clinique. Si la puissance est trop faible, il est nécessaire d’effectuer d’autres études avant de porter un jugement définitif.

Références

  1. 1,0 et 1,1 Simpson, A., Beaucage, C. Bonnier Viger Y, Épidémiologie appliquée : une initiation à la lecture critique en sciences de la santé, Montréal, Canada, Chenelière Éducation,