Février 2017 : Maud Marsot vous parle de "Detection of independent associations in a large epidemiologic dataset" de Mansiaux & Carrat

Chaque mois, un membre de l’AEEMA met en avant un article scientifique de son choix.

Ce mois-ci, Maud Marsot, chargée de projet de recherche au laboratoire de santé animale de l’Anses de Maisons-Alfort, vous propose l’article « Detection of indepPhoto Maudendent associations in a large epidemiologic dataset : a comparison of random forests, boosted regression trees, conventional and penalized logistic regression for identifying independant factors associated with H1N1 pdm influenza infections» écrit par Yohann Mansiaux et Fabrice Carrat et publié dans « BMC Medical Research Methodology » en 2014. 

Cet article est disponible ici.

 

Pouvez-vous nous résumer brièvement le papier ?

Le papier débute en soulignant l’utilisation de plus en plus répandue de larges jeux de données en épidémiologie. De ce fait, il est primordial d’identifier des méthodes adaptées à ce type de données. Les auteurs ont donc comparé les performances de différentes méthodes d’analyse (forêts aléatoires ou RF, arbres de régression boostés ou BRT, régression logistique et régression logistique pénalisée) pour explorer l’association entre une variable de santé et de multiples expositions issues d’études épidémiologiques à grande échelle. Pour tester les performances des différentes méthodes, ils ont utilisé les données d’une étude de cohorte portant sur la grippe, réalisée sur 498 personnes pour lesquelles 303 variables d’exposition ont été collectées. Parmi les quatre méthodes comparées, les deux approches d’apprentissage automatique (RF et BRT) ainsi que la régression logistique pénalisée sont considérées comme efficaces pour détecter des associations au sein d’un large jeu de données.

 

Pourquoi avoir choisi de mettre en avant ce papier ?

 L’utilisation de la régression logistique dite « classique » ( vérification de la linéarité entre la variable de santé et chaque variable continue explicative, analyse univariée avec p < 20%, colinéarité, analyse multivariée et sélection de modèles par comparaison d’AIC) est très répandue pour analyser les données issues d’études épidémiologiques. Or cette approche est de plus en plus controversée par la communauté scientifique en épidémiologie ou en statistiques, notamment l’étape d’analyse univariée qui pourrait conduire à ne pas sélectionner certaines variables explicatives influentes du fait d’un trop faible nombre d’observations ou d’une action en synergie avec une autre variable. Pour moi, cette problématique est d’actualité. Je m’interroge sur les méthodes statistiques les plus adaptées pour traiter les données qu’on peut généralement obtenir à partir d’études épidémiologiques, comme les études cas-témoins par exemple. Ce papier illustre très bien ce questionnement avec en plus une approche « big data ». J’ai beaucoup apprécié les deux parties du papier : la première sur la comparaison des résultats biologiques à partir des données de grippe et la seconde, plus théorique, sur l’évaluation de la performance des méthodes à partir d’indicateurs, qui en font une approche complète pour répondre à cette question méthodologique fondamentale.

 

Y-a-t-il des points abordés dans le papier qui vous ont laissé perplexe ou que vous auriez aimé voir plus développés ?

L’approche de comparaison de méthodes d’analyse appliquée ici en santé humaine est novatrice. A ma connaissance, il n’existe pas encore d’étude qui aborde ce problème sur des questions en santé animale (jeux de données moins conséquents, difficulté pour obtenir certaines variables exposition,…). Je suis persuadée que le couplage de différentes méthodes d’analyse permettra de renforcer la confiance qu’on a dans les résultats associés à une étude épidémiologique. Dans ce papier, j’ai été étonnée de la faible performance de la régression logistique « classique », qui est pourtant la méthode de référence. J’aurais aussi aimé avoir plus de détails dans la façon de simuler les données pour comparer la performance des méthodes, afin de pouvoir le reproduire plus facilement. Finalement, plus de détails sur l’influence des interactions ou encore de la corrélation entre variables sur la performance des méthodes aurait été appréciable, ces point étant rapidement traités et expliqués dans les parties résultats et discussion.

 

Merci à Maud Marsot ( Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser. ) pour sa contribution.

Vous aussi souhaitez proposer un article scientifique pour cette rubrique ? Consultez les recommandations et envoyez-nous votre contribution.

A noter qu’il n’y a pas de comité de lecture pour cette rubrique et que le contenu n’engage que le contributeur du mois.