(Re-)découvrir des profils pathologiques à partir des prescriptions médicamenteuses

(Re-)découvrir des profils pathologiques à partir des prescriptions médicamenteuses

Encadrants : T. Guyet (IRISA/DREAM), Y. Dauxais (IRISA/DREAM), E. Drezen (CHU Rennes), A. Happe (CHU Brest), E. Oger (CHU Rennes)

Contact : thomas.guyet@irisa.fr

Dans le cadre du projet ANSM/PEPS, l’IRISA collabore avec le CHU de Rennes pour développer une plate-forme de pharmaco-épidémiologie à partir des données de l’assurance maladie. La pharmaco-épidémiologie [6] est un champ de recherche qui applique les méthodes de l’épidémiologie à l’étude de l’usage des médicaments dans des contextes réels. Les données de l’assurance maladie (délivrances de médicaments, visites médicales, etc.) constituent une masse de données immédiatement disponible et couvrant la quasi-totalité de la population française. Leur utilisation dans la pharmaco-épidémiologie répond au besoin d’apporter rapidement des réponses à des questions de santé publique.

Le projet de la plate-forme PEPS vise à mettre en place un ensemble d’outils informatiques qui faciliteront la conduite des études de pharmaco-épidémiologie à partir de ces données. Elles doivent permettre, en particulier, de manipuler les données, d’en extraire des informations intéressantes [7] et de tester des hypothèses.

Bien que très riche en données, les bases de données médico-administratives ne fournissent qu’une vue partielle sur le parcours d’un patient, seules les délivrances de médicaments ou de soins sont référencées. La raison des délivrances de ces médicaments n’y sont pas explicitées.

À l’inverse, certains médicaments étudiés par les pharmaco-épidémiologistes peuvent être utilisés dans différentes pathologies. Il est alors utile de découvrir des informations dans les parcours de soins qui permettront d’identifier dans quel type de pathologie s’inscrit une prescription.

Au travers de ce projet de M2, nous souhaitons explorer une méthode d’apprentissage automatique, les topic-models pour savoir si ces approches sont pertinentes pour identifier des « profils pathologiques » ou bien découvrir ces profils à partir des données.

Les topic-models [2] sont des modèles génératifs probabilistes utilisés depuis longtemps dans l’analyse de documents textuels (voir illustration ci-dessous). En particulier, la LDA (Latente Dirichlet Allocation) [1] lie des « documents » (ensemble de textes) à des « thèmes » au moyen de distributions probabilistes mettant en évidence, d’une part, qu’un texte est composé d’un ensemble de thèmes et, d’autre part, qu’un thème est décrit par une distribution de mots. Cette méthode a récemment connu de nombreux développements grâce à sa mise en œuvre dans le cadre de systèmes de recommandations.

Dans ce stage, l’objectif est de transposer cette méthode à une question de pharmaco-épidémiologie : on dispose d’un ensemble de parcours de patients (les « documents ») décrits comme des successions d’actes médicaux ou délivrances médicamenteuses. D’autre part, on peut considérer qu’un profil pathologique (un « thème ») est un ensemble ou une séquence d’actes/délivrances. La méthode LDA devrait alors permettre de découvrir les « profils » (au sens que nous lui donnerons dans notre modèle statistique) et d’associer les patients, et leurs prescriptions, à des profils.

Une des questions de recherche de ce stage est de savoir si une telle approche va effectivement être pertinente 1) pour identifier les « profils pathologiques » qui ont du sens et 2) pour savoir si les profils extraits vont permettre de désambiguïser des contextes prescriptions de médicaments à usages multiples.

Derrière cette question, il existe plusieurs hypothèses à tester. En particulier, deux dimensions sont très importantes dans ces données et nécessitent certainement d’être modélisées dans la notion de « profil pathologique » : la séquentialité des actes/délivrances [3,5] et les taxonomies associées aux données [4]. Le projet consistera à tester et évaluer des enrichissements du modèle basique de la LDA. L’évaluation des modèles portera, d’une part, sur la qualité des informations qui peuvent être extraites des données et, d’autre part, sur l’efficacité des traitements (en particulier, les études de pharmaco-epidémiologie peuvent traiter plusieurs millions de patients).

Pour cela, les grandes phases du stages seront :

1- l’application du modèle de la LDA sur un premier jeux de données,

2- l’exploration de l’état de l’art sur l’enrichissement des modèles LDA et sur leurs méthodes de calculs,

3- la proposition de nouveaux modèles permettant d’extraire des informations pertinentes et sémantiquement riches,

4- améliorer les temps de calculs de la phase d’apprentissage du modèle.

D’un point de vue technique, des outils logiciels sont disponibles pour faire l’apprentissage du modèle (méthode d’échantillonnage de Gibbs). Ces outils seront à choisir et à adapter en fonction des besoins liées aux modifications du modèles et des besoins d’amélioration des temps de calculs.

Des compétences en probabilité sont les bienvenues ainsi qu’un intérêt pour le domaine d’application.

 

[1] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. 2003. Latent dirichlet allocation. , J. Mach. Learn. Res. 3 (2003), 993-1022.

[2] Blei, D. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84.

[2] Thomas Griffiths, Mark Steyvers, David Blei and Joshua Tenenbaum . Integrating topics and syntax. Proceedings of NIPS*17 (2005)

[3] Bakalov, A., McCallum, A., Wallach, H., & Mimno, D. (2012, June). Topic models for taxonomies. In Proceedings of the 12th joint conference on Digital Libraries (pp. 237-240).

[4] Nicola Barbieri, Giuseppe Manco, Ettore Ritacco, Marco Carnuccio, Antonio Bevacqua, Probabilistic Topic Models for Sequence Data, ECML 2013

[5] Torre, C., & Martins, A. P. Overview of Pharmacoepidemiological databases in the assessment of medicines under real-life conditions, INTECH Open Access Publisher (2012).

[6] Y. Dauxais, D. Gross-Amblard, T. Guyet, A. Happe. Chronicles mining in a database of drugs exposures. ECML Doctoral consortium (2015)