Cancerinfl

From Epidemium
Jump to: navigation, search

Ce projet s’inscrit réellement dans la continuité de notre affinité pour les domaines de l’Intelligence Artificielle et du biomédical, duo que nous aimerions tous deux conserver dans notre carrière future. Le projet Epidemium nous a convaincu par sa capacité à nous offrir un contact permanent et profond avec des médecins, des informaticiens, des entrepreneurs, des élèves d’autres écoles d’ingénieur, et bien d’autres profils. Dans le cadre de leur projet de recherche sur le cancer basée sur la collaboration collective, Epidemium nous a offert la possibilité d’accéder à La Paillasse.

Nous avons saisi cette opportunité en nous rendant dans leurs locaux afin d’acquérir les compétences nécessaires au bon développement de notre projet. Nous avons compris au cours de cette année au sein du programme entrepreneuriat, que nous devions acquérir de manière autonome les connaissances dont nous avions besoin pour avancer notre recherche. Pour cette raison, nous avons réalisé des formations en ligne, comme par exemple le Mooc Data Science de l’université de San Diego sur edX, ainsi que sur le site de La Paillasse, avec entre autres la formation à l’utilisation de Dataiku, logiciel d’algorithmique en Python. Ces compétences, venant compléter celles acquises pendant nos cours de troisième année, nous ont permis d’obtenir des résultats concluants sur notre travail.

Cette page Wiki a pour but de relater le travail que nous avons effectué dans le cadre du Challenge 3 d'Epidemium dont le sujet porte sur la prédiction de la mortalité des cancers dans les pays en voie de développement. La problématique que nous avons choisie et à laquelle nous allons répondre est la suivante :

Quelle est l'évolution de la mortalité des cancers gynécologiques dans les pays d'Asie en voie de développement ?

Introduction

Membres de l'équipe

Nous sommes deux membres au sein de cette équipe :

  • Jenny Mansour est étudiante à l’Ecole polytechnique en 3ème année, actuellement en parcours d’Intelligence Artificielle et Entreprenariat. Très intéressée par les techniques du machine learning et par le monde de la santé, elle a déjà réalisé un stage chez Elsan, groupe leader de l’hospitalisation privée en France. Elle s’apprête maintenant à réaliser un stage de recherche dans les laboratoires i2r à Singapour sur un projet entre la neurologie et l’intelligence artificielle.
  • Julien Hédou est également étudiant de 3ème année à l'Ecole polytechnique, au sein du même parcours d'Intelligence Artificielle et Entreprenariat. Comme pour Jenny, Julien souhaite approfondir l'application de ses connaissances informatiques dans le domaine de la santé. Il réalise dans cette optique son stage actuel chez Sanofi dans l'équipe de R&D, et intégrera pour son master l'université de Stanford pour étudier plus conjointement le lien entre intelligence artificielle et santé.

En cas de besoin ou pour des informations supplémentaires, n'hésitez pas à nous contacter par mail aux adresses suivantes : jenny.mansour@polytechnique.edu et julien.hedou@polytechnique.edu

Contexte

La croissance qui porte les pays en développement impose le cancer comme l’une des causes majeures de mortalité. Mieux connaître le cancer, ses déterminants et projeter son évolution dans le temps et dans l’espace est un sujet décisif tant sur le plan de la recherche médicale qu’au plan de la Santé publique. Compte tenu de la particularité des contextes socio-économiques et des modèles de développement des pays en voie de développement, l’épidémiologie du cancer a sans doute des composantes spécifiques selon les régions du monde dans lesquelles elle s’exprime. Elle demeure à ce jour un vaste enjeu d’amélioration de la connaissance médicale. Car, si l’épidémiologie du cancer dans les pays développés est largement investiguée, elle constitue un terrain de connaissance scientifique en friche pour ce qui est des pays en voie de développement, et l’approche des maladies dans ces dernières régions s’inspire largement de la déclinaison de modèle selon un gradient Nord-Sud.

Toutes ces raisons nous ont menés à suivre le Challenge 3 d’Epidemium, se déroulant d’Octobre 2017 à Mars 2018, dont le sujet concerne la prédiction dans le temps et l’espace de la mortalité des cancers dans les pays en voie de développement. Dans le cadre de notre projet, nous nous sommes restreints à l’étude des cancers gynécologiques des femmes dans les pays d’Asie.

En effet, même si la létalité des cancers du sein a connu une diminution remarquable dans les pays industrialisés, d’une part, celle-ci demeure encore élevée dans le monde, et d’autre part les cancers du col de l’utérus, de l’endomètre, ou encore des ovaires restent grevés d’une mortalité importante. Nous avons donc choisi de nous restreindre à ces cancers, et plus généralement à l’ensemble des cancers gynécologiques féminins, afin d’avoir un maximum de données pour traiter les évolutions et prédire leur futur. Nous nous sommes restreints à l’Asie, car parmi l’ensemble des continents dont les pays sont en majorité en voie de développement, l’Asie est celui qui nous permettait de traiter le plus de données, et donc de nous donner les résultats les plus convaincants.

Figure 0 - Données de l'OMS sur la mortalité des cancers dans le monde.

État de l’Art

Nous avons effectué plusieurs semaines de recherche avant de nous lancer dans la réalisation de notre modèle prédictif. Dans ce cadre, nous nous sommes intéressés à l’état des cancers gynécologiques de la femme dans les pays en voie de développement en Asie, ainsi qu’aux recherches déjà portées en Intelligence Artificielle sur le cancer.

Les Cancers gynécologiques en Asie

Un premier article Human Papillomavirus Type Distribution in Invasive Cervical Cancer and High-Grade Cervical Intraepithelial Neoplasia Across 5 countries in Asia[1] nous présente cinq études faites indépendamment dans 5 pays d’Asie – Malaisie, Vietnam, Singapour, Corée du Sud et Philippines -. Les auteurs présente le statut et la prévalence des cancers gynécologiques féminins dans ces pays en vue de proposer des données qui pourront servir à la prédiction de la prévalence et donc l’amélioration de la prévention pour ces cancers gynécologiques. Cet aspect de recherche collaborative nous a encouragés à nous pencher un peu plus sur cette question.

Dans cette optique, trois chercheurs en biologie étudient les risques génétiques et épidémiologiques dans la mortalité des cancers gynécologiques dans leur publication Hereditary breast and ovarian cancer in Asia : genetic epidemiology[2]. Ils identifient des mutations qui peuvent porter et transmettre des cancers gynécologiques, en plus de facteurs socio-économiques plus évidents. Dans le cadre de notre projet, et avec les données dont nous disposons, notre mission sera de nous intéresser aux facteurs socio-économiques en précision, en faisant abstraction des facteurs génétiques.

L’article Current status of gynecological cancer in China[3], resserre son horizon d’étude et s’intéresse à la prévalence des cancers gynécologiques en Chine, en s’appuyant sur des données épidémiologiques du pays. Comme nous l’avons finalement vu en réalisant notre modèle, les données en Chine et plus généralement dans tous les pays en voie de développement sont très parsemées et faibles. Ce manque de données réduit la possibilité d’étudier les causes de ces cancers avec précision. Les taux de mortalité augmentent pour les cancers gynécologiques, et les auteurs placent la raison de cette augmentation dans le risque croissant et le changement de la taille et structure de population en Chine. Nous verrons si les modèles prédictifs confirment ces facteurs de risque.

Recherche en Intelligence Artificielle sur la prédiction de cancers

De nombreux papiers étudient la prédiction de cancers dans les différents pays du monde, avec des algorithmes et des méthodes variées. Nous avons commencé par faire des recherches pour comprendre ce qui a déjà été fait dans le domaine et les applications du Machine Learning dans la prédiction de cancers. Dans cette optique, l’article Applications of Machine Learning in Cancer Prediction and Prognosis[4] présente le Machine Learning comme branche de l’Intelligence Artificielle permettant aux machines d’apprendre en détectant des patterns non reconnaissable par l’humain. S’appliquant parfaitement au domaine médical, l’article présente les tendances à s’intéresser à la prédiction de cancers par Machine Learning, donnant en général des résultats satisfaisants grâce à des données complètes et des algorithmes variés. L’article cite en particulier des Artificial Neural Networks (ANNs) comme algorithme performant dans cette recherche. Machine Learning applications in cancer prognosis and prediction est un autre article traitant exactement du même sujet, qui décrit encore une fois l’importance du Machine Learning dans la prédiction de cancers. Cet article met en avant les ANNs encore une fois, mais aussi les Bayesian Networks (BNs), Support Vector Machine (SVMs) et les Decision Trees (DTs), qui ont prouvé leur efficacité et leur précision dans les résultats obtenus. L’article soulève par ailleurs un point important que nous avons confronté à plusieurs reprises à travers les réunions organisées à La Paillasse, lorsque nous présentions nos algorithmes devant le groupe de collaborateurs dont font partie des médecins : ces modèles prédictifs ont besoin d’un niveau d’approbation et de validation par les médecins pour avoir une crédibilité et une valeur scientifique. Même si ces techniques sont de plus en plus fréquentes, elles restent une « boîte noire » qui n’est pas forcément recevable par tous.

Comme évoqué dans la partie ci-dessus, les données manquantes constituent un problème majeur à la précision des modèles prédictifs. Après avoir visualisé les données dont nous disposions, et remarqué qu’elles présentaient énormément de données manquantes, nous nous sommes posés la question de la complétion de ces données. Dans cette optique, nous avons lu l’article Missing Data Imputation using statistical and machine learning methods in a real breast cancer problem[5], s’attaquant à ce problème crucial en comparant des méthodes d’imputation de machine learning des données manquantes, avec des méthodes purement déterministes. L’article compare donc le Multi-Layer Perceptron (MLP), le self-organisation maps (SOM), les k-Nearest neighbours (kNNs) avec une simple déletion totale des exemples contenant au moins une donnée manquante, sur des données démographiques et thérapeutiques sur un panel de femmes atteintes de cancer du sein. L’article en vient à la conclusion que l’imputation des données manquantes est cruciale pour obtenir des résultats satisfaisants.

Exploration et sélection des données

Exploration des données à notre disposition

Epidemium a mis à la disposition de l’ensemble des participants plusieurs datasets :

— epidemiology_dataset pour les données épidémiologiques qui comprend trois sous-dossiers: WorldBank, Faostat, Ilostat, correspondant aux trois bases de données collectées.

Dans le cadre de notre projet, nous nous sommes restreints aux données Worldbank. Celles-ci contiennent deux datasets : le premier, worldbank_data, contient des données assez parsemées sur 875 indicateurs socio-économiques des pays du monde, dont 46 pays en Asie. Le deuxième, worldbank_indicators, explique chacun de ces indicateurs. Ceux-ci sont regroupés en 9 catégories : Economie, Education, Environnement, Gender, Health, Infrastructure, Poverty, Public Sector, Social Protection, et Labor. Comme on le voit sur la figure 1, beau- coup de données sont manquantes. Heureusement, les 875 indicateurs nous ont permis de sélectionner un nombre suffisant de données présentant peu de données manquantes pour faire tourner le modèle de manière efficace.

Figure 1 - Dataset worldbank_data.

— incidence_dataset, qui comprend les données d’incidence des cancers par type de cancer.

Ce dataset est constitué à partir des données de l’OMS. Comme notre sujet l’entendait, nous nous sommes intéressés à la mortalité des cancers, et non pas leur incidence. Nous n’avons donc pas utilisé ce dataset.

— mortality_dataset, qui comprend les données de mortalité par type de cancer.

Ce dataset est également constitué à partir des données de l’OMS. En ce qui concerne les pays d’Asie, ce dataset n’a les données que sur 26 pays en voie de développement d’Asie. Ce dataset est décrit dans les figures 2 et 3.

Figure 2 - Description of the mortality dataset.
Figure 3 - mortality_dataset sur les données de la Thaïlande.

Sélection et traitement des données pertinentes pour notre sujet

Au sein de toutes ces données, parmi lesquelles nous avions 6 359 642 exemples à traiter, nous avons sélectionné les données qui pouvaient nous intéresser dans le cadre de notre sujet. Nous avons restreint le mortality_dataset aux pays d’Asie, aux cancers gynécologiques, et aux femmes, avec la fonction décrite dans la figure 4. Nous avons ensuite gardé les features country, period et age qui nous paraissaient être les features pertinents.

Figure 4 - Code pour réduire le dataset aux pays d’Asie et cancers gynécologiques de la femme.

D’autre part, afin d’avoir des données plus consistantes et d’éviter de réaliser notre prédiction sur des exemples trop ciblés, nous avons décidé de traiter notre modèle sur l’ensemble des cancers gynécologiques de la femme, sans distinction du type. Tous les cancers gynécologiques concernant les femmes sont traités ensembles, à savoir le cancer du sein, les cancers des organes génitaux, et les cancers des voies urinaires. Nous pouvons donc retirer du dataset la feature "type de cancer", qui apporte une information redondante.

Ensuite, nous avons fait de même pour le dataset worldbank_data, le restreignant à l’ensemble des pays en voie de développement d’Asie.

Élaboration du dataset final

Afin de fusionner de la bonne manière ces deux fichiers dernièrement obtenus, nous les avons extraits de notre Jupyter Notebook, et nous avons utilisé Dataiku, illustrée sur la figure 5, une plateforme collaborative d’analyse de données et de développement de méthodes prédictives, après avoir réalisé une formation sur celle-ci.


Figure 5 – Plateforme Dataiku.

Nous avons réalisé une fusion des données basée sur une jointure prenant en compte une correspondance par pays et par année des données des deux datasets. Le merge nous a permis d’obtenir toutes les features qui correspondent à une incidence observée pour une année et un pays.

Ce travail de pré-sélection nous a permis de regrouper le dataset final sur lequel nous effectuerons le traitement des features et la prédiction des modèles.

La base de données dont nous disposons finalement est constituée de 7218 exemples, correspondant au nombre de cas relevés sur un pays, pour un sexe et une tranche d’âge donnés. Ses premières lignes sont visibles sur le figure 6.

Figure 6 – Merged dataset.

Feature Engineering

Sélectionner et compléter les données manquantes

Comme évoqué lors de la présentation des données, beaucoup de données socio-économiques manquent dans les pays en voie de développement, c’est pourquoi cette étape est cruciale pour la bonne prédiction du modèle.

Dans cette optique, nous avons envisagé retirer tous les indicateurs dont les données étaient trop peu renseignées. Dans ce cadre, nous avons testé nos modèles avec XGBoost en faisant varier le seuil de complétion des données au-dessous duquel nous retirons l’indicateur, de 10% à 100%. Ces résultats nous ont donné le meilleur compromis : retirer tous les indicateurs dont plus de 50% des données ne sont pas renseignées. Cela nous laisse dans notre dataset 471 indicateurs, soit un peu plus de la moitié du nombre initial.

Pour tous ces indicateurs restants, nous devions imputer les valeurs manquantes afin de préciser notre modèle. Pour cela, nous avons utilisé deux méthodes :

— La première méthode consiste simplement à imputer la moyenne des données déjà présentes pour remplacer les valeurs manquantes.

— La deuxième méthode se base sur les corrélations entre les features, ce qui permet de déduire une valeur probable pour la donnée manquante de manière plus fine. Cette méthode plus élaborée repose sur une bibliothèque développée sur R par une chercheuse de Polytechnique.

La deuxième méthode nous ayant donné des résultats beaucoup plus satisfaisants au moment des tests, c’est avec celle-ci que nous avons décidé de poursuivre.

Valeurs aberrantes

Nous avons exploré sur Dataiku l’ensemble des indicateurs afin de s’assurer qu’il n’y a pas de valeurs aberrantes dans les données que nous avons récupérées. Les données d’Epidemium étaient déjà traitées, ne présentant aucune aberration notable.

Combinaison d’indicateurs

La combinaison d’indicateurs est un processus long et fastidieux, puisqu’il faut imaginer puis tester des combinaisons pour vérifier leur efficacité dans le modèle. Après plusieurs tests et mani- pulations, nous avons finalement implémenté deux indicateurs très pertinents dans notre modèles :

— La première est la taille de chaque groupe d’individu selon l’âge, le pays et l’année. Pour le calcul, nous avons multiplié la population totale par le pourcentage de femmes, et par le pourcentage de femmes dans la tranche d’âge correspondant à la donnée. Ainsi, chaque exemple se retrouve lié à la taille de l’échantillon dans lequel il appartient.

Figure 7 – Code pour obtenir la taille des groupes d’individus.

— La deuxième est la mortalité dans chaque groupe d’individus par année. Son principe est le même que celui de la première combinaison réalisée, en multipliant le résultat par le taux de mortalité afin d’obtenir un nombre théorique de décès prévu dans le groupe.

Importance des indicateurs

Afin de bien comprendre les features qui déterminent le plus l’incidence des cancers gynécologiques de la femme dans les pays d’Asie en voie de développement, nous avons évalué l’importance relative de toutes nos features avec XGBoost, et nous avons sélectionné les 15 indicateurs les plus importantes, décrites et expliquées dans les figures 8 et 9.

Figure 8 - Feature importance selon XGBoost
Figure 9 - Indicateurs les plus importants.

Les trois meilleures indicateurs sont :

— La combinaison de feature réalisée lors du feature engineering

— L’âge de la personne intéressée

— L’année de l’exemple étudié

Les dix indicateurs les plus importantes, en plus des trois meilleures, sont donc décrites dans la figure 10.

Figure 10 – Signification des indicateurs les plus importantes.

Ainsi, nous pouvons regrouper les indicateurs les plus importants en deux groupes : les émissions de gaz toxiques d’une part, et l’éducation des femmes de l’autre.

Predictive modeling

La dernière étape en vue de l’interprétation de nos résultats est le modèle de prédiction. Dans cette partie, nous expliquerons les algorithmes implémentés, avant de finalement présenter et interpréter nos résultats.

Algorithmes

Afin d’améliorer le modèle présenté au point de mi-parcours - dans lequel étaient développées les régressions logistiques et linéaires assez médiocres -, nous avons implémenté des algorithmes plus poussés et spécifiques pour notre problème.

Ainsi, nous avons décidé de tester notre modèle sur plusieurs algorithmes pour en définir le plus performant, voire même combiner les différentes solutions afin d’obtenir la meilleure prédiction possible.

Les premiers algorithmes que nous avons implémenté sont les suivants :

— Ridge

— Lasso

— ElasticNet

— Lars

Cependant, les tests sur ces algorithmes n’ont pas été concluants.

Nous avons tenté d’implémenter les algorithmes cités dans les papiers de recherche :

— SVM

— Decision Trees XGBoost

— Bayesian Networks

— Decision Trees Random Forest

Résultats

Premiers résultats sur le dataset

Après avoir essayé une première fois de faire tourner les quelques algorithmes implémentés sur le dataset final obtenu après toutes les précédentes opérations, nous avons étonnamment obtenu des premiers résultats un peu trop satisfaisant, puisque nous avions des métriques R2 autour de 0.97 de précision.

Après quelques réflexions et tests sur le dataset, nous avons réalisé que, même en ayant trié chronologiquement les données, celles-ci étaient séparées entre le training et le testing set de manière aléatoire. Pour cette raison, l’algorithme pouvait être amené à prédire le taux de mortalité des cancers en 1998 en ayant la connaissance des taux de 1997 et de 1999, ce qui est beaucoup moins aléatoire que le taux de mortalité de 2013 après avoir trainé sur des données s’arrêtant à 2010.

Ainsi, nous avons résolu ce problème afin d’obtenir de vrais résultats, certes moins bon, mais représentatifs de l’efficacité de notre modèle quant à la prédiction du taux de mortalité des cancers gynécologiques de la femme dans les années à venir en Asie.

Résultats finaux

Afin de bâtir un modèle de prédiction réalisable et inteprétable, nous avons réfléchi à une séparation intelligente des données chronologiques que nous avions. Nous avons décidé sur des données de 1970 à 2013 de faire l’apprentissage sur les 40 premières années, de 1970 à 2010, et la phase de prédiction sur les 3 dernières années. Cela nous a semblé un bon compromis pour à la fois refléter les besoins réels de la recherche et bâtir un modèle de prédiction efficace et pertinent.

Après plusieurs tests et améliorations des paramètres de chaque algorithme, nous avons finalement obtenu les résultats présentés dans la figure 1 pour le R2 score.

Table 1 – Résultats obtenus pour les trois algorithmes testés.

Conclusion

Discussion sur les résultats

Ainsi, les résultats que nous avons obtenus sont assez probants, et l’importance des indicateurs nous apprend une forte corrélation entre l’émission des gaz toxiques et l’éducation des femmes d’une part, et la mortalité des cancers gynécologiques féminins de l’autre.

Ces résultats changent beaucoup en fonction du temps : si l’on essaie de prédire ce qu’il se passe 10 années après ce qu’on sait déjà, les résultats en ressortent beaucoup moins satisfaisants. De plus, ces résultats ne sont possibles que grâce à des algorithmes de machine learning complexes, qui dépassent les modèles de régression linéaire basiques qui s’avèrent moins pertinents.

Prochaines étapes

Nous aimerions encore, avant le présentation finale du 27 mai, et si notre étude est validée, tester la pertinence de notre modèle sur des pays en voie de développement d’autres continents, en essayant de l’appliquer aux pays d’Amérique du Sud et d’Afrique si les données nous le permettent.

Quoiqu’il en soit, les résultats que nous avons obtenus sont très satisfaisants et nous espérons qu’ils auront un intérêt médical pour les chercheurs de Roche.

Références

  1. Human Papillomavirus Type Distribution in Invasive Cervical Cancer and High-Grade Cervical Intraepithelial Neoplasia Across 5 Countries in Asia. Quek, Swee Chong MBBCh Lim, Boon Kiong MBBS, Jing MD.
  2. Hereditary breast and ovarian cancer in Asia : genetic epidemiology of BRCA1 and BRCA2. Alexander Liede, Steven A. Narod.
  3. Current status of gynecological cancer in China. Kidong Kim, Rongyu Zang, Seok-Cheol Choi, Sang-Young Ryu, and Jae Weon Kim.
  4. Applications of Machine Learning in Cancer Prediction and Prognosis Joseph A. Cruz, David S. Wishart
  5. Missing data imputation using statistical and machine learning methods in a real breast cancer problem. José M.Jereza, Ignacio Molinab Pedro ,J.García-Laencinac, Emilio Albad Nuria Ribelles.