Sbt12

From Epidemium
Jump to: navigation, search

Logo de l'équipe Octopus pour le challenge 3 d'épidémium

Contents

Projet Epidémium

Propos introductif

« Je n’exercerai pas en dehors de mes compétences » (Serment d’Hippocrate, édition 2012), telle est la dernière modification faite à la traduction du serment d’Hippocrate que les médecins occidentaux prononcent depuis des siècles. Cette modification n’est pas due à l’amélioration de notre compréhension du Grec, elle est là pour rendre compte d’une modification profonde d’un art. Aujourd’hui plus que dans le temps d’Hippocrate, le médecin est confronté à l’évolution fulgurante de sa science. S’il y a un siècle être médecin signifiait être capable d’appliquer avec rigueur les préceptes appris en école de médecine, être médecin aujourd’hui c’est s’adapter plus que jamais à la fois à l’évolution des pathologies mais surtout à celle des technologies permettant le diagnostic ou la guérison. La compétence en médecine a par ces évolutions été redéfinie, et force est de constater que le médecin n’est plus seul, mais épaulé par des ingénieurs, par des mathématiciens, bientôt par des algorithmes intelligents, déjà par des machines complexes. Ceci est d’autant plus vrai dans les disciplines par définition interdisciplinaires comme l’épidémiologie. Cette science a la particularité d’être définie par son but : donner les facteurs explicatifs des apparitions de certaines pathologies, analyser la mortalité associée aux maladies et prédire les occurrences -et les morts- des pathologies par zone géographique, par âges ou par sexe. L’épidémiologie mêle donc des compétences variées, historiques, mathématiques, sociologiques et médicales. L’épidémiologiste est donc peut être plus qu’un autre médecin exposé au risque d’exercer en dehors de ses compétences ou du moins d’être contraint de le faire. C’est pour faire face à ce risque que naît le projet Epidemium.


Présentation d'Epidemium et du challenge

Epidemium est à la fois un challenge et une communauté : elle organise des co-opétitions (mélange de coopération et de compétition). Le but est de réunir des personnes de tous les horizons -droit, médecine, mathématiques, informatique, histoire- autour de problématiques concernant le cancer. Par équipes, les challengers doivent répondre au mieux à une problématique soumise par Epidemium et pour cela l’équipe peut compter sur les autres équipes et l’ensemble de la communauté. Divers outils sont mis à la disposition des challengers comme un abonnement à Dataiku, une plateforme de chat avec la communauté -et les experts partenaires comme ceux de l’institut Curie ou encore les médecins de Roche et les professeurs de l’INRIA -, mais aussi diverses formations proposées tout au long de l’année et la mise à disposition pour les challengers d’espaces de coworking dans Paris. L’objectif est clair : lutter contre le cancer mais la méthodologie mise en place est différente de celle des laboratoires traditionnels de recherche. Il s’agit de créer une atmosphère, un espace, d’échanges interdisciplinaires dont le point de convergence serait l’utilisation de la donnée disponible sur les sites des organisations inter gouvernementales ou des instituts par exemple. Nous participons à la seconde édition du challenge Epidemium et avons une problématique : bâtir un modèle prédictif des occurrences des cancers digestifs dans les pays en voie de développement. Pour cela, nous est mis à notre disposition diverses bases de données et les outils préalablement décrits. Vaste problématique qui mérite d’être subdivisée en différentes questions. Qu’est-ce qu’un modèle prédictif ? Que sont les cancers digestifs et que savons-nous déjà sur eux ? Qu’est-ce qu’un pays en voie de développement ? Les données dans ces pays sont-elles disponibles et fiables ? C’est autour de ces questions que se sont organisées nos groupes et nos efforts. Convaincus qu’un travail de définition précis ne fera d’une part que bien nous orienté, et d’autre part, que nous ouvrir à la complexité de notre problématique, c’est tout naturellement que nous avons effectué le travail de recherche bibliographique qui va suivre.

Reformulation du problème

Du projet Octopus, ECP 2018
Du projet Octopus, ECP 2018

Position du problème

Afin de préciser notre manière d'aborder ce projet, nous avons réalisé le ludion et la fiche objectif de notre projet. Ils permettent d'avoir une vue globale sur les objectifs que nous nous fixons et le cadre dans lequel nous travaillons.

Problématique

Prédire dans le temps et dans l’espace les occurrences des cancers dans les pays en voie de développement. Ceci d'une part afin de donner aux acteurs de la santé publique un ordre d'idée de l’évolution des cancers pour mieux les prévenir, d'autre part afin de contribuer à la recherche dans le domaine de la prédiction en cancérologie.


Etude bibliographique

Considérations médicales

Introduction : Afin de pouvoir prédire à l'aide d'algorithmes l'évolution des occurrences ,dans l'espace et dans le temps ,des cancers digestifs dans les pays en voie de développement, il est indispensable de réaliser une première étude épidémiologique. Epidemium nous a mis en relation avec des spécialistes de chez Roche, laboratoire leader mondiale des biotechnologies et en cancérologie. Ainsi avons nous pu échanger avec Henrique Felicio, Medical Science Liaison et le Professeur Brice Marchadier, chef de projet médical tumeur solide, qui ont pu répondre à nos questions sur les cancers digestifs et qui nous ont fourni de nombreux documents que nous avons exploités, en complément de nos recherches personnelles, pour mieux appréhender l'aspect épidémiologique des cancers.

Objectifs : Cette étude médicale a pour premier objectif de sélectionner un cancer digestif à étudier. En effet, la notion de cancer est bien trop générale pour représenter une réalité beaucoup plus complexe et protéiforme. Nous voulons donc sélectionner un cancer en particulier pour pouvoir tester nos algorithmes. Les intelligences artificielles que nous allons mettre en oeuvre nécessitent des arguments en entrée, qui sont dans notre cas les facteurs de risques du cancer. Notre deuxième objectif est donc de déterminer ces facteurs. Enfin, nous allons, à travers une étude socio-médicale, valider la pertinence de se restreindre aux pays en voie de développement (PED).

Généralités sur les cancers

Définition du cancer : Le terme cancer regroupe un grand nombre de maladies caractérisées par la multiplication et la propagation de cellules ayant perdu la faculté de se détruire à cause de mutations. L’accumulation de ces cellules est appelée tumeur. Ces cellules peuvent alors contaminer les organes voisins pour y créer une autre tumeur, ce que l'on appelle métastase. Au sein d'un même organe, Brice Machardier nous a expliqué que les tumeurs peuvent être extrêmement variés avec des facteurs de risques différents ou présenter des caractéristiques au niveau moléculaires différentes.

Données générales : Le cancer constitue la deuxième cause de décès dans le monde en 2015 [3]. Il représente de nos jours près d’un décès sur six dans le monde. Plus de 14 millions de personnes développent un cancer tous les ans [11]. Selon l’OMS, le nombre de nouveaux cancers devrait augmenter de 70% environ au cours des deux prochaines décennies. Les principaux types de cancers dans le monde sont représentés sur la figure 3 ci-contre.
Source : Roche

Le cancer du poumon (1,59 millions de décès), du foie (745 000 décès), de l’estomac (723 000 décès), colorectal (684 000 décès), du sein (621 000 décès), de l’oesophage (400 000 décès). Cependant le taux de mortalité de ces différents cancers est très hétérogène dans le monde, selon le sexe et l'âge. Ainsi le sexe, l'âge et le pays sont des facteurs de risques dont l'importance est fonction du cancer considéré [12].

Facteurs à risque pour le cancer : On estime que 3 décès, dans le cadre d'un cancer, sur 5 sont dus principalement aux facteurs de risque comportementaux et alimentaires. Nous allons donc essayer de déterminer, à partir de ces observations, les principaux facteurs à risque pour le développement d'un cancer. Il est premièrement établi que, pour tout type de cancer, certaines prédispositions génétiques influent sur la propension à développer un cancer. Cependant, la base de données à disposition ne nous donne pas accès à ce critère, ce qui rend son utilisation impossible pour notre intelligence artificielle. Un facteur très discriminant que nous pourrons utiliser est l’exposition aux produits chimiques : tabac – cause de 22% des cancers -, amiante, arsenic... [8] Ces facteurs sont très fortement liés à la localisation géographique du sujet ; c’est pourquoi ce critère est décisif. La pollution de l’air entre bien évidement aussi en compte. En effet, des sujets en Chine ou en Europe n’auront pas la même propension à développer un cancer en grande partie à cause de ce facteur. La consommation d’alcool est quant à elle la 3ème cause de cancers et est clairement identifiée sur les données que nous possédons. A fortiori la masse corporelle, le manque d’activité physique des individus entrent aussi en compte, comme le montre ce diagramme représentant l’impact de chaque facteur. Un autre facteur important est l’exposition à des rayonnements trop importants (ultraviolet, radiations ionisantes…). Enfin, une mauvaise alimentation - faible consommation de fruits et légumes, consommation excessive de viande rouge et de charcuteries, faible consommation de fibres et excès de sel – cause 8% des cancers. Ce dernier critère est central pour l'étude des cancers digestifs. Nous avons donc établi ici que de nombreux facteurs influent sur la propension à développer un cancer. Ces facteurs sont bien établis mais généraux. Nous avons désormais besoin de nous focaliser sur un cancer en particulier pour avoir des facteurs plus précis et ainsi savoir lesquels considérer et en quelle proportion. Ce travail est essentiel car les facteurs sont les entrées qu’utiliseront nos algorithmes. Notons que l’âge est un autre facteur fondamental dans l’apparition du cancer. Effectivement, plus le sujet est âgé, plus il a été soumis à de nombreux facteurs cancérogènes au long de sa vie. D’autre part, les mécanismes biologiques de réparation perdent en efficacité avec l’âge. De plus, les jeunes sont soumis à des cancers plus atypiques que les personnes âgées. Pour cette raison nous commencerons notre discrimination des sujets de la base de données par l’âge et le sexe des individus. Puis nous pourrons entrainer nos intelligences artificielles grâce aux facteurs que nous avons et allons déterminer [1].

Prévention : Actuellement 30 à 50% des cancers peuvent être prévenus grâce à la connaissance de leurs facteurs de risques. Un dépistage précoce basé sur la connaissance des facteurs de risques du cancer et des comportements et antécédents du patient permettrait d'améliorer considérablement les chances de rémission et de réduire drastiquement les coûts liés aux cancers. L'enjeu est mondial, mais est donc primordial dans les pays à faibles vigueur économique disposant des moyens les moins efficients pour le dépistages et pour les traitements. Le dépistage précoce du cancer permet de limiter son impact sur la santé économique d'un pays : d'une part, un cancer se soigne de manière moins onéreuse à son commencement, mais en plus, tant que le cancer n'est pas trop développé, les patients peuvent continuer à être actifs. En 2010, l'impact économique annuel du cancer – dépenses de santé et perte de productivité – a été estimé à 1160 milliards de dollars (US $) dans le monde. Ce qui explique que parmi les pays à revenu faible ou intermédiaire, seul 1 sur 5 seulement dispose des moyens nécessaires pour conduire une politique de lutte contre le cancer. Pourtant, ce sont bien ces pays qui sont la pierre angulaire de la lutte contre le cancer, car 70% des décès par cancer y surviennent [3]. Il est donc primordial d'étudier l'évolution des occurrences des cancers dans les pays en développement car s'il est possible de prédire l'évolution des taux d'occurrences des cancers dans ces zones, il sera alors envisageable d'adapter les moyens employés en fonction des besoins estimés et donc d'optimiser la force financière employée. Cela permettrait alors d'influencer positivement sur les résultats de la lutte contre le cancer dans ces pays où une amélioration quantitative est possible. L'intérêt est d'autant plus important que ces pays connaissent une transition épidémiologique, c’est-à-dire qu'il y a une transformation des causes de décès, les maladies infectieuses disparaissant progressivement au profit des maladies chroniques; dégénératives et des accidents. Il faut maintenant déterminer le cancer que nous allons étudier. Les caractéristiques que nous recherchons sur ce cancer reposent sur ses facteurs de risque. En effet, nous cherchons un cancer dont les facteurs de risque sont établis -par les études médicales- car nos algorithmes les prennent en entrée.

Généralités sur les cancers digestifs

Les cancers digestifs sont les 3èmes cancers les plus courants dans le monde chez l’homme ainsi que chez la femme. Cette famille de cancer est composée de deux cancers principaux : les cancers de l’estomac (dit gastriques) et les cancers colorectaux. Les cancers colorectaux représentent le 3ème cancer, en occurrence, chez l'homme et chez la femme. Le cancer de l'estomac est le 4ème chez l'homme et le 5ème chez la femme [13]. Les facteurs de risques des cancers digestifs reposent pour beaucoup sur l'alimentation pour ces 2 cancers. Cependant, pour le cancer de l'estomac, le facteur de risque principal est l'infection au H. Pilori et les cancers gastriques sont 2 fois plus présents chez les hommes que chez les femmes. D'après la carte Incidence des cancers de l'estomac (voir figure ci-contre).

Incidence des cancers de l'estomac (en 2012, pour 100 000)
Incidence des cancers colorectaux (en 2012, pour 100 000)
Indice de développement humain (2012)

la répartition de ce cancer est assez éparse et distribuée de manière indépendante avec le développement des pays -or rappelons qu'il s'agit pour notre étude d'étudier le cas des pays en voie de développement-. Les cancers colorectaux sont en revanche principalement présents dans les pays développés du fait des habitudes alimentaires, comme le montre la carte Incidence des cancers colorectaux. On peut notamment remarquer une similitude flagrante entre cette carte et la carte Indice de développement : plus un pays est développé, plus le taux d'occurrence des cancers colorectaux est important. Les habitudes alimentaires sont par excellence liées au développement des pays. Il est donc très intéressant d'étudier des cancers dont les habitudes alimentaires représentent un facteur de risque car nous nous intéressons aux pays en développement et à des prévisions sur plusieurs décennies. Nous fonderons donc nos prévisions sur les cancers digestifs. Désormais, il faut déterminer des facteurs de risques de manière précis pour le cancer colorectal [9] qui est le principal cancer digestif et donc l'occurrence semble fortement liée au développement des pays d'après l'analyse qualitative que nous venons de mener avec ces cartes. La détermination précise de ces facteurs améliorera la fiabilité de nos algorithmes.

Le cancer colorectal (CCR)

Facteurs de risque du cancer colorectal : Nous savons désormais quel cancer étudier, il s’agit maintenant de déterminer et d'ordonner les facteurs de risque clés de ce cancer en particulier. Le premier facteur considéré est alimentaire. Les régimes hypercaloriques et riches en graisses animales (viandes rouges), la manière de griller les viandes, la consommation d'alcool sont autant de facteurs qui favorisent l'apparition du CCR. A contrario, la consommation de fibres, la pratique d'activités physiques sont des facteurs protecteurs à l'apparition du CCR. Ainsi 70% des CCR pourraient être évités par une meilleure alimentation [10]. La consommation de viande varie considérablement entre les pays, de quelques pourcents de la population jusqu'à 100% selon les pays, et des proportions légèrement inférieures pour ce qui est des produits carnés transformés. Les experts ont conclu que chaque portion de 50 grammes de viande transformée consommée quotidiennement accroît le risque de cancer colorectal de 18% [2]. Ainsi, les individus qui mangent de la viande rouge 7 fois par semaine cours un risque 85% plus élevé de développer un CCR que ceux qui en mangent 3 fois par semaine [5]. Le premier facteur de risque est donc la consommation de viandes rouges de manière très fréquente et ses méthodes de cuissons. Nous pouvons ajouter à cette étude alimentaire la consommation de beaucoup de sel dont l’impact est avéré mais n’a pas été quantifié. Un autre facteur important est l'âge de l'individu. Il est très rare de développer un tel cancer avant 40 ans, et à partir de 50 ans, le risque augmente considérablement. Un dernier facteur est la présence de la bactérie helicobacter pylori qui s’avère être non négligeable d’incidence du cancer colorectal. [13]. Nous avons donc établi les principaux facteurs de risques propres à un cancer colorectal, ce qui nous fournit, avec les facteurs généraux du cancer, une liste d’arguments clair pour nos algorithmes.

Prévention du cancer colorectal : Nous travaillons sur la base de données des occurrences car nous souhaitons sensibiliser au dépistage les pays que nous prédirons comme les plus touchés. En effet, la meilleure arme repose sur une détection précoce du cancer colorectal car dépisté tôt, il se guérit dans 9 cas sur 10 [6]. Le CCR est décelable par la présence de sang dans les selles. Ce dépistage s'effectue donc par un test immunologique sur les selles qui est rapide et peu coûteux [7]. Si le test est positif, il est nécessaire d'effectuer une coloscopie. Ainsi, les cancers colorectaux se diagnostiquent très facilement, ce qui est une propriété importante qui nous conforte encore plus dans le choix du cancer à étudier. D’autant plus que les chances de guérisons sont de 90% s’il est détecté suffisamment tôt.

Cout du cancer dans les PED à travers l'étude de l'exemple de la Malaisie : Pour renforcer l’importance de prévoir les incidences et non la mortalité, nous avons fait une étude du coût, pour l’état et pour le patient, des soins du cancer colorectal. Nous prenons ici l’exemple de la Malaisie. Une étude sur la population atteinte de ce cancer en Malaisie montre qu’un cancer colorectal coute en moyenne $2595 et que 47,8% des individus subissant le traitement se trouvent dans la position d’une « Catastrophic Health Expenditure » à cause de ses faibles revenus -ce taux est de 39,8% en Corée et de 67,9% en Iran. En effet, 31.6% des foyers ont un revenu en dessous de $2000 et nous observons que le coût des soins n’est absolument pas proportionnel aux moyens de patient. Enfin notons que le problème pécuniaire est dû au fait que 72,5% des malades ne travaillent pas puisqu’ils ont un certain âge [15]. Le cas de la Malaisie est très général. Au Pakistan, le revenu annuel moyen est de 650$ et un test de présence de sang dans les selles est de 1,3$ contre 100$ pour une coloscopie [14]. Nous en concluons aisément que l’impact économique d’un cancer colorectal sur le patient et pour l’état est très néfaste. Ainsi les pays en développement ont en effet fort intérêt à mener une action de dépistage plutôt que de soins.

Conclusion : Désormais notre problématique est de réaliser un modèle de prédiction, dans l'espace et le temps, des occurrences du cancer colorectal dans les pays en développement. En effet, ce cancer présente deux intérêts majeurs : - Son facteur de risque majeur est lié aux habitudes alimentaires et donc à l'indice de développement d'un pays. Plus l'IDH est grand, plus le taux d'occurrence augmente. - Il est facilement détectable car il est caractérisé par l’apparition de sang dans les selles et une analyse à bas coût suivi d'une coloscopie permet de le détecter. Ainsi, ce cancer pousse les patients à consulter car ils présentent des signes caractéristiques de la maladie.


Revue de la base de données

Définition d'un pays en voie de développement

Notre projet a pour objectif de prédire les incidences des cancers colorectaux dans les pays en voie de développement. Dans ce but, Epidemium a mis à notre disposition des bases de données. Afin de pouvoir répondre correctement aux attentes du client, il nous a fallu définir clairement la notion de pays en voie de développement. La notion de développement humain est évolutive. Différents instruments de mesure tels que l’IDH, l’IPF (indicateur de participation féminine) permettent de suivre sa progression, toutefois, se cantonnant à des critères spécifiques, ils sont trop souvent représentatifs d'une réalité à minima : l’IDH [16, 24] s’appuie sur trois critères, l’espérance de vie, le PIB/hbt, et le taux d’alphabétisation, et ne tient pas compte de la liberté politique des individus par exemple. On comprend alors pourquoi la notion de pays en voie de développement ou encore de pays en développement (tout dépend de la traduction faite du terme developing country) fait polémique [17], étiquette lourde à porter - être classé dans cette catégorie affecte les relations commerciales et politiques avec les autres pays -, d’aucun ne la considère comme la conséquence d’une vision réductrice et occidentalisée de ce qu’est le « développement ».

Nos choix de pays pour les pays en voie de développement : Depuis les premières occurrences du terme pays en développement, l’organisme le moins contesté pour en établir la liste était la Banque Mondiale, or celle-ci en 2016 a décidé de ne plus produire cette liste jugeant la distinction entre pays en développement et pays développé obsolète de nos jours et surtout trop sujette à polémique. Aussi avons-nous fait le choix au vu de notre travail de modélisation statistique de considérer les pays nommés developing countries en 2017 par l’ONU [18] et de soustraire à cette liste les pays entrant dans la catégorie least developed countries [19], landlocked developing countries [20] et small island developing countries [21]. Sans rentrer dans une nouvelle querelle sémantique, nous avons fait ce choix car nous pensons que les données du cancer des pays les moins développés (least developed countries) et des autres catégories citées ci-dessus, ne seront pas adaptées à l’élaboration d’un modèle de prédiction des occurrences des cancers. Pour les pays les moins développés (least developed countries) [19] : une constante demeure, les espérances de vie y sont très faibles. Entre instabilité géopolitique, politique, épidémies persistantes et faible accès aux soins, les raisons de ces faibles espérances de vie sont multiples et laissent peu de place à la détection des cancers, à leur référencement précis et même au développement de ceux-ci. Pour les pays enclavés en développement (« landlocked developing countries ») [20] : ces pays ont d’une part des statistiques démographiques très en dehors de la norme (ceci est dû en partie aux faibles populations de ces pays) et d’autre part, ces pays plus que d’autres pays en développement sont soumis à de forts transits migratoires et notamment pour des raisons de santé (les hôpitaux dans ces pays n’ayant pas le matériel nécessaire au diagnostic et au traitement de maladie comme le cancer). Pour les petits pays en développement (« small developing countries ») : tout comme les pays enclavés leurs populations ne sont pas très représentatives des normes démographiques usuelles, et d’autre part, encore plus que pour les pays enclavés les systèmes de santé de ces petits pays sont dépendants de ceux des autres pays voisins. Ci-contre la liste des pays retenus.

Liste des pays concernés par les critères retenus

Nettoyage de la base de données

Introduction : Puisqu’il s’agit dans notre challenge de créer un modèle prédictif des occurrences des cancers, et d’utiliser des technologies types machine learning, réseaux de neurones, la fiabilité de notre modèle dépend en grande partie -pour ne pas dire exclusivement- de la qualité des données en entrée. En effet, l’algorithme utilisant ces méthodes va trouver de lui-même des corrélations entre les données et créer un modèle. Il s’agit donc d’éviter au maximum de donner à l’analyse par l’algorithme, des données qui ne seraient pas représentatives de la réalité que l’on veut modéliser. Pour ce qui est de notre challenge, le nettoyage s’avère être un défi puisque d’une part, les pays à analyser ne possèdent pas les meilleurs systèmes de détection du cancer et d’autre part, des facteurs à la fois géopolitiques -guerres, migrations-, politiques -ségrégation d’une partie de la population et donc non accès équitable aux soins- et de santé -pandémies- rendent les chiffres des occurrences du cancer peu représentatifs de la réalité dans les pays concernés. C’est, conscients de ce défi que nous avons fait le choix, à la manière des statisticiens qui cherchent à supprimer les valeurs outlayers absurdes de leurs modèles, de supprimer avant tout traitement les données -les années et les occurrences du cancer associées- absurdes d’un point de vue géopolitique et historique.

Méthodologie : Bien entendu le nettoyage de la base de données demande une analyse de chaque pays donné dans la liste des pays en voie de développement déterminée par le groupe. Pour chaque pays nous avons procédé comme il suit. Tout d’abord, nous avons regardé les grandes lignes de son histoire pendant le XXème siècle en nous concentrant particulièrement sur la période 1960 (début des données de la World Bank) jusqu’à nos jours [25,26]. A partir de 1960, nous cherchons les traces dans l’histoire du pays des phénomènes suivants :

- Augmentation forte de la mortalité. En effet, une augmentation forte de la mortalité est un problème de santé publique qui diminue l’effort consacré à la détection des cancers. Ceci est d’autant plus vrai pour les cancers digestifs, puisque les cancers digestifs ont d’une part une mortalité associée assez faible -du moins pas assez pour toucher de manière significative les taux de mortalité- et d’autre part se manifestent après 50 ans [22]. Force est de constater que souvent une augmentation forte de la mortalité est la traduction d’une guerre -civile ou non-, d’une pandémie -SIDA en Afrique par exemple- ou d’une période de famine.

- Phénomène de ségrégation. En effet, tout modèle sera valable si et seulement si, il y a dans la période donnée et le pays donné un égal accès aux soins pour l’ensemble de la population.

- Phénomène de migrations massives. En effet, en cas de vagues soit d’émigration -fuite de la population- soit d’immigration -arrivée de migrants - la démographie change en profondeur et n’est donc plus représentative. D’autant que les migrations de masses sont en général des migrations de jeunes personnes [23], groupe peu touché par les cancers digestifs.

Exemple d’application de cette méthodologie au cas de l’Afrique du Sud : Avec la fin de l’Apartheid en 1995, l’accès au soin se développe de manière plus rapide pour une population jusque-là marginalisée. En effet, la population noire est composée en 1995 de 35 millions de personnes, presque autant d’individus n’ayant qu’un accès limité aux soins.

Ainsi, doit-on prendre en compte les données de mortalité due au cancer avant 1995, sachant que ceux-ci n’étaient représentatives que d’une partie de la population ? (seulement 8% de blancs en 1995).
Taux de mortalité brut en Afrique du Sud, pour 1 000 personnes au cours du temps. Source : World Bank

Grâce à des données statistiques fournies par des sites comme perspective monde ou data population, on observe en Afrique du Sud une décroissance progressive du taux de mortalité entre les années 1960 et 1990, puis une augmentation rapide jusqu’en 2005.

- La diminution enregistrée de la mortalité pendant l’Apartheid est due à une diminution de la mortalité parmi la population blanche (la seule prise en compte dans l’état civil) et non pas parmi la population totale. A partir de 1995, la prise en compte de la population noire dans l’état civil implique une meilleure appréciation du taux de mortalité dans le pays, ce qui explique son augmentation.

- L’épidémie de sida implique une forte mortalité à partir des années 2000 : on risque d‘observer dans cette période une diminution de la mortalité des cancers, alors que cette diminution est uniquement due à une augmentation de la mortalité due au sida. On en déduit que les données de la mortalité des cancers en Afrique du Sud ne sont pas exploitables, pour plusieurs raisons :

- Pendant l’Apartheid, entre 1960 et 1995, les données ne sont pas exploitables car non représentatives de la totalité de la population

- A partir de 1995, l’épidémie de SIDA que connaît l’Afrique du Sud, et son augmentation du taux de mortalité qui l’accompagne risque de biaiser les données sur l’impact des cancers. En effet, on risque d’observer une diminution de la mortalité due au cancer, sans que ceux-ci soient mieux soignés.


Approche algorithmique par les réseaux de neurones

Choix d’un type d’algorithme pertinent

Nous nous sommes posé la question suivante : quelle méthode algorithmique adopter afin de répondre à la problématique définie ? Nous disposons de données sur l’économie, la santé ou encore l’aspect environnemental de différents pays pour des années données allant de 1950 jusque 2015 et nous voulons prédire informatiquement, à partir de ces données, le taux d’incidence du cancer colorectal dans ces pays dans les années qui suivent. L’objectif final est de connaître, certes le nombre de personnes touchées par la maladie, mais aussi et surtout les facteurs qui influencent le plus pour pouvoir mettre en place des méthodes de prévention adaptées. Epidemium proposait pour ce challenge l’utilisation du machine learning, située à l’intersection entre intelligence artificielle et Big data [31], ce qui parait pertinent. Il s’agit alors de construire un algorithme qui prend en entrée des données (inclues dans les datasets fournis par Epidemium) pour en déduire l’incidence du cancer colorectal à une certaine année. Mais quelles sont précisément les données d’entrées de notre modèle ? Quelles sont les sorties attendues ? Existe-t-il des exemples de cas similaires qui ont déjà étés traités ? Il existe deux types d’apprentissage en machine learning : supervisé et non-supervisé. Dans le cas de l’apprentissage supervisé, l’algorithme apprend à partir de données d’entrées dont on connaît déjà le résultat, pour être capable ensuite de faire des prédictions sur des données dont le résultat est inconnu. Dans le cas de l’apprentissage non supervisé, les données d’entrée ne sont pas annotées, et c’est à l’algorithme de détecter les similitudes entre données et de faire du « clustering » [30,31]. Nous devons ainsi faire appel à un apprentissage supervisé : c'est-à-dire entrainer l’algorithme avec les résultats déjà connus des années antérieures, pour ensuite prédire les résultats des années futures. Il existe également des distinctions selon que la sortie à prédire est une grandeur continue (problème de régression) ou simplement une catégorie (problème de classification) [30,31]. A première vue notre problème semblait plutôt adapté à un modèle supervisé de régression. Nous avons continué nos recherches pour trouver ce qui avait déjà été fait et qui se rapprochait de notre problème. Nous avons découvert la notion de propensity modeling qui correspond à des modèles utilisés pour faire des prédictions dans le temps [30], [32]. Nous avons notamment trouvé une étude de cas présentant un opérateur mobile qui cherchait à prédire le nombre de clients susceptibles de résilier leur contrat dans les mois à venir [30,33]. Un data scientist avait traité ce problème en mettant en place un modèle qui prenait en entrée les caractéristiques d’un client donné sur les 10 derniers mois (ses facturations, son nombre d’appels…) et renvoyait en sortie si oui non ce dernier allait changer d’opérateur dans les 3 mois qui suivent. Inspirés par cette étude nous avons d’abord pensé à un modèle prenant en entrée les caractéristiques d’un pays aux années N-1, N-2, …, N-5 par exemple, et en déduisant l’incidence du cancer colorectal dans ce pays à la fin de l’année N. Cependant, avec cette structure, la quantité de données utilisées pour la phase d’apprentissage est limitée : nous disposons d’environ 60 pays avec un historique de 50 ans, soit environ 3000 entrées disponibles. Si ce nombre limité était un problème, nous pourrions créer de la fake data et nous rapprocher du cas de l’opérateur téléphonique, en étudiant non plus un pays en un seul bloc mais sa population, composée d’individus - dont les caractéristiques sont déterminées aléatoirement en fonction des proportions dans le pays. On déplace ainsi un problème de régression vers un problème de classification. Il s’agirait alors de créer un modèle qui prend en entrée un individu et ses caractéristiques et renvoie si oui ou non il est susceptible d’être malade à l’année N, puis de sommer ces résultats sur toute la population pour estimer le nombre de malades total dans le pays. Au-delà de cette question sur le nombre de données d’entraînement, il reste encore à déterminer quelles caractéristiques sont pertinentes en entrée du programme : cela constituera l’un des grands objectifs de notre projet dans les prochaines semaines. Nous pourrons pour cela nous appuyer à la fois sur une étude épidémiologique, médicale, et sur une détermination informatique à partir des données fournies, grâce à un algorithme de random forest par exemple [27]. Il faudra ensuite construire un modèle, probablement sur la plateforme Dataiku [34] mise à disposition par Epidemium qui nous donne à accès à différents algorithmes de machine learning (random forest, réseaux de neurones... [27,28,29]).Enfin il faudra entraîner, puis tester notre modèle : pour cela il faut considérer un jeu de données pour l’entraînement et un jeu de donnée pour le test (généralement on réserve 80% des données pour entraîner [30]), on pourra prendre par exemple les données sur tous les pays de 1950 à 2000 pour entraîner le programme puis les données de 2001 à 2015 pour le tester. Nous avons choisi de nous intéresser à un type d’algorithme de machine learning souvent utilisé pour des problèmes de prédiction similaires au nôtre : les réseaux de neurones.

Fonctionnement d’un réseau de neurones

Un réseau de neuronal est un ensemble de briques élémentaires (voir schéma ci-contre), les neurones formels [28], appelés ainsi par analogie avec les neurones du cerveau humain. Comme leurs homonymes biologiques, ils prennent en entrée un ensemble de signaux (X1, … Xp) venant des neurones voisins, et envoient un unique signal en sortie. Les différents signaux d’entrée sont pondérés par une fonction de poids (coefficients (α0, α1, … αp) propres au neurone considéré), puis sommés. Cette somme est alors l’argument d’une fonction d’activation g, dont la valeur détermine la valeur de sortie s. Il existe plusieurs types de fonctions d’activation (linéaire, sigmoïde, seuil ,...).
Schéma d’un neurone fonctionnel et expression de la sortie d’en neurone. Source : univ Toulouse

L’architecture la plus simple possible du réseau de neurones est une structure en couches successives (cas du perceptron multicouche), dans lequel les entrées des neurones d’un couche sont les sorties des neurones de la couche précédente. Lors des phases d’apprentissage, tout l’enjeu est donc d’ajuster les vecteurs poids des neurones du réseau afin que ceux-ci rendent les valeurs les plus justes possibles.

Approche algorithmique par les algorithmes génétiques

Séries temporelles

La prédiction de l’incidence du cancer colorectal entre dans le domaine de la prévision de séries temporelles. Il est possible de traiter ce problème en établissant des modèles statistiques basés sur la connaissance du cancer en question – ce qui a été jusqu’à maintenant la manière conventionnelle de prédire la mortalité des cancers [35][39]. Cependant, il s’avère que l’apprentissage supervisé dans le cadre du machine learning produit des prédictions de haute précision. [35] En étant conscients des limitations des algorithmes d’apprentissage supervisé [36][38] et des problèmes intrinsèques aux données cliniques [37], nous avons cherché à comparer différents algorithmes. Il a aussi été question de préciser le cadre de travail et la manière avec laquelle tester nos prédictions. A travers nos recherches, nous avons trouvé qu’une très grande majorité des travaux déjà faits sur l’utilisation du machine learning en relation avec les cancers concernaient son dépistage sur des individus, et non pas son évolution au niveau d’une population – ce qui est notre objectif. Nous avons donc décidé de formuler le problème de prédiction de l’incidence du cancer colorectal comme étant une prévision de séries temporelles. Les bases de données à notre disposition nous offrent les incidences du cancer colorectal pour une cinquantaine d’années pour chaque pays en voie de développement. On peut donc considérer le cadre suivant : Explication du cadre considéré pour les réseaux de neurones de l'équipe Octopus Nous faisons donc l’hypothèse qu’à partir de 𝑛 valeurs précédentes, il est possible de prédire 𝜑𝑡. 𝑛 définit finalement la fenêtre d’information sur laquelle l’estimateur (l’algorithme de prédiction) aura accès pour prédire la valeur suivante.

Identification structurelle et paramétrique

Identification des structures paramétriques par l'équipe Octopus

Un résultat de la théorie d’estimation [38] nous montre que l’erreur moyenne quadratique théorique – qui représente la capacité de généraliser d’un estimateur – se décompose en se décompose en (𝑤)+𝐵𝑖𝑎𝑖𝑠²+𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒, avec 𝑉𝑎𝑟(𝑤) inévitable car caractéristique de 𝑦. Le biais caractérise l’approximation en relation avec la fonction cible et la variance caractérise l’approximation seule. Un grand biais reflète ici un manque de complexité de la famille de fonction choisie pour approximer et une grande variance le contraire. Il y a donc un compromis à trouver entre une famille de fonctions trop simple qui ne passerait pas par l’ensemble d’apprentissage, et une trop complexe pouvant annuler l’erreur moyenne quadratique empirique mais qui généraliserait très mal sur des points non présents dans l’ensemble d’apprentissage. Pour valider un modèle et mesurer sa capacité à le généraliser (dans notre cas prédire) on peut le tester de différentes manières : - Holdout : consiste à diviser les données disponibles en un ensemble d’apprentissage et un ensemble de test. On fait donc l’identification paramétrique indépendamment du deuxième ensemble et on calcule a posteriori l’erreur quadratique moyenne sur l’ensemble de test. - K-fold cross validation : on divise l’ensemble des données en 𝑘 sous-ensembles égaux et on calcule l’erreur quadratique moyenne sur chacun en faisant l’identification paramétrique sur les 𝑘−1 autres. Puis on fait la moyenne de ces erreurs. [38] Une fois 𝑓 ̂trouvé et validé, on peut procéder à la prédiction de la valeur de l’incidence de l’année suivant la dernière année à laquelle on a accès : c'est ce qu'on appelle one step ahead prediction. Il reste ensuite plusieurs méthodes pour prédire les autres valeurs qui suivent : soit de manière directe en redonnant 𝑛 valeurs en entrée de 𝑓 ̂dont la dernière qu’on a prédit, soit en trouvant (𝑓 ̂)′ en intégrant la prédiction qu’on a faite dans l’ensemble d’entrainement. Parmi les modèles utilisés dans la littérature pour la prédiction des séries temporelles il y a les Neural networks [41][42], SVM et les Decision trees [38]. Au vu de la multitude de ces modèles, nous avons décidé dans une première approche de ne pas plonger dans les détails techniques de chacune. Cependant, nous avons trouvé que la combinaison de plusieurs de ces modèles donnaient presque toujours un meilleur résultat. [40] Après avoir choisi une famille de fonctions il faut procéder à l’identification paramétrique : problème qui peut être assez difficile en fonction de la complexité de la famille de fonctions et du nombre de features. C’est pour cela que nous allons utiliser des méthodes de recherche heuristique tel que les algorithmes génétiques.

Algorithmes génétiques

Les algorithmes génétiques sont basés sur l'exploration stochastique [43] : à partir d'une solution choisie au hasard, on essaye de l'améliorer en effectuant des modifications locales, elles-mêmes choisies au hasard. Cependant, une exploration stochastique seule peut converger vers des minima locaux dépendant de la condition initiale, des modifications et de la mesure. On obtient généralement un bon résultat, mais il n'est pas optimal. En fait, même s'ils utilisent le hasard, les algorithmes génétiques ne sont pas totalement aléatoires. [44] Ils exploitent de manière judicieuse l'information obtenue précédemment pour spéculer sur la position de nouveaux points à explorer, avec l'espoir d'améliorer les performances. On améliore donc l'exploration stochastique avec deux différences principales, s'inspirant de la sélection naturelle et de la génétique des populations. - Tout d'abord, on utilise une population de solutions (appelées individus) que l'on va comparer entre elles et améliorer. - Puis on effectue des croisements entre les populations.

Ces deux améliorations permettent d'explorer de manière très large l'espace des solutions et de converger vers la solution optimale, à condition de paramétrer correctement l'algorithme. En résumé, dans un algorithme génétique, on itère de nombreuses fois une étape En résumé, dans un algorithme génétique, on itère de nombreuses fois une étape selon le principe suivant. - Initialisation : on part de la population issue de l'étape précédente (ou d'une population aléatoire pour la première étape). - Croisements : on sélectionne plusieurs individus dans cette population, que l'on croise entre eux selon des critères définis lors de l'écriture de l'algorithme. On ajoute ces individus à la population actuelle. - Mutations : on ajoute des individus aléatoires, ce qui permet de ne pas rester bloqués sur un minimum local. - Sélection : on crée une nouvelle population en sélectionnant les meilleurs individus de la population actuelle. Bien configurés, les algorithmes génétiques peuvent être très performants dans leur recherche d'amélioration. Les règles de transitions sont probabilistes et non déterministes, donc toutes les solutions peuvent potentiellement être explorées. De plus, les hypothèses sur le domaine d'exploration sont très peu contraignantes, contrairement à d'autres recherches d'extrema nécessitant des propriétés de continuité ou de dérivation. Il s'agit désormais de savoir comment appliquer les algorithmes génétiques à notre problème de prédiction. Il faut rechercher des facteurs pouvant influencer la mortalité du cancer étudié, par exemple le PIB du pays, son IDH, des événements politiques ou économiques... Puis on va chercher à optimiser les coefficients par lesquels on aura pondéré chacun de ces N facteurs. Par exemple, les individus peuvent être les vecteurs 𝛼=(𝛼1…𝛼𝑛) constitués des 𝑛 coefficients à optimiser, et on cherche (𝛼1…𝛼𝑛)𝑜𝑝𝑡.


Approche algorithmique par les forets aléatoires

Afin de répondre à la problématique globale du projet, il nous apparait comme une évidence que nous allons avoir à implémenter un algorithme d’apprentissage automatique afin de pouvoir faire des prédictions et discerner les facteurs les plus influents sur le développement d’un cancer. Parmi tant d’autres algorithmes de machine learning, nous nous sommes penchés sur l’algorithme de forêt aléatoire, qui a déjà su faire ses preuves dans des projets de recherches médicales sur le cancer. Après l’analyse de deux exemples d’utilisation de cet algorithme dans ce domaine qui illustrent la potentialité et l’efficacité de ce choix de modèle, nous allons nous pencher sur le fonctionnement précis de l’apprentissage dans une forêt aléatoire. Cela nous mènera à considérer des méthodes d’implémentation, notamment en langage python, et à se poser la question de la compatibilité de nos données avec cet algorithme. Nous finirons cet état de l’art du côté informatique du projet en revenant au lien étroit entre la médecine et la science des données de nos jours et à l’importance d’une telle collaboration.

Etat de l’art de l’efficacité des forets aléatoires dans le domaine de la recherche médicale

Classification des tumeurs des patientes potentiellement atteintes d’un cancer du sein : A partir de 3 modèles différents [45], et d’une base de données, l’auteur a eu pour objectif de pouvoir prédire si une patiente est atteinte du cancer du sein ou non selon les tumeurs observées (prédire si elles sont bénignes ou malignes). Il s’agit de la base de données du Wisconsin qui contient notamment comme variables explicatives des attributs atomiques observés visuellement, tels que l’épaisseur des amas, l’uniformité de la taille des cellules, de leur forme, l’efficacité des mitoses… Les 3 modèles utilisés sont les forêts aléatoires, « naive Bayes classifier », et « support vector machine », tous trois des modèles de classification, c’est-à-dire qui à partir d’une observation des variables explicatives renvoie une variable dont la valeur est une catégorie, ici la catégorie cancer ou la catégorie pas_cancer. Il s’agit de comparer ces trois modèles, notamment en mesurant leur performance grâce à leurs matrices de confusion qui donnent le taux d’erreurs d’un modèle lors de la phase de test. Pour l’algorithme de random forest, qui consiste en la construction d’arbres de décision à partir d’échantillons aléatoires des données d’entrainement, le nombre d’arbres est fixé à 2000, ce qui doit donner à la fin une bonne précision. Nous reviendrons sur ces notions techniques lors de la partie de ce rapport sur le fonctionnement de l’algorithme. La base de données est ici divisée en un training set et un testing set, à hauteur de 75% et 25% des données. Voici la matrice de confusion ci-contre obtenue pour le modèle de forêt aléatoire, avec 271 lignes de testing set : on constate une certaine efficacité du modèle.
Matrice de confusion du random forest pour la classification des tumeurs des patientes potentiellement atteintes d’un cancer du sein

De plus, d’après l’auteur, ce modèle permet après entrainement de négliger un à un les paramètres d’entrée pour voir si le modèle devient plus fiable ou pas. Cela permet donc de déterminer quels sont les facteurs qui influencent effectivement le développement du cancer. Ici, les tailles de cellules et leurs formes jouent un grand rôle mais pas la variable qui concerne les mitoses. Pour les 2 autres modèles entrainés sur la même base de données, la prédiction est moins bonne (plus d’erreurs dans la matrice de confusion). L’auteur conclut alors que l’algorithme de forêt aléatoire est celui des 3 algorithmes utilisés qui donne la meilleure prédiction.

Prédiction de la survivabilité des patients atteints du cancer en Palestine : Il est ici présenté la manière dont a été exploitée la base de données des patients de Gaza en 2011 pour prédire la survivabilité des patients atteints du cancer (2ème cause de mortalité en Palestine) [46]. Les modèles de forêt aléatoire et d’induction ont été entrainés à partir d’un training set issu de cette base de données. La mesure de performance donne une nouvelle fois l’algorithme de forêt aléatoire vainqueur, avec 74,6% de fiabilité contre 73,63% pour le modèle d’induction. Pour la forêt aléatoire, les auteurs se sont limités à 50 arbres de décision, avec un algorithme de type « gain_ratio » pour la construction de ces arbres. Nous verrons ensuite différents algorithmes de construction d’arbres de décision. De plus, la profondeur maximale de ces arbres est fixée à 50. Il n’y enfin pas eu de méthode de pruning (ôter les parties qui ne sont pas influentes dans un arbre de décision). On obtient la performance ci-contre, qui est meilleure que pour l’autre type de modèle.
Performances de l'algorithme random forest pour la prédiction de la survivabilité des patients atteints du cancer en Palestine

Il existe beaucoup d’autres cas d’exploitation de telles bases de données, comme l’a fait Ana Silva et al avec une prédiction de survivabilité au cancer du côlon grâce à des modèles dont celui de forêts aléatoires [47]. Ainsi, tout ce travail fait en amont dans des contextes relativement différents du notre mais dans le même domaine illustre le fait que l’apprentissage automatique est aujourd’hui un outil indispensable dans la recherche médicale et notamment l’épidémiologie du cancer. De plus, le modèle de forêts aléatoires semble être très prometteur. Vous aurez certes remarqué que dans tous les articles cités, ce modèle est utilisé à des fins de classification alors que nous pouvons aussi être intéressés par un modèle de régression (qui renvoie une valeur et non une catégorie). Ce n’est pas un problème, car, comme nous le verrons dans la partie suivante, les forêts aléatoires sont selon la manière dont on les entraine un modèle de classification ou de régression.

Fonctionnement de l’apprentissage d’une forêt aléatoire

Arbres de décision : Une forêt aléatoire est composée d’arbres de décisions [48, 49]. Un arbre de décision est un modèle qui permet d’affecter un nombre ou une catégorie à un ensemble de variables d’entrée selon leurs valeurs. Il s’agit donc d’un modèle de classification, car il renvoie un nombre fini de catégories. C’est une méthode qui a l’avantage d’être intuitive et assez simple. Le principe est le suivant : l’espace engendré par les variables explicatives dont on dispose est découpé selon une certaine partition lors de l’entrainement du modèle. Ensuite, pour prédire le résultat d’une nouvelle observation des variables explicatives, une série de tests est effectuée sur ces variables pour déterminer à quelle partie de la partition de l’espace cette observation appartient. On peut alors lui attribuer une catégorie ou une valeur correspondant à cette catégorie. Sur le schéma ci-dessous, il n’y a que 2 variables explicatives X1 et X2, et on partitionne l’ensemble des valeurs prises par le couple (X1,X2) en 5 catégories. L’arbre de décision est ensuite construit à partir de tests pour déterminer pour une valeur de (X1,X2) à quelle catégorie le résultat appartient. Schéma d'exemple d'application d'un algorithme de random forest par l'équipe Octopus Reste maintenant à savoir comment est effectuée cette partition de l’espace engendré par les variables explicatives. Sur l’exemple ci-dessus, on devine que la partition n’a pas été prise au hasard mais a été plus ou moins optimisée en fonction des données d’entrainement représentées en vert sur le graph. Il existe en effet plusieurs algorithmes de « split » qui servent à diviser un noeud en plusieurs sous-noeuds et ainsi préciser la partition. Dans l’exemple [45], la partition ne comportait que 2 parties, qui correspondaient à « cancer » ou « pas cancer ».

Dans tous ces algorithmes, le principe est décrit ci-contre.
Code classique pour du random forest utilisé par l'équipe Octopus

Dans ce pseudo-code, un noeud est déclaré terminal (et donc feuille) si toutes les observations du set d’entrainement arrivées jusqu’à ce noeud sont dans la même catégorie ou s’il n’y a plus d’attributs à tester (ie si à ce niveau de l’arbre, toutes les variables explicatives sont entièrement déterminées), auquel cas on lui attribue la classe majoritaire. La différence entre ces algorithmes est la manière dont on sélectionne le test à faire dans un nouveau noeud si celui-ci n’est pas déclaré être une feuille de l’arbre. Les deux méthodes utilisées sont l’indice de Gini (CART) et le critère d’entropie (C4.5) [51] : Ces deux grandeurs donnent une mesure du désordre ou d’inégalité de répartition pour le choix d’un test donné à une position de l’arbre donnée.

Grandeurs pour expliquer l'algorithme de random forest créé par Octopus

Pour éviter d’avoir des arbres trop grands et un effet d’overfitting qui ne généralise pas bien les données, on peut fixer une limite à la construction de l’arbre, comme une limite de profondeur maximale par exemple.

Padding et forêt aléatoire : Une fois acquise la notion d’arbre de décision, le modèle de forêt aléatoire est assez simple à concevoir [48, 50]. En effet, il consiste en l’élaboration de beaucoup d’arbres de décision différents à partir des données d’entrainement. Pour prédire le résultat d’une nouvelle observation des variables explicatives, il suffit de faire la moyenne de résultats renvoyés par chacun des arbres dans le cas d’un modèle de régression, ou de renvoyer la catégorie qui apparait le plus souvent dans le cas d’un modèle de classification. On en trouve des applications dans des domaines aussi différents que la banque (trouver les clients loyaux), la médecine (identifier la bonne combinaison de composants pour un médicament), le trading, la classification d’images… Lors de la construction de cette multitude d’arbres de décision, on ne veut bien sûr pas avoir le même arbre à chaque fois. Pour cela, on utilise la méthode de bagging. Cela consiste à ne sélectionner pour la construction d’un arbre qu’un échantillon aléatoire des données d’entrainement. On garantit ainsi presque surement l’unicité de chacun des arbres dans notre forêt, et on stabilise les résultats de prédictions en en réduisant la variance. L’avantage de ce modèle est qu’à partir du modèle assez faible de l’arbre de décision, on peut construire un modèle très précis à condition d’entrainer un grand nombre d’arbres. Outre le fait que ce modèle peut être de type régression ou classification, il prend en compte les données manquantes et maintient une certaine cohérence vis-à-vis de ces données manquantes. Il permet de plus d’être implémenté à partir de bases de données à beaucoup de dimensions (beaucoup de variables explicatives, ce qui nous intéresse vu la taille très conséquente de notre base de données). Enfin, ce modèle permet d’estimer assez facilement quelles variables explicatives ont vraiment de l’influence sur le résultat, ce qui nous intéresse beaucoup pour trouver les influences majeures du développement du cancer dans les pays en voie de développement. Comme aucun modèle d’apprentissage automatique n’est parfait, ce modèle présente aussi certains inconvénients. En effet, il induit un effet boite noire (on ignore les choix faits par l’algorithme pour construire les noeuds des arbres) qui peut être dérangeant dans certains cas où l’on veut avoir plus de précisions sur la manière dont les arbres de décision sont construits par l’algorithme (en clair quels tests ont été choisis et à quoi ressemblent visuellement les arbres construits). Il y a aussi le danger d’overfitting de l’arbre, c’est-à-dire que l’algorithme peut créer des arbres trop complexes qui ne généralisent pas bien les données, ainsi que le danger d’instabilité, qui se traduit par de grandes différences de résultats pour des petites variations des valeurs d’entrée. Ce dernier problème est cependant résolu par le bagging et le grand nombre d’arbres implémentés. Malgré tout, nous avons choisi de nous intéresser à ce modèle pour répondre à notre problématique pour tous les avantages cités ci-dessus qu’il présente et qui sont adaptés à nos exigences. Reste à savoir comment nous allons implémenter ce modèle. Nous comptons utiliser Dataiku, plate-forme de visualisation de données fournie et conseillée par notre client, ainsi que le langage Python, dans lequel une librairie dédiée à l’apprentissage automatique devrait nous aider grâce à des fonctions pré-codées [52]. Le gros du travail consiste à visualiser et trier selon nos besoins la base de données.

Conclusion

D’après Alain Livartowski, oncologue et directeur des données à l’institut Curie à Paris, à propos du machine learning appliqué à l’imagerie médicale : « Cela peut être comparable à ce qu’ont apporté les IRM en neurologie. Les ordinateurs ne fatiguent pas, n’ont pas d’a priori, voient des choses qui échappent à l’homme et sont plus rapides » Le Docteur Laurent Alexandre, président de la société de séquençage DNAVision, ajoute que « Les IA sont en outre moins sensibles que les humains au paiement à l’acte et n’ont pas d’ego qui peut fausser leur jugement » Beaucoup pourraient alors se dire « voilà la fin du travail des médecins », mais nous nous permettons de nuancer ces propos. Tout d’abord, des personnes indispensables travaillent efficacement à trouver de nouveaux symptômes caractéristiques de certaines maladies et qui ne figurent donc pas dans les bases de données. De plus, comme il a été rappelé à plusieurs reprises lors d’une journée de conférences d’acteurs importants à l’institut Curie à propos des données dans le domaine de la santé à laquelle nous avons assisté, les algorithmes ne remplaceront jamais l'expertise et la sensibilité d'un humain dans le diagnostic ou la recherche médicale mais permettent de plus en plus de les compléter. Par exemple, pour les anapathes : 99,5% des cancers sont détectés sur les images avec assistance informatique contre 95% avec seulement les médecins et 87% avec seulement les algorithmes. Nous sommes donc convaincus que l’on doit tendre vers un travail en harmonie entre l'homme et les algorithmes d'apprentissage automatique comme random forests dans le domaine médical. C’est une conviction qui agit fortement sur notre motivation à réaliser ce projet.


Conclusion de l’étude bibliographique

Au cours de cette bibliographie de nombreux aspects ont été abordés. Cela nous a permis dans un premier temps de définir un cadre de travail. Nous allons ainsi travailler sur les cancers digestifs et en particulier sur les cancers colorectaux pour avoir un large choix de facteurs vérifiés disponibles. Nous allons travailler sur les PED car nous souhaitons apporter des prévisions qui permettront à ces pays de faire une meilleure prévention. Il sera ainsi possible de réduire la mortalité due à un manque de prévention et de réduire le coût pour les personnes à faible revenus. Cette liste de PED a été établie grâce à des critères objectifs mondialement établis. Une fois cela fait, nous nous sommes focalisés sur la base de données des occurrences des cancers – et non de la mortalité - car nous voulions traiter la maladie le plus tôt possible. Comme décrit précédemment nous avons validé qu’une action préventive était plus efficace qu’un déploiement de plus de moyens de soin. Nous avons ensuite supprimé les données qui nous semblaient peu fiables via une profonde analyse du contexte qui entoure ces données. Cette étape est clé car meilleure seront nos données, meilleure sera notre prévision. C’est pour cette raison que l’un des axes principaux de nos travaux à venir est la gestion de la base de données – c’est-à-dire son tri, l’extraction des informations nécessaires et la mise en une forme exploitable pour nos IA. Nous avons de plus déterminé trois types d’intelligences artificielles, chacune ayant ses particularités, ses avantages et ses inconvénients. Notre objectif est d’utiliser les facteurs clés déterminés en union avec une bonne base de données pour pouvoir comparer l’efficacité de chaque algorithme. Cela nous permettra de conclure sur l’apport de chacun quant à la prévision des occurrences de cancer dans les PED et, a fortiori, fournir un modèle et des prévisions plus fiables qu’avec un seul algorithme. Notre problématique et notre vision du projet a été partagée à de nombreuses reprises avec notre client et nos différents contacts qui nous ont confortés dans nos différents choix. C’est la raison pour laquelle nous sommes encore plus confiants dans la direction que nous prenons sur ce projet. D’autant plus que notre organisation matricielle, nous permet d’accroitre nous efficacité tout en explorant différentes solutions. En capitalisant sur cette dynamique nous pensons pouvoir tenir notre planning et avoir une bonne chance de remporter ce challenge.

Premier traitement de la base de données

Changement dans la problématique dû aux données disponibles

Nous avons dévié de notre problématique initiale. Nous voulions prédire grâce aux données des incidences et non de la mortalité car l'étude bibliographique a montré que ce serait plus pertinent. Cependant, nous avons été confrontés à une limite du nombre des données. En effet il y a 2 fois moins de pays présents dans cette base et beaucoup moins de données disponibles. Nous avons donc choisi de construire nos modèles sur les données de mortalité. Si la quantité de données concernant les incidences augmentait, nous pourrions sans soucis adopter les mêmes raisonnement que ceux que nous allons utiliser, et les résultats en seraient peut être meilleurs.

Traitement de la base de données Mortality

  • Dans la base de données, à chaque ligne correspond un type de cancer, un pays, une année, un sexe et une catégorie d’âge. Nous avions donc par exemple la mortalité du cancer du sein en 1996 chez les femmes du Bénin, dont l’âge est compris entre 35 et 40 ans. Nous avons choisi de regrouper ces catégories d’âge et de sexe afin d’avoir une unique donnée de mortalité par pays et par année.
  • Nous avons conservé uniquement les cancers colorectaux - c'est-à-dire les cancers C18, C19, C20 et C21.
  • Nous nous sommes ensuite ramenés à des taux de mortalité, en divisant le nombre de morts (donnés par la base de données mortality) par la population totale des pays. Le nombre de morts étant étroitement lié à la taille de la population des pays nous pensions qu’il était essentiel de faire cette manipulation afin de pouvoir comparer des pays ayant des tailles très diverses. De plus certains features sont déjà rapportés à la population du pays. Afin que ceux-ci puissent avoir un impact sur les résultats, nous devions donc également rapporter toutes les autres données à la population.

Traitement de la base de données World Bank

On peut classer les 800 features de ce fichier en deux catégories distinctes :

  • Les features « bruts », qui dépendent de la population des pays - comme le nombre d’enfants scolarisés ou la taille de la population urbaine.
  • Les features qui ne dépendent pas de la population des pays - comme le PIB par habitants ou la part du PIB allouée aux dépenses militaires.

Tout comme nous avions divisé le nombre de morts par la population dans la base de données Mortality, nous avons fait de même pour tous les features dépendant de la taille de la population des pays. Finalement toutes nos données sont donc relatives à la population. Les features des deux pays de tailles différentes sont alors comparables.

Traitement de la base de données Faostat

Cette base de données contient de nombreuses informations sur le commerce agro-alimentaire, sur l’agriculture, sur les exportations et importations de céréales, de viande, etc... Nous avons choisi d’extraire toutes les informations relatives aux habitudes alimentaires des populations. En effet, comme nous l'avons montré dans la bibliographie, l’alimentation influence grandement le développement des cancers colorectaux. De la même manière que pour la World Bank, et pour les mêmes raisons, nous avons rapporté toutes les valeur à la population du pays.

Fusion de la World Bank et de Foastat

Traitement initial de la base de données de l'équipe Octopus
Nous avions ensuite fusionné les trois bases de données, afin d’avoir l’architecture ci-contre.

A ce stade, notre base de données est constituée de la manière suivante : pour chaque couple année/pays, on y trouve le taux de mortalité par habitants, ainsi que 1000 features donnant des informations sur le pays pendant l’année d’étude.

Remplissage des trous

Pour la plupart des couples année/pays la World Bank ne donne pas la valeur de tous les features. Il est donc nécessaire, soit de combler ces vides en extrapolant, soit de supprimer les features (ie certaines colonnes) lorsque trop de cases sont vides, soit de supprimer les pays contenant trop peu d’informations. Nous avons pour cela comparé deux méthodes :

1ère méthode

Supprimer les colonnes contenant plus de 10% de cases vides. Remplir les trous, de la même manière que lors de la dernière étape de la méthode suivante.

2ème méthode

Cas de régression lors de la méthode 2 lors du remplissage des trous
Suite de l'exemple pour la méthode 2 lors du traitement de la base de données par l'équipe Octopus

Supprimer les colonnes contenant plus de 95% de cases vides. Si pour un pays, au moins 30 features ne sont pas renseignés pour toutes les années, alors on choisit de supprimer ce pays - cela concerne l’Uzbekistan, le Turkmenistan, le Tajikistan, la Chine et la Barbade. Si pour un feature donné, il y a au moins 4 pays pour lesquels toutes les cases de ce feature sont vides, peu importe l’année, alors on choisit de supprimer cette colonne - cela concerne 300 colonnes. Pour remplir les trous, on procède pays par pays et feature par feature. Pour chaque pays et pour chaque feature vide, on compte le nombre d’années (N) pour lesquelles le feature est rempli.

  • Si N>=2 : on fait une régression linéaire. Remarque : Plaçons-nous dans le cas où la colonne en question ne peut pas admettre de valeur négative, par exemple si c’est un pourcentage. Alors on remplit avec un zéro si la régression linéaire donne un nombre négatif.
  • Si N=1 : on remplit avec la valeur de l’unique case non vide
  • Si N=0 : on remplit avec la moyenne du feature pour tous les couples année/pays non vides. On a ainsi une information inutile, qui n’influence pas la prédiction.

Tout l’enjeu est finalement de trouver un compromis entre supprimer des pays ou supprimer des colonnes. Il faut soit supprimer les pays où trop de features sont manquants, soit supprimer les features qui sont vides pour de trop nombreux couples pays/années. Nous avons ainsi essayé de trouver un juste milieu entre ces deux impératifs, et ces deux visions du problème.

Adapter la base de données afin de faire des prédictions

A ce stade du traitement des données nous avons en face de chaque couple pays/année, la mortalité du cancer colorectal, ainsi que les features correspondant à cette même année. Cependant, pour pouvoir faire de la prédiction nous devons pouvoir estimer la mortalité à partir des features des années précédentes. Ainsi à partir des features de l’année 2010 par exemple, nous pourrions trouver la mortalité du cancer colorectal de l’année 2020.

La dernière étape consiste donc à décaler toutes les valeurs de mortalité de K années, comme indiqué sur le schéma suivant. Description des étapes faites pour décaler les valeurs de la mortalité de K années

Avec une telle base de données, nous sommes donc en mesure d’entraîner des programmes permettant de prédire les futures valeurs de la mortalité du cancer colorectal à partir des features de la World Bank.

Liste des périodes a ne pas considérer

Liste des périodes qu'il ne faut pas prendre en compte dans la base de donnée d'octopus

Dans la continuité de notre nettoyage de la base de données de la bibliographique, nous avons établit une liste des pays possédant des périodes de leur histoire qu'il vaut mieux ne pas prendre en compte. En effet, sur ces périodes les données sont peu fiables car peu représentatives de la réelle mortalité dû au cancer. Voici ci-contre cette liste ainsi que les explications de ces choix. Nous avons ainsi fini le nettoyage historique.

Mise en place des algorithmes sur la première base de données

Les approches algorithmiques qui vont suivre se fondent sur la base de données détaillée précédemment. Cela signifie qu'à un ensemble de features à l’année N est associé le taux de mortalité à l’année N+10.

Réseaux de neurones

Il s'agit plus précisément ici du MLPRegressor de scikit learn.

Premièrement on a séparé en amont la base de données en testing sets et training sets pour un ratio de 0.8 avec séparation aléatoire. On a appliqué un features scaling - centrer réduire chaque colonne - sur les training sets, puis on applique la même transformation sur le test set. On ajuste ensuite les différents hyperparamètres. On trouve finalement comme meilleur modèle le modèle décrit par le scatter plot suivant :

R2 sore : 0 .95

Mean absolute error : 4e-05

Mean absolute percentage error : 38%

Premier résultat : R2sore : 0 .95, Meanabsolute error : 4e-05, Meanabsolute percentage error : 38%

On remarque qu’il y a une erreur relative très élevée pour les pays de faible taux de mortalité bien que l’on prédise des valeurs négatives. Or ce qui est le plus important est a priori d’avoir un faible écart relatif puisque ce qui nous intéresse c’est déterminer les pays à risques - ie ceux pour lesquelles l’évolution sera la plus importante. On a alors créé un modèle toujours basé sur les réseaux neuronaux qui optimisait la loss function MAPE - Mean Average Percentage Error - pour résoudre ce problème. On a ensuite multiplié le taux de mortalité par 100.000. On a réussit, en réajustant les hyperparamètres, à trouver un modèle beaucoup plus correct :

R2 sore : 0 .98

Mean absolute error : 1e-05

Mean absolute percentage error : 10 % Deuxième courbe obtenue par réseaux neuronaux après optimisation de la loss function MAPE et ajustement des hyperparamètres

Ce modèle est beaucoup mieux, en revanche on ne sait pas dire si le fait de multiplier par 100.000 est la cause de cette amélioration et encore moins expliquer pourquoi elle en serait la cause. Finalement , à ce stade nous avons un modèle qui prédit de manière relativement précise le taux de mortalité d’un pays entre 1970 et 2003 ! Mais sera-il aussi précis pour des années supérieurs ? Autrement dit, les prédictions faites jusque 2020 seront-elles fiables ?

Nous avons alors créer un autre modèle en utilisant seulement les données entre 1970 et 1999. Nous avons, comme précédemment, séparer ce Dataset, réduit en train set et test set de manière aléatoire avec un ratio de 0.8 pour obtenir de nouveau un score MAPE avoisinant les 10 pourcents. Nous avons ensuite appliqué notre réseau de neurones aux données entre 2000 et 2004 pour comparer le résultat prédit et le résultat réel. Finalement on trouve un score MAPE plus élevé sur les données prédites après 2000 que sur le test set - 18% entre 2000 et 2004. Cela pourrait s’expliquer par le fait que notre modèle est en fait une description du mode de fonctionnement du monde à un période donnée - ici une description de la dynamique du cancer entre 1970 et 1999. Mais comme ce mode de fonctionnement évolue au cours du temps, le modèle devient de moins en moins valable au fil du temps. Pour illustrer ce principe on a tracé la moyenne de l’écart relatif entre les données prédites et les vrais données, pour des données prédites à différentes années : Résultats de la moyenne de l'écart relatif entre les données prédites et les vrais données

La fonction ici représentée associe en fait à l’année N l’erreur MAPE associée aux données prédites entre 1970 et l’année N. L’erreur évolue de manière assez régulière et croissante au fil du temps, donc notre modèle ne permettra de décrire que des tendances. Nous en venons donc à nous demander si les réseaux de neurones à couches sont les plus adaptés pour faire de la prédiction temporelle et pour créer des modèles évoluant au fil du temps.

Random Forest

Dans cette nouvelle approche algorithmique deux stratégies ont émergé.

Première stratégie

Résultats du random forest avec la première stratégie. Courbe du résultat.
Résultats du random forest avec la première stratégie. Description des données importantes sur ce résultat.

Nous avons d'abord choisi d'élaborer un modèle de forêt aléatoire prenant en compte tous les facteurs que nous possédions, et qui permette de faire de la prédiction sur les années futures. Pour cela, nous séparons la base de données en deux : la première base de données est constituée de lignes comprenant un pays, une année, les facteurs de 10 années précédant cette année sélectionnée, ainsi que la mortalité à cette année dans ce pays. En effet, nous avons supposé que la mortalité dû au cancer colorectal à une année n n'est pas affectée par les facteurs de cette même année, mais par les facteurs des années antérieures. La deuxième base de données contient donc des lignes constituées d'un pays, des facteurs des 10 dernières années de nos données, ainsi que l'année 10 ans après la mesure de ces facteurs. Ainsi, dans cette deuxième base de données, les années vont jusqu'à 2023, et il n'y a pas de valeur de mortalité associée.

Nous entraînons et testons donc le modèle sur la première base de données, et nous nous en servons pour prédire sur la deuxième, ce qui nous donne non seulement des prédictions de la mortalité jusqu'en 2023, mais aussi les facteurs qui influencent le plus la prédiction. Voici ci-contre les résultats obtenus. Nous avons un R2 Score de 0,956, ce qui est très convenable, mais l’erreur moyenne (Mean Average Pourcentage Error) reste assez élevée. Cela s’explique par le fait que le modèle est universel (il prend en compte les données de tous les pays) et que tous les facteurs de la base de donnée sont également pris en compte, ce qui implique que certes, les données entrainement sont très bien décrites par le modèle, mais que sur de nouvelles données, le modèle tente d’être trop précis, ce qui a l’effet inverse - overfitting. Nous résolvons cette imprécision dans la deuxième stratégie dans laquelle un modèle est entrainé pour chaque pays indépendamment, avec une sélection assez réduite mais réfléchie des facteurs.

Malgré tout, les prédictions pour l’avenir restent pertinentes, en comparaison avec les autres modèles entraînés dans ce projet. Voici les facteurs qui influencent le plus le modèle :

Facteurs explicatifs obtenue avec la première approche de random forest lors de la mise en place des algorithmes.

Ci-contre, un extrait de la base de donnée d’arrivée avec notamment les prédictions de mortalité dans des années futures et pays pris

aléatoirement.
Exemple d'information obtenue avec la première approche de random forest lors de la mise en place des algorithmes.

Au niveau des facteurs influents, on retrouve sans surprise des facteurs liés à l’âge, mais aussi d’autres facteurs tels que l’éducation, l’agriculture ou encore la production énergétique, illustrateurs du niveau de développement d’un pays et de la qualité de vie. Pour aller plus loin, nous avons essayé de garder uniquement des facteurs que nous jugions être en lien étroit avec le cancer colorectal, tels que l’alimentation, les émissions de gaz à effet de serre, l’agriculture… mais nous obtenons de moins bonnes précisions qu’avec tous les facteurs. Il faut donc procéder autrement : supprimer des facteurs mais garder ceux qui influencent le plus le premier modèle, puis un facteur par groupe (énergie, polution, éducation…). De plus, pour s’améliorer encore, nous décidons de créer un modèle pour chaque pays, ce qui nous amène à la deuxième approche.

Deuxième stratégie

Notre deuxième stratégie a été de nous concentrer sur un pays en particulier pour essayer d’avoir les prédictions les plus précises -à travers de la sélection de features - et d'effectuer une comparaison avec les pays voisins. Nous avons choisi comme premier pays la Suède, car il s'agit d'un pays pour lequel nous avons beaucoup des données et aussi qui a des pays voisins sur lesquelles nous avons aussi un bon nombre de données. Pour choisir les features les plus importantes nous avons entraîné plusieurs modèles de prédiction (notamment : Ridge regression, LASSO, Random forest) pour obtenir l’importance qu’ils donnaient aux features. Une fois que nous avions déterminé les paramètres qui se répètent dans plusieurs modèles nous avons choisi dans les paramètres ceux ayant la plus forte similitude. Avec cette méthode nous sommes arrivés à 12 features que nous permettent d’avoir un modèle assez simple pour la Suède.

Voici les paramètres retenus : Agricultural land (% of land area), Arable land (hectares per person), Combustible renewables and waste (% of total energy), Electric power consumption (kWh per capita), Urban population growth (annual %), Death rate, crude (per 1,000 people), Life expectancy at birth, total (years), Age dependency ratio (% of working-age population), Age dependency ratio, old (% of working-age population), Age dependency ratio, young (% of working-age population), Adjusted net national income per capita (current US$), GDP per capita (constant 2010 US$).

Ce modèle a eu assez de succès pour prédire dans la Suède, mais c’est un modèle assez limité. Nous avons utilisé ces features pour entrainer un modèle de prédiction. Le système de décalage a été le même que dans le cas antérieur mais le split des données est un peu différent car nous avons fait un split aléatoire entre les années avant 2008 et nous avons pris ces derniers comme testing data avec l’intention de tester le modèle avec des données qui n’ont pas été utilisées pour entrainement. En entraînant un modèle obtenu avec celui de la Suède on a trouvé ces résultats :

Premier résultat obtenu avec la deuxième méthode pour le random forest dans la mise en place des algorithmes

Avec une erreur quadratique moyenne de 1,35, cela nous montre que en effet cette méthode nous permet d’avoir une bonne prédiction sur un pays en particulier, mais une fois que l'on essaie de la généraliser la précision va descendre de façon considérable. Comme exemple, ici nous avons entrainé un Random Forest considérant les mêmes 12 paramètres choisis pour la Suède mais sur la Norvège et le Danemark on obtient les résultats suivants:

Courbe de la prédiction pour le Danemark avec les features de la Suède

Courbe de la prédiction pour la Norvège avec les features de la Suède

Dans le diagramme suivant nous montrons que pour ces pays la prédiction est pire que dans la Suède spécialement pour Danemark. Tout ça nous permet de conclure que notre modèle n’est pas général, et donc n’est pas applicables pour tous les autres pays.

Comparatif des résultats avec les features de la Suède sur la Norvège et le Danemark

Cependant ayant vu que le pouvoir de prédiction sur la Suède était très bon, nous avons essayé d’automatiser notre processus de sélection de features car c’est grâce à ça que l’on a pu bien prédire dans le cas de la Suède. Nous avons essayé d’entrainer des différents modèles pour faire un meilleur choix de l’ensemble de features à utiliser, nous avons aussi calculé la corrélation des différents features pour ne prendre qu’une feature de chaque groupe de paramètres similaires . Malheureusement aucun de nos essais a amélioré de façon considérable la prédiction de nos modèles. De plus dans plusieurs pays il n’y a pas la même quantité de données que dans les premiers pays étudiés. La confection d’un algorithme pour bien sélectionner les features significatifs pour un pays donné reste un des défis les plus intéressants. Nous continuons de travailler sur ce point en espérant aboutir à un résultat concluant.

Deuxième traitement de la base de données

En parallèle des approches précédentes, nous voulions avoir une autre base de données, construite différemment de la précédente, afin de pouvoir comparer nos résultats entre eux. Nous nous sommes fixé deux axes de travail : prédire le taux de mortalité des cancers colorectaux à l’année n+5 d’un pays dont les données vont jusqu’à l’année n et dégager de l’ensemble des features ceux qui influencent le plus cette mortalité.

Base de données principale

Nous avons utilisé les bases de données Mortality et World Bank. La première regroupe les mortalités par pays, année, classe d’âge, genre et type de cancer tandis que la seconde contient différentes caractéristiques, principalement sociologiques et économiques, par pays et année.

Nous avons seulement conservé les mortalités des cancers colorectaux (cancers codés C18, C19, C20 et C21), décision en accord avec notre ligne de travail. Attention, contrairement aux autres groupes, le cancer codé C18-C21 n’est pas pris en compte. Dans un second temps, nous avons regroupé ces informations en sommant les mortalités des cancers susnommés par pays et années. Pour cela nous avons effectué un group by genre, âge, pays, année après avoir supprimé le feature type de cancer.

Nous avons jugé pertinent de ne garder que les features de la base World Bank remplis à plus de 85%, tout en conservant les 11 648 lignes existantes. La réduction du nombre de features étant satisfaisante (59 features restants sur les 875 initiaux), nous avons choisi de considérer les bases Ilostat et FaoStat.

Ajout de nouveaux paramètres à la base de données

La base de données de l’Organisation Internationale du Travail Ilostat ne contient aucun feature rempli à plus de 85% hormis le pays, l’année et la référence du pays. En outre, ce sont des données concernant l’emploi, donc a priori moins corrélées à la mortalité des cancers colorectaux que d’autres liées à l’agriculture présentes dans Faostat. S’ajoutant à cela, 51 features de Faostat sont remplis à plus de 85% ; d’où notre choix d’intégrer Faostat à notre base de données de travail, au contraire d'Ilostat .

Nous avons ensuite procédé à une jointure externe gauche entre World Bank et Faostat, puis entre Mortality et la base de données obtenue précédemment. Nous l’appellerons All_Features par la suite. Elle comporte 110 features.

Remplissage des données manquantes de All_Features

Nous avons ensuite comblé les données manquantes. Pour chacune de ces données, nous avons attribué la valeur moyenne du feature sur le pays concerné. Ensuite nous avons centré-réduit l’intégralité des features, à l’exception de la clé primaire {pays, année, genre}. La base de données est maintenant exploitable, puisqu’elle est dorénavant remplie et que les données sont du même ordre de grandeur.

Détermination des features pertinents

Sur Dataïku, la méthode Lasso nous a permis d’obtenir le classement des paramètres les plus corrélés avec la mortalité. L’âge était bien plus lié que n’importe quel autre facteur à la mortalité des cancers colorectaux. C’est pourquoi nous avons décidé de mettre de côté ce paramètre pour nous intéresser à l’impact des autres - qui était occulté par le rôle que semble avoir l’âge dans la mortalité des cancers colorectaux.

Nous avons directement éliminé les features dont la corrélation avec la mortalité des cancers étudiés était nulle d’après la méthode Lasso. Ensuite, nous avons testé la corrélation entre les features restants grâce à la même méthode, afin de déceler les features redondants ou presque. Finalement, la méthode Lasso nous a permis de sélectionner les features les plus corrélés à la mortalité parmi ceux restants. Nous avons effectué cette étape 4 fois afin d’arriver à une base de données ne présentant plus que 23 features. Puis nous avons multiplié par 6 le nombre de paramètres en récupérant pour l’année N le paramètre P pour les années N-5 à N-10.

Spécificité de cette approche

La différence majeure est l’algorithme de prédiction utilisé : il s’agit d’un modèle linéaire temporel. Nous avons choisi d’associer à la mortalité de l’année n tous les features retenus des années n-10 à n-5. Cela nous permet de prédire la mortalité jusqu’à 5 ans après la date de la base de données. Nous avons aussi fait le choix de conserver l'année et le genre comme features, au contraire du pays. Il nous fallait quand même un échantillon suffisamment grand pour entraîner l’algorithme.

Les choix d’architecture de la base de données nous ont mené à l’obtention de 144 features. S’en est suivi l’élaboration de la régression linéaire.

Mise en place des algorithmes sur la deuxième base de données

Equateur résultat de la régression linéaire sur la deuxième base de données par l'équipe octopus
Bresil résultat de la régression linéaire sur la deuxième base de données par l'équipe octopus
Biélorussie résultat de la régression linéaire sur la deuxième base de données par l'équipe octopus
Mexique résultat de la régression linéaire sur la deuxième base de données par l'équipe octopus

Algorithme génétique

Nous avions émis l'idée dans la bibliographie d'essayer des algorithmes génétiques de manière originale pour répondre à notre problématique. Il s'est cependant avéré que ce type d'algorithme ne permettait pas d'obtenir de résultats assez bons. Par ailleurs, nous avons préféré nous concentrer sur la qualité de la base de données et de l’exploiter avec des régressions linéaires, dans la mesures où les algorithmes génétiques sont rarement utilisés dans les travaux de prédiction et qu’une première approche simple comme l’est la régression linéaire semblait plus adaptée à nos exigences, notamment par sa transparence ; et donc son interprétablilité.

Régression linéaire

Les algorithmes précédents imposants certaines contraintes sur la base de données qu'ils utilisent, nous avons utilisé une régression linéaire sur la deuxième base de données. Ainsi on compare deux bases de données différentes avec des algorithmes différents et complémentaires.

Nous avons considéré les 24 paramètres suivants comme les plus corrélés avec la mortalité, indépendamment du pays : Liste des features les plus importants retenus lors de l'étude de la deuxième base de données avec la régression linéaire

Résultats

Nous avons donc pris une approche temporelle pour notre prédiction. Le but de l’algorithme a été de trouver les features les plus influents et de faire une régression de la mortalité en fonction de ces features aux années N-5 à N-10. Nous avons obtenu le résultat suivant :

Résultat obtenu avec l'approche de regression linéaire sur la base de données la plus avancée.

Score du résultat obtenu avec l'approche de regression linéaire sur la base de données la plus avancée.

Pérou résultat de la régression linéaire sur la deuxième base de données par l'équipe octopus
Républbique dominicaine résultat de la régression linéaire sur la deuxième base de données par l'équipe octopus

Le MAPE ici est très élevé, mais c'est à cause du faible volume final de donnée sur lequel on a entrainé l’algorithme (~3000 lignes) à cause du décalage temporel de 10 ans et de l’élimination des données manquantes. Les valeurs de mortalité proche de 0 font donc que le MAPE est anormalement élevé. On a essayé plusieurs approches pour améliorer ceci. On a d'abord généré des features supplémentaires en calculant les puissances, racines carrés et dérivés des features que l'on avait déjà pour donner plus de degrés de libertés à l’algorithme de régression. Ceci a mené à de très bon scores mais qui reflétaient l'overfitting plutôt que de bonnes prédictions. Nous avons donc conservé les features originaux.

Vous trouverez au début de cette partie sur le côté gauche les prédictions que nous avons réalisées sur les pays ayant le plus gros potentiel à risque d’après les résultats sur l'autre base de données.

Interprétation des résultats

  • Interprétation des prédictions

Au vu de la réalité réelle, nos prédictions sont censés et réalistes pour les pays dont la mortalité des cancers colorectaux est proche de la moyenne mondiale mais elles sont également moins dignes de confiance pour les autres pays, notamment ceux dont la mortalité est faible. C’est le cas pour la République Dominicaine ou le Pérou par exemple, qui ont une mortalité en deçà de la moitié de la moyenne de la base de données - voir graphiques ci-contre.

À la différence des deux autres groupes de travail, nos prédictions ne portent pas sur le taux de mortalité mais sur le nombre absolu de morts pas pays. Néanmoins, une comparaison de nos résultats avec ceux obtenus par random forest et réseaux de neurones sont possibles pour certains pays, notamment ceux dont la population varie peu actuellement, comme le Mexique par exemple. On observe ici que l’augmentation de la population au Mexique est de 5% en 5 ans (127 millions en 2015, 135 en 2020).[1]

Evolution et prédiction de la population au Mexique de 1950 à 2100

  • Interprétation des features conservées

Étant donné que nos prédiction sont proche de la mortalité réellement observé entre 1990 et 2015, nos features déterminés par méthode Lasso sont légitimés. Parmi les 24 features conservées, 5 paramètres sur les 7 premiers concernent l’émission de gaz à effet de serre et notamment l’émission de dioxyde d’azote. Bien qu’il ne faille pas donner à ce résultat valeur de preuve, il semble qu’un lien soit possible entre l’émission de ce gaz et les cancers colorectaux. Et ce lien est en ce moment étudié par les scientifiques. En effet, la concentration de diazote dans l’air se retrouve sous forme d’ions nitrate dans l’eau : 3 NO2 + H2O → 2 HNO3 + NO. Des études sont en cours pour déterminer le possible lien entre le nitrate dans l’eau potable et les cancers colorectaux.[2]

Comparaison des dfférents algorithmes et bases de données utilisées

Courbe comparant les résultats du rde la regresion linéaire dans le cadre de l'albanie
Courbe comparant les résultats du random forest et des réseaux neuronaux dans le cadre du mexique
Courbe comparant les résultats du random forest et des réseaux neuronaux dans le cadre de l'albanie
Courbe comparant les résultats du random forest et des réseaux neuronaux dans le cadre du kazakhstan
Courbe comparant les résultats du random forest et des réseaux neuronaux dans le cadre du Pérou
Courbe comparant les résultats du random forest et des réseaux neuronaux dans le cadre de la république dominicaine

Nous voulons maintenant comparer les différentes méthodes pour savoir ce que chacune nous apporte. On a alors comparé nos résultats en prédisant sur 10 ans le taux de mortalité pour tous les pays.

  • Pour le réseau de neurones on trouve comme pays à plus fort écart relatif prévu entre 2010 et 2020 les suivants :

0.502, Argentina

0.526, Finland

0.538, United Kingdom

0.570, Paraguay

0.643, Australia

0.735, Trinidad and Tobago

0.824, Suriname

0.928, Armenia

0.998, Panama

1.109, Chile

1.126, El Salvador

1.170, Ukraine

1.328, Costa Rica

1.364, Mauritius

1.427, Ecuador

1.433, Guatemala

1.467, Brazil

1.545, Colombia

1.562, South Africa

1.598, Switzerland

1.7999, Nicaragua

1.868, Peru

1.977, Belarus

2.101, Mexico

2.475, Belize

2.866, Kazakhstan

3.549, Dominican Republic

4.001, Albania

  • Pour le Random Forest on obtient les pays à risque suivants :

0.580, Switzerland

0.644, Nicaragua

0.645, Guatemala

0.670, Finland

0.742, Panama

0.824, Costa Rica

0.863, Kuwait

0.897, Greece

0.971, Mauritius

1.010, Chile

1.027, Brazil

1.114, Belarus

1.136,Mexico

1.289, Tajikistan

1.3787, Ecuador

1.535, Peru

1.619, Kazakhstan

1.654, Azerbaijan

2.067, Dominican Republic

2.685, El Salvador

4.411, Albania


Les pays en gras sont les pays qui n’apparaissent que pour le Random Forest et pas pour les Réseaux Neuronaux et inversement. De plus on obtient des aberrations pour Belize ainsi que pour Azerbaïdjan et pour Tadjikistan.

  • Pour Azerbaijan et Tajikistan on peut remarquer que ce sont justement les pays pour lesquelles il manquait le plus de données ce qui pourrait expliquer pourquoi les résultats sont si incohérents pour ces pays.
  • Pour Belize nous avions avant cela remarqué que les valeurs prises par le taux de mortalité au fil du temps étaient relativement aléatoires - voir courbe ci-dessous. C’est sûrement pour cela que les résultats sont aberrants.

Résultats obtenus sur Belize lors de la mise en commun des résultats entre les différents algorithmes

Vous trouverez ci-contre les courbes obtenues par les différents algorithmes pour différents pays. Ces courbes seront le support de notre propos à venir.

Interprétation des résultats

Nous notons premièrement une tendance très marquée d’augmentation du nombre de cancer en Amérique latine.

Nous avons cherché les facteurs responsables des hausses brutales du taux de mortalité au Mexique par exemple entre 2014 et 2015. Pour cela nous avons utilisé la méthode suivante :

  • pour chaque features on change la valeur de ce feature au Mexique en 2015 pour la valeur qu’il avait en 2014 et on regarde de combien a baissé le taux de mortalité
  • on garde finalement le feature qui a provoqué une plus grosse baisse du taux de mortalité en 2015
  • on change pour ce feature la valeur qu’avait le Mexique en 2015 pour celle qu’il avait en 2014
  • on itère jusqu’à ce que l’écart relatif du taux de mortalité entre 2014 et 2015 au Mexique ait diminué de plus de 80%.

Finalement en laissant les 17 features (parmi les 420) suivants inchangés, on passe d’un écart entre 2014 et 2015 de 6e-03 % à 1e-03 % dans le cas des réseaux neuronaux. Voici la liste finale des facteurs retenus :

Children out of school, primary

Physicians (per 1,000 people)

Tuberculosis case detection rate (%, all forms)

Educational attainment, at least completed upper secondary, population 25+, female (%) (cumulative)

Fixed broadband subscriptions (per 100 people)

Educational attainment, at least completed upper secondary, population 25+, total (%) (cumulative)

Land under cereal production (hectares)

Educational attainment, at least completed short-cycle tertiary, population 25+, male (%) (cumulative)

PM2.5 air pollution, mean annual exposure (micrograms per cubic meter)

Electricity production from renewable sources, excluding hydroelectric (kWh)

Patent applications, nonresidents

Cereal production (metric tons)

Electricity production from natural gas sources (% of total)

Cause of death, by injury (% of total)

Share of women in wage employment in the nonagricultural sector (% of total nonagricultural employment)

Employment in industry, male (% of male employment)

Terrestrial protected areas (% of total land area)

Nous avons en parallèle cherché les facteurs de plus grande importance (les 17 plus importants) pour le modèle de Random Forest et nous avons trouvé les facteurs suivants :

Secondary education, duration (years)

Primary school starting age (years)

Fixed broadband subscriptions (per 100 people)

Lower secondary school starting age (years)

Preprimary education, duration (years)

Secure Internet servers per capita

Primary education, duration (years)

Access to electricity, urban (% of urban population)

Adjusted savings: net forest depletion (% of GNI)

Individuals using the Internet (% of population)

Access to electricity, rural (% of rural population)

Health expenditure per capita, PPP (constant 2011 international $)

Secure Internet servers (per 1 million people)

Adjusted savings: mineral depletion (% of GNI)

Military expenditure / population (current LCU)

PM2.5 air pollution, population exposed to levels exceeding WHO guideline value (% of total)

Nous en concluons donc que les features sont différents pour les 2 modèles mais globalement il en ressort l’idée que ces facteurs représentent tous l’idée de développement du pays.

Validation des résultats

On a essayé de construire un intervalle de confiance pour les valeurs prédites par notre modèle. Cette construction repose sur plusieurs hypothèses :

  • La valeur prédite par notre modèle est une variable aléatoire qui suit une loi normale de moyenne la vraie valeur et d’un certain écart-type.
  • Cet écart-type est en fait le score MSE moyen trouvé au Mexique sur les 5 années les plus lointaines, quand on fait la simulation des réseaux neuronaux qui consiste à créer un modèle prédictif sur les années 1970-1999 et à le tester sur 2000-2004.

Pour le Mexique on trouve un écart-type de 53e-10 : en utilisant les résultats du modèle par réseau de neurones et celui par Random Forest, cela nous amène à l’intervalle de confiance au niveau 95% suivant pour le taux de mortalité du cancer du colorectal en 2020 au Mexique : [0.8e-04,3.6e-04]. Donc si les hypothèses sont justes nous sommes sûrs à 95% que le taux de mortalité au Mexique va au moins quasiment doublé.

En parallèle, dans le cas particulier du Mexique on a cherché des données concernant l’évolution du cancer dans le futur et nous avons trouvé dans un article la citation suivante : « In addition, the GLOBOCAN system estimated a 32% increase in mortality in the period of 2012 to 2020, compared with a 15.2% increase derived from our calculations. It must be mentioned that our mortality figures for 2020 were estimated on the basis of the number of deaths and the national projections for population growth, whereas GLOBOCAN uses the most recent mortality rates and the population corresponding to the year of a given analysis. "This may be the reason for the slight discrepancies found. Our estimations also agree with those reported by Sierra et al19 for mortality rates from 2006 to 2010, with only slight differences, although the data from Sierra et al19 were based on the World Health Organization mortality database. »[3]

Ils prévoient donc une augmentation du taux de mortalité plus faible que ce que nous prévoyons mais il s’agit en fait du taux de mortalité dû à tous les types de cancer donc on ne pourrait que retenir la tendance globale qui est une augmentation de la mortalité dû au cancer. De plus des modèles très différents s’accordent sur une augmentation brutale dans certains pays et les facteurs responsables de ces augmentations ne sont pas aberrants et portent du sens.

Résultats finaux

Voici ce que nous pouvons prévoir pour les années à venir :

Carte du monde donnant le taux d'augmentation de cancers colorectaux dans les prochaines années d’après l'équipe Octopus

Conclusion du projet

Nous avons donc établi deux bases de données différentes avec deux approches différentes et complémentaires.

La première base de données nous a permis de construire un algorithme de réseaux neuronaux qui a abouti à de bons résultats pour la période 1970 – 1999. Lorsque l’on passe sur une prédiction sur les années qui suivent, le score MAPE est plus élevé. On en a conclu que notre modèle est en fait une description du mode de fonctionnement du monde à un période donnée - ici une description de la dynamique du cancer entre 1970 et 1999. Or ce mode varie au cours du temps et donc le modèle devient de moins en moins fiable. Nous en venons donc à nous demander si les réseaux de neurones à couches sont les plus adaptés pour faire de la prédiction temporelle et pour créer des modèles évoluant au fil du temps. Pour les réseaux neuronaux, il nous reste donc à trouver comment améliorer la prédiction pour la rendre plus stable dans le futur -amélioration de la base de données pour avoir un training set de meilleur qualité.

Sur cette même base de données avec la méthode du Random Forest nous avons étudié deux stratégies. La première construire un modèle applicable à tous les pays en regroupant les features les plus importants pour l’ensemble des pays. On a obtenu un R2 score de 0.956 avec une forte MAPE. On obtient donc un modèle relativement efficace mais potentiellement overfitté. On en a donc tiré des features globaux qui permettaient d’expliquer le phénomène d’un point de vue général. On retrouve sans surprise des facteurs liés à l’âge, ou d’autres facteurs tels que l’éducation, l’agriculture ou encore la production énergétique, illustrateurs du niveau de développement d’un pays et de la qualité de vie impactent fortement la résultat. Pour améliorer cette prédiction, nous avons construit un deuxième modèle qui se focalise sur un seul pays. La sélection des features devient donc particulière mais appliqué à la Suède les résultats sont très bon. On remarque de plus que pour certains voisins le même modèle peut ou pas fonctionner, ce qui signifie qu’il faut créer un modèle par pays. Cependant nous n’avons pas encore réussi à automatiser la sélection des features pertinents pour permettre une généralisation à tous les pays de cette méthode (à moins de tout faire à la main). Il nous reste donc à trouver le moyen d’automatiser la sélection des features pour chaque pays par l’algorithme de random forest.

La mise en commun des résultats obtenus par ces deux méthodes correspondent bien l’un à l’autre ce qui tend  à valider nos résultats. Cependant ces résultats sont issus de la même base de données.

La deuxième base de données exploitée par une régression linéaire avait quant à elle pour objectif de diversifier les résultats obtenus sur l’autre base de données. Et ce en partant d'une base données pour laquelle nous avons déterminé moins de 30 paramètres issus de WorldBank et Fao qui semblaient les plus corrélés avec la mortalité (et non le taux de mortalité) par Lasso successifs. Une importante différence avec les approches précédentes réside dans le fait qu’il s’agit d’un modèle linéaire temporel. En revanche,  cela ne  nous permet de prédire qu'à 5 ans. Les paramètres sélectionnés montrent une tendance : 5 des 7 de poids les plus forts de notre modèle linéaire concernent l'émission de gaz à effet de serre, et notamment l'émission de dioxyde d'azote. Bien qu'il ne faille pas prendre cela comme une preuve, il semble qu'un lien soit possible entre l'émission de ce gaz et les cancers colorectaux. Enfin, comme les résultats obtenus nous ont semblé encourageants et que nous avons encore à l’esprit des idées pour améliorer les performances de notre prédiction avec le même type d’algorithme, nous sommes jusqu’ici restés d’accord pour conserver cette approche linéaire.

En comparant les résultats de la régression linéaire et des modèles précédents nous avons obtenus des comportements similaires bien que le MAPE de la régression linéaire soit bien moins bon. De plus, comme nous l’avions supposé dans la bibliographie, la régression linéaire n’est efficace que sur le court terme alors que les deux autres algorithmes sont plus efficaces sur le long terme. Cependant, nous avons pu vérifier que nos résultats précédents correspondaient encore bien à ceux obtenus avec la régression linéaire. Cela renforce encore la validité de nos modèles.

Enfin, ces méthodes donnent des informations de nature différentes en plus de la prédiction, c’est pourquoi nous voulons approfondir nos comparaisons afin de tirer plus d’informations – comme par exemple déterminer les features prépondérants pour chaque pays, les features globaux et regarder s’il y a corrélation avec la proximité géographique des pays (ce qui semble être le cas étant donné nos résultats actuels). 

Liens et fichiers

Vous trouverez sur ce lien tous les codes que nous avons détaillés sur ce wiki : https://gitlab.epidemium.cc/root/sbt12/tree/Second

Les bases de données sont issues à l'origine de ces bases de données : http://qa.epidemium.cc/data/

Le travail fait sur les bases de données se trouve sur : http://ec2-35-158-166-60.eu-central-1.compute.amazonaws.com/

Acteurs du projet

Nous participons au programme Epidemium par le biais des projets enjeux au sein de Centrale Paris. Ce projet s'inscrit donc dans un contexte faisant intervenir différents acteurs qui nous paraissent important de présenter ici.

Epidemium

Communauté Epidemium En participant au challenge, nous prenons part à une communauté constituée de l’ensemble des challengers et des personnes qui sur leur temps libre participent au projet, (c'est-à-dire d’étudiants, d’experts en médecine, en mathématiques, en machine learning, etc.). Cette communauté a pour objectif de créer des travaux opensources sur le cancer (algorithmes de prédiction, études médicales, bases de données, etc...). Cette émulsion scientifique permet aux spécialistes du monde médical, aux chercheurs et aux différents acteurs de la santé publique d'avoir une communauté bénévole qui leur offre des études pertinentes sur leurs actions. Epidemium permettant une grande autonomie, chaque travail est différent et permet aux participants d'apporter leur contribution à la lutte contre le cancer, avec leur point de vue. De plus, les travaux étant opensources, ils permettent à chaque acteur de partir de ce qui a déjà été fait pour aller encore plus loin. Enfin, Epidemium est le cœur qui lie tous les acteurs afin de rendre disponible les travaux des participants et de permettre aux participants d'avoir accès aux spécialistes du domaine. Notamment, le lieu La Paillasse (où est situé Epidemium), permet à tous de se rencontrer, échanger et avancer ensemble sur les problématiques liés aux cancer.

Suivi du projet par Epidemium : Gaspard MACAUX, Ozanne TAUVEL-MOCQUET.

Latitude Il s’agit d’une association de Centraliens qui aide des équipes participant à des projets ouverts à programmer. Leurs connaissances et expériences permettent aux participants d'aller plus loin dans la réalisation de leurs projets.


Equipe du projet

Notre équipe est composée de 12 centraliens en première année : BONDON Laure, DEVES-GIRAIN Steven, GALLEAN Geoffroy, GOBET Marion, HUET Alexandre, MALLERET Simon, MOKHTARI Leïla, MONGIN Théophile, PASTEAU Aurélien, PIAT Clément, RIEGO Ignacio, YOUBI IDRISSI Badr.


Acteurs de Centrale Paris

Référents pédagogiques : Mathilde SAUTREUIL, Sarah LEMLER, Chloé ADAM.


Acteurs extérieurs

Le communauté de programmation compétitive de l'université du Chili : cette communauté nous a aidé à nous poser les bonnes questions et à nous orienter sur de nouvelles pistes. Leur savoir-faire et leur connaissances du domaine informatique nous a permis d'avoir un point de vue différent du notre sur ce projet.

Ressources techniques

RocketChat : le chat de la communauté Epidemium. Le chat permet de joindre des groupes (épidémiologie, statistique etc) de personnes pouvant répondre rapidement à nos questions. Plus que les mails, cela sera notre outil de communication privilégier avec notre client. Ils sont notamment en lien avec des scientifiques de « Roche » qui pourront nous éclairer sur le cancer si besoin.

Git : un tel outil de gestion de versions décentralisé nous permettra de travailler en équipe facilement sur un même programme. En effet, Git nous permet de mutualiser l’avancement du code entre les différents développeurs, de gérer les révisions du code, d’enregistrer la chronologie des modifications.

Dataiku Data Science Studio : il s’agit d’une plateforme permettant de travailler sur des bases de données, en préparant ces dernières et en les analysant. Epidemium propose un accès à tous les participants du challenge, pour permettre aux équipes de travailler de manière collaborative autour des data sets étudiés.

MeetUp : c’est une plateforme d’organisation d’événements qui nous permet d’être au courant des futurs événements organisés par Epidemium ou par ses partenaires. Des vidéos replay et des comptes rendus sont ainsi disponibles après chaque évenement.


Remerciements

C’est conscients de la chance que représente la participation à une telle aventure que nous tenions en premier lieu à remercier notre école de nous avoir offert cette opportunité unique d’avoir un temps, des infrastructures et des encadrants pour nous permettre d’avancer dans ce challenge dans des conditions optimales. Nous remercions l’équipe d’Epidemium et de Latitudes pour leur soutien, leur réactivité, leurs invitations à des évènements d’exception comme le furent les Data Days ou la journée de formation du 9 décembre et peut être plus pour nous avoir transmis l’esprit de ce challenge. Enfin, nous tenions à remercier nos responsables de projet pour leur écoute bienveillante et les conseils qui nous ont été prodigués.

Références bibliographiques

[1] : Cancer, OMS, Mars 2017, Disponible sur :http://www.who.int/mediacentre/factsheets/fs297/fr/ consulté le 10/11/2017

[2] : Le Centre International de Recherche sur le Cancer évalue la consommation de la viande rouge et des produits carnés transformés, OMS, CIRC, 26 Octobre 2015, Disponible sur : http://www.who.int/mediacentre/news/releases/2015/cancer-red-meat/fr/ consulté le 18/11/2017

[3] : Le diagnostic précoce du cancer permet de sauver des vies et d’abaisser le coût du traitement, OMS, 3 Février 2017, Disponible sur : http://www.who.int/mediacentre/news/releases/2017/early-cancer-costs/fr/ consulté le 27/11/2017

[4] : Qu'est ce que le cancer, Fondation conte le cancer, Dernière adaptation : le 9 Novembre 2016, Disponible sur : http://www.cancer.be/le-cancer/quest-ce-que-le-cancer consulté le 10/11/2017

[5] : Principaux facteurs de risque de cancer, Institut National du Cancer, dernière mise à jour le 3 Août 2016, Disponible sur : http://www.e-cancer.fr/Comprendre-prevenir-depister/Reduire-les-risques-de-cancer/Comment-prevenir-au-mieux-les-cancers/Principaux-facteurs-de-risque-de-cancer consulté le 27/11/2017

[6] : Cancer du colon : Facteurs de risque, Institut National du Cancer, Disponible sur : http://www.e-cancer.fr/Patients-et-proches/Les-cancers/Cancer-du-colon/Facteurs-de-risque consulté le 10/11/2017

[7] : Le dépistage du cancer colorectal en pratique, Institut National du Cancer, Dernière mise à jour le 8 Décembre 2017, Disponible sur : http://www.e-cancer.fr/Comprendre-prevenir-depister/Se-faire-depister/Depistage-du-cancer-colorectal/Le-depistage-en-pratique consulté le 18/11/2017

[8]: Cancer (généralités) : cause, Vulgaris Médical, Disponible sur : https://www.vulgaris-medical.com/encyclopedie-medicale/cancer-generalites/causes consulté le 18/11/2017

[9] : http://www.passeportsante.net/fr/Maux/Probi ilemes/Fiche.aspx?doc=cancer_colon_pm consulté le 10/11/2017

[10]: Epidémiologie des cancers digestifs, L.Abid et S.Berkane, 6 et 7 mai 2009, Disponible sur : http://www.ffcd.fr/DOC/DIAPORAMAS/epidemiologie_cancers_digestifs_algerie_la.pdf consulté le 27/11/2017

[11] : Les chiffres des cancers dans le monde et en France, Roche, Disponible sur : http://www.roche.fr/pharma/cancer/chiffres-cles-du-cancer.html consulté le 18/11/2017

[12] : Les cancers dans les pays en développement, Médecine Tropicale, Pierre Aubry, Bernard-Alex Gaüzère, Dernière mise à jour le 7 Novembre 2016, Disponible sur: http://medecinetropicale.free.fr/cours/cancer.pdf consulté le 10/11/2017

[13] : Gastric Carcinoma: Recent Trends in Diagnostic Biomarkers and Molecular Targeted Therapies, Asian Paci c Journal of Cancer Prevention, Vol 17, 2016,

[14] : Barriers to colorectal cancer screening in the developing world: The view from Pakistan ,Furqaan Ahmed, World J Gastrointest Pharmacol Ther,2013 November 6; 4(4): 83-85

[15] : Catastrophic Health Expenditure Among Colorectal Cancer Patients and Families: A Case of Malaysi

[16] Human development report (2016), UNDP

[17] Should we continue to use the term “developing world”? : http://blogs.worldbank.org/opendata/should-we-continue-use-term-developing-world consulté le 27/11/2017

[18] Liste des Developing regions (ONU) : https://unstats.un.org/unsd/methodology/m49/ consulté le 18/11/2017

[19] Liste des least developed countries (june 2017) : https://www.un.org/development/desa/dpad/wp-content/uploads/sites/45/publication/ldc_list.pdf and https://unstats.un.org/unsd/methodology/m49/ consultés le 27/11/2017

[20] Liste des landlocked developing countries : http://unohrlls.org/about-lldcs/country-profiles/ and https://unstats.un.org/unsd/methodology/m49/ consultés le 18/11/2017

[21] Liste des small island developing states : http://unohrlls.org/about-sids/country-profiles/ and https://unstats.un.org/unsd/methodology/m49/ consultés le 27/11/2017

[22]http://www.e-cancer.fr/Patients-et-proches/Les-cancers/Cancer-du-colon/Facteurs-de-risque/Age

[23]http://ec.europa.eu/eurostat/statistics-explained/index.php/Migration_and_migrant_population_statistics/fr consulté le 10/11/2017

[24] https://www.populationdata.net consulté le 27/11/2017

[25] perspective.usherbrooke.ca consulté le 18/11/2017

[26] www.universalis.fr consulté le 10/11/2017

[27] Apprentissage statistique Gerard Dreyfus Edition Eyrolles

[28] Recurrent neural networks for prediction Danilo P. Mandic Jonathon A. Chambers

[29] Réseaux de neurones Gerard Dreyfus edition Eyrolles

[30] Fundamentals of machine learning for predictive data analytics John D. Kelleher

[31] Conférence Viarezo sur le machine learning le 07/12/2017 par un étudiant en DTY

[32] Conférence Apple et Lunabee le 04/12/2017

[33] Atelier de EY sur l’application du machine learning en conseil le 05/12/2017

[34] Présentation d’Epidemium pour le challenge 3 (notions d’épistemologie et présentation de l’outil Dataiku)

[35] Evaluation of Predictive Learners for Cancer Incidence and Mortality : http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6707388

[36] Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations : https://www.researchgate.net/profile/Jonathan_Chen10/publication/318018393_Machine_Learning_and_Prediction_in_Medicine_-_Beyond_the_Peak_of_Inflated_Expectations/links/59dba8bc0f7e9b1460fc22ae/Machine-Learning-and-Prediction-in-Medicine-Beyond-the-Peak-of-Inflated-Expectations.pdf

[37] Decaying relevance of clinical data towards future decisions in data-driven inpatient clinical order sets : https://ac.els-cdn.com/S138650561730059X/1-s2.0-S138650561730059X-main.pdf?_tid=96cbc900-dc5e-11e7-8741-00000aab0f6c&acdnat=1512768636_e139b5e8ffbafd5d837b8c666d6108e4

[38] Machine Learning Strategies for Time Series Prediction: http://www.ulb.ac.be/di/map/gbonte/ftp/time_ser.pdf

[39] The application of age, period and cohort models to predict Swiss cancer mortality : https://link.springer.com/content/pdf/10.1007%2FBF01612679.pdf

[40] Popular ensemble methods : An Empirical Study : http://jair.org/media/614/live-614-1812-jair.pdf

[41] Automatic neural network modeling for univariate time series : http://www.sciencedirect.com/science/article/pii/S0169207000000728

[42] https://www.researchgate.net/publication/262450459_Methods_for_Multi-Step_Time_Series_Forecasting_with_Neural_Networks

[43] Jean-Paul Sansonnet : https://perso.limsi.fr/jps/enseignement/tutoriels/pcd/3.genetique/

[44] David E. Goldberg : Algorithmes génétiques

[45] : Madeeh Nayer Elgedawy, (2017), « Prediction of Breast Cancer using Random Forest, Support Vector Machines and Naïve Bayes », International Journal Of Engineering And Computer Science, Vol. 6, p.19884-19889

[46] : Majd A. M. Alhaj, Ashraf Y.A. Maghari, (2017), « Cancer survivability prediction using random forest and rule induction algorithms », 8th International Conference on Information Technology (ICIT)

[47] : A. Silva, T. Oliveira, J. Neves, and P. Novais, "Treating Colon Cancer Survivability Prediction as a Classification Problem," 2016.

[48] : Pr. Fabienne Moutarde, (2017), « Arbres de Décision et Forêts Aléatoires », PSL Research University Paris

[49] : Arduino Startups, (2017), « Decision Tree (CART) – Machine Learning Fun and Easy » (Video), https://www.youtube.com/watch?v=DCZ3tsQIoGU

[50] : Arduino Startups, (2017), « Random Forest – Fun and Easy Machine Learning » (Video), https://www.youtube.com/watch?v=D_2LkhMJcfY

[51] : Cécile Capponi, « Arbres de décision », Université Aix-Marseille, http://pageperso.lif.univ-mrs.fr/~cecile.capponi/lib/exe/fetch.php?media=cours-arbres.pdf

[52] : Fergus Boyles, (2017), University of Oxford, http://www.blopig.com/blog/2017/07/using-random-forests-in-python-with-scikit-learn/

  1. https://www.populationpyramid.net/fr/mexique/2020/
  2. http://www.e-cancer.fr/Professionnels-de-sante/Veille-bibliographique/Nota-Bene-Cancer/Nota-Bene-Cancer-305/Colorectal-cancer-risk-and-nitrate-exposure-through-drinking-water-and-diet
  3. http://ascopubs.org/doi/full/10.1200/JGO.2016.007476