Osy3a

From Epidemium
Jump to: navigation, search

Contents

Introduction

Epidemium

Né de la rencontre entre le laboratoire communautaire La Paillasse et de l’entreprise pharmaceutique Roche France, le programme Epidemium se définit comme un nouveau cadre de recherche distribuée. Il est dédié à la compréhension du cancer grâce aux données ouvertes et aux technologies big data, et repose sur l’ouverture, la collaboration et le partage des savoirs. Epidemium se positionne comme un “tiers espace neutre”, un catalyseur favorisant les synergies, capable d'accueillir tous les acteurs de la recherche ainsi que tous les individus qui souhaitent y prendre part à titre individuel ou non, afin de les faire avancer ensemble contre le cancer. C’est un espace, à la fois physique et virtuel, qui fédère une communauté transdisciplinaire (data scientists, médecins, patients, chercheurs, sociologues, graphistes, etc.), un écosystème d’experts et un réseau de partenaires qui mettent à la disposition des participants des ressources techniques, matérielles et humaines. Enfin, Epidemium, c’est aussi un comité d’éthique indépendant et un comité scientifique, composés de personnalités reconnues du monde de la recherche médicale et de la science des données, qui accompagnent le programme dans sa conception, ses réalisations et qui guident les participants dans leurs travaux. Tous ces acteurs sont réunis par la volonté d’adresser les grands défis de la recherche sur cette pathologie et de prototyper des solutions afin d’itérer à partir d’elles. Pour ce faire, Epidemium organise des Challenges autour de l'épidémiologie du cancer, ouverts à tous, d'une durée de six mois, rassemblés sous l’appellation Challenge4Cancer. Ces derniers ont pour objectif de permettre à cette communauté transdisciplinaire de travailler collaborativement pour proposer une approche innovante et complémentaire à la recherche traditionnelle afin d’aider à : Explorer des territoires pas ou peu connus et d’identifier de pistes pour la recherche sur le cancer Accélérer la recherche en bénéficiant de l'intelligence collective et du prototypage rapide Tester et développer de nouvelles idées, sans contraintes autres que méthodologiques et éthiques Améliorer les résultats de la recherche en itérant à partir des hypothèses et solutions existantes, grâce potentiel offert par l’open source et les technologies big data

Le challenge actuel constituant le cadre de travail du projet est le troisième de la sorte. L’intitulé est : “La prédiction de la mortalité du cancer dans les pays en voie de développement, dans le temps et dans l’espace”.

Latitudes

Latitudes est association loi 1901 créée en mai 2017 et a pour objet social d’encourager et de d’accompagner l’utilisation des technologies au service de l'intérêt général. Créée par un groupe de Centraliens, son action se concentre pour le moment autour des écoles d’ingénieur et d’informatique en mettant en relation organisations et étudiants autour de projets. Latitudes prend donc le rôle d’encadrant de projet et fournit un accompagnement technique.

Présentation du challenge 3

Lexique

Épidémiologie : Science qui étudie, au sein de populations (humaines, animales, voire végétales), la fréquence et la répartition des problèmes de santé dans le temps et dans l'espace, ainsi que le rôle des facteurs qui les déterminent.

Etiologie : Étude des causes des maladies.

Incidence : L’incidence d'une maladie est une mesure de l'état de santé d'une population dénombrant le nombre de nouveaux cas sur une période donnée

Taux de mortalité : Rapport entre le nombre annuel de décès et la population totale moyenne sur une période donnée dans un territoire donné.

Taux de morbidité : Le taux de morbidité est le rapport qui mesure l'incidence et la prévalence d'une certaine maladie, en épidémiologie. C’est le nombre de personnes atteintes d’une maladie par unité de population.

Prévalence : La prévalence est une mesure de l'état de santé d'une population, dénombrant le nombre de cas de maladies à un instant donné ou sur une période donnée.

Contexte

Le cancer a longtemps été considéré comme une maladie de “riche” étant donnée la prévalence générale des cancers dans les pays développés. Cependant, la croissance des pays en développement a propulsé le cancer comme la première cause de mortalité, passant devant les infections et les maladies. Ainsi, le nombre de morts liés aux cancers dans les pays en voie de développement pourrait passer de 6.7 millions en 2015 à 8.9 millions en 2030 . En revanche, ce nombre devrait rester stable dans les pays développés. Essayer de comprendre le cancer dans les pays en développement, dans le temps et dans l’espace, est ainsi un défi majeur de santé publique. L’un des points clés intrinsèque au problème est le manque de données récoltées dans les pays en voie de développement et donc le manque de statistiques fiables, que cela soit d’un point de vue médical ou socio-économique. C’est d’ailleurs la raison majeure pour laquelle l’Afrique ne sera pas considérée dans cette étude.

Objectif

L’objectif de ce challenge est de mettre en relation des données de mortalité sur le cancer et des données socio-économiques (des pays en voie de développement, Afrique exclue) induisant ou protégeant du cancer, afin de participer à l’élaboration de modèles pour les pays en voie de développement. On s'intéressera aux cancers les plus fréquents. Selon GLOBOCAN 2012 , les trois cancers les plus fréquents sont le cancer du poumon, le cancer du sein et le cancer colorectal. Une approche par continent et éventuellement sous-continent sera appréciée.

Données

Epidemium s’engage à faire de la recherche en Open Data ce qui signifie que toutes les données utilisées dans ce projet se doivent d’être libres de droit et accessibles à tous. Ainsi, quatre datasets sont pour l’instant mis à disposition :

  • Incidence des cancers dans le monde . Ce dataset provient de la World Health Organization (WHO).
  • Mortalité des cancers dans le monde . Ce dataset provient aussi de la World Health Organization (WHO).
  • Données socio-économiques de la World Bank
  • Données socio-économiques de la Food and Agriculture Organization (FAO)

Contraintes techniques

Les domaines abordés dans ce projet toucheront aux statistiques, machine learning, big data et séries temporelles. Les langages de programmation R et Python seront considérés. Le défi majeur à relever sera la profondeur de donnée relativement petite et donc le faible nombre de données pour entraîner les algorithmes de prédiction

Recherche d’une problématique

Contexte

Ce projet d’option est un projet de recherche et non un projet d’entreprise. Nous sommes confrontés ici à une problématique ouverte avec peu de contraintes techniques qu’il nous faut préciser. Ainsi, la première étape et la plus importante est la définition de la problématique afin d’orienter le champ des recherches autour de sujets cohérents et pertinents dans le domaine de l’épidémiologie du cancer. Cependant, l’établissement d’un état l’art actuel de la recherche sur le sujet est tâche ardue car très peu de rapports et articles scientifiques sont libres de droits d’accès. Ainsi, le cheminement de pensée et la convergence vers une problématique sera revu et corrigé par un chercheur en oncologie dès lors que nous pourrons en rencontrer un. Epidemium devrait pouvoir nous mettre en relation avec un oncologue très prochainement.

Qu’est-ce que le cancer

Définition et chiffres

Le cancer est défini par l’OMS de la manière suivante. “Cancer est un terme général appliqué à un grand groupe de maladies qui peuvent toucher n'importe quelle partie de l'organisme. L'une de ses caractéristiques est la prolifération rapide de cellules anormales qui peuvent essaimer dans d'autres organes, formant ce qu'on appelle des métastases.” On dénombre plus de 200 types différents de cancer . A l'échelle internationale, le cancer est l’une des principales causes de morbidité et de mortalité. On dénombrait ainsi en 2012 environ 14 millions de nouveaux cas et 8,2 millions de décès pour 32,5 millions de personnes vivant avec le cancer.

Img1.png

Etiologie

Les cancers sont des maladies complexes dont l'étiologie est multifactorielle. Cela signifie qu’ils résultent de l'interaction de plusieurs facteurs, génétiques et environnementaux. Les études épidémiologiques ont identifié un certain nombre de facteurs de risque que l’on peut classer en facteurs internes (facteurs physiques) ou externes (facteurs liés à l'environnement), modifiables ou non modifiables, tels que :

  • L'âge ;
  • L'hérédité ;
  • Le tabagisme ;
  • La surcharge pondérale et l’obésité ;
  • La consommation d'alcool ;
  • Une alimentation déséquilibrée ;
  • Le manque d’exercice physique (sédentarité) ;
  • Infection par des virus ;
  • Les rayonnements ionisants et non ionisants ;
  • La pollution de l’air des villes ;
  • Une exposition à certains produits physiques et chimiques (amiante, benzène, ...) ;
  • Les hormones ;

Les principaux cancers dans les pays en développement

  • Le cancer du poumon

Le cancer du poumon est le cancer avec le taux d’incidence le plus élevé dans les pays en développement avec 20 cas pour 100 000 habitants . Le tabagisme est le facteur de risque le plus important et alors que les pays développés se détournent de plus en plus de la cigarette, les pays émergents deviennent une cible privilégiée pour les industriels du tabac. On s’attend donc à une recrudescence de ce type de cancer dans ces populations dans les vingt prochaines années.

  • Les cancers digestifs

Le cancer de l’estomac est le deuxième le plus incident dans ces pays avec près de 13 cas pour 100 000 habitants, soit 20% de plus que dans les pays développés (1). Les facteurs inducteurs sont la gastrite chronique (d’origine bactérienne), le tabagisme, une alimentation trop salée et pauvre en fruits et légumes et enfin l’hérédité génétique. Ensuite viennent les cancers du foie et de l’œsophage dont l’incidence est deux fois plus importante que dans les pays développés. Une consommation excessive d’alcool, le tabagisme ou encore l’obésité en sont les principales causes. Pour le cancer du foie on peut ajouter les hépatites B et C. Le cancer colorectal est également important dans les pays en développement, mais dans une moindre mesure si l’on compare aux pays développés (taux d’incidence trois fois moins important).

  • Le cancer du sein

Bien que deux fois moins incident par rapport aux pays développés, le cancer du sein est le plus important chez les femmes avec plus de 30 cas pour 100 000 femmes. Cependant la mortalité est deux fois plus probable dans les pays en développement dans la mesure où l’accès aux soins est particulièrement limité.

  • Les cancers gynécologiques

Le cancer du col de l’utérus est le deuxième cancer le plus important chez les femmes des pays émergents (elles représentent 84% des malades pour ce type de cancer dans le monde). Les taux d’incidence les plus hauts sont en Afrique, Amérique du sud et Caraïbes et les taux les plus bas en Amérique du Nord et Océanie. Il est surtout causé par le Human Papilloma Virus (IST) mais aussi par la malnutrition .

Les cancers de l’endomètre et des ovaires sont peu fréquents dans ces pays, respectivement à la 6ème et 7ème place. Pour celui de l’endomètre il aurait pu être intéressant d’étudier l’effet protecteur de l’activité physique et du café ou celui inducteur d’une alimentation trop grasse et trop sucrée .

Le Big Data appliqué à l’épidémiologie

La recherche sur le cancer a été jusqu’à aujourd’hui une recherche très institutionnelle menée par de grands groupes à l’image de Roche, leader dans les traitements anticancéreux en France. Le Big Data est une nouvelle approche dans le domaine n’ayant pas pour objectif de supplanter la recherche académique mais plutôt de la compléter. Cette nouvelle approche arrive avec l’explosion phénoménale du nombre de données disponibles à travers le monde, particulièrement dans le secteur de la santé. Par exemple en France, on dénombre maintenant près de 260 bases de données publiques dans le domaine de la santé. Elle permet au plus grand nombre, scientifique ou simple individu, de travailler sur ces nouvelles données disponibles sur la maladie. L’objectif est la mutualisation des ressources et des connaissances pour accélérer l’avancement de la recherche dans le domaine. Les applications principales du big data en santé sont : Identification des facteurs de risque. Notre problématique suivra certainement cet axe. Amélioration des systèmes d’aide au diagnostic. Par exemple, le super ordinateur Watson d’IBM propose déjà des stratégies thérapeutiques personnalisées dans certains hôpitaux. Vérification de l’efficacité d’un traitement. Prédiction des épidémies

Qu’est-ce qu’un pays en voie de développement ?

L’un des point clé de la problématique est la distinction entre pays développés et pays en voie de développement. Cependant, il n’existe aucun critère universel pour décider si un pays tombe dans une catégorie plutôt que dans l’autre. Par exemple, un pays en voie de développement peut être défini comme un pays présentant un IDH (Indice de Développement Humain) faible comparé aux autres, ou bien dont le PIB per capita est faible, encore une fois comparé aux autres. Le terme ne doit pas être confondu avec les Pays les Moins Avancés (PMA), catégorie de pays créée par l’ONU en 1971, regroupant les pays les moins développés socioéconomiquement de la planète. Afin de ne pas tomber dans des considérations éthiques et politiques, le critère retenu sera celui du Fond Monétaire International dans le World Economic Outlook Report (WEO) .

Etude des datasets

Les datasets que nous possédons sont au nombre de 4. Nous en possédons un indiquant la mortalité des cancers, un autre indiquant l’incidence des cancers, par année, par sexe, par tranche d’âge et par pays. Nous possédons deux datasets supplémentaires indiquant la valeur de nombreux indicateurs par pays. Celui de la WorldBank en contient 875. Nous ne présenterons pas ici le dataset sur l’incidence car il ne nous intéresse pas pour le moment, étant donné que notre challenge concerne la mortalité des cancers.

Mortalité des cancers

Comme nous devons étudier la mortalité dans les pays en voie de développement, nous nous sommes intéressés à quelques statistiques concernant notre dataset sur la mortalité. Il contient des données dans 152 pays, dont 82 sont des pays en voie de développement selon la classification du FMI. Nous nous sommes alors posé la question suivante : quel est le type de cancer pour lequel nous possédons des données sur au moins 50% des pays en voie de développement, sur l’intervalle le plus grand en années ? Nous avons alors calculé, pour chaque type de cancer, et pour chaque année, le nombre de pays en voie de développements sur lesquels nous avons la donnée de mortalité. Ensuite nous avons déterminé les intervalles en années sur lesquels ce nombre est plus grand que 42 soit la moitié des pays en voie de développement du dataset. En annexe 1 figure le tableau qui résume ces résultats. L’intervalle le plus grand est de 1985 à 2013. Nous en déduisons que si nous souhaitons avoir une base de données la plus grande en nombre de pays, et la plus profonde en nombre d’années, il faudrait étudier les cancers de la liste suivante :

  • C15, Néoplasme malin de l’œsophage
  • C16, Néoplasme malin de l’estomac
  • C18, Néoplasme malin du côlon
  • C19-C21, Néoplasme malin du rectum, la jonction rectosigmoïde et l’anus
  • C32, Néoplasme malin du larynx
  • C50, Néoplasme malin de la poitrine
  • C53, Néoplasme malin du col de l’utérus
  • C55, Néoplasme malin de l’utérus, partie non-spécifiée
  • C61, Néoplasme malin de la prostate

En effectuant la même analyse sur les pays développés, avec comme seuil la moitié des 70 pays développés, on obtient que l’intervalle le plus grand est de 1963 à 2014 (il inclut donc le précédent) et correspond aux codes C15, C16, C32, C50, C53, C55, C61, cette liste étant incluse dans la première on peut la considérer pour la suite de l’étude, si on souhaite pouvoir comparer les pays en voie de développement et les pays développés. Celle-ci est mise en gras ci-dessus.

World Bank Dataset

Dans un objectif de transparence et de partage des connaissances, la Banque Mondiale a construit ce jeu de données d’indicateurs socio-économiques. Le tableau suivant résume les grandes catégories d’indicateurs. La profondeur de donnée varie beaucoup selon les indicateurs et selon les pays.

Catégorie Description Nombre de variables
Economie Indicateurs économiques (PIB, IDH, etc), consommation, importations, exportations, taxes... 240
Education Alphabétisation, statistiques sur les écoles, années d’étude, dépense de l’Etat ... 139
Environnement Agriculture, forêts, précipitations, energie, emissions, population ... 129
Genre Discrimination hommes/femmes 5
Santé Taux de mortalité, hôpitaux, maladies, cigarettes, dépenses... 134
Infrastructure Transport, R&D... 40
Pauvreté Ligne de pauvreté, revenus, index de GINI... 13
Secteur Public Dettes, taxes, dépenses, militaire... 80
Protection Sociale Emploi, secteurs, salaires, migration, 92

Tableau 1 - Classification des indicateurs du dataset de la WorldBank

FAO Dataset

Le dataset de la Food and Agriculture Organization présente pour 150 pays la valeur d’indicateurs alimentaires et agricoles chaque année entre 1961 et 2014. Parmi ces indicateurs, le dataset référence notamment la production et consommation de 66 aliments dans de nombreuses catégories. Les indicateurs agricoles permettent de quantifier l’utilisation de 50 pesticides. La base de données est de bonne qualité : pour 75% des pays on possède les valeurs des indicateurs chaque année (les pays manquants sont en général situés en Afrique). Le tableau suivant présente la richesse de la base de données concernant l’alimentation, elle pourrait donc être exploitée pour étudier le caractère protecteur ou inducteur de ces nombreux aliments par rapport aux cancers digestifs.

Fruits

Apples and products
Bananas
Coconuts - Incl Copra
Fruits, Other
Grapefruit and products
Grapes and products (excl wine)
Lemons, Limes and products
Nuts and products
Olives (including preserved)
Oranges, Mandarines
Pineapples and products
Dates
Groundnuts (Shelled Eq)

Légumes

Beans
Onions
Potatoes and products
Soyabeans
Sweet potatoes
Tomatoes and products
Cassava and products
Peas
Pulses, Other and products

Matières grasses

Coconut Oil Cottonseed Oil Fats, Animals, Raw Fish, Body Oil Fish, Liver Oil Groundnut Oil Maize Germ Oil Oilcrops Oil, Other Olive Oil Rape and Mustard Oil Sesameseed Oil Soyabean Oil Sunflowerseed Oil Butter, Ghee

Poissons et produits de la mer

Aquatic Animals
Aquatic Plants
Crustaceans
Demersal Fish
Freshwater Fish
Marine Fish, Other
Molluscs, Other
Pelagic Fish
Cephalopods

Viandes

Bovine Meat
Meat, Other
Mutton & Goat Meat
Pigmeat
Poultry Meat
Offals, Edible
Eggs

Céréales

Cereals, Other Maize and products Rice (Milled Equivalent) Sesame seed Barley and products Oats Rape and Mustardseed Rye and products

Boissons

Beer
Beverages, Alcoholic
Beverages, Fermented
Coffee and products

Sucres

Honey
Sugar (Raw Equivalent)
Sweeteners, Other

Produits laitiers

Cream Milk - Excluding Butter

Autres: Pepper, Pimento, Spices, Tea (including mate), Cloves, Cocoa Beans and products, Plantains

Tableau 2 - Classification des indicateurs du dataset de la FAO Choix d’un type de cancer et facteurs de risques associés

Dans nos datasets nous avons remarqué que nous avions plus de données pour les cancers les plus répandus (voir l’étude des datasets précédente), et comme nous avons aussi accès au FAO Dataset, qui est une grande base de données alimentaires et agricoles, nous avons décidé d’étudier l’influence de l’alimentation sur un type de cancer qui pourrait y être lié. Nous avons donc pensé aux cancers digestifs, tels que le cancer de l’œsophage, le cancer de l’estomac ou le cancer colorectal. Nous attendons de pouvoir nous entretenir avec un oncologue et un data scientist pour déterminer s’il est plus intéressant de s’intéresser à ces trois types de cancers ou s’il est préférable de se contenter de n’en étudier qu’un seul. En attendant, une problématique provisoire serait la suivante : Comment les facteurs alimentaires et agricoles influent sur la mortalité des cancers digestifs dans les pays en voie de développement ? Est-il possible de prédire l’évolution de la mortalité des cancers digestifs dans les pays en voie de développement ?

Résultats

Nettoyage des datasets

Uniformisation et agrégation

Comme vu précédemment, le dataset de mortalité contient la donnée de mortalité par pays, par genre, par tranche d’âge, et par type de cancer. Nous nous sommes dit que pour avoir des données comparables, nous allions diviser la mortalité par la population totale d’un pays donné par sa population. Alors, comme nous possédons la donnée de la population totale d’un pays dans le dataset de la WorldBank, nous avons décidé de sommer les valeurs de mortalité pour un pays et une année donnée, sur toutes les tranches d’âge et les deux sexes. Pour ce faire, il a fallu supprimer les pays et années pour lesquelles nous n’avions pas la donnée sur les 19 tranches d’âge et les deux sexes. Ceci concernait une petite partie du Dataset, voici le nombre de lignes perdues après ce traitement :

Etape Nombre de lignes
Initialement 6 359 642
Après uniformisation 5 394 556
Après agrégation 141 962

Tableau 3 : Résumé de l’uniformisation et agrégation des données

Notons que pour passer de la valeur après uniformisation à la valeur après agrégation, il suffit de diviser par 38 étant donné qu’il y a 2 genres et 19 tranches d’âge.

Noms de pays

Comme les trois datasets contiennent des données par pays et par année, ces deux attributs étaient naturellement ceux à utiliser pour faire la jointure entre les jeux de données. Si les années sont écrites de la même manière sur les trois datasets, on ne peut pas en dire autant pour les noms de pays qui peuvent avoir plusieurs graphies. Nous avons alors fait une analyse des noms de pays permettant de détecter les noms déclinés de différentes manières et de les uniformiser. Cela nous a permis de récupérer 10 pays de plus dans la fusion (de type inner join) finale.

Dataset

Nombre de pays

Worldbank

258

FAO

335

Mortality

153

Inner Join

112

Inner Join après uniformisation des noms

122

Tableau 4 : Résumé de la selection des pays

Gestion des outliers

Nous nous sommes rendus compte que nos modèles obtenaient des MAPE très élevées. En visualisant les prédictions, les modèles avaient l’air de bien coller aux données, ce qui signifiait très probablement que nous avions des outliers, ou valeurs erronées parmi les variables à prédire. En visualisant l’évolution de la mortalité par Pays, il est plus ou moins aisé de voir que certaines valeurs sont absurdes, comme pour le Brésil ci-dessous, dont toutes les valeurs de mortalité sont au delà de 8000, sauf en 1978 où on a enregistré une valeur de 0.

Img4.png

Image 2 : Mortalité au Brésil par année

Dans d’autres cas, c’est plus subtil : est-ce que les cinq dernières valeurs du graphique suivant sont absurdes ?

Img5.png

Image 3: Mortalité au Costa Rica par année

Nous avons dans un premier temps enlevé les valeurs considérées comme absurdes à la main, ce qui a eu pour effet d’améliorer considérablement la valeur des métriques retenues, comme nous le verrons bientôt. Toute méthode générale de suppression des outliers n’est pas parfaite : on pourrait enlever tous les points ne se situant pas dans un intervalle de confidence défini par les différentes valeurs de mortalité sous certaines hypothèses, mais nous ne connaissons pas la distribution des valeurs de mortalité, donc nous ne pouvons réellement formuler d’hypothèse fiable, nous pouvons simplement postuler ou mettre un seuil arbitraire.

Prétraitement des datasets

Le prétraitement des jeux de données est une étape importante dans le processus d’étude et de prédiction. L’objectif de cette étape est d’obtenir plusieurs datasets de sortie regroupant les informations de nos trois datasets initiaux sous différentes formes. Les résultats obtenus par les algorithmes sur ces différents datasets de sortie seront ensuite comparé.

Traitement des valeurs nulles

Suppression des colonnes avec seuil de valeurs nulles

Certaines colonnes ont un nombre important de valeurs nulles, et bien qu’elles soient ensuite remplacées par leur moyenne par exemple, cela risque de fausser les résultats de la prédiction. Ainsi pour chaque dataset (World Bank et FAO) nous ne gardons que les colonnes possédant un pourcentage minimal p de valeurs non nulles avec p ∈ {0%, 30%, 50%}. Il est difficile de savoir à l’avance le pourcentage le plus pertinent, le calcul des scores avec différents pourcentages nous permettra de trancher.

Remplacement des valeurs nulles par la moyenne

Une fois les colonnes sélectionnés selon leur pourcentage de valeurs non nulles nous remplaçons les cellules vides dans chaque colonne par la moyenne des valeurs de la colonne. Nous pourrons par la suite affiner le remplacement des cellules vides (moyenne par pays par exemple ou prédiction en se basant sur les valeurs obtenues pour des observations similaires à celle qui possède une valeur nulle).

Mortalité relative

Enfin, comme indiqué précédemment, nous avons relativisé la mortalité à la population totale du pays, afin d’avoir des données comparables.

Algorithmes de prétraitement

Analyse en Composantes Principales

Le principe de l’analyse en composantes principales (ACP) consiste à transformer des variables corrélées en nouvelles variables décorrélées les unes des autres, les “composantes principales”. On cherche donc à définir k composantes principales, combinaisons linéaires des n variables initiales avec k < n, qui feront perdre le moins d’information possible sur le jeu de données. Ces composantes principales définissent des axes orthogonaux. “Perdre le moins d’information possible” se traduit mathématiquement par “expliquer le plus de variance totale”. Pour cela on définit un seuil de variance totale à expliquer et on cherche à trouver k tel que k composantes principales produisent au moins autant de variance que ce seuil. Dans notre cas, nous avons sélectionnés un seuil de 90%. L’inconvénient de cette méthode est que l’on perd le sens physique des variables qui sont maintenant des combinaisons linéaires des variables originelles.

Variance Threshold

Bien que ce soit un prétraitement efficace pour la prédiction, la PCA ne permet pas de conserver les intitulés des variables d’origine. Pour apprécier l’influence de chaque variable dans le calcul de la prédiction une autre manière de réduire la dimension est de ne sélectionner que les variables dont la variance dépasse un seuil donné. Pour cela, la bibliothèque python Scikit-Learn met à notre disposition plusieurs algorithmes dont Variance Threshold. Nous utilisons l’algorithme avec un seuil de variance diminuant d’environ 60% le nombre de colonnes. Il sera intéressant d’affiner notre seuil de variance ou de choisir d’autres méthodes de sélection de variables (et de comparer les scores obtenus) dans un deuxième temps.

Démarche

Les prétraitements présentés dans la section précédente peuvent être appliqués à plusieurs moment dans le processus global de prétraitement, selon un ordre différent, avant de faire une jointure, après, etc. Nous avons opté pour 3 démarches différentes.

Démarche 1

La première démarche et la plus simple est de n’appliquer aucune action de prétraitement sur les trois datasets initiaux avant de faire une jointure globale. Une fois le dataset global obtenu, on peut alors commencer les étapes de prétraitement. Cependant, nous n’avons pas pu aller jusqu’au bout de cette démarche car le dataset global est très lourd et nos ordinateurs n’ont pas été en mesure de faire tourner des scripts dessus.

Démarche 2

Comme les jeux de donnée précédents n’était pas manipulable en raison de sa taille, nous avons décidé de faire tourner les algorithmes de prétraitement sur les jeux de données séparés World Bank et FAO puis d’effectuer la jointure après.

Notre démarche est la suivante : 1. Suppression des colonnes nulles pour les deux seuils 30% et 50% puis remplacement des valeurs nulles par la moyenne pour WorldBank et FAO. On obtient donc 6 datasets. 2. Application de l’ACP sur les datasets WorldBank et FAO, déclinés en fonction des seuils précédents. Les résultats obtenus sont résumés dans le tableau suivant. On trouvera aussi un exemple de graphe représentant la réduction de dimension grâce à l’ACP. La ligne rouge sur le graphique représente le seuil de 90% de variance totale expliquée.

Img2.png

Image 4: ACP sur WorldBank


Nombre initial de variables Nombre de composantes principales retenues
World Bank 872 184
World Bank 30 684 123
World Bank 50 554 93
FAO 4623 242
FAO 30 3276 116
FAO 50 1986 65

Tableau 5 : Réduction de dimension pour chaque dataset via l’ACP

3. Un fois l’ACP appliquée aux datasets nous avons fait des jointures les uns avec les autres et avec les données de mortalité pour ne former plus que trois datasets en fonction des seuils de suppression des valeurs nulles. 4. Enfin, une ACP a encore été appliquée aux datasets précédents pour réduire à nouveau le nombre de variables. En effet, comme nous avons effectué des jointures entre différentes PCA à l’étape précédente, les variables des trois derniers datasets ne sont pas toute orthogonales entre elles et il est encore possible de réduire le nombre de dimension. Le tableau suivant résume les résultats obtenus.


Nombre de variables initiales Nombre de composantes principales retenues
ALL _PCA_Merged_PCA 426 201
ALL_MV30_PCA_Merged_PCA 239 126
ALL_MV50_PCA_Merged_PCA 158 92

Tableau 5: Résultat de la deuxième application d’ACP

Cette démarche fournit donc 3 datasets finaux avec lesquels nous pourront faire de la prédiction.

Démarche 3

Cette démarche est très similaire à la précédente mais l’algorithme de prétraitement est cette fois ci Variance Threshold. La démarche est la suivante : Suppression des colonnes nulles pour les deux seuils 30% et 50% puis remplacement des valeurs nulles par la moyenne pour WorldBank et FAO. On obtient donc 6 datasets. Application de Variance Threshold sur WorldBank et FAO, déclinés selon les seuils précédents. Les résultats de l’algorithme sont présentés dans le tableau suivant.

Résumé du nettoyage et prétraitement

Img3.png

Image 5 : Résumé des processus de nettoyage et prétraitements choisis

Modèles construits

Première approche : les méthodes linéaires

Principe

Nous avons commencé par les méthodes les plus simples, que sont les méthodes linéaires, afin de prédire la mortalité à partir des variables d’une part, et de l’expliquer à partir des variables d’autre part. La méthode de régression linéaire simple non seulement assignait souvent des coefficients très grands aux variables, mais en plus elle obtient un score trop proche de 1 sur le jeu d’entraînement et très mauvais sur le jeu de test ce qui signifie que le modèle surapprend. Nous avons donc opté pour des méthodes de régression qui pénalisent la complexité du modèle. Nous avons alors comparé les méthodes de régression linéaire simple, avec LASSO et Ridge. Chacune de ces méthodes calcule la valeur des coefficients alpha des dimensions de la variable X, dans la combinaison linéaire qui lie les dimensions de X à la variable à prédire Y.

La fonction à minimiser pour la régression linéaire simple, afin de trouver ces coefficients, est la SE (Squared Error ou erreur quadratique), dont la formule est :

Le problème, nous le verrons, c’est qu’un modèle aussi simple aura tendance à l’overfitting, c’est-à-dire à s’entraîner à très bien prédire les données de test avec des coefficients très complexes, alors que les prédictions sur un nouveau jeu sont mauvaises. Face à ce problème, Lasso et Ridge permettent de régulariser le modèle, en introduisant une pénalité pour les modèles complexes. Ainsi la fonction de coût à minimiser pour Ridge est :

Et celle pour Lasso est :

Lasso a pour effet de mettre à 0 les coefficients des variables qui n’ont pas beaucoup d’impact. C’est donc la méthode de choix lorsque nous sommes face à un problème possédant un grand nombre de variables donc on souhaite en extraire quelques-unes. Cela nous sera utile par la suite.

Evaluation des modèles et premières conclusions

Pour choisir la valeur du meilleur alpha, nous procédons par grid search en faisant de la validation croisée avec 5 sous-échantillons. La proportion du jeu de données utilisé pour l’entrainement est 67% du dataset, et 33% pour le test. Ce sera le cas pour tous les modèles présentés dans ce document si ce n’est pas précisé. évaluer les modèles de régression présentés précédemment, on utilise la valeur R², qui correspond à la proportion de la variance expliquée par le modèle. Pour les implémentations sur scikit-learn, la valeur de R² est définie comme suit :

Où ,

Alors R² est au plus égal à 1, auquel cas les prédictions correspondent exactement à la valeur à prédire. Notons que R² est égal à 0 dans le cas où le modèle prédit toujours une valeur constante égale à la moyenne des valeurs réelles, et que si les prédictions sont encore moins bonnes, R² peut être arbitrairement négatif. On ne peut malheureusement pas interpréter absolument R², mais sa valeur nous permet bien de comparer différents modèles.

Initialement, pour cette partie, nous avons utilisé le dataset ALL_MV50_Var_Merged (voir l’annexe 2 pour la nomenclature des datasets) qui permettait d’avoir de meilleurs scores. Nous avons opté pour la présélection de variable par seuil de variance car elle permet aussi de conserver les noms des colonnes, donc le sens physique des variables manipulées, ce qui est pertinent dans notre recherche puisque nous souhaitons extraire les variables explicatives de la mortalité pour répondre à notre problématique.

Dans un premier temps, la méthode linéaire sur le dataset donnait un score R²=0,97 sur le jeu d’entraînement et R²= -1072329 sur le jeu de test. On conclut qu’il y a bien surapprentissage avec la régression linéaire, comme discuté en E.1.a. Notons à titre d’exemple qu’un modèle qui tire des valeurs aléatoires dans le domaine de Y obtient un score R²= -0.33.

Comme prévu, nous nous sommes alors penchés sur les méthodes linéaires qui pénalisent la complexité du modèle. Voici les résultats obtenus avec différentes valeurs de alpha (voir l’équation de régularisation en E.1.a) pour Ridge.

Alpha 0 0,01 0,05 0,2 1 5 10 15
Score Train 0,97 0,95 0,95 0,95 0,95 0,94 0,94 0,93
Score Test -1170972,33 0,83 0,85 0,86 0,87 0,88 0,89 0,89

Table : Score pour Ridge

Comme prévu, pour alpha nul, on obtient un score presque égal à celui de la régression linéaire. Lorsqu’on augmente le coefficient alpha, les scores sur le jeu d’entraînement et le jeu de test convergent l’une vers l’autre, ce qui veut dire qu’a priori, nous réduisons le surapprentissage. Notons que le score plafonne à 0,89. Est-ce que cela veut dire que le modèle est bon ? C’est difficile à dire, car cela n’est pas suffisant, mais c’est un bon signe. De plus, les valeurs de R² nous permettent de comparer les modèles. Nous avons au moins un modèle nous permettant de prédire la mortalité des cancers en fonction des variables, avons-nous pour autant répondu à la problématique de prédiction ? Pas tout à fait, puisqu’il faut encore prédire les valeurs des variables, ce qui est peu pratique puisque le dataset en possède plus de 1000. Il faut alors restreindre le nombre de variables.

Pour ce qui est de l’autre partie de la problématique, s’intéressant aux variables explicatives des cancers digestifs, nous nous sommes penchés sur LASSO, qui sélectionne certaines variables, et assigne un coefficient nul aux autres.

Pour LASSO, voici les résultats :

Alpha 0,002 0,004 0,006 0,008 0,01 0,02 0,04 0,06 0,08 0,1
Score Train 0,92 0,90 0,89 0,88 0,87 0,83 0,76 0,72 0,68 0,64
Score Test 0,88 0,87 0,86 0,86 0,85 0,81 0,75 0,70 0,66 0,62
Nombre de variables* 313 245 185 157 146 110 64 43 30 26

*dont les coefficients sont non-nuls après avoir entraîné LASSO.

Table : Score pour Lasso

Avec des valeurs de alpha trop élevées, nous augmentons trop le biais du modèle qui ne peut plus épouser les données. Notons toutefois que pour des valeurs de alpha faibles, on obtient les mêmes scores qu’avec Ridge, tout en diminuant considérablement le nombre de variables. Cela nous a permis d’extraire les variables dont les coefficients sont non nuls, et de les classer par importance (en valeur absolue) et de déduire que les indicateurs présentés en annexe 3 sont ceux qui ont le plus de poids pour LASSO.

Résultats obtenus

Nous pourrions être tentés de conclure qu’en ayant obtenu des « bons » scores, nous avons réussi à implémenter un modèle permettant de prédire la mortalité des cancers digestifs, et que la réduction du nombre de variables en conservant des scores similaires (disons avec LASSO, alpha = 0,01) nous permet de déduire les variables ayant le plus de poids comme causes probables de la mortalité du cancer. Alors nous n’aurions pas besoin d’aller plus loin que cette première approche, si ce n’est pour augmenter le coefficient de détermination.

Les limites résident dans le fait que LASSO ne choisit, parmi les colonnes corrélées, qu’une seule colonne et assigne des coefficients nuls aux autres. Il en résulte que certaines variables peuvent ne pas apparaître alors qu’elles influent grandement sur le résultat.

Cela dit, un autre problème plus important subsiste : le score retenu ne nous permet pas conclure quant à la précision du modèle. Il faut alors choisir une métrique nous-mêmes et se baser dessus pour choisir le meilleur modèle.

Quelle métrique ?

Comme nous cherchons à prédire la mortalité des cancers en nombre, l’erreur R² étant proche de l’erreur quadratique, elle ne permet pas de conclure quant à la précision de la prédiction : les valeurs absurdes y donnent une importance très élevée, donc une erreur quadratique élevée ne signifie pas que le modèle est mauvais. Si l’erreur quadratique était faible, le R² ne nous permet pas de conclure non plus, puisque l’erreur quadratique moyenne est normalisée par la variance, donc avec une variance élevée nous obtenons un coefficient de détermination élevé sans garantie que le modèle soit bon. Nous faisons alors le choix de l’erreur absolue moyenne comme métrique (Mean Absolute Error), plus simple à interpréter : c’est l’écart moyen avec la mortalité à prédire. Pour que ce nombre parle plus, nous pouvons le diviser par la moyenne de la mortalité, ce qui nous donne une erreur homogène à un pourcentage moyen. Nous l’appellerons RMAE (Relative Mean Absolute Error).

Enfin, pour être encore plus précis, nous pouvons calculer le MAPE (Mean Absolute Percentage Error), qui s’interprète ainsi : en moyenne, la prédiction fait une erreur de MAPE% par rapport à la mortalité à prédire. Cette interprétation est bien plus claire que ce qu’on pouvait déduire du coefficient de détermination.

Relativiser les résultats précédents


MAE MAPE MD MPE MSE R2_test R2_train RMSE alpha
ALL_MV_30_PCA 1700.5 3.0 3185.7 0.6 23031427.0 0.72 0.76 4799.1 19
ALL_MV_50_PCA 1710.6 3.4 3185.7 0.6 23341419.0 0.66 0.71 4831.3 19
ALL_MV_30_VT 1726.7 2.2 3185.7 0.6 25056481.0 0.91 0.96 5005.6 19
ALL_MV_50_VT 1726.0 2.2 3185.7 0.6 24579969.0 0.90 0.94 4957.8 15

Table : Métriques pour Ridge

Comme nous avons balayé tout l’espace du seul hyperparamètre et que les modèles linéaires donnent une très mauvaise précision, il faut tester d’autres types de modèles afin d’obtenir une bonne précision.

K plus proches voisins

Principe

L’algorithme des k plus proches voisins consiste à prédire la valeur cible d’une observation en interpolant les valeurs cibles des k observations du dataset d’entrainement les plus proches au sens de la distance euclidienne par exemple. Ainsi la phase d'entraînement consiste simplement pour l’algorithme à enregistrer les valeurs du dataset d'entraînement. Il s’agit de tester différentes valeurs de k mais on peut également régler la métrique pour le calcul de la distance (euclidienne, minkowski ou manhattan par exemple) ou encore l’ajout de poids aux différents voisins dans le calcul de la prédiction (on peut calculer une moyenne mais aussi affecter aux k plus proches voisins l’inverse de leur distance à l’observation pour donner plus d’importance aux voisins les plus proches).

Evaluation du modèle

Le score correspond aussi au coefficient de détermination R^2

Résultats obtenus

Dans tous les cas le fait de pondérer les k plus proches voisins par l’inverse de leur distance (weights=’distance’) à l’observation donne de meilleurs résultats. On trouve la valeur de k optimale pour chaque dataset par cross validation.


MAE MAPE MD MPE MSE R2_test R2_train RMSE K
ALL_MV_30_PCA 125.1 0.24 3016.0 0.05 330428.6 0.91 1 574.8 3
ALL_MV_50_PCA 123.8 0.16 3016.0 0.05 293457.1 0.92 1 541.7 3
ALL_MV_30_VT 187.5 0.20 3016.0 0.07 1079068.0 0.92 1 1038.8 4
ALL_MV_50_VT 171.5 0.20 3016.0 0.07 634482.0 0.92 1 796.5 5

Table : Métriques pour KNN

Les méthodes basées sur des arbres de décision

Principe

Un arbre de décision est entraîné de manière récursive. A chaque étape, l’algorithme teste différentes combinaisons de variable/valeur discriminante séparant les données en deux sous ensemble et choisit la combinaison qui minimise la somme des erreurs au carré (pour chaque échantillon, l’écart entre sa valeur de Y et la moyenne des Y du sous ensemble). Réaliser une prédiction sur les données de test consiste alors à faire descendre tout l’arbre à chaque donnée d’entrée et à renvoyer la moyenne des valeurs de sortie des données d'entraînement qui sont dans la même feuille.

L'algorithme Random Forest consiste en un ensemble d'arbres de décision, chacun étant entraîné sur une partie du dataset d'entraînement (par bootstrap c’est-à-dire en réalisant un tirage avec remise) et sur un nombre limité de variables (choisies manière aléatoire). La prédiction du Random Forest correspond dans le cas d'une régression à la moyenne des prédictions des arbres de la forêt.

Random search/grid search

Pour déterminer les hyperparamètres permettant d'obtenir les meilleurs prédictions, nous avons procédé par cross-validation. Pour chaque combinaison d'hyperparamètres testée il s'agit de diviser plusieurs fois (ici 5 fois) l'ensemble de train en un sous-ensemble de train sur lequel le modèle est entrainé et un sous-ensemble de validation sur lequel on calcule un score. La combinaison d'hyperparamètres sélectionnée est celle qui permettent d'obtenir le meilleur score moyen (coefficient de détermination R^2). Le temps de calcul et le nombre d'hyperparamètres étant élevés nous avons d'abord testé des valeurs aléatoires d'hyperparamètres sur des intervalles suffisamment larges (fonction RandomizedSearchCV dans sklearn). Nous avons ainsi pu déterminer les valeurs les plus intéressantes et tester à leur voisinage toutes les combinaisons possibles (GridSearchCV dans sklearn).

Pour le modèle Random Forest nous avons optimisé les hyperparamètres suivants par rapport à leur valeur par défaut (noms utilisés dans sklearn) :

  • le nombre d'arbres de décisions utilisés par le modèle (n_estimators)
  • la grandeur à minimiser lors d'un split (criterion)
  • le nombre minimum d'échantillons nécessaire pour réaliser un split (min_sample_split)
  • utilisation du bootstrap (bootstrap)
  • nombre maximum de features utilisées pour réaliser les splits (max_feature)

Résultats obtenus


MAE MAPE MD MPE MSE R2_test R2_train RMSE
ALL_MV_30_PCA 452.4 0.63 3016.0 0.18 2102487.6 0.67 0.91 1450.0
ALL_MV_30_VT 302.9 0.20 3016.0 0.12 2914826.1 0.81 0.97 1707.3
ALL_MV_50_PCA 561.0 1.61 3016.0 0.22 5789152.3 0.63 0.91 2406.1
ALL_MV_50_VT 279.3 0.42 3016.0 0.11 2039509.0 0.82 0.97 1428.1

Table : Métriques pour Decision Tree


MAE MAPE MD MPE MSE R2_test R2_train RMSE
ALL_MV_30_PCA 300.6 1.31 3016.0 0.12 1056508.0 0.84 0.99 1027.9
ALL_MV_30_VT 205.3 0.22 3016.0 0.08 1074940.0 0.91 0.98 1036.8
ALL_MV_50_PCA 344.5 1.18 3016.0 0.14 1848607.0 0.86 0.98 1359.6
ALL_MV_50_VT 182.2 0.18 3016.0 0.07 1055671.0 0.92 0.99 1027.5

Table : Métriques pour Random Forest

Meilleur modèle/dataset

L’objectif de cette section est de comparer les datasets et les performances des modèles entraînés afin de déterminer le couple optimal pour remplir l’objectif de prédiction. Pour cela, on s’interessera particulièrement aux métriques MPE et MAPE pour quantifier la précision de la prédiction ainsi que R² sur le jeu d'entraînement et R² sur le jeu de test pour mesurer la capacité de généralisation du modèle.

Les résultats de la méthode linéaire Ridge sur le dataset ALL_MV30_VT_Merged ont montré que malgré un R²_test élevé (0.96) l’erreur sur la prédiction est très importante (MAPE = 224%).

L’algorithme K plus proches voisins présente des résultats beaucoup plus encourageant. Sur le dataset ALL_MV50_PCA_Merged_PCA, on obtient MPE = 4.9% et MAPE = 16,3%. Ce sont les meilleurs scores de précision de tous les couples modèles/datasets. On observe en revanche un léger problème de surapprentissage car le R² d’apprentissage (0.92) est plus faible que que le R² d’entrainement (1).

Les modèles d’arbre de décision présentent des résultats bien meilleurs sur les datasets traités avec Variance Threshold.

Sur le dataset ALL_MV30_VT_Merged, on obtient avec l’algorithme decision tree MPE = 12,1% et MAPE = 20,2%. Encore une fois le modèle présente une grande erreur de généralisation avec un  R² d’apprentissage (0.97) plus faible que que le R² d’entrainement (0.81).

Sur le dataset ALL_MV30_VT_Merged, on obtient avec l’algorithme Random Forest MPE = 7,2% et MAPE = 17,8%. L’algorithme surapprend aussi légérement avec  un R² d’apprentissage (0.99) plus faible que que le R² d’entrainement (0.92).

En conclusion, les méthodes linéaires ont rapidement montré leur limite avec les nouvelles métriques mises en place. L’algorithme K plus proche voisin présente les meilleurs résultats de prédiction avec une des erreur de généralisation parmi les plus faibles. Enfin, les performances l’algorithme Random Forest sont proches de celles de l’algorithme précédent. Nous testerons donc ces deux modèles pour les prédictions. Le tableau suivant présente les paramètres et résultats des deux modèles sélectionnés.

Algorithme Dataset R2_train R2_test MSE RMSE MAE MPE MAPE MD
Random Forest ALL_MV_50_VT 0.99 0.92 1.0E+06 1.0E+03 1.8E+02 7.30% 17.90% 3.0E+03
KNN ALL_MV_50_PCA 1 0.92 2.9E+05 5.4E+02 1.2E+02 4.90% 16.40% 3.0E+03

Table : Résumé des métriques pour les meilleurs algorithmes sélectionnés

bootstrap criterion max_depth max_features min_samples_leaf min_samples_split
FALSE mae 40 32 2 6

Table : Paramètres optimaux pour l’algorithme Random Forest

k Weights
3 Distance

Table : Paramètres optimaux pour l’algorithme K plus proches voisins

L'image suivante illuste le comportement du K plus proche voisin sur les données. On peut voir que le modèle (bleu) colle bien aux données (orange)!Grph1.png

Image : Prédiction du KNN comparé aux valeurs initiales

Moyenne glissante

On pense d’intuition que les facteurs de mortalité du cancer ne sont pas à effet immédiat et que pour prévoir la mortalité à un moment t il faut s'intéresser aux facteurs à des moments précédents. Or jusqu’ici le modèle implémenté ne prend que les facteurs à un moment t pour prédire la mortalité à un moment t. Nous avons donc décidé de moyenner les facteurs étiologiques sur plusieurs périodes données afin d’intégrer cette dimension temporelle. Ainsi la nouvelle valeur d’une variable explicative pour une année A est égale à la moyenne des facteurs entre A et A-p avec p donné.

Les résultats n'ont pas eu le temps d'être produits.

Restriction aux pays en voie de développement

Comparaison entre test sur PVD uniquement et entraînement sur PVD uniquement

dataset R2_train R2_test MSE RMSE MAE MPE MAPE MD
ALL_MV_50_VT 1,00 0,96 212 441,48 460,91 146,31 8% 62% 2 321,72
ALL_MV_50_PCA 1,00 0,92 293 457,09 541,72 123,8 5% 16% 3016,03

Table : Résultats sur les pays en voie de développement

Train et test sur PVD uniquement (avec les hyperparamètres sélectionnés sur le dataset total)

Utilité du modèle prédictif : prédire l’avenir

Jusqu’à présent, nous avons construit des modèles permettant, à partir d’une donnée (donc d’un vecteur de variables correspondant à un triplet Pays/Année/Type de Cancer), de prédire la mortalité du type cancer considéré à l’année considérée, dans le pays considéré. Pour cela, il faut donc connaître la valeur de toutes les variables pour ce triplet Pays/Année/Type de Cancer. En théorie, notre modèle pourrait donc, si l’on connaissant la valeur des variables choisies pour une année future, prédire la mortalité future. Simplement, nous ne possédons a priori pas ces données pour les années à venir, donc ce qui a été présenté précédemment n’est pas suffisamment élaboré pour conclure quant à la prédiction future de la mortalité du cancer digestif. Pour aller plus loin, il faut alors choisir des stratégies permettant d’extrapoler les variables au futur afin de pouvoir appliquer notre modèle de prédiction.

Lags

Comme pour la moyenne glissante, on peut penser que l’impact des variables explicatives est décalé dans le temps de plusieurs années. Nous avons donc décalé la date des variables explicatives afin d'intégrer ce lag temporel. Ce décalage pourrait améliorer la performance du modèle en l’adaptant un peu mieux au phénomène qu’il représente et il présente une grande utilité pour la prédiction.

Dans cette nouvelle modélisation, pour un lag p donné, la mortalité à une année A est déterminé par les variables explicatives de l’année A-p. On peut donc prédire la mortalité jusqu’à p année en avance.

Nous n'avons pas eu le temps de produire les résultats.

Prédiction des variables par séries temporelles

Présentation de la méthodologie

Les modèles de série temporelle sont un outil efficace pour effectuer de la prédiction de variables explicatives. Comme le modèle de prédiction est ensuite appliqué aux données prédites, l’incertitude de cette approche repose dans la quantification de la propagation de l’erreur provenant des modèles de série temporelle dans le modèle de prédiction. Nous avons en revanche manqué de temps pour quantifier précisément cette erreur.

En statistique, le modèle AR(I)MA est le principal modèle de séries temporelles, permettant de comprendre et prédire les valeurs futures. Ce modèle est composé de trois parties :

  • Autorégressive (AR), dépendant d’un paramètre p. Ce modèle présume que les valeurs de la série temporelle dépendent linéairement des valeurs précédentes et d’un terme stochastique.
  • Moyenne-glissante (MA), dépendant d’un paramètre q. Ce modèle présume que les valeurs de la série temporelle dépendent linéairement des valeurs actuelles et antérieures d’un terme stochastique.
  • L’ordre d’intégration (I) de la série temporelle, dépendant d’un paramètre d. Cela indique combien de fois la série a été différenciée, c’est-à-dire dont la valeur a été remplacé par la différence entre la valeur actuelle et la valeur précédente.

Ce modèle présuppose que les séries temporelles traitées soient stationnaires. Cela signifie que la structure du processus sous-jacent supposé n’évolue pas avec le temps, et peut être résumé en trois conditions :

  • L’espérance de la série est constante au cours du temps : il n’y a pas de tendance.
  • La variance est constante au cours du temps et non infinie.
  • La covariance entre deux valeurs de la série dépend exclusivement de la distance entre les deux valeurs et non du temps.

Optimiser les paramètres afin de construire le meilleur modèle ARIMA pour une série temporelle est une tâche difficile mais à propos de laquelle la littérature scientifique est très complète.  Cependant notre besoin de prédire l’évolution de plusieurs centaines de variables explicatives requiert une automatisation de l’ajustement du modèle et forcément une perte en qualité.

Pour cela, nous avons utilisé la bibliothèque forecast du langage R qui possède une fonction auto.arima permettant d’ajuster automatiquement un modèle à une série temporelle.

Cette prédiction des variables explicatives par série temporelle peut être vue comme une première implémentation d’un modèle original de prédiction. En faisant appel à d’autres ressources afin d’obtenir les meilleurs prédictions possibles par série temporelle, ce modèle pourrait permettre d’estimer la mortalité du cancer pour les années futures.

Résultats

Malheureusement, nous n'avons pas eu le temps de comparer les résultats obtenus.

Conclusions

Conclusion modèle prédictif

Les meilleurs modèles retenus permettent de prédire, étant données les valeurs des variables, la valeur de la mortalité avec une précision raisonnable. Cela dit, si nous souhaitons utiliser notre modèle afin de prédire la mortalité dans le futur, il faut avoir connaissance de toutes les variables utilisées dans notre modèle, ce qui pose problème. Une des façons de répondre à cela a été le fait d’introduire un lag, soit une latence de n années sur l’influence des variables sur la mortalité. Cela fait, si nous possédons la valeur des variables sur les n dernières années, nous pourrions prédire la mortalité sur les n suivantes, avec une précision moyenne avoisinant les 15%. Une autre approche a été d’essayer de prédire les variables explicatives par d’autres méthodes prédictives comme les time series, mais sans succès étant donné que celles-ci ne fournissent que de grosses approximations en l’absence de tendances et de saisonnalités, ou en présence d’un bruit fort. Des deux méthodes, celles utilisant un lag est clairement la plus intéressante. Le challenge consiste alors à l’avenir d’améliorer le modèle afin de diminuer l’erreur de prédiction au maximum, par exemple en relativisant certaines des variables par la population totale d’un pays quand cela fait sens, comme nous l’avons fait pour la mortalité.

Conclusion variables explicatives

Les modèles par arbre de décisions permettent d’obtenir une précision correcte (15% d’erreur moyenne). Comme ils permettent aussi de classer les variables par ordre d’importance, cela laisse croire qu’ils rendent bien compte de l’influence de celles-ci sur la mortalité, puisque le modèle colle bien aux données. En réalité, cette influence n’est qu’une corrélation et il est difficile de conclure quant aux causes du cancer considéré, mais cela peut ouvrir des pistes pour des investigations sur des cancérigènes éventuels. Ceci dit, il est difficile de trouver un lien entre les variables explicatives données par notre modèle et la mortalité des cancers de l’estomac, mais des hypothèses pourraient en émerger : des études complémentaires, par exemple l’implémentation d’autres modèles spécifiques pour chaque variable explicative, devraient permettre de confirmer ou d’infirmer les fortes corrélations dégagées, et d’autres études ensuite pourraient permettre de conclure quant à la qualité de cause ou non desdites variables.