Epiesiea

From Epidemium
Jump to: navigation, search

Introduction du projet

Aujourd’hui, les possibilités de guérir d'un cancer atteignent plus de 50%, avec pour certains cancers des guérisons presque totales. Mais, malgré les progrès incessants faits tant en matière de traitement, en détection, et en prévention, cette maladie véhicule encore beaucoup de craintes au sein de la population car elle reste encore assez méconnue du grand public.

Nous sommes des étudiants de 4èmeannée au sein de l’école ESIEA, et nous sommes tous intéressés par la Data Science. Nous avons donc choisi de réaliser un projet qui nous permettrait, d’une part de participer à une tache humanitaire en participant à la lutte contre le cancer grâce à un partenariat avec des scientifiques et spécialistes dans le domaine médical, d’autre part d’accroitre nos connaissances en Data Science. C’est ainsi que nous avons décidé de participer au challenge proposé par Epidemium dont le but est de prédire les taux de mortalité de différents types de cancer dans les pays en voie de développement.

Malgré les contraintes imposées par le challenge, nous avions tout de même une grande liberté vis-à-vis de l’approche que nous pouvions avoir du sujet. C’est pourquoi nous avons choisi d’étudier les taux de mortalité d’un type de cancer particulièrement meurtrier dans les pays en voie de développement : les cancers digestifs.

Le projet étant en rapport avec le Big Data cela nous permettra de mettre en pratique, voire d’acquérir, des compétences utiles pour la suite de nos études, ainsi que pour le monde professionnel. 

Remerciements

Nous souhaitons tout d’abord remercier Mr Guillaume Malod, Mr Karim Hedeoud-Pérrot, Mr Lionel Prevost et Mme Myriam Bertrand pour leur suivi tout au long de ce semestre et l’aide qu’ils nous ont apportée. Nous les remercions également de nous avoir posé les bonnes questions pour nous diriger, ce qui nous a permis de bien structurer le projet et d’avancer à un rythme soutenu.

Nous remercions aussi Mr Valéry Farcy, pour son implication au sein de tous les PST et d’avoir été présent en cas de besoin.

Enfin, nous tenons à remercier toute l’équipe Epidemium pour nous avoir proposé ce sujet et d’avoir toujours été présent lorsque nous avons eu besoin d’eux.

I-   Présentation

1-   Introduction

Le cancer ne date pas d’aujourd’hui et reste l’une des premières causes de mortalité dans certains pays. C’est pourquoi nous avons choisi de travailler en partenariat avec des médecins et spécialistes du cancer, en participant à un challenge qui consiste à prédire les taux de mortalité des différents types de cancer.



2-   Présentation d’Epidemium

Epidemium, une communauté représentant l’effort conjoint des scientifiques de Roche et de La Paillasse, est né en avril 2015 d’une volonté commune : travailler en cancérologie sur la base des données ouvertes en adoptant une approche communautaire.

Celle-ci reposait alors sur deux intuitions :

La première, qu’il est possible d’obtenir des résultats pertinents en décloisonnant la recherche médicale ou, du moins, en la rendant accessible à un plus grand nombre d’acteurs, y compris non scientifiques.

La deuxième, qu’il est possible de fonder une recherche sur les opens big data, étant persuadés que ces dernières offrent de nouvelles perspectives dans la compréhension de notre environnement et de nous-mêmes : mieux comprendre, mieux prévenir, mieux prédire.

Ainsi, Epidemium a dû mettre en place une méthodologie visant à concilier recherche scientifique, communauté et données ouvertes, ces trois éléments représentant en quelque sorte « l’ADN » du programme.

3-    Présentation du projet

Notre projet consistera donc à créer une interface web où l'on pourra visualiser les courbes de prédictions des taux de mortalité sur différents cancers. Le but étant d'avoir une idée de la vitesse de développement de certains types de cancers puis de permettre aux médecins et scientifiques commenter les résultats directement sur la page web.

De plus, nous étudierons les facteurs alimentaires pouvant influencer sur la mortalité des cancers digestifs, sur deux pays dont les régimes alimentaires et les conditions environnementales sont différents : La France, qui est un pays développé, et le Brésil.

Nous présenterons donc sur la plateforme, les facteurs ayant le plus d’impact sur les cancers digestifs et les prédictions sur la mortalité de ces cancers selon le pays. Nous utiliserons la « data visualisation » qui définit l’art de représenter des données pour que les médecins et scientifiques puissent comprendre plus facilement les données et résultats obtenus.

Nous utiliserons une base de données dans laquelle nous pourrons stocker des fichiers de données qui devront contenir les codes que nous avons utilisé pour réaliser nos prédictions, les données utilisées, toutes informations relatives à nos recherches dans le cadre de la collaboration entre les équipes et également pour permettre à toutes les personnes voulant se lancer dans les recherches sur le cancer de pouvoir profiter de notre travail.

4-   Etat de l’art

Au fil des années de plus en plus de projet Big Data ont vu le jour dans le domaine médical. En effet, la numérisation des données qui intervient actuellement dans le secteur médical grâce la collecte des données par le personnel médical nous offre un grand nombre de données qui demeure très souvent sous exploitées. L’utilisation de la Data Science pour effectuer des prédictions permet alors de faciliter la prise de décision des médecins qui disposent souvent de très peu de temps pour prendre une décision sur des cas sensibles. Cela peut se retrouver dans le cadre de traitement chirurgicaux ou encore dans l’évaluation de la propagation d’un virus.

Cas du Brésil :

Afin de mieux comprendre les questions liées aux cancers digestifs en Amérique du Sud, nous avons recherché des publications médicales sur le sujet. L’équipe d’Epidemium nous a aidé en nous fournissant des publications. 

Cancer de l’estomac : 

Une étude sur les tendances et la prédiction de la mortalité par cancer de l’estomac au Brésil explique que bien que l’incidence de celui-ci diminue, il reste l’un des cancers les plus meurtriers au monde. En effet la durée de vie estimée après diagnostic est très faible, le taux de survie 5 ans après le diagnostic n’étant que de 20%. Au Brésil le taux de mortalité par cancer de l’estomac est similaire à des pays tels que l’Argentine et le Vénézuela mais très supérieur aux pays occidentaux. L’étude distingue deux types de cancer de l’estomac, le cancer de l’estomac propre et le cancer gastria (jonction entre l’œsophage et l’estomac). Pour le premier, une infection H. pylori, la consommation de produits conservés par le sel, d’alcool, la faible consommation de fruits et légumes ou l’usage du tabac sont des facteurs de risque. Il a une incidence plus grande pour les populations afro-américaines dans les pays en développement. Au contraire, le cancer gastria a une plus grande incidence pour les populations d’origines européennes dans les pays en développement et l’obésité est un facteur de risque. Par ailleurs le cancer de l’estomac est souvent associé à des conditions socio-économiques difficiles. L’article souligne donc important d’effectuer une étude par zone géographique surtout pour un pays aux inégalités sociales importantes en fonction des régions comme le Brésil. Il ne nous sera cependant pas possible d’effectuer une telle étude puisque les données dont nous disposons sont uniquement nationales. Les résultats de l’étude montrent que le cancer de l’estomac touche plus les hommes que les femmes. L’analyse de l’évolution de la mortalité montre une diminution progressive depuis le 20e siècle, ce qui peut s’expliquer par une réduction des infections h pylori, une plus grande consommation de fruits et légumes et un meilleur accès au soin. Cependant l’article tempère en indiquant que le Nord et Nord-Est du Brésil connaîtront eux une augmentation du taux de mortalité du fait d’une possibilité de diagnostic et d’accès aux traitements plus compliquée que dans le reste du pays.

Cancer colorectal :

Une étude sur l’évolution de la mortalité par cancer colorectal au Brésil entre 1980 et 2013, montre que contrairement aux pays développés, le Brésil voit une augmentation de son taux de mortalité chez l’homme et la femme pour toutes les catégories d’âge exceptées les femmes de plus de 70 ans.

Pour expliquer cela plusieurs raisons sont avancées, la première est une amélioration de la qualité des données sur les dernières années, le recensement des décès par cancer étant mieux réalisé. Par ailleurs l’obésité, et la diminution de l’activité sont aussi des facteurs. La publication pointe aussi que le vieillissement de la population sera un véritable enjeu de santé publique qui contribuera à l’augmentation du taux de cancer colorectal. Il est ainsi indispensable d’améliorer la capacité de diagnostic, d’accès aux soins mais aussi de réduire les facteurs de risque.

Cas de la France

En France, le cancer du colorectal est le 2ecancer le plus meurtrier et 3ecancer le plus fréquents même s’il ne touche que majoritairement les hommes. En quelques chiffres :


Trois facteurs nutritionnels sont impliqués dans le développement de cancer colorectal (ANSES, 2011) :

  • La consommation d'alcool,
  • Le surpoids et l'obésité,
  • La consommation de viandes et de charcuteries.

En revanche, l’activité physique et la consommation de fruits et légumes sembleraient jouer un rôle protecteur.

5-   Répartition et gestion des tâches

Lors des réunions, nous avons dans un premier temps effectué une liste des étapes à réaliser, pour définir l’avancement et répartir les tâches à accomplir.

Nous nous réunissions tous les vendredis matin. Un vendredi sur trois cette réunion a lieu avec nos suiveurs, nous leur présentions l'avancement du projet et voyons ensemble les possibilités d’améliorations ainsi que les précisions a apporté au projet. Lors des réunions sans nos suiveurs nous faisions un retour sur ce qui a été fait et répartissions les tâches à accomplir.

Chaque 3 semaines, nous avions rendez-vous avec l’équipe Epidemium pour leur présenter notre avancé ainsi que les problèmes rencontrés. Nous les contactions également par mail ainsi que sur un forum de discussion dédié aux participants du challenge où plusieurs canaux de discussions sont disponibles comme présenter dans l’image ci-dessous :


Aussi, depuis le mois de décembre, nous devions chaque semaine répondre à 3 questions qu’ils nous envoient par mail :

-      Etats d’avancement de votre projet et réalisations récentes.

-      Travail actuel et prochaines étapes.

-       Difficultés et besoin.

Nous avancions sur chacune des étapes en parallèle, de manière à ce que chaque membre de l’équipe puisse travailler sur toutes les réalisations, aussi bien dans la partie informatique que dans la partie scientifique.

Pour gérer au mieux l’avancée, nous avons réalisé un diagramme de Gantt qui nous a permis d’organiser notre travail :


Figure 2: gant projet

6-   Résumés et tâches personnels :

Dans le cadre du projet, nous avons fusionné les deux groupes qui travaillaient sur Epidemium, pour mettre en commun nos recherches et pouvoir avancer plus rapidement. Les deux projets étaient les mêmes, nous avions seulement les pays sur lequel nous analysions les données qui différaient. Cette fusion de groupe aura été bénéfique sur l’avancée du projet.

Après cette fusion, nous avons établi des sous-groupes pour gérer au mieux l’avancement.

Team leaders : Yanis et Sanyat - répartir le travail au sein de l’équipe et apporter de l’aide à toutes les différentes tâches selon le besoin en particulier base de données et machine learning.

Machine learning : Ji et Merwane -utiliser les algorithmes de machine learning et étude des résultats obtenus.

Base de données : Brou et Daroui tri sur les données pour réduire le nombre de variables pour l’équipe machine learning.

Développement : Samy – Réalisation de la plateforme où l’on exposera les résultats.

Santé : Diarra - recherche sur l’aspect médical et vérifier que le travail est cohérent avec les réalités médicales.

II-    Présentation des données

Afin de pouvoir réaliser les prédictions, nous avions besoin d’une quantité de données importantes ainsi que de réaliser des recherches sur les facteurs qui peuvent influencer les cancers sur lesquels nous souhaitions travailler. Pour cela, Epidemium a sélectionné en amont les données que nous devions exploiter.

1-   Les données d’Epidemium

Suite la grande quantité de données fournie par Epidemium (différents datasets) nous avons procédé à une analyse de ces données et ainsi déterminé quelles variables seront plus utiles en vue de réaliser notre projet. On rappelle que nous nous focalisons sur les cancers digestifs en France et au Brésil.

Pour notre étude nous avons utilisé 3 datasets :

-      Mortality data

-      World Bank Data

-       Fao data

Tous ces datasets sont fournis et disponibles sur le site d’Epidemium. Ils sont issue de l’OMS, la Banque Mondiale et l’Organisation des Nation Unies pour l’Agriculture et l’Alimentation. Après avoir examiné les données d’Epidemium, on a constaté que nous avions des données plus ou moins complètes selon le pays ou le type de cancer. Nous avons alors voulu nous concentrer sur un type de cancer présentant une forte mortalité :

-       D’une part pour les quantités d’informations que l’on peut trouver dessus, que ce soit dans les données fournies par Epidemium, ou par les recherches effectuées.

-       Et d’autre part, pour peut-être, grâce à notre projet et ceux des autres équipes participantes au challenge, ralentir le développement de cette maladie ou trouver des facteurs nouveaux qui influent sur ces types de cancer.

Nous avons alors choisi de bâtir un modèle prédictif sur la mortalité des cancers digestifs.

Les cancers digestifs représentent plus d'un cancer sur cinq chez l'homme et chez la femme.

2-   Mortality data

Ce dataset regroupe toutes les données sur les différents codes cancer, dans notre cas nous étudions les cancers de C15 à C26.

C15 Œsophage C21 Anus
C16 Estomac C22 Foie
C17 Intestin grêle C23 Vésicule biliaire
C18 Côlon C24 Other and unspecified parts of biliary tract
C19 Rectosigmoid junction C25 Pancréas
C20 Rectum C26 Other and ill-defined digestive organs

Elle associe à chaque type de cancer le nombre de morts, l’année, le pays ainsi que la tranche d’âge.


3-   World bank data

Au vu de la quantité énorme de données, elles ont été regroupées en 2 types de fichier :

Un fichier permettant de prendre chaque variable et de leur attribuer un indicateur : la world bank indicator.

Un autre fichier qui permettrait de les mettre en relation avec le pays et l’année. Ainsi nous pouvons retrouver des indicateurs économiques, sur la santé, l’éducation, l’environnement, les infrastructures, les secteurs publics, et la protection sociale. Ces variables ne seront pas forcement utiles pour notre projet.


Dans l’exemple ci-dessus on peut voir que chaque ligne est assignée à un code. Code qui servira de variable dans le 2ndfichier de données ci-dessous.


4-   Fao data

Ce dataset représente essentiellement toutes les données sur l’alimentation. Celui-ci sera donc celui qu’on utilisera plus. Tout comme le dataset de la world Bank data, elle est décomposée en 2 fichiers :

Un fichier (Faostat_indicators) contenant les indicateurs qui font le lien avec les variables qui sont codées dans la table Faostat.

III-   Analyse et tri des données

Cette partie consiste au traitement des données que l’on nous a fourni. Pour mener le projet à bien, Epidemium nous a fourni plusieurs bases de données qui regroupent des informations sur l’économie et l’éducation, mais on a aussi des données environnementales ou autres sur la plupart des pays du monde. Notre but étant de créer un algorithme de prédiction, pour cela nous avons décidé de nous concentrer sur la France et le Brésil.

Le choix de ces deux pays a été fait selon deux critères :

-       Le nombre d’informations dont on dispose sur ces pays.

-       Le Brésil ayant subi une croissance rapide, leur alimentation et leur condition tendent à se rapprocher des nôtres, mais la santé est à un niveau qui est encore assez bas.

Nous avons décidé de travailler sur les cancers digestifs, ce qui fait que nous avions, pendant le nettoyage des données, sélectionné les données qui avaient, selon nous, le plus d’effet sur le type de cancer en question. Dans un premier temps, nous avons choisi manuellement les informations à garder dans les tables Worldbank qui contenaient des données socio-économiques. Nous avons ensuite, sur la table Faostat, regroupé toutes les données qui avaient un rapport avec la nourriture (production de nourriture dans le pays, importations et exportation ou même utilisation de pesticides).

Un des plus importants problèmes du projet se pose : Comment nettoyer les données ?

-       D’après les données d’Epidemium, certaines variables ont des valeurs inconnues pour plusieurs pays. Cependant :  on ne peut pas faire de prédiction si nous manquons de plusieurs milliers de valeurs, car les prédictions seraient moins précises, voir fausses.

-       De plus, on ne peut pas choisir aléatoirement quelles données sont utiles ou non, et faire une prédiction sur ce que l’on pense correct, là n’est pas notre objectif.

-       On ne peut également pas fouiller les fichiers et vérifier une par une les milliers de variables à notre disposition, cela prendrait trop de temps, et ne serait pas efficace.

Nous avons alors commencé par nettoyer les données, en procédant par plusieurs étapes, décrites ci-dessous.

1-   Mortality data

Concernant ce dataset, nous avons juste soumis un tri afin de recueillir seulement les données provenant de la France et du Brésil qui avaient des cancers compris en C15 et C26.

2-   World bank data

a-     Création datatset France et Brésil

Pour cette sélection de variables sur la table WorldBank, nous avons dû effectuer un regroupement d’article qui nous ont permis d’en apprendre plus sur ce qui cause les différents cancers digestifs que l’on allait traiterafin de déterminer les variables qui seront les plus pertinentes pour notre projet ce qui nous a permis de choisir des variables (cf Annexe 2) en rapport avec :

-       L’économiede la population car le statut économique d’une population sera en rapport avec sa consommation en effet plus une population possède des moyens élevés,plus elle pourra faire attention à son alimentation.

-       La santé de la population afin de déterminer sa prévalence à la cigarette, ou encore déterminer la prévalence au surpoids.

-       L’environnement : savoir dans quel environnement sont produit les aliments.

Après ce tri manuel nous devions trouver un code afin de créer un datatset de la France et du Brésil contenant toutes ces variables. Voici le code utilisé sur Rstudio :

load("~/ESIEA-4A/PST/PredCancer/PST4.RData")
BrBank_Data<-WB[WB$area=="Brazil",]
BrBank_Data<-subset(BrBank_Data,select =c(area,year,NV.AGR.TOTL.CD,NV.AGR.TOTL.CN,NV.AGR.TOTL.KD,NV.AGR.TOTL.KD.ZG,NV.AGR.TOTL.KN,NV.AGR.TOTL.ZS,NV.IND.MANF.CD,NV.IND.MANF.CN,NV.IND.MANF.KD,NV.IND.MANF.KD.ZG,NV.IND.MANF.KN,NV.IND.MANF.ZS,NV.MNF.FBTO.ZS.UN,NY.GDP.MKTP.CD,NY.GDP.MKTP.CN,NY.GDP.MKTP.CN.AD,NY.GDP.MKTP.KD,NY.GDP.MKTP.KD.ZG,NY.GDP.MKTP.KN,NY.GDP.MKTP.PP.CD,NY.GDP.MKTP.PP.KD,NY.GDP.PCAP.CD,NY.GDP.PCAP.CN,NY.GDP.PCAP.KD,NY.GDP.PCAP.KD.ZG,NY.GDP.PCAP.KN,NY.GDP.PCAP.PP.CD,NY.GDP.PCAP.PP.KD,SH.PRV.SMOK.FE,SH.PRV.SMOK.MA,SH.STA.OWGH.ZS,SH.STA.MALN.ZS,SN.ITK.DEFC.ZS,SN.ITK.DFCT,SN.ITK.VITA.ZS,AG.PRD.CREL.MT,AG.PRD.CROP.XD,AG.PRD.FOOD.XD,AG.PRD.LVSK.XD))

Nous avons donc d’abord sélectionné les observations qui ne concernaient que le Brésil car cela nous permettait d’alléger la taille de cette base de données afin de pouvoir les traiter sans que nous ayons des problèmes d’utilisation car cette table WorldBank_Data est assez lourde donc tous les ordinateurs ne peuvent pas l’afficher. Grâce à nos recherches nous avons pu réduire la taille des variables. Nous sommes passés de 875 variables à 32 variables. Dans la WordBank nous avons enlevé toutes les données qui concernaient l’environnement et l’éducation et avons gardé les données économiques sur la valeur ajoutée que représente l’agriculture, l’industrialisation, les prix dans le pays en question et des données concernant la santé du pays.

b-    Réduction du dataset

Les données que l’on sélectionne n’ont pas toutes pu être utilisées car la plupart d’entre elles ne sont pas complètes. Nous avons donc dû choisir un pourcentage de données manquantes à accepter, afin de voir à partir de quel moment on considérait qu’une donnée ne pouvait pas être utilisée. Or, au départ nous avons voulu sélectionner seulement les variables qui avaient moins 20% d’observations manquantes. Nous nous sommes rendu compte qu’il ne nous restait pas suffisamment de variables après avoir fini le nettoyage. Nous avons donc dû remodifier nos bases de données afin de garder seulement les données avec moins de 40% des valeurs manquantes sur les variables des nouvelles tables. Cette décision a été prise après avoir discuté avec Mme Bertrand car elle nous permet de prendre en considération le plus de données possibles sans pour autant trop fausser les résultats que l’on obtient avec les données que l’on nous fournit et pour que nos futurs calculs puissent avoir du sens. Si l’on n’a pas assez de données, les résultats trouvés n’auront aucune valeur.

Les graphes ci-dessous nous permettent d’observer la proportion d’observations manquantes sur les tables WorldBank_France et WorldBank_Brésil


En comparant les histogrammes du Brésil et de la France on voit bien qu’il y a une différence dans le nombre de données manquantes. La cause de cette différence sera que pour expliquer les cancers digestifs nous allons devoir prendre des paramètres différents en fonction du pays.

Pour supprimer les valeurs de la WorldBank, nous avons créé un algorithme qui dans un nouveau tableau rentre les variables qui ont moins de 40% de valeurs manquantes.

Après l’exécution de cet algorithme sur le Brésil et la France, nous pouvons observer que le nombre de variables à garder n’est plus le même. Nous avons 29 variables pour la France et 26 pour le Brésil. Nous avons moins de données pour le Brésil que pour la France.

3-   Fao data

a-    Création des datasets fao France et Brésil

Le travail effectué pour ce dataset était le même que celui de la World Bank data. Nous avons d’abord commencé par faire des recherches afin de déterminer les variables les plus pertinentes. Ce qui nous a permis de conserver toutes les données de la variable Food Balancepour les 2 pays (cf Annexe 1). La catégorie Food Balance contient les disponibilités pour un certain nombre de produits alimentaires dans le pays.

BrFaostat_Data<-Faostat_Data[Faostat_Data$area=="Brazil",]

BrFaostat_Data<-subset(BrFaostat_Data,select=c(area,year,X2901..684,X2903..674,X2903..684,X2905..5142,X2905..645,X2905..664,X2905..684,X2907..5142,X2907..645,X2907..664,X2907..684,X2908..5142,X2908..645,X2908..674,X2908..684,X2909..5142,X2909..674,X2911..5142,X2911..645,X2911..664,X2911..674,X2911..684,X2912..5142,X2912..664,X2913..5142,X2913..664,X2914..5142,X2914..664,X2918..5142,X2918..645,X2918..664,X2918..674,X2919..5142,X2919..645,X2919..664,X2922..5142,X2922..645,X2922..674,X2922..684,X2923..5142,X2923..645,X2923..674,X2923..684,X2924..5142,X2924..674,X2928..5142,X2928..684,X2941..664,X2941..674,X2941..684,X2943..5142,X2943..645,X2943..664,X2943..674,X2945..5142,X2945..645,X2945..664,X2945..674,X2945..684,X2946..5142,X2946..664,X2946..684,X2948..5142,X2948..645,X2948..664,X2948..674,X2948..684,X2949..5142,X2949..645,X2949..664,X2960..5142,X2960..664,X2960..684,X2961..5142,X2961..664))

b-  Réducion du dataset Fao

Après avoir créé ces nouveaux dataset nous devions analyser Fao afin de vérifier que nous n’avions pas de données manquantes. Pour cela nous avons afficher sur un histogramme toutes les variables avec leur taux de valeurs manquantes (valeur max 40%).

Nous remarquons que ces datasets ne comportent pas de données manquantes hormis 6 variables du dataset fao France qui sont complètements vides. Variables que nous avons dû supprimer car nous ne pouvons pas imputer toute une colonne de données ce qui fausserait nos résultats.

Comme vous pouvez le voir, nous obtenons le même taux de données manquantes. Cela est dû au fait que dans les 2 datasets nous n’avons pas les données des années 2014 et 2015.

4-   Dataset final

Pour pouvoir traiter la mortalité, nous devions avoir toutes les données sélectionnées dans une même table. Pour cela nous avons fusionné les données qui sont propres à chaque pays.

Par exemple pour le Data France nous avons fusionné les dataset Fr_WorldBank, Fr_fao,  Fr_mortalityà l’aide de la fonction mergesous R.

On a alors :

FrData = Fr_WorldBank + Fr_fao + Fr_mortality

BrData = Br_WorldBank + Br_fao + Br_mortality

IV-   Traitement des données

1-   Premiers tests (Vérification des donnés)

Pour avoir une idée de l’évolution du cancer, nous avons fait les courbes représentant le nombre de morts, sur les 4 types de cancer que nous souhaitons étudier. Nous avons donc représenté le nombre de mort sur chaque année, et l’avons comparé à nos recherches, pour savoir si les résultats étaient cohérents.

Voici par exemple la courbe représentant le nombre de mort pour l’année 2011 selon l’âge pour le cancer de l’œsophage en France d’après les données d’Epidemium (hommes et femmes confondus) :

Les tranches d’âges du graphique respectent les légendes données par Epidemium :


On peut constater que la courbe augmente plus rapidement lorsque l’âge est plus important, et qu’il n’y a pas de décès lorsque l’âge est d’une petite valeur. Nous avons donc fait la somme du nombre total de personnes décédés sur l’année 2011 de ce cancer sur les données d’Epidemium, et obtenons environ 4120 morts. Puis, nous avons comparé la courbe obtenue à nos recherches :

D’après nos recherches, en 2011 il y avait 4140 personnes décédés du cancer de l’œsophage, 2680 chez l’homme et 1460 chez la femme. Soit une erreur de 20 personnes avec nos données actuelles. On peut en dire que les données sont assez précises, et donc que nos prévisions devront l’être également.

Puis, nous avons déterminer la moyenne, la médiane, le minimum et le maximum de mort par année, pour 4 types de cancers digestifs en France :

c15 : œsophage : moyenne (21.41), médiane(0), min(0), max(2702)

c19 : colorectale : moyenne (28.24), médiane(1), min(0), max(2445)

c16 : estomac : moyenne (85.2), médiane(2), min(0), max(10652)

c22 : foie : moyenne (30.38), médiane(1), min(0), max(5561)

Nous avons également réalisé la même étude sur les cancers du Brésil.

On a voulu ramener les données de mortalité à des taux pour pouvoir comparer les valeurs pour les 3 pays qui ont des nombres d’habitants très différents. Les données de la WorldBank donnent la population de 1970 à 2015 or nos données de mortalité vont de 1951 à 2015. On sait que la population évolue linéairement par rapport à l’année. On réalise donc une régression linéaire pour obtenir les valeurs pour les années manquantes.

Dans un premier temps nous avons tenté de prédire sur un seul type de cancer, le cancer du côlon. Cependant, nous nous sommes rapidement rendu compte que le nombre d’observations dont nous disposions n’était pas suffisant pour effectuer une étude pertinente.

Ensuite, nous avons étudier les données pour représenter les taux de mortalité selon les tranches d’âges :


Après cela, nous avons essayé de travailler avec deux pays, la France et le Brésil. En effet, un pays développé et l’autre un pays en voie de développement. Nous avons effectué cela car nous sommes partis du postulat que les pays en voie de développement tendent à se rapprocher de l’état actuel des pays développés en termes de qualité de vie pour les habitants. A partir de là, nous avons décidé que traiter 2 pays comme cela permettrait de comparer les résultats et de jauger la qualité de notre prédiction. Le choix de la France s’est imposé de lui-même car il s’agit d’un pays que l’on connait déjà relativement bien et que de ce fait l’étude s’en trouverait grandement simplifiée.

Nous avons choisi la médiane comme valeur de remplacement pour les valeurs manquantes car celle-ci est peu sensible aux valeurs extrêmes présentes dans nos datasets et faussant certains résultats.


2-   Les tests et prédictions C15 à C26 sur la France

Nous avons sélectionné les cancers de C15 jusqu’à C26, ce sont tous les cancers digestifs.

D’abord on fait l’analyse pour la France. Après le nettoyage et la combinaison des données, on a un tableau qui comprend les données sur lesquelles on va travailler. Le nom de ce tableau est ‘resulto’.

Figure 8: Échantillon data France


Puisqu’il subsiste encore des valeurs manquantes dans ce tableau, nous allons encore une fois les remplacer par la médiane de la colonne correspondante. 

On va diviser les données aléatoirement en 2 groupes de stockage, le but étant de créer une séparation temporelle pour tester notre modèle. On aura :

Données pour entrainer le modèle : Ce groupe de stockage de données comporte 3/4 des données choisies aléatoirement.

Données pour tester le modèle : Ce groupe comporte 1/4 des données choisies aléatoirement.


« train_test_split » est une fonction qui permet de diviser les données en deux groupes aléatoirement. Y est la mortalité et X présente tous les facteurs dans le tableau.

On peut alors débuter notre analyse.

Ici, on a choisi deux méthodes, Random Forestet Lasso Regression. L’objectif est de comparer les deux algorithmes pour conclure sur leur efficacité.

Nous avons choisi ces 2 algorithmes car ils permettent d’effectuer la régression en ayant un minimum d’information sur les variables dont on dispose ainsi on accèdera plus simplement aux poids pour chaque variable. En effet, les deux algorithmes permettent de déduire le poids associé à chacune des variables quand on n’a pas forcément suffisamment d'information pour les trouver soi-même. De plus, Lasso sélectionne les variables en fonction de la corrélation entre variables et réduit ainsi la taille du problème étudié.

a-    Test du Random Forest

On utilise une bibliothèque libre Python qui s’appelle Scikit-learn. Elle est dédiée à l'apprentissage automatique. Elle présente également l’avantage d’incorporer les algorithmes de Random Forestet Lasso Regression.

D’abord on commence par le Random Forest :

RF est notre modèle Random Forest.

On utilise alors la base de test pour faire une prédiction. Mais cette prédiction sera seulement pour vérifier notre modèle.

Après avoir fini la prédiction, on a essayé de regarder les différences entre notre prédiction et la réalité. La courbe rouge indique les valeurs réelles des échantillons du groupe de test, et la courbe bleue indique les valeurs prédies avec notre sur les mêmes échantillons. Nous avons sélectionné 100 exemples de test pour la représentation graphique, car nous avions trop d’exemple rendant la représentation compliquée.Nous avons alors utilisé une petite partie de l'image entière à titre d'exemple.

Nous pouvons voir que notre modèle peut montrer une bonne applicabilité, sauf pour certains cas individuels. Quelques-uns de ces échantillons sont très élevés, ce qui est normal. Parce que nous avons utilisé un arrangement aléatoire quand nous faisions la division des données. Par conséquent, un très grand nombre d'échantillons avec des valeurs très élevées ont été insérées dans l'échantillon avec des valeurs très faibles. De plus, comme les points sur la courbe rouge sont des données réelles, il est préférable de ne pas les rejeter.


On calcule l’erreur quadratique à l'aide d’une bibliothèque python. L’erreur quadratique est une mesure caractérisant la « précision ».

p :  nombres d’échantillons

a : Valeur de la prédiction

b : Valeur théorique

On peut voir que l’erreur quadratique est 442.6249. Nous avons également obtenu les poids de tous les facteurs dans ce modèle. Le poids ici est calculé en pourcentage.


On peut voir que le premier facteur : âge, le deuxième facteur : sexe, et le troisième facteur : X2945..5142 ont des importances plus élevés.

Nous expliquons le sens de ces variables dans un tableau en annexe 1.

b-   Test de lasso

Ensuite, on va utiliser Lasso Regression. Pour utiliser Lasso régression, il faut fixer une constante ALPHA optimale que l’on obtiendra par validation croisée.

Ici, on a utilisé 0.005336699231206312 comme valeur alpha.

On utilise alors Lasso :

On peut voir que l’erreur quadratique est de 431.9372, ce qui est inférieur au résultat du Random Forest. Autrement dit, Lasso présente moins d’erreur que le Random Forest dans ce cas.

Nous avons choisi les nombres d'échantillons 1000 à 1099, soit un total de 100 échantillons pour faire un graphe de test.

Nous avons également réalisé un classement par coefficient qui peut être considéré comme un classement d’importance des facteurs que l’on étudie.


En comparant les classements d’importance des deux modèles différents, nous pouvons voir qu’il y a de grandes différences entre les deux algorithmes. Mais ces deux modèles conservent des erreurs quadratiques élevées. Nous ne pouvons donc pas distinguer le meilleur des 2.

3-    Les tests et prédictions de C15 à C26 sur le Brésil

On va employer la même méthode pour analyser le Brésil.

a-      Test du Random Forest

On répète alors les étapes effectuées précédemment pour la France. :

1.    Remplacer les valeurs manquantes par la médiane de chaque colonne correspondante.

2.    Diviser les données aléatoirement dans 2 groupes : le groupe test et le groupe train (Base de test et d’apprentissage)

3.    On utilise le Random Forest pour élaborer un modèle depuis les données du groupe train puis on teste ce modèle pour effectuer une prédiction sur le groupe test.

On trouve que l’erreur quadratique est 446.5671

Comme précédemment, nous avons choisi les nombres d'échantillons 1000 à 1099, soit un total de 100 échantillons pour faire un graphe de test.


Figure 14: Courbe prédictive Random Forest sur le Brésil, C15 à C26


Le classement d’importance de chaque facteur

Figure 15: classement par importance des variables

Avec Lasso Regressionon obtient une erreur quadratique de 421.6996. Comme pour le test précédant, on peut voir qu’il reste plus précis que le Random Forest.

Comme précédemment, nous avons choisi les nombres d'échantillons 1000 à 1099, soit un total de 100 échantillons pour faire un graphe de test.

On se retrouve la même situation que pour la France, la régression Lasso à moins d’erreurs par rapport au Random Forest.

Le classement d’importance de chaque facteur


Figure 17: Classement par importance des variables

En résumé, à partir de la comparaison des résultats des deux pays, on en déduit que ces résultats ne permettent pas de conclure car il reste trop d’erreur au sein du modèle.

En effet, les erreurs quadratiques restent trop élevées. Cet écart peut s’expliquer par le fait que chaque type de cancers digestifs sont influencés par des facteurs différents. D’où l’augmentation des erreurs lorsque l’on considère les cancers digestifs comme une seule « entité » à analyser.

En prenant cela en considération, on a essayé de changer de méthode pour améliorer nos résultats. Cette fois-ci, on va choisir seulement le cancer C16- « Malignant neoplasm of stomach » et dans les deux pays car le nombre de mort de C16 est plus élevé que les autres.

4-    Les tests et prédictions du C16 sur la France

Figure 18: Échantillon data France

Après avoir remplacé les valeurs manquantes par la médiane, on a divisé les données en deux groupes aléatoirement : le groupe train et le groupe test. Cette fois-ci, le groupe train a 1795 individus et le groupe test a 599 individus, soit un total de 2394 exemples.

On effectue encore une fois la régression Random Forestavec le groupe train. On vérifie l’erreur quadratique par les exemples du groupe test. Cette fois-ci, l’erreur quadratique est plus petite, seulement 45.8926

On a choisi 100 échantillons,soit les échantillons numéros 400 à 499 représentant une partie des résultats sur le test.


Figure 19: Courbe prédictive Random Forest sur la France, C16

On peut voir que notre modèle fonctionne très bien. Voilà le classement d’importance des facteurs

Et pour l’algorithme LASSO, on a :

L’erreur quadratique : 265.9551

Graphe de test

On peut voir qu’il y a beaucoup plus erreurs pour l’algorithme LASSO.

5-    Les tests et prédictions du C16 sur le Brésil

Encore une fois, après avoir remplacé les valeurs manquantes par la médiane, on a divisé les données en deux groupes aléatoirement : le groupe train aura 1239 exemples et le groupe test 414 exemples. Soit 1653 exemples en total.


Cette fois-ci, l’erreur quadratique est 41.4058

Et voilà le classement d’importance des facteurs:

Et pour l’algorithme LASSO, on a :

L’erreur quadratique : 358.0106

Et le graphe de test :

Le classement d’importance des facteurs

On peut voir qu’ici la régression Lasso a beaucoup plus d’erreur que la régression Random Forest. Donc, on ne considère pas les résultats des régressions Lasso.


Les facteurs de ce cancer qui sont le plus importants pour les Français sont:

1) age_bucket                     76.8238%

2) Sex                                   4.8350%

3) X2905..5142                    2.1386%

4) X2913..5142                    1.2722 %

Pour les Brésiliens on a:

1) age_bucket                 58.5177%

2) Sex                                21.0027%

3) X2905..664                    5.0827%

4) X2905..645                    4.2413%

On peut voir clairement qu’il y a des différences entre les deux pays, pour un type de cancer, C16 «Malignant neoplasm of stomach ».On peut justifier cela à partir des différences culturelles des populations des 2 pays. Les besoins alimentaires des Brésiliens pourraient avoir plus d’influence sur ce cancer. Mais il y a des points communs aussi, c’est toujours l’âge et le sexe qui sont plus importants, ce qui est logique au vu de nos recherches. On peut utiliser cette méthode pour analyser les autres cancers et également approfondir nos connaissances pour justifier ces résultats.

Ci-dessous, la signification des variables citées précédemment dans le classement :

6-   Comparaison résultats Python à Rstudio

Après avoir réalisé les tests sur Python, nous avons voulu comparer les résultats de ce langage en utilisant les mêmes données et méthodes sur un autre langage. Nous avons choisi de comparer alors, Python à R, pour peut-être obtenir une différence du taux d’erreur selon le langage utilisé, ou des résultats qui pourraient être différent.

On va découper en une base d’apprentissage et une base de test. On prend dans la base de test les données à partir de 2008 soit 25% des données. Tout d’abord il faut créer la matrice avec les valeurs explicatives et celle des valeurs à expliquer.

#Brazil$Age<-as.factor(Brazil$Age) #Brazil$Sexe<-as.factor(Brazil$Sexe) Brazil$Code_cancer<-factor(Brazil$Code_cancer) #imputation de la médiane Brazil<-data.frame(lapply(Brazil,function(x) {  if(is.numeric(x) |is.integer(x)) ifelse(is.na(x),median(x,na.rm=T),x) else x})) Brazil<-Brazil[,-4] #suppression de la colonne pays

Création des datasets d’apprentissage et de test et obtention du meilleur coefficient lambda pour la régression :

BrTest<-Brazil[Brazil$Periode>2007,] BrApp<-Brazil[Brazil$Periode<2008,] #predictors<-BrApp[,-5] #predictors<-as.matrix(predictors) predictors<-model.matrix(Mortality~.,BrApp) response<-BrApp[,5] response<-as.numeric(response)

cv.out <-cv.glmnet(predictors,response,alpha=1,family="poisson") #plot result plot(cv.out)

Ce graphique représente les valeurs de mortalité obtenues par régression sur la base de test en fonction des résultats attendus. Dans le cas idéal, les résultats devraient se concentrer autour de la droite y=x représentée ici en rouge. On constate un écart très important pour une valeur attendue de 0. Ainsi on obtient une erreur quadratique moyenne de 183 ce qui est important. La régression de Poisson avec lasso nous donne un meilleur résultat à ceux obtenus précédemment pour tous les cancers confondus mais l’erreurreste importante. C’est pourquoi l’étude par cancer semble plus appropriée ici encore.


V-      Plateforme Web

1-   Data visualisation

Afin de pouvoir au mieux illustrer nos résultats, il a fallu penser à une manière de les présenter.

Un site web en ligne paraissait être le meilleur moyen, car nous pouvons le mettre à jour lors de l'évolution des travaux, établir un espace de discussion avec les différents utilisateurs, mais surtout afficher nos résultats à l'aide d'outils de datavisualisation :

La datavisualisation est l’étude, la science ou l’art de représenter des données de façon visuelle. Cela peut se concrétiser par des graphiques, des camemberts, des diagrammes, des cartographies, des chronologies, des infographies ou même des créations graphiques inédites ou des photos. La présentation sous une forme illustrée rend les données plus lisibles et compréhensibles.

Manier au mieux ces outils permettra de rendre le plus limpide possible les résultats obtenus, et ainsi de faire « parler »la donnée, l'idéal étant de rendre le projet et ses résultats aussi compréhensible pour un utilisateur confirmé que pour un utilisateur amateur, le projet réunissant à la fois des datascientist, habitués à l'analyse de résultats, mais aussi de médecins, qui eux, sont possiblement moins apte à interpréter.

La partie commentaire nous tient à cœur car elle constituera un espace de discussion, de critiques, et de conseils. Que ce soit à propos du résultat obtenu et ce que l'on peut en déduire, ou de la manière dont ce résultat a été obtenu, notamment les outils mathématiques utilisés, les commentaires aideraient à mieux faire évoluer le projet mais aussi nos compétences en « BigData » grâce à des remarques (on espère du moins) pertinentes et fondées.

Côté purement technique du site web, les technologies utilisées furent :

HTML/CSS et AngularJS côté front-end, et WAMP côté back-end, ainsi que la bibliothèque Chart.JS pour la partie de DataVisualisation.

Les technologies choisies sont relativement classiques, très modulables et faciles à manipuler, et la communauté informatique est très présente pour aider en cas de problème (merci aux forum StackOverFlow et GoogleGroups)

Attardons nous un instant sur Chart.JS, la datavisualisation étant un point intéressant des outils Big Data ; c'est un outil qui permet de faire des images et des diagrammes dans le style HTML5 en un tour de main à partir de données, en l'occurrence sans aucun plugin supplémentaire ou un autre outil similaire, le tout en Javascript. Côté développement, c'est très formateur de manier de tels outils, et plus on les utilise, plus on se rend compte du potentiel et de la puissance graphique qu'il propose. On est dorénavant capable d'afficher des graphiques ergonomiques, visuellement beaux, et « interactifs » dans le sens où l'utilisateur peut lui même choisir ses variables et observer les données directement sur le graphe, il ne s'agit pas d'une simple photo de graphique.


2-    Fonctionnement du site

Le site web s'ouvre d'abord sur une page de présentation du challenge, de l'équipe, et d’une explication concise de notre projet.


3-    Options ajoutées

Ensuite nous arrivons sur une carte du monde interactive, où l'on peut choisir le pays que l’on souhaite consulter et les résultats obtenus par l'équipe.

Une fois le pays choisi, on accède alors à un tableau où on peut choisir les facteurs à corréler entre eux, ainsi que la méthode utilisée. Enfin toujours sur la même page, un script Javascript crée un graphique à partir des résultats obtenus par l'équipe, ce dernier étant interactif et non pas une simple photo figée, l'utilisateur est capable de lire clairement et convenablement les données, et de les commenter.

Au final, le site web peut s'apparenter à une présentation Powerpoint interactive ! Il ne s'agit que de la présentation de nos résultats, un affichage, avec la possibilité pour l'utilisateur de choisir lui-même ceux qu'il veut observer. Mais la principale raison de ce site web, ce qui nous tenait à cœur était la section commentaires : la possibilité d'avoir des commentaires constructifs et critiques, ainsi qu'un échange avec médecins, et data scientist est vraiment intéressante. Car même après la fin du challenge ou du PST4, ce projet et le travail que notre équipe a fait en amont pourraient très bien être repris pour faire avancer la recherche, et alors la section commentaire servira de contact direct.


VI-     Problèmes rencontrés

Le premier problème que nous avons rencontré, était l’ouverture des fichiers. En effet, étant trop volumineux, il est presque impossible de pouvoir les ouvrir.

Nous avons utilisé Excel en premier logiciel, pour avoir une idée des informations. Cependant, les données des fichiers de la WorldBank_data étant trop lourd (879 colonnes de variables différentes et des centaines de milliers de lignes) il n’était pas possible de tout afficher, surtout que le logiciel prenait de très longs moments de chargement.

Voici un exemple d’affichage des données sous Excel :



Comme on peut le constater, les variables et valeurs sont illisibles. Nous sommes donc passés sur Rstudio 

Les données sont bien plus lisibles et le logiciel permet de les trier.

On a alors tenté de prédire sur tous les cancers en même temps, mais cela n’a pas été possible étant donné que chaque cancer possède des facteurs influençant son développement différent. Vouloir être exhaustif équivaudrait à fournir un travail de recherche d’information sur chacun des types de cancers existant, ce qui serait impossible à mettre en œuvre dans la limite de temps qui nous est imparti dans le cadre du projet.

On a essayé de travailler sur un seul pays en voie de développement pour tester l’efficacité de notre modèle dans un cas « simple », celui du Brésil. Néanmoins, cela s’est avéré assez compliqué car notre manque de connaissance sur le Brésil ainsi que la difficulté à laquelle nous nous sommes heurtés pour trouver des informations pertinentes sur un pays étranger, ont été des facteurs limitant notre capacité à évaluer l’efficacité de notre modèle.

Après cela, nous avons essayé de travailler avec deux pays, la France et le Brésil. En effet, l’un pays développé et l’autre un pays en voie de développement. Nous avons effectué cela car nous sommes partis du postulat que les pays en voie de développement tendent à se rapprocher de l’état actuel des pays développés en termes de qualité de vie pour les habitants. A partir de là, nous avons décidé que traiter 2 pays comme cela permettrait de comparer les résultats et de jauger la qualité de notre prédiction. Le choix de la France s’est imposé de lui-même car il s’agit d’un pays que l’on connait déjà relativement bien et que de ce fait l’étude s’en trouverai grandement simplifié.

VII- Synthèse

Notre groupe aura finalement terminé ce projet. Nous avons réalisé le site web, prédit la mortalité sur chaque type de cancer digestif et nous avons également pu donner les variables alimentaires qui ont une influence sur ces types de cancer.

Les courbes ont été réalisées et nos recherches ont permis de confirmer que nous étions sur la bonne direction car nos tests et nos courbes réalisées sont toujours très proches des résultats attendus.

Après avoir rencontré les scientifiques et chercheurs, nous avons pu réaliser des avancées importantes dans nos recherches et méthodes durant ces 6 mois. Cependant, ce qui nous aurait permis de mieux démarrer et de pouvoir avancé avec moins de difficultés, aurait été la préparation des données. En effet, Epidemium nous a présenter des fichiers qui n’étaient pas nettoyer, avec des informations qui n’étaient pas traitées au cas par cas et certaines qui étaient totalement inutilisables. Ce challenge était intéressant pour nous, mais peut encore être amélioré dans sa préparation pour les années à venir.

Enfin, ce projet nous aura apporté une certaine motivation : Aider à la recherche du cancer, c’est-à-dire, pouvoir aider à sauver des personnes. Effectivement, ce projet est intéressant d’un point de vue pédagogique, mais également d’un point de vue moral, car travailler en collaboration avec des médecins et scientifiques, est une réelle source de motivation.

Pour nous, ce projet était un atout décisif, qui nous guidera pour la suite de nos études, et pour notreavenir.

VIII-     Bibliographie

Liens utilisés : 

§  https://www.ligue-cancer.net/article/6397_les-chiffres-cles-des-cancers

§  https://www.planetoscope.com/mortalite/806-deces-dus-au-cancer-en-france.html

§  http://www.e-cancer.fr/Professionnels-de-sante/Les-chiffres-du-cancer-en-France/Epidemiologie-des-cancers

§  https://openclassrooms.com/courses/initiez-vous-au-machine-learning

§  http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/debutermlprojet.html#etape-3-separation-train-test

§  http://www.epidemium.cc/

Annexes

1-    Annexe 1 : Variables sélectionnées Fao

Item.Code Item Element.Code Element Unit Flag
2901 Grand Total 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2903 Vegetal Products 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2903 Vegetal Products 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2905 Cereals - Excluding Beer 5142 Food 1000 tonnes A
2905 Cereals - Excluding Beer 645 Food supply quantity (kg/capita/yr) kg Fc
2905 Cereals - Excluding Beer 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2905 Cereals - Excluding Beer 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2907 Starchy Roots 5142 Food 1000 tonnes A
2907 Starchy Roots 645 Food supply quantity (kg/capita/yr) kg Fc
2907 Starchy Roots 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2907 Starchy Roots 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2908 Sugar Crops 5142 Food 1000 tonnes A
2908 Sugar Crops 645 Food supply quantity (kg/capita/yr) kg Fc
2908 Sugar Crops 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2908 Sugar Crops 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2909 Sugar & Sweeteners 5142 Food 1000 tonnes A
2909 Sugar & Sweeteners 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2911 Pulses 5142 Food 1000 tonnes A
2911 Pulses 645 Food supply quantity (kg/capita/yr) kg Fc
2911 Pulses 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2911 Pulses 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2911 Pulses 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2912 Treenuts 5142 Food 1000 tonnes A
2912 Treenuts 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2913 Oilcrops 5142 Food 1000 tonnes A
2913 Oilcrops 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2914 Vegetable Oils 5142 Food 1000 tonnes A
2914 Vegetable Oils 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2918 Vegetables 5142 Food 1000 tonnes A
2918 Vegetables 645 Food supply quantity (kg/capita/yr) kg Fc
2918 Vegetables 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2918 Vegetables 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2919 Fruits - Excluding Wine 5142 Food 1000 tonnes A
2919 Fruits - Excluding Wine 645 Food supply quantity (kg/capita/yr) kg Fc
2919 Fruits - Excluding Wine 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2922 Stimulants 5142 Food 1000 tonnes A
2922 Stimulants 645 Food supply quantity (kg/capita/yr) kg Fc
2922 Stimulants 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2922 Stimulants 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2923 Spices 5142 Food 1000 tonnes A
2923 Spices 645 Food supply quantity (kg/capita/yr) kg Fc
2923 Spices 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2923 Spices 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2924..5142 2924 Alcoholic Beverages 5142 Food 1000 tonnes A
2924..674 2924 Alcoholic Beverages 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2928..5142 2928 Miscellaneous 5142 Food 1000 tonnes A
2928..684 2928 Miscellaneous 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2941..664 2941 Animal Products 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2941..674 2941 Animal Products 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2941..684 2941 Animal Products 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2943..5142 2943 Meat 5142 Food 1000 tonnes A
2943..645 2943 Meat 645 Food supply quantity (kg/capita/yr) kg Fc
2943..664 2943 Meat 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2943..674 2943 Meat 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2945..5142 2945 Offals 5142 Food 1000 tonnes A
2945..645 2945 Offals 645 Food supply quantity (kg/capita/yr) kg Fc
2945..664 2945 Offals 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2945..674 2945 Offals 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2945..684 2945 Offals 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2946..5142 2946 Animal fats 5142 Food 1000 tonnes A
2946..664 2946 Animal fats 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2946..684 2946 Animal fats 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2948..5142 2948 Milk - Excluding Butter 5142 Food 1000 tonnes A
2948..645 2948 Milk - Excluding Butter 645 Food supply quantity (kg/capita/yr) kg Fc
2948..664 2948 Milk - Excluding Butter 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2948..674 2948 Milk - Excluding Butter 674 Protein supply quantity (g/capita/day) g/capita/day Fc
2948..684 2948 Milk - Excluding Butter 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2949..5142 2949 Eggs 5142 Food 1000 tonnes A
2949..645 2949 Eggs 645 Food supply quantity (kg/capita/yr) kg Fc
2949..664 2949 Eggs 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2960..5142 2960 Fish, Seafood 5142 Food 1000 tonnes A
2960..664 2960 Fish, Seafood 664 Food supply (kcal/capita/day) kcal/capita/day Fc
2960..684 2960 Fish, Seafood 684 Fat supply quantity (g/capita/day) g/capita/day Fc
2961..5142 2961 Aquatic Products, Other 5142 Food 1000 tonnes A
2961..664 2961 Aquatic Products, Other 664 Food supply (kcal/capita/day) kcal/capita/day Fc

2-    Annexe 2 : Variables sélectionnées WorldBank :

Code Indicator.Name
NV.AGR.TOTL.CD Agriculture, value added (current US$)
NV.AGR.TOTL.CN Agriculture, value added (current LCU)
NV.AGR.TOTL.KD Agriculture, value added (constant 2010 US$)
NV.AGR.TOTL.KD.ZG Agriculture, value added (annual % growth)
NV.AGR.TOTL.KN Agriculture, value added (constant LCU)
NV.AGR.TOTL.ZS Agriculture, value added (% of GDP)
NV.IND.MANF.CD Manufacturing, value added (current US$)
NV.IND.MANF.CN Manufacturing, value added (current LCU)
NV.IND.MANF.KD Manufacturing, value added (constant 2010 US$)
NV.IND.MANF.KD.ZG Manufacturing, value added (annual % growth)
NV.IND.MANF.KN Manufacturing, value added (constant LCU)
NV.IND.MANF.ZS Manufacturing, value added (% of GDP)
NV.MNF.FBTO.ZS.UN Food, beverages and tobacco (% of value added in manufacturing)
NY.GDP.MKTP.CD GDP (current US$)
NY.GDP.MKTP.CN GDP (current LCU)
NY.GDP.MKTP.CN.AD GDP at market prices: linked series (current LCU)
NY.GDP.MKTP.KD GDP (constant 2010 US$)
NY.GDP.MKTP.KD.ZG GDP growth (annual %)
NY.GDP.MKTP.KN GDP (constant LCU)
NY.GDP.MKTP.PP.CD GDP, PPP (current international $)
NY.GDP.MKTP.PP.KD GDP, PPP (constant 2011 international $)
NY.GDP.PCAP.CD GDP per capita (current US$)
NY.GDP.PCAP.CN GDP per capita (current LCU)
NY.GDP.PCAP.KD GDP per capita (constant 2010 US$)
NY.GDP.PCAP.KD.ZG GDP per capita growth (annual %)
NY.GDP.PCAP.KN GDP per capita (constant LCU)
NY.GDP.PCAP.PP.CD GDP per capita, PPP (current international $)
NY.GDP.PCAP.PP.KD GDP per capita, PPP (constant 2011 international $)
AG.PRD.CREL.MT Cereal production (metric tons)
AG.PRD.CROP.XD Crop production index (2004-2006 = 100)
SH.PRV.SMOK.FE Smoking prevalence, females (% of adults)
SH.PRV.SMOK.MA Smoking prevalence, males (% of adults)
SH.STA.MALN.ZS Prevalence of underweight, weight for age (% of children under 5)
SH.STA.OWGH.ZS Prevalence of overweight, weight for height (% of children under 5)
SN.ITK.DEFC.ZS Prevalence of undernourishment (% of population)
SN.ITK.DFCT Depth of the food deficit (kilocalories per person per day)
SN.ITK.VITA.ZS Vitamin A supplementation coverage rate (% of children ages 6-59 months)