Projet Statistiques. - Rapport -

Dimension: px
Commencer à balayer dès la page:

Download "Projet Statistiques. - Rapport -"

Transcription

1 Erich FERRAGUTI Teddy HENNART Projet Statistiques - Rapport - A l attention de Julien JACQUES Le vendredi 15 mai 2009

2 Sommaire 1. Introduction But Cadre Contenu Sujet Enoncé Objectifs Contraintes Description des variables Année d adhésion Département de résidence Age Profession Situation familiale Sexe Fractionnement du paiement Nombre de voitures Nombre de sinistres corporels Nombre de sinistres matériels Notre démarche Préparation Importation des données Attribution d un identifiant Discrétisation des variables Année d adhésion Age Nombre de sinistres corporels Nombre de sinistres matériels Analyse Factorielle Création d un tableau disjonctif complet Analyse en composantes multiples (ACM) Projection dans le plan Typologie Classification ascendante hiérarchique (CAH)

3 Proc FASTCLUS Proc CLUSTER Affichage du dendogramme Coupure de l arbre Jointure des tables Description des classes Groupe 1 (23100 individus) : Groupe 2 ( individus) : Groupe 3 (67268 individus) Groupe 4 (7556 individus) Groupe 5 (55872 individus) Groupe 6 (88086 individus) Analyse discriminante Prédiction des sinistres corporels Régression logistique Conclusion Bibliographie Annexes Projection des individus sur les axes Table permettant de construire l arbre (extrait) Table des individus ayant plus de 50% de risque d avoir un sinistre corporel (extrait) Tableau descriptif des classes

4 1. Introduction 1.1. But Le but de ce document est de répondre de manière la plus précise et la plus claire possible au sujet qui nous a été posé. Il a également pour but d illustrer les différents résultats et interprétations que nous avons pu avoir Cadre Ce document est rédigé dans le cadre du projet de statistiques qui nous est demandé en 4 ème année de Génie Informatique et Statistiques à Polytech Lille Contenu Vous trouverez dans ce document un bref rappel du sujet auquel nous devions répondre. Nous allons ensuite expliquer le raisonnement que nous avons eu afin de répondre aux objectifs du sujet et le détailler. A la suite de ce travail, vous retrouverez quelques résultats en annexe. 4

5 2. Sujet 2.1. Enoncé Etant donné un jeu de données représentant les clients d une société d assurance, il nous est demandé de créer une typologie des clients de cette société puis de prédire le risque d accidents corporels des clients Objectifs Les objectifs de ce sujet sont variés. En effet, il a non seulement pour but de nous permettre de mettre en applications les différentes techniques statistiques qui nous ont été enseignées au cours de notre cursus à Polytech Lille, mais il demande également beaucoup de temps de recherche dans des ouvrages ou sur internet. Nous avons comme objectif à atteindre pour ce sujet : Créer une typologie des clients (attribution dans des classes). Prédire le risque d accidents corporels. Les techniques que nous avons mises en œuvre pour répondre au sujet sont détaillées dans la suite de ce document Contraintes Le projet doit être réalisé, au choix, sous SAS ou sous R. La date de rendu des projets est fixée au dimanche 17 mai

6 3. Description des variables Le jeu de données qui nous a été fourni présentait plus de individus caractérisés par les variables décrites ci-dessous Année d adhésion L année d adhésion est une variable continue. Les données sont comprises entre 1961 et 3.2. Département de résidence et 95. Le département de résidence est une variable continue. Les données sont comprises entre Age L âge est une variable continue. Les clients ont entre 18 et 99 ans. La moyenne d âge est de 46 ans Profession La profession est représentée par un codage que voici : 50,10, 20, 30, 95, 40, 60, 70, 80, 83 : artisans, commerçants, chefs d entreprise. 997, 996, 93, 90, 06, 07 : cadres, professions intellectuelles supérieures. 08, 995 : professions intermédiaires. 992, 993, 02, 03 : employés. 04, 05, 01 : ouvriers. 990, 09, 99 : retraités. 991, 00, 999, 998, 994 : autres sans activité professionnelle. -2 : indéterminé. Il s agit d une variable discrète, qualitative Situation familiale Les situations familiales sont représentées par le codage suivant : C 0 : célibataire M -1 : marié V 1 : veuf I -2 : indéterminé D 2 : divorcé 6

7 3.6. Sexe Les sexes sont représentés par -1 pour les hommes et 0 pour les femmes Fractionnement du paiement Le fractionnement du paiement est représenté par le codage suivant : 2 : semestriel 1 : annuel -1 : mensuel -2 : indéterminé 3.8. Nombre de voitures Le nombre de voiture est une variable continue. On remarquera que pour tous les individus, ce nombre est à Nombre de sinistres corporels Le nombre de sinistres corporels est une variable continue Nombre de sinistres matériels Le nombre de sinistres matériels est une variable continue. 7

8 4. Notre démarche Pour répondre au sujet, nous allons réaliser les étapes suivantes : Importer les données. Attribuer un identifiant à chaque individu. Discrétisation des variables. Création d un tableau disjonctif complet. Analyse en composantes multiples. Projection des individus dans le plan. Classification Ascendante Hiérarchique. Affichage du dendogramme. Décision du niveau de coupure de l arbre. Jointure des tables. Description des classes. Analyse discriminante. Régression logistique. Nous avons décidé d utiliser le logiciel SAS du fait de sa plus grande présence au sein des entreprises. Cela nous servira certainement plus facilement dans une entreprise de savoir utiliser SAS plutôt que R. Nous allons maintenant expliquer les différentes étapes de notre démarche. Etant donné le nombre important d individus, les exécutions ont pu être très longues. Nous donnerons la durée d exécution des étapes qui ont été les plus longues Préparation Importation des données L importation des données ne nous a pas posé de problème sous SAS. Nous avons juste importé les données du fichier texte dans SAS. Pour cela nous avons du donner des noms à nos variables Attribution d un identifiant Après avoir importé les données dans SAS, nous avons attribué à chaque individu un identifiant. Ceci n a pour le moment aucun intérêt mais il sera utile lors de la jointure des tables (voir plus bas dans le document) Discrétisation des variables A l importation, nous avons à la fois des variables qualitatives et des variables quantitatives. Dans un souci d homogénéité (nécessaire pour les prochaines étapes), nous allons discrétiser les variables continues (quantitatives) en variables qualitatives. 8

9 Année d adhésion Pour les variables comprises entre [x;y] On affecte la valeur [1961;1969] 60 [1970;1979] 70 [1980;1989] 80 [1990;1999] 90 [2000;2009] Age Pour les variables comprises entre [x;y] On affecte la valeur [18;25] 18 [26;35] 26 [36;45] 36 [46;55] 46 [56;65] 56 [66;75] 66 [76;85] 76 [86;95] 86 [96;105] Nombre de sinistres corporels Pour les variables : On affecte la valeur =1 1 =2 2 =3 3 >= Nombre de sinistres matériels Pour les variables comprises entre [x;y] On affecte la valeur =0 0 [1;2] 1 [3;4] 2 [5;6] 3 [7;8] 4 [9;10] 5 >10 6 9

10 4.2. Analyse Factorielle Création d un tableau disjonctif complet Cette étape va nous permettre de créer un tableau disjonctif complet (TDC) afin de pouvoir effectuer, par la suite, notre ACM. Ce TDC a été créé grâce à la proc TRANSREG suivante : PROC transreg data=proj_lib.origine design noprint; model class (cl_annee depart_residence cl_age code_prof situ_fami sexe frac_paiemen nb_voiture cl_corpo cl_mat/ zero=none); output out=proj_lib.tdc; run; En fait, cette proc TRANSREG crée une variable par modalité. Dans notre cas, nous nous retrouvons avec 176 variables. Prenons, par exemple, la variable DEPARTEMENT. Il y a déjà 90 modalités rien que pour cette variable. L exécution de cette proc TRANSREG nous a demandé 47 minutes Analyse en composantes multiples (ACM) Pour notre typologie, nous allons effectuer une CAH. Nous aurons donc besoin d avoir effectué au préalable, une ACM car la CAH se fait sur des données continues. Etant donné que nous n avions que des variables qualitatives (après discrétisation), nous faisons une ACM pour calculer des coordonnées factorielles des modalités (données continues) qui nous permettront de faire notre CAH. L ACM a été effectuée grâce à la proc CORRESP suivante : PROC corresp data=proj_lib.tdc outc=proj_lib.corresp (WHERE = (_TYPE_='OBS')) noprint DIMENS=5; VAR &_trgind; run; Dans ce code, nous pouvons voir que nous effectuons l ACM sur les données de sorties de la proc TRANSREG (notre tableau disjonctif complet). Nous ne voulons en sortie que les lignes de type observation (par défaut, la proc CORRESP crée une ligne en début de fichier pour décrire les variables et créé une ligne par modalité, soit 176). Nous choisissons de garder 5 axes pour cette ACM. La dernière instruction (VAR &_trgind;) indique à SAS qu il doit effectuer l ACM sur les variables de la proc TRANSREG effectuée juste avant. A la suite de cette ACM, nous attribuons un identifiant à chacune des lignes de notre sortie (table corresp), ceci toujours en vue de la jointure future des tables. L exécution de cette proc CORRESP nous a demandé 5 heures

11 Projection dans le plan Cette étape ne servira pas dans la typologie, mais elle nous permet d illustrer l ACM que nous venons d effectuer. Vous trouverez la projection des individus sur les 3 premiers axes en annexe de ce document Typologie Classification ascendante hiérarchique (CAH) La CAH est effectuée sur les coordonnées factorielles continues issues de l ACM (proc CORRESP). Etant donné le nombre important d individus dans notre base, il est judicieux de tenter de réduire un maximum ce nombre avant de faire la CAH. C est pourquoi nous avons décidé de mettre en œuvre une CAH mixte. Le principe des méthodes mixtes est de combiner les points forts des méthodes hiérarchiques et des méthodes de partionnement (nous utiliserons ici la méthode des centres mobiles), à savoir la précision et l absence d a priori des premières (méthodes hiérarchiques) et la rapidité des secondes (méthodes de partitionnement). Les méthodes mixtes de classifications consistent à effectuer une première classification sur les n observations (centres mobiles), en fixant le nombre de classes entre 10 et 100 (ou la limite de Wong : n 0,3 ). Dans notre cas, la valeur de Wong est de 47 classes. Cette valeur est choisie suffisamment grande pour limiter le risque de fusion de classes naturelles et pour avoir fortement augmenté l inertie interclasse. Nous utiliserons ici la proc FASTCLUS de SAS. Suite à cette étape, nous effectuons une CAH (proc CLUSTER) sur les centres des classes créées par la proc FASTCLUS, et non sur les observations initiales Proc FASTCLUS La première étape de cette CAH mixte est donc la méthode des centres mobiles. Nous avons donc mis en place cette méthode grâce à la proc FASTCLUS de SAS. proc fastclus data=proj_lib.corresp summary maxc=47 maxiter=50 converge=0.02 mean=proj_lib.centres out=proj_lib.partition cluster=presegmentation; id ide; run; Nous obtenons deux résultats en sortie : la table centres qui contient les données factorielles de chacun des 47 groupes, ainsi que la fréquence des individus dans ces groupes et la table partition 11

12 qui contient la classification des individus dans les 47 groupes et précise la distance des individus par rapport à la donnée Distance to cluster Seed. Il est judicieux, suite à cette étape de vérifier la qualité des indicateurs : Pseudo F statistic ,70 Approximate Expected Over-All R-Squared 0,69847 Clubic Clustering Criterion 2373,725 Ici, les indicateurs sont plutôt bons, ce qui nous permet de dire que la première classification est suffisamment bonne pour continuer. En effet, même le R² est plutôt bon, malgré sa valeur (0,69847), mais il faut rappeler que l on a individus. Nous pourrions chercher à maximiser ces indicateurs en testant d autres valeurs pour le nombre de classes, mais nous nous tiendrons à la méthode de Wong étant donné que nous allons, par la suite, effectuer une coupure plus fine grâce à l étude de graphiques comme le R², le semi-partiel R² et la pseudo statistique F Proc CLUSTER Une fois cette étape de partionnement par les centres mobiles réalisée, nous passons à la CAH. La méthode la plus utilisée pour faire une CAH est la méthode de Ward de plus, il s agit de la méthode que nous avons vue en cours. C est donc cette méthode que nous mettons en œuvre ici par la proc CLUSTER. proc cluster data=proj_lib.centres outtree=proj_lib.tabledendogramme method=ward ccc pseudo print=47; copy presegmentation; var DIM1-DIM3; run; Cette proc CLUSTER nous donne en sortie les données nécessaires pour construire le dendogramme : pour chacun des 47 groupes créés précédemment, il donne, entre autres, le groupe père. Ainsi, il construit le dendogramme à partir de la base pour remonter vers le sommet. Nous faisons, ici notre proc CLUSTER avec les trois premiers axes. 12

13 Affichage du dendogramme Voici le dendogramme obtenu grâce à la proc CLUSTER précédente Coupure de l arbre Nous devons maintenant décider du niveau de coupure de cet arbre. Pour cela, nous trions la table dendogramme puis nous affichons quelques courbes grâce au code suivant : symbol1 color=black interpol=join value=dot height=1; proc gplot data=proj_lib.tabledendogramme2; plot _sprsq_*_ncl rsq_*_ncl PST2_*_ncl PSF_*_ncl_; run; Cela nous permet d afficher les courbes suivantes : Semi-Partial R-Squared : 13

14 R-Squared : Pseudo T-Squared Statistic : Pour décider du niveau de coupure de l arbre, il faut tout d abord étudier les courbes Semi- Partial R-Squared et Pseudo T-Squared Statistic. Nous nous apercevons alors que le niveau de coupure doit être de 6 groupes. Pour cela, il faut regarder à quel niveau commence le «plat» des courbes. Après avoir fait cette sélection, nous observons la courbe R-Squared qui nous informe de la qualité de notre coupure. Nous nous apercevons alors que, si on prend 6 groupes, nous avons un R- carré de 0,65 ce qui est relativement bon du fait du grand nombre d individus que nous étudions. 14

15 Nous obtenons alors le dendogramme suivant avec la coupure : Cette coupure semble bonne. En effet, avec plus de 6 classes on aurait une forte perte de l inertie inter-classe Jointure des tables Maintenant que nous avons décidé de répartir nos individus dans 6 groupes, nous les affectons définitivement dans leur groupe respectif. C est ici que devient utile le fait d avoir créé des identifiants sur la table origine ainsi que sur la table de la CAH car la jointure peut maintenant se faire sur ces identifiants Description des classes On constate que dans les 6 groupes les individus sont principalement originaires de la région parisienne, et plus précisément des départements 78, 92, 93, 94 et 75. Seul l ordre d influence de ces 5 départements varie en fonction des groupes. On remarque, de plus, que dans l'ensemble des 6 groupes, plus de 97% des membres n'on eu aucun sinistre corporel, et qu'en moyenne 20% des membres ont déjà eu un sinistre matériel Groupe 1 (23100 individus) : Ce groupe est principalement caractérisé par des ouvriers, puis, dans une moindre mesure, par des employés et des personnes sans emploi. Les membres de ce groupe sont majoritairement veufs ( 91%). Cependant les membres de ce groupe ont majoritairement moins de 25 ans ( 63%), mais globalement les individus ont moins de 35 ans ( 87%). C est un groupe relativement mixte, mais avec une légère majorité pour les femmes. 15

16 Ces individus ont tendance à payer leur cotisation de façon mensuelle, même si certains décident de payer annuellement. Enfin, 80% ont souscrit entre 2000 et 2009 ( 95% entre 1990 et 2009) Groupe 2 ( individus) : Ce groupe est principalement caractérisé par des ouvriers, puis, dans une moindre mesure, par des employés. Les personnes de ce groupe sont soit marié ( 40%), soit célibataire ( 59%). De plus, plus de 2/3 des personnes de ce groupe sont des hommes. Les paiements sont à part égale entre le paiement mensuel et annuel. Les souscriptions aux assurances ont majoritairement eu lieu entre 1990 et 2000 ( 47%), mais également entre 2000 et 2009 ( 28%). Ce groupe est relativement homogène concernant les classes d âge des individus (entre 26 et 65 ans), mais avec un peu plus de personne dans le groupe ans Groupe 3 (67268 individus) Ce groupe est principalement caractérisé par les ouvriers, mais également dans une moindre mesure par des cadres. De plus, la majorité des membres de ce groupe sont mariés (88%), et sont des hommes (89%). Près d'un membre sur 2 choisi le paiement semestriel, et environ 25% le paiement mensuel. De même, environ 82% des membres de ce groupe ont souscrit à une assurance entre 1980 et 1999 et ont entre 36 et 55ans Groupe 4 (7556 individus) Ce groupe est principalement caractérisé par des personnes sans emploi (85%) et célibataire (95%). Cependant ce groupe est caractérisé par environ autan d'hommes que de femme, ave une légère majorité envers les hommes (54%). Près d'un personne sur 2 de ce groupe, paye sont assurance mensuellement, tandis qu'un tiers des membres de ce groupe la paie annuellement. Enfin, 95% des personnes appartenant à ce groupe ont souscrit à une assurance entre 2000 et 2009, et 99% ont entre 18 et 25 ans Groupe 5 (55872 individus) Près de 40% des individus de ce groupe sont des employés, et 35% des ouvriers. De plus, les membres de ce groupe sont soit mariés, soit célibataires, avec une plus grande proportion pour les célibataires (55%). Près d'un personne sur 2 de ce groupe, paye sont assurance mensuellement, tandis que 25% des membres de ce groupe la paie annuellement. 16

17 Ensuite, on constate qu'environ 1 personne sur 2 a souscrit à l'assurance entre 1990 et 1999, tandis que 20% ont souscrit entre 1980 et 1989, et 20% également entre 2000 et Enfin, c'est un groupe relativement hétérogène au niveau des âges. En effet, on constate que les âges sont répartis dans des proportions similaires entre 26 et 65 ans, mais avec une plus forte proportion tout de même pour les ans Groupe 6 (88086 individus) Ce groupe est majoritairement représenté par les retraités (58%), même si le nombre d'ouvriers n'est pas négligeable (25%). De plus, 56% de ses membres sont mariés, tandis que près de un tiers sont célibataires. Ensuite, on constate que 37% paie annuellement leur assurance contre 31% mensuellement. De plus, on remarque que les personnes de ce groupe ont souscrit entre 1970 et 2009 pour une proportion quasi égale dans les quatre groupes correspondant (22%). Enfin, ce groupe est le plus hétérogène de tous au niveau des âges, avec ceux qui varient dans des proportions non négligeables entre 26 ans et 85 ans, avec tout de même, une légère majorité d'individus ayant entre 66 et 75ans. Vous trouverez le tableau récapitulatif des statistiques sur les groupes en annexe de ce document Analyse discriminante Avant de faire l analyse discriminante en elle-même, nous allons essayer d affiner notre fichier. Pour cela, nous mettons en place la proc STEPDISC. En effet, celle-ci permet d éliminer les variables inutiles. Etape par étape, le logiciel va tenter d ajouter chaque fois une nouvelle variable et tester si elle est significative ou non, le cas échéant, il la retire de la table. C est le cas de la variable représentant le nombre de voitures (variables constante dans notre cas). L analyse discriminante permet de tester la qualité de la typologie que nous avons effectuée au-dessus. Elle permet de répondre à la question suivante : Dans le groupe, combien d individus ont été correctement affectés? Voici le code de notre proc DISCRIM : proc discrim data=proj_lib.origine2 method=normal pool=yes crossvalidate canonical out=proj_lib.discrim outstat=proj_lib.discrim_stat; class cluster; var cl_annee depart_residence cl_age code_prof situ_fami sexe frac_paiemen cl_corpo cl_mat; run; 17

18 Sortie SAS : Number of observations and percent classified into cluster. From Total Cluster 1 Frequence Pourcentage 61,32 4,23 1,42 15,9 9,33 7, Frequence Pourcentage 7,41 30,01 16, ,93 12, Frequence Pourcentage 3,69 5,57 74,51 1,47 8,88 5, Frequence Pourcentage 6,23 0, ,65 0,01 0, Frequence Pourcentage 2,77 5,24 15,38 4,17 64,19 8, Frequence Pourcentage 9,48 8,11 11,67 1, ,6 100 Total Frequence Pourcentage 9,91 14,13 24,72 5,82 24,36 21, Les valeurs surlignées en vert correspondent aux pourcentages d individus correctement affectés pour chaque classe. Sortie SAS : Error count estimate for cluster Total Rate Priors Nous voyons sur ce tableau que nous avons un taux d erreur de 36,46%. Ceci est certainement du au fait qu on répartie plus de individus en seulement 6 classes. La dernière ligne (priors) nous donne le pourcentage d individus qui ont été affectés dans la classe aléatoirement (soit ils n entraient dans aucun groupe, soit dans plusieurs groupes à la fois) Prédiction des sinistres corporels Régression logistique Voici le programme SAS que nous avons mis en œuvre : proc logistic data=proj_lib.origine2 descending; model cl_corpo = depart_residence cl_age code_prof situ_fami sexe nb_voiture frac_paiemen cl_mat /link=logit lackfit ctable pprob = (0 to 1 by 0.025) rsquare risklimits outroc=proj_lib.roc1; output out=proj_lib.logistic p=prob xbeta=xbeta; run; 18

19 Sortie SAS : Table of _LEVEL_ by cl_corpo. _LEVEL_ Cl_CORPO (Response Value) Frequency Percen Row Pct Col Pct 0 1 Total ,86 1,14 98,86 1,14 100,00 100,00 Total , , , ,00 Cette sortie SAS nous montre que toutes les valeurs de réponses sont à 1. Ceci provient très certainement du fonctionnement de la proc LOGISTIC. En effet, nous voyons ci-dessous que certains sujets ont de très fortes chances d avoir un sinistre corporel. En fait, si on calcule le rapport n1/nt où n1 représente le nombre d individus ayant eu un sinistre corporel (en vert) 1 et nt le nombre d individus total (en rouge), on obtient 1,14%, ce qui est très faible. De ce fait, le logiciel peut se permettre de mettre toutes les valeurs de réponse à 1, il n aura un taux d erreur que très faible. Sortie SAS : Extreme Observations. Lowest Highest Value Obs (identifiant) Value Obs (identifiant) 0, , , , , , , , , , Les sorties SAS nous montrent également (proc univariate) que 174 individus ont plus de 50% de risques d avoir un sinistre corporel, ceci est certainement dû au fait que, plus on a eu de sinistres matériels, plus on a de risques d avoir un sinistre corporel. Nous pouvons également observer un phénomène plutôt étrange : une personne ayant eu 4 sinistres matériels a plus de risque d avoir un sinistre corporel qu une personne qui a eu 3 sinistres matériels et 1 sinistre corporel. Nous n arrivons pas à expliquer ce phénomène. Suite à cette régression logistique, nous avons affiché la courbe ROC afin de tester la qualité de notre régression (aire sous la courbe). Cette courbe nous donne d autres informations : par exemple la spécificité (1-spécificité : axe des abscisses) et la sensibilité (axe des ordonnées). Ces informations correspondent respectivement à la capacité à prédire un événement positif (avoir un sinistre corporel) et la capacité à prédire un événement négatif (ne pas avoir de sinistre corporel). Indirectement, il est également possible de connaître le risque de prédire un sinistre corporel à une personne alors qu elle n en aura pas (1-spécificité). Il faudrait, dans le meilleur des cas trouver un compromis acceptable entre forte spécificité et forte sensibilité. Les points de la courbe correspondent aux seuils des meilleurs compromis entre sensibilité et 1-spécificité. 19

20 Voici notre courbe ROC : Dans notre cas, la qualité de notre régression est de 0,855. On peut affirmer, aux vues du nombre d individus que nous avons, que la qualité de notre régression est plus que correcte tant elle se rapproche de 1. 20

21 5. Conclusion Ce projet a pu être mené à bien grâce au travail que nous avons fourni pendant la période de vacances. Si nous n avions pas travaillé durant cette période, le projet n aurait pas pu être terminé. Nous avons énormément d informations en sorties SAS que nous pourrions expliquer mais nous avons dû les trier de façon à répondre au plus près au sujet. Nous avons rencontré quelques soucis, notamment au début du projet. En effet, étant donnée la taille du fichier de données (quelques individus), l exécution de SAS saturait notre session à cause de la création des différentes librairies. Nous avons alors pris l initiative de demander une solution au service informatique et X. Redon a alors augmenté le quota de disque pour l ensemble de la classe. Une fois ce petit soucis résolu, nous avons dû faire de multiples recherches aussi bien sur la méthodologie à utiliser que sur la façon de la mettre en œuvre. Ce projet nous a permis de mettre en application les différentes méthodes qui nous ont été enseignées dans un cas bien plus réel que les cas de TP sur lesquels nous avons déjà pu travaillé où nous nous retrouvions avec une trentaine de lignes au plus, où tout se passait comme on le souhaitait et où tout ce que nous avions à faire était de répondre aux questions les unes après les autres. 21

22 6. Bibliographie Voici la liste des sources qui nous ont permis de répondre au mieux au sujet. Type Titre/adresse Auteur Livre Data Mining et statistique décisionnelle Stéphane TUFFERY Diaporama Michel TENENHAUS PDF L analyse des données avec SAS v6 Olivier SAUTORY A ces différentes sources s ajoutent plusieurs sites internet pour lesquels nous n avons plus les adresses et d autres documents que nous avons pu trouver, sans titre. 22

23 7. Annexes 7.1. Projection des individus sur les axes. 23

24 24

25 25

26 7.2. Table permettant de construire l arbre (extrait) 26

27 7.3. Table des individus ayant plus de 50% de risque d avoir un sinistre corporel (extrait) 27

28 7.4. Tableau descriptif des classes 28

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Séance 11 : Typologies

Séance 11 : Typologies Séance 11 : Typologies Sommaire Proc CLUSTER : Typologie hiérarchique... 3 Proc FASTCLUS : Typologie nodale... 8 Proc MODECLUS : Typologie non paramétrique... 11 - Les phénomènes observés (attitudes, comportements,

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Etudes marketing et connaissance client

Etudes marketing et connaissance client Master deuxième année Mention : Statistique et Traitement de Données Etudes marketing et connaissance client Imane Hammouali Tuteur de stage: M. Sébastien Confesson Stage effectué au Service Etudes Marketing

Plus en détail

Scénario: Données bancaires et segmentation de clientèle

Scénario: Données bancaires et segmentation de clientèle Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé

Plus en détail

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1 Table des matières PARTIE 1 1. Résumé

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

COMPRENDRE LES DIFFERENTS TYPES DE CONNEXION LORS DE LA

COMPRENDRE LES DIFFERENTS TYPES DE CONNEXION LORS DE LA COMPRENDRE LES DIFFERENTS TYPES DE CONNEXION LORS DE LA DEFINITION D UNE BIBLIOTHEQUE D ACCES A UNE BASE DE DONNEES Cet article s adresse aux administrateurs SAS en charge de la mise à disposition des

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Encryptions, compression et partitionnement des données

Encryptions, compression et partitionnement des données Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Université Paris IX DAUPHINE DATE : 24/04/06

Université Paris IX DAUPHINE DATE : 24/04/06 Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

Les micro-entrepreneurs, les travailleurs non-salariés, la crise et l assurance

Les micro-entrepreneurs, les travailleurs non-salariés, la crise et l assurance Septembre 2013 Contact: Frédéric Dabi 01 45 84 14 44 Frederic.dabi@ifop.com Les micro-entrepreneurs, les travailleurs non-salariés, la crise et l assurance pour Note méthodologique Etude réalisée pour:

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING - Analyses de données symboliques sur les restaurants Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

E-ASSURÉS RECHERCHE LE PROFIL DES PERSONNES ASSURANCE SANTÉ DES A LA SUR INTERNET D UNE PUBLIÉ PAR. 2 e ÉDITION

E-ASSURÉS RECHERCHE LE PROFIL DES PERSONNES ASSURANCE SANTÉ DES A LA SUR INTERNET D UNE PUBLIÉ PAR. 2 e ÉDITION L OBSERVATOIRE PUBLIÉ PAR LE PROFIL DES PERSONNES A LA RECHERCHE DES D UNE E-ASSURÉS 2 e ÉDITION SEPTEMBRE NOVEMBRE ASSURANCE SANTÉ SUR INTERNET QUI SOMMES-NOUS? PRÉSENTATION DE cmonassurance est un e-courtier,

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

q u estions santé d économie de la résultats Repères

q u estions santé d économie de la résultats Repères Bulletin d information en économie de la santée q u estions d économie de la santé résultats Repères Fin 2003, l Irdes a mené une enquête sur la protection sociale complémentaire d entreprise (PSCE) auprès

Plus en détail

Les rachats de contrats d assurance-vie après 60 ans en 2012 FFSA

Les rachats de contrats d assurance-vie après 60 ans en 2012 FFSA CONSEIL D ORIENTATION DES RETRAITES Séance plénière du 17 décembre 2013 à 14h30 «Etat des lieux sur l épargne en prévision de la retraite» Document N 8 Document de travail, n engage pas le Conseil Les

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Le langage SQL Rappels

Le langage SQL Rappels Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Evolution de la fréquence des sinistres 2003-2012 en assurance RC automobile

Evolution de la fréquence des sinistres 2003-2012 en assurance RC automobile Evolution de la fréquence des sinistres 2003-2012 en assurance RC automobile Contenu 1. Nombre de sinistres en RC tourisme et affaires... 2 Fréquence des sinistres en RC tourisme et affaires... 2 Fréquence

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Evolution de la fréquence des sinistres 2002-2011 en assurance RC automobile

Evolution de la fréquence des sinistres 2002-2011 en assurance RC automobile Evolution de la fréquence des sinistres 2002-2011 en assurance RC automobile Contenu 1. Nombre de sinistres en RC tourisme et affaires... 2 Fréquence des sinistres en RC tourisme et affaires... 2 Fréquence

Plus en détail

Crédit à la consommation, un bon outil pour la rentrée?

Crédit à la consommation, un bon outil pour la rentrée? Crédit à la consommation, un bon outil pour la rentrée? Contexte Empruntis intervient sur le crédit depuis 15 ans 370 000 ménages nous sollicitent chaque année pour leur besoin en crédit à la consommation

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

CECOP. Centre d études et de connaissances sur l opinion publique. Les Français, leur épargne et leur retraite

CECOP. Centre d études et de connaissances sur l opinion publique. Les Français, leur épargne et leur retraite CECOP Centre d études et de connaissances sur l opinion publique Les Français, leur épargne et leur retraite FD/EP N 113015 Contacts Ifop : Frédéric Dabi / Esteban Pratviel Département Opinion et Stratégies

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Le regard des Français sur le secret des échanges entre un avocat et son client. IFOP pour Ordre des avocats de Paris

Le regard des Français sur le secret des échanges entre un avocat et son client. IFOP pour Ordre des avocats de Paris Le regard des Français sur le secret des échanges entre un avocat et son client IFOP pour Ordre des avocats de Paris FD/MCP N 112477 Contacts Ifop : Frédéric Dabi / Marion Chasles-Parot Département Opinion

Plus en détail

Responsabilité civile et décennale Construction maison individuelle

Responsabilité civile et décennale Construction maison individuelle Responsabilité civile et décennale Construction maison individuelle Référence de votre cabinet Code ORIAS N : Cachet de votre cabinet : Raison sociale Sigle Adresse Code postal Ville Téléphone Fax Mobile

Plus en détail

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 Pour construire un graphique : On lance l assistant graphique à l aide du menu Insérer è Diagramme en ayant sélectionné au préalable une cellule vide dans

Plus en détail

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie Les Français et les nuisances sonores Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie RB/MCP N 112427 Contacts Ifop : Romain Bendavid / Marion Chasles-Parot Département Opinion

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Méthode universitaire du commentaire de texte

Méthode universitaire du commentaire de texte Méthode universitaire du commentaire de texte Baptiste Mélès Novembre 2014 L objectif du commentaire de texte est de décrire la structure argumentative et de mettre au jour les concepts qui permettent

Plus en détail

La qualité de l insertion professionnelle selon la continuité ou la rupture de filière entre le 2 ème et le 3 ème cycle universitaire

La qualité de l insertion professionnelle selon la continuité ou la rupture de filière entre le 2 ème et le 3 ème cycle universitaire La qualité de l insertion professionnelle selon la continuité ou la rupture de filière entre le 2 ème et le 3 ème cycle universitaire Nathalie Jacob * 1. Présentation de l enquête et de la population Chaque

Plus en détail

E-ASSURÉS RECHERCHE LE PROFIL DES PERSONNES ASSURANCE SANTÉ DES A LA SUR INTERNET D UNE PUBLIÉ PAR. 23 e ÉDITION

E-ASSURÉS RECHERCHE LE PROFIL DES PERSONNES ASSURANCE SANTÉ DES A LA SUR INTERNET D UNE PUBLIÉ PAR. 23 e ÉDITION L OBSERVATOIRE PUBLIÉ PAR LE PROFIL DES PERSONNES A LA RECHERCHE DES D UNE E-ASSURÉS 23 e ÉDITION SEPTEMBRE NOVEMBRE ASSURANCE SANTÉ SUR INTERNET QUI SOMMES-NOUS? PRÉSENTATION DE cmonassurance est un e-courtier,

Plus en détail

les travailleurs non-salari

les travailleurs non-salari Septembre 2013 Contact: Frédéric Dabi 01 45 84 14 44 Frederic.dabi@ifop.com Les micro-entrepreneurs, les travailleurs non-salari salariés, s, la crise et l assurancel pour Note méthodologique Etude réalisée

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA Master Exploration Informatique des données Data Mining & Business Intelligence Groupe 5 Piotr BENSALEM Ahmed BENSI Evelyne CHARIFOU Priscillia CASSANDRA Enseignant Françoise FOGELMAN Nicolas DULIAN SOMMAIRE

Plus en détail

Les débats sur l évolution des

Les débats sur l évolution des D o c u m e n t d e t r a v a i l d e l a B r a n c h e R e t r a i t e s d e l a C a i s s e d e s d é p ô t s e t c o n s i g n a t i o n s n 9 8-0 7 C o n t a c t : La u re nt V e r n i è r e 0 1 4

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Scénario: Score d appétence de la carte visa premier

Scénario: Score d appétence de la carte visa premier Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision

Plus en détail

Etude sur l équipement des TPE / PME. en complémentaire santé

Etude sur l équipement des TPE / PME. en complémentaire santé Département Évaluation des Politiques Sociales Etude sur l équipement des TPE / PME en complémentaire santé Synthèse des résultats Léopold GILLES Pauline JAUNEAU Juillet 2012 1 Contexte et objectifs Dans

Plus en détail

LES MODES D ADAPTATION ET DE COMPENSATION DU HANDICAP : Les personnes handicapées motrices à domicile (enquête HID 1999)

LES MODES D ADAPTATION ET DE COMPENSATION DU HANDICAP : Les personnes handicapées motrices à domicile (enquête HID 1999) Délégation ANCREAI Ile-de-France CEDIAS - 5 rue Las-Cases 75007 PARIS Tél : 01 45 51 66 10 Fax : 01 44 18 01 81 E-mail : creai.idf@9online.fr Contact : Carole PEINTRE LES MODES D ADAPTATION ET DE COMPENSATION

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Le Statut Auto-Entrepreneur

Le Statut Auto-Entrepreneur Le Statut Auto-Entrepreneur Le Statut Auto-Entrepreneur en 10 points http://www.declaration-auto-entrepreneur.com L auto-entrepreneur est caractérisé par différents points clés. Lorsque l ont décide de

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

Sommaire. - 1 - La méthodologie... 1. - 2 - Les résultats de l'étude... 4

Sommaire. - 1 - La méthodologie... 1. - 2 - Les résultats de l'étude... 4 FM N 111528 Contact Ifop : Frédéric Micheau Département Opinion et Stratégies d'entreprise frederic.micheau@ifop.com 35 rue de la gare 75019 Paris Tél : 01 45 84 14 44 Fax : 01 45 85 59 39 pour Les Français

Plus en détail

L IMPOT DE SOLIDARITE SUR LA FORTUNE

L IMPOT DE SOLIDARITE SUR LA FORTUNE L IMPOT DE SOLIDARITE SUR LA FORTUNE Introduction L impôt de solidarité sur la fortune est un impôt annuel dû par les personnes physiques détenant un patrimoine net supérieur à 790 000 au 1 er janvier

Plus en détail

Complément d information concernant la fiche de concordance

Complément d information concernant la fiche de concordance Sommaire SAMEDI 0 DÉCEMBRE 20 Vous trouverez dans ce dossier les documents correspondants à ce que nous allons travailler aujourd hui : La fiche de concordance pour le DAEU ; Page 2 Un rappel de cours

Plus en détail

Baromètre: les Français et la confiance numérique Vague 2

Baromètre: les Français et la confiance numérique Vague 2 Baromètre: les Français et la confiance numérique Vague 2 Juin 2014 Contact - BVA Opinion Erwan LESTROHAN, directeur d études erwan.lestrohan@bva.fr - 01 71 16 90 9 Victor CHAPUIS, chargé d études Victor.chapuis@bva.fr

Plus en détail

Famille multirésidence : recensement et sources alternatives

Famille multirésidence : recensement et sources alternatives Famille multirésidence : recensement et sources alternatives Groupe de travail sur la rénovation du questionnaire de recensement Pascale BREUIL Chef de l Unité des Etudes Démographiques et sociales 28/09/2011

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

WINDOWS SHAREPOINT SERVICES 2007

WINDOWS SHAREPOINT SERVICES 2007 WINDOWS SHAREPOINT SERVICES 2007 I. TABLE DES MATIÈRES II. Présentation des «content types» (Type de contenu)... 2 III. La pratique... 4 A. Description du cas... 4 B. Création des colonnes... 6 C. Création

Plus en détail

PLAN. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2

PLAN. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2 Apprentissage non-supervisé ou apprentissage multi-supervisé? Ricco RAKOTOMALALA Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ PLAN. Classification automatique, typologie, etc.. Interprétation

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Analyse des correspondances avec colonne de référence

Analyse des correspondances avec colonne de référence ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution

Plus en détail

L analyse de la gestion de la clientèle

L analyse de la gestion de la clientèle chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses

Plus en détail

LES FRANÇAIS ET LA COMPLEMENTAIRE SANTE

LES FRANÇAIS ET LA COMPLEMENTAIRE SANTE Centre de Recherche pour l Etude et l Observation des Conditions de Vie LES FRANÇAIS ET LA COMPLEMENTAIRE SANTE Anne LOONES Marie-Odile SIMON Août 2004 Département «Evaluation des Politiques Sociales»

Plus en détail

NOTIONS DE PROBABILITÉS

NOTIONS DE PROBABILITÉS NOTIONS DE PROBABILITÉS Sommaire 1. Expérience aléatoire... 1 2. Espace échantillonnal... 2 3. Événement... 2 4. Calcul des probabilités... 3 4.1. Ensemble fondamental... 3 4.2. Calcul de la probabilité...

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE Le schéma synoptique ci-dessous décrit les différentes étapes du traitement numérique

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun> 94 Programmation en OCaml 5.4.8. Concaténation de deux listes Définissons maintenant la fonction concat qui met bout à bout deux listes. Ainsi, si l1 et l2 sont deux listes quelconques, concat l1 l2 constitue

Plus en détail

note D2DPE n 38 Dynamique des qualifications et mobilité intergénérationnelle dans la région Nord Pas de Calais

note D2DPE n 38 Dynamique des qualifications et mobilité intergénérationnelle dans la région Nord Pas de Calais note D2DPE n 38 Dynamique des qualifications et mobilité intergénérationnelle dans la région Nord Pas de Calais RESUME Cette note résume les travaux de Nicolas Fleury, Docteur en Sciences Economiques

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Exigences de collecte de données financières sur l assurance automobile. Pièce jointe au Bulletin GISA 2012-06

Exigences de collecte de données financières sur l assurance automobile. Pièce jointe au Bulletin GISA 2012-06 Exigences de collecte de données financières sur l assurance automobile Pièce jointe au Bulletin GISA 2012-06 Le 26 octobre 2012 1. Introduction... 1 2. Sociétés déclarantes... 1 3. Données de référence...

Plus en détail

Les probabilités. Chapitre 18. Tester ses connaissances

Les probabilités. Chapitre 18. Tester ses connaissances Chapitre 18 Les probabilités OBJECTIFS DU CHAPITRE Calculer la probabilité d événements Tester ses connaissances 1. Expériences aléatoires Voici trois expériences : - Expérience (1) : on lance une pièce

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

Stratégie d assurance retraite

Stratégie d assurance retraite Stratégie d assurance retraite Département de Formation INDUSTRIELLE ALLIANCE Page 1 Table des matières : Stratégie d assurance retraite Introduction et situation actuelle page 3 Fiscalité de la police

Plus en détail

RENTABILITE IMMOBILIERE ET PRESSION FISCALE

RENTABILITE IMMOBILIERE ET PRESSION FISCALE RENTABILITE IMMOBILIERE ET PRESSION FISCALE Conférence de presse 13 mars 2012 SOMMAIRE Introduction p. 3 CALCULS DE RENTABILITE IMMOBILIERE Cinq exemples avec des prélèvements sociaux portés à 15,5 %...p.

Plus en détail