Statistiques en Entreprise Mathilde Mougeot, Université Paris-Diderot mathilde.mougeot@univ-paris-diderot.fr
Introduction au cours Statistique de l entreprise 1 Les missions statistiques. Ex I,II,III 2 De la R&D à la mise en production opérationnellle 3 Statistiques et Informatique 4 Objectif du cours...data Scientist & Big Data...
Mission statistique I: étude unique et exaustive Etude unique et exaustive (One shot study) Etapes successives: 1 Données 2 Etude des données, 3 à 6 mois 3 Rapport d étude En réponse à une question
Mission statistique I:exemple Question: comprendre les facteurs liés à la gravité des accidents de voiture. Base de données Gidas: German IN-Depth Accident Study. (Joint venture between Bast and Automotive Research association) 300 Variables quantitatives, qualitatives relative au véhicule, conducteur, environnement, circulation, temps... Gravité des accidents de voitures: dommages humains, matériels... +2000 accidents par an, depuis 1999 Retour attendu: prévention, actions modificatrices Statistiques: référencées, régression, régression logistique. logiciels SAS, SPSS, R Compétences métier: ingénieurs statisticiens, centres R&D, Consultants
Mission statistique I:/panorama Etudes économiques, sociétales Ex: Eurostat, La création d entreprises en Europe Etudes marketings Ex: Grands Groupes: -Caractérisation des marchés -Constructeur automobile: caractérisation et quantification du ressenti dans les voitures...
Mission statistique II Aide à la décision statistique: de la R&D à la production (explotation du modèle) Etapes successives: 1 Données 2 Etude sous un angle prédictif/modélisation-, 3 à 6 mois 3 Rapport de performances GO/NOGO 4 GO: intégration d un composant algorithmiquen informatique d aide à la décision dans un système d information en production (recodage C...)
Mission statistique II:exemple Scoring Bancaire: objectif: construire un outil automatique d aide à l obtention d un prêt Base de données: Variable cible: indicateur de défaillance crédit CoVariables: 20-100 Va. quantitatives, qualitatives relatives au clients: âge, revenu, H/F, nb enfants, secteur d activité... volumétrie: 10K, 100K, 1 000K clients ROI: gain attendu Statistiques: référencées, et innovantes. (AD (BdF), Reg. logistique) Compétences métier: ingénieurs statisticiens, notions informatiques
Mission statistique II: outil d aide à la décision/panorama scoring bancaire Opérateurs téléphoniques, modèle de churn Health-Monitoring (Equipement)...
Etapes de traitement, mission I et II 50 100 150 200 250 300 350 400 100 200 300 400 500 600 700 800 () November 25, 2013 9 / 17
Mission statistique III Aide à la décision statistique imbrication stats/info Etapes successives: 1 Données (fichiers ou BD) 2 Etude & Développement d un composant logiciel 3 Intégration dans un système Informatique (recodage C...) 4 Mise à disposition sous forme d IHM, Visual Mining
Mission statistique III:panorama Editeur de logiciels Start-up
Du Développement R&D à la mise en production opérationnelle Etapes successives (3): 1 R&D Données extraites du système d informatique Etude Preuve de concept (Proof of concept)
Du Développement R&D à la mise en production opérationnelle Etapes successives (3): 1 R&D Données extraites du système d informatique Etude Preuve de concept (Proof of concept) 2 Pilote, prototype Base de données Composant logiciel d aide à la Décision Validation fonctionnelle et retour d expérience
Du Développement R&D à la mise en production opérationnelle Etapes successives (3): 1 R&D Données extraites du système d informatique Etude Preuve de concept (Proof of concept) 2 Pilote, prototype Base de données Composant logiciel d aide à la Décision Validation fonctionnelle et retour d expérience 3 Déploiement Base de données Intégration du Composant logiciel d aide à la Décision dans le SI client Résultats dans le SI client from cost to profit
Du Développement R&D à la mise en production opérationnelle
Objectifs du cours Statistiques de l Entreprise Maîtrise des outils statistiques et mathématiques - Estimation, Régression, Classification - Sélection de variables, parcimonie, Réduction de variables - Segmentation, Clustering () November 25, 2013 14 / 17
Objectifs du cours Statistiques de l Entreprise Maîtrise des outils statistiques et mathématiques - Estimation, Régression, Classification - Sélection de variables, parcimonie, Réduction de variables - Segmentation, Clustering Maîtrise des outils informatiques de Data Mining - R (logiciel gratuit téléchargeable. www.r-project.org -... () November 25, 2013 14 / 17
Objectifs du cours Statistiques de l Entreprise Maîtrise des outils statistiques et mathématiques - Estimation, Régression, Classification - Sélection de variables, parcimonie, Réduction de variables - Segmentation, Clustering Maîtrise des outils informatiques de Data Mining - R (logiciel gratuit téléchargeable. www.r-project.org -... Réalisations d Applications (modestes) - Interprétation & Analyse des résultats - Autonomie, Porteur de projets () November 25, 2013 14 / 17
Objectif du cours Performances de modèles d aide à la décision Appli Train K=100 Appli Test K=100 error 0.05 0.10 0.15 0.20 error 0.12 0.14 0.16 0.18 0.20 0.22 0.24 M1 M2 M3 M4 M5 M1 M2 M3 M4 M5 () November 25, 2013 15 / 17
Outils de classification Régression logistique Analyse Discriminante prédictive et descriptive Arbres de Régression Agrégation de modèles, boosting, Random Forest statistiques (mathématiques) Machine learning (algorithmique) () November 25, 2013 16 / 17
Un mot sur le Big Data Données TRES Volulmineuses, le plus souvent non structurées composante informatique importante Des donnés transactionnelles aux données analytiques, construction de tables BD dédiées Trouver des traitements de moindre compléxité Restitution () November 25, 2013 17 / 17