Eléments de Statistique Chapitre 1 : INSA de Toulouse - 3ICBE Statistique
Contexte Vocabulaire Environnement technologique Volume des données (600Mb séquenceur = GenBank 1982-1996) Nouveaux logiciels commerciaux, librairies R (Bioconductor) Nouveaux algorithmes Objectifs : validation, valorisation, aide à la décision, marketing, qualité...
Contexte Vocabulaire Concepts simples mais vocabulaire précis Statistique (La), discipline académique statistique (de test), quantité calculée, paramètre d un modèle statistiques (les), ou tableaux de chiffres, d observations Statistique descriptive de séries par des indicateurs, des graphiques, sans modèle probabiliste Statistique inférentielle Inférer sur une population à partir de l observation d un échantillon Population Ensemble concerné par une étude Individu ou unité statistique, élément de la population Echantillon sous-ensemble effectivement observé de la population Variable statistique { : application de Ω X E si qualitative nominale ou ordinale R si quantitative réelle ou discrète
Étapes d une étude Contenu du cours 1. Expérimentation Quelle question biologique? Quelle population et quelle hypothèse H à tester? Planification de l expérience Détermination de l échantillon Précision des conditions expérimentales Observations et mesures
Étapes d une étude Contenu du cours 2. Exploration pour objectif descriptif Valeurs manquantes, erronées ou atypiques Modalités trop rares Distributions anormales Incohérences, liaisons non linéaires Transformations, imputation, codage...
Étapes d une étude Contenu du cours 3. Modèle explicatif pour objectif décisionnel Hypothèse H0 (influence ou non d un facteur) Détermination du modèle et choix du test (Student, ANOVA, Kruskal-Wallis, régression...) Estimation des paramètres Calcul des statistiques de test et P-valeurs Prise de décision : rejet ou acceptation de H0 Conséquence pour répondre à la question biologique
Étapes d une étude Contenu du cours 4. Apprentissage pour objectif prédictif Qualité d estimation et qualité de prévision Equilibre biais / variance Modèle parcimonieux Estimer une erreur de prévision Sélection éventuelle de varaibles (i.e. biomarqueurs)
Étapes d une étude Contenu du cours Statistique descriptive ou exploratoire Unidimensionnelle (moyenne, médiane, variance...) Bidimensionnelle (covariance, corrélation...) Analyse en composantes principales (introduction) Éléments de probabilités Lois discrètes Lois continues Notion de variable aléatoire Propriétés
Étapes d une étude Contenu du cours Statistique inférentielle Échantillonnage Estimation Tests paramétriques et non paramétriques Modèle de régression Régression simple Estimation et tests à la régression multiple
Domaine de Santé Industrie Marqueting Biostatistique Expérimentation clinique Pharmacocinétique Modèles de durée de vie Modèles épidémiologiques Dynamique de population Données post génomiques (omiques)...
Domaine de Santé Industrie Marqueting Contrôle Statistique des Procédés Optimisation (plans d expérience) Contrôle (suivi de qualité) Détection de défaillance Durée de vie et fiabilité
Domaine de Santé Industrie Marqueting Data mining et marketing Fouille de données Gestion de la Relation Client (CRM) Valoriser les fichiers clients des entreprises tertiaires Banques, assurances, VPC, téléphonie... EDF GDF... Finance : couverture des risques Caractéristiques : volume et flux de données préalables Objectifs : recherche de typologie, calcul de scores
Quelles compétences? Quelle est la question? Quelle méthode utilisée? Quelles sont ses limites? Comment la mettre en œuvre? Comprendre les sorties Quelle décision?