Méthodes d apprentissage :

Dimension: px
Commencer à balayer dès la page:

Download "Méthodes d apprentissage :"

Transcription

1 Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé

2 Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv, ) Sélection d'attributs: supervisé ou non supervisé Difficulté : trouver les langages de représentation adaptés (données / hypothèses)

3 Clustering non supervisé (Eisen)

4 Apprentissage supervisé (arbres de décision) Pb classique : 2 classes Autre Pouvoir approche prédire : ordonner la classe les de exemples nouveaux entre exemples eux X 2 c d b * * * * * * * * * a * X 1 * * X 2 > d? X 2 > c? * faux * * * X 1 > a? * vrai X 2 > b? *

5 Apprentissage supervisé Pb classique : 2 classes Autre approche : ordonner les exemples entre eux X 2 c d b * * 3 * 1 * * * * * a 4 * 2 X * seuil

6 Application au problème des complexes protéine-protéine Problème : déterminer si un complexe protéine-protéine est un complexe vraisemblable bjectif : être capable d ordonner les complexes par probabilité décroissante d être de vrais complexes Problèmes à résoudre : Comment générer les complexes? Comment représenter les complexes? Quel algorithme d apprentissage utiliser? Comment évaluation de la pertinence?

7 Comment obtenir la structure des complexes? Protéines isolées Existence de procédures haut-débit pour obtenir les structures Banques de données disponibles (PDB) Complexes Difficile d obtenir la structure des complexes Problème de stabilité du complexe Coût et durée élevés des manipulations associées Besoin d une solution informatique pour prédire les complexes

8 Algorithme de Docking Wodak & Janin Biopolymers 1978, Adv Protein Chem 2002 Exploration (Recherche des complexes possibles) Parcours des rotations-translations Évaluation (Sélection des complexes les plus probables) Fonction énergétique, détection des alignements multiples, mesure de l emboîtement déformation à l interaction besoin de flexibilité dans l évaluation complexes les plus probables

9 Niveau de modélisation des protéines Au niveau des atomes Précis mais très coûteux en temps de calcul (~ atomes/protéine) Trop de degrés de liberté Trop sensible à la flexibilité Au niveau des acides aminés (résidus) Moins précis que le modèle atomique mais suffisamment porteur d informations Plus facile et plus rapide à évaluer (~ 400 résidus/protéine) Moins sensible à la flexibilité due à l interaction

10 Bernauer et al., PLoS Comp Biol, to appear (2006) Bernauer et al., Phys Bio, 2005 Poupon. Curr p Struct Biol, 2004 Modélisation des protéines par des diagrammes de Voronoï Si on considère un ensemble de sites E : V(p i ) est l'ensemble des points plus proche du site p i que de tous les autres sites

11 Mesures associées aux Voronoï Paramètres d apprentissage (84) Surface de l interface (1) nombre de résidus dans le cœur de l interface (1) Volume de voronoï de chaque type de résidus (20) Fréquence d apparition de chaque type de résidus (20) Fréquence des paires de résidus en contact (21 après regroupement) Distance de paires entre résidus (21 après regroupement)

12 Solutions étudiées pour évaluer les complexes protéines-protéines Écart quadratique moyen par rapport à une base connue Régression logistique SVM (Séparateurs à Vastes Marges) Algorithme évolutionnaire : RGER

13 RGER (RC based GEnetic learner) Sebag et al. ICDM 2003, Lucas et al. PKDD 2003, Azé et al. ICCI 04 Principe : Algorithme évolutionnaire optimisant une fonction pour atteindre un objectif fixé bjectif : ordonner les complexes par «intérêt» décroissant Fonctions étudiées :combinaisons non linéaires des attributs Critère d évaluation :Aire sous la courbe RC

14 RGER, fonctions étudiées Description des exemples exemple : (x,y) où y {-1,+1} et x = (x1 xd) (d= 84 mesures associées aux Voronoï) Combinaison linéaire des attributs d w i. x i i=1 Combinaison non linéaire des attributs d w i x i c i i=1

15 Critère d évaluation : courbe RC (Receiver perating Characteristics) AUC : Area Under the Curve Évaluation d un test : compromis entre % de vrais positifs % de faux positifs (1 - % de vrais négatifs) Critère plus fiable que la précision (Ling, Huang, Zhang, AI 03) Insensible à la distribution Indépendant des coûts d erreur % vrais positifs AUC = 0.5 % faux positifs

16 Comparaison de deux fonctions en cours d apprentissage A : B : Intérêt décroissant s 1 s 2 VP S 1 S 2 A VP = 1/8 VP = 4/8 B FP = 0 VP = 1/8 FP = 0 VP = 3/8 FP FP = 0 FP = 2/8

17 RGER, critère à optimiser Maximiser l aire sous la courbe RC minimiser la somme des rangs des ex. positifs Rangs (+, A) : Rangs (+, B) : A : B : Rangs (+,.) VP Intérêt décroissant FP

18 RGER : l algorithme évolutionnaire Initialisation Population : 20 Nb générations : Nb Générations sans évolution : 100 Évaluation Remplacement Meilleurs parmi Parents (20 fonctions non linéaires) 200 Enfants Stop? (AUC, iterations...) Mutation + Croisement Sélection de 20 individus en fonction du critère de qualité (AUC) Tirage aléatoire par roue biaisée (AUC) Fonction d intérêt

19 RGER, suite Moteur d optimisation Stratégies d évolution (utilisation d EvolC) Validation expérimentale 90% apprentissage, 10% test (10 CV) 21 exécutions indépendantes Intérêt d un exemple = intérêt médian

20 Évaluation : 10 Validation Croisée (10 CV) découpage aléatoire et stratifié données Test Apprentissage fold 1 fold 2 fold 3 fold 10 erreur 1 erreur 2 erreur 3 erreur erreur = erreur i i = 1

21 Mesure de l intérêt d un exemple RGER est basé sur une approche stochastique Chaque exécution fournit une hypothèse valide et a priori différente des autres Comment profiter au mieux de toutes ces exécutions? Les hypothèses sont agrégées bjectif : améliorer la qualité de la fonction d intérêt L intérêt d un complexe est égal à la valeur médiane des valeurs médianes des intérêts Chaque complexe peut donc avoir sa propre fonction d intérêt

22 Aggrégation des hypothèses : bagging Apprentissage f f 21 1 a a 21 1 f f 21 2 a 1 2 f a 21 2 f 21 3 a a f f (w 1 10,c 1 10 ), (w 2 10,c 2 10 ) (w 83 10,c ), (w 84 10,c ) 84 a= w i x i c i i=1 Test (x 1,x 2,,x 84 ) médiane a 3 1 a 8 2 a a 6 10 d a 1 3

23 Comparaison de RGER et d une fonction logistique 1 Frequency 0% vrais positifs AUC (fonction logistique) =0.85 % faux positifs AUC(RGER) =0.97 1

24 Évaluation : Performance en 10 CV Données : 79 exemples positifs pseudo-positifs 8400 exemples négatifs Écart quadratique moyen (AUC = 0.54) Régression logistique et SVM (AUC ~ 0.85) Phénomène trop complexe mais descripteurs pertinents Trop sensible au déséquilibre entre classes Trop sensible au faible nombre d exemples Apprentissage par cœur (pas assez d exemples et exemples trop disparates) RGER (AUC = 0.96) Peu sensible au nombre d exemples Basé sur l AUC : insensible au déséquilibre entre classes

25 Quelques résultats Participation à (CAPRI-2) Critical Assesment of PRedicted Interactions (décembre 2004, Gaeta, Italie) Post traitement des résultats d Alexandre Bonvain (HADDCK -Université Utrecht, Netherlands)

26 CAPRI-2 Cible 12 : Cohesin-Dockerin rang RGER : 8 rang DCK : % de résidus à l interface correctement prédits 35% de résidus à l interface

27 Augmentation du pourcentage de bons contacts prédits > 45 % Comparaison des résultats avec l état de l art Notre approche Aucune information biologique Informations purement structurales et systématique Approche usuelle Utilisation d informations biologique dans l algorithme de Docking Tri et sélection manuelle des meilleures solutions proposées par le Docking Meilleurs résultats mais comparaison difficile Test du modèle structural sur les conformations candidates engendrées par un algorithme de Docking exploitant au mieux les données biochimiques de la littérature

28 CAPRI-2 (Cible 11) (Programme de Docking exploitant les informations biochimiques : Haddock) rang 1 rangs 1, 3-5 et 7-10

29 Conclusion sur le travail réalisé Résultats encore préliminaires mais très satisfaisants Modèle obtenu plus efficace que le modèle énergétique de DCK Modèle purement structural efficace sur des complexes engendrés avec plus d informations Poursuite de la collaboration pour mettre en place une approche plus spécifique Intérêt réel des participants de CAPRI-2 Reste à faire Filtrer les conformations non intéressantes Nouvel algorithme de Docking intégrant le modèle obtenu

30 Perspectives pour les complexes protéineprotéine Piste pour l exploitation des descripteurs Exploitation des liens entre descripteurs Surface de l interface (1) nombre de résidus dans le cœur de l interface (1) Volume de voronoï de chaque type de résidus (20) Fréquence d apparition de chaque type de résidus (20) Fréquence des paires de résidus en contact (21 après regroupement) Distance de paires entre résidus (21 après regroupement) Changer de représentation (attribut-valeur -> relationnel) Plus de problème de «valeurs manquantes» (résidus absents) Meilleurs exploitation de la structure des complexes

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine.

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Anne Poupon Biologie et Bioinformatique des Systèmes de Signalisation INRA - Nouzilly France

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Evaluation d un test diagnostique - Concordance

Evaluation d un test diagnostique - Concordance Evaluation d un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr Plan 1 Introduction 2 Evaluation

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Analyse d un système de freinage récupératif d un véhicule électrique

Analyse d un système de freinage récupératif d un véhicule électrique Analyse d un système de freinage récupératif d un véhicule électrique Par Mohamed Amine Bey, Gabriel Georges, Pascal Jacq, Doha Hadouni, Roxane Duroux, Erwan Scornet, Encadré par Alexis Simonnet 1 Compréhension

Plus en détail

Étapes du développement et de l utilisation d un modèle de simulation

Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Formulation du problème Cueillette et analyse de données Conception

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Méthodes de test. Mihaela Sighireanu

Méthodes de test. Mihaela Sighireanu UFR d Informatique Paris 7, LIAFA, 175 rue Chevaleret, Bureau 6A7 http://www.liafa.jussieu.fr/ sighirea/cours/methtest/ Partie I 1 Propriétés 2 Un peu de génie logiciel de test 3 Eléments Problèmes Point

Plus en détail

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES ST50 - Projet de fin d études Matthieu Leromain - Génie Informatique Systèmes temps Réel, Embarqués et informatique Mobile - REM 1 Suiveur en entreprise

Plus en détail

Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année

Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année 1 / 20 Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année Cours : Jérôme Azé Université Paris-Sud LRI 2009-2010 2 / 20 Outline 1 Présentation de A q Algorithme Défauts

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce Année 2007-2008 Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce B. Monsuez Projet informatique «Voyageur de commerce» Résolution

Plus en détail

Analyse et modélisation de visages

Analyse et modélisation de visages Analyse et modélisation de visages Pascal Bourdon Laboratoire XLIM-SIC (UMR CNRS 7252) / Université de Poitiers pascal.bourdon@univ-poitiers.fr Analyse et modélisation de visages Plan Introduction Outils

Plus en détail

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé I. Réseau Artificiel de Neurones 1. Neurone 2. Type de réseaux Feedforward Couches successives Récurrents Boucles de rétroaction Exemples de choix pour la fonction : suivant une loi de probabilité Carte

Plus en détail

Soutenance de stage Laboratoire des Signaux et Systèmes

Soutenance de stage Laboratoire des Signaux et Systèmes Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud

Plus en détail

Plan. Contexte : SCM. Décision incertaine et logistique : Grille typologique

Plan. Contexte : SCM. Décision incertaine et logistique : Grille typologique Décision incertaine et logistique : Grille typologique Animateurs : S. Durieux, P. Genin, C. Thierry durieux@ifma.fr thierry@univ-tlse2.fr patrick.genin@supmeca.fr JD MACS 2009, Angers, 19-20 Novembre

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

1 Force brute. 2 Analyse. 3 Conception préliminaire. 4 Conception détaillée. 5 Développement. 6 Conclusion. Architecture des Systèmes d Information

1 Force brute. 2 Analyse. 3 Conception préliminaire. 4 Conception détaillée. 5 Développement. 6 Conclusion. Architecture des Systèmes d Information Plan Puissance 4 intelligent I3 Algorithmique Nicol Delestre 1 Force brute 2 Analyse 3 Conception préliminaire 4 Conception détaillée 5 Développement 6 Conclusion Puissance 4. v2.0 1 / 29 Puissance 4.

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Analyse de données électroniques et intelligence d affaires

Analyse de données électroniques et intelligence d affaires Analyse de données électroniques et intelligence d affaires Valoriser les données internes et externes 3 avril 2014 Ordre du jour UNE INTRODUCTION À L ANALYSE DE DONNÉES Analyse de données et l intelligence

Plus en détail

Générateur de Nombres Aléatoires

Générateur de Nombres Aléatoires Générateur de Nombres Aléatoires Les générateurs de nombres aléatoires sont des dispositifs capables de produire une séquence de nombres dont on ne peut pas tirer facilement des propriétés déterministes.

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence

Plus en détail

CONCLUSIONS. Par rapport aux résultats obtenus, on peut conclure les idées suivantes :

CONCLUSIONS. Par rapport aux résultats obtenus, on peut conclure les idées suivantes : CONCLUSIONS L application de la PNL à l entreprise est confrontée aux besoins des leaders d équipe, tels que: la gestion de son propre développement, du stress, la résolution des problèmes tels que les

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Optimisation Combinatoire (Méthodes approchées) VI. Algorithmes à Population (Les bases)

Optimisation Combinatoire (Méthodes approchées) VI. Algorithmes à Population (Les bases) Optimisation Combinatoire (Méthodes approchées) VI. Algorithmes à Population (Les bases) Algorithmes à Population Idée principale 'Amélioration' d'un ensemble de solutions Recombiner des solutions Orienté

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 WEKA : c est quoi? Brigitte Bigi LPL - Équipe C3I 15 février 2011 Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 Introduction 1 Introduction 2 Classification supervisée 3 WEKA

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Rapport de Projet Informatique Simulation Monte-Carlo du modèle XY

Rapport de Projet Informatique Simulation Monte-Carlo du modèle XY Rapport de Projet Informatique Simulation Monte-Carlo du modèle XY Alejandro Daniel Paredes Cabrel sous la direction de : Xavier Leoncini Centre de Physique Théorique de Marseille Fevrier- 29 Objectif

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Evaluation des procédures diagnostiques. Objectifs pédagogiques. Faculté de Médecine Montpellier-Nîmes. Evaluation des procédures diagnostiques

Evaluation des procédures diagnostiques. Objectifs pédagogiques. Faculté de Médecine Montpellier-Nîmes. Evaluation des procédures diagnostiques Evaluation des procédures diagnostiques Objectifs pédagogiques Evaluer un signe, un examen, une décision médicale en calculant leur sensibilité et leur spécificité, leurs valeurs prédictives positives

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Facteurs liés au rendement des élèves au Test de mathématiques, 9 e année, de l OQRE

Facteurs liés au rendement des élèves au Test de mathématiques, 9 e année, de l OQRE n Quelles sont les différences et les similarités, d après certaines caractéristiques du milieu familial et les réponses au questionnaire, entre les élèves de 9 e année inscrits au cours théorique et au

Plus en détail

Entraînement au concours ACM-ICPC

Entraînement au concours ACM-ICPC Entraînement au concours ACM-ICPC Concours ACM-ICPC : format et stratégies Page 1 / 16 Plan Présentation Stratégies de base Page 2 / 16 Qu est-ce que c est? ACM-ICPC : International Collegiate Programming

Plus en détail

Journée Rencontres Académiques SCS

Journée Rencontres Académiques SCS Journée Rencontres Académiques SCS 24/01/2012 Prof. Frédéric Precioso Knowledge Extraction, Integration & Algorithms (KEIA) http://keia.i3s.unice.fr/ 2 /35 Permanents Célia Pereira da Costa, Christel Dartigues,

Plus en détail

Comparaison de services de téléphonie cellulaire

Comparaison de services de téléphonie cellulaire Comparaison de services de téléphonie cellulaire Résultat d apprentissage Description Mathématiques 10C, Relations et Fonctions, n o 1 Interpréter et expliquer les relations parmi des données, des graphiques

Plus en détail

Chapitre 1. L algorithme génétique

Chapitre 1. L algorithme génétique Chapitre 1 L algorithme génétique L algorithme génétique (AG) est un algorithme de recherche basé sur les mécanismes de la sélection naturelle et de la génétique. Il combine une stratégie de survie des

Plus en détail

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7 Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques Elec 2311 : S7 1 Plan du cours Qu est-ce l optimisation? Comment l optimisation s intègre dans la conception?

Plus en détail

FACULTE DE MEDECINE D ANGERS. Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant

FACULTE DE MEDECINE D ANGERS. Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant FACULTE DE MEDECINE D ANGERS Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant Année scolaire 2007-2008 SANTE PUBLIQUE ET MEDECINE SOCIALE Responsable

Plus en détail

Optimisation de requêtes. I3009 Licence d informatique 2015/2016. Traitement des requêtes

Optimisation de requêtes. I3009 Licence d informatique 2015/2016. Traitement des requêtes Optimisation de requêtes I3009 Licence d informatique 2015/2016 Cours 5 - Optimisation de requêtes Stéphane.Gançarski Stephane.Gancarski@lip6.fr Traitement et exécution de requêtes Implémentation des opérateurs

Plus en détail

Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique

Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique Jean Gaudart Laboratoire d Enseignement et de Recherche sur le Traitement de l Information Médicale jean.gaudart@univmed.fr

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

Comment choisir sa pizza? Test A/B. Comment choisir sa pizza? Comment choisir sa pizza? Difficulté de l évaluation. De manière plus sérieuse...

Comment choisir sa pizza? Test A/B. Comment choisir sa pizza? Comment choisir sa pizza? Difficulté de l évaluation. De manière plus sérieuse... Comment choisir sa pizza? Test A/B Introduction à l apprentissage par renforcement Guillaume Wisniewski guillaume.wisniewski@limsi.fr Université Paris Sud LIMSI J aime beaucoup les «4 Est-ce que je dois

Plus en détail

Prédiction de la Structure des Protéines. touzet@lifl.fr

Prédiction de la Structure des Protéines. touzet@lifl.fr Prédiction de la Structure des Protéines Hélène TOUZET touzet@lifl.fr Structure Structure Structure Structure primaire secondaire tertiaire quaternaire Exemple : la structure secondaire de la transthyretine

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Approche hybride De la correction des erreurs à la sélection de variables

Approche hybride De la correction des erreurs à la sélection de variables Approche hybride De la correction des erreurs à la sélection de variables G.M. Saulnier 1, W. Castaing 2 1 Laboratoire EDYTEM (UMR 5204, CNRS, Université de Savoie) 2 TENEVIA (http://www.tenevia.com) Projet

Plus en détail

Reconstruction et Animation de Visage. Charlotte Ghys 15/06/07

Reconstruction et Animation de Visage. Charlotte Ghys 15/06/07 Reconstruction et Animation de Visage Charlotte Ghys 15/06/07 1 3ème année de thèse Contexte Thèse CIFRE financée par Orange/France Telecom R&D et supervisée par Nikos Paragios (Ecole Centrale Paris) et

Plus en détail

Apprentissage par renforcement (1a/3)

Apprentissage par renforcement (1a/3) Apprentissage par renforcement (1a/3) Bruno Bouzy 23 septembre 2014 Ce document est le chapitre «Apprentissage par renforcement» du cours d apprentissage automatique donné aux étudiants de Master MI, parcours

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Livraison de colis pour des clients du e-commerce : modèles de Wardrop, et Logit simple ou imbriqué

Livraison de colis pour des clients du e-commerce : modèles de Wardrop, et Logit simple ou imbriqué Séminaire du LGI Centrale Paris Livraison de colis pour des clients du e-commerce : modèles de Wardrop, et Logit simple ou imbriqué Y. Hayel 1, D. Quadri 2, T. Jimenez 1, L. Brotcorne 3, B. Tousni 3 LGI,

Plus en détail

Session B2: Assurance

Session B2: Assurance 33 èmes Journées des Économistes de la Santé Français 1 er et 2 décembre 2011 Session B2: Assurance Auteurs: Sophie Guthmuller et Jérôme Wittwer, Université Paris-Dauphine Référé: Aurore Pélissier, CERDI,

Plus en détail

DataHighDim. ACI «Masse de Données» - 2003. Analyse exploratoire et discriminante de données en grande dimension

DataHighDim. ACI «Masse de Données» - 2003. Analyse exploratoire et discriminante de données en grande dimension ACI «Masse de Données» - 2003 DataHighDim Analyse exploratoire et discriminante de données en grande dimension Anne Guérin-Dugué Laboratoire CLIPS Grenoble UJF, CNRS UMR 5524 Communication Langagière et

Plus en détail

Sébastien Mignot. Encadrant : Michèle Sebag Laboratoire de Recherche en Informatique Université Paris Sud

Sébastien Mignot. Encadrant : Michèle Sebag Laboratoire de Recherche en Informatique Université Paris Sud Stratégies de décision dans les arbres de recherche pour jeux basées sur des informations incomplètes Application au bridge : Apprentissage statistique des enchères et jeu de la carte optimal Sébastien

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

Simulation Examen de Statistique Approfondie II **Corrigé **

Simulation Examen de Statistique Approfondie II **Corrigé ** Simulation Examen de Statistique Approfondie II **Corrigé ** Ces quatre exercices sont issus du livre d exercices de François Husson et de Jérôme Pagès intitulé Statistiques générales pour utilisateurs,

Plus en détail

Optimisation en nombres entiers

Optimisation en nombres entiers Optimisation en nombres entiers p. 1/83 Optimisation en nombres entiers Michel Bierlaire michel.bierlaire@epfl.ch EPFL - Laboratoire Transport et Mobilité - ENAC Optimisation en nombres entiers p. 2/83

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Chapitre 2: Prévisions des ventes

Chapitre 2: Prévisions des ventes Chapitre 2: Prévisions des ventes AVIS IMPORTANT : Ces notes sont basées sur le livre de Steven Nahmias : Production et Operations Analysis, 4 ième édition, McGraw-Hill Irwin 200. Les figures sont issues

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

Comparaison de capteurs à effet Hall à verrouillage bipolaire avec et sans stabilisation par hacheur

Comparaison de capteurs à effet Hall à verrouillage bipolaire avec et sans stabilisation par hacheur Comparaison de capteurs à effet Hall à verrouillage bipolaire avec et sans stabilisation par hacheur Des résultats d essai montrent qu il est possible d obtenir des performances notablement plus élevées

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Graphes, réseaux et internet

Graphes, réseaux et internet Graphes, réseaux et internet Clémence Magnien clemence.magnien@lip6.fr LIP6 CNRS et Université Pierre et Marie Curie (UPMC Paris 6) avec Matthieu Latapy, Frédéric Ouédraogo, Guillaume Valadon, Assia Hamzaoui,...

Plus en détail

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs

Plus en détail

Méthodes de la Recherche Opérationnelle pour l analyse de données

Méthodes de la Recherche Opérationnelle pour l analyse de données Méthodes de la Recherche Opérationnelle pour l analyse de données Julien Darlay G-SCOP 27 janvier 2011 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 1 / 20 Plan Analyse

Plus en détail

Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012

Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012 Extraction et analyse des mesures haut-débit pour l identification de biomarqueurs : problèmes méthodologiques liés à la dimension et solutions envisagées EA 2415 Epidémiologie, Biostatistique et Santé

Plus en détail

Formation Actuaire Data-Scientist PROGRAMME

Formation Actuaire Data-Scientist PROGRAMME Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 Programme Séance inaugurale : révolu-on numérique besoins des entreprises cadre

Plus en détail

Plan du cours. Métaheuristiques pour l optimisation combinatoire. Quelques problèmes classiques (2/3) Quelques problèmes classiques (1/3)

Plan du cours. Métaheuristiques pour l optimisation combinatoire. Quelques problèmes classiques (2/3) Quelques problèmes classiques (1/3) Plan du cours Quelques problèmes classiques Quelques algorithmes classiques Métaheuristiques pour l optimisation combinatoire un peu de vocabulaire codage des solutions taxinomie méthodes complètes méthodes

Plus en détail

Poker. A rendre pour le 25 avril

Poker. A rendre pour le 25 avril Poker A rendre pour le 25 avril 0 Avant propos 0.1 Notation Les parties sans * sont obligatoires (ne rendez pas un projet qui ne contient pas toutes les fonctions sans *). Celles avec (*) sont moins faciles

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Introduction à Rcommander

Introduction à Rcommander Introduction à Rcommander Pauline Scherdel Septembre 2014 Table des matières 1 Introduction à Rcmdr sous R 2 2 Interagir avec R 3 3 Installer et charger le package Rcmdr sous R 3 4 Importation des données

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Apprentissage statistique Stratégie du Data-Mining

Apprentissage statistique Stratégie du Data-Mining Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique

Plus en détail

GIND5439 Systèmes Intelligents. Septembre 2004

GIND5439 Systèmes Intelligents. Septembre 2004 GIND5439 Systèmes Intelligents Septembre 2004 Contenu du cours Introduction aux systèmes experts Intelligence artificielle Représentation des connaissances Acquisition de connaissances Systèmes à base

Plus en détail

Génération aléatoire de structures ordonnées

Génération aléatoire de structures ordonnées Génération aléatoire de structures ordonnées Olivier Roussel Équipe APR Laboratoire d Informatique de Paris 6 Université Pierre et Marie Curie ALÉA 2011 7 mars 2011 Olivier Roussel (LIP6) Génération de

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail