Fouille des données Introduction



Documents pareils
La classification automatique de données quantitatives

L exclusion mutuelle distribuée

Introduction au Data-Mining

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Evalua&on tests diagnos&ques. Arnaud Fontanet

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

données en connaissance et en actions?

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La fraude à la carte bancaire

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Bases de données documentaires et distribuées Cours NFE04

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

M06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Big Data et Graphes : Quelques pistes de recherche

L apprentissage automatique

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Big Data et Graphes : Quelques pistes de recherche

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Probabilités sur un univers fini

Laboratoire 4 Développement d un système intelligent

Projet de Traitement du Signal Segmentation d images SAR

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Transmission d informations sur le réseau électrique

Business Intelligence avec Excel, Power BI et Office 365

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Les modes de recherche sur le Web 2.0

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Apps Sage : les 10 étapes pour publier vos données dans le Cloud.

Apprentissage Automatique

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars Mr E.

Agenda de la présentation

Hervé Couturier EVP, SAP Technology Development

Introduction au Data-Mining

ENJEUX NUMÉRIQUES AUTOUR DU COMPTE PERSONNEL D ACTIVITÉ

Le Cloud au LIG? Pierre Neyron PimLIG

Application de K-means à la définition du nombre de VM optimal dans un cloud

AP 2nde G.T : «Organiser l information de manière visuelle et créative»

D où que vous soyez, accédez à la gestion de votre entreprise

PROJET DE DIPLÔME HACKING & DESIGN

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

CLINIMIX AVIS DE LA COMMISSION DE LA TRANSPARENCE

Votre Infrastructure est-elle? Business Intelligence. Améliorer la capacité d analyse et de décision de vos équipes

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

UltraBackup NetStation 4. Guide de démarrage rapide

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Visualisation en Fouille de Données

FRANCAIS ENGLISH DEUTSCH ITALIANO ESPANOL NEDERLANDS PORTUGUESES MANUEL UTILISATEUR USER S GUIDE BENUTZERHANDBUCH GUIDA PER L UTENTE GUIA DEL USUARIO

Travailler avec les télécommunications

Les technologies du Big Data

Groupe Eyrolles, 2003, ISBN : X

Algorithmes d'apprentissage

7. ECONOMIE 7.1. TRAVAIL DE BUREAU ENCODEUR / ENCODEUSE DE DONNEES

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Qu est-ce qu une probabilité?

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

URECA Initiation Matlab 2 Laurent Ott. Initiation Matlab 2

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Outils pour les réseaux de neurones et contenu du CD-Rom

Enterprise Scrum Organisation des développements chez exo. Agile Tour Rennes 2010 / 10 / 07

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Présentation BAI -CITC

Évaluation d une architecture de stockage RDF distribuée

Le bilan neuropsychologique du trouble de l attention. Ania MIRET Montluçon le

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

2 Serveurs OLAP et introduction au Data Mining

AWS avancé. Surveiller votre utilisation d EC2

nom : Collège Ste Clotilde

BAREME sur 40 points. Informatique - session 2 - Master de psychologie 2006/2007

Système de contrôle du trafic d une ligne de métro Dossier de tests

LES DIFFERENTS TYPES DE MESURE

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Sillage Météo. Notion de sillage

2.4 Représentation graphique, tableau de Karnaugh

NON-LINEARITE ET RESEAUX NEURONAUX

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Scénario: Données bancaires et segmentation de clientèle

Business Intelligence

Introduction à La Fouille de Données. Khai thác dữ liệu. Cours N 2. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker

MABioVis. Bio-informatique et la

GUIDE PRATIQUE DE L INDEXEUR : LES PRINCIPES DE L INDEXATION COLLABORATIVE

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Transcription:

Fouille des données p. 1/? Fouille des données Introduction Maria Malek Filière TSI EISTI

Fouille des données p. 2/? Vous avez dit? Data Mining?

Fouille des données p. 2/? Vous avez dit? Data Mining? Découverte de connaissances à partir de données? un processus itératif par lequel on extrait des connaissances valides, nouvelles, potentiellement utiles et compréhensibles [Fayyad et al., 1995]

Fouille des données p. 2/? Vous avez dit? Data Mining? Découverte de connaissances à partir de données? un processus itératif par lequel on extrait des connaissances valides, nouvelles, potentiellement utiles et compréhensibles [Fayyad et al., 1995] "Comment faire parler les données? "

Fouille des données p. 3/? Autour du data mining : les domaines Apprentissage Automatique (ML) DM : suppose la pré-existence de très grands volumes de données Data mining.

Fouille des données p. 3/? Autour du data mining : les domaines Apprentissage Automatique (ML) DM : suppose la pré-existence de très grands volumes de données Data mining. Statistiques, Analyse des données Stat : but = vérification d hypothèses. DM : but = découverte de nouvelles connaissances.

Fouille des données p. 4/? Processus du Data Mining - 1 Analyse du problème d application.

Fouille des données p. 4/? Processus du Data Mining - 1 Analyse du problème d application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données.

Fouille des données p. 4/? Processus du Data Mining - 1 Analyse du problème d application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données. Pré-traitement des données

Fouille des données p. 4/? Processus du Data Mining - 1 Analyse du problème d application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données. Pré-traitement des données nettoyage bruit, valeurs manquantes, valeurs aberrantes,

Fouille des données p. 4/? Processus du Data Mining - 1 Analyse du problème d application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données. Pré-traitement des données nettoyage bruit, valeurs manquantes, valeurs aberrantes, réduction sélection des instances sélection, extraction, combinaison des variables,

Processus du Data Mining - 1 Analyse du problème d application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données. Pré-traitement des données nettoyage bruit, valeurs manquantes, valeurs aberrantes, réduction sélection des instances sélection, extraction, combinaison des variables, transformation discrétisation des variables continues, binarisation des variables nominales, ajout de nouvelles variables (induction constructive). Fouille des données p. 4/?

Processus du Data Mining - 1 Analyse du problème d application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données. Pré-traitement des données nettoyage bruit, valeurs manquantes, valeurs aberrantes, réduction sélection des instances sélection, extraction, combinaison des variables, transformation discrétisation des variables continues, binarisation des variables nominales, ajout de nouvelles variables (induction constructive). Fouille des données p. 4/?

Fouille des données p. 5/? Processus du Data Mining - 4 L apprentissage «data mining» une méthode d extraction de connaissances.

Fouille des données p. 5/? Processus du Data Mining - 4 L apprentissage «data mining» une méthode d extraction de connaissances. Evaluation et interprétation des résultats critères différents suivant la tâche.

Fouille des données p. 6/? Les données?? Une donnée est un enregistrement,un individu (statistique), une instance (orienté objet), un point, un vecteur.

Fouille des données p. 6/? Les données?? Une donnée est un enregistrement,un individu (statistique), une instance (orienté objet), un point, un vecteur. Un attribut peut être de nature qualitative ou quantitative, ou même un enregistrement (comme la date).

Fouille des données p. 6/? Les données?? Une donnée est un enregistrement,un individu (statistique), une instance (orienté objet), un point, un vecteur. Un attribut peut être de nature qualitative ou quantitative, ou même un enregistrement (comme la date). Structure de base : un exemple/cas/observation = vecteur de p attributs ou variables chaque attribut prend sa valeur dans un domaine donné.

Fouille des données p. 6/? Les données?? Une donnée est un enregistrement,un individu (statistique), une instance (orienté objet), un point, un vecteur. Un attribut peut être de nature qualitative ou quantitative, ou même un enregistrement (comme la date). Structure de base : un exemple/cas/observation = vecteur de p attributs ou variables chaque attribut prend sa valeur dans un domaine donné. Ensemble d attribut - valeur : Techniques de logique d ordre 0 ou propositionnelle.

Fouille des données p. 6/? Les données?? Une donnée est un enregistrement,un individu (statistique), une instance (orienté objet), un point, un vecteur. Un attribut peut être de nature qualitative ou quantitative, ou même un enregistrement (comme la date). Structure de base : un exemple/cas/observation = vecteur de p attributs ou variables chaque attribut prend sa valeur dans un domaine donné. Ensemble d attribut - valeur : Techniques de logique d ordre 0 ou propositionnelle. Attributs & relations : Apprentissage relationnel & programmation inductive logique (logique de prédicats).

Fouille des données p. 7/? Les données : exemple - 1 NUM CIEL TEMP. HUMI. VENT CLASSE 1 ensoleillé élevé forte non N 2 ensoleillé élevé forte oui N 3 couvert élevé forte non P 4 pluvieux moyenne forte non P 5 pluvieux basse normale non P 6 pluvieux basse normale oui N 7 couvert basse normale oui P Table 1: Description des conditions météorologiques

Fouille des données p. 8/? Les données : exemple - 2 NUM CIEL TEMP. HUMI. VENT CLASSE 8 ensoleillé moyenne forte non N 9 ensoleillé basse normale non P 10 pluvieux moyenne normale non P 11 ensoleillé moyenne normale oui P 12 couvert moyenne forte oui P 13 couvert élevé normale non P 14 pluvieux moyenne forte oui N Table 2: Description des conditions météorologiques

Fouille des données p. 9/? Nature des variables.. Indépendante & Dépendante

Fouille des données p. 9/? Nature des variables.. Indépendante & Dépendante Variable indépendante/explicative/prédictive : variable dont la valeur est obtenue par observation

Fouille des données p. 9/? Nature des variables.. Indépendante & Dépendante Variable indépendante/explicative/prédictive : variable dont la valeur est obtenue par observation Variable dépendante/réponse/cible : variable dont la valeur dépend d autres variables

Fouille des données p. 9/? Nature des variables.. Indépendante & Dépendante Variable indépendante/explicative/prédictive : variable dont la valeur est obtenue par observation Variable dépendante/réponse/cible : variable dont la valeur dépend d autres variables Apprentissage supervisé & non supervisé

Fouille des données p. 9/? Nature des variables.. Indépendante & Dépendante Variable indépendante/explicative/prédictive : variable dont la valeur est obtenue par observation Variable dépendante/réponse/cible : variable dont la valeur dépend d autres variables Apprentissage supervisé & non supervisé Apprentissage non supervisé : pas de variable cible ex. regroupement (clustering).

Fouille des données p. 9/? Nature des variables.. Indépendante & Dépendante Variable indépendante/explicative/prédictive : variable dont la valeur est obtenue par observation Variable dépendante/réponse/cible : variable dont la valeur dépend d autres variables Apprentissage supervisé & non supervisé Apprentissage non supervisé : pas de variable cible ex. regroupement (clustering). Apprentissage supervisé : une variable cible (valeur à prédire) ex. classification.

Fouille des données p. 10/? Résultat du processus Connaissances sont extraites sous forme d un :

Fouille des données p. 10/? Résultat du processus Connaissances sont extraites sous forme d un : modèle : un résumé global de l ensemble de données applicable sur n importe quelle instance appartenant à l espace des données ;

Fouille des données p. 10/? Résultat du processus Connaissances sont extraites sous forme d un : modèle : un résumé global de l ensemble de données applicable sur n importe quelle instance appartenant à l espace des données ; motif (pattern) : résumé local d une région de l espace des données ; exemple : une règle.

Fouille des données p. 11/? Applications du Data Mining Domaines supervisés :

Fouille des données p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire)

Fouille des données p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire) Classification : variable cible discrète Exemple : diagnostiquer une maladie, etc.

Fouille des données p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire) Classification : variable cible discrète Exemple : diagnostiquer une maladie, etc. Régression : variable cible continue Exemple : estimer la valeur d un bien, etc.

Fouille des données p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire) Classification : variable cible discrète Exemple : diagnostiquer une maladie, etc. Régression : variable cible continue Exemple : estimer la valeur d un bien, etc. Domaines non supervisés :

Fouille des données p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire) Classification : variable cible discrète Exemple : diagnostiquer une maladie, etc. Régression : variable cible continue Exemple : estimer la valeur d un bien, etc. Domaines non supervisés : Regroupement(clustering) Exemple : détecter le profil utilisateur,etc.

Fouille des données p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire) Classification : variable cible discrète Exemple : diagnostiquer une maladie, etc. Régression : variable cible continue Exemple : estimer la valeur d un bien, etc. Domaines non supervisés : Regroupement(clustering) Exemple : détecter le profil utilisateur,etc. Association Exemple analyser les logs utilisateurs d un serveur web, etc.

Fouille des données p. 12/? Tâches du Data Mining Prédiction : Classification, Régression, Association.

Fouille des données p. 12/? Tâches du Data Mining Prédiction : Classification, Régression, Association. Description Visualisation, Regroupement, Association.

Fouille des données p. 13/? Conception d un algorithme DM Structure de modèle/motif : la forme des connaissances à extraire des données : arbre de décision, réseau de neurones.

Fouille des données p. 13/? Conception d un algorithme DM Structure de modèle/motif : la forme des connaissances à extraire des données : arbre de décision, réseau de neurones. Fonction d évaluation : permet de mesurer la qualité d un modèle ; Exemple : classification: taux d exemples bien classés.

Fouille des données p. 13/? Conception d un algorithme DM Structure de modèle/motif : la forme des connaissances à extraire des données : arbre de décision, réseau de neurones. Fonction d évaluation : permet de mesurer la qualité d un modèle ; Exemple : classification: taux d exemples bien classés. Méthode de recherche : stratégie utilisée pour parcourir l espace d hypothèses et pour trouver celle qui optimise la fonction d évaluation.

Fouille des données p. 13/? Conception d un algorithme DM Structure de modèle/motif : la forme des connaissances à extraire des données : arbre de décision, réseau de neurones. Fonction d évaluation : permet de mesurer la qualité d un modèle ; Exemple : classification: taux d exemples bien classés. Méthode de recherche : stratégie utilisée pour parcourir l espace d hypothèses et pour trouver celle qui optimise la fonction d évaluation. Stratégie de gestion des données : la façon de stocker, d indexer et d accéder aux données.

Fouille des données p. 14/? Côté Pratique.. Etude de la problématique de la classification

Fouille des données p. 14/? Côté Pratique.. Etude de la problématique de la classification Comment valider un classifieur.

Fouille des données p. 14/? Côté Pratique.. Etude de la problématique de la classification Comment valider un classifieur. Etude de l algorithme k plus proche voisins.

Fouille des données p. 14/? Côté Pratique.. Etude de la problématique de la classification Comment valider un classifieur. Etude de l algorithme k plus proche voisins. Utilisation du logiciel Weka.

Fouille des données p. 15/? La classification Types de classeurs Construction d un modèle arborescent permettant de prédire la classe d une donnée. Estimation directe de la classe d une donnée en fonction des exemples. Construction d un modèle réglable par l humain (les réseaux de neurones, et les machines à vecteurs supports).

Fouille des données p. 16/? Validation d un classeur - 1 L erreur d un classeur Er est la probabilité que ce classeur ne prédise pas correctement la classe d une donnée.

Fouille des données p. 16/? Validation d un classeur - 1 L erreur d un classeur Er est la probabilité que ce classeur ne prédise pas correctement la classe d une donnée. Le taux de succès est 1 Er.

Fouille des données p. 16/? Validation d un classeur - 1 L erreur d un classeur Er est la probabilité que ce classeur ne prédise pas correctement la classe d une donnée. Le taux de succès est 1 Er. L erreur apparente Erapp est mesurée sur les exemples utilisés pour la construction du classeur.

Fouille des données p. 16/? Validation d un classeur - 1 L erreur d un classeur Er est la probabilité que ce classeur ne prédise pas correctement la classe d une donnée. Le taux de succès est 1 Er. L erreur apparente Erapp est mesurée sur les exemples utilisés pour la construction du classeur. Estimer la qualité d un classeur : L ensemble d apprentissage X app ; L ensemble de test X test qui permet d estimer l erreur de classification ; on connaît la classe de chaque exemple dans cet l ensemble.

Fouille des données p. 17/? Validation d un classeur - 2 Mesure de qualité d un classeur : cas de classification binaire :

Fouille des données p. 17/? Validation d un classeur - 2 Mesure de qualité d un classeur : cas de classification binaire : VP/VN : Le nombre de vrais positifs/négatifs : les exemples de classe positive/négative et dont la classe est prédite comme positive/négative.

Fouille des données p. 17/? Validation d un classeur - 2 Mesure de qualité d un classeur : cas de classification binaire : VP/VN : Le nombre de vrais positifs/négatifs : les exemples de classe positive/négative et dont la classe est prédite comme positive/négative. FP/FN : Les exemples de classe négative/positive et dont la classe est prédite comme positive/négative.

Fouille des données p. 17/? Validation d un classeur - 2 Mesure de qualité d un classeur : cas de classification binaire : VP/VN : Le nombre de vrais positifs/négatifs : les exemples de classe positive/négative et dont la classe est prédite comme positive/négative. FP/FN : Les exemples de classe négative/positive et dont la classe est prédite comme positive/négative. Construction de la matrice de confusion.. + - + VP FN - FP VN

Fouille des données p. 18/? Validation d un classeur - 3 Mesure de qualité d un classeur : cas de classification binaire :

Fouille des données p. 18/? Validation d un classeur - 3 Mesure de qualité d un classeur : cas de classification binaire : On définit dans la suite quatre mesures : La précision pour les positifs et les négatifs : V N V N+FN ; le rappel sur les positifs et les négatifs V P : V P+FN, : V N V N+FP. V P V P+FP, La précision mesure la proportion des exemples vraiment positifs parmi ceux qui étaient classés positifs. Le rappel mesure la proportion des exemples positifs trouvés parmi tous les exemples positifs.

Fouille des données p. 18/? Validation d un classeur - 3 Mesure de qualité d un classeur : cas de classification binaire : On définit dans la suite quatre mesures : La précision pour les positifs et les négatifs : V N V N+FN ; le rappel sur les positifs et les négatifs V P : V P+FN, : V N V N+FP. V P V P+FP, La précision mesure la proportion des exemples vraiment positifs parmi ceux qui étaient classés positifs. Le rappel mesure la proportion des exemples positifs trouvés parmi tous les exemples positifs.

Fouille des données p. 18/? Validation d un classeur - 3 Mesure de qualité d un classeur : cas de classification binaire : On définit dans la suite quatre mesures : La précision pour les positifs et les négatifs : V N V N+FN ; le rappel sur les positifs et les négatifs V P : V P+FN, : V N V N+FP. V P V P+FP, La précision mesure la proportion des exemples vraiment positifs parmi ceux qui étaient classés positifs. Le rappel mesure la proportion des exemples positifs trouvés parmi tous les exemples positifs.

Fouille des données p. 19/? Validation d un classeur - 4 Technique : validation croisée : Découper l ensemble d exemples en n sous ensembles disjoints. Chaque classe doit apparaître avec les même fréquence dans les n ensembles. Soit A,B,C une division en trois sous ensemble, Le classifieur construit à partir de A B est appelé AD A B, L erreur de généralisation calculée sur C est appelé Er c. Le taux d erreur est alors estimée par Er = Er A+Er B +Er c 3

Fouille des données p. 19/? Validation d un classeur - 4 Technique : validation croisée : Découper l ensemble d exemples en n sous ensembles disjoints. Chaque classe doit apparaître avec les même fréquence dans les n ensembles. Soit A,B,C une division en trois sous ensemble, Le classifieur construit à partir de A B est appelé AD A B, L erreur de généralisation calculée sur C est appelé Er c. Le taux d erreur est alors estimée par Er = Er A+Er B +Er c 3

Fouille des données p. 20/? Validation d un classeur - 5 Méthode Bootstrap : Un ensemble E : nous construisons l ensemble d apprentissage X app. Les exemples qui restent constituent l ensemble X test. on effectue N tirages aléatoires a partir de E avec remise. La probabilité qu un exemple x ne soit jamais tiré est égal à (1 1 N )N, N > +,e 1 = 0.368 X app = 63.2, X gn = 36.8 E = 0.368 E app + 0.632 E test