Initiation à la fouille de données et à l apprentissage automatiq



Documents pareils
Introduction au Data-Mining

Introduction au Data-Mining

Introduction au datamining

Pourquoi l apprentissage?

L apprentissage automatique

La classification automatique de données quantitatives

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Analyse de grandes bases de données en santé

Cognit Ive Cas d utilisation

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Publications, ressources, liens, logiciels,

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Spécificités, Applications et Outils

Statistiques et traitement des données

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Lois de probabilité. Anita Burgun

Coup de Projecteur sur les Réseaux de Neurones

INTRODUCTION AU DATA MINING

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

données en connaissance et en actions?

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Laboratoire 4 Développement d un système intelligent

Apprentissage Automatique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Marquage CE Mode d emploi SOMMAIRE : I. Les produits concernés

Algorithmes d'apprentissage

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Méthodes d apprentissage statistique «Machine Learning»

Identification de nouveaux membres dans des familles d'interleukines

Introduction à la B.I. Avec SQL Server 2008

Le Master Mathématiques et Applications

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

MABioVis. Bio-informatique et la

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à la Fouille de Données (Data Mining) (8)

Lecture critique et pratique de la médecine

Data Mining. Master 1 Informatique - Mathématiques UAG

LA GMAO ACCEDER : EXPLOITATION POUR L ENSEIGNEMENT

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

Big Data et Graphes : Quelques pistes de recherche

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Évaluation et implémentation des langages

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

L expertise développée par Market-IP et ses solutions télématiques vous permettront d atteindre

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Guide de rédaction d un protocole de recherche clinique à. l intention des chercheurs évoluant en recherche fondamentale

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

STAGE CONDUITE ACCOMPAGNEE FORMATION CONDUITE ACCOMPAGNEE

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Le cinquième chapitre

Améliorer les performances du site par l'utilisation de techniques de Web Mining

William Pezet

Principe de symétrisation pour la construction d un test adaptatif

Travaux pratiques avec RapidMiner

OpenScribe L ECM Sagem. Pour maîtriser simplement tous les flux d informations

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

Vers une Optimisation de l Algorithme AntTreeStoch

ECTS CM TD TP. 1er semestre (S3)

Enjeux mathématiques et Statistiques du Big Data

Filière MMIS. Modélisation Mathématique, Images et Simulation. Responsables : Stefanie Hahmann, Valérie Perrier, Zoltan Szigeti

CYBER-BASE M. E. F. I 2 RIVES. Programme des Ateliers

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

Fast and furious decision tree induction

Synthèse «Le Plus Grand Produit»

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ

Master Métiers de l enseignement scolaire. Mémoire professionnel de deuxième année UTILISER ET COMPRENDRE L ORDINATEUR EN MÊME TEMPS :

Poker. A rendre pour le 25 avril

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Système à enseigner : Robot M.I.M.I. MultipodeIntelligent à Mobilité Interactive. Version 1.0

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

Didier MOUNIEN Samantha MOINEAUX

Service On Line : Gestion des Incidents

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Votre candidature, en français ou en anglais, doit être soumise via ce formulaire et envoyée par mail en version word ou pdf à :

TEXT MINING von 7

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Transcription:

Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/ magnan 1 Extrait du cours de François Denis

Plan du cours 1 Informations générales 2 3

Plan 1 Informations générales 2 3

Organisation du cours 8 séances de 3 heures (Lundi 14h-17h) 4 séances de cours, 4 séances de TP Deux objectifs ; Bases de l apprentissage automatique Manipulation du logiciel SAS Enterprise Miner 1 examen écrit (12), 1 projet sur machine (8)

Informations et documents Infos sur le planning Documents Fichiers de données pour les TP www.lif.univ-mrs.fr/ magnan Section enseignement 2007/2008 Data Mining

Informations et documents

Plan 1 Informations générales 2 3

Schéma général

Définitions «L extraction de connaissances à partir de données (Data Mining) est un processus non trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de données»

Définitions L apprentissage automatique (Machine Learning) : le «moteur» de la fouille de données tirer des règles générales à partir d observations particulières aussi appelé apprentissage à partir d exemples un des domaines d étude de l intelligence artificielle discipline très vaste très «à la mode»

Premier exemple Vous arrivez sur une île inconnue, vous apercevez un mouton noir. Quelles conclusions en tirer? Il y a un mouton noir sur cette île (fait) Il y a un et un seul mouton noir sur l île (overfitting, apprentissage par coeur) Certains moutons sont noirs sur l île Tous les moutons sont noirs sur l île (surgénéralisation)

Définitions «L apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine (au sens large) d évoluer grâce à un processus d apprentissage, et ainsi de remplir des tâches qu il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques.»(wikipedia)

Apprentissage à partir d exemples Plusieurs catégories Une similarité : apprendre à classer des données de X dans un ensemble Y à partir d exemples

Régression Y est continu (ex : réels) : Prévision de la température, de la pression atmosphérique ou de la vitesse du vent en fonction de divers paramètres. Associer à un mail la probabilité que ce mail soit un SPAM. Prédire le temps restant à vivre à un malade en fonction d informations sur le patient et sur la maladie. etc... le terme régression vient du statisticien Galton

Classification Y est discret : Diagnostic médical Reconnaissance de caractères, de chiffres, de visages Filtrer les spams Fonction d une protéine Décision de l accord d un prêt bancaire etc... on distingue deux types de classification : supervisée et non supervisée

Classification non supervisée Y est discret et inconnu, on parle aussi de clustering : Etablir des profils de clients, d utilisateurs de transports, de spectateurs,... Distinguer des catégories de news séparer des individus selon leurs caractéristiques en lots homogènes cours de Master 1 de M.C. Roubaud (hiérarchie, cluster)

Classification supervisée Y est discret et connu : Mail : régulier ou spam Demandeur de prêt bancaire : à risque ou fiable Image numérisée d un caractère : quel caractère? Champignon : comestibles ou vénéneux etc... cours de cette année

Domaines d application de l apprentissage commercial, biologie, medecine, industrie pharmaceutique, finance, bourse, banque, web, sondage, diagnostic, analyse de texte, reconnaissance de formes, de sons, d images, prise de décision, traitement de signaux, détection de pannes, prévision (météo), analyse de documents, de mails, d articles, différencier des catégories, sciences cognitives, géographie, gestion, etc...

L apprentissage? Vous connaissez très bien... Nombreux domaines et applications de la vie courante Vous le cotoyez quotidiennement Quelques exemples?

Radars automatiques... Reconnaissance de la plaque puis des caractères sur la photo prise par le radar (par Sagem)

Tri automatique du courrier Reconnaissance automatique du code postal manuscrit

Google News

Google News

Google News : par thème (France) et par sujet

Amazon (et autres)

Amazon (et autres)

Ouvrages de référence Apprentissage artificiel par Antoine Cornuéjols et Laurent Miclet. Complet et pédagogique (et un des seuls en français!). Machine Learning de Tom Mitchell. Référence classique. The Elements of Statistical Learning par Hastie, Tibshirani, et Friedman. Excellente référence.

Plan 1 Informations générales 2 3

Point de départ : données classées S = {(x 1, y 1 ),..., (x l, y l )} observé i {1,..., l}, x i X, avec X un espace de description i {1,..., l}, y i Y, avec Y un ensemble de classes Exemple : X = mails, Y = régulier, spam Exemple : X = caractéristiques de patients, Y = maladies Exemple : X = contenu de pages web, Y = commercial, privé Exemple : X = articles scientifiques, Y = disciplines etc...

Espace de description Un ensemble de description X = X 1... X n où chaque X i est le domaine (ensemble des valeurs possibles) d un attribut symbolique, numérique ou structuré. les exemples sont décrits par des éléments de X exemple champignon : taille, couleur, odeur, etc... x = (x 1,..., x n ) X, x i X i et c est la valeur de la description (attribut) i de x Choix des attributs et choix de la représentation des descriptions primordial

Exemple : patient X = {X 1, X 2 } avec X 1 = { Température } X 2 = { Gorge irritée, Gorge non irritée } X = {X 1, X 2 } avec X 1 = { Basse, Normale, Haute } X 2 = { Gorge irritée, Gorge non irritée } X = {X 1, X 2, X 3 } avec X 1 = { Température } X 2 = { Gorge irritée, Gorge non irritée } X 3 = { âge } etc...

de la classification supervisée Un ensemble fini de classes Y Exemple patient : malade, sain Une variable aléatoire Z = (X, Y ) à valeurs dans X Y Les exemples d apprentissage de S sont des couples (x, y) X Y tirés selon la distribution jointe P(Z = (x, y)) = P(X = x)p(y = y X = x). Un échantillon S est un ensemble fini d exemples {(x 1, y 1 ),..., (x l, y l )} i.i.d. selon P.

de la classification supervisée Objectif : à partir de l échantillon S, construire (calculer) une fonction f : X Y, appelée classifieur, qui approche au mieux la relation existante entre les descriptions de X et les classes de Y Contrainte : la relation entre X et Y est fixe mais inconnue, on ne dispose que de l échantillon S comme information partielle sur cette relation f doit posséder de bonnes capacités de généralisation.

de la classification supervisée (suite) Classifieur : f : X Y. Fonction de perte (loss function) { 0 si y = f (x) L(y, f (x)) = 1 sinon. La fonction risque (ou erreur) : espérance mathématique de la fonction de perte. R(f ) = L(y, f (x))dp(x, y) = dp(x, y) = P(y f (x)). y f (x) Le problème général de la classification supervisée : étant donné un échantillon S = {(x 1, y 1 ),..., (x l, y l )}, trouver un classifieur f qui minimise le risque R(f ).

Mais... étant donné un échantillon S = {(x 1, y 1 ),..., (x l, y l )}, trouver un classifieur f qui minimise le risque R(f ). Contrainte : dans la plupart des cas, le risque n est pas calculable car on ne dispose pas d assez d information sur la distribution P sur X Y

de la classification supervisée (suite) X : domaine des descriptions Y : ensemble des classes étiquetage p(x) distribution inconnue x non déterministe y z p(y x) S = {(x 1, y 1 ),..., (x l, y l )} tiré selon p(x, y) = p(x)p(y x) Objectif : trouver f : X Y dont l erreur R(f) = P (y f(x)) soit la plus petite possible.

Remarques 1 Le modèle est non déterministe : le problème cible peut être réellement non déterministe ; le problème peut être bruité ; l espace de descriptions peut ne décrire qu incomplètement une situation complexe. 2 Le problème est non déterministe mais on en cherche une solution déterministe. 3 Le modèle est non paramétrique : aucun modèle spécifique de génération de données n est présupposé ; aucune contrainte sur l ensemble des fonctions que l on doit considérer ni sur le type de dépendances entre fonctions et paramètres. 4 D autres fonctions de pertes peuvent être considérées. En particulier, on peut envisager des coûts différents selon les erreurs commises.