Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière



Documents pareils
Pourquoi l apprentissage?

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

INF6304 Interfaces Intelligentes

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

L apprentissage automatique

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

Apprentissage Automatique

Algorithmes d'apprentissage

Travaux pratiques avec RapidMiner

Introduction au Data-Mining

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Logiciel EV3 LEGO MINDSTORMS Education

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Mise en sécurité. Choisissez votre système de mise en sécurité. Qu'est-ce qu'un système de mise en securité? Catégorie d'un SMSI

Introduction : Essais de phase I

Système immunitaire artificiel

INSTRUCTION INTERMINISTÉRIELLE SUR LA SIGNALISATION ROUTIÈRE du 22 octobre 1963

Technologie SDS (Software-Defined Storage) de DataCore

TESTS D'HYPOTHESES Etude d'un exemple

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

2. Activités et Modèles de développement en Génie Logiciel

SQL Server Database Engine : Part1. Modes de récupération / Sauvegardes / Checkpoint

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Agrégation des portefeuilles de contrats d assurance vie

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Portes coupe-feu Exigences, classification et désignation

Métrologie réseaux GABI LYDIA GORGO GAEL

VIPE CNAM 6 mars Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

Modélisation du comportement habituel de la personne en smarthome

Agrégation de liens xdsl sur un réseau radio

DESCRIPTION DES PRODUITS ET MÉTRIQUES

Master Informatique Aix-Marseille Université

Etude expérimentale et numérique de la Sédimentation/Consolidation de sols à très forte teneur en eau

La réglementation et les obligations qui en découlent

Architecture des Systèmes d Information Architecture des Systèmes d Information

Ebauche Rapport finale

Apprentissage. Intelligence Artificielle NFP106 Année Plan. Apprentissage. Apprentissage

Introduction au Data-Mining

Modèles transport-urbanisme Fiches synthétiques SIMBAD. Modèle de dynamique urbaine désagrégé

IFT3245. Simulation et modèles

Stockage des Marchandises Dangereuses 1 Jour Transport Route 2 jours

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Introduction au datamining

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Les algorithmes de fouille de données

DETECTEUR DE FUITES PORTATIF Méthode H2

Modèles et algorithmes pour le conseil et la gestion des préférences en configuration de produit

Proposition année universitaire-informatique ( )

Améliorer la Performance des Fournisseurs

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Page 2 Routes départementales - département de LA CREUSE - Elaboration des cartes de bruit stratégiques

RENOVER LES FEUX TRICOLORES

Analyse,, Conception des Systèmes Informatiques

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Détection des deux roues motorisés par télémétrie laser à balayage

Laboratoire 4 Développement d un système intelligent

Chapitre 5 : Flot maximal dans un graphe

Quantification des Risques

MEMOIRE. Présenté par. Pour obtenir DIPLOME. Intitulé : B. Beldjilalii. B. Atmani. Encadreur : F. Barigou. S. Nait Bahloul. M.

données en connaissance et en actions?

Structurer ses données : les tableaux. Introduction à la programmation

Sommaire. Introduction Définition Historique Domaine d application.2. 4.Les Travaux réalisés sur les domaines d application.

Edmond Cissé. URÆUS Consult Ingénierie & Sécurité des Données edcisse@uraeus-consult.com

Guide de démarrage Janvier 2012

Contenu disciplinaire (CK)

Bases de Données. Plan

Comprendre le trafic routier

Filière MMIS. Modélisation Mathématique, Images et Simulation. Responsables : Stefanie Hahmann, Valérie Perrier, Zoltan Szigeti

Compte-rendu intermédiaire T0+6. Projet ANR-11-BS BR4CP. Programme Blanc 2011

Travaux de marquage. Novembre 2008

Formation continue. Ensae-Ensai Formation Continue (Cepe)

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Parlez-vous chinois? Allumer l appareil. Commencer. Le premier écran de l application

Formation des formateurs en entreprise

Théorie des Jeux Et ses Applications

Sélection de Caractéristiques pour le Filtrage de Spams

Les tableaux croisés dynamiques

Poker. A rendre pour le 25 avril

MATHS FINANCIERES. Projet OMEGA

Big Data et Graphes : Quelques pistes de recherche

Rapport d'analyse des besoins

Prédiction de couverture de champ radioélectrique pour les réseaux radiomobiles : L apport du Système d Information Géographique ArcInfo 8

Que fait SAS Enterprise Miner?

Big Data et Graphes : Quelques pistes de recherche

Industrie des cartes de paiement (PCI) Norme de sécurité des données Récapitulatif des modifications de

Modélisation intégrée des écoulements pour la gestion en temps réel d'un bassin versant anthropisé

F210. Automate de vision hautes fonctionnalités. Caractèristiques. Algorithmes vectoriels

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

D.E.S.C.F - UV 1 - Module 8 Consolidation dans les groupes de sociétés. Corrigé - Cas IG/IP/MEE

Apprentissage Statistique

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Transcription:

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence Cap 2004 14-16 juin 2004

Plan Objectif: application de sécurité routière. Le problème d'apprentissage. Les algorithmes. Résultats expérimentaux. 2

Objectifs Incidence de la régulation d'un carrefour à feux sur le comportement, la gêne et le risque subis par les usagers. Etude des interactions entre véhicules, détection des interactions dans la zone de conflit, évaluation de la sévérité: proximité spatio-temporelle de l'interaction à l'accident. Indicateurs de sévérité: données difficiles à interpréter, mais étiquetables: problème d'apprentissage. 3

Exemples de catégories catégorie antagoniste à l'arrêt Zones de Stockage 1 2 catégorie antagoniste en mouvement Zone de Conflit C SI mouvement(c, 1 C) arrêt(2) ALORS interaction cat Antag. Arrêt SI mouvement(c, 1 C) mouvement(2) ALORS interaction cat Antag. Mvt 4

Le système expérimental Un expert humain regarde la vidéo et estime la sévérité des interactions entre véhicules. Les images produites par le traitement d'image sont utilisées pour l'application (1 image / seconde). interaction interaction Information d'occupation vide trace de présence début de présence fin de présence présence en mouvement présence à l'arrêt ligne de feu sens de circulation Expérience sur site réel, pendant 8 mois. Données génériques, information dynamique. Accès séquentiel. 5

Caractéristiques: Le problème d'apprentissage jugement expert: modélisation de l'incertitude par des classes floues (frontières graduelles), N classes et N-1 étiquettes "floues", proximité / chevauchement des classes, tailles déséquilibrées. Problème de classification difficile: performances faibles avec apprentissage passif batch. Expert Exemples Etiquetés Apprenant Passif Construit Hypothèse 6

Idées Cadre incrémental: sélection "intelligente" des exemples, pour spécifier les frontières: déformation de la distribution réelle des données. Apprentissage actif: cadre avec réservoir de données cadre avec flux de données instant t flux d'exemples réservoir d'exemples exemples non-étiquetés exemples étiquetés exemples étiquetés utilisés en apprentissage [Schohn et al. 2000, Tong 2001, Freund et al. 1997] [Lewis et al. 1994] 7

Apprentissage actif dans un flux - initialisation: hypothèse h. - pour tout exemple xt, si critère de sélection vérifié - mise à jour de l'hypothèse h. - jusqu'à critère d'arrêt. Eléments centraux, à préciser: Critère de sélection, Critère d'arrêt et choix de l'hypothèse finale. 8

Critère de sélection Sélection des exemples avant étiquetage: adaptation des critères existants? des exemples après étiquetage: exemples malclassées (Windowing). [Fürnkranz 98] Etiquetage de tous les exemples, exemples mal-classés par l'hypothèse courante h, exemples aux étiquettes floues non utilisés. 9

Difficile: ensemble de validation. Critère d'arrêt Amélioration de la qualité des hypothèses apprises (robustesse, stabilité), combinaison d'hypothèses (Bagging, Boosting): Vote des derniers classifieurs appris. paramètre: nombre de classifieurs combinés. 10

Résultats benchmarks Base Batch MC classfieurs bayésiens naïfs validation croisée en 10 ensembles. Nombre d'exemples sélectionnés Soybean 93,9 90,2 93,0 / 596 Vote 90,3 95,2 23,8 / 390 Spambase 84,9 82,0 851,7 / 4139 Iris disc 96,0 93,3 17,3 / 132 Windowing dans un ordre fixé aléatoirement. 11

Résultats Sévérité (1/2) Courbes d'apprentissage (moyennées sur 50 essais, n=7) MC (notre algorithme), BATCH (apprentissage classique batch), BAGGING (vote de plusieurs classifieurs appris sur des sousensembles tirés aléatoirement) 3 classes, classfieurs bayésiens naïfs Initialisation avec 3 exemples tirés aléatoirement dans un autre ensemble. 52 minutes de flux: 828 exemples dans le flux de données. 4 x 10 minutes (2 conditions de trafic): 371 exemples en test. 12

Performances finales: Résultats Sévérité (2/2) MIN MOY MAX Exemples bien classés Exemples bien classés MC BATCH BAGGING BATCH-EQ BATCH-EQ-MC 71,7 ± 1,6 64,9 ± 0,5 66,2 ± 1,0 64,3 ± 1,0 61,7 ± 1,4 78,3 ± 2,5 84,0 ± 1,0 82,2 ± 1,7 82,8 ± 2,0 83,8 ± 1,4 Précision 75,4 ± 3,5 53,8 ± 1,0 58,1 ± 2,9 56,5 ± 2,6 50,2 ± 2,1 Exemples bien classés 71,2 ± 2,3 58,9 ± 0,5 60,8 ± 1,7 57,0 ± 1,5 52,8 ± 2,6 Précision 78,2 ± 1,8 77,7 ± 0,4 77,8 ± 1,2 77,5 ± 0,9 78,3 ± 2,0 Exemples bien classés 68,5 ± 3,9 65,3 ± 0,9 67,2 ± 2,9 67,8 ± 1,7 66,1 ± 3,4 Précision 59,2 ± 2,3 57,0 ± 0,7 56,8 ± 2,1 54,2 ± 1,4 53,1 ± 1,9 13

Apprentissage prometteur dans le cadre incrémental. Influence initialisation. Perspectives: Conclusion combinaison intelligente d'hypothèses: on peut faire mieux qu'un Vote, extension à des périodes de traitement plus longues pour le traitement de la base de données: détection de changements de concept, suivi des performances. 14