THESE. Rajae El Ouazzani



Documents pareils
Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Apprentissage Automatique

Traitement bas-niveau

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

INF6304 Interfaces Intelligentes

Modélisation du comportement habituel de la personne en smarthome

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Ministère de l Enseignement Supérieur et de la Recherche Scientifique


données en connaissance et en actions?

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Résumé des communications des Intervenants

MCMC et approximations en champ moyen pour les modèles de Markov

Projet de Traitement du Signal Segmentation d images SAR

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Object Removal by Exemplar-Based Inpainting

Vérification audiovisuelle de l identité

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

NON-LINEARITE ET RESEAUX NEURONAUX

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Mesure agnostique de la qualité des images.

INTRODUCTION AU DATA MINING

Laboratoire 4 Développement d un système intelligent

Détection des points d intérêt et Segmentation des images RGB-D. Présentée par : Bilal Tawbe. Semaine de la recherche de l UQO

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Filtrage stochastique non linéaire par la théorie de représentation des martingales

La classification automatique de données quantitatives

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Extraction d informations stratégiques par Analyse en Composantes Principales

Introduction au Data-Mining

Résolution d équations non linéaires

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Formats d images. 1 Introduction

Introduction au datamining

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

Infolettre #18 : Les graphiques avec Excel 2010

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

Opérations de base sur ImageJ

Soutenance de stage Laboratoire des Signaux et Systèmes

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Intérêt du découpage en sous-bandes pour l analyse spectrale

Introduction à l informatique temps réel Pierre-Yves Duval (cppm)

Analyse dialectométrique des parlers berbères de Kabylie

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Transmission d informations sur le réseau électrique

Introduction à MATLAB R

Travaux pratiques avec RapidMiner

Optimisation de la compression fractale D images basée sur les réseaux de neurones

4.2 Unités d enseignement du M1

Introduction au Data-Mining

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Business Intelligence

Indexation de documents audio : Cas des grands volumes de données

Géométrie discrète Chapitre V

Coup de Projecteur sur les Réseaux de Neurones

Analyse de la variance Comparaison de plusieurs moyennes

Introduction à l approche bootstrap

L alternative, c est malin 1. Comment faire plein de choses pour pas cher sur MacIntosh

VISION PAR ORDINATEUR ET APPRENTISSAGE STATISTIQUE : VERS UN INSTRUMENT DE MUSIQUE IMMATERIEL

TP SIN Traitement d image

Modélisation aléatoire en fiabilité des logiciels

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Enjeux mathématiques et Statistiques du Big Data

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

WORDPRESS : réaliser un site web

Sujet de thèse : Suivi d objets en mouvement dans une séquence vidéo

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

: seul le dossier dossier sera cherché, tous les sousdomaines

Modules Multimédia PAO (Adobe)

Hiver 2013 IMN 259. Introduction à l analyse d images. Par Pierre-Marc Jodoin

Raisonnement probabiliste

N. Paparoditis, Laboratoire MATIS

Business Intelligence simple et efficace

EXPERT FINAL CUT STUDIO

Annexe commune aux séries ES, L et S : boîtes et quantiles

ISO/CEI NORME INTERNATIONALE

TABLE DES MATIERES. C Exercices complémentaires 42

Techniques d interaction dans la visualisation de l information Séminaire DIVA

1 Avant-Propos 5 Remerciements. 9 Usages, contraintes et opportunités du mobile. 33 Site ou application : quelle solution choisir? Table des matières

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Introduction à la théorie des files d'attente. Claude Chaudet

GUIDE Excel (version débutante) Version 2013

Chapitre 3. Les distributions à deux variables

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Table des matières. Avant-propos. Chapitre 2 L actualisation Chapitre 1 L intérêt Chapitre 3 Les annuités III. Entraînement...

Les Conditions aux limites

Principe de symétrisation pour la construction d un test adaptatif

imovie 11 Créer un projet Menu / Fichier / Nouveau projet... Choisir le format : Standard (16/9). Importer des «!plans!» 1.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

Transcription:

Université Mohammed V - Souissi THESE pour obtenir le grade de : Docteur en Sciences Appliquées Spécialité : Informatique Préparée au sein de l UFR : Systèmes d Information Métiers, Multimédia et Mobile à l Ecole Nationale Supérieure d Informatique et d Analyse des Systèmes Préparée par : Rajae El Ouazzani Titre : La reconnaissance et l apprentissage des événements chauds dans la vidéo de matches de football en utilisant les Modèles de Markov Cachés Soutenue le 18/12/2010 devant le jury composé de: Pr. Driss Aboutajdine, PES à la Faculté des Sciences de Rabat: Président. Pr. Azedine Boulmakoul, PES à la FST de Mohammadia: Rapporteur. Pr. Ahmed Tamtaoui, PES à l INPT: Rapporteur. Pr. Mohammed Rziza, PH à la Faculté des Sciences de Rabat: Rapporteur. Pr. Bouchaib Bounabat, PES à l ENSIAS: Examinateur. Pr. Rachid Oulad Haj Thami, PES à l ENSIAS: Directeur de thèse.

Résumé Dans le cadre de cette thèse, nous proposons des techniques pour reconnaitre les événements importants dans la vidéo de matches de football en utilisant les Modèles de Markov Cachés (MMC). Un événement important est tout événement qui peut intéresser le public tels que : les buts, les fautes directes, les penalties, les cartons jaunes/rouges, les changements de joueurs et les tentatives pour marquer un but. Lors de la modélisation des séquences vidéos correspondantes aux événements importants précédents, nous avons utilisé les MMCs qui traitent de manière efficace les structures spatiaux temporelles qui caractérisent les vidéos de football. Dans la première partie de cette thèse, nous avons présenté les caractéristiques de la vidéo de matches de football à savoir les descripteurs visuels, audio et textuels. Aussi, nous avons présenté quelques unités sémantiques qui distinguent la vidéo de matches de football. Puis et lors d un survol de la littérature, nous avons exposé quelques techniques de classification des plans (images) de la vidéo de football et quelques techniques de reconnaissance des événements importants dans la vidéo de matches de football. Finalement, nous avons présenté les MMCs, leurs paramètres et les algorithmes qui les accompagnent. Dans la deuxième partie, nous avons présenté quatre contributions pour reconnaitre les événements importants dans la vidéo de matches de football avec les MMCs. Dans la première contribution, nous employons un MMC des événements importants. Par la suite et dans la deuxième contribution, nous employons deux MMCs, un MMC d événements importants et un MMC d événements non importants en conjonction avec le théorème de Bayes. L inférence bayesienne calcule la distribution a posteriori sur une séquence vidéo en utilisant des distributions a priori issues des bases d apprentissage. Dans la troisième contribution, nous employons les MMCs et la loi de Gauss et dans la quatrième contribution, nous exploitons les MMCs et les Modèles de Mélanges de Gaussiennes avec deux, six et dix gaussiennes pour reconnaitre les événements importants dans la vidéo de matches de football.

Remerciements Je tiens à exprimer tout d abord mes remerciements aux membres du jury, qui ont accepté d évaluer mon travail de thèse. Je remercie le Professeur Driss Aboutajdine de m avoir fait l honneur de présider mon jury. Le Professeur Aboutajdine est le responsable du "Laboratoire de Recherche en Informatique et Télécommunication" (LRIT) à la Faculté des Sciences de Rabat (FSR) où j ai fait mes premiers pas vers le domaine de la recherche. Aussi, il est le responsable de l UFR "Informatique et Télécommunication" à la FSR. Ainsi, je remercie le Professeur Aboutajdine pour son sérieux et son travail continu pour orienter ses étudiants vers la recherche scientifique en vue de l évoluer au Maroc. Je remercie aussi le Professeur Azedine Boulmakoul qui a accepté de rapporter mon travail. Le Professeur Boulmakoul est le responsable de la filière "MST Génie informatique" à la Faculté des Sciences et Technique de Mohammedia. Il est aussi le responsable de l UFR "Systèmes d Informations Réactifs et Ingénierie des Systèmes Intelligents". Après, je remercie le Professeur Ahmed Tamtaoui qui a accepté de rapporter mon travail de thèse. Le Professeur Tamtaoui est un Enseignant chercheur à INPT à Rabat. Il est aussi le Directeur Adjoint de Recherche dans le même établissement. Ensuite, je remercie le Professeur Mohammed Rziza, Professeur Habilité à la Faculté des Sciences de rabat, qui a accepté de rapporter mon travail. Puis, je remercie le Professeur Bouchaib Bounabat d avoir examiné mon travail. Le Professeur Bouchaib Bounabat est un Professeur de l Enseignement Supérieur à l Ecole Nationale Supérieure d Informatique et d Analyse des systèmes. Après, je remercie le Professeur Rachid Oulad Haj Thami d avoir accepté de superviser mon travail de thèse. Le Professeur Rachid Oulad Haj Thami est un Professeur de l Enseignement Supérieur à l Ecole Nationale Supérieure d Informatique et d Analyse des systèmes. Finalement, je tiens à remercier tous mes collègues de l équipe WiM avec lesquels j ai eu le plaisir de travailler durant cette thèse. iii

Table des matières Résumé ii Remerciements iii Liste des Figures Liste des Tableaux Abréviations Symboles viii x xi xiii 1 Introduction générale 1 1.1 Contexte de la thèse.............................. 1 1.2 Contributions.................................. 2 1.3 Organisation de la thèse............................ 2 2 La vidéo de football 4 2.1 Introduction................................... 4 2.2 Analyse de la vidéo de football........................ 5 2.2.1 Les descripteurs de bas niveau.................... 5 2.2.1.1 Les descripteurs visuels................... 5 2.2.1.2 Les descripteurs audio.................... 5 2.2.1.3 Les descripteurs textuels.................. 6 2.2.2 Les descripteurs visuels........................ 7 2.2.2.1 La couleur dominante.................... 7 2.2.2.2 Le logo............................ 7 2.2.2.3 Les bords........................... 8 2.2.2.4 La texture.......................... 8 2.2.2.5 La zone de la tête...................... 8 2.2.2.6 La taille des objets...................... 8 2.2.3 Les unités sémantiques de niveau moyen............... 9 2.2.3.1 Unité ralenti......................... 9 2.2.3.2 Unité cadre du goal..................... 9 2.2.3.3 Unité légende......................... 10 iv

Contenu v 2.2.3.4 Unité plan proche et public................. 10 2.2.3.5 Unité plan proche et légende................ 11 2.2.3.6 Décomposition de la vidéo en unités sémantiques..... 11 2.2.4 Les événements importants de haut niveau.............. 12 2.3 Techniques de classification des plans..................... 15 2.3.1 Classification des plans avec la carte de blocs du terrain...... 15 2.3.2 Classification des plans avec un arbre de décision.......... 16 2.3.3 Classification des plans avec les SVMs................ 17 2.3.4 Classification des plans avec les SVMs et les histogrammes de projection.................................. 18 2.3.5 Classification des plans par la détection des lignes du terrain... 19 2.3.6 Classification des plans avec la règle du Golden Section Spatial Composition.............................. 20 2.3.7 Classification des plans avec la méthode haut-bas.......... 21 2.3.8 Résumé................................. 22 2.4 Conclusion.................................... 23 3 Modélisation des séquences vidéos de matches de football 25 3.1 Classes d approches de modélisation des séquences vidéos......... 25 3.1.1 Approches basées sur les règles.................... 26 3.1.2 Approches statistiques......................... 26 3.1.2.1 Les Machines à Vecteurs de Supports (SVMs)....... 26 3.1.2.2 Les réseaux de neurones (RNs)............... 27 3.1.2.3 Les Modèles de Markov Cachés (MMCs).......... 27 3.1.2.4 Autres algorithmes...................... 27 3.2 Les Modèles de Markov Cachés........................ 27 3.2.1 Les paramètres du MMC....................... 28 3.2.2 Les inférences du MMC........................ 29 3.2.2.1 Les inférences en ligne.................... 29 3.2.2.2 Les inférences hors ligne................... 29 3.2.3 Les algorithmes de manipulation des paramètres du MMC..... 30 3.2.3.1 L algorithme Forward-Backward.............. 30 3.2.3.2 L algorithme Viterbi..................... 32 3.2.4 L apprentissage des paramètres du MMC.............. 33 3.2.4.1 L apprentissage avec le critère MV............. 34 3.2.4.2 L apprentissage avec le critère MAP............ 35 3.2.5 La structure du MMC......................... 35 3.3 Techniques de reconnaissance des événements importants dans la vidéo de matches de football............................... 36 3.3.1 Reconnaissance des événements importants avec les Réseaux Bayesiens/Réseaux Bayesiens Dynamiques (BNs/DBNs)......... 37 3.3.2 Reconnaissance des événements importants avec une représentation de niveau intermédiaire : mid level.............. 38 3.3.3 Reconnaissance des événements importants avec l unité sémantique de base et les réseaux de Pétri (BSUCPN).............. 38 3.3.4 Reconnaissance des événements importants avec les segments play et break................................. 38

Contenu vi 3.3.5 Reconnaissance des événements importants avec les MMCs et les positions des joueurs sur le terrain de jeu.............. 39 3.3.6 Reconnaissance des événements importants avec les mots clés et les MMCs................................ 40 3.3.7 Résumé................................. 41 3.4 Conclusion.................................... 42 4 Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 44 4.1 Contribution 1 : Reconnaissance des événements importants dans la vidéo de football avec un seul MMC......................... 45 4.1.1 Classification visuelle des plans.................... 45 4.1.2 Modélisation et reconnaissance des événements importants avec un MMC.................................. 47 4.1.3 Résultats expérimentaux........................ 50 4.1.4 Conclusion............................... 52 4.2 Contribution 2 : Reconnaissance des événements importants avec deux MMCs et le théorème de Bayes........................ 53 4.2.1 Modélisation des séquences vidéos avec deux MMCs........ 53 4.2.2 Utilisation du théorème de Bayes dans la reconnaissance des événements importants.......................... 55 4.2.3 Résultats expérimentaux........................ 56 4.2.4 Conclusion............................... 58 4.3 Discussion.................................... 59 5 Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 60 5.1 Contribution 3 : Reconnaissance des événements importants avec les MMCs et le modèle gaussien.............................. 60 5.1.1 Modélisation des événements de football avec deux MMCs..... 61 5.1.2 Utilisation du modèle gaussien pour la reconnaissance des événements importants dans la vidéo de football............. 62 5.1.3 Résultats expérimentaux........................ 63 5.1.4 Conclusion............................... 65 5.2 Contribution 4 : Reconnaissance des événements importants avec les MMCs et les MMGs.................................. 66 5.2.1 Schéma général de l étude....................... 66 5.2.2 Analyse des propriétés de la vidéo de football............ 67 5.2.3 Modélisation des événements de football avec les MMCs...... 67 5.2.4 Modélisation des événements de football avec les MMGs...... 67 5.2.4.1 Paramètres des MMGs................... 68 5.2.4.2 Apprentissage des paramètres du MMG avec l algorithme EM.............................. 68 5.2.5 La reconnaissance des événements importants dans la vidéo de football avec les MMCs et les MMGs................. 72 5.2.6 Résultats expérimentaux........................ 74 5.2.6.1 Résultats de reconnaissance des événements importants avec un mélange de deux gaussiennes........... 75

Contenu vii 5.2.6.2 Résultats de reconnaissance des événements importants avec un mélange de six gaussiennes............. 78 5.2.6.3 Résultats de reconnaissance des événements importants avec un mélange de dix gaussiennes............ 81 5.2.6.4 Comparaison des résultats de reconnaissance des événements importants avec différents mélanges de gaussiennes 83 5.2.7 Conclusion............................... 85 5.3 Discussion.................................... 85 6 Conclusions et perspéctives 86 6.1 Objectifs et domaines d exploitation de la thèse............... 86 6.2 Contributions majeures............................ 86 6.3 Travaux en cours et perspectives....................... 88 A Publications 90 Bibliographie 92

Table des figures 2.1 Schéma pour la reconnaissance des événements importants dans la vidéo de matches de football.............................. 5 2.2 Un arbre de décision pour la classification des plans en utilisant le couleur de l herbe et le contraste de la texture [1, 2].................. 11 2.3 La représentation des unités sémantiques sur une séquence vidéo [2].... 12 2.4 Une série de plans lors d un but........................ 13 2.5 Une série de plans lors d un penalty...................... 13 2.6 Une série de plans lors d un corner....................... 14 2.7 Une série de plans lors d une faute directe................... 14 2.8 Une série de plans lors d un carton jaune................... 14 2.9 Une série de plans lors d un changement de joueurs.............. 15 2.10 Un arbre de décision pour la classification des plans en utilisant des descripteurs visuels [3]............................... 17 2.11 Système de classification des plans avec les SVMs [4]............. 18 2.12 Une structure pour la classification des plans avec les SVMs et les histogrammes de projection [5]............................ 19 2.13 Algorithme de classification de plans par la détection des lignes du terrain [6]......................................... 20 2.14 Les neuf portions d un plan [7]......................... 21 2.15 Un framework pour la classification des plans avec la méthode haut-bas [8]. 22 3.1 Représentation d un MMC par un réseau bayesien.............. 28 3.2 Exemples de deux structures des MMCs [9].................. 36 3.3 Exemples de BN et de DBN de l événement corner [10]........... 37 3.4 Les séquences play break dans une vidéo de football [11]......... 39 3.5 A gauche, un schéma qui montre les positions des joueurs sur le terrain et à droite, les qualifieurs fuzzy qui sont utilisés dans le calcul des descripteurs des zones f1, f2 et f3 [12]............................ 40 3.6 Diagramme pour la reconnaissance des événements importants avec les mots clés et les MMCs [13]........................... 41 4.1 Les trois classes de plans et l application de la GSSC sur leur correspondants en binaire................................. 46 4.2 Processus de segmentation de la vidéo de football et la classification des images clés en utilisant la GSSC........................ 47 4.3 Les états et les probabilités de transitions de λ1 des événements importants. 48 4.4 La courbe de ROC des résultats de classifcation des séquences vidéo avec λ1......................................... 52 4.5 Les états et les probabilités de transitions de λ2............... 54 viii

Liste des Figures ix 4.6 Schéma pour reconnaître les événements importants avec les MMCs et le théorème de Bayes................................ 55 4.7 La courbe de ROC des résultats de classification des séquences vidéo avec deux MMCs et le théorème de Bayes...................... 58 5.1 Schéma de reconnaissance des événements importants avec les MMCs et la loi de Gauss.................................. 61 5.2 La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et le théorème de Gauss...................... 65 5.3 Schéma pour la reconnaissance des événements importants dans la vidéo de matches de football avec trois types de descripteurs............ 66 5.4 Schéma de reconnaissance des événements importants avec les MMCs et les MMGs..................................... 72 5.5 Représentation des données de la base d apprentissage d événements importants avec une distribution en deux gaussiennes.............. 75 5.6 Représentation des données de la base d apprentissage d événements non importants avec une distribution en deux gaussiennes............ 76 5.7 La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec deux gaussiennes.............. 77 5.8 Représentation des données de la base d apprentissage des événements importants avec une distribution en six gaussiennes............. 78 5.9 Représentation des données de la base d apprentissage des événements non importants avec une distribution en six gaussiennes............. 78 5.10 La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec six gaussiennes............... 80 5.11 Représentation des données de la base d apprentissage des événements importants avec une distribution en dix gaussiennes............. 81 5.12 Représentation des données de la base d apprentissage des événements non importants avec une distribution en dix gaussiennes............. 81 5.13 La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec dix gaussiennes............... 83 5.14 La courbe de ROC de classification des séquences vidéos avec l utilisation de deux MMCs et deux MMGs avec deux, six et dix gaussiennes...... 84 6.1 Processus de classification d une séquence vidéo O avec quatre techniques utilisant les MMCs................................ 87 6.2 La courbe de ROC des résultats de classification des séquences vidéos avec six techniques de reconnaissance des événements importants avec les MMCs. 88

Liste des tableaux 2.1 Les événements importants dans la vidéo de football et les unités sémantiques qui les accompagnent........................... 12 2.2 Sommaire des techniques de classification des plans............. 23 3.1 Sommaire des techniques de reconnaissance des événements importants.. 43 4.1 Résultats de classification des séquences vidéos avec λ1 d événements importants...................................... 51 4.2 Résultats de reconnaissance des événements importants avec λ1. Ils sont classés par type d événement.......................... 52 4.3 Résultats de classification des séquences vidéo avec deux MMCs et le théorème de Bayes.................................. 57 4.4 Résultats de classification des événements importants avec les MMCs et le théorème de Bayes, classés par type d événement............. 58 5.1 Résultats de classification des séquences vidéos avec les MMCs et le théorème de Gauss.................................. 64 5.2 Résultats de classification des séquences vidéos avec les MMCs et le théorème de Gauss classés par catégorie de l événement important........ 65 5.3 Résultats de classification des séquences vidéos en utilisant deux MMCs et deux MMGs avec un mélange de deux gaussiennes............. 76 5.4 Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de deux gaussiennes..... 77 5.5 Résultats de classification des séquences vidéos en utilisant deux MMCs et deux MMGs avec un mélange de six gaussiennes.............. 79 5.6 Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de six gaussiennes...... 80 5.7 Résultats de classification des séquences vidéos en utilisant les MMCs et deux MMGs avec un mélange de dix gaussiennes............... 82 5.8 Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de dix gaussiennes...... 83 5.9 Résultats de classification de divers types d événements importants en utilisant les MMCs et les MMGs........................ 84 6.1 Comparaison des résultats de classification des événements de football avec les MMCs.................................. 88 x

Abréviations MMC HMM HSV GLCM MFCC MPEG CSR GBM TBD SVM BN RB DBN RBD RN HSI GMM MMG EM MSE FCPMT ROC OCR SSU SR Modèle de Markov Caché Hidden Markov Model Hue Saturation Value Gray Level Co-occurrence Matrix Mel Frequency Cepstral Coefficients Moving Picture Expert Group Coarse Spatial Representation Ground Block Map Temporal Block Difference Support Vector Machines Bayesian Network Réseau Bayesien Dynamic Bayesian Network Réseau Bayesien Dynamique Réseaux de Neurones Hue Saturation Intensity Gaussian Mixture Model Modèle de Mélanges de Gaussiennes Expectation Maximization Mean Square Error Field Color Probability Map Tracker Receiver Operating Characteristic Optical Character Recognition Shot Segment Unit Segmentation Rate xi

Abréviations xii BSUCPN Basic Semantic Unit Composite Petri Net LPC Linear Prediction Coefficients LPCC Linear Prediction Cepstral Coefficients FPMT Field Probability Map Tracking MV Maximum de Vraissemblance MAP Maximum a posteriori IPS In Play Segment OPS Out of Play Segment OFS Out of Field Segment CloseFB Close with Field Background CloseNFB Close Non Field Background GSSC Golden Section Spatial Composition

Symboles H mean S mean moyenne de la teinte moyenne de la saturation p, P probabilité N nombre d états du MMC O séquence vidéo O 1:T T s S q A a ij V o t B b j M M C1 MMC2 M M G1 MMG2 E Imp séquence d observation complète nombre d observations dans la séquence vidéo O état du MMC l ensemble des états du MMC état observé du MMC matrice de transitions du MMC probabilité de transition de l état i à j l ensemble des observations possibles symbole observé à l instant t matrice de probabilités d observations probabilité d observation MMC des événements importants MMC des événements non importants MMG des événements importants MMG des événements non importants événement important E Imp événement non important NE Imp N E Imp P(E Imp ) nombre d événements importants dans la base d apprentissage nombre d événements non importants dans la base d apprentissage probabilité d avoir un événement important xiii

Symboles xiv P( E Imp ) probabilité d avoir un événement non important P(O/E Imp ) probabilité d avoir O sachant un événement important P(O/ E Imp ) probabilité d avoir O sachant un non événement important P(E Imp /O) probabilité d avoir un événement important sachant O P( E Imp /O) probabilité d avoir un événement non important sachant O pr vecteur des probabilités a priori d un MMG Σ Imp variance des événements importants Σ Imp variance des événements non importants µ Imp moyenne des événements importants µ Imp moyenne des événements non importants ΣMMG Imp matrice de covariance du MMG1 µmmg Imp vecteur de la moyenne du MMG1 pr Imp ΣMMG Imp µmmg Imp pr Imp vecteur des probabilités a priori des mélanges du MMG1 matrice de covariance du MMG2 vecteur de la moyenne du MMG2 vecteur des probabilités a priori des mélanges du MMG2 µ vecteur moyen Σ π λ α β ω Θ Id matrice de covariance vecteur de probabilités initiales du MMC Modèle de Markov Caché probabilités Forward probabilité Backward valeur pour régulariser les matrices de covariances seuil de comparaison diagonale

A ma chère famille. xv

Chapitre 1 Introduction générale 1.1 Contexte de la thèse La recherche de l information utile dans une vidéo est importante. Diverses recherches ont été entreprises dans le domaine de traitement des données multimédia en vue de faciliter l accès aux données importantes. Nous citons la détection des séquences d informations intéressantes, la création des résumés et le filtrage du contenu. Un document vidéo est une production de l activité humaine d où la nécessité de développer certains outils pour faciliter son traitement. Les données multimédia sont composées de données audio, visuelles et textuelles synchronisées. Par conséquent, le traitement de la vidéo est réalisé par des outils spécifiques qui respectent sa structure spatio-temporelle. Dans cette thèse, nous abordons le problème de la classification des séquences vidéo de matches de football. Le but de notre étude est la reconnaissance des événements importants dans ce type de vidéo. Un événement important correspond à une séquence vidéo qui peut intéresser les téléspectateurs telle qu : un but, un corner, une faute directe, un penalty ou une tentative pour marquer un but. Ainsi, le traitement de la vidéo de football permet de reconnaître les segments vidéo intéressants qui occupent une petite partie dans la vidéo du match de football. De plus, l analyse de la vidéo de football peut être appréhendé, en effet, dans ce contexte le domaine sémantique est limité. Les études réalisées dans ce cadre peuvent être classifiées en deux catégories [14] : des études basées sur les règles [15, 16] et des études statistiques [10 13, 17, 18] telles que les SVMs, les RNs et les MMCs. Les travaux réalisés dans ce rapport se focalisent sur la modélisation des événements importants de football en utilisant l approche statistique basée sur les MMCs. Les MMCs sont connus par leur capacité à modéliser les structures spatio-temporelles. Ainsi, la 1

Chaptire 1. Introduction générale 2 reconnaissance des événements importants dans la vidéo de football avec les MMCs nécessite une opération d apprentissage des paramètres des MMCs. L opération d apprentissage utilise des bases de séquences vidéo issues de différents matches de football où les séquences vidéo sont représentées par des vecteurs de plans grâce à la classification de leurs images clés en plans : loin, médium et proche en se basant sur les techniques de réalisation télévisuelles dans les matches de football. Plusieurs études ont été réalisées dans le cadre de la classification de plans [5 8, 19 21]. La reconnaissance des événements importants dans la vidéo de football est réalisée par les MMCs dont les paramètres sont calculer par les algorithmes : Baum-Welch, Forward-Backward et Viterbi et des bases d apprentissage de séquences vidéo. 1.2 Contributions Les contributions proposées dans cette thèse permettent de savoir si une séquence vidéo dans un match de football correspond à un événement important. Nous avons développé quatre applications pour réaliser l opération de classification. Les applications proposées utilisent toutes les MMCs. La première contribution permet de reconnaître les événements importants en utilisant un seul MMC d événements importants. Ensuite, nous utilisons, dans la deuxième contribution, le théorème de Bayes en plus des MMCs pour reconnaître les événements importants. L inférence bayesienne calcule la distribution a posteriori sur une séquence vidéo en exploitant des distributions a priori issues des bases d apprentissage. La troisième contribution emploie le théorème de Gauss en conjonction avec les MMCs. La loi de Gauss est une distribution qui suit la loi normale. Finalement et dans la quatrième contribution, nous utilisons les Modèles de Mélanges de Gaussiennes et les MMCs pour reconnaitre les événements importants. 1.3 Organisation de la thèse Ce document est organisé de la manière suivante : Le chapitre 2 présente quelques techniques d analyse de la vidéo de football et de classification des images clés des séquences de football en types de plans. L analyse de la vidéo de football montre trois types de caractéristiques dans la vidéo de football : 1) les descripteurs de bas niveau, 2) les unités sémantiques et 3) les événements importants. Nous avons présenté aussi un ensemble de techniques de classification de plans en loin, médium, proche, etc.

Chaptire 1. Introduction générale 3 Le chapitre 3 propose, dans une première section, les classes d approches de modélisation des séquences vidéo. Dans la deuxième section, nous présentons les MMCs, leurs paramètres, les algorithmes d estimation de leurs paramètres et quelques structures des MMCs. Dans la dernière section, nous montrons quelques techniques de reconnaissance des événements importants dans la vidéo de matches de football. Le chapitre 4 expose les deux premières contributions proposées dans cette thèse. La première contribution permet de reconnaitre les événements importants de football avec un seul MMC d événements importants et dans la deuxième contribution, nous employons deux MMCs et le théorème de Bayes pour reconnaitre ces événements importants. Le premier MMC concerne les événements importants et le deuxième, les événements non importants. De plus, nous présentons les résultats expérimentaux associés aux deux contributions proposées. Le chapitre 5 présente deux autres contributions pour reconnaitre les événements importants dans la vidéo de football. Ces deux contributions utilisent la loi gaussienne pour reconnaitre ces événements spéciaux. Nous employons, dans la troisième contribution, deux MMCs d événements imortants et d événements non importants et la loi de Gauss. Ensuite, nous présentons dans la quatrième contribution qui utilise deux MMCs et deux MMGs. Ainsi, nous présentons les résultats expérimentaux des deux hypothèses gaussiennes précédentes. Finalement, le chapitre 6 présente des conclusions, discute quelques frontières de la reconnaissance des événements importants dans la vidéo de football et donne des perspectives.

Chapitre 2 La vidéo de football 2.1 Introduction Dans ce chapitre, nous allons nous focaliser sur la reconnaissance des événements importants dans la vidéo de matches de football. Cette opération est réalisée par l utilisation et l analyse de certaines caractéristiques des événements de football. Nous pouvons distinguer trois types de caractéristiques classées par niveaux et illustrés sur la figure 2.1. Les caractéristiques de haut niveau sont les événements importants dans la vidéo de football tels que : les buts, les penalties, les corners, les fautes directes, les cartons jaunes/rouges et les tentatives pour marquer un but. Ces événements importants sont caractérisés, en cours de diffusion de la vidéo, par l apparition de certaines unités sémantiques. Une unité sémantique est composée d une suite de plans du même événement. De manière générale, un événement est constitué de plusieurs unités sémantiques et la présence de certaines unités sémantiques spécifiques indique la présence d un événement important particulier. Par exemple, l événement important "but" est représenté par les unités sémantiques suivantes : la zone de penalty, le cadre du goal, l arbitre, le public et le plan proche. Par ailleurs, le domaine de connaissance montre qu il y a neuf unités sémantiques [2] : les ralentis, les cadres du goal, les zones de penalty, les coins du terrain, les légendes, les plans proches, le public, l arbitre et les plans proches avec légende. L analyse de ces unités sémantiques nous a permis de définir les caractéristiques ou les descripteurs de bas niveau. Les descripteurs de bas niveau concernent la couleur, la texture, les bords, le logo, la zone de la tête et la taille des objets qui sont extraits de certains plans de la vidéo de manière visuelle. En effet, le plan et sa structure joue un rôle important dans la réalisation des matches télévisuels pour montrer et mettre en évidence certaines actions dans un match. Dans ce même chapitre, nous allons présenter quelques méthodes de classification de plans en : loin, médium, proche et hors du terrain. 4

Chaptire 2. La vidéo de football 5 Niveau 2 Niveau 1 Niveau 0 Evénements importants Unités sémantiques Descripteurs de bas niveau Vidéo de football Fig. 2.1: Schéma pour la reconnaissance des événements importants dans la vidéo de matches de football. 2.2 Analyse de la vidéo de football La reconnaissance des segments ayant une sémantique dans la vidéo de football est possible à réaliser en comparaison avec d autres types de vidéo du genre commercial ou films. Ceci est dû à l existence d une structure de contenu qui est bien définie et aux règles des jeux sportifs en générale. Par exemple, un match de football est présenté en deux parties et dans chacune d elle, nous trouvons les bordures du terrain, la légende, les ralentis, etc. 2.2.1 Les descripteurs de bas niveau 2.2.1.1 Les descripteurs visuels Les descripteurs visuels regroupent la couleur, la texture, les bords, le logo, la zone de la tête et la taille des objets. Ils constituent les éléments de la couche inférieure du schéma 2.1. Les transitions de logo sont utilisées dans l analyse du mouvement parce que les séquences vidéo importantes sont suivies par des ralentis [2]. Or, les ralentis sont entourés de transitions du logo. Nous allons parler en détails des descripteurs visuels dans la sous section 2.2.2. 2.2.1.2 Les descripteurs audio Dans certains jeux spécifiques, les signaux audio tels que les applaudissements et les sifflements sont des indicateurs d événements importants. Quelques chercheurs ont utilisé

Chaptire 2. La vidéo de football 6 les données audio pour reconnaitre les événements importants de haut niveau. K. Wan et al. [22, 23], par exemple, ont extrait le descripteur audio pour localiser les segments intéressants dans la vidéo de football et de tennis. Et Z. Xiong et al. [24] ont comparé les performances de classification de la vidéo de sport en utilisant les descripteurs Mel- Fréquence de Coefficients Cepstraux (MFCC) [25] et les descripteurs audio MPEG7 [26]. En raison de l écart sémantique qui existe entre les descripteurs de bas niveau et les événements importants de haut niveau, quelques chercheurs n ont pas utilisé directement les descripteurs de bas niveau mais ils ont créé une représentation audio de niveau moyen. L élément du niveau moyen est appelé événement sonore [27] ou mot clé audio [28] et il est utilisé dans l analyse des événements de football. Par exemple, D. Zhang et al. [27] ont utilisé la méthode de fusion à base de règles sur les MFCC, les coefficients de prédiction linéaire (LPC) et les descripteurs d énergie normalisés pour détecter les événements sonores de haut niveau dans la vidéo de basketball. Par ailleurs, M. Xu et al. [28] ont utilisé les Machines à Vecteurs de Support (SVMs) avec les MFCC et les descripteurs de prédiction linéaire des coefficients cepstraux (LPCC) pour classifier les segments audio. Ces segments vidéo sont représentés par des mots clés audio différents tels que le bruit de le public et le discours du commentateur et ils sont utilisés pour reconnaitre les événements importants dans la vidéo de football, de tennis et de basketball. 2.2.1.3 Les descripteurs textuels A côté des descripteurs visuels et audio, des informations textuelles peuvent être examinées. Dans certains cas, l information textuelle peut bien servir dans la reconnaissance des événements importants parce que le texte contient des sémantiques riches. Le texte dans une vidéo peut être divisé en 2 classes [29] : le texte des scènes est le texte qu on trouve sur les panneaux d affichage et sur les vêtements des joueurs. Le deuxième type est le texte sur les légendes qui sont superposées aux plans de la vidéo. Ce dernier type complète les contenus visuels et audio. Plusieurs recherches ont été proposées pour détecter et reconnaître le texte sur la légende. Nous citons l étude de D. Chen et al. [30] qui ont utilisé les SVMs pour identifier les lignes du texte et la méthode de Reconnaissance Optique des Caractères (OCR) pour reconnaitre les caractères. Et, H.-C. Shih et al. [31] qui ont introduit une méthode robuste pour reconnaitre la légende, l extraire, la localiser et enfin développer une méthode d interprétation pour comprendre le score du jeu et même le nom de l équipe.

Chaptire 2. La vidéo de football 7 2.2.2 Les descripteurs visuels 2.2.2.1 La couleur dominante La couleur verte du terrain joue un rôle important dans l analyse de la vidéo de football parce qu elle joue un rôle intéressant dans la classification des plans. Cependant, cette couleur varie d un terrain à l autre d où l utilité de réduire l effet de l illumination en utilisant l espace de couleur HSV. Les études réalisées dans ce domaine [1, 19] montrent que les composantes de la teinte et de la saturation sont suffisantes pour segmenter le terrain. H mean et S mean sont respectivement les composantes de la teinte et de la saturation de la couleur dominante du terrain, c-à-d les valeurs de pic des histogrammes de la teinte et de la saturation d un plan loin [19]. Ces valeurs peuvent être obtenues à partir des statistiques faites au début de la période de jeu. La distance entre le pixel f(i,j) et les valeurs de la couleur dominante est définie par l équation (2.1) [1] : d hsv = S 2 (i,j) + S 2 mean 2S(i,j)S mean Cos(θ) (2.1) Avec θ = H(i,j) H mean. H(i,j) et S(i,j) sont respectivement les composantes de la teinte et de la saturation du pixel f(i,j). Donc, si la distance d hsv est plus petite qu un certain seuil alors ce pixel appartient au terrain. 2.2.2.2 Le logo Le logo est un descripteur de bas niveau, largement utilisé dans la détection des répétitions dans une vidéo de football. Au cours de la diffusion de la vidéo de football, les segments de répétition sont délimités par l apparition du logo. Ainsi, la détection des répétitions consiste d abord à détecter les transitions du logo, puis à extraire sa template et enfin à détecter les autres logos à travers une correspondance de templates [20]. Les transitions du logo Les transitions du logo sont détectées par le déplacement de ce dernier entre des plans consécutifs. Le déplacement concerne la valeur de l intensité. Cette valeur est calculée par le déplacement quadratique moyen de l intensité (MSD) [20]. L extraction du template du logo L extraction du template du logo commence par son dégagement de l arrière plan de l image. En général, le logo est superposé aux plans. La procédure d extraction du template de logo est expliquée dans [20].

Chaptire 2. La vidéo de football 8 L étape de détection des autres logos sera détaillée dans la sous section 2.2.3.1. 2.2.2.3 Les bords Le bord est un descripteur utilisé dans la détection du cadre du goal, de la légende et des joueurs. Un grand nombre d opérateurs permettent la détection des bords, nous citons le filtre gradient [32], le filtre de Robert [33], le fitre de Sobel [33] et le filtre de Canny [34]. Ce dernier filtre atteint un meilleur équilibre entre la diminution du bruit et la détection de bord par l utilisation de la fonction différentielle de Gauss du premier ordre [4]. 2.2.2.4 La texture La texture est utilisée pour distinguer les plans du public des plans proches. La description de la texture est effectuée par la matrice de co-occurrence de niveaux de gris (GLCM) en raison de sa capacité de classification des textures stochastiques [20]. La GLCM permet de calculer le contraste qui mesure l écart entre les valeurs de la matrice et la variation des pixels dans leur voisinage local [2]. 2.2.2.5 La zone de la tête La détection de la zone de la tête permet de reconnaitre les plans proches qui contiennent une tête de grande taille. La détection de la tête est réalisée via l analyse de la couleur de la peau [20]. La détection de la peau peut être effectuée par le modèle gaussien, bayesien [35] ou autres. 2.2.2.6 La taille des objets La taille des objets sur le terrain est utilisée pour séparer les plans loin des plans médium. La taille des objets exprime la distance entre la caméra et les objets. L estimation de la taille des objets est réalisée en trois étapes [20] : a) la segmentation du terrain, b) l extraction du contour convexe du terrain, qui implique la zone de remplissage, la connexion des régions voisines et le suivi du contour convexe et c) la segmentation d objets et l estimation de l échelle. Supposant que la hauteur moyenne des objets est H 0 et la hauteur du terrain dans l image est H f, alors la taille des objets est calculée par H 0 /H f.

Chaptire 2. La vidéo de football 9 2.2.3 Les unités sémantiques de niveau moyen Une unité sémantique est un segment vidéo composé de plans continus qui représentent un seul et même événement. L unité proche par exemple est constituée de plusieurs plans proches [2]. De même, l unité légende est composée d un ensemble de plans consécutifs qui contiennent des légendes [2]. Ainsi, la détection de certains descripteurs de bas niveau permet de reconnaitre les unités sémantiques qui se trouvent dans le segment vidéo. Et la présence d unités sémantiques particulières indique un événement important spécial. X.-F. Tong et al. [2] ont défini neuf unités sémantiques : la répétition, le cadre du goal, la zone de penalty, le coin du terrain, la légende, le plan proche, le public, l arbitre et le plan proche avec légende. L événement but par exemple est accompagné des unités : ralentis, cadre du goal, zone de penalty, l arbitre, plans proches avec l excitation du public et une apparence du tableau des scores en cas de résultat favorable. Nous allons présenter dans ce qui suit les caractéristiques des neuf unités sémantiques du niveau intermédiaire du schéma 2.1. 2.2.3.1 Unité ralenti Un ralenti est une manière spéciale d édition de la vidéo. Il permet de souligner un événement important pour une ou plusieurs fois avec des transitions du logo au début et à la fin du ralenti. La détection des répétitions se fait via la détection du logo [1]. Ainsi, X.-F. Tong et al. [1] utilisent une fenêtre coulissante locale w pour examiner les 2 w +1 déplacements du logo dans des plans consécutifs. Si f i,i = 1,2,...,N est la séquence de plans et D i = d(f LT,f i ) est la distance entre le template du logo f LT et le plan f i, alors D i,i = 1,2,...,N 1 est la séquence de distances entre le logo et un plan f l si [20] : D l est la distance minimale au sein d une fenêtre coulissante locale de taille 2 w + 1, c à d : D l D j avec j = 1 w,...,l 1,l,l + 1,...,1 + w, et D l est plus petite qu un certain seuil θ fixé et La distance entre les plans f l et le template du logo est très petite. Donc, une scène bornée par une paire de logos est un ralenti si sa longueur est plus petite qu un seuil prédéfini. 2.2.3.2 Unité cadre du goal Le cadre du goal est un descripteur intéressant lors de la détection des événements importants qui contiennent l unité cadre du goal. Cette unité sémantique est détectée dans les plans loins où l intensité du gris est élevée [1, 2].

Chaptire 2. La vidéo de football 10 2.2.3.3 Unité légende La légende apparaît lors de l affichage du score, d un carton jaune/rouge, de statistiques techniques et pendant le changement de joueurs. Une unité légende est un segment où les plans contiennent une légende. Cependant, il est difficile de reconnaître le texte sur cette dernière mais son apparence indique habituellement un événement spécial [1]. La légende peut être détectée par la méthode du gradient cumulé localement [2, 36]. Cette méthode consiste à traiter la zone de la légende comme une zone de texture spéciale, alignée avec des traits verticaux. Aussi, les gradients des voisins locaux sont plus grands et plus uniformes que d autres traits dans d autres régions. La recherche de la légende se fait dans la partie basse des plans parce que la légende apparaît souvent en bas de l image. 2.2.3.4 Unité plan proche et public Un plan proche sert à focaliser un joueur qui a réalisé un événement important. Tandis que le plan public est affiché en général après les événements importants pour reporter les célébrations des supportaires. Une méthode de recherche des plans proche et public est proposée par X.-F. Tong et al. [1, 2]. Ils classifient les images en loin, médium, proche et public en utilisant l arbre de décision illustré sur la figure 2.2. X.-F. Tong et al. détectent les noeuds de l arbre via le calcul du ratio de la couleur dominante et de la valeur du contraste de la texture. Au fait, un plan loin contient un grand ratio d herbe, par contre les plans proche et public ont le ratio d herbe le plus faible.

Chaptire 2. La vidéo de football 11 Ratio de la couleur de l herbe > Th1 Oui Non Plan loin Ratio de la couleur de l herbe > Th2 Oui Non Plan médium Contraste de la texture > Th3 Oui Non Plan public Plan proche Fig. 2.2: Un arbre de décision pour la classification des plans en utilisant le couleur de l herbe et le contraste de la texture [1, 2]. Th1, Th2 et Th3 sont des seuils de comparaison. 2.2.3.5 Unité plan proche et légende Une unité plan proche et légende est caractérisée par la superposition d un plan proche et d un plan légende. Ce type d unité est utilisé lors d une faute grave qui nécessite un carton jaune/rouge ou bien aux moments de changements de joueurs [1, 2]. 2.2.3.6 Décomposition de la vidéo en unités sémantiques Nous remarquons que la vidéo de football est composée de plusieurs unités sémantiques. Et la présence de certaines unités sémantiques spécifiques indique un événement important spécial. La figure 2.3 présente des unités sémantiques sur une séquence vidéo d un match de football [2].

Chaptire 2. La vidéo de football 12 Fig. 2.3: La représentation des unités sémantiques sur une séquence vidéo [2]. Avec L : plan loin, M : plan médium, U : plan proche, S : unité ralenti, G : unité cadre du goal, C : unité légende et A : unité public. Cette séquence vidéo est composée, dans l ordre, de : six plans loins, deux unités cadres du goal, un plan médium, trois plans proches, une unité public, douze unités ralentis, quatre plans proches, trois plans loins, trois unités légendes et trois plans loins. 2.2.4 Les événements importants de haut niveau Les unités sémantiques du niveau moyen jouent un rôle primordial dans la reconnaissance des événements importants dans la vidéo de football. Le tableau 2.1 montre un ensemble d événements importants et les unités sémantiques qui les accompagnent. Unités sémantiques/ Ralenti Cadre du Zone de Coin du Arbitre Plan public Tableau Evénement important goal penalty terrain proche d état But X X X X X X Penalty X X X X X X Corner X X X X X X X Faute directe X X X X X X Carton jaune/rouge X X X X Changement de joueurs X X X X Tab. 2.1: Les événements importants dans la vidéo de football et les unités sémantiques qui les accompagnent. Les unités tableau du score et public sont affichées en cas de résultat favorable.

Chaptire 2. La vidéo de football 13 Les figures 2.4, 2.5, 2.6, 2.7, 2.8 et 2.9 montrent, dans l ordre, les séries de plans des événements importants : but, penalty, corner, faute directe, carton jaune/rouge et changement de joueurs. (a) Zone de penalty (b) Zone de penalty (c) Cadre du goal (d) L arbitre (e) Le public (f) Plan proche (g) Le public (h) Plan proche Fig. 2.4: Une série de plans lors d un but. (a) Zone de penalty et cadre du goal (b) Zone de penalty et cadre du goal (c) Zone de penalty et cadre du goal (d) Zone de penalty et cadre du goal (e) Plan proche (f) Plan proche (g) Le public (h) Le public Fig. 2.5: Une série de plans lors d un penalty.

Chaptire 2. La vidéo de football 14 (a) Zone de penalty, cadre du goal et coin du terrain (b) Zone de penalty et cadre du goal et coin du terrain (c) Zone de penalty et cadre du goal et coin du terrain (d) Plan proche Fig. 2.6: Une série de plans lors d un corner. (a) Zone de penalty et cadre du goal (b) Zone de penalty et cadre du goal (c) Zone de penalty et cadre du goal (d) Zone de penalty et cadre du goal (e) Plan proche (f) Plan proche (g) Plan proche (h) Plan proche Fig. 2.7: Une série de plans lors d une faute directe. (a) L arbitre (b) Plan proche (c) Tableau d état (d) Tableau d état Fig. 2.8: Une série de plans lors d un carton jaune.

Chaptire 2. La vidéo de football 15 (a) L arbitre (b) Plan proche (c) Tableau d état (d) Tableau d état Fig. 2.9: Une série de plans lors d un changement de joueurs. 2.3 Techniques de classification des plans On a vu précédemment que la reconnaissance des événements importants dans la vidéo de football nécessite une opération de classification de plans. Ainsi, le traitement de la vidéo commence par la segmentation du flux multimédia. Ensuite, les segments résultants subissent une opération d extraction des images clés ou images représentatives. Puis, nous classifions ces dernières en types de plans. Nous distinguons les types : loin, médium, proche et hors du terrain. La classification des plans est une étape primordiale dans le processus de reconnaissance des événements importants. En outre, le domaine de connaissance à montrer qu un événement important commence toujours par l affichage de plusieurs plans loin, suivis par quelques plans médiums et à la fin, plusieurs plans proches sont diffusés. Plusieurs recherches ont été effectuées dans le domaine de la classification des plans. Nous citons les techniques qui utilisent : 1) la carte de blocs du terrain [19], 2) l arbre de décision [20], 3) les SVMs [4], 4) les SVMs et les histogrammes de projections [5], 5) l apparition les lignes du terrain [6], 6) la règle de la Golden Section Spatial Composition [7] et 7) la classification des plans haut-bas [8]. 2.3.1 Classification des plans avec la carte de blocs du terrain Ahn et al. [19] ont proposé une méthode pour classifier les plans en quatre types : loin, médium, proche avec le terrain en arrière plan (CloseFB) et proche sans terrain en arrière plan (CloseNFB). Leur méthode traite la quantité et la localisation des régions vertes du terrain sur les plans. Les plans loin sont des images capturées d une longue distance. Par conséquent, la plupart des parties du plan ont tendance à être occupées par le terrain. Dans les plans médium, les parties basses du plan sont souvent remplies d herbe. Ensuite, Ahn et al. divisent les plans proches en deux groupes : proche avec du terrain et proche sans terrain. L approche d Ahn et al. [19] consiste alors à construire une carte de blocs du

Chaptire 2. La vidéo de football 16 terrain et à détecter les frontières des plans pour classifier les images clés. Le traitement est réalisé selon le processus suivant : 1) Partitionner le plan en question en blocs de 16*16 pour générer une carte de blocs de terrain (GBM) du plan. Un bloc de terrain est caractérisé par un grand nombre de pixels verts. 2) Détecter les bordures de plans en utilisant la différence temporelle entre les blocs TBD dans les GBMs. 3) Séparer les plans loin des autres par la recherche du plus long segment vidéo qui contient des pixels verts à la i ime colonne du bloc (LGS i ). Si la longueur du LGS i est supérieure à un certain seuil alors le plan est loin sinon il est non loin. Ensuite, les plans non loin sont classifiés en : plans qui contiennent une partie du terrain, plans qui visualisent la moitié du terrain et les plans qui affichent tout le terrain. Ahn et al. [19] distinguent les trois types de plans non loin par le calcul du nombre de blocs de terrain localisés sur la moitié supérieure et la ligne basse du plan. 2.3.2 Classification des plans avec un arbre de décision Tong et al. [20] définissent cinq types de plans : répétition, loin, médium, CloseFB, CloseNFB et hors du terrain. Tong et al. utilisent la méthode proposée par Duda et al. [3] qui ont construit l arbre de décision illustrée sur la figure 2.10. La classification des plans est réalisée via l analyse d un ensemble de descripteurs visuels.