Ministère de l Enseignement Supérieur et de la Recherche Scientifique



Documents pareils
Apprentissage Automatique

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Coup de Projecteur sur les Réseaux de Neurones

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Un code-barre sur la tête?

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La classification automatique de données quantitatives

Mesure agnostique de la qualité des images.

Introduction au Data-Mining

INF6304 Interfaces Intelligentes

Introduction au datamining

données en connaissance et en actions?

Reconnaissance du locuteur

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

MORPHO CRIMINAL JUSTICE SUITE

NON-LINEARITE ET RESEAUX NEURONAUX

Modélisation du comportement habituel de la personne en smarthome

Résumé des communications des Intervenants

Vérification audiovisuelle de l identité

N SIMON Anne-Catherine

Pourquoi l apprentissage?

Méthodes de Simulation

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Raisonnement probabiliste

Analyse des bruits de clavier d ordinateur

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Principe de symétrisation pour la construction d un test adaptatif

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Analyse dialectométrique des parlers berbères de Kabylie

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Extraction de descripteurs musicaux: une approche évolutionniste

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Introduction au Data-Mining

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Cours de méthodes de scoring

Chaine de transmission

Laboratoire 4 Développement d un système intelligent

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Transmission d informations sur le réseau électrique

Expérience 3 Formats de signalisation binaire

L apprentissage automatique

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Projet de Traitement du Signal Segmentation d images SAR

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

4.2 Unités d enseignement du M1

Présentation BAI -CITC

PROGRAMME (Susceptible de modifications)

Modélisation aléatoire en fiabilité des logiciels

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Chapitre I La fonction transmission

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

UNIVERSITÉ PARIS-SORBONNE

MCMC et approximations en champ moyen pour les modèles de Markov

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Rapport : Base de données. Anthony Larcher 1

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Nom de l application

Etude et conception d un serveur vocal :

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Travailler avec les télécommunications

Synthèse «Le Plus Grand Produit»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Paramétrisation adaptée de transitoires pour la reconnaissance d instruments de musique

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

3 Approximation de solutions d équations

Programmes des classes préparatoires aux Grandes Ecoles

Document d orientation sur les allégations issues d essais de non-infériorité

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

4. Résultats et discussion

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Introduction à l approche bootstrap

Classification Automatique de messages : une approche hybride

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Améliorer les performances du site par l'utilisation de techniques de Web Mining

NORME INTERNATIONALE D AUDIT 330 REPONSES DE L AUDITEUR AUX RISQUES EVALUES

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

LIVRE BLANC Décembre 2014

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

Soutenance de stage Laboratoire des Signaux et Systèmes

Principe et règles d audit

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Transcription:

Ministère de l Enseignement Supérieur et de la Recherche Scientifique Institut National de Formation en Informatique (I.N.I) Oued Smar Alger Direction de la Post Graduation et de la Recherche Thème : Inférence d identité dans le domaine forensique en utilisant un système de reconnaissance automatique du locuteur adapté au dialecte Algérien Mémoire présenté pour obtenir le grade de MAGISTER EN IFORMATIQUE Spécialité Informatique Industrielle (II) Par : Tounsi bilal Proposé par : Dr. Bessalah Hamid M r. Bengherabi Messaoud Jury: M r. Ait Aoudia Samy Maître de Conférence (INI) Président M r. Guessoum Abderrezak Professeur (Blida) Examinateur M r. Ait Ali Yahia Yasine Chargé de Cours (INI) Examinateur M r. Bessalah Hamid Maître de Recherche (CDTA) Directeur de Mémoire M r. Bengherabi Messaoud Chargé de Recherche (CDTA) Invité Année Universitaire : 2007/2008

Remerciements Je tiens à remercier tout particulièrement mes encadreurs de Mémoire, Monsieur Bessalah Hamid, Ministre de la post et des technologies des informations et de la télécommunication, et Monsieur Bengherabi Messaoud, Chargé de recherche au Centre du Développement des Technologies Avancées (CDTA), pour leurs aides et conseils qu ils m ont apportés tout au long de ce travail Je tiens également à remercier Mr Harizi Farid et Mlle Mezai Lamia pour son aide dans la correction du mémoire. Je tiens aussi à remercier les membres de mon jury pour avoir accepter de juger mon travail. Finalement, je tiens à remercier tout ceux qui ont contribué de près ou de loin à la finalisation de ce travail. ii

Résumé La reconnaissance automatique du locuteur est le processus qui détermine automatiquement l identité de celui qui parle en se basant sur ses caractéristiques vocales. Actuellement, ce type de système est largement utilisé dans plusieurs domaines, essentiellement, dans la sécurisation d accès à des sites protégés, pour faire des transactions bancaires, ou pour répondre aux besoins d un tribunal pour un crime ou un litige civil. Le développement fulgurant des moyens de communications vocales (Mobile, VoIP,..) a permet à un grand flux d informations de circuler à travers les différents supports de communication. Ces informations peuvent être très utiles pour résoudre des problèmes criminalistiques. En effet, on peut facilement capturer des traces vocales, qui peuvent être analysées au moyen d un système de reconnaissance automatique du locuteur, et par conséquent, aider le tribunal à prendre une décision. Le travail présenté dans ce mémoire porte essentiellement sur l identification automatique du locuteur dans le domaine criminalistique (Forensique) adapté au dialecte algérien. Malgré que cette étude concerne de plus le cas criminalistique, tous les autres types des systèmes RAL (Reconnaissance Automatique du Locuteur) ont été étudiés. La contribution majeure de ce travail se voit dans la construction d une base de données de locuteurs algériens. Cette dernière est le résultat d une collaboration entre le CDTA (Centre du Développement des Technologies Avancées) et la société espagnole AGNITIO. La base de données nous a permis d effectuer plusieurs tests d évaluation sur les différents systèmes RAL. En plus, elle peut être utilisée pour construire un modèle UBM (Universal Background Model), qui représente la distribution statistique de l espace des vecteurs acoustiques des locuteurs algériens. Les expériences réalisées montrent que le système d identification forensique du locuteur est très intéressant et peut aider énormément à résoudre des problèmes criminalistiques. En effet, nous avons eu des résultats très promoteurs dans plusieurs conditions différentes. Nous avons aussi remarqué que les conditions d enregistrement iii

et les supports de transmission ont une grande influence sur les performances d un système d identification forensique du locuteur. Mots clés : Reconnaissance automatique du locuteur RAL, Identification forensique, Approche Bayesienne, Modèle de mélange de gaussiennes GMM, Vecteurs acoustiques. iv

Sommaire Sommaire Remerciements... 1 Résumé... iii Introduction générale... 1 Contexte et Motivation... 1 L organisation du mémoire... 2 Partie I : Introduction à la reconaissance automatique du locuteur 1 Généralités sur l identification du locuteur en criminalistique... 3 1.1 L identification forensique du locuteur... 5 1.2 Les techniques utilisées dans l identification forensique du locuteur... 6 1.2.1 L identification auditive du locuteur... - 6-1.2.2 L identification du locuteur par l inspection visuelle des spectrogrammes- 7-1.2.3 L identification automatique du locuteur en criminalistique... - 8-1.3 L estimation de la puissance d une preuve par l approche Bayesienne... 11 1.4 Conclusion... 11 2 Etat de l art sur la reconnaissance automatique du locuteur... 13 2.1 La reconnaissance automatique du locuteur... 13 2.1.1 La vérification du locuteur... - 15-2.1.2 L identification du locuteur... - 16-2.1.3 Une comparaison entre l identification et la vérification automatique du locuteur... - 16-2.1.4 Les paramètres acoustiques... - 19-2.1.5 La modélisation des paramètres acoustiques... - 20-2.2 Une comparaison entre l identification forensique du locuteur et la reconnaissance automatique du locuteur... 26 a) L ensemble de référence... - 27 - v

Sommaire b) L approche Bayesienne...- 28 - c) Contrôle des échantillons...- 29-2.3 Conclusion... 30 3 L interprétation Bayesienne d une preuve scientifique... 31 3.1 L approche Bayesienne... 33 3.1.1 Les avantages de l approche Bayesienne... - 34-3.1.2 Les inconvénients de l approche Bayesienne... - 34-3.2 L approche Bayesienne appliquée aux systèmes d identification forensique du locuteur... 35 3.2.1 Les bases de données... - 36-3.2.2 L évaluation d un système biométrique en science forensique... - 37-3.2.3 L échelle verbale du rapport de vraisemblance... - 39-3.2.4 Les méthodes d estimation de la preuve... - 39-3.3 Conclusion... 42 Partie II : Mise en oeuvre d un système d identification forensique du locuteur 4 Prétraitement et extraction des paramètres acoustiques... 43 4.1 Extraction des vecteurs acoustiques... 44 4.2 Le prétraitement... 44 4.2.1 La préaccentuation... - 44-4.2.2 L élimination du silence... - 45-4.3 Le fenêtrage... 51 4.4 L extraction des paramètres... 52 4.4.1 Les paramètres calculés par la prédiction linéaire... - 52-4.4.2 Les paramètres calculés par l analyse Mel cepstral... - 57-4.4.3 Les dérives des paramètres acoustiques... - 62-4.5 Post traitement... 63 4.6 Conclusion... 63 5 La modélisation des vecteurs acoustiques... 64 5.1 L estimation du modèle GMM par l algorithme EM... 65 5.1.2 La phase d apprentissage... - 68-5.1.3 La phase de classification ou de décision... - 73-5.2 L estimation du modèle GMM par l algorithme MAP... 74 5.3 Conclusion... 78 vi

Sommaire Partie III : Tests d évaluation et conclusions 6 Tests et résultats d évaluation... 79 6.1 La base de données... 80 6.2 L outil d évaluation... 82 6.3 Les résultats des tests d évaluation... 83 6.3.1 L évaluation du système d identification du locuteur... - 84-6.3.2 L évaluation du système de vérification du locuteur... - 85-6.3.3 L évaluation du système d identification criminalistique du locuteur... - 90-7 Conclusions et perspectives... 95 7.1 Perspectives... 98 Références... 99 Site web.... 103 vii

Liste des figures Figures Fig 1.1 : Exemple d un spectrogramme.... 9 Fig 1.2 : Courbes de mesure de confiance... 11 Fig 2.1: Schéma d un système de vérification du locuteur... 14 Fig 2.2 : Schéma d un système d identification du locuteur.... 15 Fig 2.3 : La quantification vectorielle [data]... 22 Fig 2.4 : Un modèle de Markov caché [wiki].... 23 Fig 2.5 : Exemple d un réseau de neurone à deux entrées et une sortie [wiki]... 24 Fig 2.6 : Exemple d un mélange de gaussiennes monodimensionnelle [wiki]... 26 Fig 3.1 : Exemple d un graphique de type TipetPlot... 41 Fig 3.2 : La méthode directe [ANIL, 05].... 41 Fig 3.3 : La méthode des scores [ANIL, 05].... 42 Fig 4.1 : Les étapes principales pour l extraction des paramètres.... 44 Fig 4.2 : Les étapes de prétraitement.... 44 Fig 4.3 : Le filtre de la préaccentuation.... 46 Fig 4.4: Les étapes principales pour éliminer le silence du deuxième algorithme... 48 Fig 4.5 : Les différentes mesures utilisées pour éliminer le silence.... 49 Fig 4.6 : Du signal s ( ) avec silence au signal x ( ) sans silence en utilisant la 1 n 1 n fonction VAD (n)... 50 Fig 4.7: Les étapes du fenêtrage.... 51 Fig 4.8 : Le découpage en trames.... 52 Fig 4.9: Un modèle du conduit vocal.... 53 Fig 4.10: Les étapes de la prédiction linéaire.... 53 Fig 4.11: Le modèle de production de parole avec les tubes acoustiques... 56 Fig 4.12 : Les étapes à suivre pour créer un cepstral réel.... 58 viii

Liste des figures Fig 4.13 : La transformation du Hz en Mel.... 60 Fig 4.14 : La répartition des filtres triangulaires sur les échelles... 60 Fréquentielle et Mel.... 60 Fig 4.15 : Les étapes pour le calcul des MFCC.... 61 Fig 4.16 : les étapes de post traitement.... 63 Fig 5.1 : Illustration de nuages acoustiques représentants l identité d un locuteur... 66 Fig 5.2 : Illustration des classes acoustiques d un locuteur dans un espace à 2 dimensions.... 66 Fig 5.3 : Approximation de la distribution d un paramètre acoustique par une combinaison de gaussiennes... 67 Fig 5.4 : Schéma de fonctionnement de l algorithme LBG.... 72 Fig 5.5: L adaptation par le technique MAP.... 75 Fig 6.1 : L organisation de la base de données.... 81 Fig 6.2 : L outil d évaluation... 82 Fig 6.3 : Un exemple de représentation graphique donnée par l outil d évaluation... 83 Fig 6.4 : L évaluation du système d identification du locuteur.... 85 Fig 6.5 : Courbe ROC Fixe Vs Fixe.... 87 Fig 6.6 : Courbe ROC Microphone Vs Microphone.... 88 Fig 6.7 : Courbe ROC Mobile Vs Mobile... 88 Fig 6.8 : Tippet plots Fixe Vs Fixe.... 91 Fig 6.9 : Tippet plots Microphone Vs Microphone.... 92 Fig 6.10 : Tippet plots Mobile Vs Mobile.... 92 ix

Liste des tableaux Tableaux Tab 3.1 : Quelques descriptions verbales du rapport de vraisemblance [ROSE, 02]... 40 Tab 6.1 : L ensemble de tests d évaluation qui peuvent être effectués sur la base de données de dialecte Algérien.... 80 Tab 6.2 : Tests effectués sur le système de vérification du locuteur.... 86 Tab 6.3 : EER des différentes courbes ROC.... 87 Tab 6.4: Les rapports de vraisemblance des hypothèses H 0 et H 1... 93 x

Liste des abréviations Abréviations DCT: Discret Cosine Transform. DTW: Dynamic Time Warping EER: Equal Error Rate. EM: Expectation Maximization. FA: False Acceptance. FBI: Federal Bureau of Investigations. FFT: Fast Fourrier Transform. FR: False Rejection. GMM: Gaussian Mixtures Models. HMM: Hidden Markov Model. LAR: Log Area Ratio. LBG: Linde, Buzo et Gray. LPCC: Linear Prediction Cepstral Coefficients. MAP: Maximum à posteriori. MFCC: Mel Frequencies Cepstral Coefficients. RC : Reflection Coefficients. RAL: Reconnaissance Automatique du Locuteur. ROC: Receiver Operating Characteristic UBM: Universal Background model. xi

Introduction générale Introduction générale 1. Contexte et Motivation Le besoin de faire identifier des locuteurs anonymes par leur voix a connu un grand développement au cours de ces dernières années. Plusieurs techniques ont été proposées pour faire cette tâche. Ces dernières peuvent être classées selon trois approches: l approche auditive, l approche semi automatique, et l approche automatique basée sur une interprétation bayesienne de la preuve. Le problème avec les deux premières approches réside dans le fait qu elles nécessitent toujours des interventions humaines pour identifier une personne. Cette intervention n est pas toujours facile à faire, en effet, nous avons des problèmes qui dépendent de la langue du discours, du nombre de locuteurs à identifier, et du temps nécessaire pour faire l identification d un locuteur. Heureusement, avec le développement de l informatique, des systèmes de reconnaissance automatique du locuteur sont apparus, et ont simplifié énormément la tâche de la reconnaissance du locuteur. L avantage des systèmes RAL est qu ils sont indépendants du texte, Indépendants de la langue du discours, et la reconnaissance du locuteur est totalement automatisée et ne nécessite aucune intervention humaine. L objectif principal de ce travail est d étudier et d évaluer un système d identification automatique du locuteur en criminalistique, en utilisant le modèle GMM (Gaussian Mixture Model), adapté au dialecte Algérien. Ce système est basé principalement sur l approche bayesienne. Cette approche nécessite la création de plusieurs bases de données pour permettre l estimation et l évaluation des modèles statistiques des locuteurs. Pour atteindre cet objectif, une base de données de 40 locuteurs a été construite au sein du CDTA (Centre de Développement des Technologies Avancées) et en coopération avec la société espagnole Agnitio, qui est un leader dans la Speech Technology et principalement dans la reconnaissance automatique du locuteur. Cette base de données a été utilisée pour construire un 1

Introduction générale modèle UBM (Universal Backgroud Model), qui est très intéressant pour la bonne estimation des modèles statistiques des locuteurs Algériens. 2. L organisation du mémoire Ce mémoire se compose de sept chapitres, organisés comme suit : Le Chapitre 1 présente des généralités sur l identification du locuteur en criminalistique. Le Chapitre 2 contient une présentation des différents systèmes de reconnaissance automatique du locuteur. Une comparaison entre les systèmes de vérification et d identification du locuteur d une part et le système d identification forensique du locuteur d une autre part, a été aussi présentée. Le Chapitre 3 décrit en détails l approche Bayesienne utilisée dans les systèmes d identification de n import qu elle discipline forensique. Dans le Chapitre 4, nous avons mentionné un ensemble de paramètres acoustiques utilisés dans les systèmes RAL. Le Chapitre 5 présente le modèle statistique le plus utilisé dans les systèmes de reconnaissance automatique du locuteur en mode indépendant du texte, à savoir, le modèle GMM (Gaussian Mixture Model). Le Chapitre 6 contient l ensemble des tests effectués et les résultats que nous avons obtenus. Le dernier chapitre conclue ce travail et met l accent sur quelques problèmes qui peuvent être traités par des futurs travaux. 2

Inférence d identité dans le domaine forensique en utilisant un système de reconnaissance automatique du locuteur adapté au dialecte Algérien Partie I : La reconaissance automatique du locuteur en criminalistique

Chapitre1 Généralités sur l identification du locuteur en criminalistique Généralités sur l identification du locuteur en criminalistique La science forensique est l utilisation des outils scientifiques pour répondre aux besoins d un tribunal pour un crime ou un litige civil [wiki]. Les principaux domaines utilisés dans la science forensique sont : la biologie, la chimie, et la médecine. Malgré la dominance de ces dernières, il est a mentionné qu il existe d autres disciplines utilisées telles que : la physique, l informatique, la géologie, et la psychologie [answers]. Par exemple, les paramètres biométriques traditionnels, tels que l ADN et l empreinte digitale, sont souvent utilisés dans plusieurs cas forensiques. La nature de preuve, trouvée dans la scène du crime ou collectée à partir d opérations d investigation, impose les méthodes ou les disciplines scientifiques nécessaires pour faire son étude. Dans ce mémoire, nous nous intéressons aux méthodes d identification d un enregistrement vocale. L analyse de la voix est utilisée, pour la première fois, durant la deuxième guère mondiale pour des buts d espionnage militaire. Son utilisation pour des investigations forensique remonte aux années 60s, elle repose sur le fait que chaque personne peut être identifiée à partir d un échantillon de sa voix. Un suspect peut laisser des enregistrements de sa voix sur le téléphone, le VoiceMail, un répondeur ou dans un enregistreur caché, et par la suite, il peut être utilisé comme preuve [enotes]. Un système forensique - 3 -

Chapitre1 Généralités sur l identification du locuteur en criminalistique d identification du locuteur est basé, principalement, sur un système de reconnaissance du locuteur, avec la prise en compte de certaines conditions et contraintes qui dépendent de la nature de cette application. Les approches les plus utilisées dans la reconnaissance du locuteur sont l approche auditive, l approche auditive instrumentale et l approche automatique. L approche auditive est basée principalement sur l écoute d un enregistrement audio par des phonéticiens expérimentés. Les différences perçues dans les paroles sont utilisées pour estimer la mesure de similarité entre les voix. Bien que cette approche ne soit pas adéquate pour la reconnaissance du locuteur, elle est très utile pour déterminer son profil. En plus de ces différences, les locuteurs se différent entre eux par leurs rythme de paroles, par leurs intonations, et par leurs articulations. L approche auditive a plusieurs limites. Dans l analyse phonétique traditionnelle, elle est utilisée pour extraire quelques paramètres d intérêt qui sont par la suite utilisés par l approche auditive instrumentale [ANIL, 05]. L approche auditive instrumentale implique le mesurage acoustique de plusieurs paramètres tels que : La fréquence fondamentale, le taux d articulation, l énergie spectrale, les formants, etc. Les moyennes et les variances de ces paramètres sont comparées pour faire l identification d un locuteur. L utilisation des spectrogrammes, pour la reconnaissance du locuteur, peut être considérée comme une autre méthode de cette approche [Bolt et al, 73] [ANIL, 05]. Le développement fulgurant de l informatique a donné une grande contribution à la reconnaissance automatique du locuteur et a permit de faire des traitements très complexes. En effet, la grande capacité de calcul des ordinateurs a contribué à l apparition de ce type de systèmes. Dans un système de reconnaissance automatique du locuteur, les modèles statistiques des paramètres acoustiques de la voix du locuteur sont comparés avec les paramètres acoustiques extraits de l enregistrement audio en question. - 4 -

Chapitre1 Généralités sur l identification du locuteur en criminalistique Le degré de similarité entre les paramètres acoustiques extraits de l enregistrement en question (ou la trace), et ceux extrait d un enregistrement du suspect, représenté par son modèle statistique, est calculé pour évaluer la preuve [Dryg et al, 03]. Dans les systèmes forensiques de reconnaissance automatique du locuteur, la puissance d une telle preuve est donnée par la probabilité d observer les paramètres de la trace dans le modèle statistique de la voix du locuteur suspect et dans les modèles des voix d une population potentielle [ANIL, 05]. Les systèmes de reconnaissance automatique du locuteur ont connu un grand succès durant ces dernières années. Cela est dû aux types des paramètres acoustiques utilisés qui donnent une présentation meilleure et plus complète du conduit vocal par rapport aux paramètres traditionnels. Malheureusement, l utilisation d un tel système dans le domaine forensique reste très limitée. Ce déphasage peut être expliqué par le fait, de la difficulté d expliquer au jury la signification des paramètres acoustiques, par exemple : les coefficients cepstraux, d une part, et par le manque d une interprétation qui relie ces coefficients (coefficients cepstraux) aux propriétés linguistiques, auditives, ou articulatoires des voix traitées, d une autre part [Rose, 02]. 1.1 L identification forensique du locuteur L identification ou la reconnaissance forensique (criminalistique) du locuteur est une tâche très complexe et nécessite la compréhension de plusieurs disciplines scientifiques y compris, les linguistiques, l acoustique, le traitement de signal et les statistiques. Avec le développement fulgurant de la téléphonie et l utilisation de la voix humaine pour commettre des crimes, l identification des personnes par leur voix est devenue un domaine populaire et objet d étude de plusieurs centres de recherche dans le monde. D après [ROSE, 02], la définition de l identification forensique d un locuteur est comme suit : - 5 -

Chapitre1 Généralités sur l identification du locuteur en criminalistique «C est l avis des experts dans un processus légal pour répondre à la question suivante : est ce que un ou plusieurs enregistrements vocaux sont générés par le même locuteur ou non?» Il existe plusieurs techniques utilisées dans le domaine de la reconnaissance forensique du locuteur. Dans ce que suit, nous présentons ces différentes techniques. 1.2 Les techniques utilisées dans l identification forensique du locuteur Dans les dernières années, plusieurs études ont été faites sur l évolution historique de l identification forensique du locuteur. Plusieurs auteurs ont publié des livres qui couvrent quelques techniques utilisées par des phonéticiens, des linguistes et des experts de la voix. Les techniques utilisées dans l identification forensique du locuteur peuvent être résumées en trois classes : 1) l identification auditive, 2) l identification par la visualisation des spectrogrammes, et 3) l identification automatique du locuteur. Dans ce qui suit, nous donnons une brève description à chaque technique. 1.2.1 L identification auditive du locuteur L identification auditive est faite par l écoute d un ou de plusieurs enregistrements vocaux afin de pouvoir identifier la résultats sont possibles : source de ces voix. Dans cette technique, trois L auditeur n est pas familiarisé avec la voix traitée, dans ce cas la source de la voix est inconnue. La voix est reconnue par l auditeur, mais ce dernier, ne peut pas l associée à un locuteur. La voix est reconnue par l auditeur qui l associée à un locuteur. - 6 -

Chapitre1 Généralités sur l identification du locuteur en criminalistique L application de cette technique dans le domaine forensique est faite selon deux variantes, la reconnaissance naïve et la reconnaissance technique. L identification naïve est faite par des personnes non expertes, sans l utilisation d aucune technique. Dans le cas usuel, cette tâche est faite par des victimes ou par des témoins. Bien que ce type de reconnaissance puisse être d une valeur significative au tribunal, dans le cas où on ne dispose pas d un enregistrement vocal, la fiabilité et la performance de cette méthode dépend de plusieurs paramètres, y compris, le temps écoulé depuis que le crime soit commis, la duré dans laquelle la victime a entendu la voix du criminel, etc [NOLA, 97]. En plus, la capacité de reconnaître une personne par sa voix varie largement selon les conditions de l écoute, le nombre d expériences, le nombre des voix inconnues, etc. L autre variante de l identification auditive, à savoir, la reconnaissance technique, est faite par des experts phonétiques ou linguistiques. L analyse de la voix est faite par l utilisation des méthodes scientifiques qui permet, non seulement, d expliquer l avis de l expert, mais aussi de pouvoir analyser cet avis par d autres experts. Malgré que l opinion des experts est acceptée par des tribunaux de plusieurs payés, l identification forensique du locuteur basée uniquement sur «l approche auditive» n est pas acceptée par plusieurs experts dans ce domaine [MEHR, 06]. 1.2.2 L identification du locuteur par l inspection visuelle des spectrogrammes Dans cette technique, l examinateur commence le processus de comparaison en plaçant des pairs de spectrogrammes correspondants à la même phrase et les compare mot par mot. D après [TOSI, 79], les paramètres les plus utilisés dans ce type de comparaison sont, les moyennes des fréquences, les pentes des formants, les interformants, et la densité de la puissance nasale. L analyse spectrographique a été largement utilisée et acceptée dans les Etats Unies, des payés de l Europe, et d autre payés pendant les années 1960s et 1970s. Cependant, cette technique a été abandonnée dans quelques - 7 -

Chapitre1 Généralités sur l identification du locuteur en criminalistique payés tel que l Allemagne et les Etats Unies pour plusieurs raisons. Parmi ces raisons, nous pouvons citer : La supposition principale dans l analyse spectrographique est que les variabilités inter locuteur d un modèle spectrographique, pour des mêmes paroles, sont très grandes de celles d intra locuteur. Cette supposition n était pas évidente après l analyse spectrographique de plusieurs paroles des mêmes et des différents locuteurs [FREN, 94]. Il n est pas clair de signaler légalement une similarité ou une différence significative entre des spectrogrammes. En plus, la décision dépend principalement des compétences de l examinateur [KUNZ, 95]. L analyse spectrographique a donnée des performances moins que celles de l analyse auditive [KUNZ, 95] [NOLA, 83]. Pour ces raisons, plusieurs chercheurs ont pensé que le nom «empreinte vocale» est une appellation impropre en le comparant par «l empreinte digitale». La différence la plus significative est la rigidité de l empreinte digitale par rapport à la flexibilité des échantillons vocaux. De plus, la plus part des chercheurs pensent que l utilisation de l analyse spectrographique n est qu une transformation d une comparaison auditive en une comparaison visuelle. En résumé, l interprétation des spectrogrammes n est pas une technique adéquate pour un système d identification forensique du locuteur [MEHR, 06]. 1.2.3 L identification automatique du locuteur en criminalistique Deux méthodes ont été utilisées pour faire une identification automatique du locuteur en criminalistique, la première est basée sur une approche bayesienne, tandis que la deuxième est basée sur l utilisation d intervalle de confiance. Dans la section suivante, nous donnons une brève description des deux approches. - 8 -

Chapitre1 Généralités sur l identification du locuteur en criminalistique Fig 1.1 : Exemple d un spectrogramme. L identification forensique du locuteur par l approche Bayesienne Le théorème de Bayes est parmi les facteurs les plus importants dans l évolution historique des systèmes d identification forensique du locuteur. L utilisation des rapports de vraisemblances a aidé les experts à quantifier et interpréter la puissance d une preuve scientifique dans le domaine forensique. Comme il a été mentionné par [AITK, 95], dans la science forensique, l identité de la source d une preuve ne peut pas être connue avec certitude, et par conséquent, elle doit être inférée ou déduite. Le processus d inférence dans un contexte forensique, peut être vu comme étant un processus de réduction d une population initiale à un groupe restreint ou éventuellement à une seule personne [MEUW, 01]. Dans l approche bayesienne, le rapport de vraisemblance est le rapport entre deux probabilités conditionnelles, sous deux hypothèses concurrentes, d une même preuve. Les deux hypothèses sont les suivantes [ANIL, 07] : H 0 : Le suspect est la source de l enregistrement vocal. H 1 : L origine de l enregistrement vocal n est pas le locuteur suspect. - 9 -

Chapitre1 Généralités sur l identification du locuteur en criminalistique Il est à mentionner que le rapport de vraisemblance n est pas un test d une hypothèse sur un ensemble de données, mais plutôt, un moyen de comparaison de deux hypothèses compétitives. Par exemple, si nous avons un rapport de vraisemblance de 10, alors il est dix fois possible d avoir la preuve sous l hypothèse H 0 que sous l hypothèse H 1 [EVET, 95]. Parmi les raisons pour lesquelles l approche Bayesienne est adéquate pour l évaluation et l interprétation d une preuve forensique, [ROSE, 02] a cité: C est une théorie logique démontrée et ne contient aucun doute. Elle dirige le tribunal, les jurés et principalement les experts à considérer la probabilité conditionnelle de la preuve sous deux hypothèses concurrentes [AITK, 95]. Elle clarifie et sépare les rôles du juge et des experts forensiques. Elle assiste les experts dans l évaluation de la valeur d une preuve scientifique et la présenter sous forme d une vraisemblance. C est une très bonne méthode pour combiner des nouvelles preuves. Pour ces raisons, nous avons choisi cette approche pour être l objet d étude de ce mémoire. Elle sera étudiée en détails dans le troisième chapitre. L identification forensique du locuteur par intervalle de confiance Dans cette technique, une mesure de confiance est calculée pour supporter une des hypothèses H0 ou H1 définies plus haut. Les mesures de confiance sont utilisées pour décider de rejeter ou d accepter une hypothèse de reconnaissance. La prise de décision s appuie sur un test du rapport de vraisemblance. Cette technique est développée au sein du FBI (Federal Bureau of Investigation) par Nakazone en 2002 [NAKA, 01]. - 10 -

Chapitre1 Généralités sur l identification du locuteur en criminalistique Elle est très semblable à la première méthode car elles sont, toutes les deux, basées sur l utilisation des rapports de vraisemblances. 0.06 Les scores 0.04 Probabilité 0.02 Faux Score Vrai Score Test Score 0.8 0 1 0.5 0 0.5 1 1.5 2 1 Probabilité de mesure de confiance P(Ht x) 0.6 0.4 0.2 Courbe de confiance Test Score Valeur de confiance 0 1 0.5 0 0.5 1 1.5 2 GMM Scores Fig 1.2 : Courbes de mesure de confiance 1.3 L estimation de la puissance d une preuve par l approche Bayesienne Identifier une personne par l analyse de sa voix est une tâche très difficile. Cela est dû à la variabilité des caractéristiques vocales, non seulement pour des locuteurs différents, mais aussi pour le locuteur à identifier. Dans la réalité, les caractéristiques vocales d un locuteur montrent des variations moins importantes pour le même locuteur par apport à une population potentielle, en comparant les mêmes caractéristiques vocales. Dans les systèmes forensique d identification automatique du locuteur, le problème principal réside dans la difficulté de trouver une formule de vraisemblance qui prend en - 11 -