Ministère de l Enseignement Supérieur et de la Recherche Scientifique Institut National de Formation en Informatique (I.N.I) Oued Smar Alger Direction de la Post Graduation et de la Recherche Thème : Inférence d identité dans le domaine forensique en utilisant un système de reconnaissance automatique du locuteur adapté au dialecte Algérien Mémoire présenté pour obtenir le grade de MAGISTER EN IFORMATIQUE Spécialité Informatique Industrielle (II) Par : Tounsi bilal Proposé par : Dr. Bessalah Hamid M r. Bengherabi Messaoud Jury: M r. Ait Aoudia Samy Maître de Conférence (INI) Président M r. Guessoum Abderrezak Professeur (Blida) Examinateur M r. Ait Ali Yahia Yasine Chargé de Cours (INI) Examinateur M r. Bessalah Hamid Maître de Recherche (CDTA) Directeur de Mémoire M r. Bengherabi Messaoud Chargé de Recherche (CDTA) Invité Année Universitaire : 2007/2008
Remerciements Je tiens à remercier tout particulièrement mes encadreurs de Mémoire, Monsieur Bessalah Hamid, Ministre de la post et des technologies des informations et de la télécommunication, et Monsieur Bengherabi Messaoud, Chargé de recherche au Centre du Développement des Technologies Avancées (CDTA), pour leurs aides et conseils qu ils m ont apportés tout au long de ce travail Je tiens également à remercier Mr Harizi Farid et Mlle Mezai Lamia pour son aide dans la correction du mémoire. Je tiens aussi à remercier les membres de mon jury pour avoir accepter de juger mon travail. Finalement, je tiens à remercier tout ceux qui ont contribué de près ou de loin à la finalisation de ce travail. ii
Résumé La reconnaissance automatique du locuteur est le processus qui détermine automatiquement l identité de celui qui parle en se basant sur ses caractéristiques vocales. Actuellement, ce type de système est largement utilisé dans plusieurs domaines, essentiellement, dans la sécurisation d accès à des sites protégés, pour faire des transactions bancaires, ou pour répondre aux besoins d un tribunal pour un crime ou un litige civil. Le développement fulgurant des moyens de communications vocales (Mobile, VoIP,..) a permet à un grand flux d informations de circuler à travers les différents supports de communication. Ces informations peuvent être très utiles pour résoudre des problèmes criminalistiques. En effet, on peut facilement capturer des traces vocales, qui peuvent être analysées au moyen d un système de reconnaissance automatique du locuteur, et par conséquent, aider le tribunal à prendre une décision. Le travail présenté dans ce mémoire porte essentiellement sur l identification automatique du locuteur dans le domaine criminalistique (Forensique) adapté au dialecte algérien. Malgré que cette étude concerne de plus le cas criminalistique, tous les autres types des systèmes RAL (Reconnaissance Automatique du Locuteur) ont été étudiés. La contribution majeure de ce travail se voit dans la construction d une base de données de locuteurs algériens. Cette dernière est le résultat d une collaboration entre le CDTA (Centre du Développement des Technologies Avancées) et la société espagnole AGNITIO. La base de données nous a permis d effectuer plusieurs tests d évaluation sur les différents systèmes RAL. En plus, elle peut être utilisée pour construire un modèle UBM (Universal Background Model), qui représente la distribution statistique de l espace des vecteurs acoustiques des locuteurs algériens. Les expériences réalisées montrent que le système d identification forensique du locuteur est très intéressant et peut aider énormément à résoudre des problèmes criminalistiques. En effet, nous avons eu des résultats très promoteurs dans plusieurs conditions différentes. Nous avons aussi remarqué que les conditions d enregistrement iii
et les supports de transmission ont une grande influence sur les performances d un système d identification forensique du locuteur. Mots clés : Reconnaissance automatique du locuteur RAL, Identification forensique, Approche Bayesienne, Modèle de mélange de gaussiennes GMM, Vecteurs acoustiques. iv
Sommaire Sommaire Remerciements... 1 Résumé... iii Introduction générale... 1 Contexte et Motivation... 1 L organisation du mémoire... 2 Partie I : Introduction à la reconaissance automatique du locuteur 1 Généralités sur l identification du locuteur en criminalistique... 3 1.1 L identification forensique du locuteur... 5 1.2 Les techniques utilisées dans l identification forensique du locuteur... 6 1.2.1 L identification auditive du locuteur... - 6-1.2.2 L identification du locuteur par l inspection visuelle des spectrogrammes- 7-1.2.3 L identification automatique du locuteur en criminalistique... - 8-1.3 L estimation de la puissance d une preuve par l approche Bayesienne... 11 1.4 Conclusion... 11 2 Etat de l art sur la reconnaissance automatique du locuteur... 13 2.1 La reconnaissance automatique du locuteur... 13 2.1.1 La vérification du locuteur... - 15-2.1.2 L identification du locuteur... - 16-2.1.3 Une comparaison entre l identification et la vérification automatique du locuteur... - 16-2.1.4 Les paramètres acoustiques... - 19-2.1.5 La modélisation des paramètres acoustiques... - 20-2.2 Une comparaison entre l identification forensique du locuteur et la reconnaissance automatique du locuteur... 26 a) L ensemble de référence... - 27 - v
Sommaire b) L approche Bayesienne...- 28 - c) Contrôle des échantillons...- 29-2.3 Conclusion... 30 3 L interprétation Bayesienne d une preuve scientifique... 31 3.1 L approche Bayesienne... 33 3.1.1 Les avantages de l approche Bayesienne... - 34-3.1.2 Les inconvénients de l approche Bayesienne... - 34-3.2 L approche Bayesienne appliquée aux systèmes d identification forensique du locuteur... 35 3.2.1 Les bases de données... - 36-3.2.2 L évaluation d un système biométrique en science forensique... - 37-3.2.3 L échelle verbale du rapport de vraisemblance... - 39-3.2.4 Les méthodes d estimation de la preuve... - 39-3.3 Conclusion... 42 Partie II : Mise en oeuvre d un système d identification forensique du locuteur 4 Prétraitement et extraction des paramètres acoustiques... 43 4.1 Extraction des vecteurs acoustiques... 44 4.2 Le prétraitement... 44 4.2.1 La préaccentuation... - 44-4.2.2 L élimination du silence... - 45-4.3 Le fenêtrage... 51 4.4 L extraction des paramètres... 52 4.4.1 Les paramètres calculés par la prédiction linéaire... - 52-4.4.2 Les paramètres calculés par l analyse Mel cepstral... - 57-4.4.3 Les dérives des paramètres acoustiques... - 62-4.5 Post traitement... 63 4.6 Conclusion... 63 5 La modélisation des vecteurs acoustiques... 64 5.1 L estimation du modèle GMM par l algorithme EM... 65 5.1.2 La phase d apprentissage... - 68-5.1.3 La phase de classification ou de décision... - 73-5.2 L estimation du modèle GMM par l algorithme MAP... 74 5.3 Conclusion... 78 vi
Sommaire Partie III : Tests d évaluation et conclusions 6 Tests et résultats d évaluation... 79 6.1 La base de données... 80 6.2 L outil d évaluation... 82 6.3 Les résultats des tests d évaluation... 83 6.3.1 L évaluation du système d identification du locuteur... - 84-6.3.2 L évaluation du système de vérification du locuteur... - 85-6.3.3 L évaluation du système d identification criminalistique du locuteur... - 90-7 Conclusions et perspectives... 95 7.1 Perspectives... 98 Références... 99 Site web.... 103 vii
Liste des figures Figures Fig 1.1 : Exemple d un spectrogramme.... 9 Fig 1.2 : Courbes de mesure de confiance... 11 Fig 2.1: Schéma d un système de vérification du locuteur... 14 Fig 2.2 : Schéma d un système d identification du locuteur.... 15 Fig 2.3 : La quantification vectorielle [data]... 22 Fig 2.4 : Un modèle de Markov caché [wiki].... 23 Fig 2.5 : Exemple d un réseau de neurone à deux entrées et une sortie [wiki]... 24 Fig 2.6 : Exemple d un mélange de gaussiennes monodimensionnelle [wiki]... 26 Fig 3.1 : Exemple d un graphique de type TipetPlot... 41 Fig 3.2 : La méthode directe [ANIL, 05].... 41 Fig 3.3 : La méthode des scores [ANIL, 05].... 42 Fig 4.1 : Les étapes principales pour l extraction des paramètres.... 44 Fig 4.2 : Les étapes de prétraitement.... 44 Fig 4.3 : Le filtre de la préaccentuation.... 46 Fig 4.4: Les étapes principales pour éliminer le silence du deuxième algorithme... 48 Fig 4.5 : Les différentes mesures utilisées pour éliminer le silence.... 49 Fig 4.6 : Du signal s ( ) avec silence au signal x ( ) sans silence en utilisant la 1 n 1 n fonction VAD (n)... 50 Fig 4.7: Les étapes du fenêtrage.... 51 Fig 4.8 : Le découpage en trames.... 52 Fig 4.9: Un modèle du conduit vocal.... 53 Fig 4.10: Les étapes de la prédiction linéaire.... 53 Fig 4.11: Le modèle de production de parole avec les tubes acoustiques... 56 Fig 4.12 : Les étapes à suivre pour créer un cepstral réel.... 58 viii
Liste des figures Fig 4.13 : La transformation du Hz en Mel.... 60 Fig 4.14 : La répartition des filtres triangulaires sur les échelles... 60 Fréquentielle et Mel.... 60 Fig 4.15 : Les étapes pour le calcul des MFCC.... 61 Fig 4.16 : les étapes de post traitement.... 63 Fig 5.1 : Illustration de nuages acoustiques représentants l identité d un locuteur... 66 Fig 5.2 : Illustration des classes acoustiques d un locuteur dans un espace à 2 dimensions.... 66 Fig 5.3 : Approximation de la distribution d un paramètre acoustique par une combinaison de gaussiennes... 67 Fig 5.4 : Schéma de fonctionnement de l algorithme LBG.... 72 Fig 5.5: L adaptation par le technique MAP.... 75 Fig 6.1 : L organisation de la base de données.... 81 Fig 6.2 : L outil d évaluation... 82 Fig 6.3 : Un exemple de représentation graphique donnée par l outil d évaluation... 83 Fig 6.4 : L évaluation du système d identification du locuteur.... 85 Fig 6.5 : Courbe ROC Fixe Vs Fixe.... 87 Fig 6.6 : Courbe ROC Microphone Vs Microphone.... 88 Fig 6.7 : Courbe ROC Mobile Vs Mobile... 88 Fig 6.8 : Tippet plots Fixe Vs Fixe.... 91 Fig 6.9 : Tippet plots Microphone Vs Microphone.... 92 Fig 6.10 : Tippet plots Mobile Vs Mobile.... 92 ix
Liste des tableaux Tableaux Tab 3.1 : Quelques descriptions verbales du rapport de vraisemblance [ROSE, 02]... 40 Tab 6.1 : L ensemble de tests d évaluation qui peuvent être effectués sur la base de données de dialecte Algérien.... 80 Tab 6.2 : Tests effectués sur le système de vérification du locuteur.... 86 Tab 6.3 : EER des différentes courbes ROC.... 87 Tab 6.4: Les rapports de vraisemblance des hypothèses H 0 et H 1... 93 x
Liste des abréviations Abréviations DCT: Discret Cosine Transform. DTW: Dynamic Time Warping EER: Equal Error Rate. EM: Expectation Maximization. FA: False Acceptance. FBI: Federal Bureau of Investigations. FFT: Fast Fourrier Transform. FR: False Rejection. GMM: Gaussian Mixtures Models. HMM: Hidden Markov Model. LAR: Log Area Ratio. LBG: Linde, Buzo et Gray. LPCC: Linear Prediction Cepstral Coefficients. MAP: Maximum à posteriori. MFCC: Mel Frequencies Cepstral Coefficients. RC : Reflection Coefficients. RAL: Reconnaissance Automatique du Locuteur. ROC: Receiver Operating Characteristic UBM: Universal Background model. xi
Introduction générale Introduction générale 1. Contexte et Motivation Le besoin de faire identifier des locuteurs anonymes par leur voix a connu un grand développement au cours de ces dernières années. Plusieurs techniques ont été proposées pour faire cette tâche. Ces dernières peuvent être classées selon trois approches: l approche auditive, l approche semi automatique, et l approche automatique basée sur une interprétation bayesienne de la preuve. Le problème avec les deux premières approches réside dans le fait qu elles nécessitent toujours des interventions humaines pour identifier une personne. Cette intervention n est pas toujours facile à faire, en effet, nous avons des problèmes qui dépendent de la langue du discours, du nombre de locuteurs à identifier, et du temps nécessaire pour faire l identification d un locuteur. Heureusement, avec le développement de l informatique, des systèmes de reconnaissance automatique du locuteur sont apparus, et ont simplifié énormément la tâche de la reconnaissance du locuteur. L avantage des systèmes RAL est qu ils sont indépendants du texte, Indépendants de la langue du discours, et la reconnaissance du locuteur est totalement automatisée et ne nécessite aucune intervention humaine. L objectif principal de ce travail est d étudier et d évaluer un système d identification automatique du locuteur en criminalistique, en utilisant le modèle GMM (Gaussian Mixture Model), adapté au dialecte Algérien. Ce système est basé principalement sur l approche bayesienne. Cette approche nécessite la création de plusieurs bases de données pour permettre l estimation et l évaluation des modèles statistiques des locuteurs. Pour atteindre cet objectif, une base de données de 40 locuteurs a été construite au sein du CDTA (Centre de Développement des Technologies Avancées) et en coopération avec la société espagnole Agnitio, qui est un leader dans la Speech Technology et principalement dans la reconnaissance automatique du locuteur. Cette base de données a été utilisée pour construire un 1
Introduction générale modèle UBM (Universal Backgroud Model), qui est très intéressant pour la bonne estimation des modèles statistiques des locuteurs Algériens. 2. L organisation du mémoire Ce mémoire se compose de sept chapitres, organisés comme suit : Le Chapitre 1 présente des généralités sur l identification du locuteur en criminalistique. Le Chapitre 2 contient une présentation des différents systèmes de reconnaissance automatique du locuteur. Une comparaison entre les systèmes de vérification et d identification du locuteur d une part et le système d identification forensique du locuteur d une autre part, a été aussi présentée. Le Chapitre 3 décrit en détails l approche Bayesienne utilisée dans les systèmes d identification de n import qu elle discipline forensique. Dans le Chapitre 4, nous avons mentionné un ensemble de paramètres acoustiques utilisés dans les systèmes RAL. Le Chapitre 5 présente le modèle statistique le plus utilisé dans les systèmes de reconnaissance automatique du locuteur en mode indépendant du texte, à savoir, le modèle GMM (Gaussian Mixture Model). Le Chapitre 6 contient l ensemble des tests effectués et les résultats que nous avons obtenus. Le dernier chapitre conclue ce travail et met l accent sur quelques problèmes qui peuvent être traités par des futurs travaux. 2
Inférence d identité dans le domaine forensique en utilisant un système de reconnaissance automatique du locuteur adapté au dialecte Algérien Partie I : La reconaissance automatique du locuteur en criminalistique
Chapitre1 Généralités sur l identification du locuteur en criminalistique Généralités sur l identification du locuteur en criminalistique La science forensique est l utilisation des outils scientifiques pour répondre aux besoins d un tribunal pour un crime ou un litige civil [wiki]. Les principaux domaines utilisés dans la science forensique sont : la biologie, la chimie, et la médecine. Malgré la dominance de ces dernières, il est a mentionné qu il existe d autres disciplines utilisées telles que : la physique, l informatique, la géologie, et la psychologie [answers]. Par exemple, les paramètres biométriques traditionnels, tels que l ADN et l empreinte digitale, sont souvent utilisés dans plusieurs cas forensiques. La nature de preuve, trouvée dans la scène du crime ou collectée à partir d opérations d investigation, impose les méthodes ou les disciplines scientifiques nécessaires pour faire son étude. Dans ce mémoire, nous nous intéressons aux méthodes d identification d un enregistrement vocale. L analyse de la voix est utilisée, pour la première fois, durant la deuxième guère mondiale pour des buts d espionnage militaire. Son utilisation pour des investigations forensique remonte aux années 60s, elle repose sur le fait que chaque personne peut être identifiée à partir d un échantillon de sa voix. Un suspect peut laisser des enregistrements de sa voix sur le téléphone, le VoiceMail, un répondeur ou dans un enregistreur caché, et par la suite, il peut être utilisé comme preuve [enotes]. Un système forensique - 3 -
Chapitre1 Généralités sur l identification du locuteur en criminalistique d identification du locuteur est basé, principalement, sur un système de reconnaissance du locuteur, avec la prise en compte de certaines conditions et contraintes qui dépendent de la nature de cette application. Les approches les plus utilisées dans la reconnaissance du locuteur sont l approche auditive, l approche auditive instrumentale et l approche automatique. L approche auditive est basée principalement sur l écoute d un enregistrement audio par des phonéticiens expérimentés. Les différences perçues dans les paroles sont utilisées pour estimer la mesure de similarité entre les voix. Bien que cette approche ne soit pas adéquate pour la reconnaissance du locuteur, elle est très utile pour déterminer son profil. En plus de ces différences, les locuteurs se différent entre eux par leurs rythme de paroles, par leurs intonations, et par leurs articulations. L approche auditive a plusieurs limites. Dans l analyse phonétique traditionnelle, elle est utilisée pour extraire quelques paramètres d intérêt qui sont par la suite utilisés par l approche auditive instrumentale [ANIL, 05]. L approche auditive instrumentale implique le mesurage acoustique de plusieurs paramètres tels que : La fréquence fondamentale, le taux d articulation, l énergie spectrale, les formants, etc. Les moyennes et les variances de ces paramètres sont comparées pour faire l identification d un locuteur. L utilisation des spectrogrammes, pour la reconnaissance du locuteur, peut être considérée comme une autre méthode de cette approche [Bolt et al, 73] [ANIL, 05]. Le développement fulgurant de l informatique a donné une grande contribution à la reconnaissance automatique du locuteur et a permit de faire des traitements très complexes. En effet, la grande capacité de calcul des ordinateurs a contribué à l apparition de ce type de systèmes. Dans un système de reconnaissance automatique du locuteur, les modèles statistiques des paramètres acoustiques de la voix du locuteur sont comparés avec les paramètres acoustiques extraits de l enregistrement audio en question. - 4 -
Chapitre1 Généralités sur l identification du locuteur en criminalistique Le degré de similarité entre les paramètres acoustiques extraits de l enregistrement en question (ou la trace), et ceux extrait d un enregistrement du suspect, représenté par son modèle statistique, est calculé pour évaluer la preuve [Dryg et al, 03]. Dans les systèmes forensiques de reconnaissance automatique du locuteur, la puissance d une telle preuve est donnée par la probabilité d observer les paramètres de la trace dans le modèle statistique de la voix du locuteur suspect et dans les modèles des voix d une population potentielle [ANIL, 05]. Les systèmes de reconnaissance automatique du locuteur ont connu un grand succès durant ces dernières années. Cela est dû aux types des paramètres acoustiques utilisés qui donnent une présentation meilleure et plus complète du conduit vocal par rapport aux paramètres traditionnels. Malheureusement, l utilisation d un tel système dans le domaine forensique reste très limitée. Ce déphasage peut être expliqué par le fait, de la difficulté d expliquer au jury la signification des paramètres acoustiques, par exemple : les coefficients cepstraux, d une part, et par le manque d une interprétation qui relie ces coefficients (coefficients cepstraux) aux propriétés linguistiques, auditives, ou articulatoires des voix traitées, d une autre part [Rose, 02]. 1.1 L identification forensique du locuteur L identification ou la reconnaissance forensique (criminalistique) du locuteur est une tâche très complexe et nécessite la compréhension de plusieurs disciplines scientifiques y compris, les linguistiques, l acoustique, le traitement de signal et les statistiques. Avec le développement fulgurant de la téléphonie et l utilisation de la voix humaine pour commettre des crimes, l identification des personnes par leur voix est devenue un domaine populaire et objet d étude de plusieurs centres de recherche dans le monde. D après [ROSE, 02], la définition de l identification forensique d un locuteur est comme suit : - 5 -
Chapitre1 Généralités sur l identification du locuteur en criminalistique «C est l avis des experts dans un processus légal pour répondre à la question suivante : est ce que un ou plusieurs enregistrements vocaux sont générés par le même locuteur ou non?» Il existe plusieurs techniques utilisées dans le domaine de la reconnaissance forensique du locuteur. Dans ce que suit, nous présentons ces différentes techniques. 1.2 Les techniques utilisées dans l identification forensique du locuteur Dans les dernières années, plusieurs études ont été faites sur l évolution historique de l identification forensique du locuteur. Plusieurs auteurs ont publié des livres qui couvrent quelques techniques utilisées par des phonéticiens, des linguistes et des experts de la voix. Les techniques utilisées dans l identification forensique du locuteur peuvent être résumées en trois classes : 1) l identification auditive, 2) l identification par la visualisation des spectrogrammes, et 3) l identification automatique du locuteur. Dans ce qui suit, nous donnons une brève description à chaque technique. 1.2.1 L identification auditive du locuteur L identification auditive est faite par l écoute d un ou de plusieurs enregistrements vocaux afin de pouvoir identifier la résultats sont possibles : source de ces voix. Dans cette technique, trois L auditeur n est pas familiarisé avec la voix traitée, dans ce cas la source de la voix est inconnue. La voix est reconnue par l auditeur, mais ce dernier, ne peut pas l associée à un locuteur. La voix est reconnue par l auditeur qui l associée à un locuteur. - 6 -
Chapitre1 Généralités sur l identification du locuteur en criminalistique L application de cette technique dans le domaine forensique est faite selon deux variantes, la reconnaissance naïve et la reconnaissance technique. L identification naïve est faite par des personnes non expertes, sans l utilisation d aucune technique. Dans le cas usuel, cette tâche est faite par des victimes ou par des témoins. Bien que ce type de reconnaissance puisse être d une valeur significative au tribunal, dans le cas où on ne dispose pas d un enregistrement vocal, la fiabilité et la performance de cette méthode dépend de plusieurs paramètres, y compris, le temps écoulé depuis que le crime soit commis, la duré dans laquelle la victime a entendu la voix du criminel, etc [NOLA, 97]. En plus, la capacité de reconnaître une personne par sa voix varie largement selon les conditions de l écoute, le nombre d expériences, le nombre des voix inconnues, etc. L autre variante de l identification auditive, à savoir, la reconnaissance technique, est faite par des experts phonétiques ou linguistiques. L analyse de la voix est faite par l utilisation des méthodes scientifiques qui permet, non seulement, d expliquer l avis de l expert, mais aussi de pouvoir analyser cet avis par d autres experts. Malgré que l opinion des experts est acceptée par des tribunaux de plusieurs payés, l identification forensique du locuteur basée uniquement sur «l approche auditive» n est pas acceptée par plusieurs experts dans ce domaine [MEHR, 06]. 1.2.2 L identification du locuteur par l inspection visuelle des spectrogrammes Dans cette technique, l examinateur commence le processus de comparaison en plaçant des pairs de spectrogrammes correspondants à la même phrase et les compare mot par mot. D après [TOSI, 79], les paramètres les plus utilisés dans ce type de comparaison sont, les moyennes des fréquences, les pentes des formants, les interformants, et la densité de la puissance nasale. L analyse spectrographique a été largement utilisée et acceptée dans les Etats Unies, des payés de l Europe, et d autre payés pendant les années 1960s et 1970s. Cependant, cette technique a été abandonnée dans quelques - 7 -
Chapitre1 Généralités sur l identification du locuteur en criminalistique payés tel que l Allemagne et les Etats Unies pour plusieurs raisons. Parmi ces raisons, nous pouvons citer : La supposition principale dans l analyse spectrographique est que les variabilités inter locuteur d un modèle spectrographique, pour des mêmes paroles, sont très grandes de celles d intra locuteur. Cette supposition n était pas évidente après l analyse spectrographique de plusieurs paroles des mêmes et des différents locuteurs [FREN, 94]. Il n est pas clair de signaler légalement une similarité ou une différence significative entre des spectrogrammes. En plus, la décision dépend principalement des compétences de l examinateur [KUNZ, 95]. L analyse spectrographique a donnée des performances moins que celles de l analyse auditive [KUNZ, 95] [NOLA, 83]. Pour ces raisons, plusieurs chercheurs ont pensé que le nom «empreinte vocale» est une appellation impropre en le comparant par «l empreinte digitale». La différence la plus significative est la rigidité de l empreinte digitale par rapport à la flexibilité des échantillons vocaux. De plus, la plus part des chercheurs pensent que l utilisation de l analyse spectrographique n est qu une transformation d une comparaison auditive en une comparaison visuelle. En résumé, l interprétation des spectrogrammes n est pas une technique adéquate pour un système d identification forensique du locuteur [MEHR, 06]. 1.2.3 L identification automatique du locuteur en criminalistique Deux méthodes ont été utilisées pour faire une identification automatique du locuteur en criminalistique, la première est basée sur une approche bayesienne, tandis que la deuxième est basée sur l utilisation d intervalle de confiance. Dans la section suivante, nous donnons une brève description des deux approches. - 8 -
Chapitre1 Généralités sur l identification du locuteur en criminalistique Fig 1.1 : Exemple d un spectrogramme. L identification forensique du locuteur par l approche Bayesienne Le théorème de Bayes est parmi les facteurs les plus importants dans l évolution historique des systèmes d identification forensique du locuteur. L utilisation des rapports de vraisemblances a aidé les experts à quantifier et interpréter la puissance d une preuve scientifique dans le domaine forensique. Comme il a été mentionné par [AITK, 95], dans la science forensique, l identité de la source d une preuve ne peut pas être connue avec certitude, et par conséquent, elle doit être inférée ou déduite. Le processus d inférence dans un contexte forensique, peut être vu comme étant un processus de réduction d une population initiale à un groupe restreint ou éventuellement à une seule personne [MEUW, 01]. Dans l approche bayesienne, le rapport de vraisemblance est le rapport entre deux probabilités conditionnelles, sous deux hypothèses concurrentes, d une même preuve. Les deux hypothèses sont les suivantes [ANIL, 07] : H 0 : Le suspect est la source de l enregistrement vocal. H 1 : L origine de l enregistrement vocal n est pas le locuteur suspect. - 9 -
Chapitre1 Généralités sur l identification du locuteur en criminalistique Il est à mentionner que le rapport de vraisemblance n est pas un test d une hypothèse sur un ensemble de données, mais plutôt, un moyen de comparaison de deux hypothèses compétitives. Par exemple, si nous avons un rapport de vraisemblance de 10, alors il est dix fois possible d avoir la preuve sous l hypothèse H 0 que sous l hypothèse H 1 [EVET, 95]. Parmi les raisons pour lesquelles l approche Bayesienne est adéquate pour l évaluation et l interprétation d une preuve forensique, [ROSE, 02] a cité: C est une théorie logique démontrée et ne contient aucun doute. Elle dirige le tribunal, les jurés et principalement les experts à considérer la probabilité conditionnelle de la preuve sous deux hypothèses concurrentes [AITK, 95]. Elle clarifie et sépare les rôles du juge et des experts forensiques. Elle assiste les experts dans l évaluation de la valeur d une preuve scientifique et la présenter sous forme d une vraisemblance. C est une très bonne méthode pour combiner des nouvelles preuves. Pour ces raisons, nous avons choisi cette approche pour être l objet d étude de ce mémoire. Elle sera étudiée en détails dans le troisième chapitre. L identification forensique du locuteur par intervalle de confiance Dans cette technique, une mesure de confiance est calculée pour supporter une des hypothèses H0 ou H1 définies plus haut. Les mesures de confiance sont utilisées pour décider de rejeter ou d accepter une hypothèse de reconnaissance. La prise de décision s appuie sur un test du rapport de vraisemblance. Cette technique est développée au sein du FBI (Federal Bureau of Investigation) par Nakazone en 2002 [NAKA, 01]. - 10 -
Chapitre1 Généralités sur l identification du locuteur en criminalistique Elle est très semblable à la première méthode car elles sont, toutes les deux, basées sur l utilisation des rapports de vraisemblances. 0.06 Les scores 0.04 Probabilité 0.02 Faux Score Vrai Score Test Score 0.8 0 1 0.5 0 0.5 1 1.5 2 1 Probabilité de mesure de confiance P(Ht x) 0.6 0.4 0.2 Courbe de confiance Test Score Valeur de confiance 0 1 0.5 0 0.5 1 1.5 2 GMM Scores Fig 1.2 : Courbes de mesure de confiance 1.3 L estimation de la puissance d une preuve par l approche Bayesienne Identifier une personne par l analyse de sa voix est une tâche très difficile. Cela est dû à la variabilité des caractéristiques vocales, non seulement pour des locuteurs différents, mais aussi pour le locuteur à identifier. Dans la réalité, les caractéristiques vocales d un locuteur montrent des variations moins importantes pour le même locuteur par apport à une population potentielle, en comparant les mêmes caractéristiques vocales. Dans les systèmes forensique d identification automatique du locuteur, le problème principal réside dans la difficulté de trouver une formule de vraisemblance qui prend en - 11 -