Techniques de sélection de candidates pour la traduction automatique statistique

Dimension: px
Commencer à balayer dès la page:

Download "Techniques de sélection de candidates pour la traduction automatique statistique"

Transcription

1 UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d'informatique et d'ingénierie Techniques de sélection de candidates pour la traduction automatique statistique Mémoire de maîtrise présenté pour l'obtention du grade de Maître ès sciences (M.Sc.) PAR Samuel Larkin Août 2006

2 UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d'informatique et d'ingénierie Techniques de sélection de candidates pour la traduction automatique statistique présenté par Samuel Larkin Mémoire de maîtrise présenté pour l'obtention du grade de Maître ès sciences (M.Sc.) a été évalué par un jury composé des personnes suivantes: Dr. Alain Charbonneau... Directeur de recherche Dr. Roland Kuhn... Codirecteur de recherche Dr. Nadia Baaziz... Présidente du jury Dr. Michal Iglewski... Membre du jury Mémoire accepté le 10 Août 2006

3 Remerciements J'aimerais tout d'abord remercier mon directeur de recherche Dr. Alain Charbonneau, professeur à l'université du Québec en Outaouais, pour son dévouement et ses recherches en traduction automatique statistique. Je tiens à remercier tout particulièrement mon codirecteur de ce mémoire, Dr. Roland Kuhn, chercheur au centre de recherche en technologies langagières interactives. Il me faut aussi mentionner l'aide inestimable de Dr. George Foster pour l'apport de ses connaissances dans le domaine de la traduction automatique statistique. Sans ordre particulier, je tiens à souligner l'aide que m'ont fourni mes collègues Éric Joanis, Patrick Paul, Fatiha Sadat, Michel Simard et Nicola Ueng pour mieux comprendre la traduction automatique statistique. Ce mémoire a été rendu possible grâce à l'appui nancier de Dr. Alain Charbonneau et, par la suite, le centre de recherche en technologies langagières interactives. Il ne faudrait pas passer dans l'ombre les immenses ressources informatiques disponibles au centre de recherche en technologies langagières interactives sans lesquelles ce mémoire n'aurait pas été possible.

4 Résumé Étant donné une phrase s dans un langage source S, les systèmes de traduction automatique statistique produisent, selon un modèle de langage, un modèle de traduction, unmodèlededistortionetunmodèledepénalitédebrièveté,unelistede N hypothèses contenant N traductions possibles de s dans un langage cible C. Ces systèmes intègrent souvent un module, qui permet de réordonner ces listes d'hypothèses an d'en sélectionner de meilleures candidates, appelé module de réordonnancement. Pour ce faire, le module utilise des informations autres que celles servant à produire les listes de N hypothèses. Ce réordonancement permet d'obtenir une meilleure qualité de traduction. Dans ce mémoire, nous avons développé quatre approches permettant de sélectionner des candidates issues de listes de N hypothèses. La première méthode est basée sur les multiples alignements d'une hypothèse donnée. La deuxième méthode, par projection, compare les hypothèses d'une liste de N hypothèses entre elles. La troisième combine deux ou plusieurs méthodes de sélection de candidates an d'en produire une appelée méthode hybride. Finalement, la quatrième méthode est appelée la rétro-traduction.

5 Abstract Given a sentence s in a source language S, statistical machine translation systems will produce, according to a translation model, a language model, a distortion model and brevity penalty model, an N best list which contains N possible translations of s in a target language C. Those systems incorporate a rescoring/reranking module which reranks the N best list to nd a better translation candidate. To accomplish this task, the reranking module uses sources of information which dier from the ones used to produce the N best list. This reordering yields better quality translations. In this thesis, we developed four methods for rescoring and reranking N best lists. The rst method is based on the multiple alignments of a given hypothesis. The second method, by projection compares the hypotheses of an N best list together. The third method combines two or more rescoring/reranking methods to produce a hybrid method. Finally, the fourth method is called back translation.

6 Table des matières Liste des gures vi Liste des tableaux vii Liste des abréviations, sigles et acronymes viii Introduction 1 1 Traduction automatique statistique Traduction automatique Traduction automatique statistique Corpus parallèles Modèle du canal bruité et formule de Bayes Modèle probabiliste du langage Alignement de n-gram Modèle de traduction Le décodeur Treillis et algorithmes de recherche PORTAGE : le système de TAS du GTLI Vocabulaire BLEU Évaluation d'un système de traduction BLEU pour évaluer La fonction BLEU2a

7 TABLE DES MATIÈRES v 3 État de l'art Sélection de candidates Revue de littérature Estimation par critère de conance Méthode de Och Régression Méthodes de Shen De nouvelles avenues Cadre des applications La technique d'ordonnancement SA Méthodes de projection Méthodes hybrides Rétro-traduction Masse des listes de N hypothèses Modèle du canal binaire symétrique Application de la rétro-traduction à la sélection de candidates Exemples Quelques remarques sur la rétro-traduction Conclusion 57 A PORTAGE 60 B Détection d'erreurs pour le canal binaire symétrique 61 C Revision de l'algorithme de Mohri et Riley 66 C.1 Quelques dénitions.. 66 C.2 Construction d'un treillis 67 C.2.1 L'algorithme MR Bibliographie 73

8 Table des gures 1.1 Un alignement de mots Alignement de syntagmes Espace de recherche du décodeur Exemple d'un automate ni Le processus résumé de traduction de PORTAGE Corrélation du pointage BLEU avec le jugement humain Le processus résumé de traduction de PORTAGE Ensembles disjoints de phrases du corpus BLEU comparatif sur FT3 pour SA BLEU comparatif sur FT4 pour SA BLEU comparatif sur le chinois pour SA Progression de BLEU en fonction de pour FT Progression de BLEU en fonction de N pour FT BLEU selon L pour FT Ratio de masses pour FT Ratio de masses pour FT L'ORACLE en fonction de N Canal binaire symétrique Schématisation de la rétro-traduction A.1 Le processus complet de traduction de PORTAGE C.1 Exemple de construction de piles par le décodeur. 69 C.2 Pseudocode du décodeur C.3 L'algorithme de Mohri et Riley [11] C.4 Cas pathologique de l'algorithme de Mohri et Riley

9 Liste des tableaux 2.1 Calcul des n-gram (pour n xe) Nombre de phrases par ensemble Tableaudupotentiel BLEU desensemblestestsdel'anglaisverslefrançais Tableau du potentiel BLEU des ensembles tests du français vers l'anglais Valeurs BLEU combinées des ensembles tests de l'anglais vers le français Résultats de la technique SA pour FT Résultats de la technique SA pour FT Résultats de la technique SA pour le chinois Temps (secondes) de traduction pour FT3 et FT Pointage BLEU obtenu par les méthodes de projection (T1 et T2) Pourcentage des phrases choisies par l'oracle en 1ère position (N = 20) Exemple de choix d'hypothèses par la méthode hybride BLEU selon la méthode hybride où L = 10, pour des listes de 5000 hypothèses Évolution du facteur R 400 en fonction de N Espace disque requis pour le traitement de FT3 et FT Taux relatif et taux relatif ajusté d'oracle pour FT3 et FT Pointage BLEU obtenu en utilisant l'équation (5.3.6) Pointage BLEU obtenu en utilisant l'équation (5.3.6) Pointage BLEU obtenu avec adaptation en utilisant l'équation (5.3.6) Pointage BLEU obtenu avec adaptation en utilisant l'équation (5.3.6) Pointage BLEU obtenu pour α = 1, β = 2 en utilisant l'équation (5.3.6) Pointage BLEU obtenu pour α = 1, β = 2 avec adaptation en utilisant l'équation (5.3.6) C.1 Contenu des structures S et π du cas pathologique de la gure C

10 Liste des abréviations, sigles et acronymes Dans cette section, nous rappelons les notations utilisées dans le mémoire qui méritent d'être mises en évidence. Acronymes TAS ; Traduction Automatique Statistique CRTL ; Centre de Recherche en technologies langagières GTLI ; Groupe des Technologies Langagières Interactives Éléments de la TAS S langage source C ; langage cible s S phrase source c C phrase cible c C phrase candidate ĉ C ; meilleure phrase cible N ; nombre d'hypothèses L N (s i ) ; liste de N hypothèses pour une phrase source s i a ; alignement A(c, s) ; ensemble d'alignements entre c et s SA ; somme sur les alignements

11 Liste des abréviations, sigles et acronymes λ i ; poids du modèle log-linéaire utilisés en traduction directe µ i ; poids du modèle log-linéaire utilisés en rétro-traduction ix Composantes du modèle log-linéaire de la TAS P r(c) ; modèle du langage P r(s c) ; modèle de traduction d(s, c) ; modèle de distorsion ω ; modèle de brièveté Métrique d'évaluation Bleu2a2 ; BLEU lissé pour deux phrases WER ; mesure d'évaluation de qualité d'un système de traduction PER ; mesure d'évaluation de qualité d'un système de traduction BLEU ; méthode d'évaluation NIST ; méthode d'évaluation Ensemble de phrases alignées Corpus ; ensemble de paires de phrases alignées FM ; chier modèles FE ; chier entraînement FT1, FT2, FT3, FT4 ; chiers tests

12 Introduction Soit N un entier positif et soit S et C une paire de langages appelés respectivement langage source et langage cible. Étant donné s, une phrase de S à traduire, un système de traduction automatique utilisant une approche statistique permet de générer une liste ordonnée de N phrases de C qui sont considérées comme des traductions possibles de s.nousappelonscettelisteunelistede N hypothèsesdetraductionde setlanotons par L N (s). L'ordre initial des hypothèses de cette liste est déterminé par le système de traduction statistique qui utilise des informations de base contenues dans ce qu'on appelle un modèle de langage et un modèle de traduction. En se basant sur de l'information additionnelle à celle utilisée pour la production de la liste initiale, les traducteurs automatiques statistiques modernes utilisent souvent un module dont l'objectif est de dégager de L N (s) une hypothèse qui soit une "meilleure" traduction de la phrase s que nous appelons candidate. Ainsi, notre projet de recherche vise à : explorer des avenues théoriques pour élaborer un module de sélection de candidates de traduction obtenues par un système de traduction automatique statistique; produire un module qui met en oeuvre des techniques de sélection de candidates à partir de listes d'hypothèses. Mentionnons au lecteur qu'on retrouve souvent ce sujet de recherche dans la littérature sous le nom de technique de réordonnancement (reranking, rescoring). Le propos principal de ces techniques étant de sélectionner de meilleures candidates, nous avons jugé bon,danslecadredecemémoire,derenommercedomainepourmieuxenreéterl'objectif. Donc, à l'occasion, lorsque nous parlerons de méthodes de réordonnancement, nous ferons référence dans les faits à des techniques de sélection de candidates.

13 Introduction 2 Au chapitre 1 de ce mémoire, nous présentons les systèmes de traduction automatique statistique et en particulier, PORTAGE, celui développé par le Groupe des Technologies Langagières Interactives du CNRC. Au chapitre 2, nous rappelons la dénition de la fonction BLEU qui est celle présentement la plus fréquemment utilisée par la communauté scientique pour évaluer la qualité d'un système de traduction. C'est par le biais de cette fonction qu'on considérera avoir produit un meilleur ordre d'une liste des N hypothèses de traduction. Au chapitre 3, nous présentons l'état de l'art en matière d'ordonnancement de liste d'hypothèses issues d'un système de traduction automatique statistique. Finalement, aux chapitres 4 et 5 nous exposons quatre approches permettant de répondre à nos objectifs de recherche. Une première méthode est basée sur les multiples alignements d'une hypothèse donnée. Une deuxième méthode, par projection, compare les hypothèses d'une liste de N hypothèses entre elles. Une troisième, compose deux autres méthodes de sélection de candidates en une méthode hybride. Finalement, une quatrième méthode, l'objet du chapitre 5, est appelée la rétro-traduction. Bien que dans ce mémoire nous essayons de produire des techniques de sélection de candidates qui puissent être utilisées pour toutes paires de langage source et cible, les applications seront faites principalement dans le cas où les langages sources et cibles sont l'anglais et le français.

14 Chapitre 1 Traduction automatique statistique Dans ce chapitre nous rappelons très brièvement les éléments des systèmes de traduction automatique basés sur les systèmes experts et, plus en profondeur, PORTAGE le système de traduction automatique statistique présentement utilisé au GTLI1. An de faciliter la lecture de ce document, TAS désigner, selon le contexte, le secteur de la traduction automatique statistique ou encore un traducteur automatique statistique. 1.1 Traduction automatique La traduction automatique vise à prendre un texte dans un langage source S et à le traduire le plus dèlement possible dans un langage cible C. Les recherches en traduction automatique qui utilisent l'informatique ont été entreprises au début des années 1950, dès l'apparition de l'ordinateur. À notre époque, le problème de la traduction automatique est abordé de deux façons : l'approche statistique, qui sera l'objet de la prochaine section, et l'approche de l'intelligence articielle basée sur les systèmes experts. 1Groupe des Technologies Langagières Interactives du CNRC

15 Chapitre 1. Traduction automatique statistique 4 Jusqu'à la n du dernier siècle, les recherches en traduction automatique ont été effectuées selon l'approche des systèmes experts; si vous utilisez un système commercial de traduction automatique, il est fort probable que ce dernier soit basé sur un système expert. Un tel système est constitué d'un ensemble de règles explicitement écrites par un groupe de linguistes experts. Le système expert intègre des connaissances approfondies en linguistique et, par conséquent, obtient de meilleurs résultats lorsqu'il est appliqué à des domaines sémantiques non spécialisés et dans les cas où les règles de traduction du langage source vers le langage cible sont bien connues. Par leur nature même, ces systèmes sont coûteux à développer et à actualiser. Étant donné la complexité des systèmes experts actuels, l'ajout de règles générées manuellement engendre souvent des interactions et des résultats inattendus. Ces systèmes requièrent l'intervention continuelle des spécialistes du génie logiciel an de les garder à jour et donc, les systèmes de traduction traditionnelle sourent de l'évolution d'une langue. Du point de vue de l'intelligence articielle, la compréhension d'un langage se base sur la connaissance d'une multitude de faits implicites à propos du contexte de la phrase qui est dicile à représenter. L'application de ces systèmes à un nouveau domaine sémantique nécessite l'intégration d'un grand nombre de nouvelles règles. De plus, l'utilisation d'une nouvelle paire de langages (S, C) consiste en une tâche colossale qui implique la réécriture de la totalité des règles. De façon générale, les traductions produites sont moins sujettes à des erreurs absurdes telles la perte du sujet de la phrase ou du verbe principal, tandis que l'approche statistique est parfois victime de ces types d'erreurs. De plus, contrairement à la traduction statistique, l'approche traditionnelle ne produit qu'un nombre limité de traductions pour une phrase source donnée et n'associe pas d'indicateur de conance à la qualité de traduction. 1.2 Traduction automatique statistique L'idée d'appliquer des méthodes statistiques à la traduction fut introduite par Warren Weaver en Des obstacles pratiques, et surtout des limitations dues à la puissance des ordinateurs disponibles à cette époque, ont vite empêché l'utilisation de cette approche. Au début des années 1990, avec le développement d'ordinateurs de plus en plus

16 Chapitre 1. Traduction automatique statistique 5 puissants et la disponibilité d'immenses corpora bilingues alignés, l'approche statistique a refait surface. La publication du groupe de chercheurs du Watson Research Center d'ibm [2], sur les fondements mathématiques de l'approche statistique, a également grandement contribué au regain d'eorts mis dans cette direction. De façon simpliée, pour faire de la traduction automatique statistique il faut les cinq composantes élémentaires suivantes : un corpus bilingue dont les phrases sont alignées; un modèle probabiliste du langage; le concept d'alignement de mots; un modèle probabiliste de traduction; - un algorithme de recherche de traductions appelé décodeur. Dans les sous-sections qui suivent, nous passons en revue ces éléments Corpus parallèles Un corpus parallèle est une immense base d'exemples de traductions qui permet à un TAS de construire ce que nous appellons le modèle probabiliste du langage cible et le modèle probabiliste de traduction. Schématiquement,uncorpusestunensembledephrases {(s c)}où sestunephrase du langage source et c une phrase du langage cible considérée comme une traduction de s. À titre d'exemple, les débats de la chambre des communes canadiennes fournissent un corpus idéal, appelé le Hansard, qui contient plusieurs millions de phrases anglaises et leur traduction en français. Étant donné cet ensemble de phrases dites parallèles, on déduit une distribution de probabilité pour le modèle de traduction (P r(s c)) et nous pouvons également établir unedistributiondeprobabilitépourlemodèledelangagecible(p r(c)) 2.Pluslecorpus est de qualité au point de vue de sa forme, meilleures sont ces distributions établies. 2Dans la pratique, puisque P r(c) ne dépend que du langage cible, nous pouvons également construire un modèle de langage à partir d'un texte unilingue.

17 Chapitre 1. Traduction automatique statistique 6 Ceci est important car en approchant ces distributions avec une précision arbitraire, nous inuençons la qualité des traductions produites par le TAS. Nous dénissons par tokénisation l'opération qui consiste à segmenter une phrase en objets appelés tokens. Un token désigne soit un mot, un signe de ponctuation, un guillemet, une parenthèse ou accolade, un nombre ou un symbole spécial. Le token est l'élément fondamental sur lequel repose la TAS. Par la suite et par abus de langage, il arrivera que le mot mot désigne un token Modèle du canal bruité et formule de Bayes An de traduire une phrase source s S, on suppose que toutes les phrases c C sont des traductions possibles de s. Nous schématisons donc la traduction statistique par le biais du modèle d'un canal de communication bruité3. Nous notons P r(c s), la probabilité conditionnelle que la phrase cible c soit une traduction de la phrase source s. Nous cherchons donc ĉ l'une des phrases cibles qui maximise P r(c s). Par le biais de la formule de Bayes : P r(c s) = P r(c)p r(s c), P r(s) puisque s estxeetindépendantede c,ceproblèmedemaximisation,quenousappelons le problème fondamental de la traduction automatique statistique, devient : trouver ĉ C t.q. où: ĉ = argmax c P r(c) désigne le modèle probabiliste du langage cible P r(s c) désigne le modèle probabiliste de traduction argmax désigne le problème de recherche P r(c)p r(s c), (1.2.1) Puisque nous devons évaluer P r(s c), nous supposons qu'un émetteur envoie une phrase du langage cible dans le canal de transmission et que cette phrase est reçue danslelangagesourceenraisondubruitducanal.parcemodèle,notretravailconsiste donc à retrouver le message du langage cible qui permet de maximiser (1.2.1). 3Ce modèle est utilisé en théorie de l'information.

18 Chapitre 1. Traduction automatique statistique Modèle probabiliste du langage An d'anticiper le prochain mot énoncé dans une phrase, l'être humain se sert de l'ensemble des mots précédants contenus dans cette phrase et souvent des phrases qui précèdent.puisqu'ilestdiciledetenircomptedetoutlecontexteassociéàunmot,on se restreint seulement au contexte de la phrase contenant ce mot. Nous allons donc faire l'hypothèsesimplicatricesuivante:laprobabilitéconditionnelled'occurrenced'unmot w n nedépendquedes n 1motsquileprécèdent,soit P (w n w 1,..., w n 1 ).Malgréque ce modèle soit peu sophistiqué, on en tire des résultats interéssants et dans les faits, dicile à surpasser. Étant donné l'explosion combinatoire que ces modèles engendrent en fonction de n, dans la pratique nous devons nous limiter à une valeur maximale de n de l'ordre de 8. Nous appelons n-gram une séquence de n tokens consécutifs contenus dans une même phrase. Alors, nous segmentons les phrases en n-gram et danslapratiquecesontcesélémentsquenoustraduisons.ilyadeuxavantagesdirects à l'utilisation des n-gram pour la traduction. Le premier est qu'elle permet l'utilisation implicite du contexte restreint immédiat et le second est qu'elle préserve l'ordre des mots. Exemple : Énumérons les 3-grams de la phrase suivante : L'enfant mange, joue et rit. 3-grams L' enfant mange enfant mange, mange, joue, joue et joue et rit et rit. Dans le cas du modèle de 3-grams, c'est-à-dire P r(w n w 1,..., w n 1 ) = P r(w n w n 2, w n 1 ), la probabilité d'observer une phrase (w n ) devient :

19 Chapitre 1. Traduction automatique statistique 8 P r(w n ) = P r(w 1 )P r(w 2 w 1 )P r(w 3 w 1, w 2 )... P r(w n w n 2, w n 1 ) n = P r(w 1 )P r(w 2 w 1 ) P r(w i w i 2, w i 1 ). i=3 Pour simplier cette dernière relation, nous supposons l'existence des mots w 1 et w 0, des mots vides, ce qui permet d'obtenir la forme générale suivante : P r(w n ) = n P r(w i w i 2, w i 1 ). i= Alignement de n-gram Lorsque vient le temps de faire de la traduction automatique statistique, l'utilisation du modèle du langage est insusant. On introduit alors le concept d'alignement de n-gram c'est-à-dire qu'à chaque mot cible est associé zéro, un ou plusieurs mots sources. La gure 1.1 illustre un exemple d'alignements de n-gram. On constate que l'alignement n'est pas strictement une bijection entre les mots d'une phrase source et d'une phrase cible. On désigne par A(c, s), l'ensemble des alignements possibles entre la phrase s et la phrase c Modèle de traduction Fig. 1.1 Un alignement de mots. Pour compléter la description des éléments de l'équation fondamentale de la traduction automatique statistique, il reste à décrire le modèle de traduction. Les premiers modèles

20 Chapitre 1. Traduction automatique statistique 9 de traduction permettant de calculer P r(s c) ont été proposés par Brown et al. [2] d'ibm. En tout, ces chercheurs ont développé cinq modèles. Il faut noter que tous ces modèles considèrent l'alignement où chaque mot de la phrase cible est lié avec zéro, un ou plusieurs mots de la phrase source. Advenant le cas où les phrases n'auraient pas la même longueur, un caractère nul est ajouté, pour lequel tous les mots sources qui n'ont pas de correspondant sont liés. Les modèles d'ibm sont importants puisqu'ils peuvent permettre d'estimer les paramètres de modèles plus sophistiqués. Ainsi, la probabilité conditionnelle P r(s c) peut être réécrite de façon à tenir compte des alignements : P r(s c) = P r(s, a c). (1.2.2) a A(c,s) Soit la phrase source s = s m s 1 s 2... s m divisée en une séquence de m mots et la phrase cible c = c l c 1 c 2... c l décomposée en une séquence de l mots. Nous avons donc que a = a m a 1 a 2... a m, où chaque a j prend des valeurs entre 0 et l, représente la liaison du jième mot source avec le iième mot cible (a j = i). Sans perte de généralité, on peut écrire l'équation exacte suivante : m P r(s, a c) = P r(m c) P r(a j a j, s j 1, m, c)p r(s j a j, s j 1, m, c). j=1 Chacun des cinq modèles d'ibm [2] correspond à une approximation de l'équation précédente. Pour nos propos, présentons brièvement les deux premiers modèles d'ibm appelés simplement modèles IBM1 et IBM2. Dans le premier modèle, le plus simple, on suppose que tous les alignements entre les mots des deux phrases ont la même probabilité.donc,l'ordredesmotsn'aectepaslecalculde P r(s c).lesecondmodèle suppose que la probabilité d'un alignement dépend de la position des mots. Ces deux premiers modèles donnent souvent des alignements de mots peu satisfaisants, mais servent comme estimateur initial aux autres modèles plus complexes. Les modèles d'ibm donnent de bons résultats, mais ne tiennent compte que de l'alignement mot à mot. Plus récemment, le modèle de traduction a été généralisé par l'alignement basé sur les n-gram [10] de longueur variable. Ce modèle est dérivé de l'alignement des mots à partir d'un des modèles d'ibm et permet à un n-gram d'être

21 Chapitre 1. Traduction automatique statistique 10 traduit par un n-gram cible possiblement de longueur diérente. Fig. 1.2 Alignement de syntagmes. Au début des années 2000, Marcu et Wong [10] ont proposé de construire un modèle de traduction basé sur la probabilité jointe de traduction de n-gram tel qu'illustré à la gure 1.2. Cette approche de traduction de n-gram obtient de meilleurs résultats que le quatrième modèle d'ibm. Le côté négatif de cette approche est l'immense taille de la table des probabilités produites et le coût inféré par son calcul. Aussi, ce système ne peut pas apprendre les traductions non contiguës tel que not qui se traduit souvent par ne et pas dans le cas où ceux-ci ne sont pas contiguës. Nous devons, pour traduire selon le modèle des n-gram, décomposer les phrases sources s en I n-gram s que l'on suppose suivre une distribution de probabilité uniforme sur toutes les segmentations I possibles. Nous traduirons, avec probabilité P r( s i c i ), chaque s i par un n-gram cible c i. Le réordonnancement des syntagmes cibles se fait selon une distributiondeprobabilitésdedistorsion d(a i b i 1 ),où a i désignelapositiondedépart du n-gram source qui a été traduit par le ième n-gram et b i 1, la dernière position du n-gram source traduit par le (i 1)ième n-gram cible. Le modèle de traduction devient donc : ĉ = argmax P r(c s) c = argmax P r(c)p r(s c)ω, c où ω est un facteur permettant de contrôler la longueur des phrases produites et où l'on décompose P r(s c) par : P r( s I c I ) = I P r( s i c i )d(a i b i 1 ). i=1

22 Chapitre 1. Traduction automatique statistique Le décodeur Fig. 1.3 Espace de recherche du décodeur. Le modèle du langage, la méthode d'alignement et le modèle de traduction ne sont pas susants à eux seuls pour faire de la traduction automatique statistique. Il faut aussi un décodeur qui utilise tous ces modèles an de trouver, dans l'espace de recherche, les meilleures hypothèses de traduction. Le décodeur vient compléter l'équation (1.2.1) en satisfaisant argmax c. Le décodeur le plus connu est PHARAOH, de Phillip Koehn [9]. Canoe, le décodeur du GTLI, est basé sur les publications de Phillip Koehn [9]. Ce décodeur utilise quatre aspects de la traduction : P r(c) le modèle de langage; P r(s c) le modèle de traduction; d(s, c) appelé modèle de distorsion; - ω un modèle de longueur de traduction, appelé modèle de brièveté. An de pouvoir calibrer ces modèles les uns par rapport aux autres, nous les pondérons par le biais d'un modèle log-linéaire qui s'écrit : P r(c s) P r(c) λ 1 P r(s c) λ 2 ( e ) λ d(s,c) ( 3 e λ 4 ) ω, (1.2.3)

23 Chapitre 1. Traduction automatique statistique 12 oùlespoids λ i demeurentàbienchoisirand'assurerunecertainequalitédetraduction. Le décodeur utilise un algorithme de recherche en faisceau, gure 1.3, également utilisé en reconnaissance de la parole[8], qui produit les hypothèses de traduction de la gauche vers la droite. Lors de la traduction, nous commençons par traduire un n-gram de la phrase source et nous lui associons un coût de traduction ainsi qu'un coût restant représentant la quantité de travail à faire an de traduire le reste de la phrase. On marque ce n-gram comme étant traduit et nous répétons les étapes précédentes jusqu'à ce que tous les n-gram de la phrase source soient traduits. Le résultat obtenu sera la meilleure traduction possible selon les modèles fournis mais, comme nous le présentons à la section suivante, nous pouvons aussi construire des treillis pour générer une liste de N hypothèses Treillis et algorithmes de recherche Un treillis représente un ensemble d'états et de poids qui permet de construire un automate ni sans cycle avec poids, soit un graphe orienté acyclique où chaque transition est étiquetée d'un symbole et d'une probabilité. Chaque phrase source possède son propre treillis et donc chaque automate créé produit les hypothèses de traduction pour une phrase source donnée. Pour produire la liste des N hypothèses, l'algorithme parcourt tous les chemins du graphe selon l'algorithme de Mohri et Riley [11], noté MR, une généralisation de l'algorithme A* [4]. Les hypothèses de traduction sont déterminées en concaténant les étiquettes rencontrées le long d'un chemin π et en multipliant les probabilités associées de chacune de ces étiquettes. Par conséquent, la liste d'hypothèses des traductions produites par l'algorithme est ordonnée en ordre décroissant de probabilité d'occurrence. La liste possède donc déjà un ordre basé sur les quatre composantes de base du décodeur. Cet ordre ne produisant pas la meilleure candidate en tête de liste, notre tâche consiste à produire de nouvelles techniques pour sélectionner une meilleure candidate. Exemple : À la gure 1.4, nous trouvons le chier d'un treillis dans la colonne de gauche, la représentation graphique du treillis ainsi que les phrases produites :

24 Chapitre 1. Traduction automatique statistique 13 3 l'état nal (0 (1 "je" 0.7)) (1 (2 "suis trop" 0.8)) (2 (3 "grand" 1.0)) (1 (4 "marche" 0.2)) (4 (3 "souvent" 1.0)) (0 (5 "elle" 0.3)) (5 (6 "a" 0.4)) (5 (7 "a de" 0.6)) (6 (7 "de" 1.0)) (7 (3 "longs cheveux" 1.0)) c = je suis trop grand : P r(c) = 0.56 c = elle a de longs cheveux : P r(c) = 0.18 c = je marche souvent : P r(c) = 0.14 c = elle a de longs cheveux : P r(c) = 0.12 Fig. 1.4 Exemple d'un automate ni PORTAGE : le système de TAS du GTLI Fig. 1.5 Le processus résumé de traduction de PORTAGE. La gure 1.5 illustre schématiquement les étapes requises pour exécuter une traduction. Sans donnerplus dedétails,nous avonsreproduit en annexe A, defaçon plus ranée,un organigramme qui illustre le processus de traduction du système PORTAGE du GTLI. Supposons que nous ayons un corpus bilingue aligné et tokenisé, nous construisons, à partir de celui-ci, le modèle du langage et le modèle de traduction. Ces derniers (ainsi que le modèle de distorsion et le modèle de pénalité de brièveté) servent au décodeur pour traduire un texte source. Le décodeur génère un ensemble de treillis qui sont traités par un module implantant l'algorithme MR, un automate à états nis, qui produira ainsi une liste de N hypothèses.

25 Chapitre 1. Traduction automatique statistique Vocabulaire Par la suite dans ce document nous utilisons les dénitions suivantes : phrase source : une phrase du langage source; phrase cible : une phrase du langage cible; hypothèse une traduction dans le langage cible d'une phrase source; candidate : une hypothèse choisie parmi une liste d'hypothèses; référence : une traduction ocielle d'une phrase source, une traduction d'un traducteur professionnel humain.

26 Chapitre 2 BLEU 2.1 Évaluation d'un système de traduction Les méthodes d'évaluation de la qualité d'un système de traduction utilisent l'idée générale suivante: plus une traduction machine est proche de celle d'un traducteur humain professionnel, meilleure est cette traduction. Par le biais de cette idée, l'évaluation d'une traduction machine prend donc en considération plusieurs aspects diciles à mesurer autrement tels la délité, l'adéquation et l'aisance linguistique [14]. L'évaluation d'un système de traduction, lorsque faite par des humains, peut prendre beaucoup de temps à être eectuée. Il est donc essentiel d'automatiser la procédure d'évaluation d'un système de traduction automatique à l'aide d'une technique qui soit peu coûteuse, rapide, indépendante des langages cibles et sources et qui donne une bonne corrélation avec celle qu'eectuerait un professionnel de la question. Les techniques automatisées d'évaluation présentement utilisées par la communauté scientique sont fondées sur des mesures numériques s'approchant de métriques. Ces méthodes se basent toutes sur la comparaison d'hypothèses de traduction avec un ensemble de références produites par des traducteurs professionnels. Nommons quelquesunes de ces méthodes :

27 Chapitre 2. BLEU 16 taux d'erreurs par mot à références multiples (WER); taux d'erreurs sur position indépendante à références multiples (PER) [21]; BLEU [14]; - pointage NIST [5]. Puisque l'objectif de notre recherche consiste à ordonner les listes d'hypothèses dans le but de produire des candidates qui permettront d'obtenir un meilleur pointage BLEU, nous décrivons cette fonction d'évaluation en détails à la prochaine section. 2.2 BLEU pour évaluer La méthode d'évaluation automatique qui fait autorité en 2006 est BLEU (bilingual evaluation understudy). Elle fut introduite en 2001 par Papineni et al. [14]. Essentiellement, cette fonction vise à calculer une moyenne géométrique de valeurs obtenues à partir d'un ensemble de phrases qu'on compare à leurs références. Les comparaisons entre les phrases candidates et les références des phrases à traduire sont eectuées en dénombrant les n-gram qui sont en commun. Généralement, les valeurs de n vont de 1 à4.ainsi,lafonction BLEU visesimplementàdénombrer,pour 1 n 4,les n-gram qu'ont en commun la phrase candidate et les phrases références. Les concordances détectées ne tiendront pas compte de la position des n-gram. Plus il y a de concordances, meilleure est la traduction candidate. Plus précisément, pour une phrase candidate donnée c et ses références ρ i, 1 i r : 1. produire les listes (c n ) des n-gram de c, 1 n 4, 2. produire les listes (ρ n i ) des n-gram des ρ i, 1 i r, 1 n 4, 3. produire les listes (c n ) = {T (n, j, 1 j z(n, c)} des n-gram distincts de (c ),où n z(n, c)désignelacardinalitéde (c n ).Parlasuite,nousnoteronsdefaçon équivalente T j T (n, j, c), 4. compter le nombre d'occurrences T j de chaque élément de T j de (c ), 5. compter le nombre d'occurrences n ρ n i j de chaque élément T j de (ρ n i ), 6. calculer M(n, j, c) = min( T j, max( ρ n i j )) où T j = ρ n i j pour 1 i r.

28 Chapitre 2. BLEU 17 Le tableau 2.1 illustre l'algorithme précédent. j T j ρ n 1 j ρ n 2 j... ρ n r j M(n, j, c) j T j ρ n 1 j ρ n 2 j... ρ n r j min( T j, max( ρ n i j )) z(n, c) Tab. 2.1 Calcul des n-gram (pour n xe). Par la suite, an d'obtenir des quantités statistiquement représentatives, on dénit sur l'ensemble des phrases candidates C : z(n,c) précision n-gram c C j=1 M(n, j, c) := p n = z(n,c) c C j=1 T (n, j, c), 1 n 4, qui correspondent au ratio de n-gram communs entre les candidates et leurs références. An de prévenir la comparaison de la candidate avec une référence de longueur suf- samment grande pour contenir tous les n-grams possibles, pour 1 n 4, ce qui mènerait à un pointage BLEU de 1, on introduit un facteur de brièveté noté BP et calculé comme suit : 1, si c C c > r(c), c C BP = ), si c C c r(c),, c C exp ( 1 c C r(c) c C c où c est la longueur de la traduction candidate et r(c), la longueur de la référence, dont la longueur est la plus près de c. Finalement, voici comment le pointage BLEU et son logarithme sont obtenus : ( 4 BLEU = BP exp ( log(bleu) = min 1 où les w n 0 et 4 n=1 w n = 1. n=1 w n log p n ), (2.2.1) c C r(c) c C c, 0 ) + 4 n=1 w n log p n, (2.2.2)

29 Chapitre 2. BLEU 18 Exemple : Montrons à l'aide d'un exemple simplié un calcul de BLEU où les poids w 1 = w 2 = w 3 = w 4 = 1 4 : Candidate toutes les étoiles brillent le jour. Référence : le soir, toutes les étoiles brillent. 1-gram toutes les étoiles brillent le gram toutes les les étoiles étoiles brillent gram toutes les étoiles les étoiles brillent gram toutes les étoiles brillent 1 4 BLEU = ( ) 1 4 = Il est important de noter que plus il y a des traductions de référence par phrase, plus le pointage BLEU est élevé. Néanmoins, il est susant d'avoir une seule référence par phrase source pour observer les qualités de BLEU. Dans ce cas, il est préférable que ces traductions ne proviennent pas toutes du même traducteur an de couvrir un plus grand éventail de styles possibles; c'est pourquoi il est souhaitable d'avoir plusieurs traductions de références pour chaque phrase source. Quoiqu'il en soit, on constate que les résultats de BLEU sont cohérents lorsqu'on utilise diérents corpus comme références, i.e. que l'ordre de classication de plusieurs systèmes de traduction est préservé. Du point de vue des linguistes, des qualités recherchées en traduction sont l'adéquation, la uidité et la lisibilité. L'adéquation est dite d'une traduction qui transmet dèlement l'informationcontenuedanslasourceetlauiditéestlamaîtriselinguistiquedulangage cible. Une traduction qui utilise les mêmes unigrams que les références tend à satisfaire l'adéquation et la corrélation entre les n-gram tend à indiquer une traduction uide et lisible. On constate que plus on utilise des n-gram avec de grandes valeurs de n, plus BLEU permet de distinguer entre une traduction machine et une traduction humaine. BLEU calcule donc une moyenne pondérée des précisions des n-gram selon le logarithme des p n. Les n-gram de longueur quatre procurent une plus grande corrélation avec les traductions humaines que ne le font les n-gram où n < 4.

30 Chapitre 2. BLEU 19 Une personne unilingue, qui ne parle que la langue cible, jugera davantage une traduction sur ses qualités de uidité et de lisibilité tandis qu'une personne bilingue se concentrera sur l'adéquation de la traduction plutôt que sa uidité. Il y a une bonne corrélation entre le jugement humain et BLEU puisque cette fonction fait la moyenne sur un ensemble des traductions plutôt qu'une seule. La mesure de pointage BLEU permet de déceler de petites diérences dans la qualité de traduction ainsi que l'écart entre une traduction machine et la traduction humaine. Fig. 2.1 Corrélation du pointage BLEU avec le jugement humain. La gure 2.1 tirée de l'article de Papineni et al. [14] démontre le niveau de corrélation qu'atteint BLEU avec le jugement humain. Les points importants à noter sont la capacité de BLEU à détecter le grand écart qu'il y a entre les systèmes de traduction automatique, dénotés par S i, et les traductions faites par les humains, notés par H j, ainsi que les subtiles diérences entre les systèmes de traduction automatique S2 et S3. En terminant, donnons tout de même un exemple élémentaire montrant une faiblesse de BLEU.Àl'exemple 2.2.2,nousavonscalculé BLEU pour n 2etnousobtenonsdeux hypothèses qui ont le même pointage. Pourtant, aux yeux d'un humain, l'hypothèse 1 est une "meilleure" candidate que ne l'est l'hypothèse 2. Pire encore, l'hypothèse 3 obtient un meilleur pointage BLEU que ce qu'obtiennent les hypothèses 1 et 2 et semble toute aussi mauvaise que l'hypothèse 2 aux yeux d'un humain.

31 Chapitre 2. BLEU 20 Donc, cet exemple montre qu'il est possible d'avoir une phrase syntaxiquement incorrecte et d'en obtenir un meilleur pointage BLEU que pour une phrase syntaxiquement correcte. Exemple : Illustration de certaines faiblesses de BLEU. Référence je mange une pomme verte BLEU Hypothèse 1 je mange la pomme verte ( 4 2) 1 2 = Hypothèse 2 pomme verte la je mange ( 4 2) 1 2 = Hypothèse 3 : pomme verte une je mange ( 5 2) 1 2 = La fonction BLEU2a2 Nous constatons que la fonction (2.2.2) ne peut pas être calculée lorsque la précision p i = 0. C'est pour cela, an de minimiser la possibilité d'obtenir un p i = 0, que BLEU est évaluée sur un ensemble de traductions et non sur une seule traduction. Par contre, dans ce mémoire, nous chercherons à évaluer le BLEU pour une hypothèse et il nous faut donc lisser (2.2.2) de la façon suivante : { p i ɛ, si p i = 0, = p i, sinon, où ɛ = 1 10, lorsque 30 Bleu2a2(h, r) fera intervenir ces valeurs.

32 Chapitre 3 État de l'art Dans ce chapitre, nous précisons notre sujet de recherche en TAS et nous passons en revue la littérature de ce domaine. 3.1 Sélection de candidates LessystèmesdeTASproduisent,pourunephrasedonnée,unelistede N hypothèsesde traduction. Comme nous le verrons à l'aide d'exemples, il est avantageux de générer un grand nombre d'hypothèses de traduction puisque nous augmentons ainsi les chances de produire une traduction de meilleure qualité. Dans ce cas la question devient : comment détecter la "meilleure" traduction de cette liste? Définition Une technique de sélection de candidate vise à obtenir de L N (s), une liste de N hypothèses de traduction (distinctes ou non distinctes), une meilleure hypothèse de traduction de s. Le pointage BLEU sera donc calculé en prenant la première hypothèse de chacune des listes ordonnées de N hypothèses. Selon le contexte, on s'intéressera à ordonner partiellement ou totalement la liste de N hypothèses. Dans la littérature, les techniques d'ordonnancement qui associent une valeur numérique à chaque hypothèse de la liste ont reçu le nom de fonction d'attribution de pointage (rescoring). Dans ce projet de

33 Chapitre 3. État de l'art 22 mémoire, nous englobons sous le terme ordonnancement toutes techniques permettant de dénir un ordre sur la liste de N hypothèses. Puisque les techniques d'ordonnancement ne produisent pas de nouvelles hypothèses de traduction, celles-ci ne peuvent faire mieux que de trouver systématiquement la meilleure candidate de traduction parmi les hypothèses de la liste initiale. Voici un exemple d'ordonnancement : Exemple : Considérons une liste d'hypothèses de traduction produite par le décodeur pour la phrase : "I denitely share your opinion." 1. Je pense véritablement de votre avis. 2. Je pense véritablement partage votre avis. 3. Je pense véritablement partager vos opinions. 4. Je pense véritablement partager votre avis. 5. Je suis absolument de votre avis. 6. Je partage votre avis incontestablement. 7. Je pense véritablement de votre avis? 8. Je pense véritablement partage votre sentiment. 9. Je pense véritablement de votre avis! La meilleure candidate retenue par le système de traduction est : "Je pense véritablement de votre avis" alors que la traduction de référence est : "Je suis tout à fait de votre avis". Cependant, aux yeux d'un humain, il est clair que la meilleure de ces traductions apparaît en cinquième position. Ainsi, une bonne technique d'ordonnancement vise à produire de cette liste une autre qui ferait ressortir une meilleure candidate en première position : "Je suis absolument de votre avis.", que nous sélectionnerons comme candidate. 1. Je suis absolument de votre avis. 2. Je pense véritablement de votre avis. 3. Je pense véritablement de votre avis! 4. Je pense véritablement de votre avis? 5. Je pense véritablement partage votre avis.

34 Chapitre 3. État de l'art Je pense véritablement partager votre avis. 7. Je partage votre avis incontestablement. 8. Je pense véritablement partager vos opinions. 9. Je pense véritablement partage votre sentiment. Ainsi, l'amélioration maximale sur le pointage BLEU que l'ordonnancement peut apporter dépend de la qualité des traductions produites par le décodeur. La création des listes d'hypothèses de traduction est une procédure très coûteuse en temps de calculs. Il est donc avantageux d'avoir un module séparé pour l'ordonnancement qui fait suite au décodeur. Une implantation séparée du module d'ordonnancement permet de minimiser la complexité du décodeur tout en laissant assez de exibilité pour tester de nouvelles idées et de nouveaux concepts. La gure 3.1 complète celle du chapitre 1, gure 1.5, en ajoutant l'étape d'ordonnancement. Fig. 3.1 Le processus résumé de traduction de PORTAGE. Définition Dans le cas où nous avons accès aux références des phrases à traduire, l'oracle est un programme qui permet d'approximer, pour un ensemble précis de listes de N hypothèses, le sous-ensemble d'hypothèses candidates qui maximisent le pointage BLEU. Au chapitre suivant, nous utiliserons ce programme an de déterminer une plus petite borne supérieure du pointage BLEU pour un ensemble d'hypothèses données. Nous noterons ORACLE(N), la valeur BLEU obtenue par l'oracle en utilisant des listes de N hypothèses. Notons que l'oracle(1) est le pointage BLEU à la sortie du décodeur.

35 Chapitre 3. État de l'art Revue de littérature Les techniques d'ordonnancement sont utilisées dans plusieurs domaines, par exemple en traitement de la parole, en traitement du langage naturel, en méta-recherches sur le web, en marketing, en sondage d'opinion, etc. Mais ce n'est que tout récemment que ces méthodes ont été adoptées pour la traduction automatique statistique. On retrouve donc peu d'articles sur ce sujet en TAS et nous présentons succintement dans cette section les principales avenues connues. Il existe quelques articles qui traitent d'ordonnancement dont [1], [3], [6], [7], [16], [17], [18],[19] et[20], mais peu de ceux-ci sont directement reliés à la traduction automatique statistique et nous en exposerons ceux qui sont utilisés par la communauté. Ajoutons, comme le lecteur s'en rendra compte, que ces techniques sont de nature diérente de celles que nous exposerons aux chapitres 4 et 5. Par soucis de complétude, nous aimerions comparer nos résultats à ceux qu'on peut déduire des méthodes qui suivent. Cela ne sera fait que partiellement avec la méthode de Och. Vu la voracité des calculs et le manque d'accès aux codes des méthodes exposées dans la littérature, nous n'avons pas été en mesure de comparer nos résultats avec toutes ces méthodes Estimation par critère de conance Soit c 1 et c 2 deux phrases d'un langage cible. Bien que la fonction BLEU ne soit pas conçue pour être calculée à partir de deux phrases seulement, nous utilisons une versionmodiéedecelle-ciquenousnotons BLEU (c 1, c 2 ).Parlasuite,nousdénissons la fonction de "correctitude" comme suit : { 1, BLEU (h, r) τ, corr(h, r) = 0, autrement, où τ > 0 est appelée valeur seuil. Finalement, soit E un ensemble de triplets de la forme E = {(s, h,corr(h, r))} où s S une phrase source, h C une hypothèse de traduction de s et où r C est une référence de traduction pour s. Blatz et al. [1], ont entraîné un réseau de neurones sur E. Ceci leur permet d'estimer par la suite la probabilité P r(corr s, h) pour s une phrase source et h une hypothèse

36 Chapitre 3. État de l'art 25 de traduction associée. Cette idée est utilisée pour faire de l'ordonnancement de la façon simple suivante : pour s xe, nous ordonnons les hypothèses h L N ( s) en ordre décroissant de h). P r(corr s, Toujours selon [1], cette avenue n'a pas apporté d'améliorations signicatives aux pointages BLEU et NIST Méthode de Och Pour 1 i n, soit H i C, un ensemble de N hypothèses pour une phrase source s i. Och[12]associeàchaquehypothèse h H i unvecteur v(h)devaleurscaractéristiques. Pour s i on dénit : ĥ i (θ) = f θ (s, H) = argmax h H v(h) θ, (3.2.1) où θ est un vecteur de poids. La méthode de Och utilise l'algorithme de Powell [15, chapitre 10.5] pour trouver le vecteur ˆθ qui maximise BLEU pour un ensemble de phrases sources selon la formule suivante : ˆθ = argmaxbleu[(ĥ1(θ), r 1 ),..., (ĥn(θ), r n )] θ où, pour 1 i n, r i sont des références de s i. Une fois θ déterminé sur un ensemble de phrases sources d'entraînement, nous utilisons ce θ an de dégager une meilleure hypotèse pour un ensemble diérent de phrases tests Régression Mentionnons qu'une technique générale consiste à poser le problème f θ (s, H) = argmax B θ (s, h) (3.2.2) h H où B θ (s, h) est une fonction qui approxime BLEU (h, r) où r est une référence de s, et où θ est un paramètre de régression qui minimise la fonction erreur E(θ) = i (B θ (s, c) BLEU (h, r)) 2 j où s i, r i et h i,j ont la même signication que précédemment.

37 Chapitre 3. État de l'art Méthodes de Shen Finalement, Shen [19] reprend l'équation (3.2.1) en utilisant deux approches diérentes pour maximiser θ. Dans le premier cas, les hypothèses sont réordonnées selon BLEU (h i,j, r i ), où h i,j et r i désignent respectivement les hypothèses d'une liste L i et la référence associée à une phrase source s i. Ensuite, cette liste est séparée en prenant les n 1 meilleures hypothèses et les n 2 moins bonnes hypothèses, où n 1 + n 2 N. Ceci permet de construire un classicateur binaire à l'aide d'un algorithme de perceptrons et permet donc de calculer θ. Dans le deuxième cas, les listes sont réordonnées comme danslepremiercas,puisonfaitunerégressionsurlesrangsdeshypothèsesenutilisant un algorithme qui n'est pas sensible aux petites diérences entre les rangs.

38 Chapitre 4 De nouvelles avenues Aux chapitres précédents, nous avons présenté les éléments de la traduction automatique statistique, la fonction BLEU et l'état de l'art en ce qui a trait à l'ordonnancement de listes d'hypothèses en TAS et des techniques de sélection de candidates qui en découlent. Après avoir déni le cadre des applications de ce mémoire, les prochaines sections de ce chapitre servent à présenter trois des quatre méthodes que nous avons développées soit la méthode SA, les méthodes de projection et les méthodes hybrides. 4.1 Cadre des applications An de tester nos méthodes de sélection de candidates, les résultats des traductions que nous présenterons utiliseront comme paire de langages source et cible soit l'anglais vers le français ou le français vers l'anglais. Occasionnellement, nous présenterons des résultats de traductions du chinois vers l'anglais. Notons que les méthodes de sélection de candidates que nous avons élaborées conservent pratiquement tout le caractère général qu'ore l'approche statistique en traduction automatique soit de pouvoir être appliquées à une paire de langages source et cible quelconques. Bien sûr, pour un autre choix de paires de langages, la transposition des résultats observés demeure à vérier. De façon générale, les processus de traduction et de validation des approches étudiées requièrent des ensembles de paires de phrases bilingues alignées issues du corpus. Tel

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

chapitre 4 Nombres de Catalan

chapitre 4 Nombres de Catalan chapitre 4 Nombres de Catalan I Dénitions Dénition 1 La suite de Catalan (C n ) n est la suite dénie par C 0 = 1 et, pour tout n N, C n+1 = C k C n k. Exemple 2 On trouve rapidement C 0 = 1, C 1 = 1, C

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

Recherche dans un tableau

Recherche dans un tableau Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6

Plus en détail

Vers l'ordinateur quantique

Vers l'ordinateur quantique Cours A&G Vers l'ordinateur quantique Données innies On a vu dans les chapîtres précédents qu'un automate permet de représenter de manière nie (et même compacte) une innité de données. En eet, un automate

Plus en détail

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R 2. RAPPEL DES TECHNIQUES DE CALCUL DANS R Dans la mesure où les résultats de ce chapitre devraient normalement être bien connus, il n'est rappelé que les formules les plus intéressantes; les justications

Plus en détail

Le chiffre est le signe, le nombre est la valeur.

Le chiffre est le signe, le nombre est la valeur. Extrait de cours de maths de 6e Chapitre 1 : Les nombres et les opérations I) Chiffre et nombre 1.1 La numération décimale En mathématique, un chiffre est un signe utilisé pour l'écriture des nombres.

Plus en détail

D'UN THÉORÈME NOUVEAU

D'UN THÉORÈME NOUVEAU DÉMONSTRATION D'UN THÉORÈME NOUVEAU CONCERNANT LES NOMBRES PREMIERS 1. (Nouveaux Mémoires de l'académie royale des Sciences et Belles-Lettres de Berlin, année 1771.) 1. Je viens de trouver, dans un excellent

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

1.5 0.5 -0.5 -1.5 0 20 40 60 80 100 120. (VM(t i ),Q(t i+j ),VM(t i+j ))

1.5 0.5 -0.5 -1.5 0 20 40 60 80 100 120. (VM(t i ),Q(t i+j ),VM(t i+j )) La logique oue dans les PME/PMI Application au dosage de l'eau dans les bétons P.Y. Glorennec INSA de Rennes/IRISA glorenne@irisa.fr C. Hérault Hydrostop christophe@hydrostop.fr V. Hulin Hydrostop vincent@hydrostop.fr

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au

Plus en détail

Raisonnement par récurrence Suites numériques

Raisonnement par récurrence Suites numériques Chapitre 1 Raisonnement par récurrence Suites numériques Terminale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Raisonnement par récurrence. Limite finie ou infinie d une suite.

Plus en détail

Date : 18.11.2013 Tangram en carré page

Date : 18.11.2013 Tangram en carré page Date : 18.11.2013 Tangram en carré page Titre : Tangram en carré Numéro de la dernière page : 14 Degrés : 1 e 4 e du Collège Durée : 90 minutes Résumé : Le jeu de Tangram (appelé en chinois les sept planches

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

6. Les différents types de démonstrations

6. Les différents types de démonstrations LES DIFFÉRENTS TYPES DE DÉMONSTRATIONS 33 6. Les différents types de démonstrations 6.1. Un peu de logique En mathématiques, une démonstration est un raisonnement qui permet, à partir de certains axiomes,

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure

Plus en détail

O b s e r v a t o i r e E V A P M. Taxonomie R. Gras - développée

O b s e r v a t o i r e E V A P M. Taxonomie R. Gras - développée O b s e r v a t o i r e E V A P M É q u i p e d e R e c h e r c h e a s s o c i é e à l ' I N R P Taxonomie R. Gras - développée Grille d'analyse des objectifs du domaine mathématique et de leurs relations

Plus en détail

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VIII : Les circuits avec résistances ohmiques CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Par combien de zéros se termine N!?

Par combien de zéros se termine N!? La recherche à l'école page 79 Par combien de zéros se termine N!? par d es co llèg es An dré Do ucet de Nanterre et Victor Hugo de Noisy le Grand en seignants : Danielle Buteau, Martine Brunstein, Marie-Christine

Plus en détail

Nombre de marches Nombre de facons de les monter 3 3 11 144 4 5 12 233 5 8 13 377 6 13 14 610 7 21 15 987 8 34 16 1597 9 55 17 2584 10 89

Nombre de marches Nombre de facons de les monter 3 3 11 144 4 5 12 233 5 8 13 377 6 13 14 610 7 21 15 987 8 34 16 1597 9 55 17 2584 10 89 Soit un escalier à n marches. On note u_n le nombre de façons de monter ces n marches. Par exemple d'après l'énoncé, u_3=3. Pour monter n marches, il faut d'abord monter la première. Soit on la monte seule,

Plus en détail

Cours 02 : Problème général de la programmation linéaire

Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

TESTS D'HYPOTHESES Etude d'un exemple

TESTS D'HYPOTHESES Etude d'un exemple TESTS D'HYPOTHESES Etude d'un exemple Un examinateur doit faire passer une épreuve type QCM à des étudiants. Ce QCM est constitué de 20 questions indépendantes. Pour chaque question, il y a trois réponses

Plus en détail

NOTIONS DE PROBABILITÉS

NOTIONS DE PROBABILITÉS NOTIONS DE PROBABILITÉS Sommaire 1. Expérience aléatoire... 1 2. Espace échantillonnal... 2 3. Événement... 2 4. Calcul des probabilités... 3 4.1. Ensemble fondamental... 3 4.2. Calcul de la probabilité...

Plus en détail

L'instruction if permet d'exécuter des instructions différentes selon qu'une condition est vraie ou fausse. Sa forme de base est la suivante:

L'instruction if permet d'exécuter des instructions différentes selon qu'une condition est vraie ou fausse. Sa forme de base est la suivante: 420-183 Programmation 1 8. Les structures conditionnelles Dans l'écriture de tout programme informatique, une des premières nécessités que nous rencontrons est de pouvoir faire des choix. Dans une application

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Algorithmes de recherche

Algorithmes de recherche Algorithmes de recherche 1 Résolution de problèmes par recherche On représente un problème par un espace d'états (arbre/graphe). Chaque état est une conguration possible du problème. Résoudre le problème

Plus en détail

modélisation solide et dessin technique

modélisation solide et dessin technique CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir

Plus en détail

Traitement de texte : Quelques rappels de quelques notions de base

Traitement de texte : Quelques rappels de quelques notions de base Traitement de texte : Quelques rappels de quelques notions de base 1 Quelques rappels sur le fonctionnement du clavier Voici quelques rappels, ou quelques appels (selon un de mes profs, quelque chose qui

Plus en détail

Structures algébriques

Structures algébriques Structures algébriques 1. Lois de composition s Soit E un ensemble. Une loi de composition interne sur E est une application de E E dans E. Soient E et F deux ensembles. Une loi de composition externe

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples 45 Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples Les espaces vectoriels considérés sont réels, non réduits au vecteur nul et

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

Nom-Projet MODELE PLAN DE MANAGEMENT DE PROJET

Nom-Projet MODELE PLAN DE MANAGEMENT DE PROJET Nom-Projet MODELE PLAN DE MANAGEMENT DE PROJET Glossaire La terminologie propre au projet, ainsi que les abréviations et sigles utilisés sont définis dans le Glossaire. Approbation Décision formelle, donnée

Plus en détail

Chapitre 2. Eléments pour comprendre un énoncé

Chapitre 2. Eléments pour comprendre un énoncé Chapitre 2 Eléments pour comprendre un énoncé Ce chapitre est consacré à la compréhension d un énoncé. Pour démontrer un énoncé donné, il faut se reporter au chapitre suivant. Les tables de vérité données

Plus en détail

La correction des erreurs d'enregistrement et de traitement comptables

La correction des erreurs d'enregistrement et de traitement comptables La correction des erreurs d'enregistrement et de traitement comptables Après l'étude des différents types d'erreurs en comptabilité (Section 1) nous étudierons la cause des erreurs (Section 2) et les techniques

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication Statut du Committee Working Draft document Titre XACML Language Proposal, version 0.8 (XACML : XML Access Control Markup Language) Langage de balisage du contrôle d'accès Mot clé Attestation et sécurité

Plus en détail

Partie 7 : Gestion de la mémoire

Partie 7 : Gestion de la mémoire INF3600+INF2610 Automne 2006 Partie 7 : Gestion de la mémoire Exercice 1 : Considérez un système disposant de 16 MO de mémoire physique réservée aux processus utilisateur. La mémoire est composée de cases

Plus en détail

Calculateur quantique: factorisation des entiers

Calculateur quantique: factorisation des entiers Calculateur quantique: factorisation des entiers Plan Introduction Difficulté de la factorisation des entiers Cryptographie et la factorisation Exemple RSA L'informatique quantique L'algorithme quantique

Plus en détail

Algorithme. Table des matières

Algorithme. Table des matières 1 Algorithme Table des matières 1 Codage 2 1.1 Système binaire.............................. 2 1.2 La numérotation de position en base décimale............ 2 1.3 La numérotation de position en base binaire..............

Plus en détail

Problème : Calcul d'échéanciers de prêt bancaire (15 pt)

Problème : Calcul d'échéanciers de prêt bancaire (15 pt) Problème : Calcul d'échéanciers de prêt bancaire (15 pt) 1 Principe d'un prêt bancaire et dénitions Lorsque vous empruntez de l'argent dans une banque, cet argent (appelé capital) vous est loué. Chaque

Plus en détail

LE PROBLÈME DE RECHERCHE ET LA PROBLÉMATIQUE

LE PROBLÈME DE RECHERCHE ET LA PROBLÉMATIQUE LE PROBLÈME DE RECHERCHE ET LA PROBLÉMATIQUE Un problème de recherche est l écart qui existe entre ce que nous savons et ce que nous voudrions savoir à propos d un phénomène donné. Tout problème de recherche

Plus en détail

Exercices de dénombrement

Exercices de dénombrement Exercices de dénombrement Exercice En turbo Pascal, un entier relatif (type integer) est codé sur 6 bits. Cela signifie que l'on réserve 6 cases mémoires contenant des "0" ou des "" pour écrire un entier.

Plus en détail

Investissement dans la construction de nouveaux bâtiments résidentiels (travaux mis en place) Méthodologie

Investissement dans la construction de nouveaux bâtiments résidentiels (travaux mis en place) Méthodologie Investissement dans la construction de nouveaux bâtiments résidentiels (travaux mis en place) Méthodologie Division de l investissement et du stock de capital Méthodologie L'investissement dans la construction

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Les mesures à l'inclinomètre

Les mesures à l'inclinomètre NOTES TECHNIQUES Les mesures à l'inclinomètre Gérard BIGOT Secrétaire de la commission de Normalisation sols : reconnaissance et essais (CNSRE) Laboratoire régional des Ponts et Chaussées de l'est parisien

Plus en détail

CRÉER UNE BASE DE DONNÉES AVEC OPEN OFFICE BASE

CRÉER UNE BASE DE DONNÉES AVEC OPEN OFFICE BASE CRÉER UNE BASE DE DONNÉES AVEC OPEN OFFICE BASE 2 ème partie : REQUÊTES Sommaire 1. Les REQUÊTES...2 1.1 Créer une requête simple...2 1.1.1 Requête de création de listage ouvrages...2 1.1.2 Procédure de

Plus en détail

Débuter avec OOo Base

Débuter avec OOo Base Open Office.org Cyril Beaussier Débuter avec OOo Base Version 1.0.7 Novembre 2005 COPYRIGHT ET DROIT DE REPRODUCTION Ce support est libre de droit pour une utilisation dans un cadre privé ou non commercial.

Plus en détail

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques : MTH EN JEN 2013-2014 Elèves de seconde, première et terminale scientifiques : Lycée Michel Montaigne : HERITEL ôme T S POLLOZE Hélène 1 S SOK Sophie 1 S Eteindre Lycée Sud Médoc : ROSIO Gauthier 2 nd PELGE

Plus en détail

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008) Examen optimisation Centrale Marseille (28) et SupGalilee (28) Olivier Latte, Jean-Michel Innocent, Isabelle Terrasse, Emmanuel Audusse, Francois Cuvelier duree 4 h Tout resultat enonce dans le texte peut

Plus en détail

Retournement Temporel

Retournement Temporel Retournement Temporel Rédigé par: HENG Sokly Encadrés par: Bernard ROUSSELET & Stéphane JUNCA 2 juin 28 Remerciements Je tiens tout d'abord à remercier mes responsables de mémoire, M.Bernard ROUSSELET

Plus en détail

Contrôle interne et organisation comptable de l'entreprise

Contrôle interne et organisation comptable de l'entreprise Source : "Comptable 2000 : Les textes de base du droit comptable", Les Éditions Raouf Yaïch. Contrôle interne et organisation comptable de l'entreprise Le nouveau système comptable consacre d'importants

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd UE 503 L3 MIAGE Initiation Réseau et Programmation Web La couche physique A. Belaïd abelaid@loria.fr http://www.loria.fr/~abelaid/ Année Universitaire 2011/2012 2 Le Modèle OSI La couche physique ou le

Plus en détail

LES DECIMALES DE π BERNARD EGGER

LES DECIMALES DE π BERNARD EGGER LES DECIMALES DE π BERNARD EGGER La génération de suites de nombres pseudo aléatoires est un enjeu essentiel pour la simulation. Si comme le dit B Ycard dans le cours écrit pour le logiciel SEL, «Paradoxalement,

Plus en détail

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton Linked Open Data Le Web de données Réseau, usages, perspectives Sommaire Histoire du Linked Open Data Structure et évolution du réseau Utilisations du Linked Open Data Présence sur le réseau LOD Futurs

Plus en détail

NOTATIONS PRÉLIMINAIRES

NOTATIONS PRÉLIMINAIRES Pour le Jeudi 14 Octobre 2010 NOTATIONS Soit V un espace vectoriel réel ; l'espace vectoriel des endomorphismes de l'espace vectoriel V est désigné par L(V ). Soit f un endomorphisme de l'espace vectoriel

Plus en détail

Année Universitaire 2009/2010 Session 2 de Printemps

Année Universitaire 2009/2010 Session 2 de Printemps Année Universitaire 2009/2010 Session 2 de Printemps DISVE Licence PARCOURS : CSB4 & CSB6 UE : INF 159, Bases de données Épreuve : INF 159 EX Date : Mardi 22 juin 2010 Heure : 8 heures 30 Durée : 1 heure

Plus en détail

Axiomatique de N, construction de Z

Axiomatique de N, construction de Z Axiomatique de N, construction de Z Table des matières 1 Axiomatique de N 2 1.1 Axiomatique ordinale.................................. 2 1.2 Propriété fondamentale : Le principe de récurrence.................

Plus en détail

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS Février 2011 Édition produite par : Le Service de l accès à l information et des ressources documentaires du ministère de la Santé et des Services

Plus en détail

Ordonnancement. N: nains de jardin. X: peinture extérieure. E: électricité T: toit. M: murs. F: fondations CHAPTER 1

Ordonnancement. N: nains de jardin. X: peinture extérieure. E: électricité T: toit. M: murs. F: fondations CHAPTER 1 CHAPTER 1 Ordonnancement 1.1. Étude de cas Ordonnancement de tâches avec contraintes de précédences 1.1.1. Exemple : construction d'une maison. Exercice. On veut construire une maison, ce qui consiste

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Annexe B : Exemples. Avis de vente aux enchères liées Système de plafonnement et d échange de droits d émission de gaz à effet de serre (GES)

Annexe B : Exemples. Avis de vente aux enchères liées Système de plafonnement et d échange de droits d émission de gaz à effet de serre (GES) Annexe B : Exemples Avis de vente aux enchères liées Système de plafonnement et d échange de droits d émission de gaz à effet de serre (GES) Ce document fournit des exemples sur la façon de déterminer

Plus en détail

Chapitre 1 Cinématique du point matériel

Chapitre 1 Cinématique du point matériel Chapitre 1 Cinématique du point matériel 7 1.1. Introduction 1.1.1. Domaine d étude Le programme de mécanique de math sup se limite à l étude de la mécanique classique. Sont exclus : la relativité et la

Plus en détail

LibreOffice Calc : introduction aux tableaux croisés dynamiques

LibreOffice Calc : introduction aux tableaux croisés dynamiques Fiche logiciel LibreOffice Calc 3.x Tableur Niveau LibreOffice Calc : introduction aux tableaux croisés dynamiques Un tableau croisé dynamique (appelé Pilote de données dans LibreOffice) est un tableau

Plus en détail

1. Introduction...2. 2. Création d'une requête...2

1. Introduction...2. 2. Création d'une requête...2 1. Introduction...2 2. Création d'une requête...2 3. Définition des critères de sélection...5 3.1 Opérateurs...5 3.2 Les Fonctions...6 3.3 Plusieurs critères portant sur des champs différents...7 3.4 Requête

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

VIII- Circuits séquentiels. Mémoires

VIII- Circuits séquentiels. Mémoires 1 VIII- Circuits séquentiels. Mémoires Maintenant le temps va intervenir. Nous avions déjà indiqué que la traversée d une porte ne se faisait pas instantanément et qu il fallait en tenir compte, notamment

Plus en détail

V- Manipulations de nombres en binaire

V- Manipulations de nombres en binaire 1 V- Manipulations de nombres en binaire L ordinateur est constitué de milliards de transistors qui travaillent comme des interrupteurs électriques, soit ouverts soit fermés. Soit la ligne est activée,

Plus en détail

DYNAMIQUE DE FORMATION DES ÉTOILES

DYNAMIQUE DE FORMATION DES ÉTOILES A 99 PHYS. II ÉCOLE NATIONALE DES PONTS ET CHAUSSÉES, ÉCOLES NATIONALES SUPÉRIEURES DE L'AÉRONAUTIQUE ET DE L'ESPACE, DE TECHNIQUES AVANCÉES, DES TÉLÉCOMMUNICATIONS, DES MINES DE PARIS, DES MINES DE SAINT-ÉTIENNE,

Plus en détail

LES TYPES DE DONNÉES DU LANGAGE PASCAL

LES TYPES DE DONNÉES DU LANGAGE PASCAL LES TYPES DE DONNÉES DU LANGAGE PASCAL 75 LES TYPES DE DONNÉES DU LANGAGE PASCAL CHAPITRE 4 OBJECTIFS PRÉSENTER LES NOTIONS D ÉTIQUETTE, DE CONS- TANTE ET DE IABLE DANS LE CONTEXTE DU LAN- GAGE PASCAL.

Plus en détail

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6 Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6 1 1.But et théorie: Le but de cette expérience est de comprendre l'intérêt de la spectrophotométrie d'absorption moléculaire

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

9 5 2 5 Espaces probabilisés

9 5 2 5 Espaces probabilisés BCPST2 9 5 2 5 Espaces probabilisés I Mise en place du cadre A) Tribu Soit Ω un ensemble. On dit qu'un sous ensemble T de P(Ω) est une tribu si et seulement si : Ω T. T est stable par complémentaire, c'est-à-dire

Plus en détail

Peut-on tout programmer?

Peut-on tout programmer? Chapitre 8 Peut-on tout programmer? 8.1 Que peut-on programmer? Vous voici au terme de votre initiation à la programmation. Vous avez vu comment représenter des données de plus en plus structurées à partir

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition 09-0749 1 WHO/EMP/MAR/2009.3 Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition Synthèse des résultats des études publiées entre 1990 et 2006 Organisation

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

L'INTÉRÊT COMPOSÉ. 2.1 Généralités. 2.2 Taux

L'INTÉRÊT COMPOSÉ. 2.1 Généralités. 2.2 Taux L'INTÉRÊT COMPOSÉ 2.1 Généralités Un capital est placé à intérêts composés lorsque les produits pendant la période sont ajoutés au capital pour constituer un nouveau capital qui, à son tour, portera intérêt.

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Problèmes de Mathématiques Filtres et ultrafiltres

Problèmes de Mathématiques Filtres et ultrafiltres Énoncé Soit E un ensemble non vide. On dit qu un sous-ensemble F de P(E) est un filtre sur E si (P 0 ) F. (P 1 ) (X, Y ) F 2, X Y F. (P 2 ) X F, Y P(E) : X Y Y F. (P 3 ) / F. Première Partie 1. Que dire

Plus en détail

Carl-Louis-Ferdinand von Lindemann (1852-1939)

Carl-Louis-Ferdinand von Lindemann (1852-1939) Par Boris Gourévitch "L'univers de Pi" http://go.to/pi314 sai1042@ensai.fr Alors ça, c'est fort... Tranches de vie Autour de Carl-Louis-Ferdinand von Lindemann (1852-1939) est transcendant!!! Carl Louis

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Initiation à la programmation en Python

Initiation à la programmation en Python I-Conventions Initiation à la programmation en Python Nom : Prénom : Une commande Python sera écrite en caractère gras. Exemples : print 'Bonjour' max=input("nombre maximum autorisé :") Le résultat de

Plus en détail

Chapitre 1 I:\ Soyez courageux!

Chapitre 1 I:\ Soyez courageux! Chapitre 1 I:\ Soyez courageux! Pour ne rien vous cacher, le langage d'assembleur (souvent désigné sous le terme "Assembleur", bien que ce soit un abus de langage, puisque "Assembleur" désigne le logiciel

Plus en détail