Contribution des basses fréquences à l alignement sous-phrastique multilingue : une approche différentielle

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Contribution des basses fréquences à l alignement sous-phrastique multilingue : une approche différentielle"

Transcription

1 Contribution des basses fréquences à l alignement sous-phrastique multilingue : une approche différentielle Adrien Lardilleux GREYC, université de Caen Basse-Normandie 14 septembre 2010

2 Cadre : traduction automatique empirique Paradigme de traduction automatique dans lequel toute la connaissance nécessaire au processus de traduction est tirée de textes parallèles. Exemple de texte parallèle extrait du BTEC (Takezawa et coll., 2002) この 辺 り に パブ は あり ません か Is there a pub around here? ビール 一 杯 飲 み たく て 死 に そう I m dying for a swig of beer. この ピザ 美 味 しい This pizza is delicious. Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

3 Cadre : traduction automatique empirique Paradigme de traduction automatique dans lequel toute la connaissance nécessaire au processus de traduction est tirée de textes parallèles. Exemple de texte parallèle extrait du BTEC (Takezawa et coll., 2002) この 辺 り に パブ は あり ません か Is there a pub around here? ビール 一 杯 飲 み たく て 死 に そう I m dying for a swig of beer. この ピザ 美 味 しい This pizza is delicious. この ビール 美 味 しい Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

4 Cadre : traduction automatique empirique Paradigme de traduction automatique dans lequel toute la connaissance nécessaire au processus de traduction est tirée de textes parallèles. Exemple de texte parallèle extrait du BTEC (Takezawa et coll., 2002) この 辺 り に パブ は あり ません か Is there a pub around here? ビール 一 杯 飲 み たく て 死 に そう I m dying for a swig of beer. この ピザ 美 味 しい This pizza is delicious. この ビール 美 味 しい Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

5 Cadre : traduction automatique empirique Paradigme de traduction automatique dans lequel toute la connaissance nécessaire au processus de traduction est tirée de textes parallèles. Exemple de texte parallèle extrait du BTEC (Takezawa et coll., 2002) この 辺 り に パブ は あり ません か Is there a pub around here? ビール 一 杯 飲 み たく て 死 に そう I m dying for a swig of beer. この ピザ 美 味 しい This pizza is delicious. この ビール 美 味 しい Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

6 Cadre : traduction automatique empirique Paradigme de traduction automatique dans lequel toute la connaissance nécessaire au processus de traduction est tirée de textes parallèles. Exemple de texte parallèle extrait du BTEC (Takezawa et coll., 2002) この 辺 り に パブ は あり ません か Is there a pub around here? ビール 一 杯 飲 み たく て 死 に そう I m dying for a swig of beer. この ピザ 美 味 しい This pizza is delicious. この ビール 美 味 しい This beer is delicious. Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

7 Cadre : traduction automatique empirique Paradigme de traduction automatique dans lequel toute la connaissance nécessaire au processus de traduction est tirée de textes parallèles. Exemple de texte parallèle extrait du BTEC (Takezawa et coll., 2002) この 辺 り に パブ は あり ません か Is there a pub around here? ビール 一 杯 飲 み たく て 死 に そう I m dying for a swig of beer. この ピザ 美 味 しい This pizza is delicious. この ビール 美 味 しい Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

8 Objectif : production de tables de traductions Japonais Anglais Scores ビール beer 1,0 ピザ pizza 0,5 ピッツァ pizza 0,5 ビール 一 杯 飲 み a swig of beer 0,7 この _ 美 味 しい This _ is delicious 0,4 Processus endogène et non supervisé Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

9 Objectif : production de tables de traductions Japonais Anglais Scores ビール beer 1,0 ピザ pizza 0,5 ピッツァ pizza 0,5 ビール 一 杯 飲 み a swig of beer 0,7 この _ 美 味 しい This _ is delicious 0,4 Processus endogène et non supervisé Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

10 Objectif : production de tables de traductions Japonais Anglais Scores ビール beer 1,0 ピザ pizza 0,5 ピッツァ pizza 0,5 ビール 一 杯 飲 み a swig of beer 0,7 この _ 美 味 しい This _ is delicious 0,4 Processus endogène et non supervisé Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

11 Objectif : production de tables de traductions Japonais Anglais Scores ビール beer 1,0 ピザ pizza 0,5 ピッツァ pizza 0,5 ビール 一 杯 飲 み a swig of beer 0,7 この _ 美 味 しい This _ is delicious 0,4 Processus endogène et non supervisé Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

12 Approche 1/2 : estimative (Brown et coll., 1988) Un modèle, des paramètres, des liens The president cut the speaker off. Le président retire la parole à l orateur. ( plusieurs milliers) Problème de maximisation globale Une table de traductions e f P(f e) P(e f) Le the 0,2 0,3 La the 0,1 0,2 ( plusieurs milliers) Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

13 Approche 2/2 : associative (Gale et Church, 1991) Des candidats, un test d indépendance e f φ(e,f) Le the 0,6 La the 0,5 Éventuellement : des liens The president cut the speaker off. ( plusieurs milliers) Problème de maximisation locale ( plusieurs milliers) Le président retire la parole à l orateur. Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

14 L outil de référence : GIZA++ (Och et Ney, 2003) Implémente les modèles IBM (Brown et coll., 1993) et le HMM (Vogel et coll., 1996) Produit des résultats de très bonne qualité Parfaitement couplé au système de TA statistique Moses (Koehn et coll., 2007) Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

15 L outil de référence : GIZA++ (Och et Ney, 2003) Implémente les modèles IBM (Brown et coll., 1993) et le HMM (Vogel et coll., 1996) Produit des résultats de très bonne qualité Parfaitement couplé au système de TA statistique Moses (Koehn et coll., 2007) Critiques possibles : 6 modèles différents, de complexité croissante temps d exécution important, passage à l échelle difficile Modèles compliqués outil compliqué ( lignes de code, 58 options, 25 fichiers temporaires) Modèles bilingues et asymétriques Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

16 Nos objectifs Réponses possibles aux critiques précédentes Passage à l échelle au cœur de la méthode Outil simple un seul modèle simple Modèle multilingue non directionnel Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

17 1 Contribution à l étude des mots rares 2 Contribution à l alignement de séquences de mots Ébauche de la méthode : comment, quoi? Extraction d alignements à partir de corpus multilingues Calcul des scores Optimisation de la méthode 3 Évaluation et perspectives Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

18 Loi d Estoup-Zipf Échelle logarithmique : Effectif Rang Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

19 Loi d Estoup-Zipf Échelle semi-logarithmique : Effectif Rang Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

20 Incompressibilité du nombre d hapax 100 % Proportion d hapax 80 % 60 % 40 % 20 % 0 % Longueur du corpus en mots Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

21 Expérience d alignement bilingue entre mots Une méthode associative : méthode du cosinus On associe à chaque mot d un corpus parallèle un vecteur dont les éléments sont le nombre de fois que le mot apparaît dans chacune des phrases On calcule pour chaque couple de mots (source, cible) l angle formé par leurs vecteurs respectifs m n couples de mots et leurs angles [0 ; π/2] Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

22 Nombre d alignements et angles ( qualité) Quantité d alignements Angles des alignements Effectif du mot cible Effectif du mot source π 2 π 4 π π 8 Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

23 Alignements d hapax 80 à 90 % des alignements d angle nul = couples d hapax Seulement 12 % des phrases contiennent au moins un hapax Parmi ces 12 %, plus de 80 % n en contiennent qu un seul L alignement d hapax est simple et produit des résultats de bonne qualité : 桃 peach 風 景 画 landscape ミサ mass 宝 くじ lottery アルバム album スイート suite ユーフォー UFO ベーグル bagels わっ crocodile エイズ AIDS Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

24 1 Contribution à l étude des mots rares 2 Contribution à l alignement de séquences de mots Ébauche de la méthode : comment, quoi? Extraction d alignements à partir de corpus multilingues Calcul des scores Optimisation de la méthode 3 Évaluation et perspectives Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

25 Rappel des objectifs Résultats sur les mots rares Multiplicité 1-1 : mot-à-mot Bilingue On ne sait bien aligner que les hapax Nos objectifs Multiplicité m-n : séquences de mots «Alingue» (= multilingue) Nous saurons aligner tous les mots Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

26 Notre proposition Renversement des termes de la doxa du domaine : Pour aligner des mots rares par une méthode fondée sur les mots fréquents, ajouter des données Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

27 Notre proposition Renversement des termes de la doxa du domaine : Pour aligner des mots rares par une méthode fondée sur les mots fréquents, ajouter des données Pour aligner des mots fréquents par une méthode fondée sur les mots rares, supprimer des données 0 Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

28 Notre proposition Renversement des termes de la doxa du domaine : Pour aligner des mots rares par une méthode fondée sur les mots fréquents, ajouter des données Pour aligner des mots fréquents par une méthode fondée sur les mots rares, supprimer des données 0 Cœur de la méthode Traiter de multiples sous-corpus Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

29 Avantages de notre proposition Modèle : Linguistique : Informatique : significativité : «Less data is more data!» simplicité : principe du tout ou rien désambiguïsation gratuite : un hapax = un sens traitement réellement multilingue moins de mémoire nécessaire parallélisation facile, rapidité Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

30 Problème des hautes fréquences Les mots très fréquents sont toujours très fréquents, quelle que soit la taille des sous-corpus Il est impossible de les aligner en les rendant rares (Exemple : le point) Peut-on concilier hautes et basses fréquences? Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

31 Problème des hautes fréquences Les mots très fréquents sont toujours très fréquents, quelle que soit la taille des sous-corpus Il est impossible de les aligner en les rendant rares (Exemple : le point) Peut-on concilier hautes et basses fréquences? Hautes et basses fréquences donnent de bons alignements par des méthodes reposant sur la similarité de leurs distributions Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

32 Problème des hautes fréquences Les mots très fréquents sont toujours très fréquents, quelle que soit la taille des sous-corpus Il est impossible de les aligner en les rendant rares (Exemple : le point) Peut-on concilier hautes et basses fréquences? Hautes et basses fréquences donnent de bons alignements par des méthodes reposant sur la similarité de leurs distributions Nous alignerons des mots partageant la même distribution, quelles que soient leurs fréquences Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

33 Ébauche d algorithme Répéter : Tirer un sous-corpus En extraire les séquences de mots de même distribution Fin répéter Calculer les scores des alignements Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

34 Ébauche d algorithme Répéter : Tirer un sous-corpus En extraire les séquences de mots de même distribution Fin répéter Calculer les scores des alignements «Anytime» Le nombre de sous-corpus traités n influe pas sur la qualité mais sur la quantité et la significativité des résultats Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

35 Le multilingue par l «alingue» Corpus parallèle multilingue 1 Un café, s il vous plaît. One coffee, please. 2 Ce café est excellent. This coffee is excellent. 3 Un thé fort. One strong tea. 4 Un café fort. One strong coffee. Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

36 Le multilingue par l «alingue» Corpus parallèle multilingue 1 Un café, s il vous plaît. One coffee, please. 2 Ce café est excellent. This coffee is excellent. 3 Un thé fort. One strong tea. 4 Un café fort. One strong coffee. Transformation en corpus «alingue» Un2 café 2, 2 s il 2 vous 2 plaît 2. 2 One 3 coffee 3, 3 please Ce 2 café 2 est 2 excellent 2. 2 This 3 coffee 3 is 3 excellent Un 2 thé 2 fort 2. 2 One 3 strong 3 tea Un2 café 2 fort 2. 2 One 3 strong 3 coffee 3. 3 Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

37 Extraction des alignements (1/2) Sélection d un sous-corpus , 2, One 3 Un 2 café 2 coffee 3 plaît 2 please 3 s il 2 vous Ce 2 This 3 café 2 coffee 3 est 2 excellent 2 excellent 3 is One 3 Un 2 fort 2 strong 3 tea 3 thé 2 Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

38 Extraction des alignements (1/2) Sélection d un sous-corpus , 2, One 3 Un 2 café 2 coffee 3 plaît 2 please 3 s il 2 vous Ce 2 This 3 café 2 coffee 3 est 2 excellent 2 excellent 3 is One 3 Un 2 fort 2 strong 3 tea 3 thé 2 Calcul des vecteurs d apparition des mots , 2, Ce 2 One 3 This 3 Un 2 café 2 coffee 3 est 2 excellent 2 excellent 3 fort 2 is 3 plaît Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

39 Extraction des alignements (1/2) Sélection d un sous-corpus , 2, One 3 Un 2 café 2 coffee 3 plaît 2 please 3 s il 2 vous Ce 2 This 3 café 2 coffee 3 est 2 excellent 2 excellent 3 is One 3 Un 2 fort 2 strong 3 tea 3 thé 2 Calcul des vecteurs d apparition des mots , 2, Ce 2 One 3 This 3 Un 2 café 2 coffee 3 est 2 excellent 2 excellent 3 fort 2 is 3 plaît Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

40 Extraction des alignements (1/2) Sélection d un sous-corpus , 2, One 3 Un 2 café 2 coffee 3 plaît 2 please 3 s il 2 vous Ce 2 This 3 café 2 coffee 3 est 2 excellent 2 excellent 3 is One 3 Un 2 fort 2 strong 3 tea 3 thé 2 Calcul des vecteurs d apparition des mots , 2, Ce 2 One 3 This 3 Un 2 café 2 coffee 3 est 2 excellent 2 excellent 3 fort 2 is 3 plaît Tri des mots par vecteurs café2 coffee 3 One 3 Un , 3, 2 plaît 2 please 3 s il 2 vous Ce 2 This 3 est 2 excellent 2 excellent Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

41 Extraction des alignements (2/2) Extraction des séquences de même distribution et de leurs contextes Les mots : apparaissent dans les phrases : d où nous extrayons : 1 café 2 coffee café 2 coffee Un 2 _, 2 s il 2 vous 2 plaît 2. 2 One 3 _, 3 please café 2 coffee _ 1 Ce 2 _ est 2 excellent 2. 2 This 3 _ is 3 excellent 3. 3 Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

42 Extraction des alignements (2/2) Extraction des séquences de même distribution et de leurs contextes Les mots : apparaissent dans les phrases : d où nous extrayons : 1 café 2 coffee café 2 coffee Un 2 _, 2 s il 2 vous 2 plaît 2. 2 One 3 _, 3 please café 2 coffee _ 1 Ce 2 _ est 2 excellent 2. 2 This 3 _ is 3 excellent 3. 3 Collecte des alignements et décompte Arabe Français Anglais Décompte café coffee 2 Un _, s il vous plaît. One _, please. 1 _ Ce _ est excellent. This _ is excellent. 1 Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

43 Transformation en table de traductions Calcul des scores table de traductions complète Arabe Français Anglais P(fr,en ar) P(ar,en fr) P(ar,fr en)... café coffee 1,0 0,5 1,0... Un _, s il vous plaît. One _, please. 0,9 0,5 1,0... _ Ce _ est excellent. This _ is excellent. 0,4 0,3 0,7... Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

44 Attribution de scores aux alignements Probabilités de traduction : à partir des décomptes des alignements P(s 1,..., s i 1, s i+1,..., s L s i ) = C(s 1,..., s L ) C(s i ) Poids lexicaux : éventuellement, à partir des occurrences de mots dans le corpus de départ (calcul non standard adapté de Koehn, 2003) L(s 1,..., s i 1, s i+1,..., s L s i ) = m i s i max mj i j s j D(m j m i ) où D(m j m i ) = C(m i, m j ) C(m i ) avec 1 i L Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

45 Stratégie de sélection des sous-corpus C N 2 N 2 N 1 sous-corpus possibles Toutes les tailles ne présentent pas le même intérêt 0 0 N 2 N Nous constituerons des sous-corpus en échantillonnant selon une distribution a priori Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

46 Fonction d échantillonnage Objectif imposé à la distribution Couvrir au mieux le vocabulaire du corpus de départ Couvrir au mieux les phrases p(k) = 1 k log (1 k/n) Probabilité 0 Taille k Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

47 Influence de la taille des sous-corpus (1/2) Temps de traitement Qualité des alignements Temps en sec Alignements vérifiés dans un dictionnaire Taille des sous-corpus Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

48 Influence de la taille des sous-corpus (2/2) Nombre d alignements Taille des sous-corpus Temps en minutes Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

49 Algorithme complet Répéter : Tirer un sous-corpus En extraire les séquences de mots de même distribution Fin répéter Calculer les scores des alignements Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

50 Algorithme complet Transformer le corpus parallèle multilingue en corpus alingue Répéter : Tirer un sous-corpus En extraire les séquences de mots de même distribution Fin répéter Calculer les scores des alignements Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

51 Algorithme complet Transformer le corpus parallèle multilingue en corpus alingue Alignements = {} Répéter : Tirer un sous-corpus En extraire les séquences de mots de même distribution Fin répéter Calculer les scores des alignements Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

52 Algorithme complet Transformer le corpus parallèle multilingue en corpus alingue Alignements = {} Répéter : Tirer un sous-corpus de taille k avec p(k) = 1 k log (1 k/n) En extraire les séquences de mots de même distribution Fin répéter Calculer les scores des alignements Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

53 Algorithme complet Transformer le corpus parallèle multilingue en corpus alingue Alignements = {} Répéter : 1 k log (1 k/n) Tirer un sous-corpus de taille k avec p(k) = Calculer les vecteurs d apparition des mots Trier les mots par vecteurs pour former des groupes Pour chaque groupe de mots : Pour chaque phrase du sous-corpus où le groupe apparaît : Alignements[groupe] ++ Alignements[phrase - groupe] ++ Fin répéter Calculer les scores des alignements Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

54 Algorithme complet Transformer le corpus parallèle multilingue en corpus alingue Alignements = {} Répéter : 1 k log (1 k/n) Tirer un sous-corpus de taille k avec p(k) = Calculer les vecteurs d apparition des mots Trier les mots par vecteurs pour former des groupes Pour chaque groupe de mots : Pour chaque phrase du sous-corpus où le groupe apparaît : Alignements[groupe] ++ Alignements[phrase - groupe] ++ Jusqu à {certain temps écoulé, aucun nouvel alignement,... } Calculer les scores des alignements Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

55 Algorithme complet Transformer le corpus parallèle multilingue en corpus alingue Alignements = {} Répéter : 1 k log (1 k/n) Tirer un sous-corpus de taille k avec p(k) = Calculer les vecteurs d apparition des mots Trier les mots par vecteurs pour former des groupes Pour chaque groupe de mots : Pour chaque phrase du sous-corpus où le groupe apparaît : Alignements[groupe] ++ Alignements[phrase - groupe] ++ Jusqu à {certain temps écoulé, aucun nouvel alignement,... } Calculer les scores des alignements Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

56 Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

57 Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

58 Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

59 Collocations Décompte ( _ ) 957 monsieur _ président 612 aujourd hui 584 états membres 478 ne _ pas 331 union européenne 304 «_» 291 chers collègues 101 nations unies 96 j ai 87 parlement européen 80 ad hoc 32 vifs applaudissements 29 Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

60 1 Contribution à l étude des mots rares 2 Contribution à l alignement de séquences de mots Ébauche de la méthode : comment, quoi? Extraction d alignements à partir de corpus multilingues Calcul des scores Optimisation de la méthode 3 Évaluation et perspectives Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

61 Deux évaluations particulières 3 aligneurs : 2 protocoles : Entrée : 1 Anymalign 2 MGIZA++ (Gao et Vogel, 2008 ; Och et Ney, 2003 ; Al-Onaizan et coll., 1999 ; Brown et coll., 1993) 3 BerkeleyAligner (Liang et coll., 2006) 1 Traduction automatique statistique par segments + TER ou BLEU 2 Induction de lexiques bilingues + Rappel, précision, f-mesure couples de phrases espagnol-français issus d Europarl ( 30±18 mots/phrase) Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

62 Résultats en traduction automatique TER 1,0 0,9 0,8 0,7 0,6 Anymalign Anymal. non opt. MGIZA++/Moses Berk./Moses 0,5 0 h 1 h 2 h 3 h 4 h 5 h Temps Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

63 Résultats en induction de lexiques bilingues F-mesure 90 % 80 % 70 % 60 % 50 % 40 % 30 % Anymalign Anymal. non opt. MGIZA++/Moses Berk./Moses 20 % 0 h 1 h 2 h 3 h 4 h 5 h Temps Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

64 Plus d expériences de traduction automatique BTEC Europarl Anymalign aboutit à des résultats égaux ou supérieurs dans 4 tâches sur 13 (en moyenne : 0,02 en BLEU) Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

65 Plus d expériences d induction de lexiques Différence en F-mesure entre Anymalign et MGIZA++/Moses sur 42 couples de langues issus de la Bible (Resnik et coll., 1999) dan eng fin fra spa swe zho dan eng fin fra spa swe zho Anymalign est meilleur dans 24 tâches sur 42 (en moyenne : + 7 %) Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

66 Des résultats a priori contradictoires Les lexiques produits par Anymalign sont de qualité supérieure, pourtant ils mènent à de moins bons scores en traduction automatique statistique par segments Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

67 Des résultats a priori contradictoires Les lexiques produits par Anymalign sont de qualité supérieure, pourtant ils mènent à de moins bons scores en traduction automatique statistique par segments Des résultats qui étaient prévisibles Anymalign aligne principalement des mots de fréquences proches Il aligne donc moins de n-grammes Il aligne par contre davantage d unigrammes Problème de quantité plutôt que de qualité Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

68 Expérience en n-grammes Nouvelle unité de traitement : n-gramme de mots n Phrase d entrée 1 Un café, s il vous plaît. 2 Un_café café_,,_s il s il_vous vous_plaît plaît_. 3 Un_café_, café_,_s il,_s il_vous s il_vous_plaît vous_plaît_. Puis alignement de toutes les combinaisons source-cible possibles jusqu aux 5-grammes 25 tables de traductions fusionnées en une seule Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

69 Résultats en n-grammes BLEU 0,40 0,35 0,30 0,25 0,20 0,15 MGIZA++/Moses Anymalign 0, Longueur maximale des n-grammes Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

70 Conclusion Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

71 Conclusion (1/2) : contributions Étude des mots rares en alignement (50 % d hapax dans seulement 12 % des phrases) Nouvelle approche pour l alignement sous-phrastique multilingue : 60 langues simultanément! (messages KDE) simple anytime facilement parallélisable Logiciel libre sous licence GPL : Anymalign téléchargé plus de 100 fois PROMT, Lingua et Machina, Orange, Xerox, MITRE, Nintendo... actuellement en cours de réimplémentation en Java à L&M Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

72 Conclusion (2/2) : principaux résultats À l encontre des idées reçues base de la méthode : utiliser les mots rares technique : supprimer des données Des traitements alingues pour faire multilingue et bilingue (tables de traductions, lexiques multilingues) ou monolingue (co-occurrences et collocations) Résultats comparables à l état de l art avec une approche vraiment plus simple ( 2 BP en traduction automatique, +7 % en lexique) Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

73 Publications [1] Yves Lepage, Julien Gosme et Adrien Lardilleux : «The Structure of Unseen Trigrams and its Application to Language Models : a First Investigation». In Proceedings of IUCS 2010, Pékin, octobre À paraître. [2] Yves Lepage, Julien Gosme et Adrien Lardilleux : «Estimating the proximity between languages by their commonality in vocabulary structures». In LNAI. Springer Heidelberg. À paraître. [3] Adrien Lardilleux, Julien Gosme et Yves Lepage : «Bilingual Lexicon Induction : Effortless Evaluation of Word Alignment Tools and Production of Resources for Improbable Language Pairs». In Proceedings of LREC 10, pages , La Valette, mai [4] Yves Lepage, Adrien Lardilleux et Julien Gosme : «The GREYC Translation Memory for the IWSLT 2009 Evaluation Campaign : one step beyond translation memory». In Proceedings of IWSLT 2009, pages 45-49, Tōkyō, décembre [5] Adrien Lardilleux : «L alignement sous-phrastique multilingue pour les nuls». In Actes de MajecSTIC 2009, Avignon, novembre [6] Julien Gosme, Yves Lepage et Adrien Lardilleux : «Translation of sublanguages by subgrammars». In Proceedings of EBMT3, pages 77-84, Dublin, novembre [7] Adrien Lardilleux, Jonathan Chevelu, Yves Lepage, Ghislain Putois et Julien Gosme : «Lexicons or phrase tables? An investigation in sampling-based multilingual alignment». In Proceedings of EBMT3, pages 45-52, Dublin, novembre [8] Yves Lepage, Adrien Lardilleux et Julien Gosme : «Commonality across vocabulary structures as an estimate of the proximity between languages». In Proceedings of LTC 09, pages , Poznań, octobre [9] Adrien Lardilleux et Yves Lepage : «Sampling-based multilingual alignment». In Proceedings of RANLP 2009, pages , Borovets, septembre [10] Adrien Lardilleux et Yves Lepage : «Hapax Legomena : Their Contribution in Number and Efficiency to Word Alignment». In Zygmunt Vetulani et Hans Uszkoreit, éditeurs : volume 5603 de LNCS, pages Springer Heidelberg, août [11] Adrien Lardilleux et Yves Lepage : «Anymalign : un outil d alignement sous-phrastique libre pour les êtres humains». In Actes de TALN 2009, Senlis, juin [12] Adrien Lardilleux et Yves Lepage : «A truly multilingual, high coverage, accurate, yet simple, sub-sentential alignment method». In Proceedings of AMTA 2008, pages , Waikiki, octobre [13] Yves Lepage, Adrien Lardilleux, Julien Gosme et Jean-Luc Manguin : «The GREYC Machine Translation System for the IWSLT 2008 Evaluation Campaign». In Proceedings of IWSLT 2008, pages 39-45, Waikiki, octobre [14] Adrien Lardilleux et Yves Lepage : «Multilingual Alignments by Monolingual String Differences». In Proceedings of Coling 08, pages 55-58, Manchester, août [15] Yves Lepage et Adrien Lardilleux : «The GREYC Machine Translation System for the IWSLT 2007 Evaluation Campaign». In Proceedings IWSLT 2007, pages 49-54, Trente, octobre [16] Adrien Lardilleux et Yves Lepage : «The contribution of the notion of hapax legomena to word alignment». In Proceedings of LTC 07, pages , Poznań, octobre Adrien Lardilleux (GREYC) Basses fréquences et alignement multilingue 14 septembre / 46

L alignement sous-phrastique multilingue pour les nuls

L alignement sous-phrastique multilingue pour les nuls MajecSTIC 2009 Avignon, France, du 16 au 18 novembre 2009 L alignement sous-phrastique multilingue pour les nuls Adrien Lardilleux GREYC, Université de Caen Basse-Normandie, bd M al Juin, BP 5186, 14032

Plus en détail

Rubrique préparée par Fiammetta Namer Université Nancy2 de Nancy, UMR «ATILF» Fiammetta.Namer@univ-nancy2.fr

Rubrique préparée par Fiammetta Namer Université Nancy2 de Nancy, UMR «ATILF» Fiammetta.Namer@univ-nancy2.fr Résumés de thèses Résumés de thèses Rubrique préparée par Fiammetta Namer Université Nancy2 de Nancy, UMR «ATILF» Fiammetta.Namer@univ-nancy2.fr Adrien LARDILLEUX : (Adrien.Lardilleux@info.unicaen.fr)

Plus en détail

Appariement de phrases courtes pour la traduction automatique par l exemple

Appariement de phrases courtes pour la traduction automatique par l exemple MajecSTIC 2009 Avignon, France, du 6 au 8 novembre 2009 Appariement de phrases courtes pour la traduction automatique par l exemple Julien Gosme Laboratoire GREYC, Université de Caen Basse-Normandie Contact

Plus en détail

T H È S E. La traduction automatique statistique dans un contexte multimodal

T H È S E. La traduction automatique statistique dans un contexte multimodal Jury : UNIVERSITÉ DU MAINE LABORATOIRE D INFORMATIQUE DE L UNIVERSITÉ DU MAINE T H È S E pour obtenir le titre de Docteur en Science de l Université du Maine Mention : Informatique Présentée et soutenue

Plus en détail

新 しい 日 本 語 能 力 試 験 ガイドブック 概 要 版. Le nouveau test d aptitude de japonais. Manuel (version synthétique) Services (JEES) あたら に ほ ん ご の う りょく し け ん

新 しい 日 本 語 能 力 試 験 ガイドブック 概 要 版. Le nouveau test d aptitude de japonais. Manuel (version synthétique) Services (JEES) あたら に ほ ん ご の う りょく し け ん あたら に ほ ん ご の う りょく し け ん 新 しい 日 本 語 能 力 試 験 Le nouveau test d aptitude de japonais が い よ う ば ん ガイドブック 概 要 版 Manuel (version synthétique) ねん がつ 2009 年 7 月 Juillet 2009 どくりつぎょうせいほうじん 独 立 行 政 法 人 こくさいこうりゅう

Plus en détail

Extraction des séquences inter-langues pour la Traduction Automatique

Extraction des séquences inter-langues pour la Traduction Automatique Extraction des séquences inter-langues pour la Traduction Automatique Cyrine Nasri LORIA MOSIC Dirigée par : Pr. Kamel Smaili, Pr. Yahya Slimani et Dr Chiraz Latiri 1/26 Cyrine Nasri Extraction des séquences

Plus en détail

Exploitation d un corpus bilingue pour la création d un système de traduction probabiliste Vietnamien - Français

Exploitation d un corpus bilingue pour la création d un système de traduction probabiliste Vietnamien - Français TALN 2009, Senlis, 24-26 juin 2009 Exploitation d un corpus bilingue pour la création d un système de traduction probabiliste Vietnamien - Français Thi-Ngoc-Diep Do (1,2), Viet-Bac Le (1), Brigitte Bigi(1),

Plus en détail

Données bilingues pour la TAS français-anglais : impact de la langue source et direction de traduction originales sur la qualité de la traduction

Données bilingues pour la TAS français-anglais : impact de la langue source et direction de traduction originales sur la qualité de la traduction TALN 2009, Senlis, 24 26 juin 2009 Données bilingues pour la TAS français-anglais : impact de la langue source et direction de traduction originales sur la qualité de la traduction Sylwia Ozdowska National

Plus en détail

Apprentissage non supervisé pour la traduction automatique : application à un couple de langues peu doté

Apprentissage non supervisé pour la traduction automatique : application à un couple de langues peu doté TALN 2010, Montréal, 19-23 juillet 2010 Apprentissage non supervisé pour la traduction automatique : application à un couple de langues peu doté Do Thi Ngoc Diep 1,2, Laurent Besacier 1, Eric Castelli

Plus en détail

Equivalences traductionnelles

Equivalences traductionnelles Equivalences traductionnelles Bi-texte juridique [Equivalences] Maria Zimina CLILLAC-ARP, Université Paris Diderot Paris 7 mzimina@eila.univ-paris-diderot.fr Résumé: CONVENTION est un bi-texte juridique

Plus en détail

Traduction automatique

Traduction automatique Traduction automatique M. Constant Université Paris-Est Marne-la-Vallée 5 octobre 2009 Outline Introduction Problèmes Différentes approches Traduction automatique statistique Modélisation Exemple de modèle

Plus en détail

@promt NET Professional 8.0

@promt NET Professional 8.0 @promt NET Professional 8.0 Description abrégée @promt NET Professional 8.0 Pratique et rentable, ce logiciel de traduction peut être utilisé par un nombre illimité d utilisateurs et vous permet de réaliser

Plus en détail

Vers l intégration du contexte dans une mémoire de traduction sous-phrastique : détection du domaine de traduction

Vers l intégration du contexte dans une mémoire de traduction sous-phrastique : détection du domaine de traduction TALN 2006, Leuven, 10 13 avril 2006 Vers l intégration du contexte dans une mémoire de traduction sous-phrastique : détection du domaine de traduction Fabrizio Gotti, Philippe Langlais et Claude Coulombe

Plus en détail

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Vincent Guigue UPMC - LIP6 Vincent Guigue Preprocessing & JAVA 1/24 Traitements pour la classification de textes

Plus en détail

revue de littérature - corpus comparables

revue de littérature - corpus comparables revue de littérature - corpus comparables Julie Roy April 23, 2015 Université de Montréal Introduction Matière première MT : corpus parallèles. Intérêt des corpus comparables : corpus parallèles et dictionnaires

Plus en détail

Veille technologique en télécommunications

Veille technologique en télécommunications Veille technologique en télécommunications Khalid EL HIMDI Ismail KASSOU Hamid MACHCHOUR 1 Techniques d analyse de contenus L analyse de contenus est au cœur de la gestion du cycle de vie de l information

Plus en détail

Utilisation des Structures Combinatoires pour le Test Statistique. Contexte. Plan. Le test de logiciel. Les structures combinatoires décomposables

Utilisation des Structures Combinatoires pour le Test Statistique. Contexte. Plan. Le test de logiciel. Les structures combinatoires décomposables Utilisation des Structures Combinatoires pour le Test Statistique Sandrine-Dominique GOURAUD Équipe Programmation et Génie Logiciel, L.R.I. Co-encadrants: M.-C. Gaudel et A. Denise Plan Contexte Structures

Plus en détail

Traduction Assistée par Ordinateur. Trados M2 Cours 1 WinAlign

Traduction Assistée par Ordinateur. Trados M2 Cours 1 WinAlign Traduction Assistée par Ordinateur Trados M2 Cours 1 WinAlign UCO - IPLV Emmanuel Planas 1 Plan Présentation Trados WinAlign Présentation Lancement Cours Trados Alignement de fichiers Word Edition de l

Plus en détail

Plusieurs façons de tracer deux parallèles CM1-CM2

Plusieurs façons de tracer deux parallèles CM1-CM2 Plusieurs façons de tracer deux parallèles CM1-CM2 Séance 1 : l écart constant entre deux droites parallèles donner une définition fonctionnelle du parallélisme de deux droites ; exhiber un procédé de

Plus en détail

Séminaire CAF ET BSC LE TABLEAU DE BORD PROSPECTIF. Maastricht, 18-20 juin 2008. Organisé par

Séminaire CAF ET BSC LE TABLEAU DE BORD PROSPECTIF. Maastricht, 18-20 juin 2008. Organisé par Séminaire CAF ET BSC LE CADRE D AUTO-EVALUATION DES FONCTIONS PUBLIQUES ET LE TABLEAU DE BORD PROSPECTIF Maastricht, 18-20 juin 2008 Organisé par l Institut européen d administration publique (IEAP) Centre

Plus en détail

Grammaire, L Université de Toulouse 2 Le Mirail. Yves Cadot Christian Galan S1 03

Grammaire, L Université de Toulouse 2 Le Mirail. Yves Cadot Christian Galan S1 03 Grammaire, L1 Université de Toulouse 2 Le Mirail S1 03 Yves Cadot Christian Galan I. STRUCTURES 1. STRUCTURES EN は / です STRUCTURES です : 2 usages radicalement différents STRUCTURES a) Copule [«mot qui relie

Plus en détail

Article. Comment élaborer des enquêtes-entreprises de façon continue dans un modèle cyclique. par Helena Bäckström et Pia Hartwig

Article. Comment élaborer des enquêtes-entreprises de façon continue dans un modèle cyclique. par Helena Bäckström et Pia Hartwig Composante du produit n o 11-522-X au catalogue de Statistique Canada La série des symposiums internationaux de Statistique Canada : recueil Article Symposium 2008 : Collecte des données : défis, réalisations

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

Leçon 6. Unité 1. A l accompli, la forme en ます devient-ました et -ません devient -ませんでした : 行きます 行きました je suis allé. 行きません 行きませんでした je ne suis pas allé.

Leçon 6. Unité 1. A l accompli, la forme en ます devient-ました et -ません devient -ませんでした : 行きます 行きました je suis allé. 行きません 行きませんでした je ne suis pas allé. Leçon 6 Unité 1 Forme accomplie des verbes: Cette forme indique une action ou un état réalisés au moment de la narration. Elle s oppose ainsi à la forme inaccomplie que nous avons vue jusqu à présent.

Plus en détail

SEG 2506 Construction de logiciels

SEG 2506 Construction de logiciels SEG 2506 Construction de logiciels Devoir 04: Programmation avec concurrence présenté à: prof. G. Bochmann, Ph.D. par: Alexandre Bradley 4548582 abrad087@uottawa.ca et Kevin Mottashed 4490866 kmott071@uottawa.ca

Plus en détail

D.I.I.C. 3 - INC Module COMV - Contrôle 1

D.I.I.C. 3 - INC Module COMV - Contrôle 1 Université de Rennes 1 année 2009-2010 I.F.S.I.C. 11 Décembre 2009 D.I.I.C. 3 - INC Module COMV - Contrôle 1 cours d Olivier LE MEUR Durée : 2 heures Documents autorisés : documents des cours, TD et TP,

Plus en détail

Étude et modélisation de la syntaxe des langues à l'aide de l'ordinateur Analyse syntaxique automatique non combinatoire

Étude et modélisation de la syntaxe des langues à l'aide de l'ordinateur Analyse syntaxique automatique non combinatoire Habilitation à Diriger des Recherches Étude et modélisation de la syntaxe des langues à l'aide de l'ordinateur Analyse syntaxique automatique non combinatoire Jacques Vergne GREYC - UPRESA 6072 - Université

Plus en détail

Fusion de classifiers visuels et textuels pour un système de recherche d images

Fusion de classifiers visuels et textuels pour un système de recherche d images Fusion de classifiers visuels et textuels pour un système de recherche d images Sabrina Tollari, Hervé Glotin, Jacques Le Maitre Université du Sud Toulon-Var Giens, 16 juin 2004 1 Plan Problématique Du

Plus en détail

"Down-to-earth Terminology" Une nouvelle approche pour intégrer la gestion de la terminologie dans la traduction automatique à Autodesk

Down-to-earth Terminology Une nouvelle approche pour intégrer la gestion de la terminologie dans la traduction automatique à Autodesk Master "Down-to-earth Terminology" Une nouvelle approche pour intégrer la gestion de la terminologie dans la traduction automatique à Autodesk FREUND, Kirsten Magdalena Abstract Ce travail vise à décrire

Plus en détail

GS-Days 2011. WebScarab Développement de nouveaux modules pour les tests d intrusion

GS-Days 2011. WebScarab Développement de nouveaux modules pour les tests d intrusion 1 GS-Days 2011 WebScarab Développement de nouveaux modules pour les tests d intrusion Jérémy Lebourdais EdelWeb (jeremy.lebourdais@edelweb.fr) 2 Introduction Présentation de WebScarab Développements réalisés

Plus en détail

INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1)

INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1) 09.02.2002 INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1) Outils de traitement automatique des langues pour la construction d ontologies à partir de textes Didier BOURIGAULT

Plus en détail

Modèles discriminants pour l alignement mot à mot

Modèles discriminants pour l alignement mot à mot Modèles discriminants pour l alignement mot à mot Alexandre Allauzen Guillaume Wisniewski Univ Paris-Sud 11, Orsay, F-91405 LIMSI-CNRS, B.P. 133, 91403 Orsay cedex, France {allauzen, wisniews }@limsi.fr

Plus en détail

Cours No 1 : Introduction

Cours No 1 : Introduction Université Montpellier-II UFR des Sciences - Département Informatique - Licence Informatique UE GLIN302 - Programmation Applicative et Récursive 1 Généralités sur le cours Cours No 1 : Introduction Notes

Plus en détail

Traduction Automatique Statistique à partir de corpus comparables : Application au couple de langues arabe-français

Traduction Automatique Statistique à partir de corpus comparables : Application au couple de langues arabe-français Traduction Automatique Statistique à partir de corpus comparables : Application au couple de langues arabe-français Rahma Sellami* Fatiha Sadat** Lamia Hadrich Belguith* *ANLP Research Group Laboratoire

Plus en détail

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille La Veille multilingue : outils et ressources pour les traducteurs Jean-Paul PINTE Institut Catholique de Lille Premier Colloque International sur la veille multilingue Genève les 28 et 29 mai 2008 Nous

Plus en détail

Les risques liés aux aléas de la vie humaine dans les modèles internes de Solvabilité II

Les risques liés aux aléas de la vie humaine dans les modèles internes de Solvabilité II Les risques liés aux aléas de la vie humaine dans les modèles internes de Solvabilité II Emmanuel Bécache, Esther Schütz 20 ème rendez-vous Réavie 15 octobre 2009 15 octobre 2009 2 Agenda Environnement

Plus en détail

Description du projet

Description du projet Polytech Paris Sud > Et4 Informatique > Recherche d information dans les textes Description du projet Ce projet est à réaliser en groupes de 4 ou 5 étudiants et sera à rendre collectivement. Le rendu sera

Plus en détail

Aspects théoriques et algorithmiques du calcul réparti Le placement

Aspects théoriques et algorithmiques du calcul réparti Le placement Aspects théoriques et algorithmiques du calcul réparti Le placement Patrick CIARLET Enseignant-Chercheur UMA patrick.ciarlet@ensta-paristech.fr Françoise LAMOUR franc.lamour@gmail.com Aspects théoriques

Plus en détail

Livre numérique CINQ FAÇONS D AUGMENTER LES VENTES GRÂCE AU MARKETING

Livre numérique CINQ FAÇONS D AUGMENTER LES VENTES GRÂCE AU MARKETING Livre numérique CINQ FAÇONS D AUGMENTER LES VENTES GRÂCE AU MARKETING SOMMAIRE Résumé analytique Conseil 1 : S accorder sur les définitions 2 3 Résumé analytique Équipes ventes et marketing. Ils passent

Plus en détail

Alignement sous-phrastique hiérarchique avec Anymalign

Alignement sous-phrastique hiérarchique avec Anymalign Alignement sous-phrastique hiérarchique avec Anymalign Adrien Lardilleux 1 François Yvon 1,2 Yves Lepage 3 (1) LIMSI-CNRS (2) Université Paris-Sud (3) Université Waseda, Japon adrien.lardilleux@limsi.fr,

Plus en détail

Aspects théoriques et algorithmiques du calcul réparti Le placement

Aspects théoriques et algorithmiques du calcul réparti Le placement Aspects théoriques et algorithmiques du calcul réparti Le placement Patrick CIARLET Enseignant-Chercheur UMA patrick.ciarlet@ensta-paristech.fr Françoise LAMOUR franc.lamour@gmail.com Aspects théoriques

Plus en détail

Le système SMART 1. Indexation

Le système SMART 1. Indexation Le système SMART Le système SMART (System for the Mechanical Analysis and Retrieval of Text) (aussi appelé Salton's Magic Automatic Retrieval Technique:-) est un système de RI expérimental. Il utilise

Plus en détail

LA DIVERSITÉ DANS LES FILMS LONGS MÉTRAGES

LA DIVERSITÉ DANS LES FILMS LONGS MÉTRAGES LA DIVERSITÉ DANS LES FILMS LONGS MÉTRAGES BULLETIN D INFORMATION DE L ISU JUIN 2013, N 24 Ce bulletin d information fournit les dernières données sur les films de longs métrages obtenues par l Institut

Plus en détail

ORGANISATION MONDIALE DE LA PROPRIÉTÉ INTELLECTUELLE GENÈVE UNION INTERNATIONALE DE COOPÉRATION EN MATIÈRE DE BREVETS (UNION DU PCT)

ORGANISATION MONDIALE DE LA PROPRIÉTÉ INTELLECTUELLE GENÈVE UNION INTERNATIONALE DE COOPÉRATION EN MATIÈRE DE BREVETS (UNION DU PCT) OMPI PCT/WG/1/6 ORIGINAL : anglais DATE : 21 avril 2008 ORGANISATION MONDIALE DE LA PROPRIÉTÉ INTELLECTUELLE GENÈVE F UNION INTERNATIONALE DE COOPÉRATION EN MATIÈRE DE BREVETS (UNION DU PCT) GROUPE DE

Plus en détail

un nouveau domaine d évaluation

un nouveau domaine d évaluation Identifier l innovation sdsdsdsdsdsdsdsdsdsdsscreening process for direct sales : un nouveau domaine Entretien avec Dr Achim Preuss sur la création du test de créativité sparks cut-e France 6 rue Auguste

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Direct Marketing Analysez le comportement de vos clients et améliorez vos campagnes marketing Points clés Avec SPSS Direct Marketing, vous pouvez : Mieux comprendre vos clients Améliorer vos campagnes

Plus en détail

Leçon 12 : Nouvelles expressions verbales et cas particuliers

Leçon 12 : Nouvelles expressions verbales et cas particuliers Leçon 12 : Nouvelles expressions verbales et cas particuliers I. Introduction Nous avons précédemment étudié la conjugaison des adjectifs en japonais ainsi que les équivalences de nos formes comparatives

Plus en détail

Estimation du coût de développement UML à partir du cahier des charges

Estimation du coût de développement UML à partir du cahier des charges Estimation du coût de développement UML à partir du cahier des charges Philippe Larvet Frédérique Vallée Estimation des projets logiciels - CNAM/CMSL page n 1 Plan de la présentation ❶ Introduction ❷ Choix

Plus en détail

La recherche d unités de traduction sur le Web par maximisation de co-occurrence

La recherche d unités de traduction sur le Web par maximisation de co-occurrence La recherche d unités de traduction sur le Web par maximisation de co-occurrence Giselle SANCHEZ 1 et Daniel GAUTHERET Media Langues, 502 Rue Paradis, 13008 Marseille 1 sanchez@media-langues.com 1. Introduction

Plus en détail

Évaluation de G-LexAr pour la traduction automatique statistique

Évaluation de G-LexAr pour la traduction automatique statistique TALN 2011, Montpellier, 27 juin 1 er juillet 2011 Évaluation de G-LexAr pour la traduction automatique statistique Wigdan Mekki (1), Julien Gosme (1), Fathi Debili (2), Yves Lepage (3), Nadine Lucas (1)

Plus en détail

Réutilisation de traducteurs gratuits pour développer des systèmes multilingues

Réutilisation de traducteurs gratuits pour développer des systèmes multilingues RECITAL 2004, Fès, 21 avril 2004 Réutilisation de traducteurs gratuits pour développer des systèmes multilingues VO TRUNG Hung Institut National Polytechnique de Grenoble GETA, CLIPS, IMAG - campus 385,

Plus en détail

Un modèle multi-agents pour la gestion des connaissances

Un modèle multi-agents pour la gestion des connaissances Un modèle multi-agents pour la gestion des connaissances Pierre Maret, Département Informatique et LIRIS, INSA de Lyon Jacques Calmet, IAKS, Université de Karlsruhe, Allemagne Le principe général sous-jacent

Plus en détail

Paradocs : un système d identification automatique de documents parallèles

Paradocs : un système d identification automatique de documents parallèles TALN 2005, Dourdan, 6 10 juin 2005 Paradocs : un système d identification automatique de documents parallèles Alexandre Patry et Philippe Langlais Laboratoire de Recherche Appliquée en Linguistique Informatique

Plus en détail

Plate-forme semi-automatique : E-quity

Plate-forme semi-automatique : E-quity Plate-forme semi-automatique : E-quity Bringay Sandra 1, Pinlou Alexandre 1, Durand Sylvain 1, Pro Sébastien 1, Séébold Patrice 1 Département MIAp, Université Paul-Valéry, Montpellier 3, Route de Mende,

Plus en détail

M2 Informatique/Réseaux Université Pierre et Marie Curie UE APMM

M2 Informatique/Réseaux Université Pierre et Marie Curie UE APMM TD TECHNIQUES DE CODAGE ET DE COMPRESSION. LANGAGE / CODAGE / VALENCE.. Rappels Toute fraction intelligible d un message est constituée de symboles. Le langage est l ensemble de ces symboles. Un codage

Plus en détail

Comment structurer et écrire un bon mémoire de master ès sciences en Systèmes d Information. hec.unil.ch

Comment structurer et écrire un bon mémoire de master ès sciences en Systèmes d Information. hec.unil.ch Comment structurer et écrire un bon mémoire de master ès sciences en Systèmes d Information hec.unil.ch Les recommandations de l'isi! 2 Plan de cette présentation 1. Pratique et théorie 2. La question

Plus en détail

Utilisation d une approche basée sur la recherche cross-lingue d information pour l alignement de phrases à partir de textes bilingues Arabe-Français

Utilisation d une approche basée sur la recherche cross-lingue d information pour l alignement de phrases à partir de textes bilingues Arabe-Français TALN 007, Toulouse, 5 8 juin 007 Utilisation d une approche basée sur la recherche cross-lingue d information pour l alignement de phrases à partir de textes bilingues Arabe-Français Nasredine SEMMAR (1),

Plus en détail

Quelques citations. Traduction automatique statistique. Communication Langagière Ingénierie des langues et de la parole

Quelques citations. Traduction automatique statistique. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

Manuel d utilisation du logiciel «Extracteur d équations»

Manuel d utilisation du logiciel «Extracteur d équations» Manuel d utilisation du logiciel «Extracteur d équations» Ce logiciel a pour but d aider les élèves à vérifier leurs réponses en ce qui a trait aux circuits RLC, dans le domaine «s», ainsi qu à faire l

Plus en détail

Agrégation externe de mathématiques, texte d exercice diffusé en 2012 Épreuve de modélisation, option informatique

Agrégation externe de mathématiques, texte d exercice diffusé en 2012 Épreuve de modélisation, option informatique Agrégation externe de mathématiques, texte d exercice diffusé en 2012 Épreuve de modélisation, option informatique Résumé : A partir du problème de la représentation des droites sur un écran d ordinateur,

Plus en détail

Chapitre 8: Inférence, échantillonnage et estimation

Chapitre 8: Inférence, échantillonnage et estimation Chapitre 8: Inférence, échantillonnage et estimation 1. Echantillonnage aléatoire simple 2. Inférence statistique 3. Estimation 4. Evaluation graphique de l adéquation d un modèle de distribution 1 L inférence

Plus en détail

Travailler la moyenne pour la dépasser moyenne arithmétique 1 et Mind Mapping 2

Travailler la moyenne pour la dépasser moyenne arithmétique 1 et Mind Mapping 2 Travailler la moyenne pour la dépasser moyenne arithmétique 1 et Mind Mapping 2 Type d outil : activité d'apprentissage relative au traitement des données, visant la compétence Déterminer un effectif,

Plus en détail

Vers un développement plus efficace des systèmes de traduction statistique : un peu de vert dans un monde de BLEU

Vers un développement plus efficace des systèmes de traduction statistique : un peu de vert dans un monde de BLEU 1 ème Traitement Automatique des Langues Naturelles, Marseille, 01 Vers un développement plus efficace des systèmes de traduction statistique : un peu de vert dans un monde de BLEU Résumé. Li Gong 1, Aurélien

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Traverses minimales d un hypergraphe :

Traverses minimales d un hypergraphe : Traverses minimales d un hypergraphe : Applications et Analyse Céline Hébert Alain Bretto Loïck Lhote GREYC, Université de Caen Basse-Normandie ALEA 2007, Marseille ébert, Bretto, Lhote (GREYC, Université

Plus en détail

Traitement automatique des messages courts par des approches de Fouille de Textes

Traitement automatique des messages courts par des approches de Fouille de Textes Traitement automatique des messages courts par des approches de Fouille de Textes Mathieu ROCHE Equipe TEXTE LIRMM, CNRS, Université Montpellier 2 1 Séminaire Sud4Science 28 septembre 2011 1. Introduction

Plus en détail

Remarques destinées aux auteurs pour la mise en page et l homogénéité des séries d examens

Remarques destinées aux auteurs pour la mise en page et l homogénéité des séries d examens Remarques destinées aux auteurs pour la mise en page et l homogénéité des séries d examens Police Arial 11 (Arial 10 ou 9 dans les tableaux, suivant la place) Marge de gauche L alignement de tous les exercices

Plus en détail

UTILISATION D ILLUSTRATIONS JAPONAISES DANS L ENSEIGNEMENT DE LA LANGUE ET DE LA CIVILISATION JAPONAISE

UTILISATION D ILLUSTRATIONS JAPONAISES DANS L ENSEIGNEMENT DE LA LANGUE ET DE LA CIVILISATION JAPONAISE UTILISATION D ILLUSTRATIONS JAPONAISES DANS L ENSEIGNEMENT DE LA LANGUE ET DE LA CIVILISATION JAPONAISE Quelques usages des manga, sankôsho et autres illustrations dans l enseignement de la civilisation

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

La collecte et le traitement des données sur les Entreprises et la Banque de France

La collecte et le traitement des données sur les Entreprises et la Banque de France La collecte et le traitement des données sur les Entreprises et la Banque de France Yves Nachbaur Directeur des Entreprises Rabat, le 30 Mars 2012 1. La Banque de France et le suivi des Entreprises : quel

Plus en détail

SUJETS D ANNALES CORRIGÉS

SUJETS D ANNALES CORRIGÉS CRPE epreuves d'admissibilite_2015.qxp_concours 170x240 mercredi19/08/15 11:10 Page563 DEUXIÈME ÉPREUVE D ADMISSIBILITÉ, GROUPEMENT 3, SESSION 2014 Sujet 5 points au maximum pourront être retirés pour

Plus en détail

Stratégie et choix technologiques des éditeurs de. Search 2010 Stratégie et technologies des éditeurs de logiciels de veille Février 2010 Page 1

Stratégie et choix technologiques des éditeurs de. Search 2010 Stratégie et technologies des éditeurs de logiciels de veille Février 2010 Page 1 Stratégie et choix technologiques des éditeurs de logiciels de veille Par Frédéric Martinet Actulligence Consulting Search 2010 Stratégie et technologies des éditeurs de logiciels de veille Février 2010

Plus en détail

D après une idée originale dans «Les maths au quotidien» M.Colonval et A.Roumadni éd. Ellipses

D après une idée originale dans «Les maths au quotidien» M.Colonval et A.Roumadni éd. Ellipses LES ABEILLES D après une idée originale dans «Les maths au quotidien» M.Colonval et A.Roumadni éd. Ellipses 1. Présentation de la trame : Recherche et synthèse d infos Notion d optimisation Intérêt et

Plus en détail

1 Premiers pas avec Rstudio

1 Premiers pas avec Rstudio Université Paris Descartes UFR de Mathématiques et Informatique Probabilités et Statistiques pour l informatique- Licence MIA 2e année Travaux Pratiques - 1 ère séance Le but de cette première séance est

Plus en détail

F1L-séance 4 Fiche pédagogique : Le métier d ingénieur manager. (Pauline LE RALLIER, Ching Fen YANG, Betty VALLADE, Issiaka SIDIBE)

F1L-séance 4 Fiche pédagogique : Le métier d ingénieur manager. (Pauline LE RALLIER, Ching Fen YANG, Betty VALLADE, Issiaka SIDIBE) F1L-séance 4 Fiche pédagogique : Le métier d ingénieur manager (Pauline LE RALLIER, Ching Fen YANG, Betty VALLADE, Issiaka SIDIBE) Choix des déclencheurs et progression : Nous abordons le thème de la semaine

Plus en détail

BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE TRAVAUX PRATIQUES DE SCIENCES PHYSIQUES

BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE TRAVAUX PRATIQUES DE SCIENCES PHYSIQUES TP EII ExAO Page 1/6 BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE TRAVAUX PRATIQUES DE SCIENCES PHYSIQUES Ce document comprend : - une fiche descriptive du sujet destinée à l examinateur : Page 2 - une fiche

Plus en détail

Génération d une visualisation personnalisée

Génération d une visualisation personnalisée Génération d une visualisation personnalisée Mohamed Mouine RALI-DIRO Université de montréal mouinemo@iro.umontreal.ca Résumé. Nous présentons une méthode permettant de calculer les besoins et les préférences

Plus en détail

Anne-lise HUYET- Jean-Luc PARIS LIMOS équipe Recherche en Systèmes de Production IFMA Mail: huyet@ifma.fr, paris@ifma.fr

Anne-lise HUYET- Jean-Luc PARIS LIMOS équipe Recherche en Systèmes de Production IFMA Mail: huyet@ifma.fr, paris@ifma.fr Extraction de Connaissances pertinentes sur le comportement des systèmes de production: une approche conjointe par Optimisation Évolutionniste via Simulation et Apprentissage Anne-lise HUYET- Jean-Luc

Plus en détail

Radar Live. La solution pour faire évoluer vos tarifs en temps réel

Radar Live. La solution pour faire évoluer vos tarifs en temps réel Radar Live La solution pour faire évoluer vos tarifs en temps réel Une avancée majeure pour votre processus de tarification Radar Live est un logiciel révolutionnaire qui change radicalement l approche

Plus en détail

GUIDE DE L UTILISATEUR LaTeX Tabular Editor. Version 1.0

GUIDE DE L UTILISATEUR LaTeX Tabular Editor. Version 1.0 GUIDE DE L UTILISATEUR LaTeX Tabular Editor Version 1.0 Voici la documentation utilisateur du projet LaTeX Tabular Editor, une application Java développée par une équipe d étudiants dans le cadre de leur

Plus en détail

Modélisation et bases de données

Modélisation et bases de données Ce tutoriel vous indique comment modéliser et générer une base de données Access puis MySQL avec le logiciel. Un tableau de correspondance des principaux types de donnée est présenté à la fin du support.

Plus en détail

Rapport échange Colibri Franco-japonais 2015-2016. Thème du bac choisi : Espaces et échanges

Rapport échange Colibri Franco-japonais 2015-2016. Thème du bac choisi : Espaces et échanges Rapport échange Colibri Franco-japonais 2015-2016 Thème du bac choisi : Espaces et échanges L année dernière, durant mon année de seconde, mon professeur de ais, présenta à la classe le projet Colibri

Plus en détail

1 FAITES CONNAISSANCE AVEC LA MÉTHODE DES PLANS D EXPÉRIENCES

1 FAITES CONNAISSANCE AVEC LA MÉTHODE DES PLANS D EXPÉRIENCES 1 FAITES CONNAISSANCE AVEC LA MÉTHODE DES PLANS D EXPÉRIENCES Si vous lisez ce livre c est que, probablement, vous faites des expériences et que vous cherchez à mieux les organiser. Vous cherchez surtout

Plus en détail

Introduction Tableaux / Vecteurs Listes chaînées Un principe général Quelques algorithmes de tri À faire pour lundi prochain. Tableaux VS Listes

Introduction Tableaux / Vecteurs Listes chaînées Un principe général Quelques algorithmes de tri À faire pour lundi prochain. Tableaux VS Listes Tableaux VS Listes Tableaux VS Listes Petit chapitre. Plan Introduction Tableaux / Vecteurs Définition abstraite Qu a-t-on fait avec des vecteurs? Que peut-on faire avec des vecteurs? Listes chaînées Définition

Plus en détail

Calculer la moyenne, arrondie au dixième, des buts marqués par match par l'équipe lors de cette saison.

Calculer la moyenne, arrondie au dixième, des buts marqués par match par l'équipe lors de cette saison. Énoncés Exercice 1 Le tableau ci-contre indique des grandeurs physiques et démographiques des territoires constituant la Mélanésie. 1. Rédiger une phrase commençant par «Il y a» et contenant le nombre

Plus en détail

Génération de réponses pour un système de questions-réponses

Génération de réponses pour un système de questions-réponses Génération de réponses pour un système de questions-réponses Van-Minh Pho 1 LIMSI-CNRS, Rue John von Neumann, Université Paris-Sud, 91403 Orsay cedex, France vanminh.pho@gmail.com RÉSUMÉ. Les systèmes

Plus en détail

Incohérences au niveau de la modélisation

Incohérences au niveau de la modélisation Incohérences au niveau de la modélisation Software Group Claudio Grolimund: Il importe d identifier et éliminer les incohérences à l échelle des modèles, a souligné le professeur Alexander Egyed dans le

Plus en détail

Recherche d Information à partir d annotations automatiques et manuelles

Recherche d Information à partir d annotations automatiques et manuelles 1 / 18 Recherche d Information à partir d annotations automatiques et manuelles Robert Bossy Mathématique Informatique et Génome Bibliome Institut National de la Recherche Agronomique 14 septembre 2012

Plus en détail

WOCCQ Online. Contact :

WOCCQ Online. Contact : WOCCQ Online Contact : Stéphanie Péters Service de Psychologie du Travail de l Université de Liège Boulevard du Rectorat, 5 (B32) 4000 Liège Tél. : ++32 (0)4.366.20.91 Fax : ++32 (0)4.366.29.44 Mail :

Plus en détail

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales Haithem AFLI Loïc BARRAULT Holger SCHWENK Laboratoire d Informatique

Plus en détail

Statistiques descriptives Variance et écart type

Statistiques descriptives Variance et écart type Statistiques descriptives Variance et écart type I) Rappel : la moyenne (caractéristique de position ) Définition Soit la série statistique définie dans le tableau suivant : Valeur... Effectif... Fréquences

Plus en détail

Mini-Projet de Prolog : Solver de Sudoku

Mini-Projet de Prolog : Solver de Sudoku UNIVERSITE François Rabelais TOURS Polytech Tours-Département Informatique 64, Avenue Jean Portalis 37200 TOURS Mini-Projet de Prolog : Solver de Sudoku Encadré par : Présenté par : M. J-L Bouquard Florent

Plus en détail

Algorithmique Distribuée

Algorithmique Distribuée Algorithmique Distribuée Problèmes et Algorithmes Fondamentaux Arnaud labourel http://pageperso.lif.univ-mrs.fr/ arnaud.labourel Aix-Marseille Université 15 janvier 2014 Arnaud Labourel (AMU) Algorithmique

Plus en détail

Cours Fouille de données avancée

Cours Fouille de données avancée Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique

Plus en détail

Exercice n HF 0201 - Corrigé

Exercice n HF 0201 - Corrigé ENAC/ISTE/HYDRAM HYDROTHEQUE : base de données d exercices en Hydrologie Cours : Hydrologie Fréquentielle / Thématique : Construction des courbes IDF Exercice n HF 0201 - Corrigé Logo optimisé par J.-D.Bonjour,

Plus en détail

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels EDITION DU 19 NOVEMBRE 2009 Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels Bénédicte Pincemin (éditeur) Les différents

Plus en détail

TD1, sur la Régression Logistique (STA 2211)

TD1, sur la Régression Logistique (STA 2211) TD, sur la Régression Logistique STA 22) Exercice : Un sondage international cité dans un article de presse le 4 décembre 2004) rapportait le faible taux d approbation de la politique du Président des

Plus en détail

L Ingénierie des Exigences outillée DOORS et RQA

L Ingénierie des Exigences outillée DOORS et RQA L Ingénierie des Exigences outillée DOORS et RQA This document is the property of ADN and cannot be reproduced without prior permission Project Performance Ce document est la propriété de la société ADN

Plus en détail

Introduction En Europe, les entreprises et organisations internationales ont adopté l usage de l anglais comme lingua franca par souci de rationalisation et d efficacité. Cependant, comme nous l avons

Plus en détail