Modélisation statistique du langage

Dimension: px
Commencer à balayer dès la page:

Download "Modélisation statistique du langage"

Transcription

1 Modélisation statistique du langage Reconnaissance automatique de la parole, Traduction automatique Alexandre Allauzen Université Paris Sud / LIMSI-CNRS Alexandre Allauzen (UPSud) Modèles de langage 1 / 46

2 Pour aujourd hui 1 Introduction 2 Modèle n-gram 3 Estimation robuste (smoothing) Alexandre Allauzen (UPSud) Modèles de langage 2 / 46

3 Plan Introduction 1 Introduction 2 Modèle n-gram Formalisation du problème Le modèle ngram Évaluation 3 Estimation robuste (smoothing) Prélèvement et lissage Technique de développement et utilisation Alexandre Allauzen (UPSud) Modèles de langage 3 / 46

4 Plan Modèle n-gram 1 Introduction 2 Modèle n-gram Formalisation du problème Le modèle ngram Évaluation 3 Estimation robuste (smoothing) Prélèvement et lissage Technique de développement et utilisation Alexandre Allauzen (UPSud) Modèles de langage 4 / 46

5 Plan Modèle n-gram Formalisation du problème 1 Introduction 2 Modèle n-gram Formalisation du problème Le modèle ngram Évaluation 3 Estimation robuste (smoothing) Prélèvement et lissage Technique de développement et utilisation Alexandre Allauzen (UPSud) Modèles de langage 5 / 46

6 Modèle n-gram Formalisation du problème Notation, mise en équation Encore une fois Notation Ŵ = argmax W P(W /X) = argmax W P(W )P(H W )f (X H) (1) H W est une séquence de variable aléatoire (V.A) : W = {W 1, W 2,..., W N }. Chaque V.A est construite sur le même espace de réalisation : le vocabulaire V. La réalisation d une V.A se note W i = w i. Abus d écriture, omission de la référence à la V.A. Alexandre Allauzen (UPSud) Modèles de langage 6 / 46

7 Définitions Modèle n-gram Formalisation du problème Modèle de langage Le modèle de langage assigne une probabilité non nulle à toutes séquences de mots W extraites du vocabulaire V Définition : le vocabulaire et le mot V = liste des mots qui peuvent être reconnus par le système + < UNK >. Un mot est une suite finie et ordonnée de caractères W = (w 1, w 2,..., w n ), avec w i V T P(W ) = P(w i w 1, w 2,...w i 1 ) i=1 (2) Corpus d apprentissage ou d entraînement Estimation des probabilités à partir d observation sur des corpus d entraînement (pour toutes les séquences?) Alexandre Allauzen (UPSud) Modèles de langage 7 / 46

8 Modèle n-gram Formalisation du problème Classe d équivalence et approximation Complexité Avec un vocabulaire de mots : = phrases de 2 mots possibles, = 2, phrases de 3 mots, Classe d équivalence Regroupement des historiques en classe d équivalence Φ T P(W ) P(w i Φ(w 1, w 2,...w i 1 )) (3) i=1 Tout l art de la modélisation du langage consiste à déterminer Φ et une méthode pour estimer les probabilités associées F. Jelinek Alexandre Allauzen (UPSud) Modèles de langage 8 / 46

9 Modèle n-gram Formalisation du problème Classe d équivalence et approximation Complexité Avec un vocabulaire de mots : = phrases de 2 mots possibles, = 2, phrases de 3 mots, Classe d équivalence Regroupement des historiques en classe d équivalence Φ T P(W ) P(w i Φ(w 1, w 2,...w i 1 )) (3) i=1 Tout l art de la modélisation du langage consiste à déterminer Φ et une méthode pour estimer les probabilités associées F. Jelinek Alexandre Allauzen (UPSud) Modèles de langage 8 / 46

10 Modèle n-gram Formalisation du problème Évènements non observés Loi de Zipf Loi de Zipf : f K r, Comptes d occurrence triés par rang de fréquence obtenus sur des corpus de journaux de 30M de mots chacun. Pour les 100k mots les plus fréquents de chaque langue fréquence vs rang fréquence de fréquence Alexandre Allauzen (UPSud) Modèles de langage 9 / 46

11 Plan Modèle n-gram Le modèle ngram 1 Introduction 2 Modèle n-gram Formalisation du problème Le modèle ngram Évaluation 3 Estimation robuste (smoothing) Prélèvement et lissage Technique de développement et utilisation Alexandre Allauzen (UPSud) Modèles de langage 10 / 46

12 Modèle n-gram Modèle n-gramme de mots Le modèle ngram Modélisation du langage par une source markovienne d ordre n 1 La probabilité d émission d un mot dépend exclusivement des n 1 précédents. Décomposition d une séquence de mots n = 2 bigramme P(W ) = P(w 1 ) T i=2 P(w i w i 1 ) n = 3 trigramme P(W ) = P(w 1 )P(w 2 w 1 ) T t=3 P(w i w i 1 w i 2 ) n n-gramme P(w i w i 1...w i n+1 ) Conséquences n 1 mots suffiraient à prédire un mot. En pratique n 4 Classe d équivalence Φ : (w 1, w 2,...w i 1 ) (w i n+1...w i 1 ) Alexandre Allauzen (UPSud) Modèles de langage 11 / 46

13 Modèle n-gram Le modèle ngram Caractéristiques des modèles n-gramme de mots Une modélisation fondée sur les régularités du langage Structure du langage capturée implicitement sous forme d une probabilité de succession de mots. Probabilité indépendante de la position dans la phrase (des mots spéciaux indiquent le début et la fin de phrase, <s>, </s>). Probabilités estimées à l aide de grand corpus de textes Hypothèse d indépendance quid des phrases de plus de n mots quid des dépendance inter-phrases (ex : anaphore) Alexandre Allauzen (UPSud) Modèles de langage 12 / 46

14 Modèle n-gram Le modèle ngram Estimation des probabilité Estimateur du Maximum de vraisemblance Unigramme Unigramme : estimation de la probabilité d un mot w i : n-gramme P(w i ) = C(w i) k C(w k) = C(w i ) taille du corpus estimation de la probabilité conditionnelle d un mot w i étant donné son historique h n 1 de n 1 mots précédents : P(w i h n 1 ) = C(hn 1 w i ) C(h n 1 ) dans le cas d un bigramme h n 1 = w j, le prédécesseur de w i Alexandre Allauzen (UPSud) Modèles de langage 13 / 46

15 Plan Modèle n-gram Évaluation 1 Introduction 2 Modèle n-gram Formalisation du problème Le modèle ngram Évaluation 3 Estimation robuste (smoothing) Prélèvement et lissage Technique de développement et utilisation Alexandre Allauzen (UPSud) Modèles de langage 14 / 46

16 Modèle n-gram Évaluation Évaluation d un ML : perplexité Théorie de l information La perplexité d un texte mesurée avec un modèle de langage quantifie la diminution de l entropie d un texte due à l utilisation de ce modèle. la capacité du ML à prédire les mots d un texte inconnu. Soit W = w 1 w 2...w T une séquence de mots test PP def = P(W ) 1 T Un facteur de branchement Interprétation comme facteur de branchement : l utilisation du modèle revient à choisir entre PP mots équiprobables après chaque mot. PP N, la taille du vocabulaire Perplexité faible bon ML! Imperfection Ne tient pas compte de la proximité phonétique des mots (gênant pour la RAP), dépendante du texte,... Alexandre Allauzen (UPSud) Modèles de langage 15 / 46

17 Modèle n-gram Évaluation Perplexité... Relation avec l entropie croisée du modèle PP = 2 H T avec H = log P(w i ) 1 T = 1 T Procédure de calcul i=1 T = log P(w i ) 1 T i=1 T log P(w i ) i=1 calculer la somme des logarithmes négatifs des probabilités N-grammes normaliser cette somme par T Alexandre Allauzen (UPSud) Modèles de langage 16 / 46

18 Exemple de calcul Modèle n-gram Évaluation P(Le président François Holland a présenté ses voeux) =?? 2-grammes P(le < s >) grammes P(le < s >) P(président le) P(président < s >,le) P(François président) P(François le,président) P(Holland François) P(Holland président,françois) P(a Holland) P(a François,Holland) P(présenté a) P(présenté Holland,a) P(ses présenté) P(ses a,présenté) P(voeux ses) P(voeux présenté,ses) P(< /s > voeux) P(< /s > ses,voeux) = = PP = PP = Alexandre Allauzen (UPSud) Modèles de langage 17 / 46

19 Modèle n-gram Évaluation Un modèle de language = un ensemble de classifieur Pour un historique donné ou Φ(w 1, w 2,...w i 1 ) Inférer le mot suivant w i connaissant Φ(w 1, w 2,...w i 1 ). Une distribution sur V pour un Φ(w 1, w 2,...w i 1 ) donné. En pratique: une multinomiale par historique Un modèle n-gramme = Un regroupement de multinomiales. Il faut lier les paramètres. Alexandre Allauzen (UPSud) Modèles de langage 18 / 46

20 Plan Estimation robuste (smoothing) 1 Introduction 2 Modèle n-gram Formalisation du problème Le modèle ngram Évaluation 3 Estimation robuste (smoothing) Prélèvement et lissage Technique de développement et utilisation Alexandre Allauzen (UPSud) Modèles de langage 19 / 46

21 Plan Estimation robuste (smoothing) Prélèvement et lissage 1 Introduction 2 Modèle n-gram Formalisation du problème Le modèle ngram Évaluation 3 Estimation robuste (smoothing) Prélèvement et lissage Technique de développement et utilisation Alexandre Allauzen (UPSud) Modèles de langage 20 / 46

22 Prélèvement et lissage Problèmes : mots hors vocabulaire Mots hors vocabulaire (Out of Vocabulary Words, OOV ) lorsqu un mot est hors vocabulaire, sa probabilité serait nulle et donc la perplexité Lors de l apprentissage il faut minimiser le taux de OOV et associer une probabilité à tous les mots OOV < UNK > Différences entre les langues l anglais et le français sont comparables. l allemand utilise beaucoup de mots composés taux d OOV plus élevé. Alexandre Allauzen (UPSud) Modèles de langage 21 / 46

23 Prélèvement et lissage Problèmes : observations des n-grammes Quantité de données d apprentissage : il n y a jamais assez de données textuelles pour estimer toutes ces probabilités ex mots 10 6 bigrammes, 10 9 trigrammes Hypothèse markovienne insuffisante en pratique Exemple : trigramme P(w i w j, w l ) = C(w jw l w i ) C(w j w l ) Problèmes P(w i w j, w l ) = 0 si C(w j w l w i ) = 0 et C(w j w l ) 0 P(w i w j, w l ) = si C(w j w l ) = 0 Alexandre Allauzen (UPSud) Modèles de langage 22 / 46

24 Prélèvement et lissage Évènements non observés Différentes raisons séquences non admises par la syntaxe de la langue ex. ils part tôt (typiquement des accords non-ambigus en genre et en nombre) mauvaise raison : séquences absentes du corpus, mais faisant partie de la langue Solutions : augmenter la taille du corpus d apprentissage; un modèle capable de généraliser ses connaissances; attribuer une probabilité (faible) aux événements non observés : P(w i h) ɛ > 0 i, h Alexandre Allauzen (UPSud) Modèles de langage 23 / 46

25 Prélèvement et lissage Évènements non observés Loi de Zipf Loi de Zipf : f K r, Comptes d occurrence triés par rang de fréquence obtenus sur des corpus de journaux de 30M de mots chacun. Pour les 100k mots les plus fréquents de chaque langue fréquence vs rang fréquence de fréquence Alexandre Allauzen (UPSud) Modèles de langage 24 / 46

26 Prélèvement et lissage Prélèvement Prélever une masse de probabilité D aux événements observés, P (w i h n ) = (1 δ(w i, h n ))P MV (w i h n ) puis la redistribuer sur les événements n 0 non-observés. Techniques de prélèvement : prélèvement constant : δ est une constante prélèvement absolu (absolute discounting ou Knesser-Ney) : δ(h) = 1 f (h) prélèvement Good-Turing et Katz : dépend de la fréquence des événements observés et de la fréquence des fréquences prélèvement Witten-Bell : on rajoute un poids au dénominateur, lié au nombre d événements distincts observés. Se référer à [1] (en version rapport technique) Alexandre Allauzen (UPSud) Modèles de langage 25 / 46

27 Prélèvement et lissage méthodes de lissage Le lissage combine le prélèvement et la redistribution. Lissage et généralisation Le lissage opère un saut inductif: généralise le corpus fini à un langage infini; Toute phrase a une probabilité non nulle. Les classiques Combinaison linéaire (interpolation) de plusieurs modèles; Le repli (back-off ) Introduction d a priori sur les paramètres; Construction de classes de mots classes d histoires;... Alexandre Allauzen (UPSud) Modèles de langage 26 / 46

28 Prélèvement et lissage Redistribution - Interpolation linéaire Comment faire un compromis Les modèles les plus simples (unigramme) sont les mieux estimés. L ordre du modèle augmente sa capacité de prédiction. Combinaison linéaire de modèles de complexité croissante selon P I (w i h n ) = λ(w i, h n )P (w i h n ) + (1 λ(w i, h n ))P I (w i h n 1 ) Le coefficient λ est de manière générique une fonction du mot et de l historique Alexandre Allauzen (UPSud) Modèles de langage 27 / 46

29 Redistribution - Repli Estimation robuste (smoothing) Prélèvement et lissage Principe : exploiter les historiques d ordre plus faible non observé approximation n h m i n h m i h n m i h n-1 m i Technique de repli (back-off) P () P() P (w i h n ) si C(h n w i ) > 0 P(w i h n ) = α(h n )P (w i h n 1 ) si C(h n w i ) = 0 α(h n ) : coefficient de repli (back-off) déterminé pour remplir la condition de normalisation des probabilités conditionnelles Alexandre Allauzen (UPSud) Modèles de langage 28 / 46

30 Prélèvement et lissage Le plus simple, le prélèvement constant ou additif Définition P add (w i h n ) = La constante est telle que 0 < α < 1 c(w i, h n ) + α α V + w c(w i, h n ) Cette méthode est en général peu efficace. Mieux vaut prélever en fonction du mot ou de l historique Alexandre Allauzen (UPSud) Modèles de langage 29 / 46

31 Prélèvement et lissage Aussi simple : Jelinek-Mercer Définition récursive de l estimation via l interpolation linéaire. Définition P Jel (w i h n ) = λ(w i, h n )P MV (w i h n ) + (1 λ(w i, h n ))P Jel (w i h n 1 ) Estimation des paramètres doit se faire sur des données de validation ou : Held-out-data Deleted Interpolation Alexandre Allauzen (UPSud) Modèles de langage 30 / 46

32 Prélèvement et lissage Katz / Good-Turing Idée de départ L estimation MV surestime les évènements rares Correction de la fréquence des événements. Prélèvement Soit n r le nombre de n-grams apparaissant r fois : r = disc(r) = (r + 1) n r+1 n r Prise en compte de la loi de Zipf Alexandre Allauzen (UPSud) Modèles de langage 31 / 46

33 Les fréquences de Good-Turing Prélèvement et lissage Redistribution P (w i h n ) = disc(c(hn w i )) P K (w i h n C(h n ) si C(h n w i ) > 0 ) = α(h n )P (w i h n 1 ) si C(h n w i ) = 0 r n r r r n r r Chaque évènement non-observé a un compte GT Alexandre Allauzen (UPSud) Modèles de langage 32 / 46

34 Prélèvement et lissage Inconvénient de la méthode de Katz Surestimation des probabilités C(en) = 10000, (le) = 10000, C(appel) = 100, C(en le) = C(en appel) = 0 P(en le) >> P(en appel)!! Probabilité du bigramme inobservé on Frisco P K (Frisco/on) = α(on)p K (Frisco) Comme Frisco est très fréquent, P K (Frisco/on) est élevée Pourtant Frisco, même si très fréquent, apparaît dans peu de contexte. Idée : prendre en compte la propension du mot à se combiner à gauche Le mot apparait-il dans de nombreux contextes ou est-il spécifique? Alexandre Allauzen (UPSud) Modèles de langage 33 / 46

35 Witten-Bell Estimation robuste (smoothing) Prélèvement et lissage Interpolation avec l ordre inférieur P wb (w i h n ) = λ h np MV (w i h n ) + (1 λ h n)p wb (w i h n 1 ) Le coefficient d interpolation est fonction de l historique et de sa spécificité, soit {w}, C(h n w) > 0 : λ h n = {w}, C(h n w) > 0 {w}, C(h n w) > 0 + w c(hn, w) Alexandre Allauzen (UPSud) Modèles de langage 34 / 46

36 Prélèvement et lissage Knesser-Ney P(w i h n ) = P (w i h n ) = C(hn w i ) D C(h n ) si C(h n w i ) > 0 α(h n ) {v n },C(v n w i )>0 w {v n },C(v n w)>0 si C(h n w i ) = 0 D est une constante (prélèvement absolu) {v n }, C(v n w i ) > 0 est le nombre d historique possible pour w i Raffinement : D est optimisé indépendemment pour les n-gram apparaissant 1,2 et 3 fois Alexandre Allauzen (UPSud) Modèles de langage 35 / 46

37 Plan Estimation robuste (smoothing) Technique de développement et utilisation 1 Introduction 2 Modèle n-gram Formalisation du problème Le modèle ngram Évaluation 3 Estimation robuste (smoothing) Prélèvement et lissage Technique de développement et utilisation Alexandre Allauzen (UPSud) Modèles de langage 36 / 46

38 Technique de développement et utilisation Normalisation des corpus d entraînement La normalisation des textes est un compromis entre : Couverture lexicale Obtenir une meilleure couverture lexicale et un meilleur apprentissage réduction du nombre de mots conversion des chiffres en mots éclatement des sigles uniformiser l écriture des unités Capacité discriminante Discrimination du modèle de langage conservation de toutes les distinctions conserver la capitalisation (français) et les acronymes, ex : Roman ou roman écritures alternatives et contraction, ex. : we ll ou we will Alexandre Allauzen (UPSud) Modèles de langage 37 / 46

39 Chaîne de traitement Technique de développement et utilisation corpus brut... Normalisations corpus normalise Comptes d occurrence C( m ) i C( m i m j ) Sur l une des deux affiches, tirees a 60,000 exemplaires, cette phrase, tracee en grandes lettres, barre les graffitis et insultes qui couvrent un tableau noir. 50,000 autocollants, estampilles du mot respect, montrent non plus la main des potes, mais deux poings qui s appuient l un contre l autre sur l une des deux affiches tirees a soixante mille exemplaires cette phrase tracee en grandes lettres barre les graffitis et insultes qui couvrent un tableau noir cinquante mille autocollants estampilles du mot respect montrent non plus la main des potes mais deux poings qui s appuient l un contre l autre... m m m t-1 m t m t+1... A partir d un corpus (suites de mots w 1... w t 1 w t w t+1... w T ) on détermine les mots distincts (vocabulaire w i, i = 1,... I) et les comptes d occurrences de suites de mots de longueur 1, 2, 3... Alexandre Allauzen (UPSud) Modèles de langage 38 / 46

40 Choix des corpus d entraînement Technique de développement et utilisation Corpus en relation avec la tâche caractérisation de la tâche? ex. : transcription d émissions télévisées d actualité Utilisation de transcription d émissions télévisées d actualité mais quantité insuffisante Utilisation de textes de la presse écrite mais langage écrit parole spontanée par ex. ajouter des hésitations, des respirations Quelle actualité, quelle langage? époque des textes utilisés anciens mots d intérêt général récents surtout pour les noms propres Alexandre Allauzen (UPSud) Modèles de langage 39 / 46

41 Modèle de langage en français Technique de développement et utilisation Répartition des données d entraînement Source Moyenne annuelle Période Total en en million de mots couverte million de mots Transcriptions 0, ,6 Service de presse 24,2 1997,1998, ,7 Agence de presse 22, ,8 Le Monde 21, ,4 Le Monde Diplo. 1, ,7 Alexandre Allauzen (UPSud) Modèles de langage 40 / 46

42 Modèle de langage en français Technique de développement et utilisation Répartition des données d entraînement Source Moyenne annuelle Période Total en en million de mots couverte million de mots Transcriptions 0, ,6 Service de presse 24,2 1997,1998, ,7 Agence de presse 22, ,8 Le Monde 21, ,4 Le Monde Diplo. 1, ,7 Alexandre Allauzen (UPSud) Modèles de langage 40 / 46

43 Modèle de langage en français Technique de développement et utilisation Répartition des données d entraînement Source Moyenne annuelle Période Total en en million de mots couverte million de mots Transcriptions 0, ,6 Service de presse 24,2 1997,1998, ,7 Agence de presse 22, ,8 Le Monde 21, ,4 Le Monde Diplo. 1, ,7 Alexandre Allauzen (UPSud) Modèles de langage 40 / 46

44 Modèle de langage en français Technique de développement et utilisation Répartition des données d entraînement Source Moyenne annuelle Période Total en en million de mots couverte million de mots Transcriptions 0, ,6 Service de presse 24,2 1997,1998, ,7 Agence de presse 22, ,8 Le Monde 21, ,4 Le Monde Diplo. 1, ,7 Alexandre Allauzen (UPSud) Modèles de langage 40 / 46

45 Modèle de langage en français Technique de développement et utilisation Répartition des données d entraînement Source Moyenne annuelle Période Total en en million de mots couverte million de mots Transcriptions 0, ,6 Service de presse 24,2 1997,1998, ,7 Agence de presse 22, ,8 Le Monde 21, ,4 Le Monde Diplo. 1, ,7 Alexandre Allauzen (UPSud) Modèles de langage 40 / 46

46 Modèle de langage en français Technique de développement et utilisation Répartition des données d entraînement Source Moyenne annuelle Période Total en en million de mots couverte million de mots Transcriptions 0, ,6 Service de presse 24,2 1997,1998, ,7 Agence de presse 22, ,8 Le Monde 21, ,4 Le Monde Diplo. 1, ,7 Éviter la dilution : Un modèle par source est estimé (transcription, service de presse, presse écrite) Alexandre Allauzen (UPSud) Modèles de langage 40 / 46

47 Technique de développement et utilisation Construction du modèle de langage de référence Interpolation linéaire des trois modèles : P interpol (w h) = 3 λ i P i (w h), avec i=1 3 λ i = 1. i=1 les (λ i ) calculés de manière à minimiser la perplexité d un texte de développement T : ppx(t) = 2 L(T ) avec L(T) = 1 n n log 2 P(w j h j ) j=1 15 millions de bigrammes, 13 millions de trigrammes, 10 millions de quadrigrammes Alexandre Allauzen (UPSud) Modèles de langage 41 / 46

48 Technique de développement et utilisation Ordres de grandeur Modèle de langage français plus 300M mots de la presse écrite, 72M mots de transcriptions commerciales, 1,6M mots de transcriptions fines (hésitations, respirations,...) 65K mots, 15 millions de bigrammes, 13 millions de trigrammes, 10 millions de quadrigrammes Modèle de langage anglais 340 sur 700M mots de journaux (Wall Street Journal,...), 2M mots de transcriptions commerciales, 1,5M mots de transcriptions fines 65K mots, 8M bigrammes, 21M trigrammes, 225Mo compressé, OOV 0,5 % Modèle de langage allemand comparable au modèle de langage français, mais OOV de 4,5% Alexandre Allauzen (UPSud) Modèles de langage 42 / 46

49 Trouver la phrase la plus fréquente Technique de développement et utilisation Considérons le graphe suivant : il fait beau souvent <s> Gilles faut chaud vent pile plait peau couvent </s> Comment déterminer la phrase (suite de mots) la plus probable en utilisant un modèle de langage bi- ou trigrammes? Tester toutes les phrases : bigrammes 400 évaluations programmation dynamique algorithme classique de parcours de graphe Alexandre Allauzen (UPSud) Modèles de langage 43 / 46

50 Algorithmes... Estimation robuste (smoothing) Technique de développement et utilisation Exemple avec des bigrammes : créer un graphe dont les noeuds sont les mots et dont les arcs sont les probabilités des bigrammes correspondants il fait beau souvent <s> Gilles faut chaud vent </s> pile plait peau couvent chercher le chemin maximal par programmation dynamique (33 évaluations) Comment faire en cas de tri-grammes? graphe de couples de mots Alexandre Allauzen (UPSud) Modèles de langage 44 / 46

51 Technique de développement et utilisation Conclusion sur... la modélisation linguistique en Reconnaissance automatique de la parole continue grand vocabulaire. l état de l art : modèle résultant de l interpolation de ML n-gramme de mots, données d entraînement > 1 milliard de mots. Smoothing : Knesser-Ney modified un ML n-gramme de classe peut-être interpolé avec le ML n-gramme de mots Perspectives Put the language back into the language modeling. Les performances atteintes commencent à être suffisante pour envisager des applications nouvelles comme l indexation automatique de documents audiovisuels (cours 6). Nouvelles perspectives de recherche sur l extraction de connaissance et fouille de données audio(visuelles). Alexandre Allauzen (UPSud) Modèles de langage 45 / 46

52 Technique de développement et utilisation Bibliographie courte Les références Frederick Jelinek, Statistical Methods for Speech Recognition, The MIT Press, 2000 Christopher D. Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, The MIT Press, 1999 Ronald Rosenfeld, Two decades of statistical language modeling: Where do we go from here?, Proceedings of the IEEE, 88(8), Jean-Luc Gauvain and L. Lamel and G. Adda, The LIMSI Broadcast News Transcription System, Speech Communication, 37, Do it yourself! Alexandre Allauzen (UPSud) Modèles de langage 46 / 46

53 Technique de développement et utilisation Stanley F. Chen and Joshua T. Goodman. An empirical study of smoothing techniques for language modeling. Technical Report TR-10-98, Computer Science Group, Harvard University, Alexandre Allauzen (UPSud) Modèles de langage 46 / 46

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Reconnaissance automatique de la parole à l aide de colonies de fourmis

Reconnaissance automatique de la parole à l aide de colonies de fourmis Reconnaissance automatique de la parole à l aide de colonies de fourmis Benjamin Lecouteux Didier Schwab Groupe d Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole Laboratoire

Plus en détail

Cours d électricité. Circuits électriques en courant constant. Mathieu Bardoux. 1 re année

Cours d électricité. Circuits électriques en courant constant. Mathieu Bardoux. 1 re année Cours d électricité Circuits électriques en courant constant Mathieu Bardoux mathieu.bardoux@univ-littoral.fr IUT Saint-Omer / Dunkerque Département Génie Thermique et Énergie 1 re année Objectifs du chapitre

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01)

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01) (19) TEPZZ 8 8 4_A_T (11) EP 2 838 241 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 18.02.1 Bulletin 1/08 (1) Int Cl.: H04L 29/06 (06.01) G06F 21/ (13.01) (21) Numéro de dépôt: 141781.4

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Trois approches du GREYC pour la classification de textes

Trois approches du GREYC pour la classification de textes DEFT 2008, Avignon (associé à TALN 08) Trois approches du GREYC pour la classification de textes Thierry Charnois Antoine Doucet Yann Mathet François Rioult GREYC, Université de Caen, CNRS UMR 6072 Bd

Plus en détail

N 334 - SIMON Anne-Catherine

N 334 - SIMON Anne-Catherine N 334 - SIMON Anne-Catherine RÉALISATION D UN CDROM/DVD CONTENANT DES DONNÉES DU LANGAGE ORAL ORGANISÉES EN PARCOURS DIDACTIQUES D INITIATION LINGUISTIQUE A PARTIR DES BASES DE DONNÉES VALIBEL Introduction

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

DÉVERSEMENT ÉLASTIQUE D UNE POUTRE À SECTION BI-SYMÉTRIQUE SOUMISE À DES MOMENTS D EXTRÉMITÉ ET UNE CHARGE RÉPARTIE OU CONCENTRÉE

DÉVERSEMENT ÉLASTIQUE D UNE POUTRE À SECTION BI-SYMÉTRIQUE SOUMISE À DES MOMENTS D EXTRÉMITÉ ET UNE CHARGE RÉPARTIE OU CONCENTRÉE Revue Construction étallique Référence DÉVERSEENT ÉLASTIQUE D UNE POUTRE À SECTION BI-SYÉTRIQUE SOUISE À DES OENTS D EXTRÉITÉ ET UNE CHARGE RÉPARTIE OU CONCENTRÉE par Y. GALÉA 1 1. INTRODUCTION Que ce

Plus en détail

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Gwenole Fortin To cite this version: Gwenole Fortin. Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence. 2006.

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Qu est-ce qu une probabilité?

Qu est-ce qu une probabilité? Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont

Plus en détail

document proposé sur le site «Sciences Physiques en BTS» : http://nicole.cortial.net BTS AVA 2015

document proposé sur le site «Sciences Physiques en BTS» : http://nicole.cortial.net BTS AVA 2015 BT V 2015 (envoyé par Frédéric COTTI - Professeur d Electrotechnique au Lycée Régional La Floride Marseille) Document 1 - Etiquette énergie Partie 1 : Voiture à faible consommation - Une étiquette pour

Plus en détail

Mesures et incertitudes

Mesures et incertitudes En physique et en chimie, toute grandeur, mesurée ou calculée, est entachée d erreur, ce qui ne l empêche pas d être exploitée pour prendre des décisions. Aujourd hui, la notion d erreur a son vocabulaire

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP Frédéric Aman, Michel Vacher, Solange Rossato, Remus Dugheanu, François Portet,

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Représentation d un entier en base b

Représentation d un entier en base b Représentation d un entier en base b 13 octobre 2012 1 Prérequis Les bases de la programmation en langage sont supposées avoir été travaillées L écriture en base b d un entier est ainsi défini à partir

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières FONDEMENTS MATHÉMATIQUES 12 E ANNÉE Mathématiques financières A1. Résoudre des problèmes comportant des intérêts composés dans la prise de décisions financières. [C, L, RP, T, V] Résultat d apprentissage

Plus en détail

Projet de Master en Informatique: Web WriteIt!

Projet de Master en Informatique: Web WriteIt! Projet de Master en Informatique: Web WriteIt! Web WriteIt! Baris Ulucinar Supervisé par le Prof. Rolf Ingold, Dr. Jean Hennebert, Andreas Humm et Robert Van Kommer Avril 2007 Table des matières 2 1. Introduction

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains. Mémoire d actuariat - promotion 2010 La modélisation des avantages au personnel: complexité et limites du modèle actuariel, le rôle majeur des comportements humains. 14 décembre 2010 Stéphane MARQUETTY

Plus en détail

Informatique Générale

Informatique Générale Informatique Générale Guillaume Hutzler Laboratoire IBISC (Informatique Biologie Intégrative et Systèmes Complexes) guillaume.hutzler@ibisc.univ-evry.fr Cours Dokeos 625 http://www.ens.univ-evry.fr/modx/dokeos.html

Plus en détail

Formula Negator, Outil de négation de formule.

Formula Negator, Outil de négation de formule. Formula Negator, Outil de négation de formule. Aymerick Savary 1,2, Mathieu Lassale 1,2, Jean-Louis Lanet 1 et Marc Frappier 2 1 Université de Limoges 2 Université de Sherbrooke Résumé. Cet article présente

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Resolution limit in community detection

Resolution limit in community detection Introduction Plan 2006 Introduction Plan Introduction Introduction Plan Introduction Point de départ : un graphe et des sous-graphes. But : quantifier le fait que les sous-graphes choisis sont des modules.

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language Unified Modeling Language UML Salima Hassas Version Cycle de vie du logiciel Client Besoins Déploiement Analyse Test Conception Cours sur la base des transparents de : Gioavanna Di Marzo Serugendo et Frédéric

Plus en détail

Adaptation thématique non supervisée d un système de reconnaissance automatique de la parole

Adaptation thématique non supervisée d un système de reconnaissance automatique de la parole THÈSE INSA Rennes sous le sceau de l Université européenne de Bretagne pour obtenir le grade de DOCTEUR DE L INSA DE RENNES Spécialité : Informatique Adaptation thématique non supervisée d un système de

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Gestion collaborative de documents

Gestion collaborative de documents Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,

Plus en détail

!-.!#- $'( 1&) &) (,' &*- %,!

!-.!#- $'( 1&) &) (,' &*- %,! 0 $'( 1&) +&&/ ( &+&& &+&))&( -.#- 2& -.#- &) (,' %&,))& &)+&&) &- $ 3.#( %, (&&/ 0 ' Il existe plusieurs types de simulation de flux Statique ou dynamique Stochastique ou déterministe A événements discrets

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

1 Recherche en table par balayage

1 Recherche en table par balayage 1 Recherche en table par balayage 1.1 Problème de la recherche en table Une table désigne une liste ou un tableau d éléments. Le problème de la recherche en table est celui de la recherche d un élément

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN MATHÉMATIQUES Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN Mars 2001 MATHÉMATIQUES Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN Mars 2001 Direction

Plus en détail

Annexe 6. Notions d ordonnancement.

Annexe 6. Notions d ordonnancement. Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document

Plus en détail

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6 Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6 1 1.But et théorie: Le but de cette expérience est de comprendre l'intérêt de la spectrophotométrie d'absorption moléculaire

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr Introduction à la théorie des files d'attente Claude Chaudet Claude.Chaudet@enst.fr La théorie des files d'attente... Principe: modélisation mathématique de l accès à une ressource partagée Exemples réseaux

Plus en détail

Un essai de mesure de la ponction actionnariale note hussonet n 63, 7 novembre 2013

Un essai de mesure de la ponction actionnariale note hussonet n 63, 7 novembre 2013 Un essai de mesure de la ponction actionnariale note hussonet n 63, 7 novembre 2013 L objectif de cette note est de présenter une mesure de la ponction actionnariale. Son point de départ est un double

Plus en détail

Cadre pour la catégorisation de textes multilingues

Cadre pour la catégorisation de textes multilingues Cadre pour la catégorisation de textes multilingues Radwan Jalam, Jérémy Clech, Ricco Rakotomalala Laboratoire ERIC Université Lumière Lyon 2 5, av. Pierre Mendès-France 69676 Bron, France {jalam, jclech,

Plus en détail

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales Haithem AFLI Loïc BARRAULT Holger SCHWENK Laboratoire d Informatique

Plus en détail

Apprentissage statistique dans les graphes et les réseaux sociaux

Apprentissage statistique dans les graphes et les réseaux sociaux Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique

Plus en détail

Formats d images. 1 Introduction

Formats d images. 1 Introduction Formats d images 1 Introduction Lorsque nous utilisons un ordinateur ou un smartphone l écran constitue un élément principal de l interaction avec la machine. Les images sont donc au cœur de l utilisation

Plus en détail

Probabilités Loi binomiale Exercices corrigés

Probabilités Loi binomiale Exercices corrigés Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE SûretéGlobale.Org La Guitonnière 49770 La Meignanne Téléphone : +33 241 777 886 Télécopie : +33 241 200 987 Portable : +33 6 83 01 01 80 Adresse de messagerie : c.courtois@sureteglobale.org APPORT DES

Plus en détail

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1 Chap 4: Analyse syntaxique 1 III- L'analyse syntaxique: 1- Le rôle d'un analyseur syntaxique 2- Grammaires non contextuelles 3- Ecriture d'une grammaire 4- Les méthodes d'analyse 5- L'analyse LL(1) 6-

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Echantillonnage Non uniforme

Echantillonnage Non uniforme Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice. Web Science Master 1 IFI Andrea G. B. Tettamanzi Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.fr 1 Annonce : recherche apprenti Projet Géo-Incertitude Objectifs

Plus en détail

Application d un algorithme de traduction statistique à la normalisation de textos

Application d un algorithme de traduction statistique à la normalisation de textos Application d un algorithme de traduction statistique à la normalisation de textos Gabriel Bernier-Colborne 1 (1) Observatoire de linguistique Sens-Texte Université de Montréal gabriel.bernier-colborne@umontreal.ca

Plus en détail

Oscillations libres des systèmes à deux degrés de liberté

Oscillations libres des systèmes à deux degrés de liberté Chapitre 4 Oscillations libres des systèmes à deux degrés de liberté 4.1 Introduction Les systèmes qui nécessitent deux coordonnées indépendantes pour spécifier leurs positions sont appelés systèmes à

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole ÉCOLE DOCTORALE SCIENCES ET TECHNOLOGIES (ORLEANS) FACULTÉ de TECHNOLOGIE (Sétif) Laboratoire PRISME THÈSE EN COTUTELLE INTERNATIONALE présentée par : Abdenour Hacine-Gharbi soutenue le : 09 décembre 2012

Plus en détail

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des

Plus en détail

Calculs de probabilités

Calculs de probabilités Calculs de probabilités Mathématiques Générales B Université de Genève Sylvain Sardy 13 mars 2008 1. Définitions et notations 1 L origine des probabilités est l analyse de jeux de hasard, tels que pile

Plus en détail

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches Niveau C1 Descripteur global Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches La personne peut : comprendre en détail de longs discours et des échanges complexes

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE Le cours de la première année concerne les sujets de 9ème et 10ème années scolaires. Il y a bien sûr des différences puisque nous commençons par exemple par

Plus en détail

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique NOM DE L'UE : Algorithmique et programmation C++ LICENCE INFORMATIQUE Non Alt Alt S1 S2 S3 S4 S5 S6 Parcours : IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques) MASTER INFORMATIQUE Non

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT SPÉCIALITÉ : Informatique École Doctorale 503 «Sciences et Technologies de l Information

Plus en détail

M2 IAD UE MODE Notes de cours (3)

M2 IAD UE MODE Notes de cours (3) M2 IAD UE MODE Notes de cours (3) Jean-Yves Jaffray Patrice Perny 16 mars 2006 ATTITUDE PAR RAPPORT AU RISQUE 1 Attitude par rapport au risque Nousn avons pas encore fait d hypothèse sur la structure de

Plus en détail

Contrôle stochastique d allocation de ressources dans le «cloud computing»

Contrôle stochastique d allocation de ressources dans le «cloud computing» Contrôle stochastique d allocation de ressources dans le «cloud computing» Jacques Malenfant 1 Olga Melekhova 1, Xavier Dutreilh 1,3, Sergey Kirghizov 1, Isis Truck 2, Nicolas Rivierre 3 Travaux partiellement

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

Disparités entre les cantons dans tous les domaines examinés

Disparités entre les cantons dans tous les domaines examinés Office fédéral de la statistique Bundesamt für Statistik Ufficio federale di statistica Uffizi federal da statistica Swiss Federal Statistical Office EMBARGO: 02.05.2005, 11:00 COMMUNIQUÉ DE PRESSE MEDIENMITTEILUNG

Plus en détail

4 Exemples de problèmes MapReduce incrémentaux

4 Exemples de problèmes MapReduce incrémentaux 4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g. PHYSQ 130: Hooke 1 LOI DE HOOKE: CAS DU RESSORT 1 Introduction La loi de Hooke est fondamentale dans l étude du mouvement oscillatoire. Elle est utilisée, entre autres, dans les théories décrivant les

Plus en détail