Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Dimension: px
Commencer à balayer dès la page:

Download "Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien"

Transcription

1 Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin

2 Table des matières 1 Présentation et objectifs Problématique Présentation de Burfiks Introduction au formalisme Bayesien Historique Généralités Probabilités conditionnelles La formule de Bayes Intuition Les Réseaux Bayesiens Le modèle Naïve Bayes pour les documents plats Encodage d un document Représentation Vectorielle Représentation Séquentielle Classes Classification bi-classes Classification multi-classes Ranking et fonction de score Système de classes utilisé pour modéliser le problème Le modèle Naïve Bayes Phase d apprentissage Phase de test Adaptations du modèle Naïve Bayes aux documents structurés Utilisation de la sémantique des balises HTML Représentation d un document structuré Modèles locaux de type Naïve Bayes Probabilité structurelle Probabilité de contenu Apprentissage Test Application à Burfiks et perspectives 22 6 Bibliographie 24 2

3 1 Présentation et objectifs 1.1 Problématique Avec l essor exponentiel de la quantité d information disponible sur le Web, la qualité des résultats fournis par les moteurs de recherche, tel Google se dégrade inexorablement. La première idée de ce travail était d améliorer les résultats de ces moteurs de recherche, en leur appliquant un filtre statistique appelé filtre Bayesien, qui fut popularisé par Paul Graham lorsqu il l appliqua à la lutte anti-spam. Puis il est apparu que le filtrage de l ensemble des résultats d une requête Google est trop contraignant lors d une recherche sur Internet. C est alors qu est venue l idée de Surf Bayesien. Un filtre Bayesien, non pas uniquement sur les résultats d une requête Google, mais sur l ensemble des liens présents sur chacune des pages visitées. L objectif étant d obtenir un outil qui permette de guider l utilisateur, en lui donnant la pertinence de chacun des liens présents sur la page qu il visite. Il nous faut donc construire un outil capable de catégoriser, en temps réel, (selon différents profils déterminés à l avance (ou non comme nous le verrons)), les différents sites et pages présents sur le Web. L algorithme (les statisticiens parleront de méthode), le plus couramment utilisé dans le filtrage Bayesien, est la méthode Naïve Bayes. Cette méthode présente tout de même deux inconvénients majeurs en ce qui concerne notre objectif de classification dynamique de pages Web : Elle ne considère que des documents plats, i.e elle ne s intéresse qu au contenu d un document et non à sa strucure. Ce qui est fort dommageable, surtout dans le cas de langages semi-structurés tels XML. En effet, la structure d un document peut amener des informations supplémentaires sous trois formes : 1. La structure elle-même peut être une information (la structure d une page contenant une dépêche de presse est bien différente de celle d une page contenant un forum de discussion, par exemple) 2. Un mot contenu dans la page peut avoir une importance différente selon son emplacement (un mot contenu dans le titre ou encore écrit en gras, par exemple, sera considéré particulièrement). 3. Les relations d inclusion, ou hyper-liens, reliant différentes pages peuvent aussi apporter une information de dépendance entre les pages (par exemple, un site contenant une page intéressante, peut être considéré comme intéressant). 3

4 La méthode Naïve Bayes est figée : 1. D une part, elle est séparée en deux parties : une phase d apprentissage permettant d estimer les différents paramètres du problème, puis une phase de test, qui, elle seule estime la pertinence d un document. Elle nécessite donc un corpus d apprentissage, et ne peut plus améliorer ses résultats, une fois cet apprentissage terminé. Or, dans le cas d une classification d un ensemble gigantesque de documents, tel le Web, un corpus d apprentissage efficace devient très volumineux. C est pourquoi un apprentissage dynamique, couplé à la phase de test, serait plus judicieux, dans ce cas. 2. D autre part, elle fixe le nombre de classes (catégories) différentes une fois pour toutes, lors de la phase d apprentissage. Or, en pratique, un utilisateur peut avoir envie de créer un nouveau profil de recherche, sans perdre toute l information de l apprentissage déjà effectué. Il serait donc judicieux de prévoir un fonctionnement dynamique également, en ce qui concerne le nombre de classes. Nous allons donc explorer, et tenter d adapter, les différentes méthodes statistiques, notamment proposées par Luc Denoyer et al., qui pourraient permettre de prendre, le mieux possible, en compte la structure d un document, lors de sa classification. Et nous nous intéresserons à la capacité dynamique de ces méthodes, afin de produire un outil efficace et polyvalent. 1.2 Présentation de Burfiks Ce travail se base sur (et se veut la continuité de) celui d Alexandre Bertails, qu il a réalisé l année dernière sous la direction de M. di Cosmo (voir http : //alexandre.bertails.f ree.f r/maitrise/t ER Rapport.tar.gz). Burfiks est un module s adjoignant au navigateur Mozilla, qui se présente sous la forme d une side-bar, affichant, en temps réel, la liste des liens présents dans la page active. L objectif de ce travail est de comprendre comment adapter les techniques statistiques à notre disposition, afin d obtenir un outil qui permette de noter les différents liens présents dans la side-bar. 4

5 Fig. 1 Burfiks en cours de développement. 5

6 L architecture de Burfiks est composée de quatre modules : Polipo, un proxy Web, développé par Juliusz Chroboczek (voir http ://www.pps.jussieu.fr/ jch/software/polipo/ ). Burfiks.xul définit l interface utilisateur dans Mozilla. Burfiks Server, centre névralgique du système, qui se charge de récolter et distribuer les différentes informations entre les modules. Il répond à une requête de Burfiks.xul, en pré-chargeant les pages filles (i.e destinations d un hyper-lien) de la page active, via Polipo, puis en interrogeant Burfiks Classifier, quant à leurs pertinences respectives. Burfiks Classifier est l objet de ce travail. Son rôle est de classer un ensemble de pages web, fourni par Burfiks Server, et de restituer le degré de pertinence de chaque page pour la catégorie retenue.par manque de temps, il ne sera pas opérationnel à la date de soutenance de ce TRE, mais nous allons présenter différents algorithmes et méthodes statistiques qui peuvent être utilisés pour son implémentation. World Wide Web Proxy Polipo Burfiks Classifier Burfiks Server Burfiks.xul Mozilla Fig. 2 Architecture de Burfiks 6

7 2 Introduction au formalisme Bayesien 2.1 Historique Thomas Bayes ( ), mathématicien britannique, passa de nombreuses années à tenter de déterminer ce que l on appelle actuellement la distribution d une loi binomiale. De ses travaux découlèrent, à titre posthume en 1763, la formule de Bayes dont les applications statistiques sont nombreuses aujourd hui. Elle est notamment utilisée, depuis les années 90, dans le domaine de la Recherche d Information (de documents plats), et dans celui des filtres anti-spam. Nous souhaiterions maintenant l utiliser pour la classification dynamique de documents structurés. 2.2 Généralités Probabilités conditionnelles Contrairement aux probabilités classiques, les probabilités conditionnelles permettent de faire apparaître les relations de cause à effet qui lient deux événements. Si A et B sont deux événements (que l on représente, en statistique, par deux variables aléatoires), la probabilité (à postériori) de A sachant B est la probabilité que l événement A se produise, sachant que l événement B se produit également. D un point de vue mathématique, cela donne : P(A B) = P(A B) P(B) i.e la probabilité de A sachant B est égale à la probabilité de (A et B), relativisée par celle de B. Deux événements sont indépendants lorsque l occurrence de l un n a pas d influence sur l occurrence de l autre. Dans ce cas, alors P(A B) = P(A) P(B) P(A B) = P(A) P(B) P(B) = P(A) Autrement dit, si A et B sont indépendants, la probabilité de A sachant B est égale à la probabilité de A. 7

8 2.2.2 La formule de Bayes Les probabilités de A sachant B, et de B sachant A s écrivant respectivement : P(A B) P(A B) = P(B) P(B A) = On obtient aisément la formule de Bayes : Intuition P(A B) P(A) P(A B) = P(A) P(B A) P(B) La formule de Bayes exprime donc le fait que la probabilité de A sachant B peut se calculer en fonction de celle de A, celle de B, et enfin celle de B sachant A. D un point de vue pratique, si nous prenons pour exemple : A = le document étudié contient le mot toto et B = le document étudié appartient à la catégorie Sciences Alors on peut estimer : la probabilité du fait que le document étudié appartient à la catégorie Sciences sachant qu il contient le mot toto, en fonction de : la probabilité du fait que le document étudié contient le mot toto sachant qu il appartient à la catégorie Sciences. (Sans oublier de relativiser par les probabilités qu un document quelconque contienne le mot toto, et qu il appartienne à la catégorie Sciences.) Autrement dit, l information à priori (ici, une estimation du pourcentage de pages appartenant à la catégorie Sciences, qui contiennent le mot toto) permet de calculer l information à postériori (ici, la probabilité qu une page qui contient le mot toto, appartienne à la catégorie Sciences). 2.3 Les Réseaux Bayesiens Les réseaux Bayesiens sont un formalisme permettant de représenter et manipuler les dépendances conditionnelles entre différents événements. Ils sont largement utilisés pour représenter les réseaux de neurones, ou encore pour construire des outils d aide au diagnostic médical. 8

9 Soit A = {A 1,..., A n }, un ensemble de n événements. Un réseau Bayesien sur cet ensemble, est un graphe orienté acyclique (DAG) G = (A, U), où U est un ensemble d arcs reliant les différents sommets A i, et exprimant leurs dépendances. Il a plu cette nuit Mon arroseur est resté allumé Le jardin de mon voisin est mouillé Mon jardin est mouillé Fig. 3 Un exemple de réseau Bayesien Ici, on peut donc exprimer la probabilité que mon jardin soit mouillé sachant qu il a plu cette nuit, ou sachant que mon arroseur automatique est resté allumé (ou les deux). Et l on suppose, par la structure du graphe, que le fait que mon arroseur automatique soit resté allumé, n influe pas sur le fait que jardin de mon voisin soit mouillé (on suppose que la clôture est assez haute...). Une fois que ces probabilités sont connues (ou estimées), on obtient un graphe étiqueté modélisant la table de dépendance conditionnelle des événements. 3 Le modèle Naïve Bayes pour les documents plats 3.1 Encodage d un document Intéressons nous, tout d abord, aux façons de coder un document plat. Soit V = V 1...V V, (le vocabulaire), l ensemble des mots que nous considérons 9

10 (nous passons sur la phase de pré-traitement qui consiste à retirer du vocabulaire les mots trop courants (comme les mots de liaison, par exemple), à regrouper les mots de sens très proche (comme chat et chaton, par exemple), etc...) Représentation Vectorielle Encore appelée représentation en sac de mots, cette représentation ne prend pas en compte l ordre des mots, mais seulement leur présence dans le document. 1. Représentation vectorielle classique Vecteur Binaire : Un document D est représenté par un vecteur binaire v = v 1...v V de taille V. Pour tout i {1... V }, v i = { 0 s il n y a pas d occurrence de Vi dans D 1 sinon Ce codage, dit par mots-clés, est très pauvre car il ne prend en compte que la présence d un mot et non le nombre de ses occurences présentes. Néanmoins, il est encore fréquemment utilisé car sa simplicité est un atout majeur pour des systèmes nécessitant des temps de calcul faibles. Vecteur de fréquence : Cette fois-ci, on représente D par un vecteur v = v 1...v V, dont les composantes sont des entiers naturels. On tient compte ainsi du nombre d occurrences de chaque mot dans D. Pour tout i {1... V }, v i = le nombre d occurences de V i dans D. Cette méthode attribue des vecteurs de grande norme aux longs documents. Ceci peut être un avantage, dans le cadre de certaines recherches ciblées, mais cela peut aussi être un inconvénient et désavantager les grands documents. Il suffit alors de considérer le vecteur normalisé : V = V V. Ainsi, les documents ne sont plus discriminés par leurs tailles. 2. Représentation vectorielle avancée 10

11 Vecteur TF-IDF : Cette représentation tente d être plus informative en ce qui concerne l ordre et la fréquence des termes. Elle repose sur la loi de Zipf, censée modéliser le rapport entre importance et fréquence des mots dans un document. Cette loi peut s énoncer de manière informelle : un mot dans un document, est d autant plus important qu il est fréquent dans le document, et peu fréquent dans le corpus entier Notons que cette représentation, bien que très informative, n est pas utilisable, en pratique, de façon dynamique, car elle nécessiterait de ré-encoder chacun des documents lorsque l ensemble des documents rencontrés s accroît. Néanmoins, en ce qui concerne Burfiks, elle pourrait tout de même s avérer intéressante en version statique, en imaginant d avoir à disposition, une estimation raisonnable des fréquences d apparition des mots sur l ensemble du Web, par exemple. La formule utilisée la plus classique est : N = où tfv D i = df i = i {1... V }, v i = tf D V i log( N df i ) le nombre total de documents du corpus la fréquence du mot V i dans le document D le nombre de mots du corpus contenant V i On note tf pour term frequency et df pour document frequency. Et, tout comme le vecteur de fréquence, le vecteur T F -IDF est habituellement normalisé, pour éliminer les disparités dues aux différences de taille Représentation Séquentielle Cette représentation n est pas un codage au sens propre, puisqu elle consiste à associer à un document, la séquence de ses différents mots, dans l ordre. Cette représentation permet de ne pas perdre d information sur le document étudié. Mais elle nécessite des systèmes plus complexes pour pouvoir traiter ce types d information. Cette conservation de l ordre des mots permet notamment de construire la structure implicite d un document plat, mais nous ne nous intéresserons pas à ce problème dans le présent travail. Cependant, il est aisé de passer d une représentation séquentielle à une représentation vectorielle, alors que le contraire est impossible. C est 11

12 pourquoi nous utiliserons cette représentation séquentielle pour décrire les différents algorithmes, par la suite. 3.2 Classes Intéressons-nous maintenant à la manière de classer les pages Web, selon leur pertinence quant à différentes catégories. Nous désignerons par Γ et, respectivement, l ensemble des classes et l ensemble des documents, considérés. Un outil de classification n est autre qu une fonction de décision φ : Γ {0, 1}, qui rend la pertinence d association d un document de à une classe de Γ Classification bi-classes Ici, Γ = 2, l univers est séparé en deux classes (valide et non-valide). Ce modèle convient à la construction d un filtre, et permet de répondre à la question : Est-ce qu un document D de est valide, ou non?. Ce modèle est notamment utilisé dans les filtres anti-spam, en distinguant deux catégories de mails : désirable et indésirable. Ici, Γ = {C 1 ; C 2 } et Ce qui est équivalent à : φ : Γ {0, 1} (C, D) 1 si D C, et 0 sinon φ : {0, 1} D 1 si D C 1, et 0 sinon Classification multi-classes Ici, Γ > 2, l univers est séparé en différentes catégories, et il faut distinguer le cas classes disjointes du cas classique. Si les classes sont disjointes, la question posée est : A quelle classe, un document D de appartient?, alors que dans le cas classique, elle est : A quelles classes, un document D de appartient?. Le second cas est le plus couramment utilisé dans la recherche, et la classification de documents Ranking et fonction de score Le ranking est une problématique de classification dans laquelle le système ne rend, non plus une réponse booléenne d appartenance à une classe de Γ 12

13 donnée, mais classe les différentes catégories pour un document donné (ou d une manière analogue, classe les documents par ordre de pertinence pour une catégorie donnée). Il est alors nécessaire de définir une fonction de score : Σ : Γ [0; 1] (C, D) la probabilité que D appartienne à C Et l on peut se ramener à la méthode de classification, en définissant (soit à priori, soit par expérimentation), un seuil de tolérance σ ]0; 1[, et en implémentant la fonction de décision de la manière suivante : φ : Γ {0, 1} (C, D) 1 si Σ(C, D) σ, et 0 sinon Système de classes utilisé pour modéliser le problème Notons qu un problème multi-classes à n classes, est équivalent à un système de n problèmes bi-classes. En effet, nous considérons que les différentes classes ont été assez bien délimitées et que la pertinence d un document pour une catégorie n influe pas sur sa pertinence pour une autre catégorie. Les différentes classes sont donc considérées indépendantes. Et nous pouvons séparer les calculs sur ces différentes classes. Nous ne nous intéresserons donc qu à des modèles bi-classes par la suite. De plus, il est aisé de passer d un modèle de ranking à un modèle de classification classique, à l aide d un seuil de tolérance, comme nous l avons vu précédemment. Nous nous intéresserons donc à ce modèle par la suite, quitte à perdre de l information ultérieurement en revenant à une classification binaire. 3.3 Le modèle Naïve Bayes Considérons un document D, représenté par une séquence x = (x 1,..., x n ), où n est le nombre de mots de D. Et plaçons nous dans un modèle bi-classes Γ = {C 1, C 2 }. On considère que C 1 est la classe des valides, et C 2, celle des non-valides. Alors : P(x C1) = P(x 1,..., x n C 1 ) = P(x 1 C 1 ) P(x 2,..., x n x 1, C 1 ) = P(x 1 C 1 ) P(x 2 x 1, C 1 ) P(x 3,..., x n x 2, x 1, C 1 )... 13

14 = n P(x i x i 1,..., x 1, C 1 ) L hypothèse fondamentale du modèle Naïve Bayes est l indépendance conditionnelle des éléments de la séquence entre eux. Ainsi, i {1,..., n}, P(x i x i 1,..., x 1, C 1 ) = P(x i C 1 ). Et on obtient donc : n P(x C 1 ) = P(x i C 1 ) On parle d inférence linéaire en la taille de la séquence (O( X )). Remarque : Cette hypothèse est bien sur complètement fausse... Par exemple la présence du mot Roissy influe sur celle du mot (de la séquence ici) Charles de Gaulle. Mais elle permet une modélisation simple du problème Phase d apprentissage Cette phase permet d estimer les différents paramètres P(x i C 1 ), à partir d un échantillon constitué d un corpus de documents. Dans le cas présent, cette phase ne peut co-exister avec la phase de test, ce qui empêche toute amélioration ultérieure des estimations. Soit X = (x 1,..., x p ), un échantillon de séquences correspondant à un corpus de documents. On ordonne X de telle manière que x 1,..., x l sont des séquences correspondant à des documents valides (et x l+1,..., x p des nonvalides). p La vraisemblance du modèle s écrit alors : l θ = P(x i C 1 ). En maximisant son logarithme, par la méthode des multiplicateurs de Lagrange, on obtient que pour tout v, mot du vocabulaire V, l estimateur du maximum de vraisemblance de P(v C 1 ) est : θ v = l N xi v l w V N xi w Où pour toute séquence x, v V, N x v est le nombre d occurrences de v dans x. Cette phase d apprentissage nécessite donc de compter les occurrences de 14

15 chaque mot du vocabulaire V dans chaque document du corpus d apprentissage. Et sa complexité est O( V X ), où X est la taille du corpus. Pour ne pas trop défavoriser les mots de V qui ne sont pas présents dans le corpus, nous utiliserons le lissage de Laplace : θ v = l l w V N xi v + 1 N xi w + V Un mot absent du corpus aura alors une probabilité non nulle : 1, n Nw xi + V et ne sera plus considéré comme négligeable. w V Phase de test Une fois l apprentissage effectué, et les estimateurs θ v de P(v C 1 ), calculés pour tout v V, vient la phase de test. Considérons un document D, que l on souhaite tester, représenté par une séquence x = (x 1,..., x n ). Alors on estime la probabilité que D soit un document valide par le score : P(C 1 x) = P(C 1) P(x) P(x C 1) = P(C 1) n P(x) P(x i C 1 ) γ C1 n γ xi n θ xi Où γ C1 et γ xi, sont des estimateurs respectifs des fréquences d apparition de C 1 et de x i dans le corpus d apprentissage (autrement dit, le nombre relatifs de documents valides, et la fréquence d apparition du mot x i dans tout le corpus). Autrement dit, la probabilité qu un document soit valide s exprime en fonction des fréquences de ses mots, dans le corpus d apprentissage de documents valides. 15

16 4 Adaptations du modèle Naïve Bayes aux documents structurés 4.1 Utilisation de la sémantique des balises HTML Dans le cas particulier des pages HTML, une première solution consiste à utiliser une estimation de l importance relative de chaque partie du document. En effet, on peut supposer que la présence d un mot à l intérieur d une balise title ou bold importe plus que sa présence à l intérieur d une balise small, par exemple. Il s agit alors de trouver, par l expérience, des coefficients performants pour déterminer l intérêt relatif des différentes balises. Cette méthode utilise donc l algorithme Naïve Bayes, pour chacune des balises considérées, puis combine ces résultats pour rendre un score. Considérons, par exemple que (t 1,..., t n ) est l ensemble des balise considérées. On va coder un document D par n séquences, x i, i {1..n}, (resp. n vecteurs), qui sont respectivement la concaténation de toutes les séquences (resp. la conjonction ou la moyenne de tous les vecteurs) codant des textes encapsulés dans la balise t i. Après avoir effectué les n phases d apprentissage, correspondant aux différentes balises, on lance alors n processus de test sur chacune des séquences. Le résultat est le produits de n scores (s x1,..., s xn ), auxquels on associe les coefficients (δ 1,.., δ n ) pour obtenir un score final : n s D = δ i s xi Cette méthode présente des résultats relativement bons selon la distribution (δ i ) choisie, mais, en plus d être expérimentale (à cause de ce choix justement), elle présente un grave inconvénient : elle suppose une connaissance à priori du langage utilisé, et n est pas évolutive (le nombre de balises considérées ne peut pas évoluer). Malgré une très forte présence du format HTML sur le Web, on lui préférera donc une méthode plus générale, plus évolutive, et moins contraignante. 4.2 Représentation d un document structuré Afin de pouvoir utiliser le formalisme des réseaux bayesiens, nous utiliserons une représentation simplifiée des documents structurés par des arbres. Cette sous-partie des graphes orientés acycliques correspond à des documents de type XML, et n est pas suffisante pour représenter des documents 16

17 plus complexes comme des sites Web, où des cycles peuvent exister. Cependant, cette représentation permet d obtenir des résultats acceptables, tout en minimisant la complexité. Chaque noeud de l arbre correspond à une entité structurelle du document (un titre ou un paragraphe, par exemple). Et chaque arc de l arbre représente une relation de dépendance entre deux entités. Relation déduite de la structure hiérarchique du document (par exemple, le père du noeud représentant une section sera le noeud représentant la page contenant cette section). Chaque noeud de l arbre contient deux informations : Une étiquette donnant la nature de l entité structurelle considérée Un contenu (on ne considérera que des contenus textuels ici) Document, texte 1 Section 1, texte 2 Section 2, texte 3 Section 3, texte 4 Paragraphe 1, texte 5 Paragraphe 2, texte 6 Fig. 4 Un exemple de représentation d un document structuré. 4.3 Modèles locaux de type Naïve Bayes Nous considérerons qu un document est constitué d un couple D = (s, t) où s est la structure du document et t son contenu. On notera s = (s 1,.., s n ) et t = (t 1,.., t n ), où n est la taille de l arbre représentant D, et, pour tout i {1..n}, (s i, t i ) est l information du i eme noeud. Le score d un document D = (s, t) est alors le produit d un score de 17

18 structure et d un score de contenu : P(D C 1 ) = P(s, t C 1 ) = P(s C 1 ) P(t s, C 1 ) On considère ainsi que la structure d un document influe sur son contenu, et non le contraire (l auteur d un document créé d abord sa structure avant de le remplir.) Probabilité structurelle On utilise ici un modèle de structure qui se calque sur la structure logique du document et ne prend en compte que la relation parent-enfant entre les différentes parties du document. Ceci afin de restreindre le nombre de paramètres du système à estimer, afin de minimiser la complexité. On estime donc que chaque noeud de l arbre est indépendant de tous les autres, sauf son père. On obtient alors la formule qui exprime le score d une structure s = (s 1,.., s n ) en fonction des scores des s i : n P(s C 1 ) = P(s 1,.., s n C 1 ) = P(s i sp(i), C 1 ) Où sp associe à un entier i, l étiquette (la structure) du père du i eme noeud Probabilité de contenu Afin de simplifier encore le système, nous allons considérer que les contenus des noeuds sont indépendants les uns des autres, et qu ils ne dépendent que de l étiquette du noeud qui les contient (et non des autres). On obtient alors : P(t s, C 1 ) = P(t 1,.., t n s, C 1 ) = n P(t i s, C 1 ) = = n n P(t i s 1,.., s n, C 1 ) P(t i s i, C 1 ) On suppose donc que lors de la création d un document, l auteur utilise des style et vocabulaire spéciaux, pour chaque balise. Cette hypothèse nous 18

19 permet de différencier les différentes parties en leur associant des estimateurs qui leur sont spécifiques et dépendent uniquement de leur structure. Nous verrons que cela permet un apprentissage dynamique beaucoup moins coûteux Apprentissage Nous allons utiliser à nouveau, la méthode du maximum de vraisemblance. Soit un corpus d apprentissage. La vraisemblance du modèle s écrit : l θ = D = D = = D ( D = l structure θ P(D C 1 ) P(s C 1 ) P(t s, C 1 ) D P(s C 1 ) P(t i s i, C 1 ) P(s C 1 ) ) l contenu θ D D Apprentissage des paramètres de contenu : l contenu θ = D D = e Λ = e Λ P(t i s i, C 1 ) D D /s i =e lθ contenu (e) P(t i s i, C 1 ) P(t i s i, C 1 ) Où Λ désigne l ensemble des étiquettes. La maximisation de lθ contenu s effectue donc en maximisant chacune des vraisemblances des modèles locaux (à structure déterminée). On effectue donc (de même qu en 4.1), un apprentissage pour les noeuds étiquetés titre, un autre pour ceux étiquetés paragraphe, etc... Ainsi, chaque modèle est appris indépendamment sur les données qui le concernent, ce qui présente deux avantages considérables, d un point de vue dynamique : 19

20 Si un nouveau document est utilisé en apprentissage, il ne faut mettre à jour que les modèles correspondant aux différents noeuds de ce document Si un document d apprentissage possède un noeud muni d une étiquette jusqu alors inconnue, il suffit de créer un nouveau modèle local pour les noeuds de ce type, sans avoir à réapprendre tout le modèle. Apprentissage des paramètres de structure : Les paramètres de structure sont les différentes probabilités que, dans un document valide, un noeud possède un fils muni d une certaine étiquette ( P(s i sp(i), C 1 ) ). Notons θ s n,m, l estimateur (du maximum de vraisemblance) de la probabilité P(s i = n sp(i) = m, C 1 ). Alors : l structure θ = D D D θs s i,sp(i) D = P(s i sp(i), C 1 ) De même qu en 3.3.1, en maximisant la log-vraisemblance à l aide des multiplicateurs de Lagrange, on obtient : (n, m) Λ 2, θ s n,m = Nn,m D D Nn D,m D n Λ Où, ici, pour tout document D du corpus d entraînement, N D n,m est le nombre d occurrences de liaisons de type (n,.) (m,.) dans D. Et, de même que précédemment, on utilisera un lissage, en pratique, afin de ne pas trop défavoriser les types de liaisons absents du corpus : (n, m) Λ 2, θ s n,m = D D n Λ N D n,m + 1 N D n,m + Λ L estimation des paramètres de structure est donc simple et rapide (elle ne nécessite encore qu un unique parcours du corpus d apprentissage). Par contre, contrairement à l apprentissage des paramètres de contenu, elle ne pourra être utilisée de façon dynamique efficacement, 20

21 car l apport d un nouveau document ou d une nouvelle étiquette oblige à recalculer l ensemble des paramètres. Ce modèle est cependant satisfaisant, car on peut supposer qu il est plus facile de produire un corpus satisfaisant pour la structure que pour le contenu Test Grâce à nos hypothèses sur les hypothèses structurelles et de contenu, on obtient alors la probabilité finale pour un document D = (s, t) : D P(D C 1 ) = P(s C 1 ) P(t i s i, C 1 ) D D = P(s i sp(i), C 1 ) P(t i s i, C 1 ) Et, de la même manière qu en 3.3.2, on estime alors la pertinence du document D par : P(C 1 D) = P(C 1) P(D) P(D C 1) = P(C D D 1) P(D) P(s i sp(i), C 1 ) P(t i s i, C 1 ) γ D D C 1 θs s γ i,sp(i) θ ti (s i ) D Où, i {1.. D }, θ ti (s i ), est l estimateur rendu par un modèle Naïve Bayes local sur le contenu t i, à structure s i connue. 21

22 Score final NB local texte 1 Document, texte 1 Structure Structure NB local texte 2 Section 1, texte 2 Section 2, texte 3 Structure Structure Section 3, texte 4 Paragraphe 1, texte 5 Paragraphe 2, texte 6 NB local texte 5 NB local texte 6 Fig. 5 Fonctionnement de l algorithme. 5 Application à Burfiks et perspectives Pour adapter ce modèle à Burfiks, il faut donc créer un classifier qui construise un réseau bayesien pour chaque document du corpus d entraînement, apprenne les différents paramètres de ces réseaux avec les formules vues en 4.3.3, puis estime la pertinence d une catégorie à l aide du résultat de Modèle de classes utilisé en pratique : Dans le cas particulier de Burfiks, le modéle de ranking multi-classes serait le plus informatif, car il renseigne sur la pertinence relative quant à différentes classes, d un document donné. Néanmoins, il pourrait s avérer un peu trop complexe dans le cadre d une utilisation normale d un navigateur Web. Et on pourrait lui préférer le modèle multiclasses, moins précis, mais plus lisible dans la side-bar d un navigateur. On pourrait alors imaginer afficher, pour chaque lien présent dans la side-bar, soit la classe qui semble la plus pertinente (cas du ranking), soit l ensemble des classes qui semblent pertinentes (cas classique). 22

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2011 Supplément théorique Inférence dans les réseaux bayésiens Rappel théorique Les processus aléatoires La plupart des processus

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques

Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Patrick Dallaire Université Laval Département d informatique et de génie

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium dans le cadre du projet JASMINe Avril 2008 Table des matières 1 Introduction 3 1.1 Rappel sur JASMINe.......................................

Plus en détail

Personnaliser et adapter SPIP Développeur SPIP

Personnaliser et adapter SPIP Développeur SPIP Personnaliser et adapter SPIP Développeur SPIP En Théorie Le fonctionnement de SPIP Qu est ce que SPIP? SPIP (Système de Publication pour l Internet Partagé) est un logiciel libre destiné à la production

Plus en détail

Répresenter l uncertain: Réseaux Bayesiens

Répresenter l uncertain: Réseaux Bayesiens Répresenter l uncertain: Réseaux Bayesiens M1 Miage 2015 2016 Intelligence Artificielle Stéphane Airiau LAMSADE M1 Miage 2015 2016 Intelligence Artificielle (Stéphane Airiau) Répresenter l uncertain: Réseaux

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens Année académique 2009 2010 1 Introduction Ce projet est le premier d une série de quatre projets qui ont

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini.

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. 1 Introduction Des actions comme lancer un dé, tirer une carte d un jeu, observer la durée de vie d une ampoule électrique, etc...sont

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Principe des tests statistiques

Principe des tests statistiques Principe des tests statistiques Jean Vaillant Un test de signification est une procédure permettant de choisir parmi deux hypothèses celles la plus probable au vu des observations effectuées à partir d

Plus en détail

Chapitre I. Probabilités. Bcpst 1 2 novembre 2015. I Exemples d expériences aléatoires

Chapitre I. Probabilités. Bcpst 1 2 novembre 2015. I Exemples d expériences aléatoires Chapitre I Probabilités Bcpst 1 2 novembre 2015 I Exemples d expériences aléatoires Une expérience aléatoire est une expérience dont on ne peut pas prédire le résultat avant de l avoir réalisée... ce qui

Plus en détail

ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges. c Copyleft 2006, ELSE Team

ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges. c Copyleft 2006, ELSE Team ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges c Copyleft 2006, ELSE Team 18 avril 2006 Table des matières 1 Introduction 2 2 Présentation du projet 3 2.1 Une distribution Évolulable..................

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

Master 1 Informatique Éléments de statistique inférentielle

Master 1 Informatique Éléments de statistique inférentielle Master 1 Informatique Éléments de statistique inférentielle Faicel Chamroukhi Maître de Conférences UTLN, LSIS UMR CNRS 7296 email: chamroukhi@univ-tln.fr web: chamroukhi.univ-tln.fr 2014/2015 Faicel Chamroukhi

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

Algorithmique et Programmation Projets 2012/2013

Algorithmique et Programmation Projets 2012/2013 3 Dames 3. Objectif Il s agit d écrire un programme jouant aux Dames selon les règles. Le programme doit être le meilleur possible. Vous utiliserez pour cela l algorithme α β de recherche du meilleur coup

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

Espace de probabilité, indépendance et probabilité conditionnelle

Espace de probabilité, indépendance et probabilité conditionnelle Chapter 2 Espace de probabilité, indépendance et probabilité conditionnelle Sommaire 2.1 Tribu et événements........................................... 15 2.2 Probabilité................................................

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Chapitre 2 : Conception de base de données relationnelle

Chapitre 2 : Conception de base de données relationnelle Chapitre 2 : Conception de base de données relationnelle Le modèle entité-association 1. Les concepts de base 1.1 Introduction Avant que la base de données ne prenne une forme utilisable par le SGBD il

Plus en détail

Sites web propriétaires

Sites web propriétaires Ce document est disponible à : C:\Users\pc_samba\Documents\Doc sites prop.docx Sommaire 1 Introduction... 3 2 Création du mini-site... 4 2.1 Autorisation de création... 4 2.2 Création de votre site Web...

Plus en détail

MATHÉMATIQUES ET SCIENCES HUMAINES

MATHÉMATIQUES ET SCIENCES HUMAINES MATHÉMATIQUES ET SCIENCES HUMAINES B. MARCHADIER Dépendance et indépendance de deux aléas numériques images Mathématiques et sciences humaines, tome 25 (1969), p. 2534.

Plus en détail

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million XML, PMML, SOAP Rapport EPITA SCIA Promo 2004 16 janvier 2003 Julien Lemoine Alexandre Thibault Nicolas Wiest-Million i TABLE DES MATIÈRES Table des matières 1 XML 1 1.1 Présentation de XML.................................

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

Gé nié Logiciél Livré Blanc

Gé nié Logiciél Livré Blanc Gé nié Logiciél Livré Blanc Version 0.2 26 Octobre 2011 Xavier Blanc Xavier.Blanc@labri.fr Partie I : Les Bases Sans donner des définitions trop rigoureuses, il faut bien commencer ce livre par énoncer

Plus en détail

Programmation, partiel: sémantique d un tableur

Programmation, partiel: sémantique d un tableur Programmation, partiel: sémantique d un tableur Recommandations. Votre copie (papier ou électronique) devra être lisible et bien structurée. La note tiendra compte autant du fond que de la présentation.

Plus en détail

JXDVDTek - UNE DVDTHEQUE EN JAVA ET XML

JXDVDTek - UNE DVDTHEQUE EN JAVA ET XML BALLOTE Nadia FRIULI Valerio GILARDI Mathieu IUT de Nice Licence Professionnelle des Métiers de l Informatique RAPPORT DU PROJET : JXDVDTek - UNE DVDTHEQUE EN JAVA ET XML Encadré par : M. CRESCENZO Pierre

Plus en détail

Points fixes de fonctions à domaine fini

Points fixes de fonctions à domaine fini ÉCOLE POLYTECHNIQUE ÉCOLE NORMALE SUPÉRIEURE DE CACHAN ÉCOLE SUPÉRIEURE DE PHYSIQUE ET DE CHIMIE INDUSTRIELLES CONCOURS D ADMISSION 2013 FILIÈRE MP HORS SPÉCIALITÉ INFO FILIÈRE PC COMPOSITION D INFORMATIQUE

Plus en détail

Philosophie des extensions WordPress

Philosophie des extensions WordPress 8 Philosophie des extensions WordPress Le concept L une des forces de WordPress dans la jungle CMS, c est la simplicité de création d extensions. Il y a plusieurs raisons à cela. Des raisons techniques

Plus en détail

Algorithmes de tri. 1 Introduction

Algorithmes de tri. 1 Introduction Algorithmes de tri L objectif de ce document est de présenter plusieurs algorithmes classiques de tri. On commence par présenter chaque méthode de manière intuitive, puis on détaille un exemple d exécution

Plus en détail

Chapitre 8 : Probabilités-Indépendance

Chapitre 8 : Probabilités-Indépendance Cours de mathématiques Terminale S Chapitre 8 : Probabilités-Indépendance Année scolaire 008-009 mise à jour 6 janvier 009 Fig. Andreï Kolmogorov Un précurseur de la formalisation de la théorie des probabilités

Plus en détail

IA54 Compte-rendu «STATIONNEMENT AUTOMATIQUE DE VEHICULE»

IA54 Compte-rendu «STATIONNEMENT AUTOMATIQUE DE VEHICULE» IA54 Compte-rendu «STATIONNEMENT AUTOMATIQUE DE VEHICULE» Henri Payno - Cyril Bailly 1/12/2011 SOMMAIRE 1. Introduction... 3 2. Contraintes... 3 3. Architecture globale... 4 4. Interface... 5 A. Scène

Plus en détail

Plateforme AnaXagora. Guide d utilisation

Plateforme AnaXagora. Guide d utilisation Table des matières 1. PRESENTATION DE LA PLATE-FORME D APPRENTISSAGE ANAXAGORA... 3 2. ARCHITECTURE FONCTIONNELLE... 4 3. L APPRENTISSAGE... 5 3.1. L ESPACE DE TRAVAIL... 5 3.1.1. Le calendrier... 5 4.

Plus en détail

Exercices corrigés de probabilités et statistique

Exercices corrigés de probabilités et statistique Exercices corrigés de probabilités et statistique Université Paris 1 Panthéon-Sorbonne Cours de deuxième année de licence de sciences économiques Fabrice Rossi Cette œuvre est mise à disposition selon

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

UV Théorie de l Information. Codes à longueur variable

UV Théorie de l Information. Codes à longueur variable Cours n 5 : UV Théorie de l Information Compression de l information : Codage de source sans distorsion Ex 1 : Code de Shannon Fano Ex 2 : Code de Huffman Ex 3 : Codage par plage Ex 4 : Codage de Lempel

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

1.1 Définitions... 2 1.2 Opérations élémentaires... 2 1.3 Systèmes échelonnés et triangulaires... 3

1.1 Définitions... 2 1.2 Opérations élémentaires... 2 1.3 Systèmes échelonnés et triangulaires... 3 Chapitre 5 Systèmes linéaires 1 Généralités sur les systèmes linéaires 2 11 Définitions 2 12 Opérations élémentaires 2 13 Systèmes échelonnés et triangulaires 3 2 Résolution des systèmes linéaires 3 21

Plus en détail

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Modèles à Événements Discrets. Réseaux de Petri Stochastiques Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés

Plus en détail

Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée

Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée Philippe Gagnepain Université Paris 1 Ecole d Economie de Paris Centre d économie de la Sorbonne-UG 4-Bureau 405 philippe.gagnepain@univ-paris1.fr

Plus en détail

RECHERCHE OPERATIONNELLE

RECHERCHE OPERATIONNELLE RECHERCHE OPERATIONNELLE PROBLEME DE L ARBRE RECOUVRANT MINIMAL I - INTRODUCTION (1) Définitions (2) Propriétés, Conditions d existence II ALGORITHMES (1) Algorithme de KRUSKAL (2) Algorithme de PRIM I

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Morgan Beau Nicolas Courazier

Morgan Beau Nicolas Courazier EPSI - 2010 Rapport projet IA Conception et mise en œuvre d un générateur de systèmes experts Morgan Beau Sommaire Cahier des charges 3 Présentation générale 4 Analyse et modélisation 6 Le moteur d inférence

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Du monde réel à SQL la modélisation des données

Du monde réel à SQL la modélisation des données ANF «Comment concevoir une base de données en archéométrie» Réseau CAI-RN & rbdd - 05/06/2014 au 06/06/2014 Du monde réel à SQL la modélisation des données Marie-Claude Quidoz (CEFE/CNRS) Ce document est

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales Transparents Philippe Lambert http : //www.statsoc.ulg.ac.be/quali.html Institut des Sciences Humaines et Sociales

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

SPLEX Statistiques pour la classification et fouille de données en

SPLEX Statistiques pour la classification et fouille de données en SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 pierre-henri.wuillemin@lip6.fr

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Analyse de la variance à deux facteurs

Analyse de la variance à deux facteurs 1 1 IRMA, Université Louis Pasteur Strasbourg, France Master 1 Psychologie du développement 06-10-2008 Contexte Nous nous proposons d analyser l influence du temps et de trois espèces ligneuses d arbre

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Introduction à Windows Workflow Foundation

Introduction à Windows Workflow Foundation Introduction à Windows Workflow Foundation Version 1.1 Auteur : Mathieu HOLLEBECQ Co-auteur : James RAVAILLE http://blogs.dotnet-france.com/jamesr 2 Introduction à Windows Workflow Foundation [07/01/2009]

Plus en détail

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Master Modélisation et Simulation / ENSTA TD 1 2012-2013 Les méthodes dites de Monte-Carlo consistent en des simulations expérimentales de problèmes

Plus en détail

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT Animé par A.COMLAN ADCOSOFT 14/02/2014-15H 1 Programme du webséminaire : Introduction Partie I Optimisation des Balises TITLE et META Partie II Optimisation du

Plus en détail

LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION

LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION Dans les leçons précédentes, nous avons modélisé des problèmes en utilisant des graphes. Nous abordons dans cette leçon un autre type de modélisation.

Plus en détail

Introduction MOSS 2007

Introduction MOSS 2007 Introduction MOSS 2007 Z 2 Chapitre 01 Introduction à MOSS 2007 v. 1.0 Sommaire 1 SharePoint : Découverte... 3 1.1 Introduction... 3 1.2 Ce que vous gagnez à utiliser SharePoint... 3 1.3 Dans quel cas

Plus en détail

Collecte de données. Laurent Dorey

Collecte de données. Laurent Dorey Laurent Dorey Mercredi 16 Décembre 2014 Programme : Recensement & Echantillonnage Étapes pour sélectionner un échantillon La population observée La base de sondage Les unités d enquête La taille de l échantillon

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Le service pack 6 (SP6) est le dernier disponible pour visual studio 6. Ce dernier devrait être maintenu par Microsoft jusqu en 2008.

Le service pack 6 (SP6) est le dernier disponible pour visual studio 6. Ce dernier devrait être maintenu par Microsoft jusqu en 2008. 1 CONCEPT DE BASE 1.1 Visual Basic 6 1.1.1 Pour quoi faire? VB est un langage de type RAD : «Rapid Application Development». Il permet de créer des applications rapidement grâce à une conception simple

Plus en détail

Le système SMART 1. Indexation

Le système SMART 1. Indexation Le système SMART Le système SMART (System for the Mechanical Analysis and Retrieval of Text) (aussi appelé Salton's Magic Automatic Retrieval Technique:-) est un système de RI expérimental. Il utilise

Plus en détail

ITS WebManager 3.01. Mode d emploi pour l utilisateur du CMS

ITS WebManager 3.01. Mode d emploi pour l utilisateur du CMS ITS WebManager 3.01 Mode d emploi pour l utilisateur du CMS ITS Informatique Route de la Bourgeoisie 17 1963 Vétroz Tél. +41(0)27/346 55 92 info@its-informatique.ch www.its-informatique.ch 1. Introduction

Plus en détail

Moteur de recherche le plus connu, Google offre nombre. 1. Maîtriser la recherche d informations

Moteur de recherche le plus connu, Google offre nombre. 1. Maîtriser la recherche d informations 1. Maîtriser la recherche d informations Moteur de recherche le plus connu, Google offre nombre d outils qui vous permettront de trouver l information que vous recherchez, en quelques clics, et ce, qu

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

Quand et pourquoi utiliser une base de données NoSQL?

Quand et pourquoi utiliser une base de données NoSQL? Quand et pourquoi utiliser une base de données NoSQL? Introduction Les bases de données NoSQL sont devenues un sujet très à la mode dans le milieu du développement web. Il n est pas rare de tomber sur

Plus en détail

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Vincent Guigue UPMC - LIP6 Vincent Guigue Preprocessing & JAVA 1/24 Traitements pour la classification de textes

Plus en détail

Présentation du langage et premières fonctions

Présentation du langage et premières fonctions 1 Présentation de l interface logicielle Si les langages de haut niveau sont nombreux, nous allons travaillé cette année avec le langage Python, un langage de programmation très en vue sur internet en

Plus en détail

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier. PRÉSENTATION PRODUIT Plus qu un logiciel, la méthode plus efficace de réconcilier. Automatiser les réconciliations permet d optimiser l utilisation des ressources et de générer plus de rentabilité dans

Plus en détail

Arbres de décisions et évaluation d un classifieur

Arbres de décisions et évaluation d un classifieur Programmation orientée objet L2 Info 211A Arbres de décisions et évaluation d un classifieur M1 option RDF janvier 2011 Ce TP comporte trois parties dont l objectif est i) d utiliser un arbre de décision

Plus en détail

Les templates. Chapitre 7. 1. Principes et généralités

Les templates. Chapitre 7. 1. Principes et généralités 351 Chapitre 7 Les templates 1. Principes et généralités Les templates Nous utilisons le mot anglais de template, car il est communément utilisé, répandu, et compris dans ce contexte par les professionnels.

Plus en détail

Mathématiques financières

Mathématiques financières Mathématiques financières Arnaud Triay Table des matières 1 Introduction Position du problème.1 Pricing des options........................................... Formalisme..............................................

Plus en détail

Mini-Projet de Prolog : Solver de Sudoku

Mini-Projet de Prolog : Solver de Sudoku UNIVERSITE François Rabelais TOURS Polytech Tours-Département Informatique 64, Avenue Jean Portalis 37200 TOURS Mini-Projet de Prolog : Solver de Sudoku Encadré par : Présenté par : M. J-L Bouquard Florent

Plus en détail

Cours 1: lois discrétes classiques en probabilités

Cours 1: lois discrétes classiques en probabilités Cours 1: lois discrétes classiques en probabilités Laboratoire de Mathématiques de Toulouse Université Paul Sabatier-IUT GEA Ponsan Module: Stat inférentielles Définition Quelques exemples loi d une v.a

Plus en détail

Concours 2015 Épreuve d Informatique Filière : MP Durée de l épreuve : 3 heures. L utilisation d une calculatrice est autorisée.

Concours 2015 Épreuve d Informatique Filière : MP Durée de l épreuve : 3 heures. L utilisation d une calculatrice est autorisée. A 2015 INFO. MP École des Ponts ParisTech, SUPAERO (ISAE), ENSTA ParisTech, Télécom ParisTech, Mines ParisTech, Mines de Saint-étienne, Mines Nancy, Télécom Bretagne, ENSAE ParisTech (filière MP), École

Plus en détail

140. Modélisation des données Historisation

140. Modélisation des données Historisation Modélisation de logiciels de gestion 140. Modélisation des données Historisation 1 Préambule Dans les chapitres précédents, nous avons appris à concevoir des modèles de données relativement élaborés en

Plus en détail

Evaluation d un test diagnostique - Concordance

Evaluation d un test diagnostique - Concordance Evaluation d un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr Plan 1 Introduction 2 Evaluation

Plus en détail

UNIVERSITE DE LORRAINE CALCIUM

UNIVERSITE DE LORRAINE CALCIUM UNIVERSITE DE LORRAINE CALCIUM Outil pour la gestion des dossiers médicaux des étudiants dans les services universitaires de médecine préventive Table des matières CALCIUM... 0 I. L INFORMATION GÉRÉE PAR

Plus en détail