Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Dimension: px
Commencer à balayer dès la page:

Download "Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien"

Transcription

1 Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin

2 Table des matières 1 Présentation et objectifs Problématique Présentation de Burfiks Introduction au formalisme Bayesien Historique Généralités Probabilités conditionnelles La formule de Bayes Intuition Les Réseaux Bayesiens Le modèle Naïve Bayes pour les documents plats Encodage d un document Représentation Vectorielle Représentation Séquentielle Classes Classification bi-classes Classification multi-classes Ranking et fonction de score Système de classes utilisé pour modéliser le problème Le modèle Naïve Bayes Phase d apprentissage Phase de test Adaptations du modèle Naïve Bayes aux documents structurés Utilisation de la sémantique des balises HTML Représentation d un document structuré Modèles locaux de type Naïve Bayes Probabilité structurelle Probabilité de contenu Apprentissage Test Application à Burfiks et perspectives 22 6 Bibliographie 24 2

3 1 Présentation et objectifs 1.1 Problématique Avec l essor exponentiel de la quantité d information disponible sur le Web, la qualité des résultats fournis par les moteurs de recherche, tel Google se dégrade inexorablement. La première idée de ce travail était d améliorer les résultats de ces moteurs de recherche, en leur appliquant un filtre statistique appelé filtre Bayesien, qui fut popularisé par Paul Graham lorsqu il l appliqua à la lutte anti-spam. Puis il est apparu que le filtrage de l ensemble des résultats d une requête Google est trop contraignant lors d une recherche sur Internet. C est alors qu est venue l idée de Surf Bayesien. Un filtre Bayesien, non pas uniquement sur les résultats d une requête Google, mais sur l ensemble des liens présents sur chacune des pages visitées. L objectif étant d obtenir un outil qui permette de guider l utilisateur, en lui donnant la pertinence de chacun des liens présents sur la page qu il visite. Il nous faut donc construire un outil capable de catégoriser, en temps réel, (selon différents profils déterminés à l avance (ou non comme nous le verrons)), les différents sites et pages présents sur le Web. L algorithme (les statisticiens parleront de méthode), le plus couramment utilisé dans le filtrage Bayesien, est la méthode Naïve Bayes. Cette méthode présente tout de même deux inconvénients majeurs en ce qui concerne notre objectif de classification dynamique de pages Web : Elle ne considère que des documents plats, i.e elle ne s intéresse qu au contenu d un document et non à sa strucure. Ce qui est fort dommageable, surtout dans le cas de langages semi-structurés tels XML. En effet, la structure d un document peut amener des informations supplémentaires sous trois formes : 1. La structure elle-même peut être une information (la structure d une page contenant une dépêche de presse est bien différente de celle d une page contenant un forum de discussion, par exemple) 2. Un mot contenu dans la page peut avoir une importance différente selon son emplacement (un mot contenu dans le titre ou encore écrit en gras, par exemple, sera considéré particulièrement). 3. Les relations d inclusion, ou hyper-liens, reliant différentes pages peuvent aussi apporter une information de dépendance entre les pages (par exemple, un site contenant une page intéressante, peut être considéré comme intéressant). 3

4 La méthode Naïve Bayes est figée : 1. D une part, elle est séparée en deux parties : une phase d apprentissage permettant d estimer les différents paramètres du problème, puis une phase de test, qui, elle seule estime la pertinence d un document. Elle nécessite donc un corpus d apprentissage, et ne peut plus améliorer ses résultats, une fois cet apprentissage terminé. Or, dans le cas d une classification d un ensemble gigantesque de documents, tel le Web, un corpus d apprentissage efficace devient très volumineux. C est pourquoi un apprentissage dynamique, couplé à la phase de test, serait plus judicieux, dans ce cas. 2. D autre part, elle fixe le nombre de classes (catégories) différentes une fois pour toutes, lors de la phase d apprentissage. Or, en pratique, un utilisateur peut avoir envie de créer un nouveau profil de recherche, sans perdre toute l information de l apprentissage déjà effectué. Il serait donc judicieux de prévoir un fonctionnement dynamique également, en ce qui concerne le nombre de classes. Nous allons donc explorer, et tenter d adapter, les différentes méthodes statistiques, notamment proposées par Luc Denoyer et al., qui pourraient permettre de prendre, le mieux possible, en compte la structure d un document, lors de sa classification. Et nous nous intéresserons à la capacité dynamique de ces méthodes, afin de produire un outil efficace et polyvalent. 1.2 Présentation de Burfiks Ce travail se base sur (et se veut la continuité de) celui d Alexandre Bertails, qu il a réalisé l année dernière sous la direction de M. di Cosmo (voir http : //alexandre.bertails.f ree.f r/maitrise/t ER Rapport.tar.gz). Burfiks est un module s adjoignant au navigateur Mozilla, qui se présente sous la forme d une side-bar, affichant, en temps réel, la liste des liens présents dans la page active. L objectif de ce travail est de comprendre comment adapter les techniques statistiques à notre disposition, afin d obtenir un outil qui permette de noter les différents liens présents dans la side-bar. 4

5 Fig. 1 Burfiks en cours de développement. 5

6 L architecture de Burfiks est composée de quatre modules : Polipo, un proxy Web, développé par Juliusz Chroboczek (voir http ://www.pps.jussieu.fr/ jch/software/polipo/ ). Burfiks.xul définit l interface utilisateur dans Mozilla. Burfiks Server, centre névralgique du système, qui se charge de récolter et distribuer les différentes informations entre les modules. Il répond à une requête de Burfiks.xul, en pré-chargeant les pages filles (i.e destinations d un hyper-lien) de la page active, via Polipo, puis en interrogeant Burfiks Classifier, quant à leurs pertinences respectives. Burfiks Classifier est l objet de ce travail. Son rôle est de classer un ensemble de pages web, fourni par Burfiks Server, et de restituer le degré de pertinence de chaque page pour la catégorie retenue.par manque de temps, il ne sera pas opérationnel à la date de soutenance de ce TRE, mais nous allons présenter différents algorithmes et méthodes statistiques qui peuvent être utilisés pour son implémentation. World Wide Web Proxy Polipo Burfiks Classifier Burfiks Server Burfiks.xul Mozilla Fig. 2 Architecture de Burfiks 6

7 2 Introduction au formalisme Bayesien 2.1 Historique Thomas Bayes ( ), mathématicien britannique, passa de nombreuses années à tenter de déterminer ce que l on appelle actuellement la distribution d une loi binomiale. De ses travaux découlèrent, à titre posthume en 1763, la formule de Bayes dont les applications statistiques sont nombreuses aujourd hui. Elle est notamment utilisée, depuis les années 90, dans le domaine de la Recherche d Information (de documents plats), et dans celui des filtres anti-spam. Nous souhaiterions maintenant l utiliser pour la classification dynamique de documents structurés. 2.2 Généralités Probabilités conditionnelles Contrairement aux probabilités classiques, les probabilités conditionnelles permettent de faire apparaître les relations de cause à effet qui lient deux événements. Si A et B sont deux événements (que l on représente, en statistique, par deux variables aléatoires), la probabilité (à postériori) de A sachant B est la probabilité que l événement A se produise, sachant que l événement B se produit également. D un point de vue mathématique, cela donne : P(A B) = P(A B) P(B) i.e la probabilité de A sachant B est égale à la probabilité de (A et B), relativisée par celle de B. Deux événements sont indépendants lorsque l occurrence de l un n a pas d influence sur l occurrence de l autre. Dans ce cas, alors P(A B) = P(A) P(B) P(A B) = P(A) P(B) P(B) = P(A) Autrement dit, si A et B sont indépendants, la probabilité de A sachant B est égale à la probabilité de A. 7

8 2.2.2 La formule de Bayes Les probabilités de A sachant B, et de B sachant A s écrivant respectivement : P(A B) P(A B) = P(B) P(B A) = On obtient aisément la formule de Bayes : Intuition P(A B) P(A) P(A B) = P(A) P(B A) P(B) La formule de Bayes exprime donc le fait que la probabilité de A sachant B peut se calculer en fonction de celle de A, celle de B, et enfin celle de B sachant A. D un point de vue pratique, si nous prenons pour exemple : A = le document étudié contient le mot toto et B = le document étudié appartient à la catégorie Sciences Alors on peut estimer : la probabilité du fait que le document étudié appartient à la catégorie Sciences sachant qu il contient le mot toto, en fonction de : la probabilité du fait que le document étudié contient le mot toto sachant qu il appartient à la catégorie Sciences. (Sans oublier de relativiser par les probabilités qu un document quelconque contienne le mot toto, et qu il appartienne à la catégorie Sciences.) Autrement dit, l information à priori (ici, une estimation du pourcentage de pages appartenant à la catégorie Sciences, qui contiennent le mot toto) permet de calculer l information à postériori (ici, la probabilité qu une page qui contient le mot toto, appartienne à la catégorie Sciences). 2.3 Les Réseaux Bayesiens Les réseaux Bayesiens sont un formalisme permettant de représenter et manipuler les dépendances conditionnelles entre différents événements. Ils sont largement utilisés pour représenter les réseaux de neurones, ou encore pour construire des outils d aide au diagnostic médical. 8

9 Soit A = {A 1,..., A n }, un ensemble de n événements. Un réseau Bayesien sur cet ensemble, est un graphe orienté acyclique (DAG) G = (A, U), où U est un ensemble d arcs reliant les différents sommets A i, et exprimant leurs dépendances. Il a plu cette nuit Mon arroseur est resté allumé Le jardin de mon voisin est mouillé Mon jardin est mouillé Fig. 3 Un exemple de réseau Bayesien Ici, on peut donc exprimer la probabilité que mon jardin soit mouillé sachant qu il a plu cette nuit, ou sachant que mon arroseur automatique est resté allumé (ou les deux). Et l on suppose, par la structure du graphe, que le fait que mon arroseur automatique soit resté allumé, n influe pas sur le fait que jardin de mon voisin soit mouillé (on suppose que la clôture est assez haute...). Une fois que ces probabilités sont connues (ou estimées), on obtient un graphe étiqueté modélisant la table de dépendance conditionnelle des événements. 3 Le modèle Naïve Bayes pour les documents plats 3.1 Encodage d un document Intéressons nous, tout d abord, aux façons de coder un document plat. Soit V = V 1...V V, (le vocabulaire), l ensemble des mots que nous considérons 9

10 (nous passons sur la phase de pré-traitement qui consiste à retirer du vocabulaire les mots trop courants (comme les mots de liaison, par exemple), à regrouper les mots de sens très proche (comme chat et chaton, par exemple), etc...) Représentation Vectorielle Encore appelée représentation en sac de mots, cette représentation ne prend pas en compte l ordre des mots, mais seulement leur présence dans le document. 1. Représentation vectorielle classique Vecteur Binaire : Un document D est représenté par un vecteur binaire v = v 1...v V de taille V. Pour tout i {1... V }, v i = { 0 s il n y a pas d occurrence de Vi dans D 1 sinon Ce codage, dit par mots-clés, est très pauvre car il ne prend en compte que la présence d un mot et non le nombre de ses occurences présentes. Néanmoins, il est encore fréquemment utilisé car sa simplicité est un atout majeur pour des systèmes nécessitant des temps de calcul faibles. Vecteur de fréquence : Cette fois-ci, on représente D par un vecteur v = v 1...v V, dont les composantes sont des entiers naturels. On tient compte ainsi du nombre d occurrences de chaque mot dans D. Pour tout i {1... V }, v i = le nombre d occurences de V i dans D. Cette méthode attribue des vecteurs de grande norme aux longs documents. Ceci peut être un avantage, dans le cadre de certaines recherches ciblées, mais cela peut aussi être un inconvénient et désavantager les grands documents. Il suffit alors de considérer le vecteur normalisé : V = V V. Ainsi, les documents ne sont plus discriminés par leurs tailles. 2. Représentation vectorielle avancée 10

11 Vecteur TF-IDF : Cette représentation tente d être plus informative en ce qui concerne l ordre et la fréquence des termes. Elle repose sur la loi de Zipf, censée modéliser le rapport entre importance et fréquence des mots dans un document. Cette loi peut s énoncer de manière informelle : un mot dans un document, est d autant plus important qu il est fréquent dans le document, et peu fréquent dans le corpus entier Notons que cette représentation, bien que très informative, n est pas utilisable, en pratique, de façon dynamique, car elle nécessiterait de ré-encoder chacun des documents lorsque l ensemble des documents rencontrés s accroît. Néanmoins, en ce qui concerne Burfiks, elle pourrait tout de même s avérer intéressante en version statique, en imaginant d avoir à disposition, une estimation raisonnable des fréquences d apparition des mots sur l ensemble du Web, par exemple. La formule utilisée la plus classique est : N = où tfv D i = df i = i {1... V }, v i = tf D V i log( N df i ) le nombre total de documents du corpus la fréquence du mot V i dans le document D le nombre de mots du corpus contenant V i On note tf pour term frequency et df pour document frequency. Et, tout comme le vecteur de fréquence, le vecteur T F -IDF est habituellement normalisé, pour éliminer les disparités dues aux différences de taille Représentation Séquentielle Cette représentation n est pas un codage au sens propre, puisqu elle consiste à associer à un document, la séquence de ses différents mots, dans l ordre. Cette représentation permet de ne pas perdre d information sur le document étudié. Mais elle nécessite des systèmes plus complexes pour pouvoir traiter ce types d information. Cette conservation de l ordre des mots permet notamment de construire la structure implicite d un document plat, mais nous ne nous intéresserons pas à ce problème dans le présent travail. Cependant, il est aisé de passer d une représentation séquentielle à une représentation vectorielle, alors que le contraire est impossible. C est 11

12 pourquoi nous utiliserons cette représentation séquentielle pour décrire les différents algorithmes, par la suite. 3.2 Classes Intéressons-nous maintenant à la manière de classer les pages Web, selon leur pertinence quant à différentes catégories. Nous désignerons par Γ et, respectivement, l ensemble des classes et l ensemble des documents, considérés. Un outil de classification n est autre qu une fonction de décision φ : Γ {0, 1}, qui rend la pertinence d association d un document de à une classe de Γ Classification bi-classes Ici, Γ = 2, l univers est séparé en deux classes (valide et non-valide). Ce modèle convient à la construction d un filtre, et permet de répondre à la question : Est-ce qu un document D de est valide, ou non?. Ce modèle est notamment utilisé dans les filtres anti-spam, en distinguant deux catégories de mails : désirable et indésirable. Ici, Γ = {C 1 ; C 2 } et Ce qui est équivalent à : φ : Γ {0, 1} (C, D) 1 si D C, et 0 sinon φ : {0, 1} D 1 si D C 1, et 0 sinon Classification multi-classes Ici, Γ > 2, l univers est séparé en différentes catégories, et il faut distinguer le cas classes disjointes du cas classique. Si les classes sont disjointes, la question posée est : A quelle classe, un document D de appartient?, alors que dans le cas classique, elle est : A quelles classes, un document D de appartient?. Le second cas est le plus couramment utilisé dans la recherche, et la classification de documents Ranking et fonction de score Le ranking est une problématique de classification dans laquelle le système ne rend, non plus une réponse booléenne d appartenance à une classe de Γ 12

13 donnée, mais classe les différentes catégories pour un document donné (ou d une manière analogue, classe les documents par ordre de pertinence pour une catégorie donnée). Il est alors nécessaire de définir une fonction de score : Σ : Γ [0; 1] (C, D) la probabilité que D appartienne à C Et l on peut se ramener à la méthode de classification, en définissant (soit à priori, soit par expérimentation), un seuil de tolérance σ ]0; 1[, et en implémentant la fonction de décision de la manière suivante : φ : Γ {0, 1} (C, D) 1 si Σ(C, D) σ, et 0 sinon Système de classes utilisé pour modéliser le problème Notons qu un problème multi-classes à n classes, est équivalent à un système de n problèmes bi-classes. En effet, nous considérons que les différentes classes ont été assez bien délimitées et que la pertinence d un document pour une catégorie n influe pas sur sa pertinence pour une autre catégorie. Les différentes classes sont donc considérées indépendantes. Et nous pouvons séparer les calculs sur ces différentes classes. Nous ne nous intéresserons donc qu à des modèles bi-classes par la suite. De plus, il est aisé de passer d un modèle de ranking à un modèle de classification classique, à l aide d un seuil de tolérance, comme nous l avons vu précédemment. Nous nous intéresserons donc à ce modèle par la suite, quitte à perdre de l information ultérieurement en revenant à une classification binaire. 3.3 Le modèle Naïve Bayes Considérons un document D, représenté par une séquence x = (x 1,..., x n ), où n est le nombre de mots de D. Et plaçons nous dans un modèle bi-classes Γ = {C 1, C 2 }. On considère que C 1 est la classe des valides, et C 2, celle des non-valides. Alors : P(x C1) = P(x 1,..., x n C 1 ) = P(x 1 C 1 ) P(x 2,..., x n x 1, C 1 ) = P(x 1 C 1 ) P(x 2 x 1, C 1 ) P(x 3,..., x n x 2, x 1, C 1 )... 13

14 = n P(x i x i 1,..., x 1, C 1 ) L hypothèse fondamentale du modèle Naïve Bayes est l indépendance conditionnelle des éléments de la séquence entre eux. Ainsi, i {1,..., n}, P(x i x i 1,..., x 1, C 1 ) = P(x i C 1 ). Et on obtient donc : n P(x C 1 ) = P(x i C 1 ) On parle d inférence linéaire en la taille de la séquence (O( X )). Remarque : Cette hypothèse est bien sur complètement fausse... Par exemple la présence du mot Roissy influe sur celle du mot (de la séquence ici) Charles de Gaulle. Mais elle permet une modélisation simple du problème Phase d apprentissage Cette phase permet d estimer les différents paramètres P(x i C 1 ), à partir d un échantillon constitué d un corpus de documents. Dans le cas présent, cette phase ne peut co-exister avec la phase de test, ce qui empêche toute amélioration ultérieure des estimations. Soit X = (x 1,..., x p ), un échantillon de séquences correspondant à un corpus de documents. On ordonne X de telle manière que x 1,..., x l sont des séquences correspondant à des documents valides (et x l+1,..., x p des nonvalides). p La vraisemblance du modèle s écrit alors : l θ = P(x i C 1 ). En maximisant son logarithme, par la méthode des multiplicateurs de Lagrange, on obtient que pour tout v, mot du vocabulaire V, l estimateur du maximum de vraisemblance de P(v C 1 ) est : θ v = l N xi v l w V N xi w Où pour toute séquence x, v V, N x v est le nombre d occurrences de v dans x. Cette phase d apprentissage nécessite donc de compter les occurrences de 14

15 chaque mot du vocabulaire V dans chaque document du corpus d apprentissage. Et sa complexité est O( V X ), où X est la taille du corpus. Pour ne pas trop défavoriser les mots de V qui ne sont pas présents dans le corpus, nous utiliserons le lissage de Laplace : θ v = l l w V N xi v + 1 N xi w + V Un mot absent du corpus aura alors une probabilité non nulle : 1, n Nw xi + V et ne sera plus considéré comme négligeable. w V Phase de test Une fois l apprentissage effectué, et les estimateurs θ v de P(v C 1 ), calculés pour tout v V, vient la phase de test. Considérons un document D, que l on souhaite tester, représenté par une séquence x = (x 1,..., x n ). Alors on estime la probabilité que D soit un document valide par le score : P(C 1 x) = P(C 1) P(x) P(x C 1) = P(C 1) n P(x) P(x i C 1 ) γ C1 n γ xi n θ xi Où γ C1 et γ xi, sont des estimateurs respectifs des fréquences d apparition de C 1 et de x i dans le corpus d apprentissage (autrement dit, le nombre relatifs de documents valides, et la fréquence d apparition du mot x i dans tout le corpus). Autrement dit, la probabilité qu un document soit valide s exprime en fonction des fréquences de ses mots, dans le corpus d apprentissage de documents valides. 15

16 4 Adaptations du modèle Naïve Bayes aux documents structurés 4.1 Utilisation de la sémantique des balises HTML Dans le cas particulier des pages HTML, une première solution consiste à utiliser une estimation de l importance relative de chaque partie du document. En effet, on peut supposer que la présence d un mot à l intérieur d une balise title ou bold importe plus que sa présence à l intérieur d une balise small, par exemple. Il s agit alors de trouver, par l expérience, des coefficients performants pour déterminer l intérêt relatif des différentes balises. Cette méthode utilise donc l algorithme Naïve Bayes, pour chacune des balises considérées, puis combine ces résultats pour rendre un score. Considérons, par exemple que (t 1,..., t n ) est l ensemble des balise considérées. On va coder un document D par n séquences, x i, i {1..n}, (resp. n vecteurs), qui sont respectivement la concaténation de toutes les séquences (resp. la conjonction ou la moyenne de tous les vecteurs) codant des textes encapsulés dans la balise t i. Après avoir effectué les n phases d apprentissage, correspondant aux différentes balises, on lance alors n processus de test sur chacune des séquences. Le résultat est le produits de n scores (s x1,..., s xn ), auxquels on associe les coefficients (δ 1,.., δ n ) pour obtenir un score final : n s D = δ i s xi Cette méthode présente des résultats relativement bons selon la distribution (δ i ) choisie, mais, en plus d être expérimentale (à cause de ce choix justement), elle présente un grave inconvénient : elle suppose une connaissance à priori du langage utilisé, et n est pas évolutive (le nombre de balises considérées ne peut pas évoluer). Malgré une très forte présence du format HTML sur le Web, on lui préférera donc une méthode plus générale, plus évolutive, et moins contraignante. 4.2 Représentation d un document structuré Afin de pouvoir utiliser le formalisme des réseaux bayesiens, nous utiliserons une représentation simplifiée des documents structurés par des arbres. Cette sous-partie des graphes orientés acycliques correspond à des documents de type XML, et n est pas suffisante pour représenter des documents 16

17 plus complexes comme des sites Web, où des cycles peuvent exister. Cependant, cette représentation permet d obtenir des résultats acceptables, tout en minimisant la complexité. Chaque noeud de l arbre correspond à une entité structurelle du document (un titre ou un paragraphe, par exemple). Et chaque arc de l arbre représente une relation de dépendance entre deux entités. Relation déduite de la structure hiérarchique du document (par exemple, le père du noeud représentant une section sera le noeud représentant la page contenant cette section). Chaque noeud de l arbre contient deux informations : Une étiquette donnant la nature de l entité structurelle considérée Un contenu (on ne considérera que des contenus textuels ici) Document, texte 1 Section 1, texte 2 Section 2, texte 3 Section 3, texte 4 Paragraphe 1, texte 5 Paragraphe 2, texte 6 Fig. 4 Un exemple de représentation d un document structuré. 4.3 Modèles locaux de type Naïve Bayes Nous considérerons qu un document est constitué d un couple D = (s, t) où s est la structure du document et t son contenu. On notera s = (s 1,.., s n ) et t = (t 1,.., t n ), où n est la taille de l arbre représentant D, et, pour tout i {1..n}, (s i, t i ) est l information du i eme noeud. Le score d un document D = (s, t) est alors le produit d un score de 17

18 structure et d un score de contenu : P(D C 1 ) = P(s, t C 1 ) = P(s C 1 ) P(t s, C 1 ) On considère ainsi que la structure d un document influe sur son contenu, et non le contraire (l auteur d un document créé d abord sa structure avant de le remplir.) Probabilité structurelle On utilise ici un modèle de structure qui se calque sur la structure logique du document et ne prend en compte que la relation parent-enfant entre les différentes parties du document. Ceci afin de restreindre le nombre de paramètres du système à estimer, afin de minimiser la complexité. On estime donc que chaque noeud de l arbre est indépendant de tous les autres, sauf son père. On obtient alors la formule qui exprime le score d une structure s = (s 1,.., s n ) en fonction des scores des s i : n P(s C 1 ) = P(s 1,.., s n C 1 ) = P(s i sp(i), C 1 ) Où sp associe à un entier i, l étiquette (la structure) du père du i eme noeud Probabilité de contenu Afin de simplifier encore le système, nous allons considérer que les contenus des noeuds sont indépendants les uns des autres, et qu ils ne dépendent que de l étiquette du noeud qui les contient (et non des autres). On obtient alors : P(t s, C 1 ) = P(t 1,.., t n s, C 1 ) = n P(t i s, C 1 ) = = n n P(t i s 1,.., s n, C 1 ) P(t i s i, C 1 ) On suppose donc que lors de la création d un document, l auteur utilise des style et vocabulaire spéciaux, pour chaque balise. Cette hypothèse nous 18

19 permet de différencier les différentes parties en leur associant des estimateurs qui leur sont spécifiques et dépendent uniquement de leur structure. Nous verrons que cela permet un apprentissage dynamique beaucoup moins coûteux Apprentissage Nous allons utiliser à nouveau, la méthode du maximum de vraisemblance. Soit un corpus d apprentissage. La vraisemblance du modèle s écrit : l θ = D = D = = D ( D = l structure θ P(D C 1 ) P(s C 1 ) P(t s, C 1 ) D P(s C 1 ) P(t i s i, C 1 ) P(s C 1 ) ) l contenu θ D D Apprentissage des paramètres de contenu : l contenu θ = D D = e Λ = e Λ P(t i s i, C 1 ) D D /s i =e lθ contenu (e) P(t i s i, C 1 ) P(t i s i, C 1 ) Où Λ désigne l ensemble des étiquettes. La maximisation de lθ contenu s effectue donc en maximisant chacune des vraisemblances des modèles locaux (à structure déterminée). On effectue donc (de même qu en 4.1), un apprentissage pour les noeuds étiquetés titre, un autre pour ceux étiquetés paragraphe, etc... Ainsi, chaque modèle est appris indépendamment sur les données qui le concernent, ce qui présente deux avantages considérables, d un point de vue dynamique : 19

20 Si un nouveau document est utilisé en apprentissage, il ne faut mettre à jour que les modèles correspondant aux différents noeuds de ce document Si un document d apprentissage possède un noeud muni d une étiquette jusqu alors inconnue, il suffit de créer un nouveau modèle local pour les noeuds de ce type, sans avoir à réapprendre tout le modèle. Apprentissage des paramètres de structure : Les paramètres de structure sont les différentes probabilités que, dans un document valide, un noeud possède un fils muni d une certaine étiquette ( P(s i sp(i), C 1 ) ). Notons θ s n,m, l estimateur (du maximum de vraisemblance) de la probabilité P(s i = n sp(i) = m, C 1 ). Alors : l structure θ = D D D θs s i,sp(i) D = P(s i sp(i), C 1 ) De même qu en 3.3.1, en maximisant la log-vraisemblance à l aide des multiplicateurs de Lagrange, on obtient : (n, m) Λ 2, θ s n,m = Nn,m D D Nn D,m D n Λ Où, ici, pour tout document D du corpus d entraînement, N D n,m est le nombre d occurrences de liaisons de type (n,.) (m,.) dans D. Et, de même que précédemment, on utilisera un lissage, en pratique, afin de ne pas trop défavoriser les types de liaisons absents du corpus : (n, m) Λ 2, θ s n,m = D D n Λ N D n,m + 1 N D n,m + Λ L estimation des paramètres de structure est donc simple et rapide (elle ne nécessite encore qu un unique parcours du corpus d apprentissage). Par contre, contrairement à l apprentissage des paramètres de contenu, elle ne pourra être utilisée de façon dynamique efficacement, 20

21 car l apport d un nouveau document ou d une nouvelle étiquette oblige à recalculer l ensemble des paramètres. Ce modèle est cependant satisfaisant, car on peut supposer qu il est plus facile de produire un corpus satisfaisant pour la structure que pour le contenu Test Grâce à nos hypothèses sur les hypothèses structurelles et de contenu, on obtient alors la probabilité finale pour un document D = (s, t) : D P(D C 1 ) = P(s C 1 ) P(t i s i, C 1 ) D D = P(s i sp(i), C 1 ) P(t i s i, C 1 ) Et, de la même manière qu en 3.3.2, on estime alors la pertinence du document D par : P(C 1 D) = P(C 1) P(D) P(D C 1) = P(C D D 1) P(D) P(s i sp(i), C 1 ) P(t i s i, C 1 ) γ D D C 1 θs s γ i,sp(i) θ ti (s i ) D Où, i {1.. D }, θ ti (s i ), est l estimateur rendu par un modèle Naïve Bayes local sur le contenu t i, à structure s i connue. 21

22 Score final NB local texte 1 Document, texte 1 Structure Structure NB local texte 2 Section 1, texte 2 Section 2, texte 3 Structure Structure Section 3, texte 4 Paragraphe 1, texte 5 Paragraphe 2, texte 6 NB local texte 5 NB local texte 6 Fig. 5 Fonctionnement de l algorithme. 5 Application à Burfiks et perspectives Pour adapter ce modèle à Burfiks, il faut donc créer un classifier qui construise un réseau bayesien pour chaque document du corpus d entraînement, apprenne les différents paramètres de ces réseaux avec les formules vues en 4.3.3, puis estime la pertinence d une catégorie à l aide du résultat de Modèle de classes utilisé en pratique : Dans le cas particulier de Burfiks, le modéle de ranking multi-classes serait le plus informatif, car il renseigne sur la pertinence relative quant à différentes classes, d un document donné. Néanmoins, il pourrait s avérer un peu trop complexe dans le cadre d une utilisation normale d un navigateur Web. Et on pourrait lui préférer le modèle multiclasses, moins précis, mais plus lisible dans la side-bar d un navigateur. On pourrait alors imaginer afficher, pour chaque lien présent dans la side-bar, soit la classe qui semble la plus pertinente (cas du ranking), soit l ensemble des classes qui semblent pertinentes (cas classique). 22

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques

Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Patrick Dallaire Université Laval Département d informatique et de génie

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Introduction aux CRF via l annotation par des modèles graphiques. Isabelle Tellier. LIFO, Université d Orléans

Introduction aux CRF via l annotation par des modèles graphiques. Isabelle Tellier. LIFO, Université d Orléans Introduction aux CRF via l annotation par des modèles graphiques Isabelle Tellier LIFO, Université d Orléans Plan 1. Annoter pour quoi faire 2. Apprendre avec un modèle graphique 3. Annnoter des chaînes

Plus en détail

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2011 Supplément théorique Inférence dans les réseaux bayésiens Rappel théorique Les processus aléatoires La plupart des processus

Plus en détail

Chapitre I. Probabilités. Bcpst 1 2 novembre 2015. I Exemples d expériences aléatoires

Chapitre I. Probabilités. Bcpst 1 2 novembre 2015. I Exemples d expériences aléatoires Chapitre I Probabilités Bcpst 1 2 novembre 2015 I Exemples d expériences aléatoires Une expérience aléatoire est une expérience dont on ne peut pas prédire le résultat avant de l avoir réalisée... ce qui

Plus en détail

Exercices corrigés de probabilités et statistique

Exercices corrigés de probabilités et statistique Exercices corrigés de probabilités et statistique Université Paris 1 Panthéon-Sorbonne Cours de deuxième année de licence de sciences économiques Fabrice Rossi Cette œuvre est mise à disposition selon

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Modèles neuronaux pour la modélisation statistique de la langue

Modèles neuronaux pour la modélisation statistique de la langue Modèles neuronaux pour la modélisation statistique de la langue Introduction Les modèles de langage ont pour but de caractériser et d évaluer la qualité des énoncés en langue naturelle. Leur rôle est fondamentale

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

Programmation, partiel: sémantique d un tableur

Programmation, partiel: sémantique d un tableur Programmation, partiel: sémantique d un tableur Recommandations. Votre copie (papier ou électronique) devra être lisible et bien structurée. La note tiendra compte autant du fond que de la présentation.

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

RECHERCHE OPERATIONNELLE

RECHERCHE OPERATIONNELLE RECHERCHE OPERATIONNELLE PROBLEME DE L ARBRE RECOUVRANT MINIMAL I - INTRODUCTION (1) Définitions (2) Propriétés, Conditions d existence II ALGORITHMES (1) Algorithme de KRUSKAL (2) Algorithme de PRIM I

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

Répresenter l uncertain: Réseaux Bayesiens

Répresenter l uncertain: Réseaux Bayesiens Répresenter l uncertain: Réseaux Bayesiens M1 Miage 2015 2016 Intelligence Artificielle Stéphane Airiau LAMSADE M1 Miage 2015 2016 Intelligence Artificielle (Stéphane Airiau) Répresenter l uncertain: Réseaux

Plus en détail

Utilisation des réseaux bayésiens et de l approche de Fenton pour l estimation de probabilité d occurrence d événements

Utilisation des réseaux bayésiens et de l approche de Fenton pour l estimation de probabilité d occurrence d événements Utilisation des réseaux bayésiens et de l approche de Fenton pour l estimation de probabilité d occurrence d événements Rapport LAAS-CNRS Numéro N o 13077 Quynh Anh DO HOANG, Jérémie GUIOCHET, Mohamed

Plus en détail

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium dans le cadre du projet JASMINe Avril 2008 Table des matières 1 Introduction 3 1.1 Rappel sur JASMINe.......................................

Plus en détail

Techniques d apprentissage pour le traitement d informations structurées : application à la recherche d information.

Techniques d apprentissage pour le traitement d informations structurées : application à la recherche d information. THÈSE DE DOCTORAT DE L UNIVERSITÉ PARIS 6 Spécialité Informatique présentée par Benjamin Piwowarski Pour obtenir le grade de DOCTEUR de l UNIVERSITÉ PARIS 6 Sujet de la thèse : Techniques d apprentissage

Plus en détail

Chapitre 8 : Probabilités-Indépendance

Chapitre 8 : Probabilités-Indépendance Cours de mathématiques Terminale S Chapitre 8 : Probabilités-Indépendance Année scolaire 008-009 mise à jour 6 janvier 009 Fig. Andreï Kolmogorov Un précurseur de la formalisation de la théorie des probabilités

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Mathématiques financières

Mathématiques financières Mathématiques financières Arnaud Triay Table des matières 1 Introduction Position du problème.1 Pricing des options........................................... Formalisme..............................................

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

Personnaliser et adapter SPIP Développeur SPIP

Personnaliser et adapter SPIP Développeur SPIP Personnaliser et adapter SPIP Développeur SPIP En Théorie Le fonctionnement de SPIP Qu est ce que SPIP? SPIP (Système de Publication pour l Internet Partagé) est un logiciel libre destiné à la production

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Introduction à l Algorithmique

Introduction à l Algorithmique Introduction à l Algorithmique N. Jacon 1 Définition et exemples Un algorithme est une procédure de calcul qui prend en entier une valeur ou un ensemble de valeurs et qui donne en sortie une valeur ou

Plus en détail

TD 4 : HEC 2001 épreuve II

TD 4 : HEC 2001 épreuve II TD 4 : HEC 200 épreuve II Dans tout le problème, n désigne un entier supérieur ou égal à 2 On dispose de n jetons numérotés de à n On tire, au hasard et sans remise, les jetons un à un La suite (a, a 2,,

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Réseaux Bayésiens. Bruno Bouzy. 3 février 2014

Réseaux Bayésiens. Bruno Bouzy. 3 février 2014 Réseaux Bayésiens Bruno Bouzy 3 février 2014 Introduction Pour sa plus grande partie, ce chapitre présente les réseaux bayésiens à partir du tutoriel d'andrew Moore [1] (http://www.autonlab.org/tutorials/bayesnet.html).

Plus en détail

Introduction. Introduction et HTML. A l issue de ce module vous devriez... Ce cours n est pas...

Introduction. Introduction et HTML. A l issue de ce module vous devriez... Ce cours n est pas... Introduction et HTML Technologies du Web 1 Jean-Christophe Routier Licence 1 SESI Université Lille 1 Introduction Objectifs : Présentation des bases de la création de documents web par la découverte des

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

Chapitre IV Bases et dimension d un espace vectoriel

Chapitre IV Bases et dimension d un espace vectoriel Chapitre IV Bases et dimension d un espace vectoriel Objectif : Nous allons voir comment fabriquer des systèmes de coordonnées pour les vecteurs d un espace vectoriel général. Dans ce chapitre désigne

Plus en détail

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Master 1 Informatique Éléments de statistique inférentielle

Master 1 Informatique Éléments de statistique inférentielle Master 1 Informatique Éléments de statistique inférentielle Faicel Chamroukhi Maître de Conférences UTLN, LSIS UMR CNRS 7296 email: chamroukhi@univ-tln.fr web: chamroukhi.univ-tln.fr 2014/2015 Faicel Chamroukhi

Plus en détail

Espace de probabilité, indépendance et probabilité conditionnelle

Espace de probabilité, indépendance et probabilité conditionnelle Chapter 2 Espace de probabilité, indépendance et probabilité conditionnelle Sommaire 2.1 Tribu et événements........................................... 15 2.2 Probabilité................................................

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3 I Arbres binaires 2014-2015 Table des matières 1 Rappels 2 1.1 Définition................................................ 2 1.2 Dénombrements............................................ 2 1.3 Parcours.................................................

Plus en détail

1.1 Définitions... 2 1.2 Opérations élémentaires... 2 1.3 Systèmes échelonnés et triangulaires... 3

1.1 Définitions... 2 1.2 Opérations élémentaires... 2 1.3 Systèmes échelonnés et triangulaires... 3 Chapitre 5 Systèmes linéaires 1 Généralités sur les systèmes linéaires 2 11 Définitions 2 12 Opérations élémentaires 2 13 Systèmes échelonnés et triangulaires 3 2 Résolution des systèmes linéaires 3 21

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Accès au Contenu Informationnel pour les Masses de Données de Documents

Accès au Contenu Informationnel pour les Masses de Données de Documents Accès au Contenu Informationnel pour les Masses de Données de Documents Grappa LILLE 3 - UR Futurs INRIA MOSTRARE Laboratoire d Informatique de Paris 6 Laboratoire de Recherche en Informatique Orsay -

Plus en détail

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2 Probabilités Table des matières I Petits rappels sur le vocabulaire des ensembles 2 I.1 s................................................... 2 I.2 Propriétés...................................................

Plus en détail

Qu est-ce qu une probabilité?

Qu est-ce qu une probabilité? Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont

Plus en détail

Exercices corrigés de probabilités et statistique

Exercices corrigés de probabilités et statistique Exercices corrigés de probabilités et statistique Université Paris 1 Panthéon-Sorbonne Cours de deuxième année de licence de sciences économiques Fabrice Rossi & Fabrice Le Lec Cette œuvre est mise à disposition

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Chapitre IV : Couples de variables aléatoires discrètes

Chapitre IV : Couples de variables aléatoires discrètes UNIVERSITÉ DE CERG Année 0-03 UFR Économie & Gestion Licence d Économie et Gestion MATH0 : Probabilités Chapitre IV : Couples de variables aléatoires discrètes Généralités Définition Soit (Ω, P(Ω), P)

Plus en détail

Concours 2015 Épreuve d Informatique Filière : MP Durée de l épreuve : 3 heures. L utilisation d une calculatrice est autorisée.

Concours 2015 Épreuve d Informatique Filière : MP Durée de l épreuve : 3 heures. L utilisation d une calculatrice est autorisée. A 2015 INFO. MP École des Ponts ParisTech, SUPAERO (ISAE), ENSTA ParisTech, Télécom ParisTech, Mines ParisTech, Mines de Saint-étienne, Mines Nancy, Télécom Bretagne, ENSAE ParisTech (filière MP), École

Plus en détail

SPLEX Statistiques pour la classification et fouille de données en

SPLEX Statistiques pour la classification et fouille de données en SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 pierre-henri.wuillemin@lip6.fr

Plus en détail

10 Intégration de données sur le web

10 Intégration de données sur le web 10 Intégration de données sur le web 240 Requête utilisateur : Où est-ce que je peux voir les films qui ont participé au dernier Festival de Cannes? Je voudrais les résumés et critiques des films de Pedro

Plus en détail

Représentation et approximation de fonctions booléennes : Application à la génération de requêtes

Représentation et approximation de fonctions booléennes : Application à la génération de requêtes INSTITUT DE RECHERCHE EN INFORMATIQUE DE NANTES Représentation et approximation de fonctions booléennes : Application à la génération de requêtes LEBLET Jimmy encadré par QUAFAFOU Mohamed Institut de Recherche

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 4 Les techniques d indexation 4.1. Présentation de la semaine Les entrepôts de données utilisent plusieurs techniques d indexation. Nous avons

Plus en détail

CI-4 PRÉVOIR ET SUPPRIMER LES

CI-4 PRÉVOIR ET SUPPRIMER LES CI-4 LES CONTRAINTES DE MONTAGE D UN SYSTÈME. Objectifs ANALYSER - OPTIMISER A la fin de la séquence de révision, l élève doit être capable de B2 Proposer un modèle de connaissance et de comportement Déterminer

Plus en détail

Bouchekif Abdesselam 11 mars 2012

Bouchekif Abdesselam 11 mars 2012 Expériences sur les données du répertoire de données de UCI avec une boîte à outils Bouchekif Abdesselam 11 mars 2012 Résumé Les dix dernières années ont été témoin de grands progrès réalisés dans le domaine

Plus en détail

Arbres binaires de recherche

Arbres binaires de recherche Chapitre 1 Arbres binaires de recherche 1 Les arbre sont très utilisés en informatique, d une part parce que les informations sont souvent hiérarchisées, et peuvent être représentées naturellement sous

Plus en détail

TD 1 de Langage C module Outils pour l'informatique Industrielle - Corrigés des Tds : http://www-lagis.univ-lille1.fr/~macaire/td.

TD 1 de Langage C module Outils pour l'informatique Industrielle - Corrigés des Tds : http://www-lagis.univ-lille1.fr/~macaire/td. Exercice 1 TD 1 de Langage C module Outils pour l'informatique Industrielle - Corrigés des Tds : http://www-lagis.univ-lille1.fr/~macaire/td.htm Exercices de base de Programmation Arbre Programmatique

Plus en détail

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln. MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.fr Plan Introduction Généralités sur les systèmes de détection d intrusion

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini.

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. 1 Introduction Des actions comme lancer un dé, tirer une carte d un jeu, observer la durée de vie d une ampoule électrique, etc...sont

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Programme de Première

Programme de Première BAC TECHNO STAV 66 I. Algèbre Programme de Première Objectif 1 - Effectuer de manière autonome des calculs numériques ou algébriques, résoudre des équations ou inéquations en vue de résoudre des problèmes

Plus en détail

RAPPORT DE STAGE : Création d un programme pour la reconnaissance de ballons récursivement arbitrairement partitionnables

RAPPORT DE STAGE : Création d un programme pour la reconnaissance de ballons récursivement arbitrairement partitionnables Laboratoire Bordelais de Recherche en Informatique Licence 3 : Informatique RAPPORT DE STAGE : Création d un programme pour la reconnaissance de ballons récursivement arbitrairement partitionnables Auteur

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

Notes de cours Moteurs de recherche : Master 2 Pro, Université Paris Diderot

Notes de cours Moteurs de recherche : Master 2 Pro, Université Paris Diderot Notes de cours Moteurs de recherche : Master 2 Pro, Université Paris Diderot Michel Habib and Antoine Meyer 22 janvier 2009 1 Introduction Ce document a été rédigé à partir des trois mémoires de thèses

Plus en détail

Master Informatique Fondamentale - M1 Compilation

Master Informatique Fondamentale - M1 Compilation Master Informatique Fondamentale - M1 Compilation Analyse Statique Paul Feautrier ENS de Lyon Paul.Feautrier@ens-lyon.fr perso.ens-lyon.fr/paul.feautrier 12 mai 2007 1 / 38 Indécidabilité de la Terminaison

Plus en détail

Avancée en classification multi-labels de textes en langue chinoise

Avancée en classification multi-labels de textes en langue chinoise Avancée en classification multi-labels de textes en langue chinoise Thèse en cotutelle présentée par Zhihua WEI pour les doctorats en informatique des Universités Lyon2 et Tongji La thèse est centrée sur

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Groupe Eyrolles, 2001, 2003, 2004, ISBN : 2-212-11480-X

Groupe Eyrolles, 2001, 2003, 2004, ISBN : 2-212-11480-X Groupe Eyrolles, 2001, 2003, 2004, ISBN : 2-212-11480-X Chapitre 6 Exercices corrigés et conseils méthodologiques Mots-clés Activité continue/finie Transition automatique Contexte statique Événements «after»

Plus en détail

OMI TP 2 : Outils numériques pour l apprentissage

OMI TP 2 : Outils numériques pour l apprentissage OMI TP 2 : Outils numériques pour l apprentissage Introduction aux Google Docs Google Documents permet de créer, stocker dans l internet et partager facilement des documents. Des outils collaboratifs permettent

Plus en détail

Cours de Data Mining PageRank et HITS

Cours de Data Mining PageRank et HITS Cours de Data Mining PageRank et HITS Andreea Dragut Univ. Aix-Marseille, IUT d Aix-en-Provence Andreea Dragut Cours de Data Mining PageRank et HITS 1 / 48 Plan du cours Présentation Andreea Dragut Cours

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Evaluation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques basés sur les documents

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

1. Les fondements de l informatique 13

1. Les fondements de l informatique 13 Introduction à l'algorithmique 1. Les fondements de l informatique 13 1.1 Architecture de Von Neumann 13 1.2 La machine de Turing 17 1.3 Représentation interne des instructions et des données 19 1.3.1

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014

Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014 Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014 résumé : Ce projet a pour but de récupérer des données géolocalisées

Plus en détail

Les données manquantes en statistique

Les données manquantes en statistique Les données manquantes en statistique N. MEYER Laboratoire de Biostatistique -Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Séminaire de Statistique - 7 novembre 2006 Les données manquantes

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges. c Copyleft 2006, ELSE Team

ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges. c Copyleft 2006, ELSE Team ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges c Copyleft 2006, ELSE Team 18 avril 2006 Table des matières 1 Introduction 2 2 Présentation du projet 3 2.1 Une distribution Évolulable..................

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

Espaces vectoriels et applications linéaires

Espaces vectoriels et applications linéaires Espaces vectoriels et applications linéaires Exercice 1 On considère l'ensemble E des matrices carrées d'ordre 3 défini par,,, 1) Montrer que est un sous-espace vectoriel de l'espace vectoriel des matrices

Plus en détail

NVU, Notepad++ (ou le bloc-note), MySQL, PhpMyAdmin. HTML, PHP, cas d utilisation, maquettage, programmation connaissances en HTML, PHP et SQL

NVU, Notepad++ (ou le bloc-note), MySQL, PhpMyAdmin. HTML, PHP, cas d utilisation, maquettage, programmation connaissances en HTML, PHP et SQL Prise en main de NVU et Notepad++ (conception d application web avec PHP et MySql) Propriétés Intitulé long Formation concernée Matière Présentation Description Conception de pages web dynamiques à l aide

Plus en détail

MATHÉMATIQUES ET SCIENCES HUMAINES

MATHÉMATIQUES ET SCIENCES HUMAINES MATHÉMATIQUES ET SCIENCES HUMAINES B. MARCHADIER Dépendance et indépendance de deux aléas numériques images Mathématiques et sciences humaines, tome 25 (1969), p. 2534.

Plus en détail

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader Terminale STMG O. Lader Table des matières 1 Information chiffrée (4s) 4 1.1 Taux d évolution....................................... 6 1.2 indices............................................. 6 1.3 Racine

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques : MTH EN JEN 2013-2014 Elèves de seconde, première et terminale scientifiques : Lycée Michel Montaigne : HERITEL ôme T S POLLOZE Hélène 1 S SOK Sophie 1 S Eteindre Lycée Sud Médoc : ROSIO Gauthier 2 nd PELGE

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Algorithmique et Analyse d Algorithmes

Algorithmique et Analyse d Algorithmes Algorithmique et Analyse d Algorithmes L3 Info Cours 11 : Arbre couvrant Prétraitement Benjamin Wack 2015-2016 1 / 32 La dernière fois Rappels sur les graphes Problèmes classiques Algorithmes d optimisation

Plus en détail