Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Dimension: px
Commencer à balayer dès la page:

Download "Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien"

Transcription

1 Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin

2 Table des matières 1 Présentation et objectifs Problématique Présentation de Burfiks Introduction au formalisme Bayesien Historique Généralités Probabilités conditionnelles La formule de Bayes Intuition Les Réseaux Bayesiens Le modèle Naïve Bayes pour les documents plats Encodage d un document Représentation Vectorielle Représentation Séquentielle Classes Classification bi-classes Classification multi-classes Ranking et fonction de score Système de classes utilisé pour modéliser le problème Le modèle Naïve Bayes Phase d apprentissage Phase de test Adaptations du modèle Naïve Bayes aux documents structurés Utilisation de la sémantique des balises HTML Représentation d un document structuré Modèles locaux de type Naïve Bayes Probabilité structurelle Probabilité de contenu Apprentissage Test Application à Burfiks et perspectives 22 6 Bibliographie 24 2

3 1 Présentation et objectifs 1.1 Problématique Avec l essor exponentiel de la quantité d information disponible sur le Web, la qualité des résultats fournis par les moteurs de recherche, tel Google se dégrade inexorablement. La première idée de ce travail était d améliorer les résultats de ces moteurs de recherche, en leur appliquant un filtre statistique appelé filtre Bayesien, qui fut popularisé par Paul Graham lorsqu il l appliqua à la lutte anti-spam. Puis il est apparu que le filtrage de l ensemble des résultats d une requête Google est trop contraignant lors d une recherche sur Internet. C est alors qu est venue l idée de Surf Bayesien. Un filtre Bayesien, non pas uniquement sur les résultats d une requête Google, mais sur l ensemble des liens présents sur chacune des pages visitées. L objectif étant d obtenir un outil qui permette de guider l utilisateur, en lui donnant la pertinence de chacun des liens présents sur la page qu il visite. Il nous faut donc construire un outil capable de catégoriser, en temps réel, (selon différents profils déterminés à l avance (ou non comme nous le verrons)), les différents sites et pages présents sur le Web. L algorithme (les statisticiens parleront de méthode), le plus couramment utilisé dans le filtrage Bayesien, est la méthode Naïve Bayes. Cette méthode présente tout de même deux inconvénients majeurs en ce qui concerne notre objectif de classification dynamique de pages Web : Elle ne considère que des documents plats, i.e elle ne s intéresse qu au contenu d un document et non à sa strucure. Ce qui est fort dommageable, surtout dans le cas de langages semi-structurés tels XML. En effet, la structure d un document peut amener des informations supplémentaires sous trois formes : 1. La structure elle-même peut être une information (la structure d une page contenant une dépêche de presse est bien différente de celle d une page contenant un forum de discussion, par exemple) 2. Un mot contenu dans la page peut avoir une importance différente selon son emplacement (un mot contenu dans le titre ou encore écrit en gras, par exemple, sera considéré particulièrement). 3. Les relations d inclusion, ou hyper-liens, reliant différentes pages peuvent aussi apporter une information de dépendance entre les pages (par exemple, un site contenant une page intéressante, peut être considéré comme intéressant). 3

4 La méthode Naïve Bayes est figée : 1. D une part, elle est séparée en deux parties : une phase d apprentissage permettant d estimer les différents paramètres du problème, puis une phase de test, qui, elle seule estime la pertinence d un document. Elle nécessite donc un corpus d apprentissage, et ne peut plus améliorer ses résultats, une fois cet apprentissage terminé. Or, dans le cas d une classification d un ensemble gigantesque de documents, tel le Web, un corpus d apprentissage efficace devient très volumineux. C est pourquoi un apprentissage dynamique, couplé à la phase de test, serait plus judicieux, dans ce cas. 2. D autre part, elle fixe le nombre de classes (catégories) différentes une fois pour toutes, lors de la phase d apprentissage. Or, en pratique, un utilisateur peut avoir envie de créer un nouveau profil de recherche, sans perdre toute l information de l apprentissage déjà effectué. Il serait donc judicieux de prévoir un fonctionnement dynamique également, en ce qui concerne le nombre de classes. Nous allons donc explorer, et tenter d adapter, les différentes méthodes statistiques, notamment proposées par Luc Denoyer et al., qui pourraient permettre de prendre, le mieux possible, en compte la structure d un document, lors de sa classification. Et nous nous intéresserons à la capacité dynamique de ces méthodes, afin de produire un outil efficace et polyvalent. 1.2 Présentation de Burfiks Ce travail se base sur (et se veut la continuité de) celui d Alexandre Bertails, qu il a réalisé l année dernière sous la direction de M. di Cosmo (voir http : //alexandre.bertails.f ree.f r/maitrise/t ER Rapport.tar.gz). Burfiks est un module s adjoignant au navigateur Mozilla, qui se présente sous la forme d une side-bar, affichant, en temps réel, la liste des liens présents dans la page active. L objectif de ce travail est de comprendre comment adapter les techniques statistiques à notre disposition, afin d obtenir un outil qui permette de noter les différents liens présents dans la side-bar. 4

5 Fig. 1 Burfiks en cours de développement. 5

6 L architecture de Burfiks est composée de quatre modules : Polipo, un proxy Web, développé par Juliusz Chroboczek (voir http :// jch/software/polipo/ ). Burfiks.xul définit l interface utilisateur dans Mozilla. Burfiks Server, centre névralgique du système, qui se charge de récolter et distribuer les différentes informations entre les modules. Il répond à une requête de Burfiks.xul, en pré-chargeant les pages filles (i.e destinations d un hyper-lien) de la page active, via Polipo, puis en interrogeant Burfiks Classifier, quant à leurs pertinences respectives. Burfiks Classifier est l objet de ce travail. Son rôle est de classer un ensemble de pages web, fourni par Burfiks Server, et de restituer le degré de pertinence de chaque page pour la catégorie retenue.par manque de temps, il ne sera pas opérationnel à la date de soutenance de ce TRE, mais nous allons présenter différents algorithmes et méthodes statistiques qui peuvent être utilisés pour son implémentation. World Wide Web Proxy Polipo Burfiks Classifier Burfiks Server Burfiks.xul Mozilla Fig. 2 Architecture de Burfiks 6

7 2 Introduction au formalisme Bayesien 2.1 Historique Thomas Bayes ( ), mathématicien britannique, passa de nombreuses années à tenter de déterminer ce que l on appelle actuellement la distribution d une loi binomiale. De ses travaux découlèrent, à titre posthume en 1763, la formule de Bayes dont les applications statistiques sont nombreuses aujourd hui. Elle est notamment utilisée, depuis les années 90, dans le domaine de la Recherche d Information (de documents plats), et dans celui des filtres anti-spam. Nous souhaiterions maintenant l utiliser pour la classification dynamique de documents structurés. 2.2 Généralités Probabilités conditionnelles Contrairement aux probabilités classiques, les probabilités conditionnelles permettent de faire apparaître les relations de cause à effet qui lient deux événements. Si A et B sont deux événements (que l on représente, en statistique, par deux variables aléatoires), la probabilité (à postériori) de A sachant B est la probabilité que l événement A se produise, sachant que l événement B se produit également. D un point de vue mathématique, cela donne : P(A B) = P(A B) P(B) i.e la probabilité de A sachant B est égale à la probabilité de (A et B), relativisée par celle de B. Deux événements sont indépendants lorsque l occurrence de l un n a pas d influence sur l occurrence de l autre. Dans ce cas, alors P(A B) = P(A) P(B) P(A B) = P(A) P(B) P(B) = P(A) Autrement dit, si A et B sont indépendants, la probabilité de A sachant B est égale à la probabilité de A. 7

8 2.2.2 La formule de Bayes Les probabilités de A sachant B, et de B sachant A s écrivant respectivement : P(A B) P(A B) = P(B) P(B A) = On obtient aisément la formule de Bayes : Intuition P(A B) P(A) P(A B) = P(A) P(B A) P(B) La formule de Bayes exprime donc le fait que la probabilité de A sachant B peut se calculer en fonction de celle de A, celle de B, et enfin celle de B sachant A. D un point de vue pratique, si nous prenons pour exemple : A = le document étudié contient le mot toto et B = le document étudié appartient à la catégorie Sciences Alors on peut estimer : la probabilité du fait que le document étudié appartient à la catégorie Sciences sachant qu il contient le mot toto, en fonction de : la probabilité du fait que le document étudié contient le mot toto sachant qu il appartient à la catégorie Sciences. (Sans oublier de relativiser par les probabilités qu un document quelconque contienne le mot toto, et qu il appartienne à la catégorie Sciences.) Autrement dit, l information à priori (ici, une estimation du pourcentage de pages appartenant à la catégorie Sciences, qui contiennent le mot toto) permet de calculer l information à postériori (ici, la probabilité qu une page qui contient le mot toto, appartienne à la catégorie Sciences). 2.3 Les Réseaux Bayesiens Les réseaux Bayesiens sont un formalisme permettant de représenter et manipuler les dépendances conditionnelles entre différents événements. Ils sont largement utilisés pour représenter les réseaux de neurones, ou encore pour construire des outils d aide au diagnostic médical. 8

9 Soit A = {A 1,..., A n }, un ensemble de n événements. Un réseau Bayesien sur cet ensemble, est un graphe orienté acyclique (DAG) G = (A, U), où U est un ensemble d arcs reliant les différents sommets A i, et exprimant leurs dépendances. Il a plu cette nuit Mon arroseur est resté allumé Le jardin de mon voisin est mouillé Mon jardin est mouillé Fig. 3 Un exemple de réseau Bayesien Ici, on peut donc exprimer la probabilité que mon jardin soit mouillé sachant qu il a plu cette nuit, ou sachant que mon arroseur automatique est resté allumé (ou les deux). Et l on suppose, par la structure du graphe, que le fait que mon arroseur automatique soit resté allumé, n influe pas sur le fait que jardin de mon voisin soit mouillé (on suppose que la clôture est assez haute...). Une fois que ces probabilités sont connues (ou estimées), on obtient un graphe étiqueté modélisant la table de dépendance conditionnelle des événements. 3 Le modèle Naïve Bayes pour les documents plats 3.1 Encodage d un document Intéressons nous, tout d abord, aux façons de coder un document plat. Soit V = V 1...V V, (le vocabulaire), l ensemble des mots que nous considérons 9

10 (nous passons sur la phase de pré-traitement qui consiste à retirer du vocabulaire les mots trop courants (comme les mots de liaison, par exemple), à regrouper les mots de sens très proche (comme chat et chaton, par exemple), etc...) Représentation Vectorielle Encore appelée représentation en sac de mots, cette représentation ne prend pas en compte l ordre des mots, mais seulement leur présence dans le document. 1. Représentation vectorielle classique Vecteur Binaire : Un document D est représenté par un vecteur binaire v = v 1...v V de taille V. Pour tout i {1... V }, v i = { 0 s il n y a pas d occurrence de Vi dans D 1 sinon Ce codage, dit par mots-clés, est très pauvre car il ne prend en compte que la présence d un mot et non le nombre de ses occurences présentes. Néanmoins, il est encore fréquemment utilisé car sa simplicité est un atout majeur pour des systèmes nécessitant des temps de calcul faibles. Vecteur de fréquence : Cette fois-ci, on représente D par un vecteur v = v 1...v V, dont les composantes sont des entiers naturels. On tient compte ainsi du nombre d occurrences de chaque mot dans D. Pour tout i {1... V }, v i = le nombre d occurences de V i dans D. Cette méthode attribue des vecteurs de grande norme aux longs documents. Ceci peut être un avantage, dans le cadre de certaines recherches ciblées, mais cela peut aussi être un inconvénient et désavantager les grands documents. Il suffit alors de considérer le vecteur normalisé : V = V V. Ainsi, les documents ne sont plus discriminés par leurs tailles. 2. Représentation vectorielle avancée 10

11 Vecteur TF-IDF : Cette représentation tente d être plus informative en ce qui concerne l ordre et la fréquence des termes. Elle repose sur la loi de Zipf, censée modéliser le rapport entre importance et fréquence des mots dans un document. Cette loi peut s énoncer de manière informelle : un mot dans un document, est d autant plus important qu il est fréquent dans le document, et peu fréquent dans le corpus entier Notons que cette représentation, bien que très informative, n est pas utilisable, en pratique, de façon dynamique, car elle nécessiterait de ré-encoder chacun des documents lorsque l ensemble des documents rencontrés s accroît. Néanmoins, en ce qui concerne Burfiks, elle pourrait tout de même s avérer intéressante en version statique, en imaginant d avoir à disposition, une estimation raisonnable des fréquences d apparition des mots sur l ensemble du Web, par exemple. La formule utilisée la plus classique est : N = où tfv D i = df i = i {1... V }, v i = tf D V i log( N df i ) le nombre total de documents du corpus la fréquence du mot V i dans le document D le nombre de mots du corpus contenant V i On note tf pour term frequency et df pour document frequency. Et, tout comme le vecteur de fréquence, le vecteur T F -IDF est habituellement normalisé, pour éliminer les disparités dues aux différences de taille Représentation Séquentielle Cette représentation n est pas un codage au sens propre, puisqu elle consiste à associer à un document, la séquence de ses différents mots, dans l ordre. Cette représentation permet de ne pas perdre d information sur le document étudié. Mais elle nécessite des systèmes plus complexes pour pouvoir traiter ce types d information. Cette conservation de l ordre des mots permet notamment de construire la structure implicite d un document plat, mais nous ne nous intéresserons pas à ce problème dans le présent travail. Cependant, il est aisé de passer d une représentation séquentielle à une représentation vectorielle, alors que le contraire est impossible. C est 11

12 pourquoi nous utiliserons cette représentation séquentielle pour décrire les différents algorithmes, par la suite. 3.2 Classes Intéressons-nous maintenant à la manière de classer les pages Web, selon leur pertinence quant à différentes catégories. Nous désignerons par Γ et, respectivement, l ensemble des classes et l ensemble des documents, considérés. Un outil de classification n est autre qu une fonction de décision φ : Γ {0, 1}, qui rend la pertinence d association d un document de à une classe de Γ Classification bi-classes Ici, Γ = 2, l univers est séparé en deux classes (valide et non-valide). Ce modèle convient à la construction d un filtre, et permet de répondre à la question : Est-ce qu un document D de est valide, ou non?. Ce modèle est notamment utilisé dans les filtres anti-spam, en distinguant deux catégories de mails : désirable et indésirable. Ici, Γ = {C 1 ; C 2 } et Ce qui est équivalent à : φ : Γ {0, 1} (C, D) 1 si D C, et 0 sinon φ : {0, 1} D 1 si D C 1, et 0 sinon Classification multi-classes Ici, Γ > 2, l univers est séparé en différentes catégories, et il faut distinguer le cas classes disjointes du cas classique. Si les classes sont disjointes, la question posée est : A quelle classe, un document D de appartient?, alors que dans le cas classique, elle est : A quelles classes, un document D de appartient?. Le second cas est le plus couramment utilisé dans la recherche, et la classification de documents Ranking et fonction de score Le ranking est une problématique de classification dans laquelle le système ne rend, non plus une réponse booléenne d appartenance à une classe de Γ 12

13 donnée, mais classe les différentes catégories pour un document donné (ou d une manière analogue, classe les documents par ordre de pertinence pour une catégorie donnée). Il est alors nécessaire de définir une fonction de score : Σ : Γ [0; 1] (C, D) la probabilité que D appartienne à C Et l on peut se ramener à la méthode de classification, en définissant (soit à priori, soit par expérimentation), un seuil de tolérance σ ]0; 1[, et en implémentant la fonction de décision de la manière suivante : φ : Γ {0, 1} (C, D) 1 si Σ(C, D) σ, et 0 sinon Système de classes utilisé pour modéliser le problème Notons qu un problème multi-classes à n classes, est équivalent à un système de n problèmes bi-classes. En effet, nous considérons que les différentes classes ont été assez bien délimitées et que la pertinence d un document pour une catégorie n influe pas sur sa pertinence pour une autre catégorie. Les différentes classes sont donc considérées indépendantes. Et nous pouvons séparer les calculs sur ces différentes classes. Nous ne nous intéresserons donc qu à des modèles bi-classes par la suite. De plus, il est aisé de passer d un modèle de ranking à un modèle de classification classique, à l aide d un seuil de tolérance, comme nous l avons vu précédemment. Nous nous intéresserons donc à ce modèle par la suite, quitte à perdre de l information ultérieurement en revenant à une classification binaire. 3.3 Le modèle Naïve Bayes Considérons un document D, représenté par une séquence x = (x 1,..., x n ), où n est le nombre de mots de D. Et plaçons nous dans un modèle bi-classes Γ = {C 1, C 2 }. On considère que C 1 est la classe des valides, et C 2, celle des non-valides. Alors : P(x C1) = P(x 1,..., x n C 1 ) = P(x 1 C 1 ) P(x 2,..., x n x 1, C 1 ) = P(x 1 C 1 ) P(x 2 x 1, C 1 ) P(x 3,..., x n x 2, x 1, C 1 )... 13

14 = n P(x i x i 1,..., x 1, C 1 ) L hypothèse fondamentale du modèle Naïve Bayes est l indépendance conditionnelle des éléments de la séquence entre eux. Ainsi, i {1,..., n}, P(x i x i 1,..., x 1, C 1 ) = P(x i C 1 ). Et on obtient donc : n P(x C 1 ) = P(x i C 1 ) On parle d inférence linéaire en la taille de la séquence (O( X )). Remarque : Cette hypothèse est bien sur complètement fausse... Par exemple la présence du mot Roissy influe sur celle du mot (de la séquence ici) Charles de Gaulle. Mais elle permet une modélisation simple du problème Phase d apprentissage Cette phase permet d estimer les différents paramètres P(x i C 1 ), à partir d un échantillon constitué d un corpus de documents. Dans le cas présent, cette phase ne peut co-exister avec la phase de test, ce qui empêche toute amélioration ultérieure des estimations. Soit X = (x 1,..., x p ), un échantillon de séquences correspondant à un corpus de documents. On ordonne X de telle manière que x 1,..., x l sont des séquences correspondant à des documents valides (et x l+1,..., x p des nonvalides). p La vraisemblance du modèle s écrit alors : l θ = P(x i C 1 ). En maximisant son logarithme, par la méthode des multiplicateurs de Lagrange, on obtient que pour tout v, mot du vocabulaire V, l estimateur du maximum de vraisemblance de P(v C 1 ) est : θ v = l N xi v l w V N xi w Où pour toute séquence x, v V, N x v est le nombre d occurrences de v dans x. Cette phase d apprentissage nécessite donc de compter les occurrences de 14

15 chaque mot du vocabulaire V dans chaque document du corpus d apprentissage. Et sa complexité est O( V X ), où X est la taille du corpus. Pour ne pas trop défavoriser les mots de V qui ne sont pas présents dans le corpus, nous utiliserons le lissage de Laplace : θ v = l l w V N xi v + 1 N xi w + V Un mot absent du corpus aura alors une probabilité non nulle : 1, n Nw xi + V et ne sera plus considéré comme négligeable. w V Phase de test Une fois l apprentissage effectué, et les estimateurs θ v de P(v C 1 ), calculés pour tout v V, vient la phase de test. Considérons un document D, que l on souhaite tester, représenté par une séquence x = (x 1,..., x n ). Alors on estime la probabilité que D soit un document valide par le score : P(C 1 x) = P(C 1) P(x) P(x C 1) = P(C 1) n P(x) P(x i C 1 ) γ C1 n γ xi n θ xi Où γ C1 et γ xi, sont des estimateurs respectifs des fréquences d apparition de C 1 et de x i dans le corpus d apprentissage (autrement dit, le nombre relatifs de documents valides, et la fréquence d apparition du mot x i dans tout le corpus). Autrement dit, la probabilité qu un document soit valide s exprime en fonction des fréquences de ses mots, dans le corpus d apprentissage de documents valides. 15

16 4 Adaptations du modèle Naïve Bayes aux documents structurés 4.1 Utilisation de la sémantique des balises HTML Dans le cas particulier des pages HTML, une première solution consiste à utiliser une estimation de l importance relative de chaque partie du document. En effet, on peut supposer que la présence d un mot à l intérieur d une balise title ou bold importe plus que sa présence à l intérieur d une balise small, par exemple. Il s agit alors de trouver, par l expérience, des coefficients performants pour déterminer l intérêt relatif des différentes balises. Cette méthode utilise donc l algorithme Naïve Bayes, pour chacune des balises considérées, puis combine ces résultats pour rendre un score. Considérons, par exemple que (t 1,..., t n ) est l ensemble des balise considérées. On va coder un document D par n séquences, x i, i {1..n}, (resp. n vecteurs), qui sont respectivement la concaténation de toutes les séquences (resp. la conjonction ou la moyenne de tous les vecteurs) codant des textes encapsulés dans la balise t i. Après avoir effectué les n phases d apprentissage, correspondant aux différentes balises, on lance alors n processus de test sur chacune des séquences. Le résultat est le produits de n scores (s x1,..., s xn ), auxquels on associe les coefficients (δ 1,.., δ n ) pour obtenir un score final : n s D = δ i s xi Cette méthode présente des résultats relativement bons selon la distribution (δ i ) choisie, mais, en plus d être expérimentale (à cause de ce choix justement), elle présente un grave inconvénient : elle suppose une connaissance à priori du langage utilisé, et n est pas évolutive (le nombre de balises considérées ne peut pas évoluer). Malgré une très forte présence du format HTML sur le Web, on lui préférera donc une méthode plus générale, plus évolutive, et moins contraignante. 4.2 Représentation d un document structuré Afin de pouvoir utiliser le formalisme des réseaux bayesiens, nous utiliserons une représentation simplifiée des documents structurés par des arbres. Cette sous-partie des graphes orientés acycliques correspond à des documents de type XML, et n est pas suffisante pour représenter des documents 16

17 plus complexes comme des sites Web, où des cycles peuvent exister. Cependant, cette représentation permet d obtenir des résultats acceptables, tout en minimisant la complexité. Chaque noeud de l arbre correspond à une entité structurelle du document (un titre ou un paragraphe, par exemple). Et chaque arc de l arbre représente une relation de dépendance entre deux entités. Relation déduite de la structure hiérarchique du document (par exemple, le père du noeud représentant une section sera le noeud représentant la page contenant cette section). Chaque noeud de l arbre contient deux informations : Une étiquette donnant la nature de l entité structurelle considérée Un contenu (on ne considérera que des contenus textuels ici) Document, texte 1 Section 1, texte 2 Section 2, texte 3 Section 3, texte 4 Paragraphe 1, texte 5 Paragraphe 2, texte 6 Fig. 4 Un exemple de représentation d un document structuré. 4.3 Modèles locaux de type Naïve Bayes Nous considérerons qu un document est constitué d un couple D = (s, t) où s est la structure du document et t son contenu. On notera s = (s 1,.., s n ) et t = (t 1,.., t n ), où n est la taille de l arbre représentant D, et, pour tout i {1..n}, (s i, t i ) est l information du i eme noeud. Le score d un document D = (s, t) est alors le produit d un score de 17

18 structure et d un score de contenu : P(D C 1 ) = P(s, t C 1 ) = P(s C 1 ) P(t s, C 1 ) On considère ainsi que la structure d un document influe sur son contenu, et non le contraire (l auteur d un document créé d abord sa structure avant de le remplir.) Probabilité structurelle On utilise ici un modèle de structure qui se calque sur la structure logique du document et ne prend en compte que la relation parent-enfant entre les différentes parties du document. Ceci afin de restreindre le nombre de paramètres du système à estimer, afin de minimiser la complexité. On estime donc que chaque noeud de l arbre est indépendant de tous les autres, sauf son père. On obtient alors la formule qui exprime le score d une structure s = (s 1,.., s n ) en fonction des scores des s i : n P(s C 1 ) = P(s 1,.., s n C 1 ) = P(s i sp(i), C 1 ) Où sp associe à un entier i, l étiquette (la structure) du père du i eme noeud Probabilité de contenu Afin de simplifier encore le système, nous allons considérer que les contenus des noeuds sont indépendants les uns des autres, et qu ils ne dépendent que de l étiquette du noeud qui les contient (et non des autres). On obtient alors : P(t s, C 1 ) = P(t 1,.., t n s, C 1 ) = n P(t i s, C 1 ) = = n n P(t i s 1,.., s n, C 1 ) P(t i s i, C 1 ) On suppose donc que lors de la création d un document, l auteur utilise des style et vocabulaire spéciaux, pour chaque balise. Cette hypothèse nous 18

19 permet de différencier les différentes parties en leur associant des estimateurs qui leur sont spécifiques et dépendent uniquement de leur structure. Nous verrons que cela permet un apprentissage dynamique beaucoup moins coûteux Apprentissage Nous allons utiliser à nouveau, la méthode du maximum de vraisemblance. Soit un corpus d apprentissage. La vraisemblance du modèle s écrit : l θ = D = D = = D ( D = l structure θ P(D C 1 ) P(s C 1 ) P(t s, C 1 ) D P(s C 1 ) P(t i s i, C 1 ) P(s C 1 ) ) l contenu θ D D Apprentissage des paramètres de contenu : l contenu θ = D D = e Λ = e Λ P(t i s i, C 1 ) D D /s i =e lθ contenu (e) P(t i s i, C 1 ) P(t i s i, C 1 ) Où Λ désigne l ensemble des étiquettes. La maximisation de lθ contenu s effectue donc en maximisant chacune des vraisemblances des modèles locaux (à structure déterminée). On effectue donc (de même qu en 4.1), un apprentissage pour les noeuds étiquetés titre, un autre pour ceux étiquetés paragraphe, etc... Ainsi, chaque modèle est appris indépendamment sur les données qui le concernent, ce qui présente deux avantages considérables, d un point de vue dynamique : 19

20 Si un nouveau document est utilisé en apprentissage, il ne faut mettre à jour que les modèles correspondant aux différents noeuds de ce document Si un document d apprentissage possède un noeud muni d une étiquette jusqu alors inconnue, il suffit de créer un nouveau modèle local pour les noeuds de ce type, sans avoir à réapprendre tout le modèle. Apprentissage des paramètres de structure : Les paramètres de structure sont les différentes probabilités que, dans un document valide, un noeud possède un fils muni d une certaine étiquette ( P(s i sp(i), C 1 ) ). Notons θ s n,m, l estimateur (du maximum de vraisemblance) de la probabilité P(s i = n sp(i) = m, C 1 ). Alors : l structure θ = D D D θs s i,sp(i) D = P(s i sp(i), C 1 ) De même qu en 3.3.1, en maximisant la log-vraisemblance à l aide des multiplicateurs de Lagrange, on obtient : (n, m) Λ 2, θ s n,m = Nn,m D D Nn D,m D n Λ Où, ici, pour tout document D du corpus d entraînement, N D n,m est le nombre d occurrences de liaisons de type (n,.) (m,.) dans D. Et, de même que précédemment, on utilisera un lissage, en pratique, afin de ne pas trop défavoriser les types de liaisons absents du corpus : (n, m) Λ 2, θ s n,m = D D n Λ N D n,m + 1 N D n,m + Λ L estimation des paramètres de structure est donc simple et rapide (elle ne nécessite encore qu un unique parcours du corpus d apprentissage). Par contre, contrairement à l apprentissage des paramètres de contenu, elle ne pourra être utilisée de façon dynamique efficacement, 20

21 car l apport d un nouveau document ou d une nouvelle étiquette oblige à recalculer l ensemble des paramètres. Ce modèle est cependant satisfaisant, car on peut supposer qu il est plus facile de produire un corpus satisfaisant pour la structure que pour le contenu Test Grâce à nos hypothèses sur les hypothèses structurelles et de contenu, on obtient alors la probabilité finale pour un document D = (s, t) : D P(D C 1 ) = P(s C 1 ) P(t i s i, C 1 ) D D = P(s i sp(i), C 1 ) P(t i s i, C 1 ) Et, de la même manière qu en 3.3.2, on estime alors la pertinence du document D par : P(C 1 D) = P(C 1) P(D) P(D C 1) = P(C D D 1) P(D) P(s i sp(i), C 1 ) P(t i s i, C 1 ) γ D D C 1 θs s γ i,sp(i) θ ti (s i ) D Où, i {1.. D }, θ ti (s i ), est l estimateur rendu par un modèle Naïve Bayes local sur le contenu t i, à structure s i connue. 21

22 Score final NB local texte 1 Document, texte 1 Structure Structure NB local texte 2 Section 1, texte 2 Section 2, texte 3 Structure Structure Section 3, texte 4 Paragraphe 1, texte 5 Paragraphe 2, texte 6 NB local texte 5 NB local texte 6 Fig. 5 Fonctionnement de l algorithme. 5 Application à Burfiks et perspectives Pour adapter ce modèle à Burfiks, il faut donc créer un classifier qui construise un réseau bayesien pour chaque document du corpus d entraînement, apprenne les différents paramètres de ces réseaux avec les formules vues en 4.3.3, puis estime la pertinence d une catégorie à l aide du résultat de Modèle de classes utilisé en pratique : Dans le cas particulier de Burfiks, le modéle de ranking multi-classes serait le plus informatif, car il renseigne sur la pertinence relative quant à différentes classes, d un document donné. Néanmoins, il pourrait s avérer un peu trop complexe dans le cadre d une utilisation normale d un navigateur Web. Et on pourrait lui préférer le modèle multiclasses, moins précis, mais plus lisible dans la side-bar d un navigateur. On pourrait alors imaginer afficher, pour chaque lien présent dans la side-bar, soit la classe qui semble la plus pertinente (cas du ranking), soit l ensemble des classes qui semblent pertinentes (cas classique). 22

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2 Probabilités Table des matières I Petits rappels sur le vocabulaire des ensembles 2 I.1 s................................................... 2 I.2 Propriétés...................................................

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Qu est-ce qu une probabilité?

Qu est-ce qu une probabilité? Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont

Plus en détail

Probabilité. Table des matières. 1 Loi de probabilité 2 1.1 Conditions préalables... 2 1.2 Définitions... 2 1.3 Loi équirépartie...

Probabilité. Table des matières. 1 Loi de probabilité 2 1.1 Conditions préalables... 2 1.2 Définitions... 2 1.3 Loi équirépartie... 1 Probabilité Table des matières 1 Loi de probabilité 2 1.1 Conditions préalables........................... 2 1.2 Définitions................................. 2 1.3 Loi équirépartie..............................

Plus en détail

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques : MTH EN JEN 2013-2014 Elèves de seconde, première et terminale scientifiques : Lycée Michel Montaigne : HERITEL ôme T S POLLOZE Hélène 1 S SOK Sophie 1 S Eteindre Lycée Sud Médoc : ROSIO Gauthier 2 nd PELGE

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Probabilités conditionnelles Loi binomiale

Probabilités conditionnelles Loi binomiale Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard

Plus en détail

Systèmes d information et bases de données (niveau 1)

Systèmes d information et bases de données (niveau 1) Systèmes d information et bases de données (niveau 1) Cours N 1 Violaine Prince Plan du cours 1. Bibliographie 2. Introduction aux bases de données 3. Les modèles 1. Hiérarchique 2. Réseau 3. Relationnel

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln. MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.fr Plan Introduction Généralités sur les systèmes de détection d intrusion

Plus en détail

Apprentissage statistique dans les graphes et les réseaux sociaux

Apprentissage statistique dans les graphes et les réseaux sociaux Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

A. Définition et formalisme

A. Définition et formalisme Les cardinalités et les différents types d'associations I. Les cardinalités A. Définition et formalisme Les cardinalités sont des couples de valeur que l'on trouve entre chaque entité et ses associations

Plus en détail

Gé nié Logiciél Livré Blanc

Gé nié Logiciél Livré Blanc Gé nié Logiciél Livré Blanc Version 0.2 26 Octobre 2011 Xavier Blanc Xavier.Blanc@labri.fr Partie I : Les Bases Sans donner des définitions trop rigoureuses, il faut bien commencer ce livre par énoncer

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Les diagrammes de modélisation

Les diagrammes de modélisation L approche Orientée Objet et UML 1 Plan du cours Introduction au Génie Logiciel L approche Orientée Objet et Notation UML Les diagrammes de modélisation Relations entre les différents diagrammes De l analyse

Plus en détail

Plus courts chemins, programmation dynamique

Plus courts chemins, programmation dynamique 1 Plus courts chemins, programmation dynamique 1. Plus courts chemins à partir d un sommet 2. Plus courts chemins entre tous les sommets 3. Semi-anneau 4. Programmation dynamique 5. Applications à la bio-informatique

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

SECTION 5 BANQUE DE PROJETS

SECTION 5 BANQUE DE PROJETS SECTION 5 BANQUE DE PROJETS INF 4018 BANQUE DE PROJETS - 1 - Banque de projets PROJET 2.1 : APPLICATION LOGICIELLE... 3 PROJET 2.2 : SITE WEB SÉMANTIQUE AVEC XML... 5 PROJET 2.3 : E-LEARNING ET FORMATION

Plus en détail

Le produit semi-direct

Le produit semi-direct Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Probabilités. C. Charignon. I Cours 3

Probabilités. C. Charignon. I Cours 3 Probabilités C. Charignon Table des matières I Cours 3 1 Dénombrements 3 1.1 Cardinal.................................................. 3 1.1.1 Définition............................................. 3

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

1.1 Des concepts et termes techniques à maîtriser... 20 1.2 La formule magique du référencement... 34 1.3 Tricher ou non en référencement... 35 1.

1.1 Des concepts et termes techniques à maîtriser... 20 1.2 La formule magique du référencement... 34 1.3 Tricher ou non en référencement... 35 1. 1 1.1 Des concepts et termes techniques à maîtriser... 20 1.2 La formule magique du référencement... 34 1.3 Tricher ou non en référencement... 35 1.4 Résumé de ce chapitre... 40 Optimiser des pages pour

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Recherche Web B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques basés sur les documents

Plus en détail

Groupe Eyrolles, 2006, ISBN : 2-212-11734-5

Groupe Eyrolles, 2006, ISBN : 2-212-11734-5 Groupe Eyrolles, 2006, ISBN : 2-212-11734-5 Chapitre 6 La gestion des incidents Quelles que soient la qualité du système d information mis en place dans l entreprise ou les compétences des techniciens

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million XML, PMML, SOAP Rapport EPITA SCIA Promo 2004 16 janvier 2003 Julien Lemoine Alexandre Thibault Nicolas Wiest-Million i TABLE DES MATIÈRES Table des matières 1 XML 1 1.1 Présentation de XML.................................

Plus en détail

Probabilités (méthodes et objectifs)

Probabilités (méthodes et objectifs) Probabilités (méthodes et objectifs) G. Petitjean Lycée de Toucy 10 juin 2007 G. Petitjean (Lycée de Toucy) Probabilités (méthodes et objectifs) 10 juin 2007 1 / 19 1 Déterminer la loi de probabilité d

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières FONDEMENTS MATHÉMATIQUES 12 E ANNÉE Mathématiques financières A1. Résoudre des problèmes comportant des intérêts composés dans la prise de décisions financières. [C, L, RP, T, V] Résultat d apprentissage

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

Probabilités conditionnelles

Probabilités conditionnelles Probabilités conditionnelles Exercice Dans une usine, on utilise conjointement deux machines M et M 2 pour fabriquer des pièces cylindriques en série. Pour une période donnée, leurs probabilités de tomber

Plus en détail

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration Julien MATHEVET Alexandre BOISSY GSID 4 Rapport Load Balancing et migration Printemps 2001 SOMMAIRE INTRODUCTION... 3 SYNTHESE CONCERNANT LE LOAD BALANCING ET LA MIGRATION... 4 POURQUOI FAIRE DU LOAD BALANCING?...

Plus en détail

1. Des chartes graphiques homogènes, élégantes, créatives

1. Des chartes graphiques homogènes, élégantes, créatives Comment sont résolues des difficultés rencontrées par les sites de première génération? Comment faire vivre facilement des sites élégants, réactualisés, à contenu riche, et aux fonctionnalités évolutives?

Plus en détail

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au

Plus en détail

Chapitre VI- La validation de la composition.

Chapitre VI- La validation de la composition. Chapitre VI- La validation de la composition. Objectifs du chapitre : Expliquer les conséquences de l utilisation de règles de typage souples dans SEP. Présenter le mécanisme de validation des connexions

Plus en détail

Chapitre 7. Récurrences

Chapitre 7. Récurrences Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Probabilités conditionnelles Exercices corrigés

Probabilités conditionnelles Exercices corrigés Terminale S Probabilités conditionnelles Exercices corrigés Exercice : (solution Une compagnie d assurance automobile fait un bilan des frais d intervention, parmi ses dossiers d accidents de la circulation.

Plus en détail

5. Apprentissage pour le filtrage collaboratif

5. Apprentissage pour le filtrage collaboratif 686 PARTIE 5 : Au-delà de l apprentissage supervisé 5. Apprentissage pour le filtrage collaboratif Il semble que le nombre de choix qui nous sont ouverts augmente constamment. Films, livres, recettes,

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Bien architecturer une application REST

Bien architecturer une application REST Olivier Gutknecht Bien architecturer une application REST Avec la contribution de Jean Zundel Ce livre traite exactement du sujet suivant : comment faire pour que les services web et les programmes qui

Plus en détail

Chaînes de Markov au lycée

Chaînes de Markov au lycée Journées APMEP Metz Atelier P1-32 du dimanche 28 octobre 2012 Louis-Marie BONNEVAL Chaînes de Markov au lycée Andreï Markov (1856-1922) , série S Problème 1 Bonus et malus en assurance automobile Un contrat

Plus en détail

Introduction aux concepts d ez Publish

Introduction aux concepts d ez Publish Introduction aux concepts d ez Publish Tutoriel rédigé par Bergfrid Skaara. Traduit de l Anglais par Benjamin Lemoine Mercredi 30 Janvier 2008 Sommaire Concepts d ez Publish... 3 Système de Gestion de

Plus en détail

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de : REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABOUBEKR BELKAID-TLEMCEN FACULTE DES SCIENCES DEPARTEMENT D INFORMATIQUE

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Cours de Génie Logiciel

Cours de Génie Logiciel Cours de Génie Logiciel Sciences-U Lyon Diagrammes UML (2) http://www.rzo.free.fr Pierre PARREND 1 Avril 2005 Sommaire Les Diagrammes UML Diagrammes de Collaboration Diagrammes d'etats-transitions Diagrammes

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Chapitre 2. Eléments pour comprendre un énoncé

Chapitre 2. Eléments pour comprendre un énoncé Chapitre 2 Eléments pour comprendre un énoncé Ce chapitre est consacré à la compréhension d un énoncé. Pour démontrer un énoncé donné, il faut se reporter au chapitre suivant. Les tables de vérité données

Plus en détail

TD : Codage des images

TD : Codage des images TD : Codage des images Les navigateurs Web (Netscape, IE, Mozilla ) prennent en charge les contenus textuels (au format HTML) ainsi que les images fixes (GIF, JPG, PNG) ou animée (GIF animée). Comment

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Les Architectures Orientées Services (SOA)

Les Architectures Orientées Services (SOA) Les Architectures Orientées Services (SOA) Ulrich Duvent Guillaume Ansel Université du Littoral Côte d Opale 50, Rue Ferdinand Buisson BP 699 62228 Calais Cedex Téléphone (33) 03.21.46.36.92 Télécopie

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte Projet d informatique M1BI : Compression et décompression de texte Le but de ce projet est de coder un programme réalisant de la compression et décompression de texte. On se proposera de coder deux algorithmes

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

www.h-k.fr/publications/objectif-agregation

www.h-k.fr/publications/objectif-agregation «Sur C, tout est connexe!» www.h-k.fr/publications/objectif-agregation L idée de cette note est de montrer que, contrairement à ce qui se passe sur R, «sur C, tout est connexe». Cet abus de langage se

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Conception des systèmes répartis

Conception des systèmes répartis Conception des systèmes répartis Principes et concepts Gérard Padiou Département Informatique et Mathématiques appliquées ENSEEIHT Octobre 2012 Gérard Padiou Conception des systèmes répartis 1 / 37 plan

Plus en détail

Calculs de probabilités conditionelles

Calculs de probabilités conditionelles Calculs de probabilités conditionelles Mathématiques Générales B Université de Genève Sylvain Sardy 20 mars 2008 1. Indépendance 1 Exemple : On lance deux pièces. Soit A l évènement la première est Pile

Plus en détail

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE SûretéGlobale.Org La Guitonnière 49770 La Meignanne Téléphone : +33 241 777 886 Télécopie : +33 241 200 987 Portable : +33 6 83 01 01 80 Adresse de messagerie : c.courtois@sureteglobale.org APPORT DES

Plus en détail