Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien"

Transcription

1 Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin

2 Table des matières 1 Présentation et objectifs Problématique Présentation de Burfiks Introduction au formalisme Bayesien Historique Généralités Probabilités conditionnelles La formule de Bayes Intuition Les Réseaux Bayesiens Le modèle Naïve Bayes pour les documents plats Encodage d un document Représentation Vectorielle Représentation Séquentielle Classes Classification bi-classes Classification multi-classes Ranking et fonction de score Système de classes utilisé pour modéliser le problème Le modèle Naïve Bayes Phase d apprentissage Phase de test Adaptations du modèle Naïve Bayes aux documents structurés Utilisation de la sémantique des balises HTML Représentation d un document structuré Modèles locaux de type Naïve Bayes Probabilité structurelle Probabilité de contenu Apprentissage Test Application à Burfiks et perspectives 22 6 Bibliographie 24 2

3 1 Présentation et objectifs 1.1 Problématique Avec l essor exponentiel de la quantité d information disponible sur le Web, la qualité des résultats fournis par les moteurs de recherche, tel Google se dégrade inexorablement. La première idée de ce travail était d améliorer les résultats de ces moteurs de recherche, en leur appliquant un filtre statistique appelé filtre Bayesien, qui fut popularisé par Paul Graham lorsqu il l appliqua à la lutte anti-spam. Puis il est apparu que le filtrage de l ensemble des résultats d une requête Google est trop contraignant lors d une recherche sur Internet. C est alors qu est venue l idée de Surf Bayesien. Un filtre Bayesien, non pas uniquement sur les résultats d une requête Google, mais sur l ensemble des liens présents sur chacune des pages visitées. L objectif étant d obtenir un outil qui permette de guider l utilisateur, en lui donnant la pertinence de chacun des liens présents sur la page qu il visite. Il nous faut donc construire un outil capable de catégoriser, en temps réel, (selon différents profils déterminés à l avance (ou non comme nous le verrons)), les différents sites et pages présents sur le Web. L algorithme (les statisticiens parleront de méthode), le plus couramment utilisé dans le filtrage Bayesien, est la méthode Naïve Bayes. Cette méthode présente tout de même deux inconvénients majeurs en ce qui concerne notre objectif de classification dynamique de pages Web : Elle ne considère que des documents plats, i.e elle ne s intéresse qu au contenu d un document et non à sa strucure. Ce qui est fort dommageable, surtout dans le cas de langages semi-structurés tels XML. En effet, la structure d un document peut amener des informations supplémentaires sous trois formes : 1. La structure elle-même peut être une information (la structure d une page contenant une dépêche de presse est bien différente de celle d une page contenant un forum de discussion, par exemple) 2. Un mot contenu dans la page peut avoir une importance différente selon son emplacement (un mot contenu dans le titre ou encore écrit en gras, par exemple, sera considéré particulièrement). 3. Les relations d inclusion, ou hyper-liens, reliant différentes pages peuvent aussi apporter une information de dépendance entre les pages (par exemple, un site contenant une page intéressante, peut être considéré comme intéressant). 3

4 La méthode Naïve Bayes est figée : 1. D une part, elle est séparée en deux parties : une phase d apprentissage permettant d estimer les différents paramètres du problème, puis une phase de test, qui, elle seule estime la pertinence d un document. Elle nécessite donc un corpus d apprentissage, et ne peut plus améliorer ses résultats, une fois cet apprentissage terminé. Or, dans le cas d une classification d un ensemble gigantesque de documents, tel le Web, un corpus d apprentissage efficace devient très volumineux. C est pourquoi un apprentissage dynamique, couplé à la phase de test, serait plus judicieux, dans ce cas. 2. D autre part, elle fixe le nombre de classes (catégories) différentes une fois pour toutes, lors de la phase d apprentissage. Or, en pratique, un utilisateur peut avoir envie de créer un nouveau profil de recherche, sans perdre toute l information de l apprentissage déjà effectué. Il serait donc judicieux de prévoir un fonctionnement dynamique également, en ce qui concerne le nombre de classes. Nous allons donc explorer, et tenter d adapter, les différentes méthodes statistiques, notamment proposées par Luc Denoyer et al., qui pourraient permettre de prendre, le mieux possible, en compte la structure d un document, lors de sa classification. Et nous nous intéresserons à la capacité dynamique de ces méthodes, afin de produire un outil efficace et polyvalent. 1.2 Présentation de Burfiks Ce travail se base sur (et se veut la continuité de) celui d Alexandre Bertails, qu il a réalisé l année dernière sous la direction de M. di Cosmo (voir http : //alexandre.bertails.f ree.f r/maitrise/t ER Rapport.tar.gz). Burfiks est un module s adjoignant au navigateur Mozilla, qui se présente sous la forme d une side-bar, affichant, en temps réel, la liste des liens présents dans la page active. L objectif de ce travail est de comprendre comment adapter les techniques statistiques à notre disposition, afin d obtenir un outil qui permette de noter les différents liens présents dans la side-bar. 4

5 Fig. 1 Burfiks en cours de développement. 5

6 L architecture de Burfiks est composée de quatre modules : Polipo, un proxy Web, développé par Juliusz Chroboczek (voir http ://www.pps.jussieu.fr/ jch/software/polipo/ ). Burfiks.xul définit l interface utilisateur dans Mozilla. Burfiks Server, centre névralgique du système, qui se charge de récolter et distribuer les différentes informations entre les modules. Il répond à une requête de Burfiks.xul, en pré-chargeant les pages filles (i.e destinations d un hyper-lien) de la page active, via Polipo, puis en interrogeant Burfiks Classifier, quant à leurs pertinences respectives. Burfiks Classifier est l objet de ce travail. Son rôle est de classer un ensemble de pages web, fourni par Burfiks Server, et de restituer le degré de pertinence de chaque page pour la catégorie retenue.par manque de temps, il ne sera pas opérationnel à la date de soutenance de ce TRE, mais nous allons présenter différents algorithmes et méthodes statistiques qui peuvent être utilisés pour son implémentation. World Wide Web Proxy Polipo Burfiks Classifier Burfiks Server Burfiks.xul Mozilla Fig. 2 Architecture de Burfiks 6

7 2 Introduction au formalisme Bayesien 2.1 Historique Thomas Bayes ( ), mathématicien britannique, passa de nombreuses années à tenter de déterminer ce que l on appelle actuellement la distribution d une loi binomiale. De ses travaux découlèrent, à titre posthume en 1763, la formule de Bayes dont les applications statistiques sont nombreuses aujourd hui. Elle est notamment utilisée, depuis les années 90, dans le domaine de la Recherche d Information (de documents plats), et dans celui des filtres anti-spam. Nous souhaiterions maintenant l utiliser pour la classification dynamique de documents structurés. 2.2 Généralités Probabilités conditionnelles Contrairement aux probabilités classiques, les probabilités conditionnelles permettent de faire apparaître les relations de cause à effet qui lient deux événements. Si A et B sont deux événements (que l on représente, en statistique, par deux variables aléatoires), la probabilité (à postériori) de A sachant B est la probabilité que l événement A se produise, sachant que l événement B se produit également. D un point de vue mathématique, cela donne : P(A B) = P(A B) P(B) i.e la probabilité de A sachant B est égale à la probabilité de (A et B), relativisée par celle de B. Deux événements sont indépendants lorsque l occurrence de l un n a pas d influence sur l occurrence de l autre. Dans ce cas, alors P(A B) = P(A) P(B) P(A B) = P(A) P(B) P(B) = P(A) Autrement dit, si A et B sont indépendants, la probabilité de A sachant B est égale à la probabilité de A. 7

8 2.2.2 La formule de Bayes Les probabilités de A sachant B, et de B sachant A s écrivant respectivement : P(A B) P(A B) = P(B) P(B A) = On obtient aisément la formule de Bayes : Intuition P(A B) P(A) P(A B) = P(A) P(B A) P(B) La formule de Bayes exprime donc le fait que la probabilité de A sachant B peut se calculer en fonction de celle de A, celle de B, et enfin celle de B sachant A. D un point de vue pratique, si nous prenons pour exemple : A = le document étudié contient le mot toto et B = le document étudié appartient à la catégorie Sciences Alors on peut estimer : la probabilité du fait que le document étudié appartient à la catégorie Sciences sachant qu il contient le mot toto, en fonction de : la probabilité du fait que le document étudié contient le mot toto sachant qu il appartient à la catégorie Sciences. (Sans oublier de relativiser par les probabilités qu un document quelconque contienne le mot toto, et qu il appartienne à la catégorie Sciences.) Autrement dit, l information à priori (ici, une estimation du pourcentage de pages appartenant à la catégorie Sciences, qui contiennent le mot toto) permet de calculer l information à postériori (ici, la probabilité qu une page qui contient le mot toto, appartienne à la catégorie Sciences). 2.3 Les Réseaux Bayesiens Les réseaux Bayesiens sont un formalisme permettant de représenter et manipuler les dépendances conditionnelles entre différents événements. Ils sont largement utilisés pour représenter les réseaux de neurones, ou encore pour construire des outils d aide au diagnostic médical. 8

9 Soit A = {A 1,..., A n }, un ensemble de n événements. Un réseau Bayesien sur cet ensemble, est un graphe orienté acyclique (DAG) G = (A, U), où U est un ensemble d arcs reliant les différents sommets A i, et exprimant leurs dépendances. Il a plu cette nuit Mon arroseur est resté allumé Le jardin de mon voisin est mouillé Mon jardin est mouillé Fig. 3 Un exemple de réseau Bayesien Ici, on peut donc exprimer la probabilité que mon jardin soit mouillé sachant qu il a plu cette nuit, ou sachant que mon arroseur automatique est resté allumé (ou les deux). Et l on suppose, par la structure du graphe, que le fait que mon arroseur automatique soit resté allumé, n influe pas sur le fait que jardin de mon voisin soit mouillé (on suppose que la clôture est assez haute...). Une fois que ces probabilités sont connues (ou estimées), on obtient un graphe étiqueté modélisant la table de dépendance conditionnelle des événements. 3 Le modèle Naïve Bayes pour les documents plats 3.1 Encodage d un document Intéressons nous, tout d abord, aux façons de coder un document plat. Soit V = V 1...V V, (le vocabulaire), l ensemble des mots que nous considérons 9

10 (nous passons sur la phase de pré-traitement qui consiste à retirer du vocabulaire les mots trop courants (comme les mots de liaison, par exemple), à regrouper les mots de sens très proche (comme chat et chaton, par exemple), etc...) Représentation Vectorielle Encore appelée représentation en sac de mots, cette représentation ne prend pas en compte l ordre des mots, mais seulement leur présence dans le document. 1. Représentation vectorielle classique Vecteur Binaire : Un document D est représenté par un vecteur binaire v = v 1...v V de taille V. Pour tout i {1... V }, v i = { 0 s il n y a pas d occurrence de Vi dans D 1 sinon Ce codage, dit par mots-clés, est très pauvre car il ne prend en compte que la présence d un mot et non le nombre de ses occurences présentes. Néanmoins, il est encore fréquemment utilisé car sa simplicité est un atout majeur pour des systèmes nécessitant des temps de calcul faibles. Vecteur de fréquence : Cette fois-ci, on représente D par un vecteur v = v 1...v V, dont les composantes sont des entiers naturels. On tient compte ainsi du nombre d occurrences de chaque mot dans D. Pour tout i {1... V }, v i = le nombre d occurences de V i dans D. Cette méthode attribue des vecteurs de grande norme aux longs documents. Ceci peut être un avantage, dans le cadre de certaines recherches ciblées, mais cela peut aussi être un inconvénient et désavantager les grands documents. Il suffit alors de considérer le vecteur normalisé : V = V V. Ainsi, les documents ne sont plus discriminés par leurs tailles. 2. Représentation vectorielle avancée 10

11 Vecteur TF-IDF : Cette représentation tente d être plus informative en ce qui concerne l ordre et la fréquence des termes. Elle repose sur la loi de Zipf, censée modéliser le rapport entre importance et fréquence des mots dans un document. Cette loi peut s énoncer de manière informelle : un mot dans un document, est d autant plus important qu il est fréquent dans le document, et peu fréquent dans le corpus entier Notons que cette représentation, bien que très informative, n est pas utilisable, en pratique, de façon dynamique, car elle nécessiterait de ré-encoder chacun des documents lorsque l ensemble des documents rencontrés s accroît. Néanmoins, en ce qui concerne Burfiks, elle pourrait tout de même s avérer intéressante en version statique, en imaginant d avoir à disposition, une estimation raisonnable des fréquences d apparition des mots sur l ensemble du Web, par exemple. La formule utilisée la plus classique est : N = où tfv D i = df i = i {1... V }, v i = tf D V i log( N df i ) le nombre total de documents du corpus la fréquence du mot V i dans le document D le nombre de mots du corpus contenant V i On note tf pour term frequency et df pour document frequency. Et, tout comme le vecteur de fréquence, le vecteur T F -IDF est habituellement normalisé, pour éliminer les disparités dues aux différences de taille Représentation Séquentielle Cette représentation n est pas un codage au sens propre, puisqu elle consiste à associer à un document, la séquence de ses différents mots, dans l ordre. Cette représentation permet de ne pas perdre d information sur le document étudié. Mais elle nécessite des systèmes plus complexes pour pouvoir traiter ce types d information. Cette conservation de l ordre des mots permet notamment de construire la structure implicite d un document plat, mais nous ne nous intéresserons pas à ce problème dans le présent travail. Cependant, il est aisé de passer d une représentation séquentielle à une représentation vectorielle, alors que le contraire est impossible. C est 11

12 pourquoi nous utiliserons cette représentation séquentielle pour décrire les différents algorithmes, par la suite. 3.2 Classes Intéressons-nous maintenant à la manière de classer les pages Web, selon leur pertinence quant à différentes catégories. Nous désignerons par Γ et, respectivement, l ensemble des classes et l ensemble des documents, considérés. Un outil de classification n est autre qu une fonction de décision φ : Γ {0, 1}, qui rend la pertinence d association d un document de à une classe de Γ Classification bi-classes Ici, Γ = 2, l univers est séparé en deux classes (valide et non-valide). Ce modèle convient à la construction d un filtre, et permet de répondre à la question : Est-ce qu un document D de est valide, ou non?. Ce modèle est notamment utilisé dans les filtres anti-spam, en distinguant deux catégories de mails : désirable et indésirable. Ici, Γ = {C 1 ; C 2 } et Ce qui est équivalent à : φ : Γ {0, 1} (C, D) 1 si D C, et 0 sinon φ : {0, 1} D 1 si D C 1, et 0 sinon Classification multi-classes Ici, Γ > 2, l univers est séparé en différentes catégories, et il faut distinguer le cas classes disjointes du cas classique. Si les classes sont disjointes, la question posée est : A quelle classe, un document D de appartient?, alors que dans le cas classique, elle est : A quelles classes, un document D de appartient?. Le second cas est le plus couramment utilisé dans la recherche, et la classification de documents Ranking et fonction de score Le ranking est une problématique de classification dans laquelle le système ne rend, non plus une réponse booléenne d appartenance à une classe de Γ 12

13 donnée, mais classe les différentes catégories pour un document donné (ou d une manière analogue, classe les documents par ordre de pertinence pour une catégorie donnée). Il est alors nécessaire de définir une fonction de score : Σ : Γ [0; 1] (C, D) la probabilité que D appartienne à C Et l on peut se ramener à la méthode de classification, en définissant (soit à priori, soit par expérimentation), un seuil de tolérance σ ]0; 1[, et en implémentant la fonction de décision de la manière suivante : φ : Γ {0, 1} (C, D) 1 si Σ(C, D) σ, et 0 sinon Système de classes utilisé pour modéliser le problème Notons qu un problème multi-classes à n classes, est équivalent à un système de n problèmes bi-classes. En effet, nous considérons que les différentes classes ont été assez bien délimitées et que la pertinence d un document pour une catégorie n influe pas sur sa pertinence pour une autre catégorie. Les différentes classes sont donc considérées indépendantes. Et nous pouvons séparer les calculs sur ces différentes classes. Nous ne nous intéresserons donc qu à des modèles bi-classes par la suite. De plus, il est aisé de passer d un modèle de ranking à un modèle de classification classique, à l aide d un seuil de tolérance, comme nous l avons vu précédemment. Nous nous intéresserons donc à ce modèle par la suite, quitte à perdre de l information ultérieurement en revenant à une classification binaire. 3.3 Le modèle Naïve Bayes Considérons un document D, représenté par une séquence x = (x 1,..., x n ), où n est le nombre de mots de D. Et plaçons nous dans un modèle bi-classes Γ = {C 1, C 2 }. On considère que C 1 est la classe des valides, et C 2, celle des non-valides. Alors : P(x C1) = P(x 1,..., x n C 1 ) = P(x 1 C 1 ) P(x 2,..., x n x 1, C 1 ) = P(x 1 C 1 ) P(x 2 x 1, C 1 ) P(x 3,..., x n x 2, x 1, C 1 )... 13

14 = n P(x i x i 1,..., x 1, C 1 ) L hypothèse fondamentale du modèle Naïve Bayes est l indépendance conditionnelle des éléments de la séquence entre eux. Ainsi, i {1,..., n}, P(x i x i 1,..., x 1, C 1 ) = P(x i C 1 ). Et on obtient donc : n P(x C 1 ) = P(x i C 1 ) On parle d inférence linéaire en la taille de la séquence (O( X )). Remarque : Cette hypothèse est bien sur complètement fausse... Par exemple la présence du mot Roissy influe sur celle du mot (de la séquence ici) Charles de Gaulle. Mais elle permet une modélisation simple du problème Phase d apprentissage Cette phase permet d estimer les différents paramètres P(x i C 1 ), à partir d un échantillon constitué d un corpus de documents. Dans le cas présent, cette phase ne peut co-exister avec la phase de test, ce qui empêche toute amélioration ultérieure des estimations. Soit X = (x 1,..., x p ), un échantillon de séquences correspondant à un corpus de documents. On ordonne X de telle manière que x 1,..., x l sont des séquences correspondant à des documents valides (et x l+1,..., x p des nonvalides). p La vraisemblance du modèle s écrit alors : l θ = P(x i C 1 ). En maximisant son logarithme, par la méthode des multiplicateurs de Lagrange, on obtient que pour tout v, mot du vocabulaire V, l estimateur du maximum de vraisemblance de P(v C 1 ) est : θ v = l N xi v l w V N xi w Où pour toute séquence x, v V, N x v est le nombre d occurrences de v dans x. Cette phase d apprentissage nécessite donc de compter les occurrences de 14

15 chaque mot du vocabulaire V dans chaque document du corpus d apprentissage. Et sa complexité est O( V X ), où X est la taille du corpus. Pour ne pas trop défavoriser les mots de V qui ne sont pas présents dans le corpus, nous utiliserons le lissage de Laplace : θ v = l l w V N xi v + 1 N xi w + V Un mot absent du corpus aura alors une probabilité non nulle : 1, n Nw xi + V et ne sera plus considéré comme négligeable. w V Phase de test Une fois l apprentissage effectué, et les estimateurs θ v de P(v C 1 ), calculés pour tout v V, vient la phase de test. Considérons un document D, que l on souhaite tester, représenté par une séquence x = (x 1,..., x n ). Alors on estime la probabilité que D soit un document valide par le score : P(C 1 x) = P(C 1) P(x) P(x C 1) = P(C 1) n P(x) P(x i C 1 ) γ C1 n γ xi n θ xi Où γ C1 et γ xi, sont des estimateurs respectifs des fréquences d apparition de C 1 et de x i dans le corpus d apprentissage (autrement dit, le nombre relatifs de documents valides, et la fréquence d apparition du mot x i dans tout le corpus). Autrement dit, la probabilité qu un document soit valide s exprime en fonction des fréquences de ses mots, dans le corpus d apprentissage de documents valides. 15

16 4 Adaptations du modèle Naïve Bayes aux documents structurés 4.1 Utilisation de la sémantique des balises HTML Dans le cas particulier des pages HTML, une première solution consiste à utiliser une estimation de l importance relative de chaque partie du document. En effet, on peut supposer que la présence d un mot à l intérieur d une balise title ou bold importe plus que sa présence à l intérieur d une balise small, par exemple. Il s agit alors de trouver, par l expérience, des coefficients performants pour déterminer l intérêt relatif des différentes balises. Cette méthode utilise donc l algorithme Naïve Bayes, pour chacune des balises considérées, puis combine ces résultats pour rendre un score. Considérons, par exemple que (t 1,..., t n ) est l ensemble des balise considérées. On va coder un document D par n séquences, x i, i {1..n}, (resp. n vecteurs), qui sont respectivement la concaténation de toutes les séquences (resp. la conjonction ou la moyenne de tous les vecteurs) codant des textes encapsulés dans la balise t i. Après avoir effectué les n phases d apprentissage, correspondant aux différentes balises, on lance alors n processus de test sur chacune des séquences. Le résultat est le produits de n scores (s x1,..., s xn ), auxquels on associe les coefficients (δ 1,.., δ n ) pour obtenir un score final : n s D = δ i s xi Cette méthode présente des résultats relativement bons selon la distribution (δ i ) choisie, mais, en plus d être expérimentale (à cause de ce choix justement), elle présente un grave inconvénient : elle suppose une connaissance à priori du langage utilisé, et n est pas évolutive (le nombre de balises considérées ne peut pas évoluer). Malgré une très forte présence du format HTML sur le Web, on lui préférera donc une méthode plus générale, plus évolutive, et moins contraignante. 4.2 Représentation d un document structuré Afin de pouvoir utiliser le formalisme des réseaux bayesiens, nous utiliserons une représentation simplifiée des documents structurés par des arbres. Cette sous-partie des graphes orientés acycliques correspond à des documents de type XML, et n est pas suffisante pour représenter des documents 16

17 plus complexes comme des sites Web, où des cycles peuvent exister. Cependant, cette représentation permet d obtenir des résultats acceptables, tout en minimisant la complexité. Chaque noeud de l arbre correspond à une entité structurelle du document (un titre ou un paragraphe, par exemple). Et chaque arc de l arbre représente une relation de dépendance entre deux entités. Relation déduite de la structure hiérarchique du document (par exemple, le père du noeud représentant une section sera le noeud représentant la page contenant cette section). Chaque noeud de l arbre contient deux informations : Une étiquette donnant la nature de l entité structurelle considérée Un contenu (on ne considérera que des contenus textuels ici) Document, texte 1 Section 1, texte 2 Section 2, texte 3 Section 3, texte 4 Paragraphe 1, texte 5 Paragraphe 2, texte 6 Fig. 4 Un exemple de représentation d un document structuré. 4.3 Modèles locaux de type Naïve Bayes Nous considérerons qu un document est constitué d un couple D = (s, t) où s est la structure du document et t son contenu. On notera s = (s 1,.., s n ) et t = (t 1,.., t n ), où n est la taille de l arbre représentant D, et, pour tout i {1..n}, (s i, t i ) est l information du i eme noeud. Le score d un document D = (s, t) est alors le produit d un score de 17

18 structure et d un score de contenu : P(D C 1 ) = P(s, t C 1 ) = P(s C 1 ) P(t s, C 1 ) On considère ainsi que la structure d un document influe sur son contenu, et non le contraire (l auteur d un document créé d abord sa structure avant de le remplir.) Probabilité structurelle On utilise ici un modèle de structure qui se calque sur la structure logique du document et ne prend en compte que la relation parent-enfant entre les différentes parties du document. Ceci afin de restreindre le nombre de paramètres du système à estimer, afin de minimiser la complexité. On estime donc que chaque noeud de l arbre est indépendant de tous les autres, sauf son père. On obtient alors la formule qui exprime le score d une structure s = (s 1,.., s n ) en fonction des scores des s i : n P(s C 1 ) = P(s 1,.., s n C 1 ) = P(s i sp(i), C 1 ) Où sp associe à un entier i, l étiquette (la structure) du père du i eme noeud Probabilité de contenu Afin de simplifier encore le système, nous allons considérer que les contenus des noeuds sont indépendants les uns des autres, et qu ils ne dépendent que de l étiquette du noeud qui les contient (et non des autres). On obtient alors : P(t s, C 1 ) = P(t 1,.., t n s, C 1 ) = n P(t i s, C 1 ) = = n n P(t i s 1,.., s n, C 1 ) P(t i s i, C 1 ) On suppose donc que lors de la création d un document, l auteur utilise des style et vocabulaire spéciaux, pour chaque balise. Cette hypothèse nous 18

19 permet de différencier les différentes parties en leur associant des estimateurs qui leur sont spécifiques et dépendent uniquement de leur structure. Nous verrons que cela permet un apprentissage dynamique beaucoup moins coûteux Apprentissage Nous allons utiliser à nouveau, la méthode du maximum de vraisemblance. Soit un corpus d apprentissage. La vraisemblance du modèle s écrit : l θ = D = D = = D ( D = l structure θ P(D C 1 ) P(s C 1 ) P(t s, C 1 ) D P(s C 1 ) P(t i s i, C 1 ) P(s C 1 ) ) l contenu θ D D Apprentissage des paramètres de contenu : l contenu θ = D D = e Λ = e Λ P(t i s i, C 1 ) D D /s i =e lθ contenu (e) P(t i s i, C 1 ) P(t i s i, C 1 ) Où Λ désigne l ensemble des étiquettes. La maximisation de lθ contenu s effectue donc en maximisant chacune des vraisemblances des modèles locaux (à structure déterminée). On effectue donc (de même qu en 4.1), un apprentissage pour les noeuds étiquetés titre, un autre pour ceux étiquetés paragraphe, etc... Ainsi, chaque modèle est appris indépendamment sur les données qui le concernent, ce qui présente deux avantages considérables, d un point de vue dynamique : 19

20 Si un nouveau document est utilisé en apprentissage, il ne faut mettre à jour que les modèles correspondant aux différents noeuds de ce document Si un document d apprentissage possède un noeud muni d une étiquette jusqu alors inconnue, il suffit de créer un nouveau modèle local pour les noeuds de ce type, sans avoir à réapprendre tout le modèle. Apprentissage des paramètres de structure : Les paramètres de structure sont les différentes probabilités que, dans un document valide, un noeud possède un fils muni d une certaine étiquette ( P(s i sp(i), C 1 ) ). Notons θ s n,m, l estimateur (du maximum de vraisemblance) de la probabilité P(s i = n sp(i) = m, C 1 ). Alors : l structure θ = D D D θs s i,sp(i) D = P(s i sp(i), C 1 ) De même qu en 3.3.1, en maximisant la log-vraisemblance à l aide des multiplicateurs de Lagrange, on obtient : (n, m) Λ 2, θ s n,m = Nn,m D D Nn D,m D n Λ Où, ici, pour tout document D du corpus d entraînement, N D n,m est le nombre d occurrences de liaisons de type (n,.) (m,.) dans D. Et, de même que précédemment, on utilisera un lissage, en pratique, afin de ne pas trop défavoriser les types de liaisons absents du corpus : (n, m) Λ 2, θ s n,m = D D n Λ N D n,m + 1 N D n,m + Λ L estimation des paramètres de structure est donc simple et rapide (elle ne nécessite encore qu un unique parcours du corpus d apprentissage). Par contre, contrairement à l apprentissage des paramètres de contenu, elle ne pourra être utilisée de façon dynamique efficacement, 20

21 car l apport d un nouveau document ou d une nouvelle étiquette oblige à recalculer l ensemble des paramètres. Ce modèle est cependant satisfaisant, car on peut supposer qu il est plus facile de produire un corpus satisfaisant pour la structure que pour le contenu Test Grâce à nos hypothèses sur les hypothèses structurelles et de contenu, on obtient alors la probabilité finale pour un document D = (s, t) : D P(D C 1 ) = P(s C 1 ) P(t i s i, C 1 ) D D = P(s i sp(i), C 1 ) P(t i s i, C 1 ) Et, de la même manière qu en 3.3.2, on estime alors la pertinence du document D par : P(C 1 D) = P(C 1) P(D) P(D C 1) = P(C D D 1) P(D) P(s i sp(i), C 1 ) P(t i s i, C 1 ) γ D D C 1 θs s γ i,sp(i) θ ti (s i ) D Où, i {1.. D }, θ ti (s i ), est l estimateur rendu par un modèle Naïve Bayes local sur le contenu t i, à structure s i connue. 21

22 Score final NB local texte 1 Document, texte 1 Structure Structure NB local texte 2 Section 1, texte 2 Section 2, texte 3 Structure Structure Section 3, texte 4 Paragraphe 1, texte 5 Paragraphe 2, texte 6 NB local texte 5 NB local texte 6 Fig. 5 Fonctionnement de l algorithme. 5 Application à Burfiks et perspectives Pour adapter ce modèle à Burfiks, il faut donc créer un classifier qui construise un réseau bayesien pour chaque document du corpus d entraînement, apprenne les différents paramètres de ces réseaux avec les formules vues en 4.3.3, puis estime la pertinence d une catégorie à l aide du résultat de Modèle de classes utilisé en pratique : Dans le cas particulier de Burfiks, le modéle de ranking multi-classes serait le plus informatif, car il renseigne sur la pertinence relative quant à différentes classes, d un document donné. Néanmoins, il pourrait s avérer un peu trop complexe dans le cadre d une utilisation normale d un navigateur Web. Et on pourrait lui préférer le modèle multiclasses, moins précis, mais plus lisible dans la side-bar d un navigateur. On pourrait alors imaginer afficher, pour chaque lien présent dans la side-bar, soit la classe qui semble la plus pertinente (cas du ranking), soit l ensemble des classes qui semblent pertinentes (cas classique). 22

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2011 Supplément théorique Inférence dans les réseaux bayésiens Rappel théorique Les processus aléatoires La plupart des processus

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

Sites web propriétaires

Sites web propriétaires Ce document est disponible à : C:\Users\pc_samba\Documents\Doc sites prop.docx Sommaire 1 Introduction... 3 2 Création du mini-site... 4 2.1 Autorisation de création... 4 2.2 Création de votre site Web...

Plus en détail

Algorithmique et Programmation Projets 2012/2013

Algorithmique et Programmation Projets 2012/2013 3 Dames 3. Objectif Il s agit d écrire un programme jouant aux Dames selon les règles. Le programme doit être le meilleur possible. Vous utiliserez pour cela l algorithme α β de recherche du meilleur coup

Plus en détail

Plateforme AnaXagora. Guide d utilisation

Plateforme AnaXagora. Guide d utilisation Table des matières 1. PRESENTATION DE LA PLATE-FORME D APPRENTISSAGE ANAXAGORA... 3 2. ARCHITECTURE FONCTIONNELLE... 4 3. L APPRENTISSAGE... 5 3.1. L ESPACE DE TRAVAIL... 5 3.1.1. Le calendrier... 5 4.

Plus en détail

Principe des tests statistiques

Principe des tests statistiques Principe des tests statistiques Jean Vaillant Un test de signification est une procédure permettant de choisir parmi deux hypothèses celles la plus probable au vu des observations effectuées à partir d

Plus en détail

Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques

Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Patrick Dallaire Université Laval Département d informatique et de génie

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Répresenter l uncertain: Réseaux Bayesiens

Répresenter l uncertain: Réseaux Bayesiens Répresenter l uncertain: Réseaux Bayesiens M1 Miage 2015 2016 Intelligence Artificielle Stéphane Airiau LAMSADE M1 Miage 2015 2016 Intelligence Artificielle (Stéphane Airiau) Répresenter l uncertain: Réseaux

Plus en détail

Personnaliser et adapter SPIP Développeur SPIP

Personnaliser et adapter SPIP Développeur SPIP Personnaliser et adapter SPIP Développeur SPIP En Théorie Le fonctionnement de SPIP Qu est ce que SPIP? SPIP (Système de Publication pour l Internet Partagé) est un logiciel libre destiné à la production

Plus en détail

MATHÉMATIQUES ET SCIENCES HUMAINES

MATHÉMATIQUES ET SCIENCES HUMAINES MATHÉMATIQUES ET SCIENCES HUMAINES B. MARCHADIER Dépendance et indépendance de deux aléas numériques images Mathématiques et sciences humaines, tome 25 (1969), p. 2534.

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens Année académique 2009 2010 1 Introduction Ce projet est le premier d une série de quatre projets qui ont

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

IA54 Compte-rendu «STATIONNEMENT AUTOMATIQUE DE VEHICULE»

IA54 Compte-rendu «STATIONNEMENT AUTOMATIQUE DE VEHICULE» IA54 Compte-rendu «STATIONNEMENT AUTOMATIQUE DE VEHICULE» Henri Payno - Cyril Bailly 1/12/2011 SOMMAIRE 1. Introduction... 3 2. Contraintes... 3 3. Architecture globale... 4 4. Interface... 5 A. Scène

Plus en détail

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce Année 2007-2008 Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce B. Monsuez Projet informatique «Voyageur de commerce» Résolution

Plus en détail

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium dans le cadre du projet JASMINe Avril 2008 Table des matières 1 Introduction 3 1.1 Rappel sur JASMINe.......................................

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini.

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. 1 Introduction Des actions comme lancer un dé, tirer une carte d un jeu, observer la durée de vie d une ampoule électrique, etc...sont

Plus en détail

Poker. A rendre pour le 25 avril

Poker. A rendre pour le 25 avril Poker A rendre pour le 25 avril 0 Avant propos 0.1 Notation Les parties sans * sont obligatoires (ne rendez pas un projet qui ne contient pas toutes les fonctions sans *). Celles avec (*) sont moins faciles

Plus en détail

Étapes du développement et de l utilisation d un modèle de simulation

Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Formulation du problème Cueillette et analyse de données Conception

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée

Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée Techniques d estimation : Maximum de Vraisemblance et Méthode des Moments Généralisée Philippe Gagnepain Université Paris 1 Ecole d Economie de Paris Centre d économie de la Sorbonne-UG 4-Bureau 405 philippe.gagnepain@univ-paris1.fr

Plus en détail

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier. PRÉSENTATION PRODUIT Plus qu un logiciel, la méthode plus efficace de réconcilier. Automatiser les réconciliations permet d optimiser l utilisation des ressources et de générer plus de rentabilité dans

Plus en détail

GPA 789 : Analyse et Conception Orientées Objet. ETS Mickaël Gardoni Bureau A 3588 tel 84 11. Mise en Œuvre UML version du 24 avril 2009

GPA 789 : Analyse et Conception Orientées Objet. ETS Mickaël Gardoni Bureau A 3588 tel 84 11. Mise en Œuvre UML version du 24 avril 2009 GPA 789 : Analyse et Conception Orientées Objet ETS Mickaël Gardoni Bureau A 3588 tel 84 11 Mise en œuvre UML 1/ 25 Introduction Mise en œuvre d UML UML n est pas une méthode 2/ 25 1 UML n est qu un langage

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges. c Copyleft 2006, ELSE Team

ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges. c Copyleft 2006, ELSE Team ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges c Copyleft 2006, ELSE Team 18 avril 2006 Table des matières 1 Introduction 2 2 Présentation du projet 3 2.1 Une distribution Évolulable..................

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

COMMENT METTRE A JOUR SON SITE WEB?

COMMENT METTRE A JOUR SON SITE WEB? Un site web est d autant plus intéressant pour l internaute qu il est actualisé. A contrario, une information obsolète peut ternir l image de l entreprise (manque de dynamisme, manque de rigueur ). Différentes

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif 1 Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif Narration pour présentation Prezi (http://prezi.com/5tjog4mzpuhh/analyse-de-donneestextuelles-analyse-de-contenu-qualitative/)

Plus en détail

Groupe Eyrolles, 2003, ISBN : 2-212-11317-X

Groupe Eyrolles, 2003, ISBN : 2-212-11317-X Groupe Eyrolles, 2003, ISBN : 2-212-11317-X 3 Création de pages dynamiques courantes Dans le chapitre précédent, nous avons installé et configuré tous les éléments indispensables à la mise en œuvre d une

Plus en détail

Introduction à Windows Workflow Foundation

Introduction à Windows Workflow Foundation Introduction à Windows Workflow Foundation Version 1.1 Auteur : Mathieu HOLLEBECQ Co-auteur : James RAVAILLE http://blogs.dotnet-france.com/jamesr 2 Introduction à Windows Workflow Foundation [07/01/2009]

Plus en détail

Points fixes de fonctions à domaine fini

Points fixes de fonctions à domaine fini ÉCOLE POLYTECHNIQUE ÉCOLE NORMALE SUPÉRIEURE DE CACHAN ÉCOLE SUPÉRIEURE DE PHYSIQUE ET DE CHIMIE INDUSTRIELLES CONCOURS D ADMISSION 2013 FILIÈRE MP HORS SPÉCIALITÉ INFO FILIÈRE PC COMPOSITION D INFORMATIQUE

Plus en détail

Chapitre 2 : Conception de base de données relationnelle

Chapitre 2 : Conception de base de données relationnelle Chapitre 2 : Conception de base de données relationnelle Le modèle entité-association 1. Les concepts de base 1.1 Introduction Avant que la base de données ne prenne une forme utilisable par le SGBD il

Plus en détail

Rank, l outil de la visibilité web

Rank, l outil de la visibilité web Rank, l outil de la visibilité web Développé par le pôle R&D de la société Brioude Internet, Rank a pour vocation de nous aider à suivre le positionnement d un site et de ses concurrents. Il ne s agit

Plus en détail

140. Modélisation des données Historisation

140. Modélisation des données Historisation Modélisation de logiciels de gestion 140. Modélisation des données Historisation 1 Préambule Dans les chapitres précédents, nous avons appris à concevoir des modèles de données relativement élaborés en

Plus en détail

Base de Connaissances SiteAudit. Utiliser les Rapports Planifiés. Sommaire des Fonctionnalités. Les Nouveautés

Base de Connaissances SiteAudit. Utiliser les Rapports Planifiés. Sommaire des Fonctionnalités. Les Nouveautés Base de Connaissances SiteAudit Utiliser les Rapports Planifiés Avril 2010 Dans cet article: Sommaire des fonctionnalités Les nouveautés Planifier des rapports SiteAudit 4.0 fournit une nouvelle interface

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Utilisation de Sarbacane 3 Sarbacane Software

Utilisation de Sarbacane 3 Sarbacane Software Tutorial par Anthony Da Cruz Utilisation de Sarbacane 3 Sarbacane Software Ambiance Soleil 17 Rue Royale 74000, Annecy Sommaire 1. Présentation générale 2. Guide étape par étape 3. Astuces de l éditeur

Plus en détail

La gestion des doublons

La gestion des doublons fims.informatique@skynet.be 01.10 10.02 N 3 La gestion des doublons Dans la plupart des bases de données, les doublons sont souvent inévitables. Il est parfois complexe de les gérer car les informations

Plus en détail

Site internet du collège Comment écrire un article?

Site internet du collège Comment écrire un article? Site internet du collège Comment écrire un article? Préambule : les rôles. L administrateur du site vous a attribué des droits. L utilisateur simple peut, par exemple, simplement commenter un article ou

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Quand et pourquoi utiliser une base de données NoSQL?

Quand et pourquoi utiliser une base de données NoSQL? Quand et pourquoi utiliser une base de données NoSQL? Introduction Les bases de données NoSQL sont devenues un sujet très à la mode dans le milieu du développement web. Il n est pas rare de tomber sur

Plus en détail

Programmation, partiel: sémantique d un tableur

Programmation, partiel: sémantique d un tableur Programmation, partiel: sémantique d un tableur Recommandations. Votre copie (papier ou électronique) devra être lisible et bien structurée. La note tiendra compte autant du fond que de la présentation.

Plus en détail

Chapitre VI Échantillonages et simulations

Chapitre VI Échantillonages et simulations Chapitre VI Commentaires : Récursivement, les commentaires ne sont pas à l attention des élèves.. Fluctuation d échantillonnage Définition : En statistiques, un échantillon de taille n est la liste des

Plus en détail

Chapitre 8 : Probabilités-Indépendance

Chapitre 8 : Probabilités-Indépendance Cours de mathématiques Terminale S Chapitre 8 : Probabilités-Indépendance Année scolaire 008-009 mise à jour 6 janvier 009 Fig. Andreï Kolmogorov Un précurseur de la formalisation de la théorie des probabilités

Plus en détail

Morgan Beau Nicolas Courazier

Morgan Beau Nicolas Courazier EPSI - 2010 Rapport projet IA Conception et mise en œuvre d un générateur de systèmes experts Morgan Beau Sommaire Cahier des charges 3 Présentation générale 4 Analyse et modélisation 6 Le moteur d inférence

Plus en détail

Rapport de Post- Campagne 1

Rapport de Post- Campagne 1 Rapport de Post- Campagne 1 Résumé - La campagne Adwords que nous avons mené pour Galerie Photo-Originale a duré 21 jours (5.05-26.05) et nous a coûté $250,18. L objectif principal est en premier de stimuler

Plus en détail

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE [Prénom Nom] Rapport sur le stage effectué du [date] au [date] Dans la Société : [NOM DE LA SOCIETE : Logo de la société] à [Ville] [Intitulé du

Plus en détail

Loi normale ou loi de Laplace-Gauss

Loi normale ou loi de Laplace-Gauss LivreSansTitre1.book Page 44 Mardi, 22. juin 2010 10:40 10 Loi normale ou loi de Laplace-Gauss I. Définition de la loi normale II. Tables de la loi normale centrée réduite S il y avait une seule loi de

Plus en détail

COMPTE RENDU D ACTIVITE ACTIVITE N 4. Identification (objectif) de l'activité. Contexte dans lequel le projet s'inscrit

COMPTE RENDU D ACTIVITE ACTIVITE N 4. Identification (objectif) de l'activité. Contexte dans lequel le projet s'inscrit BTS INFORMATIQUE DE GESTION Option Administrateur de réseaux Développeur d applications COMPTE RENDU D ACTIVITE ACTIVITE N 4 Nom et Prénom : BUISSON Pierre-Adrien EPSI Lyon 107 rue de Marseille 69 007

Plus en détail

CREATION D UNE EVALUATION AVEC JADE par Patrick RUER (www.mathenvideo.comuv.com)

CREATION D UNE EVALUATION AVEC JADE par Patrick RUER (www.mathenvideo.comuv.com) TABLE DES MATIERES I) Le logiciel JADE 2 II) Etablissements 3 1) Configuation de l établissement 3 2) Importation des classes avec SCONET 4 3) Les groupes d élèves 6 4) Les variables supplémentaires 6

Plus en détail

Master 1 Informatique Éléments de statistique inférentielle

Master 1 Informatique Éléments de statistique inférentielle Master 1 Informatique Éléments de statistique inférentielle Faicel Chamroukhi Maître de Conférences UTLN, LSIS UMR CNRS 7296 email: chamroukhi@univ-tln.fr web: chamroukhi.univ-tln.fr 2014/2015 Faicel Chamroukhi

Plus en détail

Programmation avancée en C

Programmation avancée en C Département Informatique Nom : Prénom : Année scolaire : 2007 2008 Date : 23 juin 2008 Module INF446 Session de juin Programmation avancée en C Contrôle de connaissance 1 de 45 minutes ÅERCI de répondre

Plus en détail

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Master Modélisation et Simulation / ENSTA TD 1 2012-2013 Les méthodes dites de Monte-Carlo consistent en des simulations expérimentales de problèmes

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Mini-Projet de Prolog : Solver de Sudoku

Mini-Projet de Prolog : Solver de Sudoku UNIVERSITE François Rabelais TOURS Polytech Tours-Département Informatique 64, Avenue Jean Portalis 37200 TOURS Mini-Projet de Prolog : Solver de Sudoku Encadré par : Présenté par : M. J-L Bouquard Florent

Plus en détail

Université Paris Diderot Paris 7. TD n 2. Arbres Binaire de Recherche

Université Paris Diderot Paris 7. TD n 2. Arbres Binaire de Recherche Université Paris Diderot Paris L Informatique Algorithmique Année 00-0, er semestre TD n Arbres Binaire de Recherche Le type de donné arbre" sera utilisé pour indiquer l ensemble de toutes les Arbres Binaires

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Gé nié Logiciél Livré Blanc

Gé nié Logiciél Livré Blanc Gé nié Logiciél Livré Blanc Version 0.2 26 Octobre 2011 Xavier Blanc Xavier.Blanc@labri.fr Partie I : Les Bases Sans donner des définitions trop rigoureuses, il faut bien commencer ce livre par énoncer

Plus en détail

Méthodes de test. Mihaela Sighireanu

Méthodes de test. Mihaela Sighireanu UFR d Informatique Paris 7, LIAFA, 175 rue Chevaleret, Bureau 6A7 http://www.liafa.jussieu.fr/ sighirea/cours/methtest/ Partie I 1 Propriétés 2 Un peu de génie logiciel de test 3 Eléments Problèmes Point

Plus en détail

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales Transparents Philippe Lambert http : //www.statsoc.ulg.ac.be/quali.html Institut des Sciences Humaines et Sociales

Plus en détail

Du monde réel à SQL la modélisation des données

Du monde réel à SQL la modélisation des données ANF «Comment concevoir une base de données en archéométrie» Réseau CAI-RN & rbdd - 05/06/2014 au 06/06/2014 Du monde réel à SQL la modélisation des données Marie-Claude Quidoz (CEFE/CNRS) Ce document est

Plus en détail

Contexte PPE GSB CR. Analyse. Projet réalisé :

Contexte PPE GSB CR. Analyse. Projet réalisé : Contexte PPE GSB CR Le laboratoire est issu de la fusion entre le géant américain Galaxy et le conglomérat Swiss Bourdin. Cette fusion a eu pour but de moderniser l activité de visite médicale et de réaliser

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

Espace de probabilité, indépendance et probabilité conditionnelle

Espace de probabilité, indépendance et probabilité conditionnelle Chapter 2 Espace de probabilité, indépendance et probabilité conditionnelle Sommaire 2.1 Tribu et événements........................................... 15 2.2 Probabilité................................................

Plus en détail

Les Différents types de Requêtes dans Access

Les Différents types de Requêtes dans Access Les Différents types de Requêtes dans Access Il existe six types de requêtes. Les Requêtes «Sélection», qui sont le mode par défaut et correspondent à des «vues» des tables originelles. Cela signifie que

Plus en détail

ASR1 TD7 : Un microprocesseur RISC 16 bits

ASR1 TD7 : Un microprocesseur RISC 16 bits {Â Ö Ñ º ØÖ Ý,È ØÖ ºÄÓ Ù,Æ ÓÐ ºÎ ÝÖ Ø¹ ÖÚ ÐÐÓÒ} Ò ¹ÐÝÓÒº Ö ØØÔ»»Ô Ö Óº Ò ¹ÐÝÓÒº Ö» Ö Ñ º ØÖ Ý»¼ Ö½» ASR1 TD7 : Un microprocesseur RISC 16 bits 13, 20 et 27 novembre 2006 Présentation générale On choisit

Plus en détail

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million XML, PMML, SOAP Rapport EPITA SCIA Promo 2004 16 janvier 2003 Julien Lemoine Alexandre Thibault Nicolas Wiest-Million i TABLE DES MATIÈRES Table des matières 1 XML 1 1.1 Présentation de XML.................................

Plus en détail

TP2 : PHP. Exercice 1 : Premiers pas en PHP Voici un exemple de code PHP.

TP2 : PHP. Exercice 1 : Premiers pas en PHP Voici un exemple de code PHP. TP2 : PHP Exercice 1 : Premiers pas en PHP Voici un exemple de code PHP. 1 3

Plus en détail

Applications linéaires

Applications linéaires Applications linéaires I) Applications linéaires - Généralités 1.1) Introduction L'idée d'application linéaire est intimement liée à celle d'espace vectoriel. Elle traduit la stabilité par combinaison

Plus en détail

1.1 Définitions... 2 1.2 Opérations élémentaires... 2 1.3 Systèmes échelonnés et triangulaires... 3

1.1 Définitions... 2 1.2 Opérations élémentaires... 2 1.3 Systèmes échelonnés et triangulaires... 3 Chapitre 5 Systèmes linéaires 1 Généralités sur les systèmes linéaires 2 11 Définitions 2 12 Opérations élémentaires 2 13 Systèmes échelonnés et triangulaires 3 2 Résolution des systèmes linéaires 3 21

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

Sauvegarde d une base de données

Sauvegarde d une base de données Sauvegarde d une base de données Version 1.0 Grégory CASANOVA 2 Sauvegarde d une base de données Sommaire 1 Introduction... 3 2 Différents types de sauvegarde... 4 2.1 Sauvegarde complète de base de données...

Plus en détail

AnaXagora LMS v3.0. Guide d utilisation

AnaXagora LMS v3.0. Guide d utilisation AnaXagora LMS v3.0 Guide d utilisation Sommaire 1. PRESENTATION DE LA PLATE-FORME D APPRENTISSAGE ANAXAGORA...3 2. ARCHITECTURE FONCTIONNELLE...5 3. L APPRENTISSAGE...6 3.1. L ESPACE DE TRAVAIL...6 3.1.1.

Plus en détail

Philosophie des extensions WordPress

Philosophie des extensions WordPress 8 Philosophie des extensions WordPress Le concept L une des forces de WordPress dans la jungle CMS, c est la simplicité de création d extensions. Il y a plusieurs raisons à cela. Des raisons techniques

Plus en détail

Experience N 52. Les expériences d ERNI dans l univers du management, des processus et des technologies. Mars 2012

Experience N 52. Les expériences d ERNI dans l univers du management, des processus et des technologies. Mars 2012 Les expériences d ERNI dans l univers du management, des processus et des technologies Experience N 52 Mars 2012 MIGRATIONS Garder la maîtrise lors de migrations GARdER la maîtrise LORS de migrations Lors

Plus en détail

UNIVERSITE DE LORRAINE CALCIUM

UNIVERSITE DE LORRAINE CALCIUM UNIVERSITE DE LORRAINE CALCIUM Outil pour la gestion des dossiers médicaux des étudiants dans les services universitaires de médecine préventive Table des matières CALCIUM... 0 I. L INFORMATION GÉRÉE PAR

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

Introduction au Makefile

Introduction au Makefile Introduction au Makefile Nicolas Kielbasiewicz 3 mars 2009 Le développement d un programme et plus généralement d un logiciel demande au(x) programmeur(s) de gérer plusieurs fichiers, voire plusieurs langages.

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Procédure pour évaluer et/ou éditer un article

Procédure pour évaluer et/ou éditer un article Procédure pour évaluer et/ou éditer un article Rôle des membres du comité de rédaction dans le processus de révision d un article : 1. Rôle de la Rédactrice en chef 2. Rôle des Rédacteurs adjoints 3. Rôle

Plus en détail

Gestion multi-stocks

Gestion multi-stocks Gestion multi-stocks Dans l architecture initiale du logiciel IDH-STOCK, 11 champs obligatoires sont constitués. Ces champs ne peuvent être supprimés. Ils constituent l ossature de base de la base de données

Plus en détail

Comment choisir sa pizza? Test A/B. Comment choisir sa pizza? Comment choisir sa pizza? Difficulté de l évaluation. De manière plus sérieuse...

Comment choisir sa pizza? Test A/B. Comment choisir sa pizza? Comment choisir sa pizza? Difficulté de l évaluation. De manière plus sérieuse... Comment choisir sa pizza? Test A/B Introduction à l apprentissage par renforcement Guillaume Wisniewski guillaume.wisniewski@limsi.fr Université Paris Sud LIMSI J aime beaucoup les «4 Est-ce que je dois

Plus en détail

Comparaison Entre la technologie «TAG» et l analyse de fichiers logs

Comparaison Entre la technologie «TAG» et l analyse de fichiers logs Comparaison Entre la technologie «TAG» et l analyse de fichiers logs Laurent Patureau Co-fondateur d IDfr Editeur de Wysistat 16, Boulevard Winston CHURCHILL 25 000 BESANCON Tel : 03 81 48 03 05 Fax :

Plus en détail

GUIDE D UTILISATION DE LA PLATEFORME D ENVOI DE COURRIELS

GUIDE D UTILISATION DE LA PLATEFORME D ENVOI DE COURRIELS GUIDE D UTILISATION DE LA PLATEFORME D ENVOI DE COURRIELS Table des matières Présentation de la plateforme d envoi de courriels... 4 1- Gestion des contacts... 5 1.1. Base de données... 5 1.1.1- Création

Plus en détail

Cours PHP. Cours en ligne Développement web PHP. Académie Libre info@academielibre.fr

Cours PHP. Cours en ligne Développement web PHP. Académie Libre info@academielibre.fr Cours PHP Cours en ligne Développement web PHP Académie Libre info@academielibre.fr Programme général du Cours PHP Module 1 Introduction et installation d un environnement PHP Unité 1 Introduction à PHP

Plus en détail