SEO Camp us 2009 Claude de Loupy Fournisseur d innovation Traitement automatique de l information
Moteur : Chaîne de traitement
Document 1 Document 2 Document n mot 1 mot 2 Table d'index de la base documentaire (fusion de l'ensemble des index) réf. :... ; positions :... réf. :... ; positions :... réf. :... ; positions :... réf. :... ; positions :... Chaque mot du texte est référencé réf. :... ; mot i dans une table principale (index). positions : Certains traitements supplémentaires permettent de générer des fichiers de travail Autres tables associées à comme celui des cooccurrences, l'index de la distance entre les mots, etc. Le logiciel référence également les Cooccurrences, caractéristiques des balises typographiques identifiants documents, balises titres, les titres, les paragraphes, etc. balises paragraphes, etc. réf. :... ; positions :... positions :...
Document 1 (...) préparation des moules marinières iè (...) Document 2 Indexation Table d'index de la base documentaire (fusion de l'ensemble des index) (...) préparation Doc1, ligne6, emp2 des Doc1, ligne6, emp3 Doc2, ligne1, emp5 Doc3, ligne2, emp6 moules Doc1, ligne6, emp4 Doc2 ligne1 emp6 Doc3, ligne2, emp5 marinières Doc1, ligne6, emp6 à Doc2, ligne1, emp7 Doc2, ligne1, emp10 gâteau Doc2, ligne1, emp8 faciles Doc2, ligne1, emp9 nettoyerdoc2, ligne1, emp11 il Doc3, ligne2, emp1 (...) (...) des moules Indexation Doc2, ligne1, emp6 à gâteau faciles à nettoyer(...) Document 3 (...) il faut que Indexation tu moules des formes (...) (...)
Calcul de l importance du mot par rapport à l index : IDF Théorie de l information de Shannon «Plus un événement est fréquent, moins il est informatif»
Calcul de l importance du mot par rapport à l index : IDF IDF du terme Nombre de docs contenant le terme
Calcul de l importance du mot par rapport à l index : IDF IDF du terme IDF ( t ) = log n ( t ) N Nombre de docs contenant le terme
Importance du document par rapport au terme Plus un terme apparaît dans un document plus ce document est pertinent par rapport à ce terme
Importance du document par rapport au terme : TF Plus un terme apparaît dans un document plus ce document est pertinent par rapport à ce terme Modifications avec la notion de citation (liens)
Importance du document par rapport au terme : TF TF du document p/r terme Nb occurrences termes dans doc
Importance du document par rapport au terme : TF TF du document p/r terme TF ( t, d ) = O d L ( t ) ( d ) Nb occurrences termes dans doc
Moteurs de recherche : Taille des index Moteur Nombre de pages web Nombre de mots Nombre de mots (milliards) (levering & Cutler, 2006) au total Exalead 8 474 3,79E+12 Yh Yahoo! 15 474 711E 7,11E+1212 Microsoft 20 474 9,48E+12 Google 25 474 1,19E+13 Cuil 100 474 4,74E+13
Moteurs de recherche : Taille des index Moteur Nombre de pages web Nombre de mots Nombre de mots (milliards) (levering & Cutler, 2006) au total Exalead 8 474 3,79E+12 Yh Yahoo! 15 474 711E 7,11E+1212 Microsoft 20 474 9,48E+12 Google 25 474 1,19E+13 Cuil 100 474 4,74E+13
Moteurs de recherche : Taille des index Moteur Nombre de pages web Nombre de mots Nombre de mots (milliards) (levering & Cutler, 2006) au total Exalead 8 474 3,79E+12 Yh Yahoo! 15 474 711E 7,11E+1212 Microsoft 20 474 9,48E+12 Google 25 474 1,19E+13 Cuil 100 474 4,74E+13
Bibliothèques: Taille des index Nombre de livres Nombre Nombre Nombre Nombre de mots (millions) pages lignes mots au total 15 300 40 10 1,80E+12 32 300 40 10 3,84E+12 Manuscrits 61 150 40 10 3,66E+12
Bibliothèques: Taille des index Nombre de livres Nombre Nombre Nombre Nombre de mots (millions) pages lignes mots au total 15 300 40 10 1,80E+12 32 300 40 10 3,84E+12 Manuscrits 61 150 40 10 3,66E+12
Bibliothèques: Taille des index Nombre de livres Nombre Nombre Nombre Nombre de mots (millions) pages lignes mots au total 15 300 40 10 1,80E+12 32 300 40 10 3,84E+12 Manuscrits 61 150 40 10 3,66E+12
Bibliothèques: Taille des index Nombre de livres Nombre Nombre Nombre Nombre de mots (millions) pages lignes mots au total 15 300 40 10 1,80E+12 32 300 40 10 3,84E+12 Manuscrits 61 150 40 10 3,66E+12
Bibliothèques: Taille des index Nombre de livres Nombre Nombre Nombre Nombre de mots (millions) pages lignes mots au total 15 300 40 10 1,80E+12 32 300 40 10 3,84E+12 Manuscrits 61 150 40 10 3,66E+12
http://www.langreiter.com/exec/yahoo vs google.html
radio télévision Téhéran méronimi mie hypony nymie Internet contrôles hyponymie hyponymie média Iran médias maîtrise morpholo ogie morpholo ologie synonymie hyponymie morphologie polysémie sens maîtrise presse contrôle Le contrôle des médias en Iran contrôle contrôle c.g. / nom c.g. / verbe maîtrises morphologie censure censures synonymie polysémi ysémie sens vérification contrôle
Donna Harman, 2000