Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus
|
|
- Louis Poulin
- il y a 8 ans
- Total affichages :
Transcription
1 1 Recherche d Information(RI): Fondements et illustration avec Apache Lucene par Majirus
2 Résumé Fondements de la Recherche d Information (RI) Noyau de toute application de RI Éléments à prendre en compte Modèles Booléens et Vectoriels Construction des index inversés et calcul du niveau de pertinence Librairie Apache Lucene 2
3 Majirus Fansi, PhD, Chercheur au laboratoire Informatique de l Université de Pau Stockolm Business School Executive MBA Consultant SOA/Java EE à Valtech SA Maintenant à Devoxx France 3
4 Définition 4
5 Recherche d Information (RI) Trouver des ressources (des documents) De nature non structurée (des textes) Besoin d information (pas une requête) parmi une large collection Stockées sur ordinateurs 5
6 RI Web/Traditionnelle RI Web (Web Information Retrieval) La plus grande collection de documents (liés) RI traditionnelle (Traditional Information Retrieval) Collection plus ou moins contrôlable, plus petite en taille Votre intranet Scénario le plus souvent rencontré par le développeur 6
7 RI Traditionnelle Trois techniques basiques de recherche d Information Modèles Booléens (Boolean Models) Modèles Vectoriels (Vector Space Models) Modèles Probabilistes (Probabilistic Models) Les moteurs de recherche s appuient sur un ou plusieurs modèles Apache Lucene se repose sur les modèles booléens et vectoriels 7
8 Exemple de Problème RI Bibliothèque numérique de l entreprise Documents techniques, rapport de réunions, spécifications, etc Dizaines de milliers de documents Lucene AND Cutting AND NOT SOLR Grep de la collection pour retrouver les documents candidats Peut être un processus efficace mais 8
9 Exemple de Problème RI (2) Grep ne répond pas à tous les besoins Traiter rapidement une large collection de documents Permettre des recherches plus flexibles "Lucene Cutting"~5 Permettre la recherche par pertinence (ranked retrieval) Meilleures réponses à un besoin d information Parmi les documents qui contiennent certains mots 9
10 Index/terme/document L index est le moyen d éviter le scan linéaire de la collection On indexe au préalable les documents de la collection L unité d index est un terme Mot dans le document indexé, mais pas toujours Document: Tout élément sur lequel est basé l index Ligne d une table, livre, chapitre de livre, présentation, etc 10
11 Index: structure et construction 11
12 Index : structure Supposons N= 1 million de documents, 1000 mots par document, M= termes environ pour la collection Un milliard de mots pour termes Quelle structure pour l index? 12
13 Matrice d incidence termedocument Doc 1 Doc 2 Doc 3 Doc 4 Lucene Cutting Solr Majirus Méthode naïve, matrice clairsemée: un terme dans 2 documents L index doit idéalement tenir en mémoire 13
14 Index Inversé (Inverted index) Maintien d un dictionnaire de termes Pour chaque terme t, lister les documents (postings list) où apparaît t docid pour identifier chaque document de la liste Cutting Posting Lucene SOLR Dictionnaire Trier par docid Postings 14
15 Construction de l index Inversé Documents à indexer Friends, to, Romans, countrymen. Flow de jetons Analyseur Module linguistique Friends Romans Countrymen Jetons modifiés friend roman countryman Index inversé Indexeur friend 2 4 roman 1 2 countryman
16 Analyser le texte Découper le texte en pièces appelées jetons (token) Dépendant du langage (Français, Allemand, etc...) Exclure les termes peu pertinents pour la recherche (stop words) Indice: Nombre d occurrence du terme dans la collection Réduit la taille de l index mais attention Phrases comme requête (phrase query): "réunion de geek" Ecoutez-vous? :"I did it all", "Ni Oui Ni Non", "Oui Mais Non" 16
17 Normaliser les jetons Processus de standardisation des jetons Pour éliminer les différences superficielles Création implicite des classes d équivalence Suppression des points et tirets: U.S.A USA; anti-héros antiheros Suppression des accents: cliché cliche; naïve naive Tout en minuscule? CAT, Bush 17
18 Indexeur: dictionnaire et postings Fusion des entrées du même terme dans un document Partition entre dictionnaire et postings La fréquence de document est ajouté 18
19 Modèle Booléen 19
20 Modèle Booléen Requête sous forme d expression booléenne de termes Termes combinés par les opérateurs AND, OR, NOT Un document est vu comme un ensemble de mots 20
21 Traitement des requêtes: AND On considère la requête Lucene AND Cutting Localiser Lucene dans le dictionnaire Extraire son postings Localiser Cutting dans le dictionnaire Extraire son postings Faire l intersection des deux postings 21
22 Traitement des requêtes: AND (2) On considère la requête Lucene AND Cutting Lucene Cutting Si les listes sont de tailles X et Y, alors fusion en O(X+Y) Important: les listes sont triées par docid 22
23 Requêtes Booléennes: correspondances exactes Modèle très précis: le document match les conditions ou pas Sans doute le modèle le plus simple pour construire un système RI La seule option disponible jusqu en 1990 Trois siècles de règne sans partage Plusieurs systèmes utilisent toujours ce modèle , catalogues de librairie, Mac OS X Spotlight 23
24 Requêtes Booléennes avec Apache Lucene AND (ou &&), "+ ", OR (ou ), NOT (ou!) et "-" Opérateur par défaut: OR Retourner les documents qui contiennent "Apache Lucene" ou Lucene "Apache Lucene" Lucene ou "apache Lucene" OR Lucene "+" impose que le terme après ce signe existe dans le document 24
25 Requêtes Booléennes avec Apache Lucene (2) NOT (-): exclut les documents qui contiennent le terme après l opérateur Ne peut être utilisé avec un seul terme ( NOT SOLR) Utiliser les parenthèses pour forcer les priorités (A OR B) AND C 25
26 Req Booléennes : Limitations Problème général avec la recherche booléenne AND très précis mais très restreint OR peu précis, mais moins restreint Difficile de trouver le juste milieu Ne répond pas toujours au besoin d information des utilisateurs Modèle booléen étendu: proximité entre termes (term proximity) Apache et Lucene dans 10 mots ("Apache Lucene" ~10) 26
27 Req Booléennes : Perspectives Renseigne uniquement sur la présence ou l absence d un terme Nous aimerions donner un poids important aux documents où le terme est plus fréquent Besoin de la fréquence du terme (term frequency) Retourne l ensemble des documents qui matchent la condition Nous souhaiterions ordonner les résultats par pertinence Besoin d un mécanisme pour déterminer le score du document 27
28 Recherche ordonnée (Ranked Retrieval) 28
29 Recherche ordonnée (Motivations) Jusqu en 1990 uniquement les requêtes Booléennes Les documents correspondent ou pas Bien pour les experts qui comprennent bien leurs besoins et la collection Peu adapté pour la majorité des utilisateurs Beaucoup sont incapables d écrire les requêtes booléennes Très peu sont disposés à explorer une liste de 1000 résultats 29
30 Recherche ordonnée (Principes) Plutôt qu un ensemble de documents qui satisfont la requête Le système retourne les tops k documents les plus pertinents La taille des résultats n est plus un problème Seule condition: l algorithme de ranking fonctionne Plutôt qu une requête avec expressions et opérateurs L utilisateur soumet une requête en texte libre 30
31 Scoring 31
32 Score Élément clé pour la recherche ordonnée Nous voulons retourner en priorité les documents les plus utiles à l utilisateur Comment ordonner les documents de la collection par rapport à la requête? Assigner un score [0, 1] à chaque document Ce score mesure combien le document et la requête matchent. 32
33 Éléments de scoring Fréquence du terme (term frequency) Fréquence document (document frequency) Non en fait la fréquence document inversée (Inverse doc freq) 33
34 Fréquence du terme - tf t,d La fréquence tf t,d : nombre d occurrences de t dans d tf peut-il être le score? Tf comme score n est pas ce que nous voulons: Un document avec 10 occurrences du terme est plus pertinent qu un document avec 1 seule occurrence du même terme Mais pas 10 fois plus pertinent 34
35 tf t,d - Inconvénients Tous les termes sont considérés avec la même importance Certains termes ont peu ou pas du tout de pouvoir discriminant Poids du terme «java» dans une collection de documents sur les frameworks java. Besoin d un Mécanisme pour atténuer l effet des termes trop fréquents 35
36 Fréquence document (df t ) Nombre de documents contenant le terme dans la collection Les termes rares sont plus informatifs que les termes fréquents Le but est d attribuer un poids élevé pour les termes fréquents Mais moins important que les termes rares La fréquence document (df) permet de matérialiser ce besoin 36
37 Fréquence document inversé df t est la fréquence document de t: le nombre de documents qui contiennent t df t est une mesure inverse du caractère informatif de t df t N; N étant le nombre de document de la collection Idf t (inverse document frequency) de t est ainsi défini idf log ( N/df t 10 t La fonction log est utilisée pour rendre idf moins prononcé ) 37
38 tf.idf Scoring Le score tf.idf d un terme est le produit de ses poids tf et idf w log(1 tft, ) log ( N / df t, d d t ) Schéma de calcul de score très utilisé en RI w t,d Augmente avec le nombre d occurrences de t dans d w t,d Augmente suivant la rareté de t dans la collection w t,d plus élevé si t apparaît plusieurs fois dans n documents, n petit w t,d est le moindre si t apparaît dans presque tous les documents 38
39 Modèle Vectoriel (Vector Space Model) 39
40 VSM: Principes Documents comme vecteurs dans l espace Requête comme vecteur dans l espace Calcul de la similarité entre les vecteurs 40
41 document comme vecteur (document vector) Les documents sont des points ou des vecteurs dans un espace vectoriel Les termes sont les axes de l espace: d (w t1,d ; w t2,d ; w tn,d ) Espace vectoriel de dimension n, n = nombre de termes Vecteurs très dispersés: beaucoup d entrées à zéro 41
42 Req comme vecteur (Query vector) Idée clef 1: Représenter les requêtes comme vecteurs dans l espace Idée clef 2: ordonner les documents suivant leurs proximités à la requête dans l espace 42
43 Proximité (d, q) Proximité par mesure de distance Euclidienne Ne reflète pas la distribution des termes Dupliquer le contenu de d pour obtenir d d a une plus grande distance et s écarte de d Proximité donné par l angle avec la requête: cos(0) = 1 = similarité maximale Respecte mieux la similarité sur la distribution des termes (d,d)=0 43
44 Ranking Ordonner les documents par ordre décroissant de l angle entre le document et la requête Ou par ordre croissant de cos(requête, document) 44
45 cos(requête q, document d) produit scalaire q d cos( q, d) q d q q vecteurs unitaires q i est le poids tf-idf du terme i dans la requête q d d V i 1 q V i 1 2 i q d i i V i 1 d 2 i fondamental pour tout système RI à modèle vectoriel d i est le poids tf-idf du terme i dans le document d cos(q,d) donne le score du document d considérant la requête q On retourne les top K documents 45
46 Adaptation Lucene (1) Normaliser le vecteur v(d) à un vecteur unitaire est problématique Supprime toute information sur la longueur du document D où la fonction doc-len-norm(d) qui normalise à un vecteur supérieur ou égal au vecteur unitaire (2) On peut décider à l indexation qu un document est plus important qu un autre Ajout d un boost pour le document (doc-boost(d)) 46
47 Adaptation Lucene (2) (3) On peut attribuer un facteur de boost aux termes de la requête (queryboost(q)) Multiplie la contribution d un terme au score du document (4) Un document peut satisfaire une requête à plusieurs termes Mais ne contient pas tous les termes de la requête L utilisateur récompense le document qui contient le plus de termes Coord-factor(q,d) 47
48 Lucene: Formule de scoring conceptuelle Suppose un champ (field) par document q d score( q, d) coordfact(q, d).queryboost ( q).doclennorm ( d).docboost( d) q 48
49 Lucene: Scoring Pratique Formule pratique : un document a plusieurs champs score( q, d) coord(q, d).query Norm( q) t q ( tf ( t d). idf numdocs tf ( t d) tf idf ( t) 1 log( ) t, d docfreq 1 ( t) 2. t. getboost(). norm( field( t), d)) norm( field( t), d) doclennorm( field( t), d). docboost( d) QueryNorm(q) utile pour comparer les scores entre requêtes doclennorm(field(t),d) calculé de sorte que les champs courts contribuent plus au score 49
50 Conclusion et perspectives 50
51 Perspectives Schéma d extraction «Inexact Top K» documents Retourner les K documents susceptibles d être parmi les K meilleurs scores L algorithme de scoring n est qu un proxy vers le besoin d information Modèles Probabilistes Aller plus loin dans la recherche avec la sémantisation La recherche de base est à mots clés 51
52 Remerciements Pandu Nayak and Prabhakar Raghavan: Introduction to Information Retrieval Amy N. Langville and Carl D. Meyer: Google s PageRank and Beyond Equipe de développement de Lucene L organisation de Devoxx France Le management de Michels, Maj-Daniels et Sonzia Fansi Bien sûr vous, pour votre présence et votre attention 52
53 A ceux et celles qui œuvrent pour l enseignement et la recherche! 53
54 54 Please note : slide format is 1280x720 We d like to record in 16:9 But prepare also a 1024x768 as a backup plan if your computer is not able to output a video signal with a 1280x720 resolution
Bases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département
Plus en détailTRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie
TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition
Plus en détailTravaux Pratiques : Lucène - Gestion d un index plein texte
Chapter 1 Travaux Pratiques : Lucène - Gestion d un index plein texte Pour ce TP, nous allons étudier l utilisation d un index de recherche textuel OpenSource : Lucene 1. Nous allons créer un projet en
Plus en détailBusiness Intelligence avec Excel, Power BI et Office 365
Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailMapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15
MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué
Plus en détailFouillez facilement dans votre système Big Data. Olivier TAVARD
Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche
Plus en détailBusiness Intelligence
avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................
Plus en détailLamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013
Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,
Plus en détailI.1 Introduction. I.2 La recherche d information. I.2.1 Définitions
I.1 Introduction La Recherche d Information (RI) peut être définie comme une activité dont la finalité est de localiser et de délivrer un ensemble de documents à un utilisateur en fonction de son besoin
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailLe Langage SQL version Oracle
Université de Manouba École Supérieure d Économie Numérique Département des Technologies des Systèmes d Information Le Langage SQL version Oracle Document version 1.1 Mohamed Anis BACH TOBJI anis.bach@isg.rnu.tn
Plus en détailBig$data,$le$Web$et$tout$ça $ De$quel$volume$parleDton$?$ Surcharge$d informa>on$ Introduction à la fouille de texte Master Informatique 1 ère année
Université*Lumière*Lyon*2* *Faculté*de*Sciences*Economiques*et*Ges;on* KHARKIV*Na;onal*University*of*Economic* Introduction à la fouille de texte Master Informatique 1 ère année Julien Velcin http://mediamining.univ-lyon2.fr/velcin
Plus en détailExamen organisé en vue du recrutement et de la constitution de réserves de recrutement. d'assistants (gestionnaire de systèmes et développeur)
Examen organisé en vue du recrutement et de la constitution de réserves de recrutement d'assistants (gestionnaire de systèmes et développeur) porteurs d'un diplôme établi en langue française pour le service
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailCalculer avec Sage. Revision : 417 du 1 er juillet 2010
Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1
Plus en détailLogiciel Libre Cours 3 Fondements: Génie Logiciel
Logiciel Libre Cours 3 Fondements: Génie Logiciel Stefano Zacchiroli zack@pps.univ-paris-diderot.fr Laboratoire PPS, Université Paris Diderot 2013 2014 URL http://upsilon.cc/zack/teaching/1314/freesoftware/
Plus en détailServices bancaires par Internet aux entreprises. Guide pratique pour : Rapports de solde Version 8.05.22
Services bancaires par Internet aux entreprises Guide pratique pour : Rapports de solde Version 8.05.22 Table des matières Avez-vous besoin d aide?... 3 Exigences informatiques... 4 Navigateurs acceptés...
Plus en détailSélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Plus en détailLe langage SQL Rappels
Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,
Plus en détailBases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Introduction du cours Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire
Plus en détailPlan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation
Complex Event Processing Traitement de flux de données en temps réel Romain Colle R&D Project Manager Quartet FS Plan Génération et exploitation de données CEP et applications Flux de données et notifications
Plus en détailComparatif CMS. Laurent BAUREN S Bérenger VIDAL Julie NOVI Tautu IENFA
Comparatif CMS Laurent BAUREN S Bérenger VIDAL Julie NOVI Tautu IENFA Sommaire Introduction : Dans le cadre de notre projet de master première année, il nous a été demandé de développer un moteur de recherche
Plus en détailIntroduction à MATLAB R
Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailAccès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution
@promt Office 8.0 Description abrégée Spécifiquement conçu pour la maison et les petites entreprises Traduction de documents, de courriers électroniques et de messages instantanés ICQ Traduction de pages
Plus en détailDifferential Synchronization
Differential Synchronization Neil Fraser Google 2009 BENA Pierrick CLEMENT Lucien DIARRA Thiemoko 2 Plan Introduction Stratégies de synchronisation Synchronisation différentielle Vue d ensemble Dual Shadow
Plus en détailLe ranking de Augure Influencers La méthodologie AIR en détails
Le ranking de Augure Influencers La méthodologie AIR en détails V1.0 Octobre 2014 Oualid Abderrazek Product Marketing Sommaire 1. Contexte...3 2. L algorithme...3 a. Exposition...4 b. Echo...4 c. Niveau
Plus en détailPrésentation du PL/SQL
I Présentation du PL/ Copyright Oracle Corporation, 1998. All rights reserved. Objectifs du Cours A la fin de ce chapitre, vous saurez : Décrire l intéret du PL/ Décrire l utilisation du PL/ pour le développeur
Plus en détailContexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Plus en détailEncyclopaedia Universalis Guide d utilisation
Encyclopaedia Universalis Guide d utilisation Ouverture d une session... 2 Écrans de recherche.. 2 Opérateurs logiques et booléens. 3 Affichage et consultation des résultats... 5 Impression.... 7 TABLE
Plus en détailCours Bases de données
Informations sur le cours Cours Bases de données 9 (10) séances de 3h Polycopié (Cours + TD/TP) 3 année (MISI) Antoine Cornuéjols www.lri.fr/~antoine antoine.cornuejols@agroparistech.fr Transparents Disponibles
Plus en détailIntroduction aux Bases de Données Relationnelles Conclusion - 1
Pratique d un : MySQL Objectifs des bases de données Où en sommes nous? Finalement, qu est-ce qu un? Modèle relationnel Algèbre relationnelle Conclusion SQL Conception et rétro-conception Protection de
Plus en détailExercices Corrigés Premières notions sur les espaces vectoriels
Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3
Plus en détailMesures de temps de propagation de groupe sur convertisseurs de fréquence sans accès aux OL
Mesures de temps de propagation de groupe sur convertisseurs de fréquence sans accès aux Comment mesurer le temps de propagation de groupe sur des convertisseurs de fréquence dans lesquels le ou les oscillateurs
Plus en détailEXAMENS EN VUE DU RECRUTEMENT ET DE LA CONSTITUTION DE RÉSERVES DE RECRUTEMENT DE SYSTEM ADMINISTRATORS APPLICATION DEVELOPERS
EXAMENS EN VUE DU RECRUTEMENT ET DE LA CONSTITUTION DE RÉSERVES DE RECRUTEMENT DE SYSTEM ADMINISTRATORS ET APPLICATION DEVELOPERS Service du Personnel et des Affaires sociales Secrétariat des examens PERSONNEL
Plus en détailÉPREUVE COMMUNE DE TIPE 2008 - Partie D
ÉPREUVE COMMUNE DE TIPE 2008 - Partie D TITRE : Les Fonctions de Hachage Temps de préparation :.. 2 h 15 minutes Temps de présentation devant le jury :.10 minutes Entretien avec le jury :..10 minutes GUIDE
Plus en détail1 Recherche en table par balayage
1 Recherche en table par balayage 1.1 Problème de la recherche en table Une table désigne une liste ou un tableau d éléments. Le problème de la recherche en table est celui de la recherche d un élément
Plus en détailDescription de l implantation dans le centre d examen (nom du service ou de l outil et caractéristiques techniques)
ANNEXE VII-1 : modèle d attestation de respect du cahier des charges pour l épreuve E4 (parcours SISR) BTS SERVICES INFORMATIQUES AUX ORGANISATIONS Session 2014 CONTRÔLE DE L ENVIRONNEMENT TECHNOLOGIQUE
Plus en détailModernisation et gestion de portefeuilles d applications bancaires
Modernisation et gestion de portefeuilles d applications bancaires Principaux défis et facteurs de réussite Dans le cadre de leurs plans stratégiques à long terme, les banques cherchent à tirer profit
Plus en détailTP 1. Prise en main du langage Python
TP. Prise en main du langage Python Cette année nous travaillerons avec le langage Python version 3. ; nous utiliserons l environnement de développement IDLE. Étape 0. Dans votre espace personnel, créer
Plus en détailFormation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop
Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont
Plus en détailCONCEPTION Support de cours n 3 DE BASES DE DONNEES
CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...
Plus en détailRI sociale : intégration de propriétés sociales dans un modèle de recherche
RI sociale : intégration de propriétés sociales dans un modèle de recherche Ismail Badache 1 Institut de Recherche en Informatique de Toulouse, UMR 5505 CNRS, SIG 118 Route de Narbonne F-31062 Toulouse
Plus en détailCours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions
Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental
Plus en détailExercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT
Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,
Plus en détail# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>
94 Programmation en OCaml 5.4.8. Concaténation de deux listes Définissons maintenant la fonction concat qui met bout à bout deux listes. Ainsi, si l1 et l2 sont deux listes quelconques, concat l1 l2 constitue
Plus en détailChaînes de Markov au lycée
Journées APMEP Metz Atelier P1-32 du dimanche 28 octobre 2012 Louis-Marie BONNEVAL Chaînes de Markov au lycée Andreï Markov (1856-1922) , série S Problème 1 Bonus et malus en assurance automobile Un contrat
Plus en détail4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Plus en détailORDINATEUR DOSSIERS FICHIERS
SÉANCE INFORMATIQUE N 1 ORDINATEUR DOSSIERS FICHIERS Geo-phile : il y a un lien vers un site de définition des termes informatiques. 1/ ORDINATEUR - Disque dur : capacité exponentielle : actuellement plus
Plus en détailUEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.
UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases
Plus en détailProgrammation parallèle et distribuée (Master 1 Info 2015-2016)
Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction
Plus en détailChapitre 5 : Flot maximal dans un graphe
Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailLes bonnes pratiques d un PMO
Livre Blanc Oracle Avril 2009 Les bonnes pratiques d un PMO Un plan évolutif pour construire et améliorer votre Bureau des Projets Une construction progressive La première étape consiste à déterminer les
Plus en détailProgrammation parallèle et distribuée
Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution
Plus en détailRecherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA
RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE
Plus en détailSCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information
SCI6052 (Automne 2014) cours 6 1/32 SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information Cours 6 Systèmes de gestion de bases de données (SGBD) textuels
Plus en détailRAPPORT AUDIT SEO. Élaboré à l'attention de : Monsieur Greber Élaboré par : Cédric Peinado
- RAPPORT AUDIT SEO Élaboré à l'attention de : Monsieur Greber Élaboré par : Cédric Peinado 17 septembre 2013 Table des matières Optimisation structurelle 2 Optimisation des standards, performances et
Plus en détailDéfinition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux
Plus en détailLangage SQL : créer et interroger une base
Langage SQL : créer et interroger une base Dans ce chapitre, nous revenons sur les principales requêtes de création de table et d accès aux données. Nous verrons aussi quelques fonctions d agrégation (MAX,
Plus en détailBIG DATA et EDISCOVERY
KROLLONTRACK / ELECTRONIC DISCOVERY & COMPUTER FORENSICS BIG DATA et EDISCOVERY - Etude de cas : le traitement des masses de données de l entreprise dans un contexte économique et judiciaire - Case study:
Plus en détailIBM SPSS Direct Marketing 21
IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS
Plus en détailTune Sweeper Manuel de l'utilisateur
Tune Sweeper Manuel de l'utilisateur www.wideanglesoftware.com Table des matières Introduction 2 Démarrage rapide 5 Recherche de doublons 9 Sélection des pistes à conserver 12 Éliminer les doublons 15
Plus en détailLicence ST Université Claude Bernard Lyon I LIF1 : Algorithmique et Programmation C Bases du langage C 1 Conclusion de la dernière fois Introduction de l algorithmique générale pour permettre de traiter
Plus en détailIntroduction à la Recherche d information
Introduction à la Recherche d information M. Boughanem bougha@irit.fr http://www.irit.fr/~mohand.boughanem Université Paul Sabatier de Toulouse Laboratoire IRIT 1 Plan Introduction à la Recherche d information
Plus en détailUtilisation d objets : String et ArrayList
Chapitre 6 Utilisation d objets : String et ArrayList Dans ce chapitre, nous allons aborder l utilisation d objets de deux classes prédéfinies de Java d usage très courant. La première, nous l utilisons
Plus en détailCours Base de données relationnelles. M. Boughanem, IUP STRI
Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),
Plus en détailModule 3. Création d objets utilisateur et ordinateur AD DS
Module 3 Création d objets utilisateur et ordinateur AD DS Vue d ensemble du module Administration des comptes d utilisateurs Création de comptes d ordinateurs Automatisation de l administration des objets
Plus en détailM. F. PITA Departamento de Geografía Física. Universidad de Sevilla. C/ María de Padilla s.n. 41.002-SEVILLA (Espagne). mfpita@cica.
Un nouvel indice de sécheresse pour les domaines méditerranéens. Application au bassin du Guadalquivir (sudo-uest de l Espagne). En: Un nouvel indice de sécheresse pour les domaines méditerranéens. Application
Plus en détailLES TYPES DE DONNÉES DU LANGAGE PASCAL
LES TYPES DE DONNÉES DU LANGAGE PASCAL 75 LES TYPES DE DONNÉES DU LANGAGE PASCAL CHAPITRE 4 OBJECTIFS PRÉSENTER LES NOTIONS D ÉTIQUETTE, DE CONS- TANTE ET DE IABLE DANS LE CONTEXTE DU LAN- GAGE PASCAL.
Plus en détailLe moteur de recherche. Clé de voûte du système d information
Le moteur de recherche Clé de voûte du système d information SOMMAIRE Introduction... 3 Au cœur des moteurs de recherche... 5 La démocratisation de la recherche d information... 5 Des premiers systèmes
Plus en détailConcevoir sa stratégie de recherche d information
Concevoir sa stratégie de recherche d information Réalisé : mars 2007 Dernière mise à jour : mars 2011 Bibliothèque HEC Paris Contact : biblio@hec.fr 01 39 67 94 78 Cette création est mise à disposition
Plus en détailMaster d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien
Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation
Plus en détailIntégration de la dimension sémantique dans les réseaux sociaux
Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux
Plus en détailAlgorithmique I. Augustin.Lux@imag.fr Roger.Mohr@imag.fr Maud.Marchal@imag.fr. Algorithmique I 20-09-06 p.1/??
Algorithmique I Augustin.Lux@imag.fr Roger.Mohr@imag.fr Maud.Marchal@imag.fr Télécom 2006/07 Algorithmique I 20-09-06 p.1/?? Organisation en Algorithmique 2 séances par semaine pendant 8 semaines. Enseignement
Plus en détailRecherche dans un tableau
Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6
Plus en détailIntroduction à. Oracle Application Express
Introduction à Oracle Application Express Sommaire Qu est-ce que Oracle Application Express (APEX)? Vue d ensemble des fonctionnalités et des différents composants d Oracle APEX Démonstration de création
Plus en détailFormation à la recherche documentaire sur le web
Formation à la recherche documentaire sur le web Objectif : Savoir effectuer des recherches pertinentes sur Internet Savoir distinguer les informations fiables sur Internet Savoir effectuer des recherches
Plus en détailLe langage SQL pour Oracle - partie 1 : SQL comme LDD
Le langage SQL pour Oracle - partie 1 : SQL comme LDD 1 SQL : Introduction SQL : Structured Query Langage langage de gestion de bases de donn ees relationnelles pour Définir les données (LDD) interroger
Plus en détail24/11/2011. Cours EJB/J2EE Copyright Michel Buffa. Plan du cours. EJB : les fondamentaux. Enterprise Java Bean. Enterprise Java Bean.
Plan du cours 2 Introduction générale : fondamentaux : les fondamentaux Michel Buffa (buffa@unice.fr), UNSA 2002, modifié par Richard Grin (version 1.1, 21/11/11), avec emprunts aux supports de Maxime
Plus en détailAnticiper et prédire les sinistres avec une approche Big Data
Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailQuel logiciel DE CRM choisir pour votre force de vente terrain?
Quel logiciel DE CRM choisir pour votre force de vente terrain? plusieurs études démontrent que les projets CRM sont des échecs dans 40 à 80% des cas. Les principales causes d échec sont : Le rejet par
Plus en détailSolutions de gestion de la sécurité Livre blanc
Solutions de gestion de la sécurité Livre blanc L intégration de la gestion des identités et des accès avec l authentification unique Objectif : Renforcer la politique de sécurité et améliorer la productivité
Plus en détailLes modes de recherche sur le Web 2.0
Les modes de recherche sur le Web 2.0 1 Sommaire 1. Contexte 2. Le collaboratif : les moteurs thématiques 3. La syndication des résultats de recherche 4. Les connaissances : des moteurs 2 1 1. Moteurs
Plus en détailÉVALUATION DE LA MAINTENABILITÉ DE S3MDSS AVEC L OUTIL SONAR
ETS-RT - 2009-000 ÉVALUATION DE LA MAINTENABILITÉ DE S3MDSS AVEC L OUTIL SONAR HASSENE LAARIBI ETS-RT - 2009-000 ÉVALUATION DE LA MAINTENABILITÉ DE S3MDSS AVEC L OUTIL SONAR RAPPORT TECHNIQUE DE L ÉTS
Plus en détailModèles à Événements Discrets. Réseaux de Petri Stochastiques
Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés
Plus en détailLe théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche
Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Bachir Bekka Février 2007 Le théorème de Perron-Frobenius a d importantes applications en probabilités (chaines
Plus en détailPRODIGE V3. Manuel utilisateurs. Consultation des métadonnées
PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.
Plus en détailPetit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007
Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007 page 1 / 10 abscisse addition additionner ajouter appliquer
Plus en détailIntroduction à MapReduce/Hadoop et Spark
1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -
Plus en détailTP Codage numérique des caractères. Un ordinateur ne manipule que des 0 et des 1 : Comment alors code-t-il du texte?
TP Codage numérique des caractères Un ordinateur ne manipule que des 0 et des 1 : Comment alors code-t-il du texte? I Le code ASCII 1. Une première approche Ouvrir un fichier Excell Sur la ligne 1 du tableau,
Plus en détailSommaire. 1 Introduction 19. 2 Présentation du logiciel de commerce électronique 23
1 Introduction 19 1.1 À qui s adresse cet ouvrage?... 21 1.2 Comment est organisé cet ouvrage?... 22 1.3 À propos de l auteur... 22 1.4 Le site Web... 22 2 Présentation du logiciel de commerce électronique
Plus en détailGestion collaborative de documents
Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,
Plus en détailLES DECIMALES DE π BERNARD EGGER
LES DECIMALES DE π BERNARD EGGER La génération de suites de nombres pseudo aléatoires est un enjeu essentiel pour la simulation. Si comme le dit B Ycard dans le cours écrit pour le logiciel SEL, «Paradoxalement,
Plus en détail5. Apprentissage pour le filtrage collaboratif
686 PARTIE 5 : Au-delà de l apprentissage supervisé 5. Apprentissage pour le filtrage collaboratif Il semble que le nombre de choix qui nous sont ouverts augmente constamment. Films, livres, recettes,
Plus en détailSommaire Livre blanc CGIDEV2 pour RePeGlio
Sommaire Livre blanc CGIDEV2 pour RePeGlio 1. CGIDEV2 d IBM : un must pour les développeurs RPG?... 2 2. Ce que les écrans en mode caractères ne savent pas faire... 2 3. La solution CGIDEV2 d IBM... 3
Plus en détail