Digramme des cas d utilisation A. Cas d utilisations identifiés : Globalement, le système doit permettre de récupérer les flux RSS à partir d une liste d URL fournis par le client et qui pourront être mise à jour par lui; récupération des articles liés et la conversion en format texte, extraction des Méta-Données pour chaque Item du fichier XML RSS, traitements linguistiques du corpus (analyse statistique à partir du texte brut ou bien à partir d un texte analysé morphosyntaxiement), l interrogation du corpus via une interface web. On a alors les cas d utilisations suivants : Récupérer le fichier XML RSS; Récupérer et sauvegarder les articles liés; Extraire les Méta-Données du fichier XML RSS; Sauvegarder les Méta-Données dans LUCENE; Convertir les articles liés en format texte ; Calcul statistique ; Analyser Morphosyntaxiquement le corpus; Interroger le corpus. B. Les cas d utilisations globales : Notre projet est décomposé en trois cas, et chaque cas d utilisation est décomposés en plusieurs sous cas illustrés comme suit : 1. Récupération des flux RSS à partir d une liste d URL Récupérer le fichier XML RSS ; Récupérer et sauvegarder les articles liés ; Extraire les Méta-Données du fichier XML RSS ; Sauvegarder les Méta-Données dans LUCENE ; Convertir les articles liés en format texte ; 2. Traitements linguistiques du corpus Calcul statistique à partir du texte brut; Calcul statistique à partir d un texte analysé Morphosyntaxiquement. 3. Stockage et gestion du corpus dans une base de données interrogeable Interroger le corpus. 1
C. Diagramme des cas d utilisations : 2
D. Développement détaillés des uses cases : Cas d utilisation : Récupérer le fichier XML RSS But de ce cas d utilisation : permettre à un utilisateur de récupérer les fichiers XML RSS à partir d une liste d URL (quotidiens et journaux français) donnée en entré, cette tâche sera programmé deux fois par jour pour récupérer le maximum des informations. Pré-condition : La liste URL contient au moins une URL. 1) L utilisateur charge la liste d URL ; 2) L utilisateur lance le processus pour la récupération du flux RSS. 2) a/ Il peut avoir différentes issues possible à cette opération. L utilisateur peut rencontrer plusieurs cas qui sont les suivants : 2) a/1/ Si la liste d URL ne contient aucune URL, donc il est obligé de charger la liste d URL, alors le cas d utilisation reprend à l étape 1; 2) a/2/ La connexion internet est interrompue, le cas d utilisation reprend à l étape 2, sinon le cas d utilisation se termine en échec; 2) a/3/ Une ou plusieurs URL de la liste ne répond pas donc le cas d utilisation reprend à l étape 2 pour ces URL. Cas d utilisation : Extraire les Méta-Données du fichier XML RSS But de ce cas d utilisation : permettre l extraction automatique des Méta-Données (title, pubdate, description, ) pour chaque nouvel Item du fichier XML RSS. Pré-condition : Existe au moins un nouvel Item dans le fichier XML RSS. 1) L extraction automatique des Méta-Données à partir du fichier XML RSS; 3
Cas d utilisation : Récupérer et sauvegarder les articles liés But de ce cas d utilisation : permettre la récupération des articles liés (Format HTML), et son stockage sur disque. Pré-condition : Existe au moins un nouvel Item qui contient un article lié. 1) L extraction de l article lié en format HTML; 2) La sauvegarde de l article sur disque ; 3) La génération du fichier log. 1) a/ l article n est pas disponible, le cas d utilisation se termine en échec. Cas d utilisation : Sauvegarder les Méta-Données dans LUCENE But de ce cas d utilisation : permettre l enregistrement des Méta-Données dans LUCENE et la création d un index pour l utiliser ultérieurement dans le cas «Interroger le Corpus». 1) L enregistrement des Méta-Données dans LUCENE ; 2) L indexation des Méta-Données. 1) a/ l article n est pas disponible, le cas d utilisation se termine en échec. Cas d utilisation : Convertir les articles liés en format texte But de ce cas d utilisation : permettre le zonage et la conversion des articles récupérés dans le cas d utilisation «Récupérer et sauvegarder les articles liés» en format texte. Acteur secondaire : Utilisateur. 1) La récupération du contenu principal de la page HTML; 2) L indexation du fichier texte récupéré ; 4
3) La génération du fichier log. 1) a/ le fichier texte n est pas récupéré, le cas d utilisation reprend à l étape 1. Cas d utilisation : Calcul statistique à partir du texte brut But de ce cas d utilisation : permettre de faire des calculs statistiques à partir du texte brut récupérer auparavant dans le ca d utilisation «Convertir les articles liés en format texte». 1) Lancer le calcul statistique (fréquence n-gram). Cas d utilisation : Analyser Morphosyntaxiquement le corpus But de ce cas d utilisation : permettre d analyser morphosyntaxiquement les corpus avant de lancer le calcul statistique. 1) Lancer l analyse morphosyntaxique sur le corpus ; 2) Lancer le calcul statistique. Cas d utilisation : Interroger le corpus But de ce cas d utilisation : permettre à l utilisateur d interroger les corpus via une interface web. 1) Lancer le navigateur et saisir l url de l application web; 2) Saisir les critères de recherche et appuyer sur «Rechercher»; 3) Saisir les critères de recherche et appuyer sur «Rechercher dans le contenu». 5
Conclusion Tout au long de cette étude des différents cas d utilisation de notre système intitulé «Presse Crawler», on a identifié et détaillés les cas d utilisations globales cependant d autres cas d utilisation supplémentaires peuvent être introduire au fur et à mesure pendant la réalisation du projet. 6