1 / 30 Architecture logicielle & Étude et réalisation d oralisation de tag clouds pour non-voyants Encadrants : Stéphane Ferrari et Fabrice Maurel Soutenance de projet et de stage
2 / 30 Sommaire 1 Introduction Problématique Cadre 2 État de l art 3 Solutions proposées 4 Travail du projet 5 Travail du stage 6 Conclusion 7 Bibliographie
3 / 30 Introduction Problématique Accessibilité du Web aux non-voyants Dans le monde 314 millions de déficients visuels 45 millions de non-voyants En France 70 000 non-voyants Sur 15 000 connaissant le Braille, 7 000 le pratiquent 90% n utilisent pas le Braille Utilisation plus fréquente d Internet que les voyants [Montagné, 2007] La solution actuelle : les lecteurs d écran (screen readers) Linéarisation de la structure du document Perte du coup d œil (first glance) Multidimensionnel Unidimensionnel [Safi et al., 2014]
4 / 30 Introduction Problématique
4 / 30 Introduction Problématique
4 / 30 Introduction Problématique
Introduction Problématique Deux actions de navigation web dans la littérature Le skimming : obtenir un aperçu du contenu Le scanning : chercher une information spécifique Non-voyants : très grandes difficultés d accès à ces actions Exemple de la fonctionnalité «skimming» de JAWS Stratégies alternatives : navigation inter-titres, débit de la synthèse vocale... Encore très loin d une navigation visuelle [Bigham et al., 2007] Le skimming améliore grandement la lecture [Ahmed et al., 2012] 5 / 30
6 / 30 Introduction Cadre Cadre Projet inscrit dans le projet M2WA (Multi Modal Web Access) Projet ANR Art-adn avec la thèse de Waseem Safi Projet de M2 DNR2I de Marie-Françoise Godéré Stage financé par la fédération NormaSTIC
État de l art Modalité orale MORTELS (Modèle d Oralisation par Reformulation des Textes Écrits pour être Lus Silencieusement) [Maurel, 2004] 3 stratégies de reformulation 4 stratégies de réduction par indications prosodiques Problème TTS classique < TTS + MORTELS < Lecture visuelle classique TTS = Synthèse vocale (Text To Speech) 7 / 30
État de l art Modalité tactile Le papier thermogonflable Utilisation classique Four chauffant l encre noire Utilisation interactive Images de pages de l Irit (Toulouse) 8 / 30
9 / 30 État de l art Modalité vibrotactile L OPTACON (1966) Grandes matrices de solénoïdes Représentation du texte scanné Dessine en relief l image de l écran
10 / 30 État de l art Modalité vibrotactile Tactos [Lenay, 2003] STIMTAC (Équipe MINT de Lille, 2004) Représentation des formes survolées Simulation de texture rugueuse Problèmes : Couteux et peu transportables
11 / 30 État de l art Solutions transportables et peu coûteuses HearSay : navigateur web multi-modal [Borodin et al., 2010] Segmentation de page Système d annotation de textes alternatifs Module Dynamo : détection des changements dans les pages Analyse de contexte du texte autour des liens Limites : Accès à la structure incomplet Accès et lecture séquentiels
12 / 30 État de l art Solutions transportables et peu coûteuses AcceSS [Parmanto et al., 2005] Segmentation de page par pattern matching Simplification : division en plusieurs pages reliées par une Guide dog page Limites : Méthode de segmentation faillible Pas de simplification de texte
13 / 30 État de l art Solutions transportables et peu coûteuses Adaptive Browsing Shortcuts [Salampasis and Kouroupetroglou, 2007] Segmentation de page par annotation manuelle Ontologies utilisées pour naviguer en profondeur Limites : Navigation lente Pas de système d annotation auto Pas de simplification de texte
14 / 30 Solutions proposées Solutions proposées pour l accès à la structure visuelle La tactinette (ou TactiNET) du projet ANR ART-ADN porté par le GREYC (Hultech, Électronique et Image) Peu intrusif et peu couteux Actionneurs vibrotactiles et thermiques Accès non visuel aux tablettes tactiles Solution explorée dans ce projet Restituer rapidement l organisation logico-thématique d une page Web Permettre le skimming aux non-voyants Interaction orale/orale (entrée/sortie)
Solutions proposées 15 / 30
Solutions proposées 15 / 30
Solutions proposées 15 / 30
Solutions proposées 15 / 30
Solutions proposées 15 / 30
Solutions proposées 15 / 30
15 / 30 Solutions proposées Version orale : le tonnerre de mots (tag thunder)
16 / 30 Solutions proposées Segmentation de pages web Approche sur l arbre de DOM (Document Object Model) du HTML [Sanoja and Gançarski, 2013] Approche sur l apparence de la page dans le navigateur [Deng et al., 2003] Approche traitement d image : diviser l image de la page en sous-blocs [Cai et al., 2004] [Cao et al., 2010] Approche sur le texte : segmentation sémantique [Foucault et al., 2013] Approche graphes dont les parties visuelles sont les nœuds [Chakrabarti et al., 2008] [Liu et al., 2011] Approche hybride : thèse de Waseem Safi (projet ART-ADN) avec service de SemioTime
17 / 30 Solutions proposées Résumé de texte par mots-clés (keyphrases) Automatic Keyphrase Extraction via Topic Decomposition [Liu et al., 2010] Méthode non supervisée basée sur PageRank [Page et al., 1999] LDA (Latent Dirichlet Allocation) [Blei et al., 2003] pour obtenir la distribution des domaines pour chaque mot Construction d un graphe de cooccurrence des mots (noms et adjectifs) Exécution de TPR (Topical PageRank) Classements par score d importance pour le domaines Fusion des classements
18 / 30 Solutions proposées Résumé de texte par mots-clés (keyphrases) A Ranking Approach to Keyphrase Extraction [Jiang et al., 2009] Tokenization Génération des ngrams Racinisation (stemming) Calcul du TF-IDF et First occurrence sur un corpus de 100 documents Classements selon TF-IDF et First occurrence Entraînement d un classifieur SVM
19 / 30 Solutions proposées Réalisation de modèles de tag thunders Les paramètres : voix, prosodie, hauteur, volume, débit, répétition, spatialisation... Cocktail Party Effect [Guerreiro, 2013] Construction d un système de navigation oral/oral Mots-clés en entrée et en sortie Organisation d expérimentations avec des non-voyants Définition de métriques d évaluation Gain de temps, facilité d utilisation, satisfaction des utilisateurs... Difficulté d évaluation pluridisciplinaire
20 / 30 Travail du projet Mise en place de l architecture logicielle Éléments sur la partie oralisation Documentation sur des langages d oralisation : VoiceXML/SSML/SMIL Prise en main de la synthèse vocale KALI (CRISCO) Premier algorithme de choix de mots-clés avec mesure de collocation et classement selon la fréquence pmi(x, y) = log p(x, y) p(x) p(y) (1) pmi(x, yz) = pmi(x, y) + pmi(x, z y) (2)
21 / 30 Travail du projet Schéma de l architecture
22 / 30 Travail du stage Score basé TF-IDF Amélioration avec un score basé sur la first occurrence et le TF-IDF d j : nombre de termes dans le document d j D : nombre total de documents dans le corpus {d j : t i d j } : nombre de documents contenant t i tfidf (i, j) = tf (i, j) idf (i) (3) idf (i) = log tf (i, j) = n i,j d j D {d j : t i d j } (4) (5) Score = (2 first occurrence) TF-IDF (6)
23 / 30 Travail du stage IDF sur large corpus idf sur corpus de 20 années du journal Le Monde 953 551 documents ( 5 Go) N-grams d IDF < 10 ( à au moins 1/10 000 documents) : 1-grams 2-grams 3-grams 4-grams 5-grams 117 599 595 551 704 744 355 445 128 917 6-grams 7-grams 8-grams Total 42 226 14 215 5 050 1 963 747
24 / 30 Travail du stage L algorithme (1) Tokenization (2) Extraction des ngrams contigus avec saut possible variable (3) Détermination des keyphrases (a) Ngrams d occurrence > 1 (b) Calcul du score avec l IDF du corpus Le Monde (c) Élimination des ngrams inclus dans des ngrams plus grands de scores supérieurs (4) Attribution des keyphrases (a) TF-IDF calculé sur chaque texte avec IDF sur l ensemble des textes (b) Attribution des keyphrases pour chaque texte selon le TF-IDF
25 / 30 Travail du stage Interface de création de tag thunders Interface divisée en 3 parties Configuration de presets de synthèse vocale Création du tag cloud et synthèse vocale Création du tag thunder avec glisser-déposer Possibilités de multi-canal, repetitions
26 / 30 Conclusion Résumé Problématique Verrou scientifique sur l accessibilité des non-voyants au Web Solution proposée Représentation rapide de structure, forme et contenu à l oral Préserver le multidimensionnel Aide à la navigation et à la recherche d informations pour non-voyants Représentation d objets Web 2.0 (Exemple : le tag cloud)
27 / 30 Conclusion Perspectives IDF sur site Personnalisation utilisateur Du multi-canal à l ambisonie VoiceXML+SSML Multi-modalité La conférence ASSETS
Bibliographie Ahmed, F., Borodin, Y., Puzis, Y., and Ramakrishnan, I. (2012). Why read if you can skim : towards enabling faster screen reading. In International Cross-Disciplinary Conference on Web Accessibility - W4A2012, Article No. 39. Bigham, J. P., Cavender, A. C., Brudvik, J. T., Wobbrock, J. O., and Lander, R. E. (2007). Webinsitu : A comparative analysis of blind and sighted browsing behavior. In 9th International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS), pages 51 58. Blei, D. M., Ng, A. Y., and Jordan, M. I. (2003). Latent dirichlet allocation. Journal of Machine Learning Research, 3, pages 993 1022. Borodin, Y., Ahmed, F., Islam, M., Puzis, Y., Melnyk, V., Feng, S., Ramakrishnan, I., and Dausch, G. (2010). Hearsay : a new generation context-driven multi-modal assistive web browser. In WWW 10, 19th international conference on World wide web, pages 1233 1236. Cai, D., He, X., Ma, W.-Y., Wen, J.-R., and Zhang, H. (2004). Organizing WWW Images Based on the Analysis Of Page Layout And Web Link Structure. Microsoft Research Asia, Beijing, China. Cao, J., Mao, B., and Luo, J. (2010). A segmentation method for web page analysis using shrinking and dividing. International Journal of Parallel, Emergent and Distributed Systems - Network and parallel computing,volume 25 Issue 2, pages 93 104. Chakrabarti, D., Kumar, R., and Punera, K. (2008). A graph-theoretic approach to webpage segmentation. Proceedings of the 17th international conference on World Wide Web, WWW 08, ACM, USA, pages 377 386. 28 / 30
Bibliographie Deng, C., Shipeng, Y., Ji-Rong, W., and Wei-Ying, M. (2003). VIPS : a Vision-based Page Segmentation Algorithm. Microsoft Research. Foucault, N., Rosset, S., and Adda, G. (2013). Pré-segmentation de pages web et sélection de documents pertinent en Questions-Réponses. TALN-RÉCITAL. Guerreiro, J. (2013). Using simultaneous audio sources to speed-up blind people s web scanning. In 10th International Cross-Disciplinary Conference on Web Accessibility (W4A), pages 1 2. Jiang, X., Hu, Y., and Hang, L. (2009). A ranking approach to keyphrase extraction. SIGIR 09. Liu, X., Lin, H., and Tian, Y. (2011). Segmenting Webpage with Gomory-Hu Tree Based Clustering. Journal of Software, Vol 6, No 12, pages 2421 2425. Liu, Z., Huang, W., Zheng, Y., and Sun, M. (2010). Automatic keyphrase extraction via topic decomposition. In The Conference on Empirical Methods in Natural Language Processing, pages 366 376. Maurel, F. (2004). De l écrit à l oral : analyses et générations. In 11ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), pages 289 298. 29 / 30
Bibliographie Montagné, G. (2007). L inclusion des personnes aveugles et malvoyantes dans le monde d aujourd hui. Rapport à la demande du Ministre du Travail, des Relations Sociales et de la Solidarité. Page, L., Brin, S., Motwani, R., and Winograd, T. (1999). The pagerank citation ranking : Bringing order to the web. Technical Report 1999-66, Stanford InfoLab. Previous number = SIDL-WP-1999-0120. Parmanto, B., Ferrydiansyah, R., Saptono, A., Song, L., Sugiantara, I. W., and Hackett, S. (2005). AcceSS : Accessibility through Simplification & Summarization. In Proceedings of the 2005 International Cross-Disciplinary Workshop on Web Accessibility (W4A), pages 18 25. Safi, W., Maurel, F., Beust, P., Routoure, J.-M., and Dias, G. (2014). Screen readers comparison for navigating the web. Salampasis, M. and Kouroupetroglou, C. (2007). Adaptive browsing shortcuts : Personalising the user interface of a specialised voice web browser for blind people. In 23rd International Interconnect Technology Conference (IEEE), pages 818 825. Sanoja, A. and Gançarski, S. (2013). Block-o-Matic : a Web Page Segmentation Tool. 30 / 30