Proceedings ICNTC'2015

Transcription

1 Université Hassiba BEN BOUALI de Chlef Faculté des sciences Département d informatique Proceedings ICNTC' ième Conférence Internationale sur les Nouvelles Technologies et la Communication Chlef, Algérie 3-4 mars

2

3 Second International Conference on New Technologies and Communication ICNTC rd /04 th March 2015 Hassiba Benbouali University of Chlef, Algeria OVERVIEW ICNTCř15 Is the second International Conference on New Technologies and Communication that will be held from 3 to 4 march 2015 at Hassiba Ben Bouali university of Chlef, Algeria. ICNTCř15 aims at fostering advances in the areas of New Technologies and Communication, protocols, Wireless Networks, Mobile Computing, Ad hoc and Ambient Networks, QoS, Web services, Web mining, distributed systems, Internet of Things, wireless networking for moving objects etc. ICNTCř15 will address all the challenges of building the Future of communication and internet, which will be based on mobile, wireless and fixed broadband communications infrastructures. ICNTCř15 will become a stage for researchers, officials, decision makers, practitioners from the public sector and industry, people involved in other related initiatives and many others. The Conference will facilitate knowledge transfer to the community and practitioners by promoting results dissemination. ICNTC'15 provides a dynamic forum for researchers, students and professionals to present their research works and development in these interesting areas. Themes Topics of the conference include, but not limited to, the following research areas: Wireless sensor networks, Ad hoc Networks, Mobility and security. Routing, QoS and scheduling protocols. Communication protocols. Computer Security. Cloud computing. Distributed systems. Grid Computing. Web Commerce & Services, Data models, Web searching & querying. Web Mining, Web services & Web Semantics. Web service based Grid computing and P2P computing. Mobile/wireless content distribution. Signal Processing. Natural language processing. E-learning and m-learning. Mobile Social Networks Peer-to-Peer Social Networks Ontologies Image processing Pattern recognition Data mining Radio Frequency and Antenna design Optical communications and devices Signal processing techniques for Communications ( 1 )

4 Conference Honor chairman Professor: Berrabah BENDOUKHA Chlef University Rector Conference General Chairman Professor: Abdelkader ALI BENAMARA Science Faculty Dean TECHNICAL PROGRAM COMMITTEE Abassia DEBA Abdelkader BENYETTOU Ahmed LEHIRECHE Ahmed GUESSOUM Benamer KADRI Bouabdellah KECHAR Belabbas YAGOUBI Bernard COUSIN Bouziane BELDJILLALI Congduc PHAM Danda B. RAWAT Djamel-Eddine ZEGOUR Fatima BENDELLA Fatima DEBBAT Fatima Zohra BELKREDIM Ghita KOUADRI MOSTEFAOUI Hafidh HAFAF Khadidja YAHYAOUI Ladjel BELLATRECHE Larbi SEKHRI Madaiah KRISHNAMURTHY Mohamed BENMOHAMMED Mounira OUARZEDDINE Mohamed BENYETTOU Mohamed ELHASSOUNI Mohammed FEHAM Mohamed SENOUCI Mahfoud BENCHAIBA Mourad GHASSAN Nabiha AZIZI Narimene BOUSTIA Riad MOKADEM Safia Nait BAHLOUL Sidi Mohamed SENOUCI Tewfiq EL MALIKI Walid Khaled HIDOUCI Yamine AIT AMEUR Youssef FAKHRI Zakaria MAAMAR Zohra SLAMA Zoulikha MEKKAKIA MAAZA Oran University (Algeria) USTO University (Algeria) SBA University (Algeria) USTHB (Algeria) Tlemcen University (Algeria) Oran University (Algeria) Oran University (Algeria) IRISA of Rennes (France) Oran University (Algeria) Pau University (France) Georgia Southern, (USA) ESI (Algeria) USTO (Algeria) Mascara University (Algeria) Chlef University de (Algeria) Diamond Light Source (Oxford,UK) Oran University (Algeria) Mascara University (Algeria) (France) Oran University (Algeria) Bangalore, (India) Constantine University (Algeria) USTHB, (Algeria) USTO University (Algeria) Rabat (Morroco) Tlemcen University (Algeria) Oran University (Algeria) USTHB University (Algeria) Beyrouth (Liban) Annaba (Algeria) Blida (Algeria) Toulouse (France) Oran University (Algeria) Bourgogne University (France) Genève(Switzerland) ESI (Algeria) ENSMA (France) Kenitra (Morocco) Dubai (AEU) Sidi Belabess University (Algeria) USTO university (Algeria) ( 2 )

5 ORGANIZING COMMITTEE Organization commitee honor president Professor: BELMADANI Bachir.( Vice-rector of scientific researches) President Ahmed LOUAZANI Ahmed HARBOUCHE Abdellah KOUIDER ELOUHED Lahcen GUEMIDI Mohamed SLIMANE Mohamed ARIDJ Abdelmadjid ALLALI MřHamed HADJ HENNI Djamila HAMOUCHE Members.1 9. Sarah IBRI Nassim DENNOUNI Mounir TAHAR ABBES Rachid BECHAR Mourad LOUKAM Djelloul BETTACHE MřHamed ZOUATNIA Ahmed SLIMANI Contacts Phones : / Fax: Adresse : ICNTC 15 Conference Département d informatique, BP 151 Université Hassiba Benbouali de Chlef Hay Salem, route nationale N Chlef, Algérie Web site : Front Page design: Nassim DENNOUNI & Rachid BECHAR Edited by : Ahmed LOUAZANI & Nassim DENNOUNI ( 3 )

6 C o n t e n t s P l e n a r y Ingenierie De La Connaissance Polarimetrc, multifrequency sar radars: a new era for remote sensing Quantum algorithms and quantum computers a new idea to strength computational security P r e s e n t a t i o n The evolutuion of collaboratif tagging systems and the relation with the emergence of anguage: Agent based modeling Deployment approaches of wireless sensor networks considering lifetime extension Proposition Dřun Protocole De Communication Dans Un Réseau Hybride Pour Améliorer La Sécurité Routière Un protocole de négociation pour l'ordonnancement distribué Multi-Agents dřun Atelier Job-Shop Coordination based agents for path finding Replication Strategies in a Mobile Environment Comparaisons des approches dřinteropérabilité des réseaux P2P Intégration d'un Module Morpho-lexical à partir du système Nooj dans une Plateforme d'analyse de Textes en Arabe standard Mobility Models for VANET simulation New Half-mode WaveguideDesigns based on SIW Technology for X band Applications Stockage distribué de données dans les réseaux de capteurs sans fil Bi-Clustering Algorithm Using Formal Concept Analysis Simuler pour Evaluer les BMOs: Quelle Méthode Choisir? Exploration diversifiée par entités nommées Une approche sémantique pour la recommandation de services dans le cadre dřune formation en ligne A Topology Management scheme with scalability and QoS guarantee for Large Scale Mobile Ad Hoc Networks in Urban Environment Overview of Incentive Mechanisms in Peer-to-Peer Systems Optimisation du routage des navires par une approche hybride basée sur lřacf TRACIS: a system for interpreting learnersř traces Towards Building Web Service Ontology: A WSDL Reverse Engineering Approach P o s t e r s CS-DSM : Cloud Service Description and Selection Model ACOHM : Bio-inspired routing protocol for High Mobile Ad Hoc Networks Routage semantique dřinformation dans un reseau p2p de partage de fichier The Fusion of SVD and NLS inversions for the Retrieval of a Simulated 3D Urban Structures in a Tomography SAR Application Les jointures des flux de données dans les réseaux de capteurs sans fil Parallel Pipelined Implementation of DES Cryptographic Algorithm on Multicore Machines Election de Leader dans les Réseaux Mobiles Ad Hoc Basée sur le Protocole de Routage TORA Extraction des relations de causalité dans le domaine médical Vers une simulation du système dřorchestration des activités mobiles dřapprentissage à lřaide des SMAs 140 ( 4 )

7 Ingenierie de la Connaissance LEHIRECHE Ahmed Laboratoire EEDIS, Université DJILLALI LIABES De Sidi Bel Abbes. Abstract- L ingénierie des connaissances est une spécialité qui s occupe de ce qui est extraction, formalisation et maintenance de la connaissance. Dans le domaine de l informatique elle est utilisée pour ajouter la dimension sémantique aux technologies de l information via les Systèmes à base de connaissances ou toute autres outils de manipulation de la connaissance. L extraction consiste à utiliser des corpus (ex. Linguistique) pour déterminer le sens d une unité lexicale (ex. model espace de mots). Les outils formels pour la spécification, la description, et l inférence cognitive sont au centre du domaine IC ; tel les logiques de descriptions (DL), les Graphes conceptuels(cg) et les frames. Sur un exemple réel ; Dans cette exposé nous présenterons comment utiliser les DL pour spécifier la connaissance, Comment penser en DL et Enfin quelques thèmes de recherches. Mots Clés : Connaissance, Formalisme, DL, CG, Frame, Linguistique computationnelle, les Ressources, Corpus, Ontologie, TALN, Web sémantique, Métriques. Biographie : Ahmed LEHIRECHE has completed respectively ING Diploma from ESI of Algiers (1981) with the final curriculumproject at the IMAG(France),ŗMAGISTER ŗ Diploma from USTOran (1993) and ŖDOCTORAT DřETATŗ Diploma from UDL Sidi bel Abbes (2005). He is working as a Director of research, head of the Knowledge Engineering Teamat the EEDIS laboratory and full Professor at the computer science departmentof UDL Sidi bel Abbes. He is mainly concerned with AI, Computer Science Theory and Semantics in IT. Polarimetrc, multifrequency SAR radars: A new era for remote sensing Abstract- Remote Sensing is the art of acquiring information about the Earth's surface without actually being in contact with it. This is done by sensing and recording reflected or emitted energy and processing, analyzing, and applying that information. Today, the use of passive as well as active sensors is becoming more and more necessary for environment monitoring. The ability of active sensors such as SAR radar to acquire images day and night and in all weather conditions gives this type of sensor the advantage to be the unique solution in case passive sensors fail to observe the earth and with less cost. The advent of multipolarization and multifrequency radars enters the radar SAR to a new era, by allowing a continuous surveillance of all types of land use/ land cover areas. Applications of SAR radar multipolarized/multifrequency are among others: agriculture using multitemporal information, Land cover classification, Vegetation parameter retrieval, Soil moisture, snow depth, DEM generation and Biomass and height estimation. Biographie: Mounira Ouarzeddine is a member of the LTIR laboratory (Laboratoire de Traitement d Images etrayonnement). She graduated in electronic engineering in 1993 at the university of Science and technology Houari Boumedienne (USTHB), in 1998 she finalized her magistèr in electronics systems at the same university. In 2002 she got her Master of Science in Geoinformatics from ITC, Twente university, the Netherlands, Then back to USTHB, Algiers, she achieved her doctorat d Etat in Image processing and remote sensing in Her main interests are signal processing applied in SAR radar, Interferometry, tomography and polarimetry. Key words; Remote sensing, Radar, polarimetry, multifrequency, SAR ( 5 )

8 Quantum Algorithms and quantum computers a new idea to strength computational security. Abdellah Oumsalem The Laboratory for Theoretical Physics and Material Physics -Chlef University- Chlef Preparatory school of sciences and techniques El Emir Abdelkader Bab El Oued, Algeria abdnab2003@gmail.com Abstract -During the past forty years astounding advances have been made in the field of quantum information theory. Many reasons lead to this development. First, Components shrink to where their behavior will soon be dominated more by quantum physics. Second, the physical limitations of the classical computer. Third, the characteristics offer by the exploitation of the quantum information theory. Velocity is one of these characteristics. As an example, a quantum algorithm can find such an item in a time proportional to the square root of the size of the set, which is considerably faster than classical methods that take the same time as the size of the set. In this work we have to show how a quantum algorithm is faster than a classical algorithm. As a case of study we compare between the Classical Search Algorithm (CSA) and the Grover s Algorithm (G sa). In computer science, CSA is a search algorithm which is suitable for searching a set of data for a particular value. It operates by checking every element of a list one at time in sequence until a match is found. The pseudo code describes the CSA is: «For each item in the list check to see if the item you re looking for matches the item in the list. If it matches return the location where you found it. If it does not match continue searching until you reach the end of the list. If we get to the last element, we know that the item does not exist in the list». As a result, the algorithm operates by checking every element of a list one at time in sequence until a match is found. CSA runs in O(N). If the data are distributed randomly, on average (N+1)/2 comparisons will needed. The best case is that the value is equal to the first element tested, in which case only one comparison is needed. The worst case is that the value is not in the list or in the last item in the list, in which case N comparisons are needed. Otherwise, Grover s Algorithm runs O( N ). G sa perform the search quadratically faster than can be done classically. This due to the use of the quantum superpositions and the state amplitude. We applicate G sa as follow: we begin with lunch the n-qubit state After, we prepare the state N 1 1 N I φ = Ix x= 0 by the application of the n-qubit Hadamard gate (H). As a final step, we apply the Grover 1 N] times and we measure the [ π 4 iterate (G) as resulting state. In these procedures Hadamard gate and Grover iterate work to increase the probability amplitude of the searching state I φ. As a result we compare the amplitude of all states with the I φ amplitude. This gives us zero probability with all cases. However, it gives us one with just one element which is the searching element. This happens in N time. Finally, comparing to CSA which takes N time to search an appropriate element in a list of data, G'sA does a generic search using amplitude comparison techniques to find the same element in N time. Also, G'sA is a good example to show how a quantum algorithm is powerful. REFERENCES [1] M. A. Nielsen. Quantum Information Theory. Ph.D thesis, University of New Mexico, [2] M. Mosca and A. Ekert. The hidden subgroup problem and eigenvalue estimation on a quantum computer. arxive e-print quantph/ , [3] Y. I. Manin. Classical computing, quantum computing, and Shorřs factoring algorithm. arxive e-print quantph/ , [4] X. Zhou, D.W. Leung, and I. L. Chuang. Quantum logic gate constructions with one-bit ŗteleportationŗ. arxive e-print quantph/ , [5] P.W. Shor and J. Preskill. Simple proof of security of the BB84 quantum key distribution protocol. arxive e-print quantph/ , Biography: Abdellah Oumsalem is an Assistant Professor of Electronics and scientific English at the Preparatory school of Sciences and Techniques, Algiers- Algeria. His main interests are Nanotechnology and quantum algorithms. ( 6 )

9 The evolutuion of collaboratif tagging systems and the relation with the emergence of language: Agent based modeling Ahmed Mokhtari École nationale Supérieure dřinformatique (ESI ex. INI) Algiers, Algeria Abstract Insocial web and in the collaborative tagging system in particularly, users annotate resources using key words (tags) in order to categorize and organize their personal resources. In this paper, we study the emergence of tagging language formed by (tag/resource) couples shared by the users of the system. Using agent-based modeling, following the perspective of complex system, we show that a shared language can emerge in a collaborative tagging system. Keywords social web, collaborative tagging systems, language emergence, collaborative tagging, tag,, Multi agents systems. I. INTRODUCTION In social web and in the collaborative tagging system in particularly, users annotate resources by tags to create a categorization system. To what extent, the proposed tags help the emergence of a tagging language shared by the users of the collaborative taggingsystem? Our motivation to this work is to improve the existing tagging systems by an emergent language that is established and will be used by the users in describing resources on the web and also will be used in their search in the system. The works done in the modeling of the language emergence and language evolution have shown that group of agents can establish a common language, by applying certain principals like self-organization, imitation and reinforcement learning[1]. These principals help in the emergence and the evolution of a shared language. In this paper, our contribution is the study of cognitive (linguistic) aspectof the tagging systems by applying emergence of language principals on collaborative tagging system where the users are modeled and simulated by multi agents system and showing that the users of such system develop a shared language that can be used on the search of the resources. Salima Hassas University Claude Bernard - Lyon 1 Lyon, France hassas@univ-lyon1.fr of the tags is described by a power law. In [3], there is a study of the evolution of tagging systems within a semiotic perspective; in [4] an epistemic model for collaborative tagging system is presented. A study of the complex dynamics of tagging systems is presented in [5] where tripartite model is introduced for modeling the structure of the tagging system. In the work of Santos-Neto and Condon [6] individual and social behaviors are analyzed in tagging systems and probabilistic model is presented. In the works of SteelsandKaplan [1] [7] [8] [9] [10] emergence language model is developed in which group of agents establish a common language and it can be considered as good framework for studying the emergence and evolution of language. A. Problematic This article aims to study the evolution of collaborative tagging systems and the conditions for the emergence of folksonomies, and also we present a study of these systems in a linguistic perspective considering folksonomies aslanguage to answer the following question: Is there a relationship between the emergence of language and the evolution of tagging systems? What are the linguistic foundations that can explain the evolution of these systems to the emergence of folksonomies? This problematic is addressed by using multi-agents based modeling. B. The tripartite structure of tagging systems The tripartite model has been theorized in [5].There is three main entities that form any collaborative tagging system: The systemřs users. The tags themselves. The resources being labeled. Related work Among the works that are close to our work which is the evolution of collaborative tagging systems and the emergence of language, we cite as examples: The work presented in [2] is concerned with the structure of collaborative tagging systems and the dynamics observed in these systemsand it shows that the growth of the number ( 7 )

10 A. Model components Fig. 1 - The tripartite structure Each of the three entities may be seen as separate spaces which form sets of nodes connected by edges. C. Definition of folksonomy A folksonomy is a tuple F: = (U, T, R, Y, pt) [4] where U, T, and R are finite sets, whose elements are called users, tags and resources respectively. Y is a ternary relation between them, Y U T R, which represent the action of assigning tag. Pt is a function: Y n which assigns to each element of Y timestamp n. It corresponds to the time when a user has assigned a tag to the resource. D. The evolution and dynamics of a tagging system The study of collaborative tagging systems shows that they evolve over time by complex dynamics [2]. This dynamics is held by the user-system interactions through resources annotation. The observation of the use and the reuse of tags shows that the growth of the number of the tags is described by a power law with an exponent smaller than one and this distribution gives rise to emergence of folksonomies (Fig.2). II. Fig. 2 Growth of the number of tags in a real tagging system MODELING DYNAMICS OF TAGGING SYSTEM For this model, our aim is to generate the dynamics observed in the collaborative tagging system and in particular the evolution of the number of tags that follow a "power law" distribution (fig.2). The values of the parameters of the model are taking from the work of Santos-Neto and Condon [6] where the individual and social behaviors in tagging systems are analyzed and modeled analytically but we use agent based modeling rather than analytical model. A collaborative tagging system consists of three parts, a set of users, a set of tags and a set of resources. These three sets are connected by links made by operation of collaborative tagging.in our model: B. Model parameters System users are simulated by software agents, Tags are randomly generatedwords. Resources are represented bykeywords also randomly generated. The most important parameters of our model are: The number of the agents that access the system and participate in the tagging operation. The number of the most used tags presented to an agent to allow a social imitation. The threshold for measuring the similarity between the resources, it used to assign resources that are close to the same tag, for the similarity measures between two resources r i, r j represented by the two keywords key_word respectively, we used key_word and i a lexical function defined as 2* Communs _ prefix (key_word i, key_word j) Sim( ri, rj ) Length (key_word ) Length (key_word ) C. Interaction The interaction of the agents with the system is as follows: 1. An agent accesses the system. 2. The system provides access for that user to all tags used in the previous sessions; the system also provides access to a set of most used tags by other users. 3. The agent chooses a new resource or an existing resource in the system. 4. The agent has three options to choose a tag to be assigned to the selected resource: He chooses a tag from his personal tags; in this case we have a self imitation. He chooses a tag amongst most used ones by the community of the tagging system users; in this case we have a social imitation. He creates a new tag if he determines that the resource belongs to a new category that does not exist in its personomy (personal tags) nor in the folksonomy. 5. He sends the identifier of the resource and the tag he chose to the system as an input "Ui, Ti, Ri, ti" Where Ui, Ti, Ri, ti represent the user, the tag the resource, a time stamp. D. Results and Discussion We used Jade framework and java programming language in the development of our multi agents system. i j j ( 8 )

11 We will present some results of a simulator designed based on the model described above.our goal in this phase is to regenerate the complex dynamics of tagging systems. By modifying the parameters of our model, we obtain the same dynamics observed in the real collaborative tagging systems. Example1 In the first simulations, we use a very limited number of agents as for example N = 10 and a threshold agents similarity measure S = 0.4. The figure below shows the evolution of the number of tags over time. system and the generation of the dynamics of such systems. The quality of the folksonomy in terms of number of tags dependents on the threshold chosen for defining interresource similarity which defines somehow the degree of freedom for the agent to consider two resources as having the same content so its must have the same tag. III. LINGUISTIC MODELING OF TAGGING SYSTEM We are interested in this model to the cognitive and especially to the linguistic aspect of the process of collaborative tagging. To study the linguisticaspect of the tagging process, we enrich the previous model as follows: We endow the agents with cognitivestructures (associative memories); these memories aim to store linguistic knowledge about the assignments of tags to resources (couples tag / resource). A reinforcement learning mechanism so that agents can learn and adapt their knowledge by updating their associative memories. The agents interact with the system by following scenarios of language games [1]. fig. 3 -Evolution of the number of tags In the figure 3, the convergence of the number of tags to 671 tags can be observed after 1019 iterations and it's the same dynamics observed in a real collaborative tagging system (a power law). Example 2 In this example, we use a number of agents N = 500 agents and a threshold of similarity measure S = 0.4. Fig. 4 -Evolution of the number of tags In the figure 4, The convergence of the number of tags to 962 tags can be observed after 1363 iterations and it's the same dynamics observed in previoud example and in the tagging system.. This is due to the principle of individual and social imitation used in our model which is based on the reuse of systemřs tags that allows the convergence and the emergence of folksonomy. E. Summary and Discussion From the examples above and from other examples, we see the emergence of folksonomies in the simulated tagging This model is based in its linguistic side on the models proposed in the work of Kaplan [1]. A. Interaction The novelty in the interactions compared to the previous model is that they follow schemes inspired of language games adapted for collaborative tagging systems becausethe interactions occur between an agent and the system (not between two agents like in standard language games) where the agent (resp. system) plays the role of speaker or interlocutor to negotiate the assignment of a word (a tag) to a meaning (a resource). The interaction of the agents with the system is as follows: 1. An agent accesses the system. 2. The system provides access for that user to all tags that used in the previous sessions; the system also provides access to a set of most used tags by other users. 3. The agent chooses a new resource or an existing resource in the system. 4. Agent has two options to choose a tag to be assigned to the selected resource: He plays the role of a speaker and in this case the system plays the role of the interlocutor and we are in a situation of self imitation, ie the system learns words from the agent linguistic knowledge. He plays the role of an interlocutor and in this case the system plays the role of speaker and we are in a situation of social imitation, ie the agent learns from the system by imitating it overall language knowledge stored in the memory of the system. In both situations, there will be a negotiation between the speaker and the interlocutor to decide the ( 9 )

12 appropriate tag assignment to the resource in question. 5. It adapts its associative memory by inserting new assignment or modifying previous one by the reinforcementlearning. 6. It sends the identifier of the resource and the tag he chose to the system as an input "Ui, Ti, Ri, ti" Where Ui, Ti, Ri, ti represent the user, the tag, the resource, and a time stamp. B. Results and Discussion Examples of simulated scenarios are presented by modifying the model parameters (the number of agents, the threshold measure of similarity). To analyze the emerging language, we use the encoding matrix inspired from [1] and we redefine it as a matrix whose columns are the tags of the system and the lines are system resources, and the intersection of a tag "t" with an resource "r" isthe probability to put the resource "r" in the category represented by the tag "t". Then we use graphic representation to present the encoding matrix content in the form of clusters where each cluster stands for a word (a tag) and the resources that have been tagged by it. We will present two scenarios of simulation. 1. Example 1 We use a number of agents N = 10 agents, and a threshold of similarity measure S = 0.3 for this example. We calculate the encoding matrix to analyze the emerging language consisting of emerging categories in collaborative tagging system. After having calculated the encoding matrix, emergent categories are shown in the form of clusters; the figure below shows some emergent clusters in the tagging system. Fig.5 Ŕ Some emergent categories In the encoding matrix, we have an emergent language formed of emergent categories and resources that belong to each category. In figure 4, in the category represented by the word "xaqe», remember that the tags are randomly generated words, we note that its elements are resources that start with the character Ŗfŗ. For the agents, these resources belong to a common field. The same thing can be said about the category represented by the tag "joca" and resources starting with "u". 2. Example 2 We use a number of agents N = 100 agents and a threshold similarity measure S = 0.3 for this example. Through linguistic analysis of this example, we calculate the encoding matrix.the following figure shows some emergent clusters in our simulated tagging system. Fig. 6Ŕ Some emergent categories For example, the category represented by the word "jesa" contains resources that start with the character "h". C. Summary and Discussion After the results of the simulations mentioned above, a tagging language shared by users of collaborative tagging system, modeled by agents, emerges in the system and in associative memories of the agents since we are interested in the linguistic aspect of this process. The agents invent words (tags) in order todescribe the resources of the system and to put them in different categories. D. Conclusion In this work, we studied the dynamics governing the collaborative tagging systems through the first model using a complex systems based modeling and multi agent systems. This modeling approach allows the regeneration of the dynamics observed in the collaborative tagging systems through self-organization and a selections mechanism expressed by the principle of self imitation and social imitation. Our main objective of this work is the study of the emergence of a language shared by users of tagging system, we treated this objective through the second model, enriching the first model by cognitive structures in the form of associative memories and by using interaction scenarios based on language games, we have shown that users of collaborative tagging system can share a emergent tagging language that has lexical structure. ( 10 )

13 Tagging language with grammatical structure seems to be avery good perspective and continuation of this work. The application of these results on existing collaborative tagging systems or the design of new tagging systems taking into account the linguistic aspect of these systems are future goals and a continuation of this work. The use of other models of the language emergence is another approach to addressing this issue to better understand the cognitive processes of collaborative tagging. References [1] Kaplan, F. L'émergence d'un lexique dans une population d'agents autonomes, Ph.D thesis, Université Paris VI, [2] Golder, S., & Huberman, B. A., The structure of collaborative tagging systems. Journal of Information Science, 32(2), , [3] Cattuto, C., Baldassarri, A., Servedio, V. D. P., & Loreto, V.,Vocabulary growth in collaborative tagging systems. Arxive-print: [4] Dellschaft, K., Staab, S., An epistemic dynamic model for tagging systems. Proceedings of the 19th ACM Conference on Hypertext and Hypermedia HT'08 (p ), [5] Halpin, H., Robu, V., & Shepherd, H., The complex dynamics of collaborative tagging. Proceedings of the 16th international conference on World Wide Web (p ), [6] Santos-Neto, E., Condon, D., Andrade, N., Iamnitchi, A., et Ripeanu, M., ŖIndividual and social behavior in tagging systems,ŗ Proceedings of the 20th ACM conference on Hypertext and hypermedia, p. 183Ŕ 192, [7] Steels, L., The synthetic modeling of language origins. Evolution of Communication , [8] Steels, L., Kaplan, F., Collective learning and semiotics dynamics, in D. Floreano, J-D. Nicoud, F. Mondada F. (éds.), Advances in Artificial Life, Lecture Notes in Artificial Intelligence, p , Berlin, Springer- Verlag, [9] Steels, L., Language Games for Autonomous Robots. IEEE Intelligent Systems, [10] Steels, L., Kaplan, F., Bootstrapping Grounded Word Semantics, in T. Briscoe (éd.) Linguistic evolution through language acquisition: Formal and Computational Models, Cambridge University Press, ( 11 )

14 Deployment approaches of wireless sensor networks considering lifetime extension Soumaya Fellah, Mejdi Kaddour and Yahia Lebbah Laboratoire LITIO, Université d'oran,bp 1524, El-M'Naouer, Oran, Algérie, Abstract Sensor placement impacts considerably area coverage and network resources utilization. A key challenge in deployment is to determine a sensor location that optimizes cost by ensuring high sensor coverage. We are interested in a deployment strategy that maximizes the area coverage of the sensors and guarantees at the same time network connectivity between sensors and the sink. In this paper, we propose two deployment approaches that aim to cover a set of deployed targets with the use of minimum number of sensors and ensure network connectivity. The first one relies on integer programming, while the second one is heuristic. Then, we compare these two alternatives in terms of the number of deployed sensors and computation time. Also, we propose an energy efficient approach that ensures the network operation for a specific period of time. Keywords-optimization; wireless sensor network; coverage; connectivity; energy consumption; network lifetime; integer programming. I. INTRODUCTION Wireless sensor networks (WSNs) have attracted significant attention due to their integration of wireless, computer, and sensor technology. These networks consist of a multiplicity of nodes that are equipped with processing, communicating and sensing capabilities, and use ad-hoc radio protocols to forward data in a multi-hop mode of operation. The sensors are used to collect, treat and transport data to the sink nodes in the network. Two deployment strategies can be used according to network purpose and environment condition either controlled or random. Controlled deployment is usually applied in accessible environments where the sensors can be placed exactly in the desired location, eventually by using a robot. Random deployment is adapted to inaccessible or hostile environments such as battle fields or disaster regions. Sensors are self-organized to perform specific tasks such as environment monitoring, target tracking, or infrastructure surveillance. Sensor networks can be used in different applications, such as military applications, environmental applications, health applications, home automation, or commercial applications. Reference [1] gives further detailed about sensor networks applications. One practical goal of sensor deployment in the design of distributed sensor systems is to achieve an optimal monitoring and surveillance of a targeted region. The optimality of a sensor deployment scheme is a tradeoff between implementation cost and coverage quality levels. An important research problem in wireless sensor networks is the coverage problem, which focuses on how well the field is monitored by sensors [2]. One of the main applications of WSNs is to provide proper coverage of their deployment regions. Typically, the sensing range is a circular disk centered at the sensor. A given point is said to be covered by a sensor network if it falls in the sensing range of at least one sensor. A region is said to be covered if all the point inside it are covered [3]. In building WSNs, network coverage is one of the fundamental issues.the question is how to deploy the sensor network nodes, under the conditions of ensuring a certain quality of service and achieving the maximization of network coverage with a minimum number of sensor nodes. There are other factors to be considered when a WSN is deployed, such as financial cost. The target coverage problem is to cover a set of given deployed targets with known coordinates. One of the objectives is to minimize sensing cost. We investigate in the current work coverage problem in sensor networks, under the conditions that both target coverage and network connectivity are satisfied. As a means, we develop twoapproaches to determine the sensors positions in order to cover all the targets in the area. The first one is relies on integer programmingwhich provides the optimal sensor placement strategy and the second approach is a heuristic-based algorithm. Both optimal and heuristic approaches aim to minimize the number of sensors placed in area. Furthermore, this paper investigates the network lifetime problem to ensure the operation of the network for a given predetermined duration. Indeed, a wide dissemination of WSNs is obstructed by the severe energy constraints of individual sensor nodes. This is the reason why a large part of the research in this area focuses on the development of energy consumption efficient strategies. Energy conservation is essential in this context because nodes are usually battery powered. The remainder of this paper is structured as follows. In Section II, we discuss some previous work in the field of sensor deployment under coverage constraints. In Section III, we present our proposed deployment approaches. In Section IV we describe the lifetime approach. Experimental results are presented in Section V. Finally, we conclude the paper in Section VI. II. RELATEDWORK Different deployment methods are proposed in order to provide high coverage, [4] developed an algorithm to cope with the sensor placement problem for target location under constraints of the cost limitation and complete coverage, this algorithm is able to find the optimal sensor placement under the minimum cost constraints. Moreover, it can also ( 12 )

15 find a placement with minimum distance error for large sensor fields. The authors in [5] addressed the issue of covering a set of target points in an area with a finite set of sensors. A probabilistic model is proposed which takes in account the detection probabilities of the sensors which may decay with distance, environmental conditions, and hardware configuration. The objective is to deploy sensors so that the distribution of the sensors meets the probability of detection requirements while minimizing costs. The work in [6] proposed optimized GRG (Sensor self-deployment algorithm Greedy-Rotation-Greedy), for guaranteed coverage radius maximization. [7] Studied optimal deployment in terms of the number of sensors required to achieve four-connectivity and full coverage under different ratios of sensorsř communication range to their sensing range. It proposed a new deployment pattern called the Diamond pattern, which can achieve four-connectivity and full coverage. [8] Presented a novel algorithm that employs grouping and time scheduling to turn off some of the sensors covering of them on the entire area. In this algorithm the sensing range of the nodes depends on their energy. In [9], authors investigated random and deterministic node deployments for large-scale wireless sensor network under different performance metrics such as coverage and energy consumption. They considered three alternatives: a uniform random, a square grid, and a patternbased Tri-Hexagon Tiling node deployment and calculate exactly the k-covered points. [10] Proposed solutions to the minimum cost coverage problem under random and deterministic deployments. The aim of this work is to determine the minimum number of sensors required to cover the desired arbitrarily shaped geometric profile and not to propose the optimal placement strategy with an arbitrary amount of sensors. In [11], authors considered a probabilistic sensing model that provides different sensing capabilities in terms of coverage range and detection quality with different costs. A sensor deployment problem for a planar grid region is formulated as a combinatorial optimization problem with the objective of maximizing the overall detection probability within a given deployment cost. In [12], deployment strategies for two-dimensional and three-dimensional communication architectures for underwater acoustic sensor networks are proposed, and a mathematical deployment analysis for both architectures is provided. The objective is to determine the minimum number of sensors to be deployed to achieve optimal sensing and communication coverage. Finally the aim of [13] is to minimize the number of sensors deployed, while providing satisfactory quality of data and provide enough coverage for every point onthe grid at the same time. III. PROPOSED DEPPLOYMENT APPROACHES Consider a region to be monitored using a sensor network. The sensors are deployed over the region in a deterministic fashion so that each target can be monitored by at least one sensor. In order to collect information from the sensor nodes to monitoring center, we assume that there is a communication path towards the sink for each deployed sensor, In this section, we focus on the design of two approaches that can provide full target coverage using a minimum number of sensors. In the first one, we propose a linear integer program which provides an optimal placement strategy of sensors and the connection between all deployed sensors and the sink. In the second approach, we propose a heuristic algorithm. A. Proposed linear approach Given a set of n targets, denoted as T= {t 1, t 2,...,t n } with predetermined positions, the objective is to find a set of sensor positions that cover them. We consider a square grid as a deployment region. We define below the main parameters: c: number of columns in the grid l: number of lines in the grid. r s : sensing range of sensors. r c : radio communication range of sensors. y ij :is a binary denoting if a sensor deployed on coordinates (i,j) is connected to the sink. l 0 : sink location. The decision variables of our optimization model are defined as follows: x ij : is a binary denoting if there is a sensor is deployed on coordinates (i,j) of the grid. α:number of deployed sensors. The parameter d(l a,l b ) denotes the Euclidean distance between two possible locations l a and l b. Let σ(x ij,t) be an indicator function of whether a target t can be covered by a sensor located on the location (i,j), it can be defined as: 1, if (d(l ij,l t ) r s ) where l ij is location of site (i,j) σ(x ij,t) = and l t is location of target t. 0, otherwise Besides, let (l a,l b ) denotes an indicator function of whether a sensor deployed on location a can establish a direct communication link with a sensor deployed on location b. 1, if (d(l a, l b ) r c ) where l a is location of sensora (l a, l b ) = and l b is location of sensor b. 0, otherwise Now, our optimization model can be stated as follows: Minimizeα Subject to ( ) (1) ( ) ( ) ( ) ( ) (2) ( ) (3) (4) ( 13 )

16 The objective function minimizes the number of deployed sensors. The constraint (1) requires that all targets are covered by at least one sensor. The constraint (2) requires that the Euclidean distance between deployed sensor (not directly connected to the sink) and an other already connected sensor is lower or equal to r c.the constraint (3) ensures that all deployed sensors are connected. The constraint (4) calculates the number of deployed sensors. B. Proposed heuristic approach In the first time, we select one target to be covered and in second part, connection path is built with the aim to reach sink node. It relies on an iterative process, where at each iteration we select a sensor location that covers the maximum number of yet uncovered targets, while ensuring that the distance between this location and the sink or one of already deployed sensors is less or equal to the communication range. This process is repeated until all targets are covered. The approach steps are described in the following algorithm: Algorithm 1. Heuristic Approach Input: T = {t 0,, t n } set of uncovered targets C = {sink} connected sensors Output: number of deployed sensors and theirs positions While T do 1. Select t T where t has a minimum Euclidian distance with a connected sensor. 2. Select a sensor position s that covers a maximum number of targets where Euclidian distance with a connected sensor is less then communication range.this position has a minimum distance with one of connected sensor. 3. T = T-{Tř} Tř: set of targets covered by sensor s. 4. C= C {s} 5. If t is covered goto 1elsegoto 2. End while We have set E elec = 50nJ/bit and E amp = 100pJ/bit/m 2 B. Lifetime approach description Energy consumption is a primary concern in wireless sensor networks. This is because in many practical scenarios, sensor node batteries cannot be easily refilled, and nodes have a finite lifetime. The aim of many sensors applications is to ensure target coverage for a given duration even with degradation of sensing rate that we note α. This paper presents an approach that provides energy efficiency to extend the network lifetime to a specific period. Sensors node cannot ensure a given lifetime are divided in two classes. The first one is a set of sensor able to ensure a given lifetime with a degradation of sensing rate. The second class is a set of sensors cannot ensure a given lifetime even with a degradation of sensing rate, this class represents sensors that need a important energy capacity to ensure a given lifetime. Energy expenditure of the sensor nodes occurs during the wireless communication, in order to reduce the transmissions number, we propose to use a upper sensing rate for the first class that reduces the total number of data transmission which decreases energy consumption. Sensor of the second class must be strengthening with redundant sensor. The last one pursues the task of shutdown sensor. V. NUMERICAL RESULTS In this subsection we present some numerical results of our approaches. In the following present the performance results and comparison between optimal and heuristic approaches in terms of number of deployed sensors and run time. We have calculated the number of deployed sensors and run time with several topologies. The simulated environment consists of 5, 10, 15, 20 targets distributed over a 10x10 grid. This number is calculated for 5 scenarios. IV. LIFETIE APPROACH In this section, a novel energy efficient approach is proposed.the main difference with other approaches is that this one ensures a network operation for a specific lifetime. This is performed by reinforcement of sensors disable to pursue his tasks for apredetermined period. In Subsection A, the energy model adopted is presented, while in Subsection B, lifetimeapproach is described. A. Energy model In this work, the energy model adopted is defined by the following equations according to [14]: E Tx (k,d)=t Tx-elec (k)+e Tx-amp (k,d)=e elec k+e amp k d 2 (6) E Rx ( k )= E Rx-elec (k)=e elec k (7) Where E Tx (k,d)denotes the amount of energy required to transmit a message of k bits over a distance d. Similarly, the energy dissipated by a sensor for the reception E Rx (k) of a message of k bits. Figure 1. The number of deployed sensors Figure presents the number of deployed sensors under different number of targets. The number of deployed sensor enhance with the increase of the number of targets. Results show that the targets distribution has an effect on the number of deployed sensors. Although linear provides the optimal solution, we observe that no significant difference between optimal and heuristic approach. In this subsection we compare a run time to have a solution in the both approaches. ( 14 )

17 Figure 2. The run time Previous figure illustratesa large difference in the run time between the approaches. Heuristic approach takes a very short time to provide a deployment strategy. Optimal approach searches all possible solutions and selects the best one what generates a large run time. To evaluate the performance of the proposed scheme, we have compared proposed lifetime approach with the approachwithout strengthening of large energy consumption sensor. Figure 3 presents network lifetime without strengthening of sensor. The result obtained by measuring the time until the first node shutdown. Our proposed approach improve network lifetime from 67% to 100%. Figure 5. Number of additional sensors for 10 targets Figure 6. Number of additional sensors for 15 targets Figure 7. Number of additional sensors for 20 target Figure 3. Lifetime Figure 4 illustrates a number of shutdown sensors, it represents a set of sensor cannot ensure a given lifetime. Figure 4. Number of sensors shutdown Following figures show how additional sensors affect the lifetime under different values of α. Proposed approach can improves the lifetime from 52% to 100% by adding one redundant sensor. A near superlative rate affects the number of additional sensors that reduces with α increase. VI. CONCLUSION The present work investigates the coverage problem in the wireless sensor network. We focus on the target coverage and the network connectivity. We have proposed ainteger and heuristic approaches with the aim of find a minimum number of sensors such that each target is covered at least a sensor and the selected sensors is connected to the sink. Our approaches minimize the number of sensors witch decrease the network cost. The results show that the targets positions, the number of targets have an important effect on the number to deployed sensors that cover all targets. Comparison of both optimal and heuristic approach shows a not important difference in term of number of deployed sensors. Heuristic approach provides a near optimal deployment strategy in very short time this privilege is very important in many sensor network applications. Proposed lifetime approach ensures a given lifetime with the use of additional sensors and a sensing rate degradation that reduces the total number of data transmission. REFERENCES [6] I.F. Akyildiz, W. Su, Y. Sankarasubramaniam, E. Cayirci.: ŖWireless sensor networks: a surveyŗ, Computer Networks 38 (2002) 393Ŕ422. [7] Ahmed, Nadeem and Kanhere, Salil S. Jha Sanjay.: ŖA Pragmatic Approach to Area Coverage in Hybrid Wireless Sensor Networksŗ, Wireless Communications and Mobile Computing 23-45, January ( 15 )

18 [8] Wei Wang, VikramSrinivasan, Kee-Chaing Chua.: ŖCoverage in Hybrid Mobile Sensor Networksŗ,IEEE transactions on mobile computing, vol. 7, no. 11, november [9] Frank Y. S. Lin and P. L. Chiu.: ŖA Near-Optimal Sensor Placement Algorithm to Achieve Complete Coverage/Discrimination in Sensor Networksŗ, IEEE COMMUNICATIONS LETTERS, VOL. 9, NO. 1, JANUARY [10] Brian Carter, RammohanRagade.: A Probabilistic Model for the Deployment of Sensors, [11] Xu Li, Hannes Frey, Nicola Santoro, Ivan Stojmenovic.: ŖLocalized Sensor Self-deployment for Guaranteed Coverage Radius Maximizationŗ, inproceedings of the 2009 IEEE international conference on Communications. ISBN: , [12] XiaoleBai, Ziqiu Yun, Dong Xuan, Temn H. Lai, WeijiaJia.: ŖOptimal Patterns for Four-Connectivity and Full Coverage in Wireless Sensor Networksŗ, IEEE TRANSACTIONS ON MOBILE COMPUTING, VOL. 9, NO. 3, MARCH [13] J. Shanbehzadeh, M. Mehrani, A. Sarrafzadeh, Z. Razaghi.: ŖAn Energy Efficient Coverage Method for Clustered Wireless Sensor Networksŗ, proceedings of the International MultiConference of Engineers and Computer Scientists 2010 Vol II,IMECS 2010, March 17-19, 2010, Hong Kong, ISBN: , ISSN: [14] Wint Yi Poe, Jens B. Schmitt.: ŖNode Deployment in Large Wireless Sensor Networks: Coverage, Energy Consumption, and Worst-Case Delayŗ.AINTECř09, November 18Ŕ20, 2009, Bangkok, Thailand. [15] S. A. R. Zaidi, S. A. Khayam, D. C. Mclernon.: ŖOn Minimum Cost Coverage in Wireless Sensor Networksŗ, 43rd Annual Conference on Information Sciences and Systems (CISS 2009), John Hopkins, NJ, U.S.A, March [16] Qishi Wu, Nageswara S.V. Rao, Xiaojiang Du, S. SitharamaIyengar, Vijay K. Vaishnavi.: ŖOn efficient deployment of sensors on planar gridŗ, Computer Communications 30 (2007) [17] Dario Pompili, TommasoMelodia, Ian F. Akyildiz.: ŖThreedimensional and two-dimensional deployment analysis for underwater acoustic sensor networksŗ, Ad Hoc Networks , [18] ZhengRuan.: ŖWireless Sensor Network Deployment in Mobile Phones Environmentŗ, thesis November [19] Stefanos A. Nikolidakis, Dionisis Kandris, Dimitrios D. Vergadosand Christos Douligeris.: ŖEnergy Efficient Routing in Wireless Sensor Networks ThroughBalanced Clusteringŗ, ISSN: , ( 16 )

19 Proposition Dřun Protocole De Communication Dans Un Réseau Hybride Pour Améliorer La Sécurité Routière T.BENSIRADJ, S. MOUSSAOUI, S.HASNI Département d informatique, Université des Sciences et de la Technologie Houari Boumediene USTHB, Code postal 32 El Alia, Bab Ezzouar, Algérie ayabn7@gmail.com moussaoui_samira@yahoo.fr Résuméŕ Parmi les principaux problèmes des protocoles de communication entre un WSN et un VANET dans les HSVNs, est celui du délai de livraison des messages. Ce problème est dûà plusieurs causes: les courtes portées de transmission et de détection du capteur, la forte mobilité des véhicules, la présence d obstacles, l interférence, les capacités limitées du stockage et du traitement du capteur et la faible quantité d énergie dans les WSNs...etc. En plus il y a deux types de messages utilisés dans ce type de protocole de communication qui sont: les messages utiles échangés entre les deux réseaux (informations routières: comme la densité des véhicules, les conditions météorologiques, la présence d obstacles). Et les messages critiques envoyés par les capteurs aux véhicules (informations d avertissements utilisées pour éviter une situation dangereuse). Ces derniers exigent un délai de transmission optimal. Pour réaliser un protocole dans cette catégorie des protocoles de communication, il est indispensablede prendre en considération tous ces problèmes et les types des messages. Notre travail est une proposition de protocole de communication entre un WSN et un VANET nommé MEP (Message Exchange Protocol). Ce dernier assure: un échange d informations routières (messages utiles) entre les deux réseaux, dans le temps disponible où le véhicule est dans la portée de transmission du capteur et une livraison urgente des messages critiques par les capteurs aux véhicules. Mots- Clés WSNs, VANETs, HSVN. I. INTRODUCTION Les réseaux de capteurs sans fil (WSNs) ont prouvé leur contribution dans plusieurs domaines (militaire, médical, environnemental, industriel...etc.). Parmi les domaines où le rôle dřun WSN est très important, les systèmes de transport intelligent (STI). Ces derniers sont déployés pour plusieurs objectifs: la gestion et le contrôle du trafic routier, le paiement électronique, lřorganisation des voyages publics, le contrôle et le respect de la règlementation et la sécurité routière. Cette dernière peut être améliorée en utilisant un WSN comme un outil (présence dřobstacles, animaux, conditions routières difficiles...etc.) qui aide les conducteurs à la diminution du nombre dřaccidents. Ce résultat peut être efficace si un WSN collabore avec un autre type de réseau, comme un réseau véhiculaire (VANET). Une nouvelle génération de réseau HSVN [1,2,4,5,6] (Hybrid Sensor and Vehicular Networks) a été crée en combinant les deux réseaux travaillant conjointement dans un cadre permettant la diminution Maximale du nombre dřaccidents. Les protocoles de communication dans un HSVN peuvent être répartis en trois classes: les protocoles de communication à lřintérieur dřun WSN, les protocoles de communication à lřintérieur dřun VANET et les protocoles de communication entre un WSN et un VANET. Un protocole de communication entre un WSN et un VANET dans un HSVN est caractérisé par le modèle suivant: un véhicule traverse différentes routes pour atteindre sa destination. Il collabore avec les WSNs déployés sur les bords des routes afin ( 17 ) dřobtenir des informations sur les différentes routes dans la direction de sa destination. Quand un véhicule se présente dans la portée de transmission dřun capteur passerelle (il joue le rôle dřun relais entre le WSN et le VANET). Ce dernier envoie des informations (collectées par les capteurs et les véhicules et stockées dans sa base de données) sur lřétat des routes suivantes dans la direction de déplacement du véhicule sřorientant vers sa destination (le capteur détermine la destination du véhicule à travers un type de message envoyé par le véhicule contenant son identificateur et les coordonnées de sa destination). À la réception de ces informations par le véhicule, ce dernier transmet à son tour au capteur les informations collectées grâce à dřautres capteurs ou dřautres véhicules. Ce type dřinformations est transmis par des messages particuliers appelés messages utiles portant des informations non critiques mais importantes pour éviter les causes (état météorologique des routes, densité des véhicules, présence dřobstacles...) qui pourraient mener à des accidents, des situations dangereuses ou de mauvaises conditions de circulation du trafic routier (éviter la circulation et lřencombrement, organisation des transports publics.etc.). Dřautre part, il existe un autre type dřinformations détectées par les WSNs sur les routes. Ces informations représentent des messages dřalerte, c'est-à-dire que les véhicules doivent être informés, le plus vite possible dřune situation dangereuse afin dřéviter toute complication de cette situation. Ce type dřinformations transmet à travers des messages que nous désignons par messages critiques. Pour ces derniers, le délai de transmission est un paramètre critique à considérer car ils portent des informations urgentes dépendantes des délais. (Par exemple, si un animal traverse la route quand un véhicule se dirige vers sa position, il faut quřil soit informé suffisamment à temps pour le freinage du véhicule). Dans le cas dřéchange des messages utiles, le temps disponible (où le véhicule est dans la portée de transmission dřun capteur) pour faire lřéchange dřinformations entre le capteur et le véhicule, dépend de la durée du traitement des messages portant une quantité importante dřinformations. Par contre dans le cas des messages critiques, la durée du traitement est négligeable par rapport au temps disponible pour transmettre ces derniers aux véhicules. Cependant la stratégie suivie par le protocole dřéchange joue un rôle important pour réduire le délai dřarrivée des messages critiques aux véhicules. Cet article est organisé comme suit: dans la section II, nous allons présenter les approches utilisées pour réaliser les protocoles de communication entre un WSN et un VANET dans un HSVN et les concepts de base utilisés par notre protocole. Ensuite dans la section III, nous allons expliquer le fonctionnement de notre protocole. Dans la section IV, nous présentons les résultats de simulation. Nous terminons cet article par une conclusion dans la section V. II. APERÇU DES TRAVAUX CONNEXES ET CONCEPTS DE BASE DU PROTOCOLE MEP 1. Aperçu des travaux connexes Il existe deux approches pour réaliser ces protocoles de communication. La première approche [1,2,3] se base sur

20 une communication à deux phases. La première phase est utilisée pour initialiser la connexion entre le capteur et le véhicule. Cette dernière commence quand le capteur détecte le véhicule. La deuxième phase est utilisée pour lřéchange des messages (utiles, critiques). La deuxième approche [4,5] utilise les messages beacon diffusés périodiquement par les véhicules. Ces derniers sont utilisés pour la découverte du voisinage dans les réseaux véhiculaires en plus de ce rôle, on leur a ajouté une autre fonction. Cette fonction est représentée par lřintégration dřautres informations (vitesse, identificateur, coordonnées de destination.) du véhicule dans le message beacon. Cette approche utilise ce type du message car la portée de transmission du véhicule est plus grande que celle du capteur ce qui permet dřéviter lřétape dřinitialisation de la connexion entre les deux. Car le capteur peut commencer le travail de la collaboration des quřil reçoit le message beacon. Concernant les protocoles de communication à deux phases, les points communs entre les propositions sont: la 1ere phase est utilisée pour initialiser la connexion entre les deux. Dans cette dernière, le capteur passerelle envoie une demande de connexion au véhicule. Ce dernier répond par un accusé de réception contenant son identificateur et les coordonnées de sa destination. La 2eme phase est utilisée pour lřéchange des messages, en premier le capteur passerelle envoie des messages au véhicule. Après ce dernier lui envoie à son tour des messages. Le temps disponible pour faire lřéchange est donné par lřéquation 1. Les auteurs ont travaillé sur lřaugmentation de ce temps tout en respectant les contraintes de ces protocoles. Tdispo = 2 * Rc / V - (Tdétecte + Ttraitement) secondes (1). Rc: Laportée de transmission du capteur V: La vitesse du véhicule. Tdétecte: Le temps de détection du véhicule. Ttraitement: Le temps de traitement et de préparation des messages. Les auteurs ont travaillé sur la réduction de la quantité dřinformations échangées entre les deux réseaux. En plus ils ont pensé à un codage simple de données pour réduire le temps de traitement de lřinformation (Ttraitement). Les avantages des travaux de recherche peuvent être résumés dans les points suivants: Dans la proposition [1], un modèle de segmentation des routes a été proposé. Ce dernier permet de décomposer une route en un ensemble de segments numérotés pour faciliter la localisation des véhicules et des événements routiers. De plus dans la proposition [2], il ajoute à ce concept un modèle de données permettant le codage dřinformations routières sur un segment de route en quelque nombre dřoctets. Et une approche groupée est utilisée par les deux réseaux pour lřéconomede la consommation dřénergie des capteurs et lřélimination des traitements inutiles. La segmentation des routes et le modèle de données permettent aussi la rédaction de la quantité dřinformations stockées dans les bases de données du capteur. Dřautres auteurs [3] ont pensé à lřutilisation dřune approche distribuée dans les réseaux de capteurs. Cette approche permet la rédaction de la quantité des informations stockées dans un capteur. De plus elle évite les traitements complexes. Cependant, lřapproche à deux phases a un inconvénient majeur sur le délai dřéchange des messages entre les deux réseaux. Ce délai représente la métrique la plus importante dans ce type des protocoles. Lřutilisation de la première phase prend un temps supplémentaire de temps disponible de lřéchange Eq(2). Tdispo = (1) ŔTinit secondes (2). Tinit: le temps dřinitialisation de la connexion entre le capteur et le véhicule. De plus à ce point négatif de cette approche, nous pouvons donner des inconvénients liés aux solutions présentées dans les paragraphes précédents. Ces inconvénients sont: 1. Dans toutes les solutions [1,2,3], il nřy a pas une stratégie permettant la distinction entre un message utile et un message critique (lřenvoi des messages se fait par rapport à lřordre dřarrivée). Malgré que les messages critiques sont prioritaires que les messages utiles. 2. Dans la solution [1], la communication entre le capteur passerelle et tous les véhicules cause deux problèmes: la consommation élevée dřénergie du capteur et la duplication des messages surtout dans le cas dřune forte densité des véhicules. 3. La solution [2], dans le cas où lřéchange des messages entre le capteur passerelle et le véhicule (chef de groupe) ne se termine pas avec succès. Le capteur passerelle doit attendre un nouveau chef de groupe véhiculaire, ce qui entraine à un problème de délai pour la livraison des messages surtout dans le cas dřune faible densité des véhicules. 4. Dans [3], comme les informations sont réparties sur plusieurs capteurs passerelles, le temps de réponse du capteur sur une demande dřun véhicule, sera long (surtout dans le cas dřun problème de communication à lřintérieur dřun WSN). De plus la mise à jour des bases de données distribuées est difficile. Pour éviter lřinconvénient de lřapproche à deux phases, la deuxième approche a été proposée. Elle utilise le message beacon comme un porteur des informations du véhicule. Quand le capteur reçoit ce message, il prépare les messages qui seront envoyés au véhicule. À la détection du véhicule par ce dernier, il lui envoie les messages. Donc on a évité la phase dřinitialisation de la connexion. Les auteurs ont utilisé les messages beacon, pour les deux raisons suivantes: 1ere la portée de transmission du véhicule est plus grande que celle du capteur, alors théoriquement le message beacon est reçu par le capteur avant que le véhicule ne soit détecté par ce dernier. Et les messages beacon sont diffusés périodiquement dans un intervalle court, ce qui augmente la probabilité de leur réception par les capteurs. Dans cette approche, les auteurs ont travaillé sur la réduction du temps de traitement et de préparation des messages par les capteurs. Par exemple dans la solution [5], les messages beacon sont utilisés comme des porteurs des informations du véhicule et des informations utiles envoyées au capteur. Lřavantage de cette proposition est quand le capteur détecte le véhicule lřéchange dřinformation se fera dans un seul sens (capteur vers véhicule).car le capteur a déjà reçu les informations apportées par le véhicule. Pour éviter la surcharge (informations routières envoyées par le véhicule au capteur) ajoutée au message beacon, dřautres auteurs ont pensé à ajouter quelques informations à ce dernier. Ces informations sont par exemple lřidentificateur du véhicule, les coordonnées de sa destination et sa vitesse actuelle. On trouve ce concept dans la solution [6]. Cette dernière se base sur la notion de groupe (les deux réseaux sont respectivement répartis en groupes).elle propose un modèle de message permettant la distinction entre un message utile et un message critique. Lřavantage de cette solution est ce modèle de message et ( 18 )

21 lřutilisation dřautres véhicules pour récupérer les messages critiques. Cependant, lřapproche utilisant les messages beacon a un inconvénient majeur sur le délai dřéchange des messages entre les deux réseaux dans le cas dřune forte collision ou dřune interférence. C'est-à-dire si le message beacon diffusé par le véhicule, nřest pas reçu par le capteur ou il fait un retard important pour arriver à ce dernier, les protocoles utilisant cette approche pourront avoir des problèmes dans leur fonctionnement. De plus à ce point négatif de cette approche, nous pouvons donner des inconvénients liés aux solutions présentées dans les paragraphes précédents. Ces inconvénients sont: 1. Dans le cas où le message beacon nřest pas reçu par le capteur ou il arrive après la détection du véhicule, il nřy a pas un moyen utilisé par les solutions [5,6] permettant de rattraper le temps perdu. 2. Dans la solution [5], la communication entre le capteur passerelle et tous les véhicules cause deux problèmes: la consommation élevée dřénergie du capteur et la duplication des messages surtout dans le cas dřune forte densité des véhicules. De plus la quantité dřinformations ajoutées aux messages beacon, peut causer un problème dřinondation dans le réseau véhiculaire (car ces messages sont diffusés périodiquement par tous les véhicules du réseau véhiculaire). 3. De même dans la solution [5], il nřy a pas une stratégie permettant de distinguer un message utile dřun message critique (lřenvoi des messages se fait par rapport à lřordre dřarrivée). Malgré que les messages critiques sont prioritaires que les messages utiles. 4. Dans la solution [6], lřutilisation des capteurs passerelles (chefs des groupes des réseaux de capteurs) uniquement pour transmettre les messages critiques aux véhicules, peut causer un problème dans le délai dřarrivée de ces messages. Par exemple: si un événement critique se produit dans un segment de route proche de la position du déplacement du véhicule et il nřy pas un capteur passerelle, le véhicule sera informé seulement après quřil traverse ce segment. 5. De même dans la solution [6], il nřy a pas un moyen permettant de trier les messages critiques selon leur degré dřimportance (les messages critiques sont envoyés au véhicule selon leur ordre dřarrivée au capteur passerelle). Dans la sous section précédente, Nous avons présenté les approches utilisées pour réaliser un protocole de communication entre un réseau de capteurs sans fil et un réseau véhiculaire dans un réseau hybride (HSVN). Chaque approche a des avantages et des inconvénients. Et chaque solution proposée dans ces derniers vise à assurer lřéchanges des messages routiers entre les deux réseaux dans le temps disponible. Notre étude nous a permis de déduire la métrique la plus importante dans ce type de protocole qui est le délai dřéchange. Comme il existe dřautres métriques dans ce dernier (la consommation dřénergie des capteurs..). Nous avons basé notre travail sur le délai dřéchange par une proposition dřun protocole de communication entre un WSN et un VANET nommé MEP (Message Exchange Protocol) qui assure un délai plus rentable par rapport à ceux obtenus dans les solutions existantes. Ce protocole a pour objectif: lřéchange des messages utiles dans le temps disponible et la livraison des messages critiques par les capteurs aux véhicules dans un temps optimal inferieur au temps disponible. Dans la sous section suivante, nous allons donner les concepts de base utilisés par notre protocole. 2. Concepts de base du protocole MEP 2.1. Approche utilisée par le protocole Nous avons utilisé la notion de groupe pour les deux réseaux. Pour les WSNs, une topologie linéaire groupée et des véhicules répartis en groupes en utilisant des algorithmes de groupage connus dans le domaine des réseaux véhiculaires. Notre protocole est un protocole hybride des deux concepts des deux approches présentées dans la sous section II Informations routières échangées Nous avons supposé quřune région géographique est décomposée en un ensemble de zones. Chaque zone contient un nombre donné de segment. Le nombre et la position des capteurs sont liés à la nature de la zone (de faible danger, de moyen danger ou de fort danger). Pour chaque segment, nous avons proposé un modèle simple de données (utilisé par les capteurs et les véhicules) permettant le codage dřinformations routières sur ce dernier en quelque nombre dřoctets. Par exemple deux bits pour les informations suivantes (état climatique, densité des véhicules et présence dřobstacles). La quantité dřinformations dřune zone, contenant un nombre donné de segments, est donnée par lřéquation (3). Qz = (x taille (D)) * + y bits(3). : Le nombre des segments : La taille dřun segment : La taille dřune zone ( ) : La taille de la date dřenregistrement de lřévénement. Ce champ est très important car si la date de lřévénement est ancienne, le capteur élimine cet événement (car la capacité de stockage dans le capteur est limitée). Ce modelé de données permet de coder une quantité importante dřinformations routières dans un espace de stockage limité, ce qui soulage le capteur dřune base de données chargées et des traitements complexes. Donc il évite la consommation élevée dřénergie Mode de fonctionnement des capteurs et protocoles MAC Chaque capteur peut fonctionner en mode de détection, de routage ou de passerelle (la figure 1). Il est équipé par une interface pour communiquer avec les capteurs et les véhicules. Ces derniers sont équipés par la même interface et une interface p pour quřils communiquent entre eux. Figure 1: Mode de fonctionnement des capteurs et les protocoles MAC 2.4. Types des messages échangés entre les deux réseaux -MB: représente le message beacon diffusé périodiquement par les véhicules. Format général du Message beacon: Message beacon + les informations suivantes: -Coordonnées de la destination du véhicule. -Identificateur du véhicule pour la sécurité. -Bit CH (1: Chef de groupe, 0 : Non chef de groupe). -Bit indicateur (0: pour informer le capteur qui a reçu ce message beacon que le véhicule ne lui envoie pas un message utile. 1: ( 19 )

22 informer le capteur qui a reçu ce message beacon que le véhicule va lui envoyer un message utile). Le véhicule positionne ce bit à 1 quand il entre dans une nouvelle zone (le véhicule connait quřil est dans une nouvelle zone à lřaide de changement obtenu par son dispositif de localisation). -MU: représente le message utile envoyé par le véhicule CH au capteur passerelle (nous avons exigé que le véhicule envoie les informations utiles aux capteurs passerelles dans un message utile MU sans quřelles soient ajoutées aux messages beacon pour éviter leur surcharge (problème dřinondation dans un VANET). De plus les informations utiles sont uniquement envoyées par les chefs des groupes véhiculaires ou les véhicules relais aux capteurs passerelles. -MSG: représente le message utile envoyé par le capteur passerelle au véhicule CH. Ce message peut être envoyé au véhicule Non CH par le capteur passerelle dans le cas où il est toujours enregistré dans sa base de données et à cet instant un véhicule non CH est détecté par ce dernier. -MC: représente le message critique envoyé par un capteur à un véhicule. -ACK : envoyé par le véhicule CH ou véhicule Non-CH, quand ils reçoivent les messages (MSG, MC) envoyés par le capteur. III. PROTOCOLE D ECHANGE DES MESSAGES (MEP) 1. Les messages utiles Dans lřéchange des messages utiles, Nous avons déduit une de ces trois situations suivantes: Echange des messages utiles se produit uniquement entre le capteur passerelle et le véhicule CH (pour économiser la consommation dřénergie des capteurs passerelles) en utilisant un protocole basé sur les messages beacon (lřéchange se termine avec succès) (Cas A). Le capteur passerelle envoie les messages utiles au véhicule (relais) qui lui a envoyé en premier son message beacon. Après que ce capteur a reçu le message beacon du véhicule CH, dans le cas où: lřéchange entre le capteur et le véhicule (CH) ne se termine pas avec succès (Cas B). Le capteur passerelle échange les informations avec le véhicule à base dřune communication à deux phases. Sřil y a un problème dřinterférences ou de collision (le message beacon nřest pas arrivé au capteur passerelle ou il arrive après la détection du véhicule par ce dernier) (Cas C). Pour chaque situation mentionnée au-dessus, nous allons expliquer comment le protocole MEP fonctionne dans les sous sections suivantes. 1.1 Cas A: échange entre le capteur passerelle et le véhicule (CH) Véhicule CH entre dans une nouvelle zone z (Figure 2) Véhicule (CH): Dans ce cas, il prépare un message MU contenant les informations des segments de routes des zones précédentes. Ensuite il diffuse un message beacon contenant les coordonnées de sa destination, son identificateur, le bit CH (dans ce cas bit CH =1) et le bit indicateur (dans ce cas égal à 1). Après il envoie le message MU au capteur passerelle. Capteur passerelle : il reçoit ce message quand il est dans la portée de transmission du véhicule (CH). Il traite le message beacon. En premier, il teste le bit CH (dans ce cas bit CH = 1) et le bit indicateur (dans ce cas le bit indicateur = 1). Alors, il se met à lřattente de lřarrivée dřun message MU contenant les différentes informations des segments de route des zones précédentes. Pour chaque segment, on a deux cas, soit il y a des informations qui ne sont disponibles que dans la base de données du véhicule, soit lřheure dřenregistrement de lřun des états de ce segment dans le véhicule est plus récente que celle de la base de données du capteur. Dans ces deux cas, le capteur passerelle met à jour sa base de données. Ensuite le capteur passerelle insert les informations des zones suivantes dans la direction du véhicule dans le message MSG à la base des coordonnées de la destination du véhicule par rapport aux informations disponibles dans sa base de données. Le temps de traitement : du message beacon et du message MU, (respectivement diffusé et envoyé par le véhicule au capteur passerelle) et la préparation du message MSG par ce capteur, est (Ttraitement).La valeur de ce temps, est liée aux deux cas suivants: 1 er cas : le traitement des messages se termine avant que le véhicule ne soit détecté par le capteur passerelle dans ce cas: Ttraitement = Tdétecte Tarrivé (Ttraitement = 0). Tarrivé: le temps dřarrivée du message beacon + le temps dřarrivée du message MU au capteur. 2eme cas : le traitement des messages ne se termine pas, après que le véhicule soit détecté par le capteur dans ce cas: Ttraitementr = Ttraitement - (Tdétecte Tarrivé). Ttraitementr : le temps restant pour terminer le traitement des messages. Comparaison entre les temps des traitements dans les deux approches Nous remarquons que dans les deux cas, le temps disponible dans un protocole utilisant un message beacon est toujours dans la majorité des cas supérieur au temps disponible dřun protocole à deux phases (Eq 2). De plus, à la réception des messages envoyés par le véhicule CH, le capteur passerelle peut commencer le traitement du message MU envoyé par le véhicule CH. Et la préparation du message MSG envoyé à ce dernier même avant quřil ne le détecte. À lřinverse dans le protocole à deux phases, le capteur passerelle peut traiter les messages uniquement quand il détecte le véhicule CH. Lorsque le véhicule est dans la portée de transmission du capteur passerelle (figure 2) Capteur passerelle: à la détection dřun véhicule (Tdétecte), si le capteur a déjà préparé (traitement, agrégation de données, élimination de redondances et mise en format de données) le message MSG, il lřenvoie directement au véhicule sinon il lřenvoie dès quřil terminera sa préparation. Le message MSG sera enregistré dans la base de données du capteur passerelle pendant une période Tmsg pour lřenvoyer à un autre véhicule (relais). Ce message est détruit si la période Tmsg est terminée ou quand le capteur passerelle reçoit lřaccusé de réception du véhicule CH.Si un message critique MC arrive au capteur passerelle par un capteur détecteur, au temps où le véhicule est dans sa portée de transmission, il lřenvoie directement en priorité au véhicule. Diffusion dans VANET: après que le véhicule envoie lřaccusé de réception (ACK) au capteur passerelle, il diffuse le message MSG et les messages critiques dans son groupe (toutes les entités (les véhicules, capteurs) dans le réseau peuvent recevoir ces derniers). Ensuite, il met à jour sa base de données. Remarque :à la prochaine période de diffusion du message beacon, le véhicule CH ne diffuse que ce message, dans le cas où il se trouve dans la même zone et les mêmes étapes seront appliquées si ce message est reçu par un autre capteur passerelle. ( 20 )

23 Tableau 1: Temps disponible par rapport à la vitesse du véhicule Le tableau 2 donne le temps maximum pour le traitement des messages et la détection de véhicule par rapport à sa vitesse. Dans la solution proposée dans [2] et le protocole MEP. Figure 2: Echange entre le capteur passerelle et le véhicule (CH) Estimation du temps d échange des informations Le temps disponible pour faire lřéchange dřinformations entre le capteur et le véhicule, est donné par lřéquation (1). Pour augmenter le temps disponible il faut diminuer le temps de détection et le temps de traitement. Le temps de détection: le temps de détection est un temps aléatoire dépendant beaucoup du matériel utilisé, c'est-à-dire la technologie matérielle de détection utilisée dans le capteur et les conditions du réseau. Donc nous nřavons pas travaillé sur la diminution de ce dernier. Le temps de traitement: comme nous lřavons montré dans la section III.1, nous pouvons par: lřutilisation des messages beacon, lřalgorithme de traitement et le modèle de données diminuaient ce temps. Exemple d échange entre le capteur et le véhicule CH Nous supposons que nous avons: -Une région géographique contenant 256 zones où chaque zone contient un nombre variable de segments de routes. -Un capteur passerelle qui a des informations sur les zones 0, 1, 2, 3, 4 et 5, chaque zone contient respectivement 64, 1024, 256, 128, 128, 32 segments de routes. -Un véhicule CH entre dans la zone 2 et les zones 3, 4 et 5 qui sont dans la direction de sa destination (il est passé par les zones 0 et 1 pour arriver à la zone 2). -Le protocole MAC considéré, par exemple, le IEEE (avec un débit égal à 500 Kb/s). a. Quantité d informations envoyées par le véhicule CH -Message beacon (200bits) + identificateur (20bits) + coordonnées de la destination (160 bits) + bit CH(1) + bit indicateur (1). -Message MU informations (zone 0 et 1).-Accusé de réception (160 bits). La quantité dřinformations dřune zone donnée est calculée par lřéquation 3 (la sectionii.2.2). Donc: Qtv = Qz0v + Qz1v bits. A.N: Qtv = bits. b. Quantité d informations envoyées par le capteur passerelle Les informations des zones 2, 3,4 et 5 La quantité dřinformations dřune zone donnée est calculée par lřéquation 3 (la sectionii.2.2). Qtc = Qz2c + Qz3c +Qz4c + Qz5cA.N: Qtc = bits. c. Temps requis pour faire l échange de toutes les informations Trequis = Qtv + Qtc + accusé de réception / débit secondes Tarrivé =Qtv / débit (Tarrivé = 0,1 secondes). La portée de transmission dřun capteur est Rc = 80m et nous calculons le temps disponible dřaprès les trois scénarios suivants: un véhicule se déplace à une vitesse égale à 130, 100 et 60 km/h. Le Temps (Tepc) pour que le véhicule entre dans la portée de transmission du capteur, est donné par la formule suivante: Tepc = Rv - Rc / V secondes. Rv: La portée de transmission du véhicule (Rv =250 mètres). Le tableau 1 donne le temps disponible sans prendre en considération le temps de détection et de traitement par rapport à la vitesse du véhicule. Tableau 2: Comparaison des temps de détection et de traitement entre la solution [2] et le protocole MEP Dans les trois scénarios, nous avons un temps suffisant pour faire lřéchange complet dřinformations entre le capteur passerelle et le véhicule CH. Cet exemple nous montre lřavantage de notre proposition sur le protocole proposé dans [2] (Tableau 2).De plus dans notre solution, le capteur passerelle nřenvoie au véhicule que les informations non disponibles dans sa base de données (algorithme de traitement) par contre dans la solution [2], le capteur passerelle envoie toutes les informations des segments au véhicule (le véhicule peut recevoir des informations existantes déjà dans sa base de données). 1.2 Cas B: échange entre le capteur et le véhicule (Non CH) Véhicule (Non CH): avant que le véhicule ne diffuse un message beacon, il lui ajoute les coordonnées de sa destination, son identificateur, le bit CH (dans ce cas bit CH = 0) et le bit indicateur (bit indicateur = 0). Ensuite il diffuse ce message dans son segment. Capteur passerelle ayant reçu ce message beacon: le capteur passerelle reçoit ce message, quand il est dans la portée de transmission du véhicule (Non CH). Il vérifie dřabord en premier, le bit CH (bit CH = 0), dans ce cas, si le message MSG est encore enregistré (Tmsg 0), il le met à jour, sřil y a de nouvelles informations (apportées par les capteurs). Lorsque le véhicule entre dans la portée de transmission du capteur passerelle (Figure 3) Capteur passerelle: quand il détecte le véhicule (Tdétecte). Si un message critique est arrivé au capteur passerelle par un capteur détecteur, dans le temps, où le véhicule est dans sa portée de transmission, alors il lřenvoie directement en priorité à ce véhicule. Sinon il lui envoie directement le message MSG sřil est toujours enregistré. Diffusion dans VANET: Après que le véhicule envoie lřaccusé de réception (ACK) au capteur passerelle, il diffuse les messages reçus par le capteur passerelle dans son groupe, ensuite il met à jour sa base de données. Figure 3: Echange entre le capteur passerelle et le véhicule (Non CH) ( 21 )

24 Avantages d utilisation de véhicule non CH (comme un relais) Le temps de traitement peut être égal à 0 ou la différence entre le temps de détection du véhicule non CH et le temps de traitement des messages lors de la réception du message beacon et du message MU envoyés par le véhicule CH au capteur passerelle. Même dans le cas où le chef de groupe a reçu les messages critiques, quand il lřest diffuse dans son groupe, il y a une probabilité que quelques véhicules ne reçoivent pas ces messages (problèmes de collision et dřinterférence). Mais, comme le véhicule non-ch diffuse aussi ces messages (duplication limitée) dans le groupe, ces véhicules peuvent recevoir ces derniers. Le chef de groupe peut recevoir de nouvelles informations qui sont collectées par le capteur passerelle après avoir quitté sa portée de transmission grâce au véhicule relais. 1.3 Cas C: échange entre le capteur passerelle et le véhicule (protocole à deux phases) Si le message beacon diffusé par le véhicule (CH ou relais) nřest pas arrivé au capteur (problème dřinterférence ou de collision) ou il est arrivé après que le véhicule soit détecté par le capteur, le protocole utilise unalgorithme de communication à deux phases (protocole à deux phases). De cette façon, même dans le cas où le message beacon diffusé par le véhicule, nřest pas reçu par le capteur passerelle ou il arrive en retard au capteur passerelle, la communication entre les deux réseaux peut avoir lieu. Ce qui démontre lřavantage de notre protocole par rapport aux solutions [5,6] dont leurs fonctionnements dépendent des contenus des messages beacon. Comme le nombre des capteurs passerelles est limité et les événements critiques peuvent se produire sur nřimporte quel segment de route, nous avons pensé à lřutilisation des autres capteurs pour livrer les messages critiques aux véhicules. Notre proposition permet de changer temporairement le rôle dřun capteur ordinaire à un capteur passerelle uniquement dans le cas suivant: un événement critique est détecté par ce capteur au moment, où un véhicule est présent dans sa portée de transmission. Remarque: nous avons violé la notion de groupe dans les réseaux de capteurs sans fil uniquement dans ce cas. Notre but est dřassurer une livraison rapide des messages critiques aux véhicules (le délai est la métrique la plus importante dans ce type de protocoles). La figure 5 représente un exemple sur lřintérêt dřutilisation des capteurs passerelles temporaires pour transmettre les messages critiques aux véhicules. Dans cette figure, on remarque que la voiture rouge est informée sur la présence dřune voiture venant de lřautre sens par le capteur détecteur. De la même façon, la voiture grise est informée par un capteur de routage. 2. Les messages critiques Pour assurer une livraison rapide (dans un temps optimal) des messages critiques envoyés par les capteurs passerelles aux véhicules, nous avons définit les trois concepts suivants: 1. Modèle de message 2. Capteurs passerelles temporaires 3. Algorithme de livraison des messages critiques Dans les sous sections suivantes, nous allons expliquer chacun de ces concepts Modèle de message Nous avons proposé un modèle de message (Figure 4) permettant la distinction entre un message critique et un message utile. Et pour éviter le stockage et la duplication inutiles des messages. Ce modèle est représenté par un entête ajouté par les capteurs passerelles au contenu du message. Cet entête contient les champs suivants: lřidentificateur de capteur détecteur de lřévénement, le type de message, le numéro de séquence (ce champ est incrémenté à 1 lors son passage du capteur) et la date de capture de cet événement sur la route. Figure 4: Modèle de message 2.2. Capteurs passerelles temporaires Figure 5: Exemple sur les capteurs passerelles temporaires 2.3. Algorithme de livraison des messages critiques Nous avons proposé un algorithme de livraison des messages critiques appliqué par les capteurs passerelles pour réalisation des deux points suivants: Lřélimination des messages critiques redondants Le trie de lřordre dřenvoi des messages critiques selon leur degré dřimportance. La conception de cet algorithme se base sur la lecture de lřentête ajouté au contenu des messages critiques. À travers les champs de cet entête et le codage simple de lřinformation critique (modèle de donnée [la section II.2.2]), le capteur passerelle peut définir les messages redondants (lřidentificateur de capteur détecteur, la date de capture de lřévénement et le contenu de message critique). Ainsi quřil peut les ordonner selon leur degré dřimportance (le numéro de séquence, la date de capture et le contenu de message). La figure 6 représente un exemple sur lřutilisation de cet algorithme. Dans cet exemple, à un instant donné le capteur passerelle reçoit cinq messages critiques différents. Il applique lřalgorithme de livraison pour éliminer les messages redondants et les ordonner selon leur degré dřimportance. Lorsquřil détecte le véhicule CH, il les envoie en priorité à ce dernier selon lřordre obtenu par lřapplication de cet algorithme. Après lřéchange des messages utiles entre les deux aura lieu. À cet instant un accident se produit à cause dřune collision entre deux véhicules. Le capteur qui a détecte cet événement, transmet un message critique de celui-ci au capteur passerelle par les capteurs de routage. À la réception de ce message par le capteur passerelle, il interrompe lřéchange dřinformations utiles avec le véhicule afin dřenvoyer ce message à ce dernier. ( 22 )

25 Figure 6: Exemple sur l utilisation d algorithme de livraison IV. RESULTATS DE SIMULATION Nous avons utilisé le simulateur OMNeT [6] et le projet MiXiM 2.3 [7] (pour le modelé de mobilité et le protocole MAC (IEEE )) pour évaluer les performances de notre Protocole (Tableau 3). Lřobjectif de ce protocole est dřassurer un échange total dřinformations routières (messages utiles) et une transmission rapide des messages critiques aux véhicules dans le temps disponible où le véhicule est dans la portée de transmission du capteur, quelque soit sa vitesse. Pour cette raison nous avons travaillé sur: Les délais dřéchanges des paquets entre un capteur et un véhicule. Le nombre maximal des paquets échangés entre un capteur et un véhicule dans le temps disponible. Les délais de livraison des messages critiques. 1. Environnement et paramètres de la simulation 1.1. Environnement de la simulation 1. Un réseau hybride déployé dans une région géographique contenant 1024 zones, chacune de ces zones contient un nombre variable de segments. Nous avons pris une partie du réseau hybride composée de: 2. Un chef de groupe véhiculaire a des informations sur les deux zones 0 et 1 qui ont respectivement 64 et 128 segments de routes. 3. Deux capteurs passerelles, le premier a des informations sur les zones 0,1, 2, 3 et 4, le nombre des segments des zones 2,3 et 4 sont respectivement 128,256 et 64 segments de routes. Et le deuxième capteur a des informations sur les zones 3, 4, 5 et 6, le nombre des segments dans les deux zones 5 et 6 sont respectivement 32,128 segments de routes. 4. La taille dřun accusé de réception est 160 bits. 5. La route de simulation est une route unidirectionnelle, de 4 Km de longueur. Nous supposons quřil y a 4 véhicules se déplaçant à une vitesse variable de moyenne égale à µ Km/h sur la route. (Les 4 véhicules composent un groupe avec le premier dans la direction du capteur représente le chef de groupe véhiculaire), la distance initiale entre ces derniers est 200 mètres. 6. Les zones 3, 4, 5 et 6 sont dans la direction des véhicules vers leur destination. Nous avons les cas d échanges suivants: 1 er cas: échange entre le 1 er capteur et le véhicule CH. 2eme cas: échange entre le 2eme capteur et le véhicule CH. 3eme cas: échange entre le 1er capteur et le véhicule non CH. 4eme cas: échange entre le 2eme capteur et le véhicule non CH Paramètres de la simulation - Pour les cas 1, 2, 3 et 4, nous avons les totaux des tailles des messages qui sont respectivement: 3050, 3812, 2166 et 2307 octets. - Le capteur passerelle ne détruit pas les paquets envoyés au véhicule CH, même sřil a reçu lřaccusé de réception de ce dernier (nous avons ajouté cette hypothèse pour voir lřimportance de lřutilisation dřun véhicule non CH comme un relais). Tableau3: Paramètres de simulation 2. Résultats et interprétation 2.1 Les délais des échanges des paquets Lřobjectif principal de notre protocole est le délai dřéchange des paquets entre le capteur et le véhicule par rapport à des vitesses variables du véhicule.ce délai peut monter si le protocole assure lřéchange de données dans le temps disponible (où le véhicule est dans la portée de transmission du capteur). Nous avons testé le protocole dans les deux situations suivantes: 1 ere situation: nous supposons que les messages beacon diffusés par le véhicule arrivent au capteur avant quřil ne détecte le véhicule (Protocole MEP avec lřutilisation de message beacon). (Figure 7). 2eme situation: nous supposons que le message beacon nřarrive pas au capteur ou il arrive après que le capteur a détecté le véhicule ayant envoyé ce dernier. (Protocole MEP à deux phases [1,2,3]). (Figure 8). Interprétation générale des résultats Notre protocole assure lřéchange dřinformations dans le temps disponible dans les deux cas (avec/sans lřutilisation des messages beacon). Si nous prenons le cas où la vitesse dřun véhicule est égale à 140 km/h (vitesse maximale). Nous avons le temps disponible suivant: Tdispo = 4,11 secondes qui est supérieur aux temps obtenus dans la simulation (Figures 7 et 8) à la même vitesse. Nous avons utilisé les deux approches (la première se base sur lřutilisation de message beacon et la deuxième se base sur la communication à deux phases) et nous préférons la première approche pour les raisons suivantes: Les délais des échanges dřinformations entre le capteur et le véhicule (Figure 8 [2]) sont plus grands que les délais obtenus dans le cas de lřutilisation des messages beacon (Figure 7). Ce qui justifie notre choix concernant lřutilisation de message beacon dans notre protocole en priorité. Sřil y a des interférences, nous passons à lřutilisation de connexion à deux phases pour éviter le temps supplémentaire dû au retard de lřarrivée du message beacon. Dans le cas dřinterférence ou de forte collision (le message beacon nřest pas reçu par le capteur) nous pouvons utiliser la deuxième approche. Ce qui démontre la fiabilité de notre protocole par rapport aux autres protocoles se basant sur les messages beacon [5,6], c'est-à-dire si le capteur nřa pas reçu ce message, ces protocoles peuvent avoir des problèmes de fonctionnement. 2.2 Le nombre maximal des paquets échangés Dans ce cas, nous avons fait la simulation du protocole pour voir le nombre maximal des paquets échangés entre les capteurs et les véhicules dans le temps disponible dřéchange. (Figures 9 et 10).Nous avons utilisé des paquets de taille fixe égale à 100 octets (en général, chaque paquet contient des informations sur des segments des routes et qui sont destinées au chef de groupe (véhicule N 1)). Interprétation générale des résultats Lřutilisation de véhicule (Non CH) comme un relais, permet dans plusieurs cas de récupérer des paquets qui nřont pas été reçus par le véhicule CH (Figures 9 et 10). La figure 11, montre le taux moyen de duplication des paquets envoyés au véhicule CH dépendant du choix de la période Tmsg. Le choix de cette période influe sur lřefficacité du protocole, il dépend de plusieurs facteurs qui sont les suivants: ( 23 )

26 1. Lřenvironnement (autoroute, ville et route rurale) 2. La vitesse moyenne de déplacement des véhicules 3. La densité des véhicules. Dans un même environnement cette période peut être changée par rapport aux informations apportées (la densité des véhicules, le taux de collision...) par les capteurs. La figure 12 montre le taux des paquets perdus, nous avons obtenu un taux faible de perte des paquets. Ce qui démontre la fiabilité des algorithmes utilisés dans le protocole. 2.3 Les délais de livraison des messages critiques Nous supposons que: Le 1 er capteur nřest pas un capteur passerelle et le 2eme capteur est un capteur passerelle. Il y a cinq messages critiques qui sont transmis au deuxième capteur. Les 4 premiers messages sont transmis par des capteurs détecteurs qui ont détectés les événements critiques dans des temps différents. Le 5eme message est transmis par le premier capteur au deuxième capteur. Message1: ( ,1, 0011,00 :01 :23) + Contenumessage Message2: ( ,1, 0100, 00 :01 :27) + Contenu message Message3: ( ,1, 1100, 00 :01 :30) + Contenu message Message4:( ,1, 1010, 00 :01 :29) + Contenu message (le même contenu du message 1) Message5:( ,1, 0001, 00 :01 :28) + Contenu message Utilisation d un capteur passerelle temporaire (1 er capteur) Pour le temps dřarrivée du message 5 (du 1 er capteur au véhicule CH), nous avons obtenu les résultats suivants: 0.15, 0.23, 0.3 et 0.52 secondes respectivement aux vitesses suivantes: 40, 60, 80 et 100 km/h. La figure 13 montre les délais de livraison des cinq messages, par rapport à des vitesses variables du véhicule. Nous remarquons que le message 4 est éliminé par lřapplication de lřalgorithme de livraison et les temps dřarrivées des messages sont ordonnés selon leur degré dřimportance. De plus nous avons obtenu des délais de livraison courts (tous les délais < 1 seconde) par rapport au temps disponible. Lřutilisation de 1 er capteur pour transmettre le message 5, permet de réduire les temps dřarrivées de ce message par rapport aux temps dřarrivées de même message par lřutilisation de 2eme capteur (capteur passerelle).ce qui démontre lřintérêt dřutilisation des capteurs passerelles temporaires. V.CONCLUSION Dans cet article, nous avons présenté un protocole de communication entre un WSN et un VANET dans les HSVN. Ce protocole utilise des solutions permettant lřamélioration de son rendement. Nous pouvons résumer ces solutions dans les points suivants: un fonctionnement hybride du protocole (en utilisant les messages beacon, connexion à deux phases) par rapport aux conditions du réseau, une réduction de traitement des messages utiles (le modèle simple de données, lřalgorithme de traitement utilise par le capteur), une communication unique entre le capteur passerelle et le chef de groupe véhiculaire pour économiser lřénergie du capteur, une utilisation de véhicule relais dans le cas où lřéchange entre le capteur passerelle et le véhicule CH ne se termine pas avec succès, un modèle de message, un algorithme de livraison des messages critiques selon leur degré dřimportance et finalement des capteurs passerelles temporaires. Nos perspectives sont lřamélioration de notre protocole afin quřil sřadapte avec dřautres environnements et par lřajout dřautres métriques dans la simulation comme la consommation dřénergie du capteur pour plus fiabilité. REFERENCES [1] Kong, F.; Tan, J. A Collaboration-Based Hybrid Vehicular Sensor Network Architecture.In Proceedings of the International Conference on Information and Automation, Zhangjiajie, China, 20Ŕ23 June 2008; pp [2] Tripp, C.; Ornelas, K.; Aguilar, M. Performance Evaluation of a Hybrid Sensor and Vehicular Network to Improve Road Safety. In Proceedings of the ACM Symposium on PerformanceEvaluation of Wireless Ad Hoc, Sensor, and Ubiquitous Networks, Bodrum, Turkey, 17Ŕ18 October 2010; pp [3] Andreas Festag, Alban Hessler, Roberto Baldessari, Long Le, Wenhui Zhang, Dirk Westhoff NEC Laboratories Europe ŖNetwork Research Divisionŗ, Kurf ursten-anlage 36, D Heidelberg ŖVEHICLE-TO-VEHICLE AND ROAD-SIDE SENSOR COMMUNICATION FOR ENHANCED ROAD SAFETYŗ [4] JianFeng, L and Jianglong, H ;A RESTful information service method in Hybrid Sensor and Vehicular Networks publisher in Automatic Control and Artificial Intelligence (ACAI 2012), International Conference Xiamen- China 3-5 March 2012, pp. 283 Ŕ 286. [5] Weingärtner, E.; Kargl, F. A Prototype Study on Hybrid Sensor- Vehicular Networks. In Proceedings of the 6th GI/ITG KuVS Fachgespräch Wireless Sensor Networks, Aachen, Germany, 16Ŕ 17 July 2007.K. Elissa. [6] S.djahal and Y. Hamri_doudane ENSIIE ;A Framework for Efficient Communication in Hybrid Sensor and Vehicular Networks publisher in Ŗthe 9 th annual IEEE consumer Communication and Networking Conference,CCNC Jan. 2012,pp. 209 Ŕ 214. [7] OMNeT++ Community [8] Generated on Mon Nov :38:23 for MiXiM by doxygen ( 24 )

27 Un protocole de négociation pour l'ordonnancement distribué Multi-Agents dřun Atelier Job-Shop M.L. Berrandjia, S. Ourari Division Robotique et Productique Centre de Développement des Technologies Avancées Alger, Algérie Résumé Dans ce papier, nous nous intéressons à la résolution distribuée du problème d ordonnancement d atelier Job-Shop en utilisant les systèmes multi-agents. Nous considérons que chaque machine est assimilée à un agent autonome gérant son propre ordonnancement local (Ordonnancement à une machine) et coopérant avec les autres agents pour trouver une solution globale satisfaisante tout en gardant une certaine flexibilité séquentielle afin de faire face aux incertitudes. L'approche de résolution proposée est basée sur un mécanisme de coopération inter-ressources où les négociations sont initiées entre les agents afin d'assurer une cohérence entre tout couple de tâches liées par la gamme opératoire. Un protocole de négociation est proposé et sa mise en œuvre est réalisée sur la plateforme de développement des systèmes multi-agents JADE. Cette dernière permet de développer une solution portable fonctionnant sur plusieurs plateformes et supportant le standard FIPA-ACL pour la communication entre agents. Mots clés Job-Shop, ordonnancement distribué, système multi-agents, coopération, flexibilité, JADE. I. INTRODUCTION Actuellement, le processus dřordonnancement de la production occupe une place importante au niveau de lřentreprise qui évolue dans un environnement caractérisé par une hyper-concurrence visant à satisfaire à la fois les exigences et les contraintes imposées par les clients en termes de qualité, de coût et de délais de mise à disposition. Il est donc indispensable dřavoir un système assurant un ordonnancement robuste tenant compte de lřenvironnement perturbé de la production en exploitant au maximum la flexibilité existante lors de lřexécution du plan de production. Il existe dans la littérature plusieurs approches traitant le problème dřordonnancement de la production. La plupart de ces approches sont centralisées et sřarticulent essentiellement autour de méthodes de résolution exactes ou bien approchées [1]. La solution est alors donnée sous forme dřun ordonnancement prévisionnel unique satisfaisant les contraintes imposées par le client ainsi que par lřenvironnement de lřatelier. Notons toutefois, que le principal inconvénient de ces approches réside dans le fait que ces dernières considèrent que les problèmes dřordonnancement sont déterministes, i.e. que les données du problème traité sont connues à lřavance. Seulement dans la réalité, lřenvironnement de production est de nature perturbé; en effet de nouvelles informations peuvent surgir pendant lřexécution du plan initial le rendant par la même occasion obsolète. La solution dans ce cas consiste donc à élaborer un nouvel ordonnancement global couteux en temps de calcul conduisant le plus souvent à des modifications R. Chalal Laboratoire de Méthodes de Conception des Systèmes Ecole Nationale Supérieure dřinformatique Alger, Algérie r_chalal@esi.dz radicales du plan initial ou bien dans le pire des cas à lřacceptation du retard engendré par la perturbation. Pour faire face au problème dřincertitudes, des approches dites robustes ont été développées. Ces approches sont classées en trois catégories : prédictives, proactives et réactives. Dans les approches prédictives, lřordonnancement est calculé en se basant sur des données estimées sans tenir compte des perturbations. Les approches proactives quand à elles calculent un ordonnancement en utilisant des connaissances à priori sur les incertitudes probables. Enfin, les approches réactives effectuent un calcul de lřordonnancement en temps réel en traitant les incertitudes lors de leur apparition. Il à noter que les approches précédentes peuvent être combinées afin dřexploiter les avantages que chacune de ces dernières offre. On retrouve dans [2] et [3] un état de lřart et une classification des approches robustes. Dřautres approches exploitent la nature distribuée du problème dřordonnancement, les décisions sont dans ce cas distribuées entre les différents acteurs, ayant chacun une autonomie, et coopérant entre eux de manière à converger vers un ordonnancement global avec une performance acceptable. Cette façon de faire permet de mieux absorber les incertitudes en ne modifiant que les ordonnancements locaux des ressources concernées par la perturbation. Notons que ce type d'approche distribuée peut être modélisé par les systèmes multi-agents (SMA) [4] en considérant que chaque agent représentant une ressource (machine) possède une autonomie décisionnelle et est capable de communiquer avec les autres agents moyennant un protocole de coopération pour la prise de décisions d'ordonnancement. L'intérêt de ces SMA s'est accru ces dernières années avec le développement rapide des réseaux et de lřinformatique distribuée. Plusieurs chercheurs se sont intéressés au paradigme des systèmes multi-agents et à leur application dans le domaine de lřordonnancement de la production. Dans [5], les auteurs décrivent un mécanisme dřappel dřoffre permettant à une ressource de sous-traiter ses tâches avec dřautres ressources. Baker dans [6] a proposé une architecture basée sur le protocole Contract-Net. Dans [7], le système développé assigne à chaque ressource un agent permettant de forcer le respect des contraintes relatives à la capacité de cette dernière, et à chaque travail un agent sřassurant du respect des contraintes de précédence et des dates de disponibilités. Dans les articles [8] et [9], lřordonnancement est réalisé avec deux agents qui détiennent un ensemble de tâches et sont en compétition pour lřutilisation des ressources. Dans [10], le problème dřatelier job-shop a été abordé dans un contexte coopératif et distribué pour la prise en compte des incertitudes. Dans [11], les auteurs présentent un SMA pour lřordonnancement des ( 25 )

28 ateliers job-shop où les agents définissent leurs plans de réalisation en utilisant des règles de priorité tout en minimisant les temps dřinactivité de la machine. Dans ce papier, nous nous intéressons à la résolution distribuée d'un problème dřordonnancement multiressources et plus particulièrement à sa mise en œuvre en utilisant la plateforme JADE (Java Agent DEvelopment Framework) [12]. Cette dernière est organisée selon les spécifications de la norme FIPA (Foundation for Intelligent Physical Agents) appelée FIPA97 [13] qui décrit le modèle de référence dřune plateforme multi-agents ainsi que le langage de communication entre les agents (FIPA-ACL). Ce papier est organisé comme suit. Dans la section suivante, nous présentons la problématique d'ordonnancement étudiée. La troisième section est consacrée à la présentation de lřapproche multi-agents proposée et une description du protocole de négociation y afférent. Par la suite, nous décrivons la mise en œuvre du protocole proposé pour l'ordonnancement multi-agents en utilisant la plateforme JADE. Enfin, nous terminons par une conclusion sur le travail réalisé et les perspectives futures en vue. II. PROBLEMATIQUE DřORDONNANCEMENT JOB-SHOP Dans ce papier, nous étudions le problème dřordonnancement de type Job shop noté J n C max et qui consiste à ordonnancer un ensemble de travaux T= {1,2,, N} sur un ensemble de machines M = {1,2,, m}. Chaque travail possède sa propre gamme opératoire et est composé dřun ensemble de tâches sřexécutant sur une des machines de lřensemble M dans un ordre bien défini. Nous supposons que les tâches sont non-préemptives, et que les machines sont disjonctives. Notons aussi que chaque tâche i ne peut être exécutée que par une et une seule machine et que son exécution nécessite une durée opératoire p i connue à lřavance. La solution du problème consiste à trouver pour chaque machine un ordonnancement de manière à satisfaire les contraintes du problème et à converger au mieux vers un objectif qui est la minimisation de la durée totale de la réalisation des N travaux appelée Makespan et notée C max. Ce genre de problème est connu comme étant classé dans la catégorie des problèmes NP-Difficiles [14]. Se situant dans un contexte perturbé, nous exploitons, pour résoudre le problème, la nature distribuée de la fonction ordonnancement, en considérant chaque machine comme étant un centre de décision autonome disposant de toutes les informations nécessaires (connaissances locales) relatives aux tâches (date de disponibilité, date dřéchéance et durée opératoire) devant être exécutées sur ce dernier. Ces connaissances locales sont utilisées par le centre de décision pour réaliser son propre ordonnancement local en définissant les dates de début des ses opérations. Le problème qui se pose alors est la cohérence des décisions prises par les différents centres de décisions sachant quřils sont interdépendants en raison des liens qui relient les différentes tâches d'un même produit (une date de fin d'une tâche ne pouvant excéder la date de début de la tâche qui la succède). En effet, en supposant que chaque centre prend ses décisions sans prendre en compte celles prises par les autres centres, il est clair que cela engendrerait des incohérences quřil faudrait éliminer par la suite. On peut déjà en conclure que ces centres de décision sont dans l'obligation d'interagir les uns avec les autres pour assurer la cohérence entre leurs décisions et cela en utilisant un mécanisme de coopération bien précis. Un centre décision i possède des relations avec des centres en amont qui lui fournissent des produits à transformer, et qu'il il transfère à son tour aux centres de décision en aval chargés de la suite des opérations. Parmi les paradigmes les plus utilisés pour la résolution des problèmes distribués, les systèmes multi-agents (SMA) en constituent le moyen le plus adéquat pour la modélisation distribuée du problème dřordonnancement en offrant une multitude dřoutils et de standards tels que ACL ou bien KQML. III. APPROCHE MULTI-AGENTS POUR LřORDONNANCEMENT Comme nous l'avons introduit précédemment, nous considérons dans l'approche proposée pour la résolution distribuée du problème, que chaque machine est assimilée à un agent, et que ce dernier procède à l'établissement de son ordonnancement local en exploitant la technique d'ordonnancement à une machine basée sur le théorème de dominance décrite dans[15] et qui permet de caractériser un ensemble de solutions faisables au lieu d'une solution unique et fournit ainsi de la flexibilité séquentielle. Ainsi, chaque agent, définit pour chaque tâche i qu'il réalise, des dates de début et de fin au mieux et au pire et dispose dřune certaine flexibilité lui permettant de faire face aux incertitudes. Notons que chaque ordonnancement local déterminé par un agent donné est réalisé indépendamment des décisions prises localement par les agents en amont et en aval de ce dernier, engendrant ainsi des incohérences quřil faudrait éliminer afin dřaboutir en finalité à un plan d'ordonnancement global réalisable. Afin d'assurer une cohérence entre les décisions prises localement, un mécanisme de coopération entre les agents est mis en œuvre à travers des primitives, permettant ainsi de négocier de nouvelles valeurs de début et de fin en jouant sur les dates de disponibilités et dřéchéances des tâches. La phase de négociation est initiée par les deux agents ayant la plus grande incohérence. Pendant cette phase, les agents utilisent des primitives de négociation leurs permettant de faire des propositions ou bien des contrepropositions afin dřaboutir à la fin à une situation sans incohérences. Le ré-ordonnancement effectué au niveau dřun agent négociant nécessite une mise à jour des connaissances au niveau des autres agents à travers une coordination. Il est à noter quřun couple dřagents peut faire lřobjet de plusieurs négociations. On appelle donc une négociation déjà faite, une renégociation. Fig. 1. Relations entre les agents ressources. A. Décomposition du Problème Initial Cette étape consiste à décomposer le problème dřordonnancement job shop initial à plusieurs machines en plusieurs sous-problèmes à une machine. Il sřagit de déterminer une connaissance locale initiale en calculant pour chaque tâche i à exécuter par une ressource donnée, sa fenêtre dřexécution [r i, d i ] (r i, d i représentent respectivement la date de disponibilité et la date dřéchéance de la tâche i). Il faut noter que les données initiales du problème concernent seulement le nombre de travaux à réaliser, leurs gammes opératoires ainsi que les ressources, et les durées opératoire des tâches à exécuter. Les dates r i et d i dřune tâche donnée sont calculées en utilisant le graphe disjonctif correspondant au problème [16]. Ainsi, chaque ressource (agent) disposera dřun ensemble de tâches à réaliser avec toutes les ( 26 )

29 informations (r i, d i et p i ) nécessaires pour procéder au calcul dřun ordonnancement local. B. Ordonnancement local Le but de l'ordonnancent global étant la minimisation du Makespan, le problème job shop est décomposé en sousproblèmes plus faciles à résoudre, où chaque agent résout un sous-problème, et procède à l'établissement d'un ordonnancement local à une machine avec comme critère la minimisation du retard algébrique (problème noté 1 r i L max ). Comme nous supposons que chaque agent caractérise un ensemble d'ordonnancements possibles, ceci est réalisé en exploitant une condition de dominance [15] à travers les fenêtres temporelles dřexécution des tâches [r i, d i ] calculées précédemment. Il est possible ainsi de déterminer pour chaque tâche i ce qui suit : La séquence favorable (resp. défavorable) avec le meilleur retard algébrique noté L i min (resp. L i max ); La date de début au mieux (resp. au pire) notée s i min (resp. s i max ); La date de fin au mieux (resp. au pire) notée f i min (resp. f i max ). Le calcul de L i min et de L i max est effectué en utilisant lřalgorithme décrit dans [17] dont la complexité temporelle est en O(n log n). Les dates de début et de fin au mieux et au pire sont déduites des retards algébriques. C. Détermination des incohérences Dans la section précédente, nous avons montré que des intervalles temporelles spécifiant les dates de début et de fin au mieux et au pire de chaque tâche sont déterminés localement. Il faut toutefois noter que chaque agent procède à l'établissement de son ordonnancement local sans tenir compte des décisions prises par les autres agents avec qui il est lié au sens de la gamme opératoire des produits. Il en découle ainsi des incohérences entre les dates de début et de fin des tâches, dues aux contraintes de précédence liées aux gammes opératoires. En effet, les intervalles temporelles de début de réalisation déterminés par deux agents prenant en charge respectivement deux tâches successives i et i+1 dřun même produit doivent satisfaire les deux conditions suivantes : s i+1 min f i min et s i+1 max f i max (1) Les incohérences au mieux et au pire, entre deux tâches (i, i+1) sont données par les formules suivantes Δ i min = s i+1 min f i min etδ i max = s i+1 max f i max Ainsi, chaque agent gère deux ensembles de tâches incohérentes, au mieux et au pire, classés respectivement par ordre croissant des Δ min i et Δ max i. Le but étant dřarriver à trouver un ordonnancement global satisfaisant les conditions données dans (1), il est clair que seules les valeurs négatives des expressions données dans (2) constituent des incohérences, et feront par conséquent lřobjet de négociations entre les agents. Notons que les agents se coordonnent par échange dřinformations afin que le couple dřagents détenant lřincohérence la plus élevée (la plus petite valeur négative) enclenche le processus de négociation. Nous signalons que dans le protocole de négociation que nous proposons, à un instant donné, seul un couple dřagents concernés est en phase de négociation, les autres agents entrent en état dřattente jusquřà ce que la négociation prenne fin. D. Protocole de négociation Afin dřassurer une cohérence lors des prises de décisions locales, les agents interagissent selon un schéma de coopération que nous décrivons dans cette section. Comme nous lřavons déjà signalé, il sřagit plus précisément dřamorcer une série de propositions et de contrepropositions entre les agents du couple ayant la plus grande incohérence. Pour ce faire, des primitives permettant dřagir sur les dates de début et de fin des tâches au mieux et au pire sont définies au niveau des agents, permettant à ces derniers de prendre des décisions locales, tout en négociant avec les agents amonts et avals. Dans ce qui suit, nous présentons ces primitives puis nous décrivons le schéma dřinteraction adopté. 1) Primitives de gestion des incohérences:chaque agent dispose de deux types de primitives quřil gère de manière autonome. La première règle les incohérences au mieux, alors que la seconde traite le cas des incohérences au pire. Le principe consiste à modifier les dates de début ou de fin au mieux et au pire de manière à ce que les valeurs Δ min i et max Δ i soient positives ou bien nulles, assurant ainsi la cohérence entre les tâches. Ces primitives agissent sur lřordre de certaines tâches déjà préétabli en augmentant les dates de début ou bien en réduisant les dates de fin (au mieux et au pire) de la tâche faisant objet de lřincohérence la plus grande. Ces primitives sont : (2) ( 27 )

30 Diminuerf i min (resp. f i max ): cette primitive permet de diminuer la valeur de la date de fin au mieux (resp. au pire) de la tâche i ; Augmenters i min (resp. s i max ) : cette primitive permet dřaugmenter la valeur de date de début au mieux (ou au pire) de la tâche i. 2) Schéma d interaction :notre approche de résolution préconise, comme nous lřavons déjà signalé, la distribution des décisions sur un processus dřinteraction en utilisant les SMA.En effet, une solution SMA sans interaction nřest guère différente dřune solution classique. Elle consiste à mettre en relation plusieurs agents afin de déclencher certaines actions au niveau de ces derniers. Dans notre cas, deux agents entrent en négociation pour éliminer lřincohérence liée aux tâches successives (i, i+1) de la même gamme, que chacun dřeux réalise. Durant cette phase de négociation, ces agentsadoptent deux rôles différents ;lřagent réalisant la tâche i+1 est lřagent initiateur de la négociationalors que celui réalisant la tâche i est lřagentparticipant. Cette négociation se fait au moyen des primitives suivantes : Propose : cette primitive permet à lřagent initiateur de demander à lřagent participant de diminuer sa date de fin au mieux ou au pire ; Contre-propose : cette primitive est utilisée par lřagent participant pour demander à lřagent initiateur dřaugmenter sa date de début au mieux ou au pire, dans le cas ou la diminution de la date de fin nřa pas suffit à éliminer lřincohérence ; Accepte : cette primitive est utilisée par les agents négociants afin de confirmer lřacceptation de la proposition émanant du participant ou de la contre proposition émanant de lřinitiateur ; Coordination : cette primitive est utilisée par les agents négociants pour informer les autres agents des modifications éventuelles opérées à leur niveau. La figure 2 représente un diagramme de séquence illustrant la négociation entre deux agents. La négociation commence par une proposition de lřagent initiateur (Agent réalisant la tâche i+1) demandant à lřagent participant de diminuer f min i (ou bien f max i ). Ce dernier procède à un réordonnancement local et informe les autres agents des modifications effectuées afin que ces derniers les prennent en considération. Dans le cas où lřaction de lřagent participant a permit de régler le problème, alors il envoie un message dřacceptation à lřagent initiateur et la négociation est terminée. Dans le cas contraire, lřagent participant envoie à lřagent initiateur une contre-proposition lui demandant dřaugmenter son s min i+1 (ou bien s max i+1 ). Ce dernier après avoir procédé à un ré-ordonnancement local, informe les autres à travers un message de coordination des modifications faites à son niveau. A lřissue de cette étape un message dřacceptation sera envoyé à lřagent participant marquant ainsi la fin de la négociation. Fig. 2. Schéma dřinteraction lors de la négociation. IV. MISE EN ŒUVRE Dans cette section, nous nous intéressons à la mise en œuvre de la solution SMA proposée en mettant lřaccent sur la plateforme utilisée (JADE) pour la modélisation comportementale des agents, la communication et la gestion des messages dřéchange entre ces derniers. Il existe plusieurs plateformes logicielles permettant soit, la simulation des systèmes multi-agents, ou bien le développement et la mise en œuvre de ces derniers. Dans [18], les auteurs présentent une étude comparative des plateformes de développement des SMA les plus utilisées. A. Présentation de la plateforme JADE ( 28 )

31 JADE (Java Agent DEvelopement framework) est une plateforme Open source gratuite, implémentée entièrement en JAVA et dédiée au développement des SMA conformément aux spécifications de la FIPA. Cette norme concerne aussi la communication inter-agents effectuée à travers le langage FIPA-ACL. JADE comporte aussi un ensemble dřoutils et dřapplications graphiques qui permettent le débogage, la supervision et lřadministration du système développé, tels que : «Sniffer Agent» pour la visualisation des messages ACL circulants entre les agents du système, ou encore lřoutil «Remote Monitoring Agent» qui permet lřadministration à distance dřune ou de plusieurs plateformes JADE. B. Modélisation multi-agent du problème sous JADE Comme mentionné précédemment, chaque agent est autonome, possède des connaissances locales, et interagit avec les autres agents afin de mettre en cohérence les décisions prises localement. Au niveau de la plateforme JADE, chaque agent peut avoir un ou plusieurs réactions, selon la situation à laquelle il est confronté. La modélisation du comportement dřun agent est réalisée avec la classe Behaviour (offerte par JADE) à travers lřutilisation dřune machine à états finis (Finite State Machine). La figure 3 décrit le comportement général dřun agent, où chaque état correspond à une situation donnée : Etat S1 (réception des données) : durant cet état lřagent reçoit les informations sur les tâches à exécuter nécessaires pour lřétablissement de son ordonnancement local. A la fin de la réception des données, lřagent passe à lřétat S2 ; Etat S2 (Ordonnancement local) : cet état permet à lřagent dřétablir son ordonnancement local en définissant pour chaque tâche, ses dates de début et de fin au mieux et au pire. Lřagent passe ensuite à lřétat S3 pour la détermination des incohérences ; Etat S3 (Détermination des incohérences) : Il sřagit dans cet état du calcul ou de la mise à jour des incohérences à chaque fois que lřordonnancement local est établi, suite à une négociation; Etat S4 (Détermination du couple d agents négociants) : Cet état permet dřidentifier le couple dřagents déclenchant la négociation. Ces deux derniers entrent en négociation (état S6) tandis que le reste des agents passent en attente (état S5) ; Etat S5 (attente) : cet état est relatif aux agents qui ne sont pas concernés par la négociation. Si la négociation est finie alors les agents en attente passent à lřétat S4 pour déterminer le nouveau couple dřagents négociants, sinon à lřétat S3 pour une coordination et une mise à jour des incohérences ; Etat S6 (Négociation) : durant cet état, les agents ayant la plus grande incohérence négocient afin dřéliminer cette dernière. Le passage à lřétat S2 se fait pour effectuer un ré-ordonnancement, à lřétat S3 pour mettre à jour les incohérences (coordination) ou bien à lřétat S4 après la fin de la négociation. Fig. 3. Machine à états finisdřun agent. C. Gestion de la synchronisation inter-agents Dans lřapproche de résolution proposée, les agents sont distribués et interconnectés à travers un réseau informatique, où on ne dispose dřaucun contrôle sur lřacheminement et le routage des messages, et donc sur lřordre dřarrivée des messages. Dřun autre coté, on note que les agents sřexécutent à des vitesses différentes selon lřenvironnement où ces derniers sont hébergés. Ces deux derniers points posent le problème de synchronisation entre les agents. Il est donc important de procéder à une bonne gestion de la réception et de lřutilisation des messages reçus par chaque agent. Signalons que dans la plateforme JADE, chaque agent peut envoyer des messages dřune manière asynchrone. Il dispose également dřune file dřattente lui permettant la réception asynchrone de la part des autres agents (figure 4). Afin dřassurer un fonctionnement correct du système, une bonne gestion de la file dřattente des messages doit prendre en considération le problème de synchronisation. En effet, durant son activité, lřagent passe par plusieurs états et pendant chaque état la lecture du message approprié est importante afin régler le problème de synchronisation lié aux deux points évoqués précédemment (Vitesse dřexécution et ordre dřarrivée des messages). Fig. 4. Envoi et réception asynchrone des messages. Pour pallier au problème de synchronisation et afin de permettre à chaque agent de lire le bon message au bon moment, nous avons défini pour chaque état, un type de message qui lui correspond. Il sřagit ici dřajouter un entête permettant dřidentifier le type de message afin que lřagent puisse lřextraire à partir de la file dřattente et lřutiliser, ou bien de le placer en fin de la file dřattente et passer au message suivant sřil ne correspond pas à son état actuel. A partir de cela, nous avons défini les types de messages suivants : RCPT : désigne la réception des données relatives aux tâches et la décomposition du problème initial. Ce type nřest utilisé que dans lřétat S1 (réception des données); DINC : message relatif aux communications interagents visant le calcul des incohérences. Ce type ( 29 )

32 nřest utilisé que dans lřétat S3 (Détermination des incohérences); DCAN : une catégorie de message associée à la phase de détermination du couple ayant la plus grande incohérence. Cette catégorie nřest utilisée que dans lřétat S4 (Détermination du couple dřagents permettent au passage à prochaine négociation) et les messages de coordination CRNT (pour une mise à jour des connaissances après un ordonnancement local effectué par lřun des agents négociants). En effet, après la lecture du message depuis la file dřattente (Ligne 2), lřagent procède à une vérification de son type (Ligne 3). Si ce dernier ne correspond pas aux types FNG et CRNT alors lřagent le remet à la fin de la file dřattente (Ligne 4) et passe au message suivant, dans le cas contraire, lřagent procède à un traitement qui dépend du type de message lu (Ligne 7). négociants) ; PROP : utilisé par lřagent initiateur pour faire une proposition à lřagent participant. Ce type est utilisé uniquement dans lřétat S6 (Etat de négociation); CPRP : utilisé par lřagent participant pour faire une contre proposition à lřagent initiateur. Ce type est utilisé aussi dans lřétat S6 ; ACPT : utilisé par lřagent participant (resp. initiateur) pour accepter la proposition (resp. contreproposition) de lřagent initiateur (resp. participant). Ce type de message est utilisé uniquement dans lřétat S6 ; CRNT : utilisé pour actualiser les valeurs des incohérences après ré-ordonnancement local. Ce type de message est utilisé par les agents en attente dans lřétat S5 (Etat dřattente); FNGC : ce type exprime la fin dřune négociation, et permet aux agents en état dřattente (état S5) et aux agents négociants de passer à une nouvelle étape de détermination du couple ayant la plus grande incohérence (état S4) afin dřentamer une nouvelle négociation ou bien à lřétat final (état SF) dans le cas où toutes les incohérences ont été éliminées. Le pseudo-code 1 illustre un exemple sur la gestion de la file dřattente des messages reçus durant lřétat S5: Pseudo-code 1 : Gestion de la file dřattente dans lřétat S5 1 :Do 2 : message = receive() ; 3 :if message.type FNGC and message CRNT then 4 : Mettre le message à la fin de la file d attente 5 :end if 6 :while (message.type FNGC and message CRNT) ; 7 : Traiter le message ; Les messages qui seront traités dans cet exemple sont seulement les messages de fin de négociation FNGC (qui V. CONCLUSION ET PERSPECTIVES Dans ce papier, nous avons présenté une approche multiagents pour la résolution distribuée du problème dřordonnancement des ateliers job-shop. La démarche de résolution exploite au mieux la nature distribuée de la fonction ordonnancement en respectant l'autonomie des différents acteurs et en utilisant le paradigme des systèmes multi-agents. En effet, chaque machine est assimilée à un agent autonome qui gère son propre ordonnancement, et qui coopère avec les autres agents à travers un protocole de négociation de manière à assurer une cohérence entre les décisions prises localement. Pour valider lřapproche proposée, nous avons opté pour l'utilisation de la plateforme JADE afin de développer le système d'ordonnancement multi-agents. Une modélisation du comportement des agents sous forme dřune machine à état finis est proposée. Cette dernière permet aux agents dřadopter les actions appropriées selon la situation à laquelle ils sont confrontés. Nous avons aussi défini plusieurs types de messages servant d'échange lors des communications entre les agents ainsi quřune règle de gestion des files dřattente des messages reçus au niveau d'un agent afin de résoudre les problèmes liés à la synchronisation et cela afin dřassurer un fonctionnement global correct du système. Actuellement, nous sommes en phase dřimplémentation de l'approche pour sa validation à travers des tests expérimentaux sur des benchmarks tirés de la littérature. REFERENCES [1] Gotha, "Les problèmes d'ordonnancement", RAIRO Recherche Opérationnelle/Operations Research, vol. 27, no.1, pp , [2] A.J. Davenport & J.C. Beck, "A survey of techniques for scheduling with uncertainty", [3] W. Herroelen & R. Leus, "Robust and reactive project scheduling: a review and classication of procedures", International Journal of Production Research, vol. 42, no. 8, pp , [4] J. Ferber, "Les systèmes multi-agents: Vers une intelligence collective", InterEdition, [5] M. J. Shaw and A. B. Whinston, "Distributed planning in cellular flexible manufacturing systems", Manage. Inform. Res. Center, Purdue Univ., West Lafayette, IN, Tech. Rep., [6] A. D. Baker, "Manufacturing control with a market-driven contract net", Ph.D. thesis, Rensselaer Polytechnic Inst., Troy, NY, [7] J. Liu and K. P. Sycara, "Distributed problem solving through coordination in a society of agents", presented at the 13th Int.Workshop on DAI, [8] A. Agnetis, P.B. Mirchandani, D. Pacciarelli, A. Pacifici, "Nondominated schedules for a job-shop with two competing agents", Computational and Mathematical Organization Theory, 6(2), pp , [9] A. Agnetis, P.B. Mirchandani, D. Pacciarelli, A. Pacifici, "Scheduling problems with two competing agents", Operations Research, vol. 52, no.2, pp , ( 30 )

33 [10] S. Ourari, "De l'ordonnancement déterministe à L'ordonnancement distribué sous incertitudes", Thèse de Doctorat soutenue à l'université Paul Sabatier de Toulouse, France, [11] A. Kouider, S. Ourari, B. Bouzouia, M. Mihoubi, "Approche Multi- Agents pour lřordonancement dynamique dřatelier de production", 9ème Conférence Internationale de MOdélisation et SIMulation, MOSIMř12, 06 au 08 Juin, Bordeaux, France, [12] F. Bellifemine, A. Poggi and G. Rimassa, "Developing Multi-agent Systems with JADE", published in Intelligent Agents VII, LNAI 1986, pp. 89Ŕ103, [13] Foundation for Intelligent Physical Agents, "FIPA 97 Specification. Part 2, Agent Communication Language", [14] J.K. Lenstra, A.H.G. Rinnooy Kan & P. Brucker, "Complexity of machine scheduling problems", Annals of Discrete Mathematics, vol. 1, pp , [15] J. Erschler, G. Fontan, C. Merce & F. Roubellat, "A new dominance concept in scheduling n jobs on a single machine with ready times and due dates", Journal of Operation Research, vol.1, pp. 114Ŕ127, [16] J.Adams, E.BAlas & D.Zawack, "The shifting bottleneck procedure for job shop scheduling", Management Science, vol. 34, n. 3, pp , [17] L. Trung, "Utilisation d'ordre partiel pour la caractérisation de solutions robustes en ordonnancement", Thèse de doctorat, Laboratoire d'analyse et d'architecture des systèmes (LAAS),CNRS, Toulouse, France, [18] A. Singh, D. Juneja, A.K. Sharma, "Agent Development Toolkits", International Journal of Advancements in Technology, vol. 2, no. 1, pp , January ( 31 )

34 Coordination based agents for pathfinding Mohammed Chennoufi Computer mathematics faculty, UniversityofScienceandTechnology of OranBP1505, Oran31000 Algeria Fatima Bendella Computer mathematics faculty, UniversityofScienceandTechnology of OranBP1505, Oran Algeria. Maroua Bouzid University of Caen, Basse- Normandie Campus Cote de Nacre, BP Caen France Abstract This paper describes a new algorithm for decentralization of the A* algorithm called DEPA*, which is a quick algorithm for finding the shortest path between two nodes in a graph. This algorithm is based on an heuristic evaluation to each vertex to estimate the best path that passes until you reach the goal, For this, we propose an approach based on multi-agent systems that decomposes the graph into sub related graphs (many agents). This connection is guaranteed thanks to the characteristics of agents all computing an A* at each sub-graph in a parallel way. The initial and final state of each agent will be chosen according to a well defined heuristics. A coordinator agent resolves the conflict in the case of many final states in a sub graph. Then the agents interact to achieve the goal. We illustrate this approach on a grid connected by square cells. Keywords Agent;A*;DEPA*;Grid;Node;Muli-Agent Djikstra. I. INTRODUCTION Systems; The distributed approach is presented in our daily lives such as traffic for example to go from city A to B can escalate the City B, same for the Web Service,if you ask query <how to get from A to B>, the answer may be passed through several server, planning in a travel agency is also regarded as a distributed approach (car, bus, avian...). As the world develops, the need to move has become a fundamental element, which makes systems more complex. Recently there has been a growing interest in multi-agent planning [1][2]. The problem is to compute a path for each agent from an initial location to a goal withouthave conflict with other agents. However, to our knowledge, very few researchers have applied the software agents on the shortest path problems. Our objective is to design an intelligent and effective DEPA* able to accelerate the search of the shortest path between two nodes if it exists. Our algorithm is developed to find an optimal and completesolution. We illustrate our approach on a grid, this grid is divided into several agents: Some A* are run in parallel in accordance with the concept of depth (A* that do not meet certain conditions are not executed), each Agent calculate the shortest path as well as the successor to its final state. A coordinator agent solves the problem of conflict if it exists by calculating the minimum distance to thefinal state in the sub graph orglobal heuristics with adjacentagent. This article is organized according to the following provisions:in the first section, we present previous works in the field of distributed planning and the variations of A*. In the second section, we discuss on the modeling of the problem and the explanation of A*. The third section is devoted to the presentation of our approach based on the agents with a pseudo code. Results are given in the fourth section. Conclusion and perspectives are presented in the last section. II. RELATED WORKS The Djikstra algorithm (Research in width) [3] and its variations as A* so-called A START [4] are well known algorithms in artificial intelligence, specifically in planning (the calculation of shortest path). Our state of the art is divided into three major axes. The first is on the extensions of A*, then on the planning distributed and finally on decentralization of A*. [5] Proposes an algorithm of shortest path based on A* algorithm, its main advantage is in the use of a bounded memorywhile the A* algorithm uses exponential memory. All other features are inherited from A*. It avoids repeated states as long as the related memory permits it. In [6], the author introduces the notion of time, in order to accelerate repeated heuristic A* research with the samestate toward a goal. The idea is to place dates at the state level in its local search spaces, it makes the heuristics better informed after each A* heuristic search. The worksof [7] are inspired from [8] Dynamic A* which behaves like A*, except that the costs of arc can vary as the algorithm works. Two other states are added, it is Raise which indicates that its cost is higher than the last time it was on the Open list, and lower indicating that the cost is less than the last time it was on the Open list. [9] Proposes an incremental version of A* so-called D*.The idea is to take advantage of previous researches that they reuse after repair. These changes allow the graph of a well gained execution time better than rescheduling from zero. In [10], the authors combine both incremental and heuristic searches. They reuse information from previous searches to speed up searches for similar sequences. GAA* ( Generalized Adaptive A*) solves search problems potentially faster. The heuristic search often based on A* heuristics uses heuristics knowledge in the form of approximations of goal distances. GAA* is much faster than uninformed search algorithms. Recently, another algorithm [11] has been proposed. It is modeled as a grid it depends on a forward chaining search called FRA*( Efficient Incremental Search for Moving Target Search).Whenever the target moves, FRA* quickly adapts the search tree previously built to the new target position and recalls the function of A* search. This adaptation of the tree is largely dependent on environmental modeling.the changes in the environment are not treated. [12] Developed a variant of this algorithm called GFRA*(Generalized Fringe-Retrieving A*) which enablesfra*to operate in environments modeled by arbitrary graph, in addition to the heuristic function used is ineligible. This is the case in the field of planning. In [13] ( 32 )

35 the author resolves collisions; he added the concept of priority in the context of cooperation between agents in finding the shortest path. Each agent is assigned to a priority where agents will be executed in the order of this priority. In [14] the authors present an asynchronous variant of decentralized planning,exploiting the parallelism in distributed systems, which gives a speed in calculations. Unlike synchronized planning approaches, the algorithm allows an agent to call his local planner of the spatialtemporal trajectory to find the best path. [15]Propose a complete algorithm that is fast enough for real-time applications based on MAS, at any time when an agent finds a solution. It uses the rest of the time to gradually improve the solution until it is optimal. The algorithm can solve problemsat the rate of 80% with small grid but with the scale, the problem remains. In [16] the cooperation between agents illustrated by the author is based on two algorithms:first, to find the interfaceagents that should cooperate to answer a query "how to get from A to B? ",and how to make these agents cooperate. The two algorithms are based on the Djikstrawhere each agent details the itinerary. The author did not unfortunately give a pseudo code that clarifies how this distribution is achieved. Work on the decentralization of A* is little although the areas covered are decentralized in nature, such as: road traffic, web service, game theory [17] Proposed a distributed search algorithm DEC-A*(a Decentralized Multiagent Pathfinding) modeled as follows: when a problem is presented, each agent calculates its overall heuristic that estimates the cost of its shortest path to the goal intermediary to its neighboring gents. Then the agent containing the initial state develops locally in A* by minimizing the cost until it reaches the border then it stimulates on the other side a new execution of A*. These steps are repeated to reach the goal. So, the author has made an extension of the heuristic evaluation of the distance like the sum of two functions, a local, which evaluates the cost to reach the closest node, neighbor to the objective and the overall distance that estimates the cost of sub graph in the target through other graphics. His work decreases the time to find the shortest path and reduces the complexity but it is not effective in a graph without hindrance. In this domain, several studies have been carried out especially in the last 10 years, but we noticed that most of the researchers work on variations or extensions of A* applied in different areas such as game theory, robotics, traffic road... But little work on decentralization of A* especially on coordinating agents at boundaries nodes,that is the object of our work adjacent cells in the 4 directions, C(s, s ) >0 is the cost of transition between the cell s є S and s' є S. G={, } where is the nth sub graph, each is a sub graph of agent, the agents communicate using a border nodesucc( )=, s є and sř є with i j, let λ ={,,. } a set of path to each sub graph starting from an initial border state of to a final boundary state. A* use the formula F (x) = g (x) + h (x) which is the current approximation of the shortest path to the goal, where g (x) is the total distance between the initial position to the current position and h(x) is the heuristic function which represents the approximate distance from the current location to the goal state, ( ) is the minimum cost for the agent and ( ) is the minimum heuristic of the same agent. B. Standard A* algorithm search A* pronounced A Star [4] is a algorithm search of artificial intelligence that performs a heuristic search [18] in an area to find an optimal path from the root node to the goal node. The algorithm search is based on a heuristic evaluation between two nodes in order to eliminate many paths of high costs, Two representations are possible tree or grid in Fig. 1 and Fig.2. III. MODELLING OF THE PROBLEM A. Notation Our approach is illustrated in a square grid that represents blocked cells in grey and unblocked in blond. The initial state is colored in green and red for the end state. S is the finite set of unblocked states, є S is the initial state (starting node) of our research, є S represents the final state (arrival node), ( )є S (heuristics) is the approximation of a current state s to a state s'.in our illustration we work with the Manhattan distance (PearlJ., 1985). h(s) = xs-xsř + ys-ysř, where x and y are the coordinates of the cell. C (s, s') = 1 is the cost of transition between ( 33 )

36 Fig.1. Representation in greed and tree To find a path from one point to another we must beginby heading to the destination. It is precisely thisidea thatthe A* algorithm uses. The idea is verysimple:at each iterationa*will try toget closer to thedestination, it willtherefore focus onpossibilitiesdirectlycloser to thedestination, putting asideall others. Allpossibilitiesnot allowingto get closer tothedestinationare set aside, but not suppressed. They are simplyput in alist of possibilities toexplore(openlist) if ever thesolutioncurrentlyexplored is poor. Indeed,we cannotknow in advancewhether a pathwill leadorbeshorter. Enough for this pathlead toa dead end that thesolution becomesunusable. The algorithm willtherefore firstmovetowardsmore directpaths.and ifthese pathsfailorprovewronglater, it will examine solutions being put aside. This going backto review thesolutionsthatweset asidethe algorithmensures thatwealways find asolution (if it exists, of course). What makes thisalgorithm searchcomplete, fastand optimalfig. 2. Several distances can be used like the Manhattan distance, diagonal, Euclidean Anillustrative exampleof A*runningon a gridanda treewith the trace ofopenlist andclosedlist isshown infig. 2 the overall heuristic [17] of each agent. It will be used in case of conflicts between the final states of each sub graph and build the final path from to. Agent1 Agent 7 Agent 16 Fig. 3. illustration of an example DEPA * Fig. 2. Illustrative example of A* IV. Order Open List PROPOSED APPROACH Our idea is simple but effective.after the decomposition of the graph in sub graph (sub-matrix). Each agent calculates respectively the initial state which represents the minimum cost of the border states and the final state representing the minimum of the heuristics of the border states. Then A* will execute in parallel with the sub graphs provided that its initial state is a successor of the final status of another sub graph (red crosses in Fig. 3 for the case of untreated parallel). In the case of a single processor a multi thread is run.the agents communicate using an coordinator agent which calculates Here is asample execution which explains thealgorithm1 and 2:Ourgridis divided into16 agents from.in each square the valuepresented at theupperleftcornerrepresentsthe cost. The bottomleft represents theheuristic andf =g+ his in the middleof the cell. Allinitial and final statesarestored intwovectors provided thatthe initial state isa successor ofthe final state. The agent itsinitial state is which is asuccessor of for agent. So willbeconsidered contrary to the agent as itsinitial state is not a successor of of Then we calculate the A* for agentswell sortedand we appealto the coordinate agentwhich regulatestheconflictin case there aremorefinal statesin the sameagent ( two A* in the case of d agent). The Fig. 4 shows an example of cooperation between agents where each agent sends a message send () and receive message answer () of the coordination agent which contains the partial path i 4.1 Pseudo code ( 34 )

37 Algorithm 1: DEPA* 1:Begin # Initialization 2:Decomposition (grille, nbr noeud); 3:For each of Ado # Calculate the initial and final state of each sub graph 4: = MIN (g( )of node neighbor in ); 5: = MIN (( )of node neighbor in ); # Condition for parallelism 6: If S == Succ (S ) i j then 7: Vector1 = ; 8: Vector2= ; 9:End of if 10: End of for 11:For i=1 to length[vector1] do # calculate of A * for each agent in parallel 12:Thread[i]. A* (Vector1[S )], Vector2 [S )]; 13: End of for # Communication between agents 14:Cordiagent ( ); 15:Pathfinal= λ = be λ ; 16:End. Algorithm 2: Cordiagent ( ) 1:Begin # Initialization; 2: For each node of do 3:If ( ) ==( )then 4: = MIN( c(, h final ) / s є ) 5:End of if 6:Ifc(, hfinal )== c( h final ) then 7: = MIN( Succ(( A )), Succ(( A 8:End of if # s є j i 9:If( ucc( ) == ( ucc( )then 10: = MIN ( Succ(hglobal( A )), Succ(hglobal( A 11:End of if 12:Return bestλ ; 13:End of for 14:End. )) );# s є j i) )) ); The line 2 of the algorithm 1 represents the decomposition of the grid in sub grid depending on the desired number of agents. Take our example for a grid of 12*12. If we want have agents with 09 nodes. We must split the rows and columns in 3.3 which give us 16 agents (4*4). The 4 and 5 lines calculate the minimum of the costs and heuristics for boundary nodes for each agent. They will be stored in two vectors (lines 7 and 8). Much implementations is shown in line 12, which uses the standard function A * in parallel. Line 14 calls he coordinator agents (algorithm 2) The Algorithm 2 guaranteed the communication between Agents (boundary nodes). It used to calculate the best paths for each agent (line 12). Three tests are performed (lignes 3, 6.9) to solve the problem of multiple final states. Line 10 calls the heuristic function ( ), which represents the minimum distance for to the final state, is calculated by achainigback for = to the initial state = [17]. DEPA* is complete, unless there is an infinite number of nodeswith f f (G). Since h is admissible, best λ is optimal because it is a simple A *. So λ is optimal. Fig.4. Coordination between agents V. EXPERIMENTATION We have compared our DEPA* algorithm with A* and DECA* on a machine with an Intel (R) Core 2 Duo 3.16 GHz CPU and 2 GB of RAM. After several experiments, we obtained results that illustrate the execution time with respect to the number of input nodes and the number of agents. Obstacles in our grid that represent walls, rivers, mountains are programmed in a way random all depends on the problem. We used a Boolean function. When creating the grid. It is true for adjacent nodes (not obstacle ) if Math ( 35 )

38 .random exceeds 0.1. TABLE I. EXPERIENCE WITH DIFFERENT GRID Grid size A* en ms DECA* en ms 12* * * * DEPA* en ms The first aspect we noted in Fig.5 is the execution time of DEPA* which calculates the shortest path from node (0, 3) to (40, 40). This time with DEPA* is the least by contribution to A* and DECA*. Even if the grid is large (table 1: 10000, nodes). In Fig. 6 and Fig.7, which illustrate the tables 2 and 3, we notice the profit in the execution time in relation with the number of agents for 03 algorithm. DEPA* is the best in the time of executions. Consider the case of Fig. 6, which shows a grid of 30 * 30 with initial and final states are (0.3) and (29.29), for a breakdown of 10 * 10 agents where each agent has 3 * 3 node. DEPA* runs in 16 milliseconds but in the decomposition of 2* 2 agents with 15 * 15 node, DEPA* runs in 38 ms which expresses the power of parallelism and coordination between agents. The Fig.8 shows the performance of the DEPA*on scalewith initial and final states are at the end of the grid: (3.3) and ( ). We notice that as the number of agents increases the time is decreased 983 ms for 4 agents and for 36 agents we have 109ms which expresses a time saving through the parallel execution of A * at each agent. TABLE III : EXPERIENCE WITH A GRID (50*50) Grid size Nomber of agents A* ms DECA* ms DEPA* ms 50*50= *10 agents of 5*5 nodes 2*2 agents of 25*25 ndes Fig.5. Comparaison between variations of A* TABLE II. EXPERIENCE WITH A GRID (30*30) Grid size 30*30= 900 Nomber of agents A* ms DECA* ms DEPA* ms 10*10 agents of 3*3nodes *2 agents of 15*15 nodes Fig. 7. Grid of 50*50 nodes Fig. 6. Grid of 30*30 nodes Fig. 8. Grid of 180*180 nodes ( 36 )

39 future researches, we are interested in the extension of the field of application, such as the simple and dynamic graphs, when the final state changes in position. Fig. 9. Grid of 180*180 nodes The Fig. 9 shows the relationship between the increase in the number of agents contribution to the reduction of time execution and the number of nodes for each agent on a grid of 180 * 180 nodes using the parallelism of A*. We notice that, in our experiments, DEPA* finds a solution if it exists in at least a second with grids that can contain up to nodes. VI. CONCLUSION AND FUTURE WORKS Networks grow continuously, which makes the system more complex. More recent works in artificial intelligence handle the problem of shortest path. The multi-agent systems are helping to solve this complexity with a decentralized manner through a "send and answer" communication and the coordination between agents in order to achieve the goal. The proposed DEPA*algorithm is in keeping with this problem. We have illustrate our approach on a square grid like the game grid, which allows to compute the shortest path from an initial state of an agent to a final state of another. It is based on the parallel A* that is run on agents of which their initial states are successors of the final states of other assistants agents. Much of the work is devoted to the coordination between agents to arrive at the final path in the case of several A* (several final states) in the sub grid (agent). The coordinator agent regulates this conflict: it takes the final state which corresponds to the minimum cost in relation to the initial state of the same agent. In the worst case the coordinator agent consults the global heuristic [17] of the assistant agents. The final state chosen is the one that corresponds to a minimum of global heuristic. We obtained good results, especially in a scale of nodes and nodes where DEPA* finds the solution if it exists in some milliseconds. In the future, and for the REFERENCES [1] M. Erdmann, and T. Lozano-Perez, ŖOn multiple moving objects,ŗ Algorithmica 2:477Ŕ [2] K. Fujimura, ŖMotion planning in Dynamic Environments,ŗ New York, NY: Springer-Verlag [3] PE. Hart,NJ. Nilsson and B. Raphael,ŖA formal basis for the heuristicdetermination of minimum cost paths,ŗieee Transactions on Systems,Science, and Cybernetics, , [4] S.Russell, ŖEfficient memory-bounded search methods,ŗ. In Neumann, B. Proceedings of the 10th European Conference on Artificial intelligence. Vienna, Austria: John Wiley & Sons, New York, NY. pp. 1Ŕ5,1992. [5] S.Koenig and M. Likhachev, ŗ AAMAS,ŗ Hakodate, Japan May, [6] S. Koenig, M. Likhachev and D. Furcy,ŖLifelong Planning A*ŗ. Artificial Intelligence Journal, 155, (1Ŕ2), 93Ŕ146, [7] S. Koenigand M. Likhachev, ŖAdaptive A*,ŗ In Proceedings of the International Conference on Autonomous Agent and Muti-Agent Systems, p. 1311Ŕ1312, [8] S. Koenigand M. Likhachev, ŖD* liteŗ. In Proceedings of the Association for the Advancement of Artificial Intelligence, p. 476Ŕ 483,2002. [9] S. Koenig, M. Likhachev, Y. Liu and D. Furcy. ŖIncremental Heuristic Search in Artificial Intelligence,ŗ Artificial Intelligence Magazine, 25(2), , [10] X.Sun, S.Koenig and W.Yeoh.ŖGeneralized adaptive A*ŗ. In Proceedings of the International Conference on Autonomous Agents and Multiagent Systems, p. 469Ŕ476, [11] X.Sun, W.Yeoh and S.Koenig,ŖEfficient incremental search for moving target searchŗ. In Proceedings of the International Joint Conference on Artificial Intelligence, p. 615Ŕ620, [12] X.Sun, W.Yeoh and S.Koenig,Ŗ Generalized Fringe-Retrieving A* : Faster Moving Target Search on State Latticesŗ. In Proceedings of the Internation Joint Conference on Autonous Agents and MultiAgent Systems, volume 1081Ŕ1088, [13] S. David, ŖCooperative Pathfinding,ŗ Proceedings of the First Conference on Artificial Intelligence and Interactive Digital Entertainment: pp ,2005. [14] M.Cáp, P.Novák,J.Vokrínek and M. Pechoucek, ŖAsynchronous Decentralized Algorithm for Space-Time. Cooperative Pathfinding,ŗ Workshop proceedings ECAI [15] T. Standley1 and R. Korf,ŖComplete Algorithms for Cooperative Pathfinding Problems,ŗ Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence,2011. [16] M. Kamoun, Ŗ Designing an information system using multimodal travel : A multi-agent approach to search and composition routes online Ŗ, PHD thesis lile university,2007. [17] M. EL Falou,M.Bouzid and M. Mouaddib, Ŗ DECA*:a Decentralized Multiagent Pathfinding Algorithmŗ, AAAI [18] J. Pearl. ŖHeuristics: Intelligent Search Strategies forcomputer Problem Solving,ŗ. Addison-Wesley, ( 37 )

40 Replication Strategies in a Mobile Environment Moufida Rahmani LSI, Computer Science Department University of Science and Technology Houari Boumediene Algiers, Algeria morahmani@usthb.dz Mahfoud Benchaïba LSI, Computer Science Department University of Science and Technology Houari Boumediene Algiers, Algeria mbenchaiba@usthb.dz Abstract The applications in mobile ad-hoc network (MANET) like peer to peer (P2P) file sharing have attracted more and more attention in recent years. However, due the frequent network partitions caused by node mobility and the limited energy, the data availability is very low. The replication can be used as the efficient technique to improve resource availability, enhance the system performance and achieve load balancing. This paper surveys some existing data replication protocols that have been proposed in the literature for MANET and Mobile P2P networks and compares them. Keywords P2P; MANET; MP2P; Replication; Availibility; Access frequency. I. INTRODUCTION A mobile ad-hoc network (MANET) isa set of autonomous mobile nodes (e.g., laptops,pdas, mobilephones) that form a temporary network with variable topology and communicate using wireless links. Several applications have been deployed in a MANET to provide data services. Peer to Peer (P2P) is a an overlay network that allows direct sharing of resources such as CPU, bandwidth, files etc, among a large number of users in a decentralized manner. It is nowadays widely adopted on the Internet and is used for many different application types, such as file sharing (Gnutella [1] and KaZaA [2]), communication as Skype [3] and distributed computing as SETI@home [4]. MANET and P2P networks are both decentralized and self-organizing networks with dynamic topologies. This common features have attracted a lot of attention in the research community to deploy P2P applications for MANET (MP2P). However, these systems facemany constraints such as the limited physical resources like bandwidth and energy and node mobility.this leads to frequent networkpartitions orperformance degradation which makes data available in MP2P networkslow.data replication is a feasible solution to increase data availabilityas well as enhance the system performance by reducingcommunication overhead, reduce the data querying delay and achieve load balancing. To the bestof our knowledge, Cohen et al [5] were the first authors that addressed strategies of replication in unstructured P2P networks. Thegoal of their work is to replicate in order to reduce randomsearch times, i.e. to minimize the number of peers that haveto be probed before the query is resolved, therefore thesystem performance is improved. Many others replication methodsare proposed for the structured and unstructured P2P networks[6][7],but these methods are proposed for the fixed network (internet)where the mobility of the node wasnot considered. Therefore,they cannot be implemented in a mobile environment. In thecase of MANET, Hara [8]was the first that introduces datareplication problem. Heproposed three methods toassign the replicas to mobile nodes in order to improve the availability of shared data. In this paper, the design issues concerning developing a replication protocol for MANET have been discussed. We describe various of the existing replication techniques for MANET and MP2P networks and compares them. The aim of this paper is to provide a comprehensive study that helps the designer to choose the most appropriate data replication strategies for MANET. The remainder of this paper is organized as follows. Section II discusses the data replication in a mobile environment. SectionIII reviews the replication techniques proposed for MANET and section IV reviews the replication techniques for MP2P. Section V presents a summary of all the replication techniques discussed in this paper. Finally, Section VIconcludes the paper. II. REPLICATION IN MOBILE ENVIRONMENT Data Replication is the process of copying the data from a source node toother nodes. It is an indispensable solution for MANET to enhance data availability as well as reduce communication overhead, achieve fault-tolerance and load balancing for the applications deployed on top of it.as replication has advantages, it also has significant costssuch as the storage cost and consumption of bandwidth. Therefore,the excessiveuse of replication is not recommended i.e. the mobile node cannot have replicas of all data items in the network.thereby, in order to avoid wastage of network and node resources, the replication technique or called also a replica allocation technique must take into consideration important factors such as what data to be replicated, where the replica to be placed and when starts replicationprocess,.ect... In [7], Rahmani and Benchaïba present a study on replication in P2P systems, including: factors involved in replication, type of replication, and parameters affecting replication. Replication can be executed in parallel with lookup protocol, i.e, every time the node receives requests for a date,it launches replication process, if it is necessary. For example, if access frequencies for the required data exceeds a certain threshold. It can also be executed periodically. A. Classification of replication technique Many replication techniques are proposed to increase data availability in a mobile environment.these techniques are different to each other, but we can classify them into two categories according to the level of autonomy of the nodes : group-based and fully decentralized strategies. Group-based strategies: In this category, the nodes are organized into different groups. Each group is managed by a clusterhead (CH) or super peer (SP) which has better performance compared to the other nodes like high energy, high available bandwidth and highprocessing capacity. CH collects the necessary information such as data itemsř access frequencies and remaining storage space from the nodes that exist in its group. After that, CH performs replication in its group. This category can ( 38 )

41 take better decision of replication compared to the fully decentralized strategy because it has some global view of parameters included in replication, e.g.,free space storage in a group. Fully decentralized strategies: Each mobile node plays the same role and takes decision of replication locally based on local and some time on past information. This category is suitable in a dynamic environment with autonomous nodes which have links between them not reliable. B. Issues related to data replication Duethe differentconstraints imposed by such environment:limited energy,low bandwidth, unpredicted nodemobility, ect. Data replication in MP2P is very complicated and must dealwiththe different following issues. 1) Power consumption The mobile nodes, e.g., laptops, PDAs,mobile phonesare fed by energy sources autonomous(batteries), which limits services and applications thatcan be supported by each node. If popular data items isreplicated on the node with low power, then the request for these data items will drain its power. Therefore, a replication algorithm must tries reduces and balances power consumption among the node. 2) Node mobility The mobile nodes are free to move randomly. Consequently, the network topology may change rapidly and in an unpredictableway. The nodes might move to a place where they cannot be reached by other nodes. Thus, the replication technique should avoid to replicate popular data in such nodes and tries to copy in advance their data (replicas or original) in some other nodes to improve data availability. Therefore, the replication algorithm should predicate or calculate node mobility in advance in order to avoid these problems. 3) Resource availability Some nodesare small devices, then processing power, memory andstorage capacity are limited. The replication algorithmmust take into account these limitations, for example thealgorithm has to check whether a node has sufficientmemory capacity to hold the replica or not, and tries toachieve its goals but with minimum cost. 4) Network Partition The network partition is caused by the nodesmobility or limit battery power and it poses a serious problem which is the nodes in one partition are not able to access the data hosted by nodes in the other partition. Therefore, data availability is low and significantly degrade the performance of data access. In order to solve this, the replication technique should be able to determine or predict the time when the network partitioning might occur andreplicate data items beforehand. 5) Consistency Management A request for a data item should always access the most recent copy of the data item. Hence a replication algorithm is required to manage the consistency of data in the network. As the network has poor resources, the global consistency of replicas is not desirable. III. REPLICATION STRATEGIES FOR MANETS A. Replica Allocation Technique Based on Clusters (RABC) [9] In RABC, each mobile node has unique identifiernode-idand maintains a Replica Index RI. RI containsinformation about the data items, there are 3 entries relatedto each data item: the id of this data item item-id, its size andits Time To Live (TTL) value. The TTL value shows after how much time date item before to expire. This value is assigned bytheowner of original data item. Each mobile node is associated with a cluster and each cluster has its clusterhead(ch). Every CH maintains an AvailableReplica Table (ART). ART contains the information about the replicas that are available at different mobile nodes in thatcluster. For each node, ART includes node-id, the ids of the data items that are replicated at that node and the free space available at thatnode. Replica allocation process (RAP) is started by CH when a search for an object is successful and this CH exist in the path traversed by the response message. In RAP, CH checks its ART, and check for a node with freespace available greater than the size of data item. If CH getsa node with spaceavailable greater than or equals to the sizedata item, then CH replicate the data item on that node. Afterreplicating data item on that node, it sends a message tothe CH so that CH will update its entries related to that nodein ART. If that node does not exist, then CH chooses a nodewith maximum free space available. After selecting node, CHredirect that node to apply replica replacement algorithm. Inthis algorithm, the node will remove data items whose TTL values are expired. After successful creation of free spaceat that node, CH will replicate that data item on that node,node will send a message to the CH so that CH will update its entries in ART. When CH receives update message for a data item from theowner of original data item. It broadcasts the updated copy ofdata item with its item-id to all CHs. Whenever a CH receives an updated copy of the data item with item-id, thench checks this item-id is in its ART. If desired item-id is foundin ART, then updates this data item at all nodes pertaining toitem-id in ART. If not exist, then CH starts RAP, so that replicaof the data item-id can be created in this cluster. B. Zone-Based Replication Scheme (ZBR) [10] The main idea of ZPRis the integration of data replication with data lookup service and underlying zone routing protocol by using the cross-layer design between the routing layer and the application layer. Therefore,it can achieve a flexible and efficient data access service with low overhead. Each data item has a unique data identifier and its original copyis held by a particular mobile node. Each mobilenode has a unique identifier and has certain storage space forcreating replicas excluding the space for the original data item. For each mobile node, a zone of radius r is defined andincludes all the nodes whose minimum distance in hops ( 39 )

42 fromthe node in question is at most r hops. Each node has 3 tables: The routing table, is defined in the network layer and maintains routing information to those nodes that are within itszone through some sort of a proactive scheme as OLSRprotocol[11]. The data lookup table, is defined in application layerand describes the distribution of the data items (originalcopies or replicas) within its nodeřs zone. The data lookup table contains the data identifier, a flag that indicates whetherthe data item is original copy or replicas, a value that indicates the freshness of the data and is used to maintain consistency and a description of the data item. Capability table provides information about the free storage space of the nodes within its zone. In order to update data lookup table and capability table with low overhead, ZPR extends hello message sent by OLSR periodically to update the routing table. When the node wants to access data item, first, it checks its data lookup table. If the data item is available in its local zone, then the process of intra-zone data lookup is invoked as follows: The requester node used its routing table to find the path to the hosting node and to send toit the request. When the hosting node receives the request, it sends the data item to the requester node.if the data item is not available in its local zone, then inter zone data lookup process is invoked as follows: the requesternode sends the request to all its peripheral nodes. Peripheralnodes are nodes whose minimum distance to the node isexactly equal to the zone radius. The remaining nodes arecategorized as interior nodes. Each peripheral node executes the process ofintrazone data lookup as the same way asthe requester node. The same procedure is repeated until the data item is found. When the data item is found (original copiesor replicas), the hosting node transfers the data items to therequested node andreplication is triggered atthe same time. The replication is triggered when the process of interzoneis invoked, exactly when the data item is transferred fromthe hosting node to the requesting node. ZPR replicates onlythe data item that is not in the nodes within the zone ofthe requesting nodeand is replicated into the node with enoughfree storage space. The replica is first allocated to theperipheral nodes, if they have free storage space, if not, then thereplica is allocated to the interior nodes. If the interior nodesdo not have enough free storage space, replica replacementprocedure is invoked to evict the data replicas.every datareplica is assigned a valid period d, and a data requestingnode considers a replica up-to-date if d>0. When replication occurs, the owner decide the validation period d of the data replicas based on updating interval and current data access time if the data requesting node gets the data from the owner.if the data requestingnode gets the data from other nodes hosting the replica, thevalue of d of the new replica equals to the old one. Each nodehosting the replica decreases its d value in the same ratio. The replicas with d=0 can be removed from the hosting node tosave storage space. C. Data Replication [12] The data replicationis composed of two main phases: The first phase is executed whenever a new data is created in the network. The objective of this phase is to inform all the network of the existence of new data and to distribute the replicas uniformly on the network. Therefore, The traffic is reduced and the expenses in energy are balanced. In order to eliminate the redundancy of replicas among the neighbors, this method uses the number of hops to estimate the distance between a node to avoid to create the replica on two nodes neighbors. The second phase is devoted to the redistributionof replicas in order to overcome the impact of dynamic changes of topology and to satisfy the evolution of users' needs. It is based on the frequencies access data. Each node estimates two types of frequency: The first one is a frequency of external access which represents the access rate of the node to external data which means outside ofits cache. If the frequency of external data exceeds a certain threshold, the replication of this data is initiated. This type of replication is called replication on need.the second is frequency of internal access represents theaccess rate of other nodes to internal data in its local cache.when the node holder of data (original or replica) receives amessage of the access demand to this data, it checks if thefrequency of internal access of the node requestor forthis data extends a certain threshold and the distance betweenthe holder and requestor node is greater or equal to threshold (three number of hops),then instead of sending to it just a response to its demand, ittransmits to it data replica. This type of replication is calledreplication on demand. D. User-Centric Replication Model (CreaM) [13] CReaM is a fully decentralized solution. Its idea is to give priority to user needs and allows them to specify their level of participation in the system. Each node makes locally replication decisions, when it is overloadedthe replication process is automatically started. CReaM is composed of several components, the fundamental among them is the Peer State Manager (PSM). ThePSM controls the replication process; it monitors the peer's status and decides when to replicate a data item (DI) and whento accept placing replicas on the node. The peer's status isdetermined by the consumption of its resources. Each userspecifies the allowed level of resource consumption, there arethree thresholds: the allowed load level of the nodes CPU,the allowed level of remaining battery, and, the allowed levelof remaining storage space. If one of these levels exceed acertain threshold or the number of requests received for DI becomes equal or greater than the predefined threshold ina node, then thereplication process starts, and function as follows: The PSM notifies thereplica Decider (RDec) components to start the replicatingprocess. RDec creates query request RQ that contains the DIto be replicated, the reason for replication and someimportant indicators to help other nodes decide whether toaccept or reject the RQ. After that, it sends RQ in the network. Each node receives this RQ, its PSM decides whether to place replicas by accepting RQ or to or reject itaccording to itsstatus and information included in RQ. Discussion: ZBR and RABCare group-based strategies. They replicate only the data which are requested, this can degrade the overall system performance because unpopular data are difficult to locate and will cause significant traffic overhead compared to the popular data. The both use the same method to maintain consistency. CreaM and data ( 40 )

43 replication are fully decentralized strategies. In data replication strategy, each node based only on access frequency and number of hops in order to take the decision of replication. In our opinion, it is an insufficient view that the issues that the replication must address (section II.B). Whereas, CreaM takes many parameter (CPU, energy, ect...) which makes CreaM, in our opinion, more efficient compared to the data replication strategy. IV. REPLICATION STRATEGIES FOR MP2P A. Context and Location-based Efficient Allocation of Replicas (CLEAR)[14] CLEAR is an efficientgroup-based replicationstrategy to increase the data availability in MP2P networks. It exploits user mobility patternsand functions as follows: Periodically, SP receives a message form each mobile host (MH) which belongs to its group. This message contains four information related to each mobile node: the read-write log D-MHfor each data item which MH stores, the read logs R-MHfor each replica which MH stores, its available memory and its load status. All these information will be combined to create read-write D-SP logs and read logs R-SP for SP. The candidate data items from D-SP which should be replicated, that are whose their access frequency exceeds a certain threshold. SPselects the nodes where the data can be replicated depending on their load status, their available memory and thenumber of time they accessed the replicated data. It avoids selecting overloaded nodes or nodes with low memory.clear takes into account other information which are MHřs mobility patterns and the data item required by MH. This informationis stored in the schedule and each MH sends its schedule to its SP as soon as it first enters. This information allows CLEAR to have better response times and increases data availability, by replication data item at MHs would soon comeinto the region and avoid replication at MHs that would quit the region. B. A Collaborative replica allocation and deallocation approach (CADRE )[15] CADRE tries to avoidthrashing conditions, where the mobile nodes expend more bandwidth and energy on allocating and deallocating the same data item than on answering queries. In order to achieve this, it performs allocation and deallocation decisions jointly among nodes in the network. The other important goal of CADRE is to ensure fairnessin replication by avoiding to give replication decisions only based on read/write ratio without considering the origin of queries. Thus, if adata item is accessed very frequently in the network, then itis replicated with high priority by creating several replicas, even if it is accessed (read) only by a single node.to do this, CADRE proposes a new parameter which is a score which is assigned for each data item to quantify its importance in the network as a whole. Thus,the data items which have a higher score are the first selectedto be replicated, since these data items are important to thenetwork as a whole. CADRE is group-based strategy, the role of SPs is to execute replicaallocation and deallocation collaboratively within the regionthat it covers and facilitates search in the network. Periodically,each mobile node sends its load status, energy status, availablememory space status, the scores of items and the Flip FlopRatio (FFR) values of the replicas stored at itself to thecorresponding GN in its region. The FFP is used for preventionof thrashing. To calculate it, each MH keeps track of thenumber of deallocations of each replica at itself over a periodof time. If the FFR value of replica increases, then theprobability of thrashing of this replica also increases. Hence,if the FFR for a replica exceeds a certain threshold, then itshould not be deallocated. All these information allow the SP achieving fair replica allocation among the mobile nodes in thenetwork with collaboration to the deallocation decisions. C. Adaptive replication of images (Ada-Rep) [16] Ada-Rep is group-based strategy. It can reduce thememory usage and request turnaround time. To decide thereplica allocation of images, the SPs consider variousparameters such as resources available, network state, trustvalues and average response time. Ada-Rep takes the decisionfor creating the new replica in parallel with lookup protocoland it operates as follows: Periodically, each peer informs its SP about all its queries executed successfully inthat period. Then, The SP calculates the new averageresponse time for each image transaction into the list of requested objects. The list of requested objects is maintained by each SP and contains the request count and averageresponse of each requested object image.the new average response time for an object is compared tothe previous one, if it is greater than, the SP authorizesthe replication and allows to create more replicas for thisobject to increase its availability. When the SP receives the requests from the requesting peer for object image, and if the desired replica count forthat object does not attain. Then, it replies to the requestingpeer with authentication certificate, the replication permission with the trust value and other information. With authentication certificate each requester peer can know informationregarding level of access permission granted to it by its SP. After, the requesting peer sends the request with all this information to all the neighboring peers or the group of peers according to the types of searching methods used (Flooding or Multicast). During the forwarding of request, the number of existing replicasof that image available in the cache memory of the nodes in that path is piggybacked in the message header of the request. Whenthe source peer receives the request of image with replication permissionand if the number of existing replicasof the image is less than the required number of replicas, thenit launches the replication factor (RF) algorithm. The RF helpsto locate the peer(s) to replicate the image. RFwas calculated for each intermediate node except at thenodes already having the copies of that image on returningback and is stored in the message header with idřs peersin the request back. RF is based on variousparameters including memory, trust, bandwidth available andthe processing power. When the requesting peer receives the request back, itchooses the the intermediate peer(s) with the highest replication factors to store the replica of image. The replica can be theoriginal image or its residue according to parameters. After,The requesting peer issues the final request with the replicationarray information to the source peer. The image/residue isreplicated at the designated peers given in the replication array on the returning path. ( 41 )

44 D. The Random Replication with State Prediction Algorithm (RRSP)[17] RRSP proposes a modified form of random replication. It uses the Self-Organizing Map (SOM) to predict the node'smobility state and to avoid replicating on the nodes that are about to leave from the network. The Self- Organizing Map (SOM) is the unsupervised learning, neuralnetworks, it is used to classify input data into groups. The data are trained using theunsupervised learning where number inputs and outputs are specified. According to random replication, when the request for anobject is successful, the nodes which will store a copyof this object are selectedrandomly along the search path. Whereas RRSP uses the nodescondition as the basis for choosing to replicate objects intothese nodes. These nodesř condition is calculated by usingthe SOM algorithm. There are a 4-dimensional input vectorsfor SOM, Mean Time to Failure (MTTF), Current Uptime, Distance and Round Trip Time (RTT). To compute MTTF,each node recalls both of the last leave time and the lastjoin time. Current uptime is the total time the node currently online. The distance between two nodes is obtained by gettingthe radio link length between them. The RTT is the returntime measured by sending a packet from the local node to theremote node. There are two categories as output of SOM: 0or 1. The number 1 for those whose have enough time to stayin the network and 0 is for nodes about to leave. If the searchfor data succeeds, along the search path the SOM algorithmis applied for each node. Then, only the nodes whose their output set equal to 1 receive the copy of the requested data. RRSPminimizes number of replicas and therefore the storage spaceis diminished compared to random replication. E. Randomized Distributed Algorithm (RDA)[18] RDA aims to higher scalabilityand efficiency in a resource-limited network such as MP2P. Its main idea is to ensure that all query sets become k-coverable. This algorithm is executed by all nodes and it works as follows: Each node i records the hop-distanceof objects in the distance vector cost costi with size m, where m is the number of objectso in the network. During the period of t, each node i local-broadcasts the distance vector to its 1-hop neighbors.whenever it receives all the distance vector of its 1- hop neighborsj, for each object O, ifcostj(o)+1 costi(o), then costi(o) will be updated to costi(o)+1. After executing such operations for k times, if the value of each costi(o) is smaller or equal to k, it indicates that the query set of all objects is k-coverable and the node i do nothing. Otherwise, nodeichooses the candidateobject for replicating/dropping with probability (1 P). If the localmemoryis full, then node i chooses the candidate object for dropping with cost (O) =0, otherwise it will issue a request for replicating object O with cost(o)>k. F. An Ecconomic Model for Efficient Dyanmic Replication (EcoRep)[19] The main objectives of EcoRep are to ensure fair replicaallocation, discourages free-riding and provides an incentivefor users to become service-providers. For this purpose, itbased on the data itemřs price to perform replica allocation.this price is payed by the requester node to the node thatserves the request. On account of this value, EcoRep can beregarded as an incentive scheme because in order that MHwill be able to issue its own request, it must provide serviceto the network. Additionally, it minimizes the number of thefree-reeding nodes that do not participate in replication of dataitems. Price of a data item relies on the number of users whoaccessed it, its access frequency, the number of its existingreplicas, the average response time required for accessingit and its consistency. EcoRepis group-based strategyand does not require absolutereplica consistency.periodically, eachpeer calculates the price of its each item(original andreplica), which were accessed by mobile nodes MNs fromwithin the region of its corresponding super peer SPand by mobile nodes that are outside regions of its SP(external). All these prices must be sent to its corresponding SP with a list of data items(original or replica) stored at itself. When the SP receives price information from allthe mobile nodes in its region, then it computes the total priceof each item(original or replica). For the internally accessed items, SP sorts these items in descending. SP considers those items, whose prices exceed the average price, as candidates for replication. For the externallyaccessed items, the SP computes the price of each data item relative to every external SP and chooses the candidate itemsthat should be replicated at MHs in the regions of other SPs. For each candidate item, SP sends a message to the relevant external SP, which will perform the replica allocation for thisitem with MHs within its region.for choosing the MHS that store the replicas, SP is based on more information sent by MHs within its region, which are: load, energy and available memory space status, current (x,y) coordinates of each MHs that will be used to estimate the network topology during the time of replica allocation. G. Applicability of sub graph centrality to improve data accessibilityamong peers in MANETs(ASGC) [20] The main aim of Pushpalatha et al. is to propose a data replication scheme that distributes the replica in a minimum number of nodes and let each mobile node to access the data in a minimum number of hops (one or two hops). This can decrease the data access delay, improve the response time and reduce the communication cost to access the data. In order to realize this, this technique uses mathematical concept knownas minimum dominating set and sub graph centrality principle and consists of two phases: Initialization phase and maintenance phase.the node that holds the shared data is termed as data server and the nodes thataccess the data are termed as data clients. In Initialization phase, the data servers that wish to replicate data to invoke the algorithm to find the minimumdominating set for the current topology [21]. The goal to construct a minimum dominating set will help thenodes to access the data in at most one or two hops.after identifying the dominating nodes (servers), the replica is distributed to those nodes. Dominating nodes, then broadcast the identifier of the data itholds to its neighbors in one or two hops. If the neighbor receives the broadcast message from one ormore data servers, it stores the identifier of the data serversand the data identifiers in a table.this phase is suitable for dynamic network where the dominating nodes (servers) may move out of range and the client can not be access the data from data server in at most one or two hops. For this the maintenance phase uses sub graph centrality principle toidentify a stable node and relocate the replica ( choose new dominating nodes) if a server nodemoves out of range from its client. ( 42 )

45 Discussion: CLEAR, EcoRepand CADREare group-based strategies ; where the nodes communicate periodically their information (load status, memory, etc ) to the ; SP that it uses them to make the local decisions of replication (choosing the data to be replicated, the nodes where data can be replicated, ect..). The centralized nature of these solutions allows synchronized replication decisions between the nodes in the group, thus it avoids replica duplications and non-useful replica creation. Additionally, this allows making more accurate decisions (as decisions are based on a complete view of the vicinity). However, this can generate high communication cost, which is not suitable in such environment with very limited resources.cadre andecorep is based on the CLEAR.EcoRep is the first work that proposed an economical model to avoid the problem of free riding. Ada-Rep is also a group-based strategy and SP are responsible for collecting the information from all other nodes in this group. The difference between Ada-Rep and CLEAR is that the SP is not responsible to choose the nodes where data can be replicated. These nodes are choosing in the request path based on some parameters (memory, trust, bandwidth available, ect ). Likewise, the data which to be replicated is only a digital image. RDA is fully decentralized strategy in which the decisions made by each node only depend on its current state (the value of distance vector cost). It is completely different compared to strategies presented in this paper because it can be treated as Markov chain. However, this solution does not take in consideration the characteristics of Manet(mobility, the limited physical resources like bandwidth and energy, ect...). RRSP is also fully decentralized strategy. The main feature of this solution is the use of Self-Organizing Map to predict the node's mobility state.asgc is the only technique which guarantees that each node can access the data in at most one or two hops and also it maintains minimum replica degreefor each data item. V. SUMMARY MANETs are support environments for autonomous and decentralized applications like P2P file sharing. However, the dynamic and unpredictable nature of MANETs creates several challenges, which in turn impact the applications deployed on top of them. Increasing the data availability is the major challenge. To deal with this challenge, a number of data replication protocols have been proposed in the recent years. In this article, we explored some techniques that have a significant scientific contribution. In the following we try to draw some useful recommendations to take into consideration when we propose the replication strategies for mobile environment: Wireless connections have limited bandwidth which must be reserved in priority for the applications. Consequently, the resource overhead imposed by running the replication system must be minimized. The consistency maintenance is an important issue,and it must be addressed together with the replication technique in order to decrease the overhead of consistencymaintenance and ensure that a data requester receive up-to-datedata. The main parameter for replication decision (to choose suitable data to replicate) is the access frequencies of dataitems. The storage space is an important parameter to choose the suitable node to host replica. However, it is insufficient given that the node has other limitations like limited CPU, battery, bandwidth. Therefore, replication strategy must take into account these limitations. Most of them assume that all mobile nodes collaborate fully in terms of sharing their memory space. In reality, however, some nodes may decide only to cooperate partially, or not at all, with other nodes. These nodes could then reduce the overall data accessibility in the network. Therefore, the replication must be applied, accompanied with an incentive mechanism. Table I summarizes the comparison of replication strategies in mobile environment presented above in function ofsome criteria: Type:strategy is group-based or is fully decentralized. When: replication is executed in parallel with lookup protocol, periodically or when it is necessary (need). In the last case, the replication can be executed whenever new data is available in the systemor when some parameter extends threshold like Access frequency. Consistence issue. Parameters considered: we cite all parameters considered in replication. Advantages. VI. CONCLUSION AND FUTURE WORK Replication techniques are widely employed to improve theavailability of data, enhancing performance of query latencyand load balancing. In this paper, a state of the art of theexisting replication techniques for Manet and M-P2P networksis presented.in our future work, we try todevelop simultaneously data replication and data consistencymaintenance methods and take into consideration recommendations that we presented in order to achieve high efficiencyat a significantly lower cost REFERENCES [1] ŖGnutella,ŗ [retreived: May, 2014]. [Online]. Available: [2] ŖKazaa,ŗ [retreived: May, 2014]. [Online]. Available: [3] ŖSkype,ŗ [retreived: May, 2014]. [Online]. Available: [4] ŖSeti@home,ŗ [retreived: May, 2014]. [Online]. Available: [5] E. Cohen and S. Shenker, ŖReplication strategies in unstructured peer-to-peer networks,ŗ 2002, pp. 177Ŕ190. [6] S. M. Thampi and K. C. Sekaran, ŖReview of replication schemes for unstructured p2p networks,ŗ CoRR, vol. abs/ , [7] R. moufida and B. Mahfoud, ŖA Comparative Study of Replication Schemes for Structured P2P Networksŗ, in ICIW 2014, The Ninth International Conference on Internet and Web Applications and Services, 20 July 2014, pp [8] T. Hara, ŖEffective replica allocation in ad hoc networks for ( 43 )

46 MP2P MANET 2 nd International Conference on New Technologies & Communication (ICNTC-2015) improving data accessibility,ŗ pp. 1568Ŕ1576, [Online]. Available: mber= [9] K. Rajeev and P. Kumar, ŖReplica allocation technique based on clusters for manets,ŗ in International Conference on Emerging Trends incomputer and Electronics Engineering (ICETCEEř2012), March [10] K. Shi, R. Chen, and H. Jin, ŖZone-based replication scheme for mobilead hoc networks using cross-layer design,ŗ in MSNř06, 2006, pp. 698Ŕ710. [11] T. Clausen and P. Jacquet, ŖOptimized Link State Routing Protocol (OLSR),ŗ RFC 3626 (Experimental), Internet Engineering Task Force,October [Online]. Available: ttp:// [12] M. Samira, G. Mohamed, and B. Nadjib, ŖData replication in mobile ad hoc networks,ŗ in Mobile Ad-hoc and Sensor Networks, vol. 4325,2006, pp. 685Ŕ697. [13] Z. Torbey, N. Bennani, D. Coquil, and L. Brunie, ŖCream: Usercentricreplication model for mobile environments,ŗ in International Workshopon ŗmobile P2P Data Management, Security and Trust (M- PDMST2010)ŗ in conjuction with the 11th International Conference on MobileData Management (MDM 2010), IEEE, Ed., May 2010, pp. 348Ŕ353. [Online]. Available: [14] A. Mondal, S. Kumar, and M. M. Kitsuregawa, ŖClear: An efficient context and location-based dynamic replication scheme for mobilep2pnetworks,ŗ in Proc. DEXA, 2006, pp. 399Ŕ408. [15] A. Mondal, S. K. Madria, and M. Kitsuregawa, ŖCadre: A collaborative replica allocation and deallocation approach for mobile-p2p networks.ŗ in IDEAS. IEEE Computer Society, 2006, pp. 21Ŕ28. [Online]. Available: [16] A. R. Kumar, K. M. Sanjay, and H. Takahiro, ŖAdaptive searching and replication of images in mobile hierarchical peer-to-peer networks,ŗscience Direct, 30 January [17] G. C. Soriano and Y. Urano, ŖReplication with state using the selforganizing map neural network,ŗ pp. 383Ŕ388, [18] H.-Z. Chou, S.-C. Wang, and S.-Y. Kuo, ŖA randomized distributed algorithm for peer-to-peer data replication in ireless ad hoc networks.ŗ in PRDC. IEEE Computers Society, 2007, pp. 163Ŕ170. [Online]. Available: [19] A. Mondal, S. Madria, and M. Kitsuregawa, ŖEcorep: Aneconomic model for efficient dynamic replication in mobile-p2pnetworks.ŗ in COMAD, L. V. S. Lakshmanan, P. Roy, anda. K. H. Tung, Eds. Tata McGraw-Hill Publishing CompanyLimited, 2006, pp. 116Ŕ127. [Online]. Available: [20] M. Pushpalatha, T. Ramarao and Revathi Venkataraman, ŖApplicability of sub graph centrality to improve data accessibility among peers in MANETsŗ, in Peer-to-Peer Networking and Applications, vol. 7, June 2014, pp [21] Narsingh Deo Ŗ Graph Theory with Applications to Engineering and Computer Science ŗ, Prentice Hall, TABLE I. COMPARISON BETWEEN DIFFERENT REPLICATION STRATEGIES IN MOBILE ENVIROMENT Criteria Replication techniques Type When Consiste nce issue RABC Group-based strategy Parallel with lookup protocol ZPR Group-based strategy Parallel with lookup protocol Data Replicatio n Fully decentralized strategy CReaM Fully decentralized strategy Parameters considered Advantages Yes Storage space Is simple to deploy Yes Storage space Improves the overall performance of data access It is necessary Non Access frequency Improves the overall performance of data access It is necessary Non Level of CPU, battery and storage space + Access frequency CLEAR Group-based strategy Periodically Yes Read-write log, storage space, mobility patterns and load status CADRE Group-based strategy Periodically Non Load status, energy status, storage space and FFR value Ada-Rep A mix between Groupbased and fully decentralized strategy RRSP Fully decentralized strategy RDA Fully decentralized strategy It is necessary Non Bandwidth, storage space, processing power, trust value and average response time It is necessary Non MTTF, current uptime, distance and RTT Increases the data availability in a significant way, with high rate of user satisfaction Exploits mobility pattern which allows to facilitating better resource utilization, likely better query response times Avoids thrashing conditions by performing allocation and deallocation decisions jointly is the best strategy to search and replicate images Increases performance MP2P compared to random replication by using the SOM technique It is necessary Non Storage space and cost value Is completely different compared to other strategy presented in this paper. It is operated as a Markov chain EcoRep Group-based strategy Periodically Yes Price: number of users who accessed, access frequency, number of existing replicas and, the average response time + load, energy and available storage space status and current coordinates ASGC Fully decentralized strategy Ensures fair replica allocation and discourages free-riding It is necessary Non Mobility Each node can access the data in at most one or two hops and also it maintains minimum replica degree for each data item. ( 44 )

47 Comparaisons des approches dřinteropérabilité des réseaux P2P Hadj Henni Mřhamed Department of Computer Science, Hassiba Ben Bouali University, Chlef, Algeria Résumé Les réseaux p2p connaissent un grand succès et une utilisation élargie. Néanmoins, vu que ces réseaux p2p utilisent des interfaces propriétaires et fournissent des services différents ; cela fait que ces réseaux sont isolés les uns par rapport aux autres. Pour résoudre cette problématique, des approches ont été proposées pour rendre des réseaux p2p différents interopérables. Malgré cela, ces approches restent non utilisées et non évaluées. A notre connaissance, il n existe pas des travaux qui ont étudiés ces différentes approches d interopérabilités des réseaux p2p, ou qui ont essayé de comparer entre ces différentes approches, cet article vient pour répondre à ces besoins. Cet article, on s est proposé de définir l interopérabilité en réseaux p2p, exposé et analysé ces approches pour déterminer leurs points forts et leurs points faibles, comparé ces approches. Cette étude nous a permet de cerner l état d avancement des recherches sur l interopérabilité des réseaux p2p, et d évaluer ces approches. Mots clés Réseaux Peer to peer, Interoperabilité. I. INTRODUCTION: Les réseaux p2p ont connu un grand succès durant cette dernière décennie. Cela sřest traduit par le développement de plusieurs applications p2p offrant différents services. Ces applications sont souvent propriétaires. Lřutilisateur désirant bénéficier des différents services existant, doit installer toutes ces applications et rejoindre leurs réseaux p2p correspondants, ce qui est fastidieux voire impossible. Dřici on ressent le besoin des utilisateurs dřune application donnée de pouvoir accéder et bénéficier des services dřautres applications p2p sans avoir à les installer. Pour se faire on doit rendre lřapplication de lřutilisateur interopérable avec les autres applications p2p. Dans ce sens, les chercheurs ont proposé plusieurs approches pour rendre les réseaux p2p interopérables. Malgré la différence de leurs dates dřapparition, les nouvelles approches ne font pas référence les unes aux autres. De plus, il nřy a pas eu des travaux de recherche qui visent à évaluer et comparer ces approches. Dans cet objectif, on essayera dans cet article dřanalyser et de comparer ces différentes approches dřinteropérabilité des réseaux p2p. Cet article est organisé comme suit. La section 2 présente un préliminaire sur la notion dřinteropérabilité en général puis lřinteropérabilité en réseau p2p est présenté en section3. Les approches dřinteropérabilité ainsi que leurs analyses feront lřobjet de la section 4. On effectuera la comparaison dans la section5 et on termine par une synthèse, et une conclusion en section 6 et 7 respectivement. BENCHAÏBA Mahfoud LSI, Dep. of Computer Science, USTHB, B.P. 32 El-Alia, Bab Ezzouar- Algiers Ŕ Algeria, benchaiba@lsi-usthb.dz II. PRELIMINAIRES A. Interopérabilité des systèmes Il y a une nécessité d'une définition précise de l'interopérabilité, car le terme peut avoir différentes interprétations dans des contextes différents [1]. De nombreuses définitions existent dans la littérature (pour nřen citer que les plus communes) [1] : Lřinteropérabilité est la capacité que possèdent deux ou plusieurs systèmes ou composants à échanger des informations puis à exploiter les informations venant dřêtre échangées [2]. Lřinteropérabilité est la capacité à communiquer, exécuter des programmes, transférer des données entre différentes unités fonctionnelles de manière à ce quřun utilisateur nřait besoin que de peu ou pas de connaissances sur les caractéristiques de ces unités [3]. La capacité des systèmes, des unités, ou des forces d'accepter et de fournir des services à d'autres systèmes, unités, ou forces, et d'employer les services ainsi échangés pour leur permettre de fonctionner efficacement ensemble [4]. III. INTEROPERABILITE EN RESEAUX P2P Il nřexiste pas de définition dans la littérature de lřinteropérabilité dans les réseaux p2p, pour cela on a proposé la définition suivante : Le terme interopérabilité signifie les mécanismes misent en œuvre pour assurer dřune manière transparente la communication et le partage des services et des ressources entre des applications p2p appartenant au même réseau ou à des réseaux p2p différents en terme dřarchitecture de réseaux p2p, méthodes de routage, messages de communication et services proposés (voir Figure 1). A. Quand se pose le problème d interopérabilité entre réseaux p2p? Le problème de lřinteropérabilité entre applications p2p se pose fortement dans des réseaux p2p hétérogènes à cause de : La diversité des architectures de réseaux p2p (centralisée, décentralisée, hybride, structuré). La diversité des méthodes de recherches de ressources. (Recherche par index, par inondation ou par hachage de clé). La diversité des types de messages de communication. ( 45 )

48 La diversité des types de services assurés par chaque application (partage de fichiers, I. M, streaming,...). une passerelle (Gateway) p2p, qui reçoit les messages des différents protocoles et les convertis dans le protocole spécifique de l'application de partage de fichiers distante. En outre, tous les messages sortants de chaque protocole seront convertis vers tous les autres protocoles et ensuite envoyés sur le réseau. Lřarchitecture de la mise en œuvre de la passerelle p2p est donnée à la Figure 2. Exemple de réseaux p2p différents en communication. B. Intérêt de l interopérabilité en réseau p2p Les applications p2p proposent divers services et divers avantages, lřintérêt de rendre des applications p2p différentes interopérables est de permettre de : IV. Combiner et partager les fonctionnalités intéressantes dans chaque réseaux p2p (efficacité de méthodes de routage, de méthode de recherche,..) Elargir le nombre de ressources disponibles et faciliter à lřutilisateur lřaccès à toutes les ressources partagées à partir dřune seule application. Sans lřinteropérabilité, lřutilisateur sera obligé dřutiliser plusieurs applications p2p et se connecté aux réseaux correspondants pour avoir toutes les réponses correspondantes à sa requête, ce qui est fastidieux et presque impossible. Répliquer des services et des données sur de nouveaux réseaux p2p ; ce qui garantit la disponibilité des ressources (même en cas dřindisponibilité de lřoriginal) et lřaccélération de téléchargement des ressources. Simplifier lřinterconnexion et assurer la communication entre les peers de systèmes p2p différents. APPROCHES DřINTEROPERABILITES EN RESEAUX P2P Les applications courantes de p2p sont généralement construites sur une plate-forme spécifique de p2p. Des applications p2p différentes offrants des services similaires ne peuvent pas partager directement des données et des services les unes avec les autres. Des approches assurant lřinteropérabilité entre des réseaux p2p différents ont vu le jour tel que: lřapproche de Gateway, lřapproche PeerBus, lřapproche Proxy, lřapproche dřindex structuré distribué et lřapproche d'interconnexion H- p2psip. Dans ce qui suit, nous allons exposer, analyser et comparer ces approches. A. Approche de Gateway (passerelle) Cette approche est établie autour de trois applications p2p parmi les plus populaires en partage de fichiers et qui sont : Freenet, Gnutella, et Napster. Ces applications viennent avec des caractéristiques différentes. Freenet et Gnutella utilisent lřarchitecture pue p2p, Napster utilise lřarchitecture p2p centralisée via un serveur central pour gérer la découverte par les pairs et la recherche de contenu [5]. Cette approche propose un framework qui permet lřintégration de protocoles de partage de fichiers en utilisant Framework dřinteropérabilité des protocoles p2p de partage de fichiers [5]. Analyse de l approche Gateway : Comme le montre la Figure 3: la conversion des messages entre quatre systèmes choisis est de 12 messages. En général pour rendre n réseaux p2p interopérables, on aura un graphe complet et on aura besoin dřéchanger n*(n-1) messages. La conversion des messages dans lřapproche Gateway. Avantages Lřinteropérabilité est assurée. Echange transparent de messages. Inconvénients Cette approche présente une expansion limitée et entraîne plusieurs limitations, telles que la nécessité d'une connectivité constante à tous les réseaux soutenus, le manque de métadonnées pour identifier des contenus partagés similaires, l'exigence d'une structure d'indexation centralisée [7]. Pour intégrer un nouveau système p2p au Gateway, on doit maitriser ses messages et assurer leurs conversions vers tous les autres protocoles p2p déjà interopérables. Surcharge du réseau, vu que le même message sera dupliqué et envoyé dans les différents autres protocoles. B. Approche du middleware (intergiciel) PeerBus Cette approche défini un middleware p2p qui fait abstraction de la complexité et l'hétérogénéité des systèmes sous-jacents p2p avec leurs multitudes de services, de protocoles et d'applications. PeerBus se concentre sur ( 46 )

49 l'abstraction des opérations courantes de partage de données(en général partage de fichiers) [6]. La couche middleware de PeerBus est composée d'api communes et des services distribués de partage de données (voir Figure 4). La conversion des messages dans lřapproche PeerBus. Lřarchitecture de PeerBus [6]. La Figure 5 illustre une abstraction hiérarchique des services de partage de données p2p. Abstraction des services de partage de données p2p [6]. Les applications p2p accèdent aux réseaux p2p sousjacents comme un réseau virtuel à travers les API communes (couche 0). De cette manière, l'interopérabilité entre les différents systèmes p2p peut être réalisée en utilisant les services communs de l'api, qui est la partie centrale de la couche middleware de PeerBus. Les services de partage des données basés sur la recherche centralisée, ou bien sur la recherche en largeur d'abord (BFS : Breadth First Search)) ou sur la DHT (Distributed Hash Table) fournissent les abstractions de haut niveau pour les couches sous-jacentes de systèmes p2p [6]. Analyse de l approche PeerBus Comme le montre la Figure 6: la conversion des messages entre quatre systèmes choisis est de 08 messages ; en général pour rendre n réseaux p2p interopérables à lřaide de PeerBus on a besoin dřéchanger 2*n messages. Cela signifie que cette approche est plus efficace que lřapproche Gateway. Avantages Assure lřinteropérabilité. Lřexpansion est possible (pour rendre un nouveau réseau p2p interopérable avec les réseaux déjà existants, il suffit de traduire ses messages vers les messages de Peerbus et inversement de traduire les messages de Peerbus vers les messages de ce nouveau réseau). PeerBus permet l'interopérabilité entre des systèmes p2p différents, y compris les systèmes p2p non structurés et structurés [6]. En tant que middleware, PeerBus est indépendant des systèmes sous-jacents p2p par abstraction de services communs à partir de différents systèmes p2p [6]. Réduction du nombre de messages échangés pour assurer lřinteropérabilité par rapport aux autres approches. Inconvénients Le téléchargement multi sources nřest pas pris en charge. Le manque de métadonnées pour identifier des contenus partagés similaires. C. Approche de Proxy (passerelles) Cette approche montre comment, par des moyens de proxy et de correspondance sémantique, il est possible de connecter un réseau P2P comme Edutella avec d'autres systèmes extérieurs à ce réseau [7]. Edutella [8] est un réseau p2p dans lequel les objets dřapprentissage (L.O : Learning Object) sont offerts gratuitement et tout le monde est capable de se joindre à ce réseau. Edutella est construit sur la base de la plateforme JXTA. Afin que plusieurs entités puissent communiquer, il est nécessaire qu'ils s'entendent sur un protocole commun et sur une interface commune. Cette approche est construite sur la base : Des méthodes spécifiées dans l'initiative dřinterface simple de requête (S.Q.I : Simple Query Interface), une norme qui mûrit rapidement, en utilisant sa liaison de service Web [7]. Du langage QEL (Query Exchange Language) [9]. Dans ce système, plusieurs emballages sont mis en œuvre en vue de fournir un accès aux entrepôts les plus courants (bases de données relationnelles ou de systèmes de fichiers RDF, etc.). Le système reçoit ( 47 )

50 une requête dans QEL et la convertit vers le langage de requête locale [7]. Interopérabilité avec proxy Pour garantir lřinteropérabilité, cette approche utilise les Proxy qui sont utilisés pour connecter des pairs dans un réseau p2p avec le monde «extérieur» [7]. Aujourd'hui, de nombreux systèmes fournissent leurs services et ressources via des services Web et les Proxy de cette approche sont conçus pour faire communiquer le protocole JXTA (qui est la base du réseau p2p Edutella) et les autres interfaces via un protocole de service Web basé sur l'interface de requête simple (SQI) [7]. Dans cette approche, on peut prévoir deux scénarios possibles[7]: Un consommateur externe (client) au réseau p2p (le réseau p2p est sollicité) veut interroger le contenu dans le réseau p2p. Par exemple, supposons quřon aimerait offrir le contenu d'un réseau p2p sur un site web. La solution est de transmettre la requête à partir du site Web vers le réseau p2p, par exemple, au moyen des Services Web et de récupérer la réponse avec le même mécanisme. Un fournisseur externe veut offrir un contenu sur le réseau p2p( le réseau p2p via un peer sollicite un autre système). On suppose que les fournisseurs qui ont déjà mis en œuvre une interface basée sur les services Web nřauront pas envie de dépenser le temps et de lřargent dans le développement d'interface propriétaire du réseau. Au contraire, ils aimeraient réutiliser celle qu'ils ont, ce qui faciliterait également son administration. Selon ces deux scénarios (voir Figure 7), il y a deux types différents de proxy. Le premier scénario fait appel à " un proxy consommateur " et le dernier à un "proxy fournisseur". Un proxy consommateur agit comme un médiateur entre un client externe qui veut interroger le réseau et le réseau p2p lui-même. Un proxy fournisseur agit comme un médiateur afin de fournir le contenu d'un fournisseur externe au profit dřun réseau p2p [7]. Mappages sémantiques (Semantic Mappings) Afin d'assurer l'interopérabilité sémantique dans le réseau Edutella, les auteurs ont mis au point un module de réécriture de requêtes (Query Rewriting Module) qui transforme une requête q1 en une requête q2 en fonction de l'ensemble des mappages spécifiées. Ce module est conçu pour fonctionner sur des couples de correspondances sans un schéma unifié ou dans les approches dřintégration selon un schéma local (Local As View) [7]. Comme le montre la Figure 10, pour rendre quatre systèmes p2p interopérables nous avons besoin dřéchanger 08 messages. En général, pour rendre n réseaux p2p interopérables on a besoin dřéchanger 2*n messages. Cela signifie que cette approche est plus efficace que lřapproche Gateway. La conversion des messages dans lřapproche Proxy. Avantages LřInteropérabilité est assurée. Ouverture de réseau p2p pour le reste du monde en utilisant les Proxies. Utilisation de métadonnées pour identifier des Contenus partagés similaires. Lřimplémentation de cette approche existe. Inconvénients Cette approche permet lřinteropérabilité seulement avec les réseaux p2p à base de JXTA. En cas de panne de lřun des proxies, lřinterconnexion de réseau p2p et lřenvironnement extérieur sera infaisable. D. Approche d index structuré distribué pour le partage de données Cette approche est axée sur la création d'un index global dans un espace de stockage entièrement distribué qui détient des métadonnées structurées sur les données à partager. En outre, cette approche fournit des mécanismes pour l'indexation et la recherche des données, rendant possible l'accès aux données provenant des différents systèmes et applications, offrant ainsi les avantages de partage peer-topeer de fichiers à des systèmes quelconques (réseaux p2p, serveur web, serveur ftp, ) [10]. Architecture de lřapproche de proxy [7]. Analyse de l approche Proxy Architecture du système à base dřindex [10]. Cette approche se base sur la table de hachage distribuée BambooDHT qui a été adaptée pour être utilisée comme la ( 48 )

51 base de lřindex pleinement distribué. En plus, une API a été développée pour implémenter les fonctions de base dřaccès à l'index ainsi que le soutien des extensions de nouveaux utilisateurs ou de nouveaux systèmes spécifiques, visant à fournir l'accès à n'importe quelle application [10]. Le modèle proposé est divisé en trois modules principaux: l'espace dřindex, l'espace de stockage et l'api client. Chaque nœud contient un ou plusieurs modules du système [10]. Comme le montre la Figure 9, le système proposé est très modulaire, car les nœuds participants peuvent prendre un ou plusieurs rôles dans le réseau créé [10]. L'espace d'index est un système de stockage qui distribue dřune manière transparente les métadonnées concernant les fichiers partagés sur un espace distribué, fondée sur la participation des nœuds dans un réseau p2p structuré. Les indices des fichiers partagés sont stockés dans ce module sous la forme de pairs [x, v], où x est l'une des balises utilisées pour rechercher un fichier, et v son descripteur sérialisé en format RDF. Le descripteur dřun fichier contient des informations comme le prénom et le nom de l'auteur, le titre du fichier, le format, la taille, l'année de publication et un ou plusieurs emplacements où il peut être trouvé [10]. Le module de l'espace de stockage est responsable du stockage des fichiers partagés et offerts par l'intermédiaire des protocoles tels que HTTP, FTP, BitTorrent, etc. [10]. Le module API client est fourni sous forme dřune logithèque qui contient les fonctions de base pour accéder au dépôt. Cette API fournit une couche d'abstraction des mécanismes de téléchargement des fichiers, ce qui permet aux utilisateurs de sélectionner une méthode de téléchargement personnalisée en cas de besoin[10]. Analyse de l approche d index structuré distribué Cette approche nřutilise pas de conversion de messages, car tous les messages échangés sont des messages H-p2pSIP. Les super peers jouent le rôle dřaiguilleurs des messages vers un autre peer du même domaine ou vers un autre super Peer du niveau interconnexion, si la ressource appartient à un domaine différent. Avantages Ouverture de réseau p2p au reste du monde on utilisant lřindex distribué. Evite de dépenser le temps et lřargent dans le développement d'interface propriétaire du réseau. Visibilité de toutes les sources qui détiennent une copie de la ressource recherchée. Gain de temps : Au lieu de chercher les ressources, on consulte directement lřindex. Lřindex réalisé bénéficie des avantages des réseaux p2p structurés (évolutivité, robustesse, fiabilité et organisation). Les résultats de recherches sont plus fructueux vu quřon peut utiliser plusieurs descripteurs dans la recherche (nom dřauteur, mot clé, etc.) au lieu de se limiter seulement au nom du fichier. Cette approche améliore la disponibilité des données, en offrant l'interopérabilité entre les différents protocoles de communication de réseaux et entre les réseaux p2p [10]. Lřexpansion est possible (un système quelconque peut référencier ces ressources sur lřindex distribué). Utilisation de métadonnées pour identifier des Contenus partagés similaires. Inconvénients Lřindex fait référence à des ressources de plusieurs types ; alors que lřutilisateur peut se restreindre à un type donné (media, logiciel, service, ) ce qui augmente le temps de recherche dřune ressource. E. Approche d'interconnexion de réseaux peer-to-peer structurés avec une topologie hiérarchique Cette approche permet de rendre interopérable des réseaux p2p structurés et cela à lřaide de H-p2pSIP qui définit un réseau logique composée de deux niveaux de hiérarchie, un exemple est donné dans la Figure 12. Le but de cette hiérarchie à deux niveaux est de permettre l'échange d'informations entre les différents domaines de réseaux DHT. Le niveau inférieur est composé de différents domaines qui veulent échanger des informations entre eux. Chaque domaine est indépendant des autres et, par conséquent, les pairs dans chaque domaine implémentent un réseau DHT selon les préférences du domaine. Ainsi, le réseau DHT peut être différent dřun domaine à autre. D'autre part, le niveau supérieur est composé d'un seul réseau logique DHT, nommé réseau logique dřinterconnexion qui offre un service semblable à un service d'annuaire entre les différents domaines depuis le niveau inférieur de la hiérarchie. Le but de ce niveau d'interconnexion est d'acheminer les requêtes entre les différents domaines lorsquřun pair d'un domaine veut récupérer des informations stockées dans un autre domaine. Ce niveau d'interconnexion peut être basé sur n'importe quel réseau logique DHT [11]. Afin de soutenir ces fonctionnalités, H-p2pSIP utilise un espace hiérarchique des identifiants composés de Hierarchical-IDs. Un identifiant hiérarchique-id contient deux identifiants concaténés: un préfixe-id et un suffixe-id [11]. Architecture du système à base dřindex [11]. Le préfixe-id est utilisé pour acheminer (router) les requêtes dans le niveau d'interconnexion entre les différents domaines. Cela implique que tous les pairs et toutes les ressources appartenant au même domaine partagent le même préfixe-id. D'autre part, le suffixe-id est utilisé seulement dans le domaine auquel appartient un pair (peer) et permet de localiser n'importe quelle ressource dans le réseau de ce domaine. Ainsi, cette conception permet le routage des requêtes entre les différents domaines. Lors de la recherche d'une ressource dans un autre domaine, la requête est dirigée ( 49 )

52 vers le domaine souhaité en utilisant le préfixe-id. Enfin, la ressource désirée dans le domaine externe est trouvé par l'intermédiaire du suffixe-id [11]. Analyse de l approche H-p2pSIP Cette approche nřutilise pas de conversion de messages, car la recherche se fait par accès lřindex. Avantages Assure lřinteropérabilité entre des réseaux p2p structurés. Les applications p2p peuvent accéder aux ressources des différents systèmes p2p de manière transparente. Lřimplémentation de cette approche existe. Inconvénients H-p2pSIP permet l'interopérabilité seulement entre des systèmes p2p structurés. Ne prend pas en charge le téléchargement multi sources. Le manque de métadonnées pour identifier des Contenus partagés similaires. F. L approche à base de la plateforme JXTA Divers projets P2P sont disponibles sur Internet, ils offrant des services de recherches distribuées temps réel (ex : Distributed Hash Table, Query Flooding,...), des services de mise de partage temporaire d'information (ex : Gnutella[12], edonkey[13], Kazaa[14],...), des services de calculs distribués (ex : SETI home[15],...), des services de messagerie instantanée (ex : Jabber[16], MSN Messenger[17], ICQ[18],...), ou des services de distribution du stockage de fichiers (CFS [19], PAST [20], OceanStore [21], Ivy [22], Freenet [23],...). Ces services sont conçus de manière à, utiliser au mieux les ressources disponibles sur l'internet telles que la bande passante, le temps de calcul et l'espace de stockage. Malgré leurs bonnes intentions, ces solutions pèchent par leur hétérogénéité et leur non-interopérabilité. Pour cette raison, Sun Microsystem a proposé un framework P2P pour tenter de résoudre ce problème d'hétérogénéité et de non interopérabilité lié aux diverses implémentations P2P : le framework JXTA. Au commencement, ce framework était fermé mais, par la suite, Sun a décidé de le rendre Open Source de manière à, le rendre plus populaire auprès des développeurs et utilisateurs en vue d'en assurer le succès [24]. Le but du Framework JXTA est de créer une plateforme qui permet de construire un grand ensemble de services et dřapplication distribuées pour tout dispositif qui pourrait être un peer. JXTA permet, entre autre, aux développeurs de se concentrer sur le développement de leurs applications [24]. L'interopérabilité constitue le premier objectif du framework JXTA et vise essentiellement à simplifier l'interconnexion, la localisation et la communication entre les peers d'un système P2P. L'idée sous-jacente est de permettre à ces peers d'offrir de manière la plus transparente possible des services et de participer plus aisément aux activités proposées par les différentes communautés P2P [24]. Analyse de l approche JXTA Le but de JXTA est donc de devenir un standard dans ce domaine évitant de plus, de réinventer la roue à chaque développement. Et par là en rend tous les applications à base de JXTA interopérable. JXTA nřest pas une approche dřinteropérabilité, mais parmi ses objectifs et ses points forts on trouve lřinteropérabilité. Cette approche nřutilise pas de conversion de messages, car toutes les applications sont conçues à base de JXTA. Avantages Assure lřinteropérabilité entre les applications p2p basé sur JXTA seulement. prise en charge de plusieurs services de réseaux p2p (partage de fichiers, Messagerie Instantanée,.) Inconvénients lřinteropérabilité se confine aux applications p2p basé sur JXTA. Ne prend pas en charge les réseaux structurés. Le manque de métadonnées pour identifier des Contenus partagés similaires. V. COMPARAISON ENTRE LES APPROCHES D'INTEROPERABILITES DES RESEAUX P2P Dřaprès nos études sur lřinteropérabilité des réseaux p2p, nous avons constaté que ce domaine est peu étudié. De plus, il nřexiste pas dřétudes qui ont évaluées ces différentes approches dřinteropérabilité de réseau p2p. Pour ces raisons, on a ressenti le besoin de comparer les différentes approches dřinteropérabilité de réseau p2p. A. Critères de comparaison La majorité des approches dřinteropérabilité de réseaux p2p nřont pas dřimplémentations ce qui rend la tâche de leur comparaison très difficile. Pour pouvoir établir des comparaisons entre ces différentes approches, nous proposons de prendre en compte les critères suivants qui sont en majorité en relation avec les caractéristiques des réseaux p2p: Type dřarchitecture : Architecture p2p décentralisée, architecture p2p centralisée, architecture p2p hybride (avec Super-peers), et architecture structurée (utilisation de DHT). Types de services des réseaux p2p à rendre interopérables (partage de fichiers, Messagerie Instantanée, Streaming, ). Méthodes de recherche utilisées dans les réseaux p2p tel que : Les index centralisés (architecture p2p centralisée) ; Les index distribuée (architecture p2p hybride) ; modèle dřinondation de requêtes (architecture p2p décentralisée) ; modèle de routage de documents (architecture structurée). Nombres de messages échangés entre n systèmes p2p pour assurer lřinteropérabilité entre eux. Type de téléchargement de fichiers: Téléchargement à partir dřune source unique, téléchargement multisources et téléchargement segmenté multi-sources. Interopérabilité avec dřautres systèmes non p2p (par exemple avec serveur web ou avec serveur ftp). ( 50 )

53 Existence dřimplémentation : Existence dřimplémentation et dřévaluation de lřapproche proposée. Comparaison La comparaison ( TableauI) a révélé que certaines approches prennent en charge tous les types dřarchitectures, certaines dřautres sont conçues pour des architectures spécifiques telles que lřapproche proxy qui est prévu seulement pour les réseaux à base de JXTA et lřapproche H- p2psip qui prend en charge seulement les réseaux p2p structurés. Le service pris en charge par ces différentes approches dřinteropérabilité est le service de partage de fichier ; seule lřapproche H-p2pSIP en plus du partage de fichier, elle prend en charge le service de messagerie instantanée (M.I). Concernant le nombre de messages échangés pour garantir lřinteropérabilité entre N systèmes p2p, et dřaprès le Tableau I; on constate que lřapproches PeerBus et lřapproche Proxy sont très intéressantes vis-à-vis du nombre de messages nécessaires pour garantir lřinteropérabilité, car ces approches font des conversions vers un standard qui joue le rôle de pivot. Le type de téléchargement utilisé dans la plupart des approches est le téléchargement dřune source unique, alors que le téléchargement segmenté multi-sources est assuré seulement par lřapproche Index, ce type de téléchargement est très intéressant pour améliorer le temps de téléchargement. Certaines approches sont conçu pour assurer lřinteropérabilité entre seulement des réseaux p2p, alors que dřautres approches assure en plus de cela lřinteropérabilité entre des systèmes p2p et dřautres systèmes (Web, ftp,..). La majorité des approches dřinteropérabilités de réseaux p2p nřont pas été implémenté, à lřexception de lřapproche Proxy et lřapproche H-p2pSIP, ce qui rend lřévaluation des autres approches non implémenté difficile. VI. SYNTHESE Cette étude nous a permet dřexplorer lřinteropérabilité de réseaux p2p ; ainsi que les différentes approches proposées ; nous avons analysés ces différentes approches ; dřaprès le tableau qui résume la comparaison entre ces différentes approches et on favorisant les critères dřexistence dřimplémentation et de types dřarchitecture on peut dire que les approches les plus intéressantes sont : lřapproche des index ; vu quřelle permet de savoir si une ressource existe dans tous les réseaux à lřaide de lřindex distribué et cela avant de solliciter la ressource ;après cela vient lřapproche HP2PSIP ; qui définit deux niveaux dřinterconnexion ; le premier inter domaine et le deuxième au niveau de chaque domaine ; cette approche prend en charge les réseaux mobiles; mais ne prend en charge que lřinteropérabilité entre les réseaux structurés ; après cela vient lřapproche des proxy qui permet la conversion des requêtes venant de lřextérieur via des messages web services vers JXTA ; mais JXTA ne sřimpose pas encore comme standard ; cela rend cette approche inefficaces pour les réseaux qui sont pas basées sur JXTA ; lřintérêt major de cette approche est la prise en charge de lřaspect sémantique pour la description des ressources via la réécriture des requêtes en prenant en compte lř aspect sémantique; Après cette approche on favorise lřapproche peerbus qui définit un interlogiciel qui fournit des APIs standard permettant dřassurer le routage des messages et lřaccès aux états de routage ; lřinconvénient de cette approche est lřinexistence de lřimplémentation et le manque de détails de synergie (scénario) dřutilisation de cette approche ; son avantage cřest la prise en charge de toutes les architectures des réseaux p2p ; Enfin vient en dernier lřapproche Gateway ; qui permet à lřaide de conversion biunivoque dřassurer lřinteropérabilité entre deux réseaux p2p ; cette méthode devient trop lourd lors de lřaccroissement des réseaux p2p à rendre interopérables. Concernant lřapproche JXTA et dřaprès nos recherches on a trouvé aucune étude qui expose lřinteropérabilité réalisé entre des applications p2p à base de JXTA. VII. CONCLUSION Dans cet article, nous avons pu constater quřil y a peu dřapproches pour assurer lřinteropérabilité entre les réseaux p2p (à notre connaissance on dénombre six approches), en plus il nřexiste pas des évaluations de ces approches. Pour accomplir cette tâche nous avons procéder à lřétude et lřanalyse de ces approches, ensuite nous avons procéder à la comparaison de ces approches. Comme perspective a cette etude on propose de concevoir et de realiser des simulateurs qui permettent de tester ces differentes approches dřinteroperabilites ce qui nřexiste pas actuelement COMPARAISON ENTRE APPROCHES DřINTEROPERABILITE DE RESEAUX P2P Approche Gateway Approche PeerBus Approche Proxy Type d architecture Centralisée et décentralisée Tous les types dřarchitectures Architecture basé sur JXTA Type de service Partage de fichiers Partage de fichiers Partage de fichiers Méthodes de recherche - Les index centralisés. - Modèle dřinondation de requêtes - Les index centralisés. - Modèle dřinondation de requêtes. - Modèle de routage de documents(dht). Recherche à lřaide de service web. nombre de messages échangés N*(N-1) 2*N 2*N Type de téléchargement téléchargement source unique téléchargement source unique téléchargement source unique Interopérabilité avec d autre système Seulement avec système p2p Seulement avec système p2p Interopérable avec systèmes p2p et avec les autres systèmes (serveurs Implémentation -Difficile et risque dřexplosion combinatoire. - Lřimplémentation nřexiste pas. - Facile (APIs communes). - Lřimplémentation nřexiste pas. - Basée sur lřutilisation de service Web. - Lřimplémentation existe (assure lřinteropérabilité ( 51 )

54 Approche Index Approche H-p2pSIP Approche JXTA Tous les types dřarchitectures Réseaux structurés Architecture basé sur JXTA Partage de fichiers Partage de fichiers, M.I Partage de fichiers, M.I Modèle de routage de documents(dht). Modèle de routage de documents(dht). Recherche via les rendez vous (fichier descripteur de resource en XML) Il nřy a pas de conversion Il nřy a pas de conversion Il nřy a pas de conversion téléchargement segmenté multisources Non indiqué Non indiqué web, serveurs ftp, ) Interopérable avec systèmes p2p et avec les autres systèmes (serveurs web, serveurs ftp, ) Seulement avec système p2p Seulement avec système p2p à base de JXTA entre réseau p2p à base de JXTA et serveur Web. - Lřimplémentation existe, mais assure lřinteropérabilité entre des applications non p2p ; tel que serveurs http, ftp ou autres. - Lřimplémentation existe sous forme de simulation. Lřimplémentation nřexiste pas. REFERENCES [1] Standards Information Network. IEEE 100, the Authoritative Dictionary of IEEE Standards Terms, Seventh Edition. New York, NY, IEEE, [2] Standard Computer Dictionary- A Compilation of IEEE Standard Computer Glossaries. NY ISBN: , [3] ISO/IEC Information technology Vocabulary. Part 1: Fundamental terms. ISO/IEC, Geneva, Switzerland, [4] NATO Allied Data Publication 34 (ADatP-34). NATO C3 Technical Architecture (NC3TA), Version 4.0, [5] Siu Man Lui et Sai Ho Kwok.Interoperability of Peer-To-Peer File Sharing Protocols. ACM SIGecom Exchanges, Vol. 3, No. 3, August 2002, Pages [6] Xu, L., Zhou, S., Zhao, K., Qian, W., Zhou, A. PeerBus: A Middleware Framework towards Interoperability among P2P Data Sharing Systems. In: Li, M., Sun, X-H., Deng, Q., Ni, J. (eds.): Proceeding of the 2nd International Workshop in Grid and Cooperative Computing (GCC 2003) (Shanghai, China, December 7-10, 2003), Lecture Notes in Computer Science, vol Springer- Verlag, Berlin Heidelberg (2003), pp [7] Daniel Olmedilla, et Matthias Palme r. Interoperability for Peer-to- Peer Networks: Opening P2P to the rest of the World. May [8] W. Nejdl, B. Wolf, C. Qu, S. Decker, M. Sintek, A. Naeve, M. Nilsson, M. Palmer, and T. Risch. Edutella: A P2P networking infrastructure based on RDF. jun [9] M. Nilsson and W. Siberski. RDF query exchange language (QEL) - concepts, semantics and RDF syntax [10] Evandro S. Rezende, Evgueni Dodonov, Roberta S. Ulson, Marcos A. Cavenaghi, Renata S. Lobato, "Towards Interoperability in P2P World: An Indexing Middleware for Multi-protocol Peer-to-Peer Data Sharing," ICIW, pp , 2009 Fourth International Conference on Internet and Web Applications and Services, [11] Isaias Martinez-Yelmo; Design and evaluation of interconnecting structured peer-to-peer networks with a Hierarchical topology; university CARLOS III de Madrid; Mars [12] Community, G. : (Gnutella community website) [13] edonkey : (edonkey 2000) [14] Kazaa media desktop. [15] Institute, S. : (SetiOhome) [16] Foundation, J.S. : (Jabber) jabber.org/. [17] Microsoft : (Msn messenger) s senger. fr.msn.be/. [18] ICQ : (Icq) [19] Dabek, F., Kaashoek, M.F., Karger, D., Morris, R., Stoica, I.: Widearea coopera tive storage with CFS. In: Proceedings of the 18th ACM Symposium on Operating Systems Principles (SOSP '01), Chateau Lake Louise, Banff, Canada (2001) [20] Rowstron, A.I.T., Druschel, P. : Storage management and caching in PAST, a large-scale, persistent peer-to-peer storage utility. In : Symposium on Operating Systems Principles. (2001) [21] Kubiatowicz, J., Bindel, D., Chen, Y., Eaton, P., Geels, D., Gummadi, R., Rhea, S., Weatherspoon, H., Weimer, W., Wells, C., Zhao, B.: Oceanstore : An architecture for global-scale persistent storage. In: Proceedings of ACM ASPLOS. (2000) [22] Muthitacharoen, A., Morris, R., Gil, T.M., Chen, B. : Ivy : A read/write peer to peer file system. In: Proceedings of 5th Symposium on Operating Systems Design and Implementation. (2002) [23] Clarke, I., Hong, T.W., Miller, S.G., Sandberg, O., Wiley, B. : Protecting free expression online with freenet. IEEE Internet Computing 6 (2002) [24] Quentin Dallons; JXTA : Un Framework Peer-to-Peer Open Source; qdallons@info.fundp.ac.be; Institut d'informatique FUNDP; Namur, Belgique ; ( 52 )

55 Intégration d'un Module Morpho-lexical à partir du système Nooj dans une Plateforme d'analyse de Textes en Arabe standard Mourad LOUKAM Natural Language Processing Team, LMA Laboratory, Faculty of Sciences, Hassiba Benbouali University of Chlef, Algeria Amar BALLA LMCS Laboratory, High School of Computer Science, Algiers, Algeria Mohamed Tayeb LASKRI LRI Laboratory, Faculty of Sciences, Badji Mokhtar University of Annaba, Algeria Résumé Le traitement automatique de la langue Arabe pose de multiples défis à la Recherche en raison des nombreuses spécificités de la langue et la complexité de sa structure. Nous travaillons sur le développement d'une plateforme d'analyse de textes en Arabe standard, en utilisant le formalisme HPSG. L'intégration de ressources libres existantes fait partie de notre stratégie de développement. L'objet de cet article est de décrire une expérience d'intégrer un module morpho-lexical à partir du système open-source Nooj, développé à l'université Franche Comté (France). Nous décrivons l'apport de ce travail, son originalité et les défis auxquels nous avons été confrontés. Keywords Analyse de textes, Arabe standard, HPSG, NOOJ, Ressources linguistiques, TALN I. INTRODUCTION Le traitement automatique de la langue Arabe connait ces dernières années un intérêt important. Ainsi, beaucoup d'applications ont été initiées ou développées pour cette langue, comme : la traduction automatique, la recherche d'information, l'extraction de connaissances, la synthèse de textes, la classification de textes, l'identification thématique, la fouille d'opinions,... etc. Pour être performantes, toutes ces applications doivent relever de multiples défis posés par les phénomènes complexes inhérents à la structure de la langue Arabe elle-même et ses nombreuses spécificités [1]. Par ailleurs, Ces applications sont confrontées à un problème crucial : c'est celui du manque de ressources diverses, notamment les outils logiciels d'analyse des différents éléments d'un texte, qui doivent être mis en évidence pour être utilisés par ces applications. Nous contribuons aux efforts de doter la langue Arabe de ressources logicielles en travaillant sur le développement d'une plateforme d'analyse de textes en Arabe standard, en utilisant le formalisme des grammaires syntagmatiques guidées par la tête (Head driven Phrase Structure Grammar, HPSG) [2]. L'objet de cette plateforme est d'offrir un environnement intégré permettant d'avoir toutes les ressources nécessaires à la chaine d'analyse d'un texte Arabe. Dans cet article, nous présentons une expérience d'intégration d'un module d'analyse morpho-lexicale fait à partir du système open-source Nooj, développé à l'université de Franche Comté (France). L'originalité du travail réside dans l'utilisation des fonctionnalités de Nooj, qui n'a pas été fait spécialement pour les grammaires d'unification comme HPSG, dans le processus d'analyse complet de notre plateforme. Nous verrons que cette intégration permet d'améliorer sensiblement le processus global d'analyse. En revanche, elle pose plusieurs défis à relever, comme le problème d'interfaçage entre les deux systèmes ainsi que l'hétérogénéité des formats de données. II. MOTIVATIONS Nous travaillons sur le développement d'une plateforme d'analyse de textes Arabes, en se basant sur le formalisme des grammaires syntagmatiques dirigées par la tête (Head driven Phrase Structure Grammar, HPSG) [3]. En effet, nous pensons que le traitement automatique de l'arabe ne doit pas viser uniquement le développement d'un "amas" d'applications logicielles, mais doit se faire dans le cadre d'une théorie linguistique qui en assure le cadre formel. Notre choix s'est porté sur le formalisme HPSG en raison des multiples avantages qu'il offre notamment : - HPSG hérite de plusieurs formalismes théoriques antérieurs (GPSG, TAG, LFG ) tout en profitant de leurs avantages et en prenant compte leurs insuffisances. - HPSG opte pour la richesse de la représentation des unités linguistiques : les informations morphologiques, syntaxiques et même sémantiques se retrouvent ensemble dans une même structure, appelée la structure de traits (features structure). - Pour HPSG, le processus dřanalyse se base sur lřunification. - HPSG utilise un ensemble réduit des règles (schémas) pouvant être appliquées, en principe, à toutes les langues. - HPSG semble bien adapté au traitement informatique, dont il reprend directement certaines idées (héritage, typage). Lřanalyse dřun texte sous HPSG, consiste à «trouver» la tête (lřélément recteur ou dominant) qui orientera ensuite lřanalyse vers le dépistage des autres éléments. Bien souvent, il sřagit évidemment dřun véritable défi pour la recherche, notamment pour les phrases contenant des structures plus ou moins complexes (passives, interrogatives, relatives, coordination, ) et dont lřanalyse est réputée difficile. III. TRAVAUX CONNEXES Les travaux sous HPSG peuvent être classés en deux catégories : ceux relevant du domaine de la modélisation et ceux se focalisant plutôt sur lřimplémentation. ( 53 )

56 La modélisation vise à proposer une analyse dřun phénomène linguistique donné (phrase passive, interrogative, relative, coordination, etc.) en formalisme HPSG. On trouvera dans les proceedings du symposium annuel sur HPSG ( lřensemble des travaux de cette catégorie, proposant des analyses dřune multitude de phénomènes linguistiques pour plusieurs langues (par exemple voir [4-5]). Lřimplémentation a plutôt pour objectif la mise en œuvre dřoutils et dřapplications visant à produire des analyses automatiques conformes aux concepts de HPSG dans le but de les tester et de les valider. On peut classer dans cette catégorie, les outils suivants : - LKB (Linguistic Knowledge Building): est un système de développement grammatical créé par Ann Copestake et son équipe à lřuniversité de Cambridge ([6]). Cet outil nřa pas été conçu spécialement pour les grammaires HPSG, mais il sřagit dřune plateforme de développement pour lřimplémentation de toute une famille de grammaires dřunification typées et structurées en traits. - TRALE : est une plateforme dřimplémentation de grammaires HPSG, issue du projet MiLCA et développée à lřuniversité de Breme (Allemagne). Elle a été utilisée pour abriter CoreGramm un projet visant à contenir un noyau grammatical composé d'un ensemble de langues (Allemand, Anglais, Persan,..). - Matrix : une plateforme expérimentale, soutenue par près dřune quinzaine laboratoires de recherches, pour le développement rapide de nouvelles grammaires inspirée des premières grammaires LKB (anglais, japonais, allemand). Il sřagit dřun noyau grammatical universel proposant une signature de base (types généraux, types lexicaux simples, règles de combinaison) et un ensemble de modules paramétrés (questions, négation, coordination, etc.) qui permettent alors de «générer» une analyse sous forme de grammaire typée. - Enju : un analyseur syntaxique HPSG pour lřanglais, développé au Tsujii laboratory de lřuniversité de Tokyo. Il est doté dřune grammaire de large couverture qui a été testée sur des modèles probabilistes, notamment dans le domaine biomédical. ([7]). En ce qui concerne le traitement de lřarabe standard, parmi les rares travaux qui prennent comme cadre de travail le formalisme HPSG, nous pouvons citer le système Maspar ([8]) développé à lřuniversité de Sfax. IV. LE PROJET PHARAS Le projet PHARAS (Plateforme dřanalyse basée sur le formalisme Hpsg pour lřanalyse de lřarabe Standard) a pour objectif de développer une plateforme intégrée offrant toute la chaîne de traitement dřun texte arabe en vue dřobtenir son analyse selon le formalisme HPSG. Lřoriginalité du projet est de proposer une plateforme dřanalyse conçue sur la base dřune intégration des principaux modules concernés par la chaîne dřanalyse dřun texte arabe. Et ce contrairement aux outils cités précédemment qui se focalisent sur un module donné de l'analyse et font abstraction des autres. Lřobjectif premier de la plateforme est de produire une analyse en format HPSG dřun texte en arabe standard. Depuis le départ, nous avons privilégié l'ouverture et l'orientation "open-source" pour la conception de la plateforme. Lřouverture signifie faire en sorte, autant que possible, que les différentes ressources du système (paramètres, système de signes, de règles, dictionnaires ), soient ajoutées ou modifiées pour permettre le développement dřapplications pour lřarabe sollicitant tout ou partie de la chaîne dřanalyse de la plateforme. A. 4.1 Fonctionnement général Un texte en arabe standard introduit sur PHARAS passe par une série de phases de traitement (voir figure 1). Texte en arabe segmentation Analyse morphologique Génération des AVM Analyse syntaxique Génération des résultats Analyse HPSG (AVM, XML) Figure 1. Fonctionnement général de PHARAS Nous pouvons les résumer ainsi : 1. Phase de segmentation du texte : le texte est décomposé en «mots». 2. Phase dřanalyse morphologique : Après avoir segmenté le texte, on soumet chacun des items rencontrés à une analyse morpho-lexicale. 3. Phase de génération des matrices attribut / valeur HPSG : Cette phase est réalisée par lřanalyseur morpho-lexical. Elle consiste à générer, pour chaque item, sa structure de traits sous la forme dřune matrice attributs-valeurs (AVM). 4. Phase dřanalyse syntaxique: Lřanalyse syntaxique en HPSG se base principalement sur lřapplication du processus dřunification. Il opère sur des structures de traits (AVM) des entrées lexicales des différents mots, déjà générées lors de la phase précédente, ainsi que sur les règles syntaxiques (schémas). 5. Phase de production des résultats : il sřagit de présenter sous forme concrète (AVM ou XML) la représentation syntaxique et sémantique du texte analysé. B. 4.2 Architecture générale Lřarchitecture de PHARAS repose sur lřinterconnexion de plusieurs sous-systèmes faisant intervenir des ressources et des outils divers (voir figure 2). Nous faisons ci-après une description de cette architecture. Le sous-système dřanalyse morpho-lexicale : après un prétraitement appliqué au texte dřentrée (segmentation), ce système réalise lřanalyse morpho-lexicale des éléments du texte. Le sous-système «signes et règles HPSG» : Ce soussystème est représenté par la signature HPSG retenue, la hiérarchie de types ainsi que les règles à appliquer. Il est composé de trois fichiers : le fichier «Types», le fichier «Règles» et le fichier «Lexique». Dans le fichier «Types», on définit la hiérarchie des types utilisés pour décrire les traits. Rappelons que cette ( 54 )

57 hiérarchie joue un rôle primordial en HPSG puisquřelle constitue elle-même un ensemble de contraintes sur les structures de traits. Dans le fichier «Lexique», on stocke toutes les entrées lexicales (verbes, noms, adjectifs, particules) déjà rencontrées ou analysées. Dans ses premières versions, l'analyse morpho-lexicale était réalisée par un module utilisant un système expert dont les règles codaient les règles morphologiques de la langue Arabe [9] (figure 2). Les avantages de cette méthode étaient l'ouverture et la modularité : il était possible à tout moment d'ajouter ou de modifier une règle morphologique sans modifier le code du système expert. Mais l'inconvénient était le nombre important de règles (plusieurs centaines) pour prendre en charge tous les phénomènes morphologiques de la langue Arabe. Dans cet article, nous présentons une expérience d''intégration d'un module morpho-lexical à partir du système libre Nooj (figure 3). Le but recherché est la réutilisation du logiciel et ses fonctionnalités en rapport avec la morphologie de la langue Arabe. Analyseur morpho-lexical Signature et règles HPSG Texte en arabe standard Base des connaissances morphologiques Moteur d inférence Représentation 1 Types Règles Lexique Système expert Module d analyse syntaxique Texte en arabe standard Module de génération Représentation 2 Module de production des résultats Plateforme Pharas, 2012 Analyse HPSG (AVM, XML) Figure 2. Premières versions de PHARAS : L'analyse morpho-lexicale était faite par un système expert. Analyseur morpho-lexical Signature et règles HPSG Texte en arabe standard Nooj Représentation 1 Types Règles Lexique Module d analyse syntaxique Texte en arabe standard Module de génération Représentation 2 Module de production des résultats Plateforme Pharas, 2015 C. 4.3 Introduction au système Nooj Analyse HPSG (AVM, XML) Figure 3. Objet de l'actuelle expérience : L'analyse morpho-lexicale est faite avec un module fait à partir de Nooj NooJ est un environnement de développement linguistique open-source, développé à l'université de Franche Comté en France ( Il permet de construire des ressources pour des langues naturelles, sous forme de dictionnaires et de grammaires électroniques, et les utiliser dans des applications du TALN [10]. Nooj est utilisé actuellement pour plus d'une vingtaine de langues, dont l'arabe. Une Conférence internationale annuelle lui est réservée pour présenter des travaux d'utilisation de ce système pour les différentes langues [11-19]. Actuellement, pour la langue Arabe, les ressources existantes sont les suivantes(source - Noms communs : plus de Verbes : plus de Adjectifs : plus de Particules : plus de Noms propres : plus de Parmi les principaux modules existant dans Nooj, nous pouvons citer : - Création de ressources lexicales : le logiciel permet de créer des dictionnaires spécifiques pour chaque langue contenant les éléments de la langue comme les formes fléchies ou dérivées et devant être utilisées dans le processus d'analyse. La création se fait à partir d'automates en suivant des paradigmes flexionnels et dérivationnels. - Analyse morphologique et syntaxique d'un texte : le logiciel permet de lancer l'analyse morpho-lexicale d'un ( 55 )

58 texte. Pour notre expérience, nous ne sollicitons que l'analyseur morpho-lexical de Nooj. - Traitement de corpus : le logiciel permet de construire des corpus en vue de leur étude. - Interrogation de textes : le logiciel permet la localisation et la recherche d'éléments dans un texte en utilisant des grammaires restreintes ou des expressions régulières. V. MODELISATION DE LA MORPHOLOGIE DE LA LANGUE ARABE Le traitement morpho-lexical dans le système Nooj nécessite la construction d'un dictionnaire contenant tous les lemmes (éléments) de la langue : lemme de base sous la forme d'un nom ou d'un verbe, formes fléchies, formes dérivées,...etc. Dans ce qui suit, nous décrivons sommairement la formalisation des éléments du processus d'analyse morphologique. A. 5.1 Construction du dictionnaire des lemmes La construction du dictionnaire des lemmes, qui constitue le pilier de l'analyse morphologique, se décline en 4 étapes essentielles (figure 4) : Etape 1 : Etablir le fichier de définition des propriétés (.def). Ce fichier est le premier composant à mettre en œuvre lors de lřétape de construction du dictionnaire. Il contient les différents codages attribués à lřensemble des catégories grammaticales et à lřensemble des traits morphologiques correspondant au lexique de la langue Arabe. Etape 2 : Etablir les grammaires de flexion et de dérivation qui vont permettre de générer les formes fléchies et les formes dérivées à partir des lemmes de base qui sont les verbes et les noms. Etape 3 : Remplir le fichier de dictionnaire des lemmes de base comme les verbes, les noms. Ces éléments vont servir de point de départ pour générer les autres formes fléchies ou dérivées. Par exemple l'introduction du verbe kataba /ك ر ة (il a écrit) permettra de générer toutes ses formes fléchies ك ر ث د /katabat (elle a écrit) katabu /ك ر ث ا (ils ont écrit),...etc. Etape 4 : Générer le dictionnaire des lemmes proprement dit (on dit aussi compilation) qui génèrent toutes les formes fléchies et dérivées. Fichier de définition des propriétés (.def) Fichier des automates (.nof) Genération Fichier des lemmes de base (.dic) B. 5.2 Codage des catégories grammaticales Nous décrivons ci-après les éléments du lexique devant être pris en compte et codifié pour l'analyse morpholexicale. Nous avons retenu le même codage des catégories grammaticales existant actuellement pour la langue Arabe dans le système Nooj [20]. Catégorie de base : Les catégories grammaticales de base sont au nombre de cinq (Table 1) : Figure 8. LES CATEGORIES GRAMMATICALES DE BASE Catégorie Code Exemples األفؼال Verbes V ك ر ة, ق ز أ األط اءNoms ك ر اب, ي ؼ ه ى N انص فاخAdjectifs ص غ ز, ج م ADJ ادذ, إث ا NOMBRE األػذاد Nombres يذ ذ, ػ ز PROP أط اء انؼهى Noms Propres Catégories des Formes dérivées : Elles sont considérées comme des sous catégories des noms dont elles sont dérivées (Table 2) : Figure 9. LES SOUS-CATEGORIES DERIVEES DES NOMS Sous-Catégorie Code Exemples Le participe actif إطى انفاػم PA د اك ى, ػ اي م Le participe passif ي ج ل, PP إطى ان فؼ ل ي كظ ر Le nom de préférence إطى انرفض م PREF أ كثز, أصغز Le nom de lieu/temps يص غ, LIEU/TMP ظزف انشيا ان كا ي ػذ Le nom dřinstrument إطى ا نح INST ي فراح, ي شار Catégorie de formes invariables : Correspondent aux pronoms, adverbes,...etc. (table 3). Figure 10. LES SOUS-CATEGORIES DES ELEMENTS INVARIABLES Sous-Catégorie Code Exemples Les pronoms personnels isolés انض ائز ان فصهح PRON أ ا, أ د, Les pronoms personnels affixés انض ائز ان رصهح PRON+Suff, ا,ك, ى األط اء Les pronoms relatifs ان ص نح REL انذي, انر أط اء Les pronoms démonstratifs اإلشارج DEM ذا, ؤالء د ث ا, ك ف ا, قثم ADV أط اء انضزف Les adverbes اخ, طزػا Les noms verbaux NOM-VERB Fichier des lemmes de la langue Figure 4 : Génération d'un dictionnaire des lemmes de la langue Catégorie correspondant aux particules : Correspondent aux particules de la langue comme les prépositions, les adverbes,...etc (table 4). Figure 11. LES PARTICULES ( 56 )

59 Sous-Catégorie Code Exemples ب, ك, ي PREP دز ف انجز Prépositions Trait Code Premier Personne 1 د ث, ف ق, أ ADV دز ف انظزفadverbes Les, أ, ث ى CONJ دز ف انؼطف Les Conjonctions Les interrogatives دز ف اإلطرف او دز ف ان ف Les négations Les explicatives دز ف انرؼه م دز ف ان ذاء Les vocatives INTEROG NEGAT EXPLIC VOCATIF أ, م, ك ى ال, ي ا, ن ى, ن أ ي ا, أ ا Personne Nombre Genre Deuxième Personne 2 Troisième Personne 3 Singulier s Dual d Pluriel p Masculin m Féminin f دز ف Les particules du futur اإلطرقثال Les conditionnels دز ف انشزط FUTUR COND ص, ط ف إ, ن إال, غ ز EXCEP دز ف اإلطرث اء Les exceptions Les outils de nasb (Verbe) أد اخ صة انفؼم ان ضارع Les outils de Jasm أد اخ جشو انفؼم ان ضارع Les outils de nasb (Nom) أد اخ صة اإلطى V-NASB V-JAZM N-NASB ن, ل إ, ن ى إ أخ اذ ا ال» DEF ال «définition La particule de Prépositions دز ف انجز ب, ك, ي PREP Catégorie correspondant aux expressions figées : Les expressions figées sont représentées dans le dictionnaire telles quřelles sont utilisées dans la langue (table 5). Figure 12. LES EXPRESSIONS FIGEES Sous-Catégorie Code Exemple Expressions figées انؼثارخ انثاترح EXP رئ ض انذ نح C. 5.3 Codage des traits morphologiques Les résultats attendus de l'analyse morpho-lexicale doivent nous renseigner sur les traits reconnus du lemme analysé (verbe ou nom). Ces traits seront, ensuite, récupérés et traduits en format HPSG, dans la plateforme Pharas. Les tables suivantes décrivent les traits significatifs des verbes et des noms et leur codification. Nous avons retenu la même codification existant actuellement pour la langue Arabe dans Nooj [20]. Temps Mode Voix Figure 13. Trait LES TRAITS DU VERBE Accompli Inaccompli Impératif Indicatif Subjonctif Apocopé Voix active Voix passive Code Ps Pr Imp R N J A P Cas Tanwin Nombre Genre Figure 14. LES TRAITS DU NOM Trait Nominatif Accusatif Génitif Nominatif Accusatif Génitif Singulier Dual Pluriel Masculin Féminin Code À ces traits morphologiquespeuvent sřajouter dřautres traits optionnels, portant des informations syntaxiques ou sémantiques, comme [20] : Figure 15. Trait Transitif Transitif indirect Intransitif u a i un an in s d p m CODIFICATION DES TRAITS SYNTAXIQUES Code Tr TrInd InTr D. 5.4 Les opérateurs de transformations morphologiques NooJ offre des opérateurs génériques de transformations morphologiques permettant la construction d'un lemme quelconque à partir d'un lemme de base, et plus généralement de construire toutes les formes fléchies d'une racine verbale. Ces opérateurs sont : <L>: déplacement vers la gauche (Left arrow) ; <R>: déplacement vers la droite (Right arrow) ; <B>: suppression du dernier caractère (Backspace) ; <S>: suppression du caractère courant (Suppr) ; <N> : déplacement vers le mot suivant (Next word form) ; <P> : déplacement vers le mot précédent (Previous word form) ; f ( 57 )

60 <D> : duplication du caractère courant (Duplicate) ; <E>: chaîne vide (Empty string) ; Ces opérateurs peuvent utiliser un argument : un nombre ou "w". Le nombre indique le nombre de caractères sur lesquels s'appliquent l'opérateur, et "w" indique l'une des extrémités du lemme. Par exemple : <B2>: suppression des deux derniers caractères ; <L3>: déplacement à gauche, de trois caractères ; <LW>: aller au début du mot ; <RW>: aller à la fin du mot ; <SW>: suppression à partir de la lettre courante et jusquřau dernier caractère du mot. Par exemple, le mot i`malu /إ ػ ه ا (travaillez) peut être obtenu à partir du lemme de base amala `/ػ م (a travaillé) en appliquant les transformations suivantes : ا< R><S> <R><S> <R><S >إ <LW> E. 5.5 Génération des formes fléchies Les paradigmes flexionnels sont des automates à états finis stockés dans des fichiers (.nof), et peuvent être représentés soit sous un format textuel, ou bien graphique. Lřapplication dřun paradigme flexionnel/dérivationnel à un lemme, consiste à produire la liste des formes fléchies/dérivées correspondant, et lui associer les informations flexionnelles nécessaires. Un paradigme flexionnels/dérivationnels est identifié par un code alphanumérique (ex : Kataba-Accompli, Kataba-Inacc, etc.). La figure 5 donne l'exemple d'un paradigme flexionnel.(فؼم ياض ) d'un verbe à l'accompli Par exemple, considérons la commande : <LW> ا< R><S> <R><S> <R><S >ا /Imp+m+p Elle permet de générer la forme fléchie «ا ك ت ب وا», à partir du lřentrée «ك ت ب», en lui appliquant les transformations suivantes: <LW> : positionner le curseur, initialement placé à la fin du mot «ك ت ب», à la tête du lemme par un déplacement ;» ك ت ب =>«gauche vers la»; ك ت ب ا «=> forme» à la tête de la ا «Insérer»; ت ب اك =>«droit <R>: Sauter une lettre vers la»; ت ب اك => «suivante <S> : Supprimer la lettre»; ت ب ا ك => «muette Insérer la voyelle»; ب ا ك ت =>«droite <R>: Sauter une lettre vers la»; ب ا ك ت => «suivante <S> : Supprimer la lettre»; ب ا ك ت «=>» «muette Insérer la voyelle»; ا ك ت ب =>«droite <R>: Sauter une lettre vers la»; ا ك ت ب => «suivante <S> : Supprimer la lettre»; ا ك ت ب وا «=>» وا» Insérer la voyelle la séquence Ainsi la forme «ا ك ت ب وا» est générée, puis cette forme sera associée à lřinformation flexionnelle «V+Imp+m+p», qui signifie que la forme générée est un verbe «V», conjugué à lřimpératif «Imp», avec le masculin «m» et singulier «s». F. 5.5 Introduction des entrées lexicales de base La liste des entrées lexicales,correspondant aux lemmes de base, sont contenues dans un fichier (.dic) qui constitue le noyau du dictionnaire électronique. Chaque entrée de la liste va servir de racine pour générer toutes les formes fléchies/dérivées qui lui sont associées, à travers les paradigmes flexionnels/dérivationnels. La définition des entrées lexicales : Les lemmes de base sont insérés comme suit dans le fichier (.dic) : - les verbes sont insérés sous la forme conjuguée à la 3 ème personne du singulier de lřaccompli actif; - les noms sont insérés sous la forme au singulier indéterminé; - les autres lemmes non fléchissables sont insérés tels quels. Chaque entrée est associée à une catégorie grammaticale désignée par son code.en outre, des parties optionnelles sont associées aux entrées du dictionnaire, notamment : - Des informations syntaxico-sémantiques; - Un appel à un paradigme flexionnel introduit par «+FLX= <nom du paradigme>» ; - Un appel à un ou plusieurs paradigmes dérivationnels introduits par «+DRV= <nom du paradigme>». Figure 5 : Paradigme flexionnel d'un verbe accompli [20]. Pour décrire le fonctionnement et la formalisation de ces paradigmes, prenons comme exemple le paradigme flexionnel «Kataba-Imp», qui va produire les différentes formes de lřimpératif, de lřentré verbale «ك ت ب»; Parmi les cinq transformations, contenues dans ce paradigme, prenons par exemple la commande suivante: Dans ce qui suit, nous donnons un exemple d'entrée (repris de [20]) pour chaque type dřentrée lexicale (Verbe, Nom, Forme invariable, Expression figée). Les entrées verbales : Généralement, toute entrée verbale ressemble à: - V+Tr+FLX=Kataba,د ر س Inacc+DRV=IsmFa3il_Fa3ala:IsmFa3il_Masc_FLX Dans cette entrée verbale représentée par le lemme», on trouve en plus du symbole désignant sa د ر س «( 58 )

61 catégorie grammatical «V : pour les verbes», les informations suivants : - Une information lié à sa transitivité «+Tr», pour désigner que le verbe est transitif. - Lřexpression «+FLX=Kataba-Inacc» : désigne un appel au paradigme flexionnel «Kataba-Inacc». Ce paradigme permet de générer lřensemble de formes conjuguées à lřinaccompli avec tous les pronoms personnels, incluant le mode indicatif,(المرفوع) subjonctif (المنصوب) et apocopé المبني ( passive et (المبني للمعلوم) la voix active,(المجزوم).(للمجهول - «+DRV=IsmFa3il_Fa3ala:IsmFa3il_Masc_FLX» : cette expression désigne un appel au modèle de dérivation «IsmFa3il_Fa3ala» à utiliser pour produire la forme dérivée «إسم الفاعل الم ذكر» (participe actif masculin) de lřentrée verbale. Les entrées nominales : Généralement, toute entrée nominaleressemble à:,n+flx=nom_masc+drv=masc_pluriel_salem:chakle_mp م ع ل م Lřentrée nominale se compose : ;» م ع ل م : ex - dřun lemme «- dřun code désignant la catégorie grammaticale «N» ; - Un appel à un modèle flexionnel «+FLX=Nom_Masc», qui permet de générer les différents formes fléchies selon le nombre (singulier, duel), le mode (déterminé, indéterminé) et le cas (génitif, accusatif ou nominatif) ; - Un appel à un modèle dérivationnel «+DRV=Masc_Pluriel_Salem», qui permet de générer la forme au pluriel de lřentrée, et associer ce dernier à une règle de flexion «:chakle_mp» qui permet de le fléchirselon le cas (génitif, accusatif ou nominatif). Les formes invariables : Dans la liste des entrées invariables on peut trouver soit des noms indéclinables, tels que les pronoms relatifs, les pronoms personnels etc, ou des particules Ces.(الحروف) entrées ne font appel à aucun paradigme flexionnel/dérivationnel, et seront listéestelles quřelles apparaissent dans le lexique suivi dřun symbole désignant leur catégorie grammaticale (PRON, REL, PREP etc.). De plus, des informations flexionnellespeuvent être rattachées. Exemple : PRON+1+mf+s+u,أ ا PRON+1+mf+p+u, ذ REL+m+s,ان ذ ي REL+f+s,ان ر PREP,ب PREP,ك Les expressions figées et les mots composés : Les expressions figées ou mots composé serons listés tels qu'ils apparaissent dans le lexique, suivis des informations les concernant. Par exemple : EXP+RELIG,ص ه ى هللا ػ ه ط ه ى N+m+s+u+TECH,ج اس انك ث ذ ز N+f+s+u+SPORT,ك ز ج ان ق ذ و VI. INTEGRATION DU MODULE D'ANALYSE MORPHO-LEXICALE Après avoir donné un aperçu des fonctionnalités du système Nooj pour prendre en charge la morphologie de la langue Arabe, nous décrivons comment l'intégration du module morpho-lexical a été réalisée au niveau de notre plateforme d'analyse de textes Arabes utilisant le formalisme HPSG. La figure 6 montre l'articulation du sous-système d'analyse morpho-lexical par rapport au reste de la plateforme. Nous décrivons ci-après le processus d'analyse de la plateforme ainsi composée : 1. Le texte en Arabe standard est fourni à l'entrée de la plateforme. 2. L'analyse morpho-lexicale est réalisée par un appel au sous-système Nooj. 3. L'analyse morpho-lexicale fournit ses résultats, qui peuvent être récupérées dans un fichier d'échange avec la plateforme Pharas. 4. La plateforme opère une traduction (qui correspond à une mise en conformité) des résultats fournis par le module Nooj en structures de traits nécessaires à l'analyse postérieure en HPSG. 5. La plateforme amorce l'analyse syntaxique qui utilise le dispositif nécessaire composé par le système de signature, les règles syntaxiques et le moteur d'analyse syntaxique. 6. Le résultat de l'analyse syntaxique est délivré au module de production des résultats qui affiche la représentation de la structure profonde du texte analysé en format HPSG (AVM ou XML). ( 59 )

62 Nooj Signature et règles HPSG Fichier de définition des propriétés (.def) Fichier des automates (.nof) Fichier des lemmes de base (.dic) Types Règles Lexique Texte en standard arabe Analyseur Morpholexical Résultats Traduction en traits HPSG Représentation 1 Module d analyse syntaxique Texte en arabe standard Module de génération Représentation 2 Module de production des résultats Plateforme Pharas, 2015 Analyse HPSG (AVM, XML) Figure 6. Articulation du module d'analyse morpho-lexical par rapport au reste de la plateforme L'interfaçage entre la plateforme d'analyse utilisant le formalisme HPSG et le module d'analyse morpho-lexicale a été réalisée avec une application Java. Elle permet d'actionner le module morpho-lexical fait à partir de Nooj et de récupérer ses résultats via un fichier d'échange. La figure 7 donne un aperçu sur l'interface logicielle réalisée entre la plateforme et le module morpho-lexical. L'interface récupère les résultats de l'analyse morpholexicale, dont le nombre de mots analysés, mots inconnus,...etc. Figure 8 Traits morphologiques récupérés de l'analyse morphologique et traduits en format HPSG Figure 7 : Application d'interfaçage entre la plateforme d'analyse Pharas et le module morpho-lexical fait à partir de Nooj Rappelons que le plus important est de récupérer les traits morphologiques des éléments du texte qui feront l'objet d'une traduction en format HPSG, soit sous forme d'une matrice Attributs-Valeurs (AVM), soit sous la forme d'un fragment XML. La figure 8 donne un exemple de traduction faite des traits obtenus. VII. EVALUATION Pour évaluer les performances du système réalisé après intégration, nous avons mené des tests en utilisant un corpus de textes de différents types (religieux, techniques, encyclopédiques, littéraires, articles de journaux,...etc.). Les tests réalisés ont montré que le taux de reconnaissance des mots, c'est à dire les mots dont l'analyse morpho-lexicale a pu être faite avec succès, varie entre 80% à 99%, selon les textes. Nous donnons ci-après deux exemples de textes analysés, le premier est un texte religieux et le second est un texte technique. Exemple 1 : Texte religieux Dans ce premier exemple nous avons soumis à lřanalyseur un texte religieux («Hadith دذ ث» n 06 du livre «Sahih Al-bukhari صذ خ انثخاري»). L'analyse morpholexicale de ce texte a donné un taux de succès de 85% sur l'ensemble des 466 mots (figure 9). Les cas d'échecs, les 15% restants, s'expliquent par le fait que ce type de texte contient beaucoup de noms propres, qui n'existent pas encore dans les ressources du système. ( 60 )

63 figure9. Exemple d'analyse d'un texte religieux. Exemple 2 : Texte technique Dans ce second exemple, nous avons soumis à l'analyse morpho-lexicale un texte technique du domaine dřinformatique (extrait de lřencyclopédie Arabe mondiale Sur les 3428 mots du texte, l'analyse a.(ان ط ػحانؼزت حانؼان ح donné un taux de reconnaissance de 94% (figure 10). Ce qui est appréciable. Les rares cas d'échecs (6%) correspondent,طه ك ) aux mots latins transcrits à l'arabe, comme,(. etc انرزا شطر راخ qui ne figurent pas encore,يا كز ط فد dans les ressources du système d'analyse. Figure 10 Exemple d'analyse d'un texte technique VIII. CONCLUSION Dans cet article, nous avons présenté un travail d'intégration d'un module d'analyse morpho-lexicale open source Nooj, dans notre plateforme d'analyse de textes en Arabe standard basé sur le formalisme HPSG. Les avantages d'une telle réalisation sont nombreuses, notamment la réutilisation du logiciel qui permet un gain de temps pour le développement des autres modules de la plateforme. Par ailleurs, notre évaluation a permis de montrer que la plateforme peut bénéficier de la bonne couverture linguistique du système d'analyse morpholexicale qui est capable d'analyser correctement plus de 90% des mots de la plupart des textes en Arabe standard. Les défis à surmonter pour réaliser ce travail étaient aussi nombreux. Nous pouvons citer principalement le paramétrage du module pour permettre son intégration dans la plateforme, ainsi que la nécessité de traduire les résultats de l'analyse moropholexicale en format conforme au formalisme HPSG. Pour les développements futurs, nous proposons d'étendre davantage la couverture linguistique du système d'analyse, en ajoutant de nouvelles ressources, comme les entités nommées. REFERENCES [1] A.Farghaly and K.Shaalan (2009). Arabic Natural Language Processing : Challenges and Solutions, ACM Transactions on Asian Language Information Processing, Vol. 8, No. 4, pages [2] M.Loukam, A.Balla, M.T.Laskri (2014). An open platform, based on HPSG formalism, for the standard Arabic language. in proceedings of LREC'2014, Workshop on Free/Open-Source Arabic Corpora and Corpora Processing Tools, Reykyavik, Iceland, 27 May 2014, pages [3] C.Pollard & I.A.Sag (1994). Head-driven Phrase Structure Grammar. Chicago: University of Chicago Press and Stanford: CSLI Publications. [4] H.Michael (2011). Null Conjoncts and Bounds Pronouns in Arabic, in Proceedings of HPSG 2011 Conference, August , University of Washington, CSLI Publications. [5] Hann Michael (2012). Arabic Relativization Patterns: A Unified HPSG Analysis, in Proceedings of HPSG 2012 Conference, Chugnam National University of Daejon, South Korea, CSLI Publications, July [6] A.Copestake (2002). Implementing Typed Feature Structure Grammars, CSLI Publications, Stanford University, [7] Miyao Y. & Tsujii J. (2005). Probabilistic Disambiguation Models for Wide-Coverage HPSG Parsing, In Proceedings of ACL-2005, 2005, p [8] Bahou Y., Hadrich Belguith L., Aloulou C., Ben Hamadou A. (2006). Adaptation et implémentation des grammaires HPSG pour lřanalyse de textes arabes non voyellés., Actes du 15e congrès francophone AFRIF-AFIA Reconnaissance des Formes et Intelligence Artificielle RFIA 2006, Janvier 2006, Tours/France. [9] M.Loukam, A.Abbache et M.T.Laskri, «Un analyseur morpholexical à base de système expert en vue dřune analyse en HPSG», Actes de la conférence Internationale sur le traitement automatique de la langue arabe CITALA 07, 18/19 Juin 2007, Rabat/Maroc, p [10] M.Silberztein et A.Tutin, «NooJ, un outil TAL pour l'enseignement des langues. Application pour l'étude de la morphologie lexicale en FLE», Alsic [En ligne], Vol. 8, n [11] K.Bogacki and E.Gwiazdecka. Disambiguating Polish Verbs of Motion. Formalising Natural Languages with NooJ : Selected Papers from the NooJ 2012 International Conference (Paris, France). Cambridge Scholars Publishing, Newcastle., UK: [12] H.Cheikhrouhou. Recognition of Communication Verbs with NooJ. Formalising Natural Languages with NooJ 2013 : Selected Papers from the NooJ 2013 International Conference (Saarbrucken, Germany). Cambridge Scholars Publishing, Newcastle., UK: [13] V.Collec-Clerc. Adapting Existing Japanese Linguistic Resources to Build a NooJ Dictionary to Recognise Honorific Forms. Formalising Natural Languages with NooJ 2013 : Selected Papers from the NooJ 2013 International Conference (Saarbrucken, Germany).Cambridge Scholars Publishing, Newcastle., UK: [14] T.Declerck and K.Mörth. Porting Persian Lexical Resources to NooJ. Formalising Natural Languages with NooJ : Selected Papers from the NooJ 2012 International Conference (Paris, France). Cambridge Scholars Publishing, Newcastle., UK: [15] K.Dobrovoljc. Introduction to Slovene Language Resources for NooJ. Formalising Natural Languages with NooJ 2013 : Selected Papers from the NooJ 2013 International Conference (Saarbrucken, Germany). Cambridge Scholars Publishing, Newcastle., UK: [16] S.Fuentes S. and A.Gupta. Updated Spanish Module for NooJ. Formalising Natural Languages with NooJ 2013 : Selected Papers from the NooJ 2013 International Conference (Saarbrucken, Germany). Cambridge Scholars Publishing, Newcastle., UK: [17] Z.Gavriilidou and E.Papadopoulou. Derivation of Multiply Complex Negative Adjectives from Verbal Stems in Greek. Formalising Natural Languages with NooJ 2013 : Selected Papers from the NooJ 2013 International Conference (Saarbrucken, Germany). Cambridge Scholars Publishing, Newcastle., UK: [18] I.Keskes, F.Benamara and L.Belghith Hadrich. Discourse Segmentation of Arabic Texts Using Cascade Grammars. Formalising Natural Languages with NooJ : Selected Papers from the NooJ 2012 International Conference (Paris, France). Cambridge Scholars Publishing, Newcastle., UK: [19] D.Najar and S.Mesfar. Political Monitoring and Opinion Mining for Standard Arabic Texts. Formalising Natural Languages with NooJ 2013 : Selected Papers from the NooJ 2013 International Conference (Saarbrucken, Germany). Cambridge Scholars Publishing, Newcastle., UK: [20] S.Mesfar. Analyse morpho-syntaxique automatique et reconnaissance des entités nommées en Arabe standard. Thèse de Doctorat. Université de Franche Comté ( 61 )

64 Mobility Models for VANET simulation Bahidja Boukenadil STIC Laboratory Abou Bekr Belkaid University Tlemcen. Algeria Mohammed Feham Dept of Telecommunications Abou Bekr Belkaid University Tlemcen, Algeria InAbstract the performance evaluation of a protocol for a vehicular ad hoc network, the protocol should be tested under a realistic conditions including, representative data traffic models, and realistic movements of the mobile nodes which are the vehicles (i.e., a mobility model). This paper isa comparative study between two mobility models that are used in the simulations of vehicular networks, i.e., MOVE (MObility model generator forvehicular networks)and CityMob, a mobility pattern generatorfor VANET. We describe several mobilitymodels for VANET simulations. The goal of this paper is to present a number of mobility models in order to offer researchers more informedchoices when they are deciding upon a mobility model to use in their performance evaluations. Lastly, we presentsimulation results that illustrate the importance of choosing a mobility model in the simulation of a protocol in VANET network. Specifically, we illustrate how the performance results of an ad hoc network protocol drastically change asa result of changing the mobility model simulated., VANETKeywords Mobility Model, Simulations, Real World, MOVE, SUMO, CityMob, NS-2 etc. I. INTRODUCTION In order to thoroughly simulate a new protocol for an ad hoc network, it is imperative to use a mobility model that accurately represents the mobile nodes (MNs) that will eventually utilize the given protocol.currently there are two types of mobility models used in the simulation of networks: traces and synthetic models [1]. Traces are those mobility patterns that are observed in real life systems. Traces provide accurate information, especially when they involve a large number of participants and an appropriately long observation period. However, new network environments (e.g. vehicular networks) are not easily modeled if traces have not yet been created. In this type of situation it is necessary to use synthetic models which attempt to realisticallyrepresent thebehaviors of MNs (i.e., the vehicles nodes) without the use of traces. In this paper, we present several synthetic mobility models that have been proposed forthe performance evaluation of vehicularnetwork. The remainder of the paper is organized as follows. Section II describes relatedwork dedicated to the analysis of the mobility models proposedfor VANETs. In section III we illustrate that a mobility model has a large effect on the performance evaluation in simulation of VANET network. Finally,Section IV presents some concluding remarks. II. MOBILITY MODEL FOR VANET Since real vehicular traces are not available, a traffic simulator can be used to generate the movement of vehicles. However, driver behavior on a road is very complex. Driving is interactive, drivers must react to changing road conditions. Road conditions (e.g., congestion) depend in turn on the driversř plans and behaviors. Thus, the choice of the traffic simulator in the end influences the relevance and viability of the obtained results. Vehicular traffic simulators can in general be classified into microscopic and macroscopic simulators. A macroscopic simulator considers such system parameters as traffic density (number of vehicles per km per lane) or traffic flow (number of vehicles per hour crossing some point, usually intersection) to compute road capacity and the distribution of the traffic in the road net. From the macroscopic perspective, vehicular traffic is viewed as a fluid compressible medium, and, therefore, is modeled as a special derivation of the Navier-Stokes equations. In contrast, microscopic simulators determine the movement of each vehicle that participates in the road traffic. A wide variety of mobility models have been proposed for VANET simulations. In [2, 3] Saha and Johnson modeled vehiculartraffic with a random mobility of nodes over real road topologiesextracted from the maps of the US Census Bureau TIGERdatabase. In that work, nodes select one point over the graphas their destination and compute the shortest path to get there.the edges sequence is obtained weighting the cost of travelingon each road on its speed limit and the traffic congestion. Huang et al. [4] studied taxi behavior. They model the city asa Manhattan style grid with a uniform block size across the simulationarea. All streets are assumed to be two-way, with onelane in each direction. Taxi movements are constrained by theselanes. A taxi is characterized by a preferred speed, a maximumacceleration and deceleration, a speed variation associated withthe preferred speed at steady state, and a list of preferred destinations,i.e., the taxi stands. The taxis are randomly assignedone of three preferred speeds. Choffnes et al. [5] designed a street mobility model, named STRAW that incorporates a simple car-following model withtraffic control to introduce vehicular congestion, which modelsreal traffic conditions. STRAW relies on street plans to builda road map for the specified target region. It also provides atleast one lane in each direction on which vehicles can move. Todetermine the initial positions of vehicles on the field, it uses arandom street placement model that places a vehicle in a lane ofa street just before an intersection. If another vehicle is alreadyin that lane, the new vehicle is placed behind the existing one. ( 62 )

65 Haerri et al. [6, 7] proposed a vehicular mobility simulator forvanets, called VanetMobiSim, which employs the IntelligentDriver Model (IDM) to determine the speed of vehicles. In Mahajan et al. [8] three different models were presented: Stop Sign Model (SSM), Probabilistic Traffic SignModel (PTSM) and Traffic Light Model (TLM). The main differenceof these models is basically the algorithm used to reproducestop signs. All roads are modeled as bidirectional roads;the SSM and PTSM assume a single lane in each direction ofevery road, whereas TLM provides the option for modelingmultiple lanes. Martinez et al [9, 10]present CityMob which is a mobility pattern generator especiallydesigned to investigate different mobility models in VANETs,and their impact on intervehicle communication performance.this tool is completely compatible with the ns-2 simulationtool and it was developed in C. CityMob creates urbanmobility scenarios and simulates damaged cars using thenetwork to send information to other vehicles, trying to preventaccidents or traffic jams. Figure 1 presents the interface of this model. Karnadi et aldevelopa tool MOVE (MObility model generator for VEhicularnetworks)to which will provide facility forthe users to generate real world mobility models for VANET simulations. MOVE [11, 12, 13, 14] tool is built on top of an open source micro-traffic simulator SUMO [15, 16, 17]. The output of MOVE is a mobility trace file that contains information of real-world vehicle movements which can be used by NS-2[18] or Qualnet [19]. MOVE provides a set of parameters that allows the user to quickly generate real-world simulation scenarios without simulation scripts.figure 2 shows the interface of this model. III. Fig. 2.Interface of MOVE IMPORTANCEOF CHOOSINGA MOBILITY MODEL In this section, we illustrate that the choice of a mobility model can have a significant effect on the performance investigation of an ad hoc network protocol. The results presented illustrate the importance of choosing an appropriate mobility model for the performance evaluation of a given ad hoc network protocol in VANET network. We use ns-2 [34] to compare the performance of the CityMob Model and the MOVE tool via a simulation. The routing of packets is accomplished with the Ad hoc On Demand Distance Vector) (AODV) [20]. The parameters for these two mobility models were chosen in a way to simulate path movements that were as similar as possible. Figure 3 shows an example of road topology for CityMOb, where the darker square area represents the downtown. The vehicles are represented by the Dark rectangles,shadowed rectangles representvehicles stopped at semaphores, and crosses represent damaged cars sending warning packets. Fig. 1.Interface of CityMob ( 63 )

66 Overhead Average End-End Delay (sec) Throughput (bits/s) 2 nd International Conference on New Technologies & Communication (ICNTC-2015) MAC operating at 2Mbps. The propagationmodel employed in the simulation is TwoRayGround. In our comparison of the two mobility models, we consider the following performance metrics obtained from the AODV protocol: throughput, end-to-end delay and protocol overhead. 0,023 0,022 0,021 0,020 0,019 0,018 0,017 0,016 0,015 0,014 0,013 0,012 0,011 0,010 0,009 Move CityMob Fig. 3.Downtown scenario of CityMob. Figure 4 gives an example of a road map created by MOVE for urban scenario, where different roads and junctions with semaphores are represented Number of vehicles Fig. 5.Throughputvs. number of vehicles. 0,50 MOVE CityMob 0,45 0,40 0,35 0,30 0,25 0, Number of vehicles Fig. 6.End-to-end delay vs. number of vehicles. Fig. 4.Road mapexample of MOVE. In a source routing protocol, each packet carries the full route (a sequenced list of nodes) that the packet should be able to traverse in its header. In an on demand (or reactive) routing protocol such as AODV, a route to a destination is requested only when there is data to send to that destination, and a route to that destination is unknown or expired. We chose AODV since it performs well in many of the performance evaluations of unicast routing protocols (e.g. [21, 22, 23]). The ns-2 code used in our simulations of AODV was obtained from [24]. Each simulation run lasted for 300 seconds with a uniform block size of 500 x 500 meters; the maximum speed of vehicles is of 40 m/s. The number of source nodes from 10to 50, each of which is a CBR traffic source transmitting UDPpackets of a size 512 bytes at the rate of 4 packets per second. Allnodes use Number of vehicles MOVE CityMob Fig. 7.Overhead vs. number of vehicles. ( 64 )

67 Figures 5, 6 and 7 illustrate the performance (i.e., Throughput ratio, end-to-end delay and overhead) of AODV with the two mobility models chosen. The Throughput (in figure 5) of AODV when using MOVE mobility model is higher and more stable than when using CityMob model. The trace 6 shows that AODV causes a low stable delay with MOVE because the roads are more defined compared to CityMob. Figure 7 illustrates the overhead AODV required with each of the chosen mobility models. The vehicles moving with CityMob have a higheroverhead, as a result this model requires a higher amount of overhead compared to MOVE. These results confirm the suitability of MOVE tool for simulating VANET. IV. CONCLUSIONS In this paper, we compared the performance of two mobility models for VANET Simulation i.e.move (MObility model generator for VEhicular networks) and CityMob (City Mobility). Simulation analysis using realisticmobility model for VANET environment showthatthe performance of the protocol is greatly affected by the mobility model. The performance of an ad hoc network protocol can vary significantly with different mobility models then, the choice of mobility model in simulating VANET is very important. The mobility models for VANET should be most closely match the expected real-world scenario. In fact, the anticipated real-world scenario can aid the developmentof the ad hoc network protocol significantly. As future work we plan to compare other mobility models discussed above. Results obtained from these studies would certainlyfacilitate in meeting the challenges associated withfuture development and evaluation of suitable routing protocols in vehicular networks. REFERENCES [1] M. Sanchez and P. Manzoni. ŖA java-based ad hoc networks simulator. In Proceedings of the SCS Western Multiconference Web-based Simulation Track, Jan [2] A.K. Saha and D.B. Johnson, ŖModeling mobility for vehicular ad hoc networks,ŗ in ACM Workshop on Vehicular Ad Hoc Networks (VANET 2004), Philadelphia PA, October [3] U.S. Census Bureau -Topologically Integrated Geographic Encoding and Referencing (TIGER) system [4] E. Huang,W. Hu, J. Crowcroft, and I.Wassell, ŖTowards commercial mobile ad hoc network applications: A radio dispatch system,ŗ in Sixth ACM International Symposium on Mobile Ad Hoc Networking and Computing (MobiHoc 2005), Urbana-Champaign, Illinois, May 2005 [5] D.R. Choffnes and F.E. Bustamante, ŖAn integrated mobility and traffic model for vehicular wireless networks,ŗ in ACM Workshop on Vehicular Ad Hoc Networks (VANET 2005), Cologne, Germany, September [6] J. Haerri, M. Fiore, F. Filali, and C. Bonnet, ŖVanetmobisim: generating realistic mobility patterns for vanets,ŗ in ACM Workshop on Vehicular Ad Hoc Networks (VANET 2006), Los Angeles, California, September [7]VanetMobiSim. l720214_en.html [8] A. Mahajan, N. Potnis, K. Gopalan, and A.Wang, ŖEvaluation of mobility models for vehicular ad-hoc network simulations,ŗ in IEEE International Workshop on Next Generation Wireless Networks (WoNGeN 2006), Bangalore, India, December [9] Francisco J. Martinez, Juan-Carlos Cano, Carlos T. Calafate, Pietro Manzoni, ŖCityMob: a mobility model pattern generator for VANETs,ŗ in the ICC 2008 workshop proceedings. [10]CityMobřs source code is available at [11] MOVE [12] F. Karnadi, Z. Mo, K.-C. Lan,.Rapid Generation of Realistic Mobility Models for VANET. Poster Session, 11th Annual International Conference on Mobile Computing and Networking (MobiCom 2005), Cologne, Germany, August [13] F. K. Karnadi, Z. H. Mo, and K. c. Lan, ŖRapid generation of realistic mobility models for vanet,ŗ in IEEE WCNC, 2007, pp. 2506Ŕ2511. [14] Karnadi, F.K.; Zhi Hai Mo; Kun-chan Lan; Sch. of Comput. Sci. &Eng., New South Wales Univ., Sydney, NSW, ŖRapid Generation ofrealistic Mobility Models for VANETŗ. IEEE Xplore [15] SUMO Simulation of Urban MObility. [16] A. Uchiyama,.Mobile Ad-hoc Network Simulator based on Realistic Behavior Model, 6th ACM International Symposium on Mobile Ad Hoc Networking and Computing (MobiHoc 2005), Urbana [17] Deutsches Zentrum f ur Luft-und Raumfahrt e.v. (DLR). SumoŔ simulation of urban mobility. [18] The Network Simulator ns 2. [19] QualNet Network Simulator. [20] Perkins, C. and Royer, E. (1999). Ad hoc On Demand Distance Vector (AODV) Routing.In Proceedings 2nd Workshop on Mobile Computing Systems and Applications. New Orlean s, LA, USA: IEEE, February 1999, pp. 90Ŕ100. [21] J. Broch, D. Maltz, D. Johnson, Y. Hu, and J. Jetcheva. Multi-hop Wireless ad hoc network routing protocols. In Proceedings of the ACM/IEEEInternational Conference on Mobile Computing and Networking(MOBICOM), pages 85Ŕ97, [22] B.Boukenadil, M.Feham, ŖComparison between DSR, AODV and DSDV in VANET using CityMobŗ, in Proc. the 1th International Conferenceon New Technologies and Communication (ICNTCř2012), Chlef,Algeria, December [23] P. Johansson, T. Larsson, N. Hedman, B. Mielczarek, and M. Degermark.Routing protocols for mobile ad-hoc networks - a comparativeperformance analysis. In Proceedings of the ACM/IEEEInternationalConference on Mobile Computing and Networking (MOBICOM),pages 195Ŕ206, [24] The Rice University Monarch Project. Monarch extensions to the ns simulator. URL: Page accessed on May 30th, 2002 ( 65 )

68 New Half-mode WaveguideDesigns based on SIW Technology for X band Applications M. A. Rabah 1, M. Abri 1, J. W. Tao 2 and T. H. Vuong 2 1 Laboratoire de Télécommunications Département de Génie Electrique, Faculté de Technologie, Université de Tlemcen BP 230, Pôle Chetouane, Tlemcen- Algérie. 2 Laboratoire de Laplace, Université de Toulouse-France. Abstract In this work a systematic analysis of the signalintegrity performance of substrate integrated waveguidestructures (SIW) is reported. It is numerically demonstratedhow a very high transmissioninx-band can be successfully achieved byusing this type of structure. This recently technology resume an advantages of a traditional waveguide and coplanar line. In this work we present a parametric study forchoosing the best parameter of SIW waveguide within the frequency range [8-12] GHz, this frequency range is specifying for the X-band. A HMSIW (half mode substrate integrated waveguide) designis indicated. It is demonstrated numerically by comparisonwith simple waveguide using CST Microwave Studiohow the transmission in X-band can be successfully achieved with HMSIW. Keywords-X-band; SubstrateIntegrated Waveguide (SIW); Half Mode; design; transition. I. INTRODUCTION With the growing technical and performance requirement on wireless systems for communication and sensor applications, waveguide components such as couplers, detectors, isolators, phase shifters and slotted lines are commercially available for various standard waveguide bands, this components present properties of low loss and high power, because the fabrication of a transmission line is limited in some of practical applications and it is also difficult to manufacture them in mass production as the rectangular waveguide, the use of this type of guide presents a traditional solution for guidance signal [1]. Conventional waveguide components are typically bulky and expensive; and difficult to integrate with other microwave and millimeter wave planar circuits. On the other hand, microstrip lines are compact and low cost, and have been widely used, but they are relatively providesloss. Recently, an alternative low cost technology utilized to build a wide range of mm-wave components. The technology is based on using printed circuit boards to imitate waveguides and is called substrate integrated waveguides (SIW), and is known for its numerous advantages such as relatively high Q, ease of integration, compact size, and low cost[2-7] as alternativestructures to conventional transmission lines. Substrateintegrated waveguides are synthetic rectangular waveguidesformed by top and bottom metal layers which embed a dielectric slab and two sidewalls of metallic vias as shown in Fig.1. This technology is one of the most popular and the most developed platforms. The concept of the half-mode substrate integrated waveguide(hmsiw) was proposed recently in [8]. It can be observed, on one hand, thatboth the waveguide width and the surface area of the metallicsheets are reduced by nearly half compared with the SIW, and onthe other hand, that the fabrication complexity is maintained atthe same level as for the SIW. Several components have been developedbased on the HMSIW since its introduction [9-11]. h Figure 1. Substrate integrated waveguide (SIW) design present To going to the best parameters geometrics ;a parametric study of the diameter and distance of via is presented in this paper for a SIX component operating in X-band for TE 10 mode. After giving the geometric parameters of SIW operating in X-band some waveguide miniaturization techniques will be studied in SIW structures. HMSIW (Half Mode Substrate Integrated Waveguide)is presented and a comparison between SIW and HMSIW has been made. II. GEOMETRIC AND PARAMETRIC STUDY A. SIW Design Procedure SIW devices can be thought as a form of dielectric filled waveguide (DFW), therefore the starting point can be DFW. For TE 10 mode, the dimension "b" is not important, as it does not affect the cut off frequency of the waveguide. Therefore, the substrate can be at any thickness; it only affects the dielectric loss. For a rectangular waveguide, cut off frequency of arbitrary mode is found by the following formula: fc ( ) ( ) (1) Where: d Port 1 Via-hole a s Metal Port 2 Substrate ( r, tg) c: speed of light m, n: mode numbers a, b: dimensions of the waveguide For TE 10 mode, the much-simplified version of this formula is: s ( 66 )

69 Amplitude [db] 2 nd International Conference on New Technologies & Communication (ICNTC-2015) f (2) For DFW with same cut off frequency, dimension "a d " is found by: Having determined the dimension "a d " for the DFW, we can now pass to the design equations for SIW [4]. Where: d: diameter of the via s: pitch (distance between the vias) (3) (4) For the calculation of the guide impedance, it is also necessary to calculate the wave impedance of TE mode, which is given by(8) [1]: (8) B. Simulation Results In order to operate the SIW in the X-band applications we investigated these equations and the geometry presented in Fig.3 are used for testing. The cutoff frequency of TE 10 mode in SIW is selected about 7.5 GHz. The waveguide is designed on ArlonIso 917 (lossy) with dielectric constant of r = 2.2 and tang=0.0013and with the following considerations: TE 20 mode should not be excited in SIW. The physical width should be as wide as possible so that ferrite slabs can be inserted. Table 1.The Geometrical Parameters of SIW topology. Width a s 15.8mm r Effective width a d 13.48mm Via holes diameter d 3.3mm (a) a d Distance between vias s 4.95mm Substrate thickness h mm 50 ohm Microstrip Line width W 1 1.3mm a s ohm Microstrip Line width W mm (b) Transition length L 26.84mm Figure 2. Dimensions for :(a) DFW, (b) SIW For SIW design, the following two conditions are required[4]: d< (5.a) s 2d Where g(guided wavelength) is [12]: (5.b) Figure 3. Topology of the Substrate Integrated Waveguide transition. λ ( f) ( a ) Our goal is to produce a SIW waveguide with best transmission, why we must adapt our structure. A transition from a microstrip line to the waveguide SIW is necessary. Theformulaused to calculatethe guide impedance of the SIW, which is given by (7) [1]: (6) h (7) Frequency [GHz] Figure 4. SIW waveguide [S] parameters. ( 67 )

70 S11 [db] S12 [db] S11 [db] 2 nd International Conference on New Technologies & Communication (ICNTC-2015) C. Parametric study In this section, a parametric study is proposed to observe the influence of distance and diameter vias on the transmission coefficient and the input return loss for the X- band waveguide. Spacingbetweenvia[mm] Figure 8. Transmission coefficient forp=4.95, 5.03, 5.11, 5.19,5.28 mm at 9GHz. Radius [mm] III. Comparison between SIW and HMSIW Figure 5. Input return losses for r=1.55, 1.65, 1.75, 1.85mmand p=1.5r at 9 GHz Radius [mm] Figure 6. Transmission coefficient forr=1.55, 1.65, 1.75, 1.85mm and p=1.5rat 9 GHz A. HMSIW theory A miniaturization technique is documented in [12] with the introduction of a half-mode SIW (HMSIW).The half-mode SIW is able to propagate guided waves in only half the width of the standard SIW. The symmetric plane along the direction of transmission is considered a perfect magnetic wall. The guided propagation is unchanged when cutting through the magnetic wall. The HMSIW interconnects require slightly more than half of the SIW width to operate with the same cutoff frequency, as can be observed in Fig.9 where the SIW is truncated at the lower edge of the microstrip. In this configuration, the added width required is equal to half of the microstrip width. The HMSIW is particularly beneficial in that it only requires a single layer PCB fabrication. As it is shown in Fig. 5 when the radius value is incremented, the reflection coefficient increases which shows the advantage of choosing small valuesof the radius. Fig.7and Fig.8 shows the results of variation of the distance between the vias for the smallest diameter (r = 1.55 mm) Microstrip Half-mode SIW Spacingbetween via[mm] Figure 9. HMSIW interconnect. B. Design and simulation results The configuration of the X-band SIW waveguide proposed is shown in Fig. 10, which is composed of 11 holes vias. The half wave guide SIW must be designed on a substrate Arlon ISO 917 (loss) which has a relative permittivity r of 2.2, dielectric thickness h of mm, a loss tangent of about 0, 0013, and the thickness of the conductor of 0.05 mm. The diameter of the vias was 2.3 mm and the distance between the via holes is to be 3.5 mm. Figure 7. Input return losses for p=4.95, 5.03, 5.11, 5.19,5.28 mm at 9GHz. Figure 10. HMSIW interconnect obtained with CST. ( 68 )

71 Amplitude [db] Amplitude [db] Amplitude [db] 2 nd International Conference on New Technologies & Communication (ICNTC-2015) Fig. 11 shows the distribution of the electric field in HMSIW operating in X-band. Figure 11. Distribution of electric field in HMSIW In this figure, it can be seenthatthe electric fieldcan propagate inonlyone-half mode SIW. Frequency [GHz] Figure 14. Comparison between the return loss of SIW and HMSIW obtained by CST Microwave studio. Frequency [GHz] Figure 12. HMSIW waveguide [S] parameters. In the Fig. 11, the transmission coefficient for HMSIW gives the best result at f = 10 GHz (injected frequency of 9 GHz), and we can see from the results of two structures are very approach; and input return loss in Fig. 12 shows good results for the HMSIW structure since in the frequency range [9-12] GHz return loss input is less than -10 db. Frequency [GHz] Figure 13. Comparison between the transmission coefficient of SIW and HMSIW obtained by CST Microwave studio. IV. CONCLUSION In this paper, the SIW waveguide and half-mode SIW (HMSIW)structure with via-hole has been successfully demonstrated. Based on rectangular waveguide theory, specific design rules of SIW for the design of via-hole array and effective width of broad sidewall among others were reviewed. The cutoff frequency of the X-band wasdeliberately selected to avoid higher-order modes while maximizing the broad side width and a SIW was modeled and simulated out of ArlonIso 917 (lossy) material using the SIW design rules described in this paper. For transition from microstrip to SIW, guided-wave impedance of SIW was calculated in order to decide the matched width of mircostrip, then simulations with a commercial software were followed up to verify the matching condition. Inorder to reduce size of the structure and conserving all the properties of the SIW another topology is employed which is HMSIW. It was observed that the cutoff frequency isnot changed and good results are obtained in term of return loss and transmission. The circuits with HMSIW can be used for X-Band applications. REFERENCES [1] Yong Ju BAN, ŖTunable Ferrite Phase Shifters Using Substrate Integrated Waveguide Technique,ŗtheses, December2010. [2] K.Wu, D. Deslandes, Y. Cassivi, ŖThe substrate integratedcircuits Ŕ A new concept for high frequency Electronics andoptoeletronicsŗ, Microwave Review, nr. 12, December 2003,pp [3] Xiao-Ping Chen, Ke Wu, Zhao-Long Li,, ŖDual-Band andtriple- Band Substrate Integrated Waveguide Filters WithChebyshev and Quasi-Elliptic Responsesŗ, IEEE Trans.Microwave Theory Tech., vol. 55, pp , December 2007 [4] Y. Cassivi, L. Perregrini, P. Arcioni, M. Bressan, K. Wu, and G. Conciauro,ŖDispersion characteristics of substrate integrated rectangular waveguide,ŗ in IEEE Microwave Wireless Compon. Lett., vol. 12, Sep.2002, pp. 333Ŕ335. [5] [6] Y. Cassivi and K. Wu, ŖLow cost microwave oscillator using substrate [7] integrated waveguide cavity,ŗ IEEE Microw. Wireless Compon. Lett., vol. 13, no. 2, pp. 48Ŕ50, Feb [8] J. A. Ruiz-Cruz, M. A. E. Sabbagh, K. A. Zaki, J. M. Rebollar, andy. Zhang, ŖCanonical ridge waveguide filters in LTCC or metallicresonators,ŗ IEEE Trans. Microw. Theory Tech., vol. 53, no. 1, pp.174ŕ182, Jan [9] W. Hong, B. Liu, Y. Q. Wang, Q. H. Lai, and K. Wu, Half modesubstrate integrated waveguide: A new guided wave structure formicrowave and millimeter wave application, in ( 69 )

72 Proc. Joint 31st Int.Infrared Millimeter Wave Conf./14th Int. Terahertz Electron. Conf.,Shanghai, China, Sep. 2006, pp [10] B. Liu, W. Hong, Y. Q. Wang, Q. H. Lai, and K. Wu, Half mode substrate integratedwaveguide (HMSIW) 3 db coupler, IEEE Microw.Wireless Compon. Lett., vol. 17, no. 1, pp , Jan [11] Y. Wang, W. Hong, Y. D. Dong, and B. Liu et al., Half mode substrate integrated waveguide (HMSIW) bandpass filter, IEEE Microw.Wireless Compon. Lett., vol. 17, no. 4, pp , Apr [12] B. Liu, W. Hong, Y. Zhang, H. J. Tang, X. X. Yin, and K. Wu, Half mode substrate integrated waveguide dB directional couplers, IEEE Trans. Microw. Theory Tech., vol. 55, no. 12, pp ,Dec [13] Y. Cheng, W. Hong, and K.Wu, Half mode substrate integrated waveguide (HMSIW) directional filter, IEEE Microw. Wireless Compon. Lett., vol. 17, no. 7, pp , Jul [14] J. E. Rayas-Sanchez and V. Gutierrez-Ayala, "A General EM-Based Design Procedure for Single-Layer Substrate Integrated Waveguide Interconnects with Microstrip Transitions", IEEE MTT-S Int. Microwave Symp. Dig., Atlanta, GA, Jun. 2008, pp ( 70 )

73 Stockage distribué de données dans les réseaux de capteurs sans fil Amina Chikhaoui, Djamel-Eddine Zegour, Walid-Khaled Hidouci Ecole Nationale Supérieure dřinformatique (ESI) Alger, Algérie {a_chikhaoui, d_zegour, Résumé Les progrès technologiques dans les domaines de la microélectronique, des communications sans fil, couplés aux efforts de miniaturisation et à la réduction des coûts de production des composants électroniques, ont donné naissance à des nouvelles générations de réseaux sans fils. Ces derniers offrent beaucoup d avantages notamment en termes de déploiement. Parmi ces générations, on trouve les réseaux de capteurs sans fil (WSN). La montée en puissance des capteurs et leur diversité qui ne cessent de croître sont accompagnées de nouvelles applications et problématiques. Le stockage distribué de données est l un de ces nouveaux challenges. Dans cet article, nous allons proposer une nouvelle méthode de stockage de données pour les WSN basée sur une variante de structures de données distribuées et scalables appelée: PBST* (Distributed Partitionned Binary Search Tree) afin d optimiser le stockage et la collection de données dans ce type de réseaux. Keywords Réseaux de capteurs sans fil; Stockage data centric; GHT ; I. INTRODUCTION Concrètement, un WSN est composés d'un ensemble de capteurs intelligents miniaturisés alimentés par des batteries. Ces derniers sont dotés des moyens qui leur permettent de collecter, stocker, traiter et transmettre les données collectées à un centre de collecte via une connexion sans fil [1]. Depuis leur apparition, les réseaux de capteurs sans fil provoquent un intérêt croissant au sein des communautés scientifiques et industrielles. En effet, ils sont appliqués aujourdřhui dans plusieurs domaines dřapplications. Nous citons par exemple les domaines : militaire, surveillance, environnemental, médical, domestique, commercial, etc. Quelques exemples des applications des WSN sont décrits dans [2]. Selon les interactions entre le réseau de capteurs et la station de base, nous distinguons trois modèles principaux : modèle de mesure périodique, modèle de détection dřévènements et modèle de transmission suite à des requêtes [3]. Dans le premier modèle, tous les capteurs envoient périodiquement leurs mesures à la station de base. Dans le deuxième modèle, les capteurs envoient les mesures seulement lorsquřil y a un évènement qui se produit et dans le troisième modèle, les capteurs mesurent des phénomènes et stockent ces mesures dans leurs mémoires, ils envoient ces dernières seulement lorsquřils reçoivent des requêtes de la station de base. La contrainte principale dans un WSN est le budget dřénergie limité d'un nœud capteur avec l'exigence d'une longue durée de vie du réseau. La consommation dřénergie devient ainsi leur problème fondamental. Plusieurs protocoles et algorithmes ont été proposés dans la littérature au niveau de toutes les couches de la pile protocolaire du WSN afin de minimiser la consommation de lřénergie. Dans un réseau de capteurs, les communications coûtent chères par rapport aux traitements locaux des données. Parfois, il vaut mieux stocker et traiter des données localement plutôt que de faire des transmissions. Le modèle de stockage de données peut beaucoup influencer la consommation dřénergie globale du réseau. Une stratégie de stockage des données mal conçu augmente les frais généraux de communication, dissipe l'énergie utile et réduit la durée de vie des réseaux de capteurs. En revanche, une bonne stratégie de stockage peut considérablement optimiser la consommation d'énergie, réduire les délais de traitement des requêtes et prolonger la durée de vie d'un réseau de capteurs. Le stockage distribué de données est un nouvel axe de recherche dans les WSN qui consiste à stocker les données détectées dans le réseau lui-même, afin de les récupérer plus tard par des protocoles de récupération appropriés. Lřobjectif de cet article est la proposition dřun nouveau protocole de stockage distribué de données pour les WSN. Ce protocole est basé sur PBST* [4], une variante de structures de données distribuées et scalables (SDDS) [5, 6]. La puissance de cette structure réside dans lřutilisation de la mémoire distribuée, le traitement parallèle, les requêtes à intervalle, lřéquilibrage de la charge et la capacité de stockage théoriquement illimitée. Elle permet de faire des recherches en temps logarithmique. La suite de cet article est organisée comme suit : dans la deuxième section nous allons présenter les travaux antérieurs de stockage de données dans les WSN et de SDDS. Dans la troisième section, nous décrirons PBST*. Notre proposition sera présentée dans la quatrième section. Enfin, la cinquième section conclut lřarticle. II. TRAVAUX ANTERIEURS Notre travail tire profit de deux grands axes de recherche : le stockage de données dans les WSN et les structures de données distribuées et scalables. Dans ce qui suit, nous allons présenter les travaux antérieurs de chaque domaine. A. Stockage de données dans les réseaux de capteurs Les différents modèles de stockage de données dans les WSN existants sont classés en trois catégories [7] : stockage externe, stockage local et stockage distribué. ( 71 )

74 Dans Le modèle de stockage externe [8, 9], les capteurs envoient toutes leurs mesures à la station de base et ces mesures sont traitées complètement sur la station de base. Si tous les évènements détectés par les capteurs sont utilisés par la station de base, ce modèle serait le préféré. Mais, dans certaines applications, les requêtes envoyées vers la station de base nřenglobent pas lřintégralité des évènements détectés par les capteurs. Ce qui engendre un gaspillage de lřénergie. Le modèle de stockage local [10, 11] fonctionne de manière différente. Les capteurs stockent les évènements détectés dans leurs mémoire afin dřéviter la transmission des évènements qui nřintéressent pas les utilisateurs. Ils envoient des données seulement lorsquřils reçoivent une requête sur les mesures quřils possèdent. Le problème dans ce modèle est quand un utilisateur cherche une donnée, il ne sait pas où est-elle stockée. Donc, une requête sera diffusée sur tous les nœuds du réseau. Ce modèle de stockage nřest pas intéressant dans le cas où le nombre de requêtes envoyées par la station de base et le nombre de nœuds sont importants car la diffusion des requêtes dans tout le réseau devient coûteuse. Le stockage distribué de données consiste à stocker les données dans le réseau lui-même selon une stratégie de stockage. Dans ce modèle, un nœud qui capte une donnée nřest pas forcément le nœud qui stocke cette dernière. Le stockage data centric (DCS) [7, 12, 13, 14] est un type de stockage distribué de données. Il reprend le paradigme de stockage de données structurées dans les réseaux pair-à-pair. Dans ce modèle, chaque nœud dans le réseau stocke un type de donnée appropriée. De cette façon, les requêtes sur un type dřévènements seront routées directement vers le nœud concerné par ce type. Le premier travail réalisé dans ce domaine est GHT (Geographic Hash Table). GHT [12] est le premier protocole DCS proposé en 2002 par Ratnasamy et al. La motivation de cette recherche était la gestion efficace de la grande quantité de données détectées par les réseaux de capteurs à grande échelle à l'aide dřun algorithme de dissémination de données évolutif, autoorganisé et efficace en énergie [15]. GHT suppose que chaque capteur connaît ses coordonnées géographiques et que chaque donnée est décrite par une méta-donnée. Ce protocole exploite deux primitives: Stocker (d, k) pour le stockage de données et Récupérer (k) pour la récupération des données. La primitive Stocker(d, k) prend en entrée une donnée d (la donnée captée) et sa métadonnée k. En appliquant une fonction de hachage h sur k, il sélectionne une paire de coordonnées (x, y) = h (k) et il utilise le protocole de routage GPSR [16] pour transmettre un paquet de données à cette emplacement. Le nœud le plus proche de cette position géographique est choisi comme home node. De la même façon, la primitive Récupérer (k) applique la même fonction de hachage sur la méta-donnée k pour obtenir les coordonnées (x,y) du home node, et par l'intermédiaire de GPSR, il envoie une requête de récupération au point (x, y). Lorsque cette demande atteint le home node, ce dernier répond en fournissant les données stockées pour cet événement. Cette solution achemine les requêtes de stockage et de récupération directement au home node en évitant lřinondation qui est une opération gourmande en énergie. Dans [7], cette approche a été démontrée comme une technique de dissémination de données économique en énergie par rapport au stockage externe et stockage local. Dans la figure 1, les capteurs sont représentés par des cercles bleus. Un nœud producteur (cercle rouge) capte un nouvel évènement. Ce nœud producteur hache cet évènement afin de trouver la position du home node. Ensuite, il transmet lřévènement détecté au home node désigné par un cercle vert. À son tour, un autre nœud consommateur utilise la même fonction de hachage et récupère les données stockées sur le home node. Fig. 1. Diagramme dřexecution des requetes Dřautres travaux ont été proposés dans le domaine DCS afin dřaméliorer la première proposition. Voici une liste non exhaustive des travaux réalisés dans ce domaine : [17, 18, 19, 20, 21, 22, 23, 24]. Des états de lřart sont faits sur les travaux réalisés dans le domaine stockage data-centric dans [15, 17]. Dans [17], les auteurs ont décrit brièvement la contribution des travaux antérieurs dans le domaine DCS. Ils ont classifié ces travaux en trois catégories : multiréplication, politique de stockage et protocole de routage. Dans [15], Khandakar et al ont classé les travaux existants selon les différents challenges que ces travaux tentent de résoudre. Ces challenges sont : la requête à intervalle, lřagrégation de données, lřéquilibrage de charge, la recherche par similarité, la réplication de données, algorithme de routage et la non-uniformitédu réseau. Selon les auteurs, un travail portant sur tous ces défis ne semble pas avoir encore eu lieu. La figure 2 résume cette classification. Un défi très important dans ce domaine nřest pas mentionné dans [15]. Il sřagit de la stratégie de choix de nœuds de stockage. ( 72 )

75 Classification des DCS. La figure 2présenteune classification des schémas de stockage data centric faite par Khandakar et al. B. Structures de données distribuées et scalables Les Structures de Données Distribuées et Scalables (SDDS) sont une nouvelle classe de structures introduites vers 1993 par le Pr Litwin au CERIA (Centre de Recherche en Informatique Appliquée) [5, 6] spécifiquement pour la gestion de fichiers en mémoire centrale distribuée dřun multiordinateur. Elles fournissent un mécanisme général dřaccès à des données réparties dynamiquement. Les fichiers SDDS sont structurés en enregistrements identifiés par des clés. Ces fichiers peuvent s'étendre dynamiquement, au fur et à mesure des insertions, d'un seul site de stockage à n'importe quel nombre de sites. Des stations appelées clients peuvent accéder aux données stockées sur les serveurs.les Clients gardent des paramètres pour le calcul des adresses des serveurs. Ces paramètres constituent lřimage du client du fichier SDDS. Le placement de données et son évolution sont transparents pour les applications. Celles-ci appellent en effet les clients SDDS qui gèrent lřaccès aux serveurs comme sřil sřagissait de structures de données classiques. Les SDDS supportent néanmoins le traitement parallèle et assurent potentiellement par leur conception des temps dřaccès aux données beaucoup plus courts que ceux aux fichiers traditionnels. Les SDDS offrent aussi une capacité de stockage potentiellement illimitée, et assurent des temps dřaccès beaucoup plus courts que les structures traditionnelles. Grâce à ces caractéristiques, les SDDS offrent des performances de traitement supérieures à celles des structures de données traditionnelles. Les SDDS sont caractérisées par la scalabilité, la distribution et la disponibilité. Compte tenu de leur philosophie, les SDDS constituent une nouvelle génération de structures de données régie par les axiomes suivantes : Lřabsence de répertoire central dřaccès. Lřextension de fichier doit être incrémentale et transparente à lřapplication. Chaque client supporte le logiciel propre à la SDDS et gère notamment sa propre image du fichier. ( 73 )

76 Chaque serveur est capable de détecter une erreur dřadressage le concernant. En outre, les SDDS supportent le traitement parallèle. Selon la stratégie de répartition des données on peut distinguer deux grandes familles de SDDS. Les SDDS basées sur la distribution par les arbres (RP* [25], DRT*[26], PBST* [4], etc.) et les SDDS basées sur la distribution par hachage (DDH [27], EH*[28], IH*[29], etc.). Cette classification est décrite dans la figure 3. B. Evolution du fichier PBST* Initialement le système contient un seul serveur "serveur1" vide avec lřintervalle]-, + [, qui représente le serveur racine du fichier. Suite aux opérations dřinsertions et de suppressions sur le fichier, des éclatements et des fusions des serveurs peuvent avoir lieu. Au début, toutes les requêtes se font au niveau du serveur1 jusqu'à sa saturation. Deux nouveaux serveurs sont alors alloués, le serveur1 garde toujours le nœud racine de lřarbre. Lřun des deux nouveaux serveurs reçoit le sous arbre droit et lřautre reçoit le sous arbre gauche. Cřest le cas de la figure 4. Eclatement dřun serveur racine. Classification des SDDS. Dans cette session, nous avons montré lřintérêt que peut apporter les SDDS au monde actuel de lřinformatique où les architectures distribuées sont le chemin qui sřimpose. Dans la session suivante nous allons présenter PBST*. Si un serveur non racine atteint le paramètre de partitionnement un nouveau serveur est alloué. Ce dernier reçoit la moitié de lřarbre du serveur saturé et la clé médiane de lřarbre monte au niveau du père de ce serveur. Ceci peut entraîner des éclatements en cascade. III. PBST* (PARTITIONED BINARY SEARCH TREE) A. Description de PBST* PBST*[4, 30] est une structure de données dédiée aux environnements distribués. Elle consiste à distribuer le fichier conformément au principe des SDDS. Elle se base sur le modèle client/serveur. Comme toutes les SDDS, PBST* est distribué sur plusieurs serveurs. Chaque serveur S contient un ensemble dřenregistrements "case" organisés sous forme dřun arbre de recherche binaire équilibré et un intervalle [a, b]. Dans PBST* il existe deux types de serveur Serveur de données : il contient un arbre de données et lřadresse de son serveur père. Serveur de données index : il contient un arbre de données et lřadresse vers son serveur père ainsi que toutes les adresses de ses serveurs fils. Le client PBST* a une image partielle ou complète. Cette image est un arbre de recherche binaire où chaque nœud contient lřadresse et lřintervalle de clés des serveurs qui sont déjà visités par ce client. Au départ cette image contient un seul nœud qui représente le serveur racine avec sa plage de clés qui est]-, +[. Cette image change à chaque erreur dřadressage. Le modèle PBST* est défini par le paramètre de partitionnement (n): un serveur PBST* contient au maximum (n-1) enregistrements. Ce paramètre agit sur le taux de chargement des serveurs et permet la réorganisation du fichier. Eclatement dřun serveur non racine. Dans la figure 5, après lřinsertion de la clé 27, le serveur3 atteint le paramètre de partitionnement n=5, donc un nouveau serveur est alloué qui est le serveur4, il reçoit la moitié de lřarbre du serveur3 et la clé médiane (dans ce cas la clé médiane=35)de ce dernier monte au niveau du serveur1 qui est le serveur père. Le client dispose dřune image lui permettant dřaccéder à un sous ensemble de serveurs. De nouveaux serveurs sont rajoutés à cette image par le biais des messages correctifs envoyés par ces serveurs. Grace à cette image, le client peut accéder directement à la partition sur laquelle il désire réaliser des opérations sans passer par le serveur racine. La figure 6 montre un exemple dřimage client. Image client. IV. MODELE PROPOSE Notre contribution consiste à proposer un nouveau protocole de stockage de données basé sur PBST*, une ( 74 )

77 variante des structures de données distribuées et scalables (SDDS), pour optimiser le stockage et la collection des données par la station de base (puits). Nous nous intéressons aux modèles de transmission suite à des requêtes. Cette catégorie peut inclure les modèles de détection dřévènements : dans ce cas, la requête sera déférée dans le temps, c'est-à-dire, on envoie la requête aux capteurs avec une durée de vie et on répond lorsquřon détecte un évènement (exemple : le protocole de routage : directed diffusion [10]). Le modèle de transmission suite à des requêtes est très intéressant car dans certaines applications les mesures envoyées par les capteurs ne sont pas toutes utiles pour la station de base. En effet, dans certaines applications, un utilisateur ne veut pas visualiser toutes les mesures de tous les capteurs dans un réseau. Par exemple, il peut poser une requête pour voir à quel moment, la température sur une zone a dépassé 60 C. Dans ce cas, toutes les transmissions de température qui sont inférieures à 60 C sont inutiles. Il vaut mieux stocker ces mesures sur les capteurs que de les transmettre à la station de base. Dans notre modèle, on suppose que le réseau est divisé en plusieurs zones. Chaque zone est responsable dřun type de données. Le capteur qui détecte un évènement est un client, il envoie cet évènement vers un autre capteur (serveur) pour le stockage de ce dernier. La station de base (puits) est un client collecteur. Elle fait de requêtes de recherche (récupération). Un client (capteur) fait des requêtes dřinsertions des évènements détectées. A. Protocole d insertion Lorsquřun capteur détecte un évènement, il lřenvoie à la zone qui est responsable de ce type dřévènements. Le premier capteur de cette zone qui reçoit la requête, redirige cette dernière vers le serveur adéquat, ce serveur peut aussi rediriger la requête en cas dřerreur dřadressage. Le serveur dontlřintervalle contient lřévènement détecté, lřinsère dans son arbre. Lřinsertion peut entrainer un éclatement ou des éclatements en cascade. Lors dřun éclatement, le nouveau serveur alloué est choisi selon son niveau dřénergie ainsi que la distance qui le sépare du serveur éclaté. On met aussi à jour les capteurs voisins de serveur éclaté en changeant lřintervalle du serveur éclaté et en ajoutant les informations concernant le nouveau serveur alloué. Dans la figure 7, deux nœuds producteurs captent deux nouveaux évènements de différents types. Chaque nœud envoie sa donnée à la région responsable de lřévènement détecté. Le capteur qui a détecté la donnée (90) de type Par1, lřenvoie à la région1. A lřintérieur de cette région, cette évènement est redirigé jusquřà atteindre le serveur dont lřintervalle contient 90. Le même traitement est fait sur lřévènement de clé 100 de type Par5. Lřinsertion de cet évènement a entrainé un éclatement et donc lřallocation dřun nouveau serveur. Protocole dřinsertion. B. Protocole de recherche Les requêtes de recherche sont toujours envoyées par le collecteur. Lorsque le collecteur désire faire une recherche sur une donnée de type spécifique, il envoie une requête de recherche à la région responsable de ce type. Cette requête peut être redirigée à lřintérieur de la zone jusquřà atteindre le serveur adéquat. Lorsque la requête arrive au niveau du serveur dont lřintervalle contient la donnée recherchée, il répond favorablement si la donnée existe ou défavorablement dans lřautre cas. Le chemin de la réponse peut être différent de celui de la requête. Protocole de recherche. La figure 8 montre le déroulement dřune requête de recherche. Le collecteur envoie la requête de recherche vers la région 5. Cette est redirigé vers le serveur adéquat. Ce dernier répond au collecteur en prenant probablement un autre chemin. C. Protocole de la requête à intervalle La requête à intervalle est un autre défi pour les systèmes de stockage distribué de données. En effet, un utilisateur peut sřintéresser à un intervalle plutôt quřà une seule valeur spécifique. Par exemple, la pollution de l'air ( 75 )

78 peut se produire si le niveau de monoxyde de carbone est dans lřintervalle [30 L / mol, 90 L / mol]. Une requête possible est de trouver tous les points où le niveau de monoxyde de carbone appartient à cet intervalle. Avec ce type de requête, les utilisateurs peuvent améliorer leur efficacité de la recherche. Lřexemple précédent illustre une utilisation très importante des requêtes à intervalle. Notre proposition permet de faire des requêtes à intervalle car les données sont réparties de manière ordonnée sur lřensemble de nœuds de stockage. Comme lřopération de recherche, la requête à intervalle est toujours envoyée par le collecteur. Elle est spécifique pour un type particulier de données. Le collecteur envoie la requête à intervalle à la région dont le type est le même que celui de la requête. La requête peut être redirigée par les capteurs de la région vers le serveur susceptible dřinclure la totalité de lřintervalle. Protocole de requête à intervalle. Dans la figure 9, le collecteur envoie une requête à intervalle à la région5 car cřest elle qui est responsable du Par5. Lorsque cette requête arrive au niveau du serveur dont lřintervalle couvre la plage de la requête celui-ci la redirige vers les serveurs adéquats. Il peut aussi répondre à la requête sřil contient des valeurs appartiennent à lřintervalle de cette dernière. V. CONCLUSION Le stockage distribué de données dans les WSN est une thématique de recherche en pleine expansion. Dans cet article, nous avons proposé une nouvelle méthode de stockage de données distribué pour les WSN. Cette méthode est basée sur PBST* qui permet de distribuer les données sur lřensemble de ressources de stockage de manière ordonnée et équilibrée. Cette solution peut traiter les challenges suivants: Requêtes à intervalle : PBST* est un arbre de recherche binaire partitionné, cette méthode stocke les données de manière ordonnée. Par conséquent, les requêtes à intervalles peuvent être exécutées rapidement. lřéquilibrage de charge : les tests de simulation montre que PBST* distribue les données de manière équilibré sur lřensemble des ressources de stockage (le taux de chargement des serveurs avoisine de 70%). REFERENCES [1] S. Tilak, N.B. Abu-Ghazaleh et W.B. Heinzelman, ŖA taxonomy of wireless microsensor network models.ŗ, ACM SIGMOBILE Mobile Computing and Communications Review, Vol. 6, no. 2, pp , April [2] C.F. Garcia-hernandez, P.H. Ibarguengoytia-gonzalez, J. Garcıahernandez, J.A. Pérez-diaz, ŖWireless Sensor Networks and Applications: a Surveyŗ, International Journal of Computer Science and Network Security, March 2007 [3] A. Boukerche, R. W. N. Pazzi et R. B. Araujo, Ŗ A fast and reliable protocol for wireless sensor networks in critical conditions monitoring applications.ŗ, Proceedings of the 7th ACM international symposium on Modeling, analysis and simulation of wireless and mobile systems (MSWiM ř04), pp. 157Ŕ164, [4] A. Chikhaoui, D.E Zegour, W.K Hidouci. ŖPBST*: une nouvelle variante pour les SDDS.ŗ Rencontre sur la recherche (R2I), Juin 2011, Tiziouzou, Algérie. [5] W. Litwin, M.A. Neimat, D. Schneider: ŖLH*: Linear Hashing for Distributed Files.ŗ ACM-SIGMOD Int. Conf. On Management of Data, [6] W. Litwin, M.A. Neimat, D. Schneider: ŖLH*: A Scalable Distributed Data Structureŗ, Submitted for journal publ, [7] S. Shenker, S. Ratnasamy, R.G.B. Karp et D. Estrin, Ŗ Data-centric storage in sensornets.ŗ, In the 1st ACM SIGCOMM Workshop on Hot Topics in Networks (HotNetsř02), October [8] G.J. Pottie, W.J. Kaiser, ŖWireless integrated network sensors.ŗ Commun. ACM 2000, pp. 51Ŕ58, [9] R. Szewczyk, J. Polastre, A. Mainwaring, D. Culler,ŖLessons from a Sensor Network Expedition.ŗ, In Proceedings of European Workshop Wireless Sensor Network,, pp. 307Ŕ322, January 2004, Berlin, Germany. [10] C. Intanagonwiwat, R.Govindan, D.Estrin, ŖDirected Diffusion: A Scalable and Robust Communication Paradigm for Sensor Networks.ŗ In Proceedings of the 6th Annual International Conference on Mobile Computing and Networking, pp. 56Ŕ67, August 2000, Boston, USA. [11] F. Ye, G. Zhong, S. Lu, L. Zhang, ŖGradient broadcast: A robust data delivery protocol for large scale sensor networks.ŗ Wirel. Netw.2005, pp. 285Ŕ298, [12] S. Ratnasamy, B. Karp, L. Yin, F. Yu, D. Estrin, R.Govindan, S. Shenker, ŖGHT: A Geographic Hash Table for Data-centric Storage.ŗ, In Proceedings of the 1st ACM International Workshop on Wireless Sensor Networks and Applications, pp. 78Ŕ87, 28 September 2002,Atlanta, GA, USA. [13] X. Li, Y.J. Kim, R.Govindan, W. Hong, ŖMulti-dimensional Range Queries in Sensor Networks.ŗ, In Proceedings of the 1st International Conference on Embedded Networked Sensor Systems, pp. 63Ŕ75, November 2003, Los Angeles, USA [14] D. Ganesan, A. Cerpa, W. Ye, Y. Yu, J. Zhao, D. Estrin, ŖNetworking issues in wireless sensor networks.ŗ, J. Parallel Distrib. Comput.2004, pp. 799Ŕ814, [15] A. Khandakar, A.G. Mark, ŖTechniques and Challenges of Data Centric Storage Scheme in Wireless Sensor Networkŗ, Journal of Sensor and Actuator Networks, June [16] B. Karp, H.T. Kung, ŖGPSR: Greedy Perimeter Stateless Routing for Wireless Networks.ŗ MobiCom 2000, pp. 243Ŕ254, Boston, [17] A.C. Rumin, M.U. Pascual, R.R. Ortega, D.L. López, ŖData centric storage Technologies: Analysis and enhancement.ŗ Sensors 2010, pp. 3023Ŕ3056, [18] H. Shen, L. Zhao, Z. Li, ŖA distributed spatial-temporal similarity data storage scheme in wireless sensor networks.ŗ IEEE Trans. Mob. Comput, pp , ( 76 )

79 [19] Y. Chung, I.F. Su, C. Lee, ŖAn efficient mechanism for processing similarity search queries in sensor networks.ŗ Inf. Sci, pp. 284Ŕ307, [20] M. Albano, S. Chessa, F. Nidito, S. Pelagatti, ŖDealing with nonuniformity in data centric storage for wireless sensor networks.ŗ IEEE Trans. Parallel Distrib. Syst, pp. 1398Ŕ1406, [21] K. Seada, A.Helmy, Ŗ Rendezvous Regions: A Scalable Architecture for Service Location and Data-Centric Storage in Large-Scale Wireless Networks.ŗ, Parallel Distrib. Process.Symposium, Int [22] Y. Zhao, Y. Chen, S.Ratnasamy, Ŗ Load Balanced and Efficient Hierarchical Data-Centric Storage in Sensor Networks.ŗ, In 5th Annual IEEE Communications Society Conference on Sensor, Mesh and Ad Hoc Communications and Networks, SECON ř08, pp. 560Ŕ568, 2008, New York, USA. [23] C.T. Ee, S.Ratnasamy, S.Shenker, Ŗ Practical data-centric storage.ŗ, In NSDIř06: Proceedings of the 3rd conference on Networked Systems Design & Implementation, USENIX Association: Berkeley, USA; [24] N.L. Thang, Y. Wei, B.Xiaole, X. Dong, Ŗ A dynamic geographic hash table for data-centric storage in sensor networks.ŗ, In IEEE Wireless Communications and Networking Conference, WCNC 2006, pp Ŕ 2174, New York, USA, [25] W.Litwin, M.A. Schneider, ŖRP*: A family of Order-Preserved Scalable Distributed Data Structure.ŗ 20th International Conference, On Very Large Data Bases (VLDB), [26] B. Kroll, P. Widmayer : ŖDistributing a Search Tree Among a Growing.ŗ In ACM-SIGMOD International Conference On Management of Data, pp , [27] D. Devin, ŖDesign and implementation of DDH: A distributed dynamic hashing algorithme.ŗ In Proceessing of the 4th Foundation of Data Ortanization and Algorithms (FODO), [28] V. Hilford, F.B. Bastani and B. Cukic, ŖEH*: Extendible Hashing distributed.ŗ [29] D.E. Zegour and D. Boukhelef : ŖIH*: HachageLinéaireMultidimensionnelDistribué et Scalable.ŗ Conférence Africaine de Recherche en Informatique, CARI 2002, Octobre 2002, Yaoundé, Cameroun. [30] A. Chikhaoui, D.E Zegour, W.K Hidouci. Towards dynamic data placement in grid. International Conference on Information Systems and Technologies(ICIST), Avril 2011, Tebessa, Algérie [31] W.H. Liao, C.C. Chen.ŗ Data storage and range query mechanism for multi-dimensional attributes in wireless sensor networks.ŗ, Communications [32] W.H. Liao, K.P. Shih, W.C. Wu. ŖA grid-based dynamic load balancing approach for data-centric storage in wireless sensor networks.ŗ Comput. Electr. Eng, pp [33] M. Aly, K. Pruhs, P.K. Chrysanthis. ŖKDDCS: A Load-Balanced In- Network Data-Centric Storage Scheme for Sensor Networks.ŗ In Proceedings of the 15th ACM International Conference on Information and Knowledge Management, Arlington, VA, USA, pp. 317Ŕ326, November [34] J. Newsome, D. Song. ŖGEM: Graph EMbedding for Routing and Data-Centric Storage in Sensor Networks without Geographic Information.ŗ In Proceedings of the 1st International Conference on Embedded Networked Sensor Systems, Los Angeles, CA, USA, pp. 76Ŕ88, November [35] A. Ghose, J. Grossklags, J. Chuang. ŖResilient Data-Centric Storage in Wireless Ad-Hoc Sensor Networks.ŗ In Proceedings of the 4th International Conference on Mobile Data Management, Melbourne, Australia, pp , January [36] A. Cuevas, M. Uruena, R. Cuevas, R. Romeral. ŖModelling dataaggregation in multi-replication data centric storage systems for wireless sensor and actor networks.ŗ Communications [37] B. Greenstein, D. Estrin, R. Govindan, S. Ratnasamy, S. Shenker. ŖDIFS: A Distributed Index for Features in Sensor Networks.ŗ In Proceedings of the First IEEE International Workshop on Sensor Network Protocols and Applications, Anchorage, AK, USA, pp , May [38] Y.J. Joung, S.H. Huang. ŖTug-of-War: An Adaptive and Cost- Optimal Data Storage and Query Mechanism in Wireless Sensor Networks.ŗ Lect. Note. Comput. Sci [39] Z. Yao, C. Yan, S. Ratnasamy. ŖLoad Balanced and Efficient Hierarchical Data-Centric Storage in Sensor Networks.ŗ In Proceedings of the 5th Annual IEEE Communications Society Conference on Sensor, Mesh and Ad Hoc Communications and Networks, San Francisco, CA, USA, pp. 560Ŕ568, June ( 77 )

80 Bi-Clustering Algorithm Using Formal Concept Analysis Amina Houari University of Tunis El Manar Faculty of Siences of Tunis LIPAH Wassim Ayadi University of Tunis Higher School of Siences and Technologies of tunis LATICE University of Angres,LERIA Sadok Ben Yahia University of Tunis El Manar Faculty of Siences of Tunis LIPAH Abstractŕ Identifying groups of genes that show similar behavior under a subset of conditions is known to be hard due to the huge volume of gene expression data. Thus, there is a compelling in a great need for novel techniques to perform such task. In this paper, we introduce a new algorithm for extracting biclusters from microarray data. Our algorithm relies on Formal Concept Analysis,which has been shown to be an efficient methodology for biclustering binary data.the performance of our algorithm is evaluated on real DNA microarray dataset. I. INTRODUCTION One of the main challenges in bioinformatic is the design of efficient algorithms capable of clustering biological data. Such clusters are of valuable importance for researchers on cancer studies like cancer occurrences, specific tumor subtypes, or cancer survivals.this task is achieved through a particular type of clustering known as "Biclustering". In this respect, the biclustering of numerical data has become an important task of biological analysis of gene expression data. Cheng and Church [1] were the first to apply biclustering to gene expression data. The main objective is to identify maximal sub-matrices of genes and conditions such that the genes express highly correlated behaviors over a range of conditions.biclustering is known to be NP-hard [1]. Clustering genes according to their expression profiles is important to extract knowledge from microarray data.to do so, gene expression data is arranged in a data matrix where rows represent genes and columns represent conditions. Several surveys of biclustering algorithms have been given. In [2], the authors distinguich two main classes of biclustering algorithms: Systematic search algorithms and stochastic search algorithms (meta-heuristic algorithms). The survey given by Madeira and Oleveira [3] is also worth of mention in the latter, biclusters are defined to be a subset of genes and conditions such that the subset of genes exhibits similar fluctuations under a given subset of conditions. In addition, biclusters can overlap on genes and on conditions. The above mentioned biclustering algorithms exhibit some limitations due to their heuristic nature,and therefore, are not guaranteed to find the optimal set of biclusters. While Biclustering algorithms discussed in the literature and using formal concept analysis have the tendency to either focus on one type of biclusters or refrain from validating them biologically ( like in [4] and [5] ). In this paper, we introduce a new algorithm for biclustering of DNA microarray data, called BiFCA. Our algorithm operates in three steps. First, BiFCA discretize the original microarray data in order to observe the profile of each gene through all pairs of conditions. Second, BiFCA is based on Formal Concept Analysis [6] which is a mathematical framework for allowing to derive implicit relationships from a set of objects and their attributes. Third, to avoid the high overlap between biclusters, we use the bond mesure. The remainder of the paper is organized as follows: Section 2 offers a state of the art study of biclustering. Section 3 is dedicated to the description of the BiFCA algorithm.the application of our approach on Yeast cell-cycle dataset is provided in Section 4. The conclusion and perspectives are sketched in Section 5. II. BICLUSTERING A. Notations In the following, we present the main notions that will be of use in the remainder; Definition 1 (Biclustering) The biclustering problem focuses on the identification of the best biclusters of a given dataset. In Biclustering of DNA microarray dataset, the latter is represented by a data matrix,where each cell represents the gene expression level of a gene under an experimental condition.formally,a bicluster can be defined as follows: I ={1,2,...,n} a set of indices of n genes, J ={1,2,...,m} a set of indices of m conditions, and M( I, J ) the data matrix associated with I and J. Definition 2 (Biclusters) A bicluster is a subset of genes associated with a subset of conditions in which these genes are co-expressed. The bicluster associated with the matrix M( I, J ) is a couple ( A, B ), such that A I and B J, and ( A, B ) is maximal (if there does not exist a bicluster ( C, D ) with A C or B D ). Definition 3 (Formal Concept Analysis) ( 78 )

81 Formal concept analysis (FCA) [6] is a method of data analysis with growing popularity across various domains. FCA analyzes data which describes the relationship between a particular set of objects G and a particular set of attributes M. Wille introduced Formal Concept Analysis in 1982 [6].A formal concept is a set of objects, extent, for which apply a set of attributes, intent. FCA provides a tool of classification and analysis, the central concept is the concept of a lattice. TABLE I. EXAMPLE OF A FORMAL CONTEXT A B C D E Definition 4 (Formal context) ( G, M R ) where G is a A formal context is a triple =, set of objects, M is a set of attributes and the binary relation R GM shows which objects have which attributes. A formal context can be represented by a cross- table ( ' Table I ). For G, we define : A = {m M g, ( g, m) R } and dually for, ( g, m) R } M : ' B = {g G m ' A is the set of all attributes common to ' Roughly speaking, the objects of, while B is the set of all objects that have all attributes in. Definition 5 (Formal concept) A pair A, B) ( is a formal concept of G, M, R) ( if and ' ' only if G, M, A = and = B In other words, ( A, B) is a formal concept if the set of all attributes shared by the objects of A is identical to that of B and vice versa. A is then called the extent and B the intent of the formal concept ( A, B). Definition 6 (The bond measure) The bond measure of two conceptsř intents I 1, I2 is defined as follows [7]: bond( I 1, I2 )= Supp( I1, I Supp( I, I So,we can redefine the bond measure as follows: ) ) bond( I 1, I2 )= I I B. Related work The biclustering allows simultaneous clustering of both genes and conditions of the data matrix. Biclustering was introduced in [8], then used on microarray gene expression data in[1] by Cheng an Church(CC) to find biclusters with low variance as defined by the Mean Squared Residue(MSR).Since its inception, a large number of biclustering algorithms were proposed. In the survey done in [2], the authors distinguiched two main classes of biclustering algorithms: Systematic search algorithms and stochastic search ones (meta-heuristic algorithms). 1 1 The systematic search algorithms are based on: 1) Divide-And-Conquer (DAC) based approach:generally, this method repeatedly splits the problem into smaller ones with similar structures to the original problem, until these subproblems become smaller enough to be solved directly. The solutions to the subproblems are then combined to create a solution to the original problem [2]. In [9], the authors partitioned the discretized data matrix into three submatrices,one of which contains only 0-cells. The algorithm is then recursively applied to the remaining two submatrices, and comes to an end if the current matrix represents a bicluster which contains only 1s. Algorithms adopting this approach are given in [9] and [10]. 2) Greedy Iterative Search (GIS) based approach: They construct a solution in a step-by-step way using a given quality criterion. Decisions made at each step are based on information at hand without worrying about the impact these decisions would have in the future. Moreover, once a decision is made, it becomes irreversible and is never reconsidered[2]. For instance, in [11], the authors proposed the Time Series Biclustering algorithm, which refers to CC algorithm by restricting it to add and remove columns. Algorithms adopting this approach are given in [12]. 3) Biclusters Enumeration (BE) based approach: The enumeration algorithm enumerates all the solutions for the original problem. The enumeration process is generally represented by a search tree[2]. In [13], they use a Bicluster Enumeration Tree (BET) to find all the biclusters (nodes), reachable from the root of the BET, by adopting an evaluation function. Whereas, in[14], the authors proposed an algorithm named Iterative Signature Algorithm (ISA), in which they defined a bicluster as a set of co-regulated genes which associates a set of co-regulated conditions. Algorithms adopting this approach are given in [15] and [16]. While Stochastic search algorithm are based on: 1)The Neighborhood Search(NS) based approach:it starts with an initial solution and then moves iteratively to a neighboring solution thanks to the neighborhood I I 2 2 ( 79 )

82 exploitation strategy[2]. Algorithms adopting this approach are given in [17] and [18]. 2)Evolutionary Computation(EC) based approach: it is based on the natural evolutionary process such as population, reproduction, mutation, recombination, and selection [2]. In [1], the authors tried to find biclusters with low variance as defined by the Mean Squared Residue(MSR). Algorithms adopting this approach are given in [19]. 3)Hybrid (H) based approach: it tries to combine the neighborhood search and the evolutionary approaches. This hybrid approach is known to be quite successful in solving many hard combinatorial search problems[2].algorithms adopting this approach are given in [20] and [21]. Even through their number is high,the above mentioned biclustering algorithms exhibit some limitations due to their heuristic nature,and therefore, are not guaranteed to find the optimal set of biclusters. To palliate such a drawback, the approaches based on the Formal Concept Analysis were introduced. In [22], the authors proposed a new approach, called FIST, for extracting bases of extended association rules and conceptual biclusters, using the frequent closed itemsets.while in [23], they use a single threshold, where expression values greater than this threshold are represented by 1, otherwise by 0. Whereas, in [5], they used the scaling of numerical data and consider that formal concepts are the groups of genes whose expression values are in the same intervals for a sub-set of conditions. In[4], the authors refer to the algorithm done in [5], using Triadic Concept Analysis [24] in order to extract biclusters with similar values. These biclustering algorithms using formal concept analysis have the tendency to either focus on one type of biclusters or refrain from biological validation. III. ALGORITHM DESCRIPTION The BiFCA biclustering algorithm is based on formal concept analysis in order to extract formal concepts. BiFCA operates in four main steps, we start with discretizing the initial numerical data matrix into a -101 data matrix 1 which represents the relation between all conditions for the gene set in the gene expression matrix,then we discretize the -101 data matrix into a binary one in order to extract formal concepts. Finaly,we compute the bond measure which is defined as the ratio between a conjunctive support of a concept and its disjunctive support, and we consider only those having the bond measure not exceeding a given threshold, done, in order to remove concepts that have high overlapping. The pseudo-code description of algorithm BiFCA is shown in Algorithm 1. 1 The -101 data matrix is the matrix obtained after the discritization of the original data matrix. Algorithm 1 BiFCA Algorithm 1: Input:M, minbond; Output:β 2: Discretize M using Equation (1) to obtain M2. 3: Discretize M2 using Equation (2) to obtain M3. 4: Extract all formal concepts. 5: for each two biclusters B 1, B 2 do 6: if Bond(B 1,B 2 ) < minbond then β = β {B 1, B 2 } 7: else β = β {B 1 orb 2 } // which have a higher number of conditions 8: endfor 9: Return β g 1 EXAMPLE OF GENE EXPRESSION MATRIX c 1 c 2 c 3 c 4 c 5 c g g 3 g 4 g 5 g A. From numerical data to -101 data matrix Our method first applies a preprocessing step to transform the original data matrix M into a -101 data matrix M2(Ligne 2). This step aims to highlight the trajectory patterns of genes. According to both [25] and [26],in microarray data analysis,we add genes into a bicluster(cluster) whenever their trajectory patterns of expression levels are similar across a set of conditions. Interestingly enough, our proposed discretization step keeps track of the profile shape over conditions and preserves the similarity information of trajectory patterns of the expression levels. Before applying the formal concepts extraction algorithm, we must first discretize the initial data matrix.the discretization process outputs the -101 data matrix. It consists in combining in pairs, for each gene, all the conditions between them. Indeed the -101 data matrix gives an idea about the profile. Furthermore, one can have a global view of the profile of all conditions between them. In our case, each column of the -101 data matrix represents the meaning of the variation of genes between a pair of conditions of M. It offers useful informations for the identification of biclusters. Formally the matrix M2(-101 data matrix) is defined as follows : 1 if x1 < x2 M 2 = 1 if x1 > x2 (1) 0 if x1 = x2 x = M [ i,l] ; x2 = M [ i,l2]; and i [ 1n]; l [ 1m 1] ; l 2 [ i 1m]; With: 1 Let us consider the dataset given by table II. Using equation (1) we represent the -101 data matrix (see table III). ( 80 )

83 g 1 g 2 g 3 g 4 5 g 6 THE -101 DATA MATRIX (M2) C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C g B. From -101 data to binary data matrix Let M 2 be a -101 data matrix (e.g Table III), in order to build the binary data matrix(ligne 3), we compute the average number of repetitions for each column in the matrix M 2, for example for the column C 1 we have: maxrepeat 2 is 3 and corresponds to the maxvalue 1. minrepeat 3 is 1 and corresponds to the minvalue -1. And mediamrepeat = 2 and corresponds to the value 0. So,the average value is 0, passing to the binary matrix the column C 1 becomes as sketched in table IV. EXAMPLE OF A COLUMN DISCRETIZATION g 1 g 2 g 3 g 4 g 5 g 6 C 1 It is better to choose the mean value since the maximum will produce a huge number of overlapping biclusters, while the minimum value generates bilogically none-valid biclusters Then, we define the binary matrix as follows: 1 3 = 0 if x1 = averagevalue otherwise M (2) Using Equation(2) we obtain the binary matrix (see Table V ). g THE BINARY DATA MATRIX (M3) C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C g g g Maximum number of occurrences by column. 3 Minimum number of occurrences by column. g g C. Extracting Formal concepts After preparing the binary data matrix, we move to extract formal concepts (Ligne 4) from the matrix M3(Table V). To perform this task we divide the problem in two subproblems: 1. Find all frequent closed itemsets. 2. Extract all Formal concepts. Many algorithms have been proposed in the literature for finding frequent closed itemsets (for more information see [27]).In this paper, we use an efficient algorithm in order to enumerate all frequent closed itemsets (conditions) which represent intents of the formal concepts, then for each closed itemset it extracts the proper extent (genes). By using the previous example we obtain as a result the concepts in TableVI. THE FORMAL CONCEPTS EXTRACTED FROM THE BINARY CONTEXT intents (conditions) extents (genes) C g 1, g3, g6 C g 1, g2, g4 C g 5, g6 C, C 4 g 3, g6 C, C 8 g 3, g5 C, C 4, C 7, C 8 g 3 C, C 11 g 1, g6 C, C 15 g 2, g4 C, C 2, C 6, C 7, C 8 g 5 C, C 3, C 4, C 10, C 11 g 6 C, C 9, C 11, C 13 g 1 C, C 9, C 12, C 14, C 15 g 4 concept1 4 concept2 9 concept3 1 concept4 3 concept5 7 concept6 3 concept7 4 concept8 9 concept9 1 concept10 1 concept11 4 concept12 5 D. The bond measure Before computing the bond measure between two conceptsř intents, we filter the concepts by taking into consideration with the number of conditions is higher than a given threshold, due to the overwhelming number of generated formal concepts. The BiFCA algorithm is already able to identify overlapping biclusters.in order to compute the similarity between two biclusters (concepts) C1 and C2, C1= (I 1,E 1 ), C2= (I 2,E 2 ) where I i, i = 1,2, represents the intent and E represents the extent,we use the measure bond [7]. The latter measures the overlapping between two concepts or Biclusters. ( 81 )

84 In fact, for the filtering process (Ligne 5, 6, 7) we consider only biclusters with a low overlap(if biclusters have a high overlapping, they done the same biological signification ). The correlation measure bond achieves its minimum of 0 when the biclusters do not overlap at all and its maximum of 1 when they are identical. Using the example of concept5 and concept6(example from Table VI ),we compute the bond measure : bond( I 5, I 6 )= { C7, C8} { C3, C4, C7, C8} { C7, C8} { C3, C4, C7, C8} 2 bond( I 5, I 6 )= = Taking 0.6 as threshold of bond,we consider the both concepts C 5 and C 6 as non overlapping biclusters. While taking 0.3 as threshold of bond,we consider only C 6 as a bicluster i.e which have the higher number of elements. IV. EXPERIMENTAL RESULTS In this section, we assess the BiFCA algorithm on real DNA microarray data. All experiments were carried out on a PC equiped with a 2.53 GHz Intel(R) Core(TM)i3 CPU and 4GB of main memory, running the Linux Ubuntu The yeast cell-cycle is a very popular dataset in the gene expression data. In fact, it is the one of the well known organisms and the functions of each gene are well known. We used the Yeast cell-cycle dataset which was described in [28],processed in[1] and is publicly available from [29], it contains 2884 genes and 17 conditions. A. Discussion of obtained results To evaluate the quality of the extracted biclusters and identify their biological annotations, we usegotermfinder 4 which is designed to search for the significant shared Gene Ontology (GO) terms of a group of genes.the ontologies are in the form of direct acyclic graphs where GO terms represent nodes and the relationships between them represent edges. These ontologies are organized in three domains:biological process, molecular function and cellular component.we show in Table VII the result of a selected set of genes for biological process, molecular function and cellular component,we report the most significant GO terms. With the first bicluster (TableVII ) the genes (YBL027W, YBL072C, YBL087C, YBL092W, YBR031W, YBR048W, YBR079C, YBR084C-A, YBR181C, YBR191W, YCR031C, YDL061C, YDL075W, YDL081C, YDL082W, YDL083C, YDL130W, YDL136W, YDL191W, YDL229W, YDR012W, YDR025W, YDR064W,YDR382W, YDR418W, YDR447C, YDR450W, YDR471W, YDR500C, YER074W, YER102W, YER117W, YER131W, YGR214W, YHL001W, YHR141C, YIL069C, YJL177W, YJL189W, YJL190C, YJR094W-A, YJR123W, YJR145C, YKL056C, YKL156W, YKL180W, YKR057W, YKR094C, YLL045C, YLR048W, YLR075W, YLR167W, YLR185W, YLR325C, YLR340W, YLR344W, YLR367W, YLR388W, YLR406C, YLR441C, YLR448W, YML024W, YML026C, YML063W, YML073C, YMR121C, YMR143W, YMR146C, YMR194W, YMR230W, YMR242C, YNL067W, YNL096C, YNL162W, 4 Available at YNL301C, YNL302C, YOL039W, YOL040C, YOL127W, YOR167C, YOR234C, YOR293W, Significant GO terms for two biclusters extracted by BiFCA Bicluster1 Bicluster 2 Biological Process cytoplasmic translation (p-ribosomavalue small subunit 1.08 e-51) biogenesis (p-value ribosomal small subunit 7.49e-13) biogenesis (p-value 6.41 e-translation (p-value 13) 4.35e-11) Molecular Process structural constituent of structural constituent of ribosome (p-value 1.16 e-ribosome (p-value 1.91e- 40) structural 40) molecule kinase regulator activity activity (p-value 1.10 e-(p-value 9.91e-05). 35) Cellular Component ribosomal subunit (p-value cytosolic ribosome (pvalue 1.23 e-38) 6.11e-53) ribosome (p-value 2.13 e-cytosolic part (p-value 36). 2.37e-40) YOR312C, YOR369C, YPL081W, YPL090C, YPL143W, YPL198W, YPR043W, YPR102C, YPR163C) concern thecytoplasmictranslation 5 51 with p-value of 1.08 e (Highly significant) and ribosomal small subunit biogenesis. The results on this real data set show that our proposed algorithm can identify biclusters with a high biological relevance. On an other hand, we also use the web tool FuncAssociate 6 [30] in order to compute the adjusted significance scores for each bicluster (adjusted p-value 7 ). Then, the results of our algorithm are compared with CC[1], ISA[31], OSPM[32], BiMine[13], BicFinder [33], we report the result of the algorithms mentioned before from the values used in[34]. The obtained results for different significant scores p for each algorithm over the percentage of total biclusters are depicted in Figure1. The BiFCA result shows that 100% of extracted biclusters are statistically significant with adjusted p-value, p < 0.001%. Worth of mention the best of the other compared algorithms is BiMine when p < 0.1%, while CC, ISA and OSPM have raisonnable performance with p < 0.5%. 5 Available at 6 Available at 7 The adjusted significance scores asses genes in each bicluster, which indicates how well they match with the different GO categories ( 82 )

85 Proportions of Biclusters significantly enriched by GO annotations V. CONCLUSION In this paper, the BiFCA biclustering algorithm was presented as a new biclustering method for gene expression data sets. Our approach relies on the extraction of formal concepts from a binary dataset.given the nature of our initial dataset, we had to discetize it first into a -101 data matrix then into a binary data matrix. The resulting formal concepts represent biclusters that we filter with the help of the measure bond. The performance was evaluated with Gene Ontology(GO) annotations which checks the biological significance of biclusters. Other avenues of future work concern the extraction of biclusters using generalized association rules,and we plan to apply BiFCA on different domains of application. REFERENCES [1] Y. Cheng and G. M. Church, ŖBiclustering of expression data,ŗ in proc of ISMB, UC San Diego, California, 2000, pp. 93Ŕ103. [2] A. Freitas, W. Ayadi, M. Elloumi, L.-J. Oliveira, andj.-k. Hao, ŖSurvey on biclustering of gene expressiondata,ŗ in Biological Knowledge Discovery Handbook:Preprocessing, Mining, and Postprocessing of BiologicalData, 2013, pp. 591Ŕ608. [3] S. C. Madeira and A. L. Oliveira, ŖBiclustering algorithms for biological data analysis: A survey,ŗ IEEEtransactions on computational biology and bioinformatics, vol. 1, pp. 24Ŕ45, [4] M. Kaytoue, S. O. Kuznetsov, A. Napoli, J. Macko, and W. M. Jr., ŖCaractérisation et extraction de biclusters devaleurs similaires avec lřanalyse de concepts triadiques,ŗin proc of EGC, 2012, pp. 65Ŕ76. [5] M. Kaytoue, S. O. Kuznetsov, and A. Napoli, ŖBiclustering numerical data in formal concept analysis,ŗ in procof ICFCA,Leuven, Belgium, 2011, pp. 135Ŕ150. [6] R. Wille, ŖRestructuring lattice theory: an approach basedon hierarchies of concepts.ŗ in Ordered Sets, I. Rival, Ed.Dordrecht/Boston: Reidel, 1982, pp. 445Ŕ470. [7] E. R. Omiecinski, ŖAlternative interest measures formining associations in databases,ŗ IEEE transactions onknowledge and data engineering, vol. 15, pp. 57Ŕ69,2003. [8] J. Hartigan, ŖDirect clustering of a data matrix,ŗ Journalof the American Statistical Association, vol. Volume 67,pp. 123Ŕ129, [9] A. Prelic, S. Bleuler1, P. Zimmermann, A. Wille,P. Buhlmann, W. Gruissem, L. Hennig, L. Thiele, ande. Zitzler, ŖA systematic comparison and evaluation ofbiclustering methods for gene expression data,ŗ Bioinformatics, vol. 22, no. 9, pp. 1122Ŕ1129, [10] L. Teng and L. Chan, ŖDiscovering biclusters by iteratively sorting with weighted correlation coefficientin gene expression data,ŗ Journal of Signal ProcessingSystems, vol. 50, pp. 267Ŕ280, [11] Y. Zhang, H. Zha, and C.-H. Chu, ŖA time-series biclustering algorithm for revealing co-regulated genes,ŗ Inproc of The 5th International Conference on InformationTechnology: Coding and Computing, vol. 1, pp. 32Ŕ37,2005. [12] K.-O. Cheng, N.-F. Law, W.-C. Siu, and A. W.-C. Liew,ŖIdentification of coherent patterns in gene expressiondata using an efficient biclustering algorithm and parallelcoordinate visualization,ŗ BMC Bioinformatics, vol. 9,no. 210, [13] W. Ayadi, M. Elloumi, and J.-K. Hao, ŖA biclusteringalgorithm based on a bicluster enumeration tree: application to dna microarray data,ŗ BioData Mining, vol. 2,p. 9, [14] J. Ihmels, S. Bergmann, and N. Barkai, ŖDefiningtranscription modules using large-scale gene expressiondata,ŗ Bioinformatics, vol. 20, pp. 1993Ŕ2003, [15] A. Tanay, R. Sharan, and R. Shamir, ŖDiscovering statistically significant biclusters in gene expression data,ŗbioinformatics, vol. 18, pp. S136ŔS144, [16] W. Ayadi, M. Elloumi, and J.-K. Hao, ŖBimine+: Anefficient algorithm for discovering relevant biclusters ofdna microarray data,ŗ Knowl.-Based Syst., vol. 35, pp.224ŕ234, [17] S. Das and S. M. Idicula, ŖApplication of cardinalitybased grasp to the biclustering of gene expression data,ŗinternational Journal of Computer Applications, vol. 1,pp. 44Ŕ53, [18] W. Ayadi, M. Elloumi, and J.-K. Hao, ŖIterated localsearch for biclustering of microarray data,ŗ in proc ofprib, Nijmegen, The Netherlands, 2010, pp. 219Ŕ229. [19] F. Divina and J. S. AguilarRuiz, ŖBiclustering of expression data with evolutionary computation,ŗ IEEE Transactions Knowledge and Data Engineering, vol. 18, no. 5, pp. 590Ŕ602, [20] C. A. Gallo, J. A. Carballido, and I. Ponzoni, ŖMicroarraybiclustering: A novel memetic approach based on the pisaplatform,ŗ in proc of EvoBIO, Tubingen, Germany, 2009,pp. 44Ŕ 55. [21] S. Mitra and H. Banka, ŖMulti-objective evolutionary biclustering of gene expression data,ŗ Pattern Recognition,vol. 39, pp. 2464Ŕ2477, [22] K. C. Mondal, N. Pasquier, A. Mukhopadhyay,U. Maulik, and S. Bandyopadhyay, ŖA new approach forassociation rule mining and biclustering using formalconcept analysis,ŗ in proc of MLDM, 2012, pp. 86Ŕ101. [23] R. G. Pensa, J. Besson, and J.-F. Boulicaut, ŖA methodology for biologically relevant pattern discovery from geneexpression data,ŗ in Discovery Science, 2004, pp. 230Ŕ241. [24] F. Lehmann and R. Wille, ŖA triadic approach to formalconcept analysis,ŗ ICCS, vol. 954, pp. 32Ŕ43, [25] Y. Luan and H. Li, ŖClustering of time-course geneexpression data using a mixed-effects model with bsplines,ŗ Bioinformatics, vol. 19, no. 4, pp. 474Ŕ482,2003. [26] S. Peddada, E. Lobenhofer, L. Li, C. Afshari, andc. Weinberg, ŖGene selection and clustering for time course and dose-response microarray experiments usingorder-restricted inference.ŗ Bioinformatics, vol. 19, pp.834ŕ841, [27] S. Ben Yahia, T. Hamrouni, and E. M. Nguifo, ŖFrequentclosed itemset based algorithms: a thorough structuraland analytical survey,ŗ SIGKDD Explorations, vol. 8,no. 1, pp. 93Ŕ104, [28] S. Tavazoieand, J. D. Hughes, M. J. Campbell, R. J. Cho,and G. M. Church, ŖSystematic determination of geneticnetwork architecturegenetics,ŗ Nature genetics, vol. 22,pp. 281Ŕ285, [29] Y. Cheng and G. M. Church, ŖBiclustering of expressiondata,ŗ supplementary information, Tech. Rep., [30] G. F. Berriz, O. D. King, B. Bryant, C. Sander, andf. P. Roth, ŖCharacterizing gene sets with funcassociate,ŗbioinformatics, vol. 19, pp. 2502Ŕ2504, [31] S. Bergmann, J. Ihmels, and N. Barkai, ŖDefiningtranscription modules using large-scale gene expressiondata,ŗ Bioinformatics, vol. 20, no. 13, pp. 1993Ŕ2003,2004. [32] A. Ben-Dor, B. Chor, R. M. Karp, and Z. Yakhini,ŖDiscovering local structure in gene expression data:the order-preserving submatrix problem,ŗ Journal ofcomputational Biology, vol. 10, no. 3/4, pp. 373Ŕ384,2003. [33] W. Ayadi, M. Elloumi, and J. K. Hao, ŖBicfinder:a biclustering algorithm for microarray data analysis,ŗknowl. Inf. Syst., vol. 30, no. 2, pp. 341Ŕ358, [34] W. Ayadi, ŖAlgorithmes systematiques et stochastiquesde biregroupement pour lřanalyse des donnees biopuces,ŗph.d. dissertation, University of Angres, France, ( 83 )

86 Simuler pour Evaluer les BMOs: Quelle Méthode Choisir? BADSI Hichem Benaïssa Anouar¹ GHOMARI Abdessamad Réda² ZEMMOUCHI-GHOMARI Leila³ Laboratoire LMCS,Ecole Nationale Supérieure dřinformatique (ESI)Alger, Algérie Abstract Afin de tester une proposition d indicateurs de performance destinés à mesurer l impact des ontologies du modèle d affaires (Business Model Ontologies : BMOs) sur les modèles d affaires des entreprises, une approche de simulation s avère indispensable. En effet, l évaluation d une ontologie avant et après son application dans le cadre d une entreprise, mobiliserait une équipe d experts sur une période qui reste à déterminer et sans garantie de résultats. Pour cela, il est primordial de sélectionner la méthode de simulation la plus adaptée à nos besoins. Dans le cadre du présent travail de recherche, nous avons entrepris de réaliser un benchmarking des approches de simulation les plus populaires et de mettre leurs caractéristiques respectives à l épreuve de nos contraintes. Mots-Clés Méthodes de simulation ; Evaluation par la Simulation ; Simulation en Entreprise ; Evaluation des ontologies des modèles d affaires; Simulation à base d Agents I. INTRODUCTION Le modèle dřaffaires joue un rôle prépondérant dans lřamélioration du management de lřentreprise [1]. Il peut manifestement bénéficier de la caractéristique de formalité des ontologies [2]. Toutefois, la littérature relative à ce domaine manque de cas concrets et dřéléments mesurables qui permettraient lřévaluation de ce type dřontologies sur les modèles dřaffaires des entreprises [3]. Dans un précédent travail[4], nous avons proposé un ensemble dřindicateurs de performance ayant pour objectif de mesurer lřimpact des ontologies des modèles dřaffaires sur les entreprises. Ces indicateurs sont inhérents, notamment, au degré de consensus concernant la représentation des indicateurs de performance de lřentreprise, au niveau de la standardisation et de la formalisation des processus dřaffaires ainsi quřau niveau de la standardisation des qualifications et des résultats. Cette proposition doit être validée à travers la mesure de ces indicateurs avant et après lřutilisation de lřontologie du modèle dřaffaires (Business Model Ontology : BMO) dans une entreprise donnée. Ce type dřexpérimentation comprend plusieurs contraintes, que nous énumérerons dans ce qui suit : la contribution nécessaire dřune équipe dřexperts en modèles dřaffaires, de développeurs dřontologies et de différentes parties prenantes de lřentreprise dans laquelle se déroule lřévaluation ; la durée de lřévaluation doit être déterminée de façon empirique même sřil parait évident quřelle sřétendra sur plusieurs exercices comptables afin dřobtenir des résultats probants ; la qualité des résultats obtenus nřest pas garantie (pas concluante), étant donné que ce type dřexpérimentation nřa pas été réalisé à notre connaissance. Au vu de ces contraintes de temps et de moyens, nous avons opté naturellement pour lřutilisation dřune approche de simulation pour mener à terme lřévaluation des BMOs dans le milieu des entreprises. En effet, la simulation par ordinateurest capable de fournirdes résultats précis sur desgrands volumes de donnéesen un temps réduit comparativement à lřapproche classique des expérimentations dans des conditions réelles dřexploitation [5]. Toutefois, la sélection de lřapproche de la modélisation de la simulation la plus appropriée pour le cas dřétude est souvent tributaire de sa facilité dřutilisation aux dépens des critères dřadéquation ou dřefficacité[6].nous nous attellerons à réaliser une étude comparative objective entre les différents systèmes de simulation. Lřobjectif de cet article est de réaliser un benchmarking des méthodes de simulation existantes, de les comparer et dřen sélectionner une, sur la base de critères dictés par les besoins et les contraintes de notre problématique de recherche qui est dřévaluer lřimpact des BMOs sur les modèles dřaffaires des entreprises. Notre article est organisé de la manière suivante : en Section II nous expliquons lřimportance des approches de simulation pour les entreprises. La Section III comprend la description et la comparaison des principales approches de simulation utilisées dans le milieu des entreprises. En Section IV, nous nous focalisons sur les cas dřutilisation de la simulation à base dřagents dans les entreprises à des fins dřévaluation. La Section Vprésente la synthèse de ce travail et sa conclusion. ( 84 )

87 II. SIMULATION DANS LE CONTEXTE DřUNE ENTREPRISE En recherche, les méthodes d'évaluation sont diverses[7], elles peuvent être: descriptives, observationnelles, analytiques ou encore expérimentales. Lřévaluation expérimentale est divisée en deux catégories: l'expérimentation contrôlée, qui revient à étudier l'artefact à évaluer dans un environnement contrôlé selon certains critères comme l'utilisabilité ; ou la simulation qui teste l'artefact avec des données artificielles. Par ailleurs, la simulation permet aux chercheurs d'assumer la complexité inhérente aux systèmes d'organisation comme une donnée, et par conséquent permet lřétude de systèmes plus complexes [8]. Elle a la particularité de générer des observations en se projetant dans le futur, alors que les autres méthodes dřévaluation considèrent lřhistorique pour déduire des conclusions. De plus, la nature des systèmes vivants implique l'augmentation de l'entropie (désordre) ou de la complexité (l'ordre), ainsi regarder vers lřarrière est intrinsèquement plus difficile que vers lřavant [8]. Depuis sa création, la simulation a été appliquée à divers secteurs, tels que lřindustrie, les services, la défense, la santé et les services publics. Elle est reconnue comme lřune des techniques les plus largement utilisées dans le domaine de la gestion des opérations (supervision de la conception et le contrôle du processus de production). Son utilisation a été transformée par l'invention et l'évolution de l'ordinateur, qui a appuyé l'adoption des outils et des techniques pratiques de simulation [9]. Ainsi selon Liotta[6],La pertinencede la simulationpour les entreprisesa fait ses preuves en tant quřoutilpourla conceptionetla gestion des réseauxde chaîne d'approvisionnementcomplexesou des systèmesde production. La Figure 1illustre bien le principe de simulation comme moyen de résoudre un problème en passant par lřalignement de la réalité avec un modèle abstrait.il y a une distinction entre le modèle analytique et le modèle de simulation qui apporte un atout majeur dans la possibilité de multiplier les itérations à volonté (jusquřà obtention dřun modèle optimisé); contrairement au modèle analytique où le modèle peut être inexistant ou extrêmement difficile à trouver [9]. Nous avons ajouté à la Figure 1des indicateurs de performance qui pourront être mieux analysés et évalués dans le modèle abstrait, et ainsi par la simulation êtres optimisés et mappés à nouveau vers la réalité. Ce principe est valable pour tous les types dřindicateurs y compris ceux que nous avons sélectionnés pour l'évaluation de lřimpact des BMOs en entreprise. Par exemple dans la Figure 1, nous considérons comme indicateurs ambigus ceux utilisés par lřentreprise sans avoir été validés. Le passage à un modèle abstrait simulable permettrait donc de confirmer ou dřinfirmer la pertinence des indicateurs utilisés(erroné, moyen, idéal). Concrètement, le recours à la simulation, en tant que méthode dřévaluation, comporte les avantages suivants[10, 11]: Effectuer des tests à moindre coût avant lřadoption de la technologie ; Multiplier les tests, en termes de type et de nombre, dans des environnements différents et sur une période relativement réduite; Evaluer avec une plus grande précision lřimpact des technologies adoptées sur la performance des entreprises ; Effectuer des prévisions à long terme en simulant lřévolution de lřentreprise dans le temps ; Obtenir des résultats homogènes et facilement comparables qui faciliteront la prise de décision. Cependant, des obstacles freinent l'adoption à grande échelle de la simulation distribuée et parallèle dans le contexte des entreprises tels que, le manque dřefficacité et de simplicité dřutilisation des systèmes de simulation et le manque de puissance du matériel utilisé. En effet, pour que les outils de simulation soient adoptés par les décideurs des entreprises, il est indispensable de disposer dřoutils efficaces qui produisent des modèles valides. Des architectures de systèmes de simulation facilitant l'interopérabilité et l'utilisation combinée des techniques d'optimisation et de simulation sont absolument nécessaires. Bien souvent, la vitesse d'élaboration des ordinateurs courants ne permet pas de réaliser des tests rapides de modèles d'optimisation complexes en association avec la simulation [6] De ce fait l'adéquationet la pertinence destechniques de simulationest unfacteur clédans la réussite des applications pratiquesen entreprisecar il existe unbesoin croissant d'aborder la complexitéde l'ensemble de l'entreprise comme un tout dřune part, etdřautre part, la difficultéde traiter cette complexité avecles différentsniveaux de prisede décision[9]. ( 85 )

88 III. COMPARAISON DES METHODES DE SIMULATION Jahangirian [9]a réalisé une étude sur le nombre d'applications de la simulationpar domaine dřétude. Dřaprès cette recherche la Planificationestle domaine d'applicationle plusréférencé, ce qui concorde avec les résultatsrapportés dans [13]. Le génie des procédés dans l'industrie manufacturière, qui comprend à la foisla conception et l'amélioration des processus, représentela deuxièmeapplication la plus populairede la simulation, tandis que d'autresapplications, commela gestionde la chaîne de logistique, la stratégie, le Transport et la Gestion de projet arriventplus bas dansla liste. Ces mêmes travaux ont relevé une ugmentationsignificative de la modélisationdela stratégie par la simulation, ce qui est probablement due à l'utilisationcroissantedela dynamique des systèmes. En outre,lenombre de documents surla gestion de projet, la formation à la gestion, la gestion des connaissancesetla conception organisationnelle est non négligeable. Cinq techniques de simulation ont été répertoriées comme étant les plus utilisées dans les secteurs du business et de lřindustrie [9], notamment : La simulationà événements discrets (Discrete Event Simulation, DES) La dynamique des systèmes (System Dynamics, SD) La simulation à base dřagents (Agent Based Systems, ABS) Les jeux de simulation(simulation Games, SG) La simulation hybride (Combinaison de SD et de DES) Figure 1.Modélisation de la simulation des indicateurs, Adapté de [12] Dřautres approches de simulation méritent dřêtre citées telles que : la simulation de trafic, la simulation distribuée, la simulation virtuelle, les réseaux de Pétri, la simulation de Monte-Carlo et la simulation intelligente. La littérature est prolifique en termes dřarticles décrivant lesdifférences entreces systèmes de simulation [5, 8, 12, 14, 15]. Les approches de simulation étant nombreuses et variés, nous nous focaliserons sur les trois principales : DES, SD et ABS. Dans ce qui suit, nous allons définir brièvement chacune des trois approches de simulation présélectionnées avant dřaborder lřétude comparative. La simulationà événements discrets (DES)[16] esthistoriquement la pluscommune, celle-ci suppose que le système organisationnelpeutêtre décrit commeune «machine»où les intrants(entités)arriventetsont transformés(par des événements) ensorties(entités). L'incertitudeassociée àla vraie vieest mise en œuvresous la formede variables aléatoires. La simulationà événements discretsest bonne pour étudierles éléments les plusmécaniques, prévisibles, et ordonnésde l'organisation[8]. La dynamique des systèmes(sd)[17] traite les systèmes organisationnels quelque peu mécaniques, et peut-être même déterministes. Dans la mesure où l'on peut décrire une organisation par ses États constitutifs et leurs interrelations en termes de taux ; la dynamique du système offre un riche paradigme de modélisation. Les entreprises utilisent souvent des modèles de dynamique du système à des fins de planification stratégique, mais ces efforts voient rarement le jour aux yeux du public. Selon Dooley [8], il est préférable dřutiliser les modèles de dynamique des systèmes à des fins spécifiques car son utilité sur les ( 86 )

89 problèmes génériques est marginale. Par exemple, si lřobjectif visé est «l'apprentissage organisationnel», de meilleurs résultats découleraient de lřobservation d'une véritable organisation. Les modèlesà base d'agents (ABS) [18], se concentrentsur les membresde l'organisation et prévoient que le comportement organisationnelémerge desinteractionscouplées desmembres de l'organisation. Ces modèlesnésde l'intelligence artificielleont fusionnéavec la sciencede la complexitépour offrirun paysageplus completetplus solide théoriquement au sein duquel, il est possible de développer des modèlesintéressants et instructifs. Les modèlesà base d'agentssontprobablementles mieux adaptés pourrépondre aux questionstypiques des chercheursorganisationnels [8]. Dřun point de vue théorique, l'ensemble desmodèlesde SDsontunsous-ensemble strictde l'ensemblede tous les modèlesabs [14]. C'est lethéorème dřagence (Agency Theorem) pourles dynamiques des systèmes, quidéclareque chaquemodèlesdbien formuléaune formulation équivalentedansunmodèle ABS. Par conséquent, il est possible de modéliser n'importe quelmodèlesd en utilisantle modèle ABS. En déduction, il est possible dřobtenir des résultats au moins aussi bons que par lřexécution dřun modèle SD même si les modèlesabsconsomment plus de tempsen termes de modélisation et dřexécution [14]. Dřautres travaux ont comparé les systèmes ABS avec les systèmes traditionnels DES [15] en mettant en évidence leurs différences respectives. Tout d'abord dans les systèmes ABS, les agents ont chacun leur propre comportement et sont donc considérés comme «Actifs».En revanche, les comportements des entités dans les modèles DES sont déterminés par les systèmes et sont, de ce fait, classés «passifs». Une autre différence clé est que le modèle DES est construit autour des réseaux de files d'attente, alors que dans un système ABS, il n'y a pas de notion de files d'attente. Malgré leurs différences, DES et ABS partagent certaines similitudes. Les deux sont de nature stochastique et peuvent utiliser les distributions en entrée pour modéliser un comportement aléatoire[14]. Il est également possible de les combiner par la création d'un système DES, dans lequel certaines entités sont, en fait,actives. ABSa souvent éténégligée au profitdeméthodes traditionnelles(desetsd), cela est dûe àplusieurs raisons. Tout d'abordles logicielsdisponiblessont assezdifficiles à utiliseret doncexclus parun grand nombre de modélisateurs. De plus, les modèlesabssont exigeants en termes de temps de développement.enfin, nous retiendrons la réticence despraticiensde la recherche opérationnelleenvers la modélisation à base dřagents au profit des modélisation à événements discrets ou la dynamique des systèmes[14]. Notre propre étude comparative entre les systèmes de simulation, précédemment cités, est présentée dans un tableau de synthèse (Tableau1), et ce sur la base de plusieurs critères définis dans [5, 8, 12, 14, 15], à savoir: Niveau d abstraction : qui comprend trois niveaux différenciés par le niveau de granularité (détail) croissant des entités prises en considération (par exemple : entreprise, service ou personne), à savoir : le niveau stratégique, le niveau tactique et le niveau opérationnel. Processus : Les modèles continus peuvent représenter des modifications à des moments précis dans le temps, alors que dans les modèles discrets, la progression du temps se fait par unités fixes. Nature : Les modèles déterministesprésument quetous lesparamètres du modèlesont connus etfixés avec certitude,alors que les modèlesstochastiquestiennent compte desparamètres incertainsetaléatoires. Approche : «top-down» où lřaccent est mis surla modélisation du système, paslesentités,alors quřen «bottom-up», l'accent est missur la modélisation desentitéset des interactions entreelles. Objets : un objet «Actif» veut dire que chaque entité a son propre comportement alors que pour un objet «passif» le comportement est déterminé parle système. Entités : la capacité du modèle à supporter un grand nombre dřentité et leur hétérogénéité. Dřautres critères de comparaison concernent la décentralisation et la capacité du modèle à représenter des modèles complexes, lřenvironnement et les comportements individuels, ainsi que la facilité de modification des processus. Niveau dřabstraction Processus Nature Approche Objets Entités Critère/Valeur DES SD ABS Stratégique X X Tactique X X Opérationnel X X Discret X X Continu Déterministe Stochastique X X X X Top-down X X Bottom-up Actif passif X X Nombre élevé X X Hétérogénéité X X Environnement X X Modélisation des comportments individuels Décentralisation Facilité de modifications des processus Prise en charge de modèles complexes Tableau1. Comparatif des méthodes de simulation Le tableau comparatif met en évidence la quasicomplétude de la prise en charge des critères prédéfinis par la modélisation à base dřagents. X X X X X X ( 87 )

90 Notre analyse de la problématique a mis en évidence les avantages apportés par les systèmes ABS ainsi que les similarités entre la systémique des entreprise et celle des agents, ce qui nous amènenaturellement à considérer cette technique comme la plus adéquate au regard de nos objectifs. Cette déduction est confortée par les résultats des cas dřutilisation dřabs en entreprises identifiés dans la littérature que nous détaillons dans la Section suivante. IV. SIMULATION A BASE DřAGENTS DANS LE CONTEXTE DřUNE ENTREPRISE Des cas intéressants dřutilisation de la simulation à base dřagents (ABS) pour lřentreprise ont été citésdans la littérature. Nous en décrivons une sélection dans ce qui suit, afin dřillustrer la faisabilité et la profitabilité de ce type de simulation dans le contexte des entreprises pour des besoins dřévaluation à priori: Dans [19], les auteurs proposent un modèle évolutif de réseau dřapprovisionnement afin de comprendre le principe général de son évolution.pour cela, ils effectuent une simulation multi-agents sur le modèle, et montrent que le réseau d'approvisionnement émerge et évolue de l'interaction dynamique des entreprises dans un environnement dynamique, dominé par l'environnement et les mécanismes internes des entreprises. Toutefois, l'évolution est très sensible par rapport à l'état initial et est difficile à prévoir avec précision. Dans [20], les auteurs ont utiliséle modèle ABM pour développer un modèledemarché de la consommationmultiéchelle. Lřobjectif du modèle obtenu est de tester la robustesse desstratégies de marchéet de permettreune exploration des facteursde tendances potentiels. Ils ont ensuite effectuédes tests d'étalonnage, de vérification et de validationde ce modèle. Selon eux, Lemodèle a été appliquéavec succès,par lřentreprise Procter& Gamble,àplusieursproblèmes d'affairescomplexes, dans lesquels, le modèlea directement influencéla prise de décisionmanagérialeetproduitdes économies substantielles. Dans [21], Les auteurs ont formalisé et paramétré un modèle multi-agents détaillé pour la production de six carburants et six mélanges combustibles de six matières premières à travers 13 chaînes de production, et leur adoption par 11 sous-populations distinctes d'automobilistes. Ce modèle améliore les modèles traditionnels d'optimisation des coûts en comprenant des attributs non-économiques et des commentaires sociaux. Lřadoption de carburants de remplacement étant le plus souvent limitée à des créneaux de marchéne dépassant pas les 5%. Un seul cas de transition complet de carburant a été trouvé. La variété des résultats indique quřil est impossible de faire des gains grâce à des technologies de carburant alternatives. Dans [22], les auteurs considèrent lřabm comme un outilviablepour les auditeurs, permettant de tenir compte del'interactiondefacteurs locauxet environnementauxafin de déterminerle succès organisationnel. Pour illustrer cela, ils ont développéun ABM du marché des consommateurs du transport aérienpour la compagnie Frontier Airlinesen Le modèle génèreunpourcentagedepart de marchéprévisionnel pourl'année suivante.après de nombreusessimulations, le système a généré une plus-value de part de marchésupérieur de lřordre de 0,17%, par rapport au chiffre réel obtenu par Frontieren Dans [23],les auteurs combinentla technologie multiagent avec des solutions basées-ontologiepour construire unsystèmesémantique dřaide à la décision, nommésemdss, qui esten mesure de souteniret d'automatiseren partieles processusdřapprovisionnement des marchés. Les auteurs introduisent des fondementssémantiquesdans le but d'améliorerletraitement automatisé des donnéesdans les environnementssémantiquement hétérogènes. Leur approchepropose des solutionspour résoudre le problèmedel'interopérabilité dans leprocessus d'approvisionnement. Dans [24],les auteurs étudientla dynamique collectived'un réseau dechaîne d'approvisionnement,utilisantune approche de modélisationà base d'agents. Ils ont introduitdes élémentsstochastiquesaumodèleetobservécomment les événementslocauxaffectent la performanceglobale du système. Leur modèle modifiéreprésente,plus en détail,l'environnementéconomiqueréel dans lequelopèrent les entreprises. Et cela afin de simulerl'environnementéconomique des entreprisesde façon réaliste, en ajoutant les fonctions suivantes: l'évolutiond'un réseau dechaîne d'approvisionnementavec la reconfigurationde liens, la dispersion des prix, la dynamique des prixet lescoûts de production. Dans [25], les auteursmontrent qu'il estpossible de générer desjournaux d'événementsà partir de simulationsmulti-agents. Les interactions entre les agents peuvent être enregistrées grâce à leur plateforme afin de lesutiliser pour lřanalyse et lřextractiondeprocessus. Grâce àla descriptionde haut niveaudu processusd'affaires, cejournal des événementspeutêtre utilisé pour extraireun nouveau modèlehiérarchiqueou analyser et évaluerce modèleafin de cerner d'autres possibilités de changements. Cecycle d'améliorationpeut être répétéjusqu'à ce qu'unmodèle de processussoitsatisfaisant. Dans [26], les auteurs tentent derévéler les facteurs cléspourl'évolutiondes grappes industriellesdans le cadre dudéveloppement dynamiquede l'environnement extérieuret de l'innovationinterne. Pour ce faire un modèle de systèmemulti-agentest construit etl'algorithmed'apprentissagedu modèleadressésur un algorithmegénétique. L'étude decette méthodemontre que l'évolutiondes grappes industriellesprovient del'interaction complexe desagentsinternes et que les principalesactionsdes entreprisesprenant des initiativessont les facteursfondamentaux dansle processus d'évolutiondes grappes industrielles. Le tableau croise les cas dřutilisation décrits précédemment avec quelques indicateurs proposés dans [4] pour évaluer lřimpact des BMOs dans le contexte dřune entreprise. Nous utilisons le symbole (+) ou (-) pour illustrer lřexistence ou lřabsence de la modélisation des indicateurs concernés dans les cas cités. Dans le cas favorable (+), il est possible de déduire que lřindicateur en question est ( 88 )

91 évaluable par un modèle ABS. Le symbole (/), signifie que lřinformation recherchée est indisponible. Indicateurs/ Cas dřutilisation [19] [20] [21] [22] [23] [24] [25] [26] Quelréférentieldequalitéest adoptépour le développementd'un serviceet/ou d'un produit? + / / / + / / / Quelle est la capacitéde production? + / + - / + / + Quel est le tauxde rejetdeproduits? / / / / / + / / Quel est letemps moyendefabrication de produits? + / - / - - / / Quel est le volumedevente / dřachat? / / / / Quel est le nombre de clients? / / / / Quel est le bénéficegénérépar un clientouune catégoriedeclients? / / / / Est-ce quel'entreprise entretientdes relations durables avecses clients? / / - / / Quelestle nombredeclientsattirésou acquis? / / - / / Quel est le niveau dřautonomie de lřemployé? / / / / / / / / De quelle(s) formation(s) a bénéficié lřemployé? / / / / / / / / Tableau 2. Cas dřutilisation vs. Indicateurs V. SYNTHESE ET CONCLUSION Lřétude des systèmes de simulation existants et leurs caractéristiques respectives est un travail incontournable pour réaliser une sélection objective et fondée pour répondre aux besoins de lřévaluation des BMOs dans le contexte des entreprises. En se basant sur la littérature, sur notre étude comparative (Section III) et sur les différents cas rapportés en Section IV, il en résulte que: En premier lieu, la structure dřune modélisation à base dřagents, est plus en accord avec celle de lřentreprise. Puisquřon retrouve la communication et lřinteraction entre agents humains et agents artificiels pour atteindre des objectifs individuels ou collectifs. Ces agents, peuvent se spécialiser et/ou former des équipes pour résoudre un problème donné ou atteindre un objectif global de lřorganisation. Notons également, lřéquivalence entrelřinterdépendance et lřinteraction des agents avec leur environnement et celle des employés avec leur environnement de travail direct ou avec les entreprises faisant partie de leur environnement économique, politique ou géographique. Dans un second lieu cette concordance entre les systèmes à base dřagents et lřentreprise permet une meilleure compréhension des phénomènes inhérents à ces organisations.en effet, il sera plus simple de suivre le déroulement dřévènements sur un modèle fonctionnant avec la même logique que la réalité, où lřimprévisible est généré par lřinteraction et non par des variables aléatoires comme dans les systèmes de simulation à événements discrets. En troisième lieu, Le démontre bien quřune modélisation à base dřagents permet indubitablement de modéliser quelques indicateurs de performance définis dans nos travaux précédents [4], et que leur simulation par ce biais nous permettra de valider leur pertinence pour la mesure de la performance des BMOs. On remarque dans le tableau ci-dessus, que la plupart des entités relatives à nos indicateurs sont modélisables excepté pour les indicateurs relatifs aux employés qui ne sont pas pris en charge par les cas cités dans la section précédente. Toutefois, la modélisation à base dřagents est bien connue pour ses aptitudes à modéliser les comportements sociaux [27]. De plus, le modèle de simulation que nous prospectons se doit dřêtre le plus générique possible (non spécifique ou relatif à une catégorie dřentreprise), par conséquent, la simulation par la dynamique des systèmes nřest donc pas recommandée pour répondre à nos besoins. Dřailleurs, Borshchev et Filippov [12] affirment que la modélisationà base d'agentsest destinée à ceuxqui souhaitent allerau-delà deslimites des approchessdetdes, en particulier dans lecas où lesystème modélisécontient des objetsactifs(personnes,unités d'affaires, animaux, véhicules, projets, et produits) ainsi que la synchronisation, la commande dřévénements ou dřautres types decomportement individuel. De ce fait, des trois modèles présentés et comparés, la modélisation à base dřagents sřimpose naturellement pour répondre aux besoins de notre évaluation, et cela malgré son principal inconvénient: la dualité complexité/fonctionnalité des outils y afférents. Par conséquent, lřapproche la plus prometteuse pour la suite de nos travaux de recherche sřavère être la modélisation à base dřagents, qui par ses similitudes naturelles avec lřentreprise devrait nous apporter le plus dřinformation pertinentes pour confirmer ou infirmer nos hypothèses de départ. Les perspectives de nos travaux sřinscrivent dans lřélaboration dřun modèle de simulation multi-agent avec lequel il sera hypothétiquement possible dřévaluer lřimpact des ontologies du business model sur les modèles dřaffaires des entreprises REFERENCES ( 89 )

92 [1] Osterwalder, A., The business model ontology: A proposition in a design science approach.institut dřinformatique et Organisation. Lausanne, Switzerland, University of Lausanne, Ecole des Hautes Etudes Commerciales HEC, [2] Dietz, J.L., System Ontology and its role in Software Development. EMOI-INTEROP, [3] Zott, C., R. Amit, and L. Massa, The business model: recent developments and future research. Journal of management, (4): p [4] Badsi, H.B.A., L. Zemmouchi-Ghomari, and A.R. Ghomari, How to measure business value of business model ontologies? A proposal. IJBIS (International Journal of Business Information Systems, Inderscience), xxxx. x(x): p. (in press). [5] Scholl, H.J. Agent-based and system dynamics modeling: a call for cross study and joint research. in System Sciences, Proceedings of the 34th Annual Hawaii International Conference on IEEE. [6] Liotta, G., Simulation of supply-chain networks: a source of innovation and competitive advantage for small and medium-sized enterprises. Technology Innovation Management Review, 2012(November: Insights). [7] Hevner, A.R., S.T. March, J. Park, S. Ram, Design science in information systems research. MIS Quarterly, (1): p. 75Ŕ 105. [8] Dooley, K., Simulation research methods. Companion to organizations, 2002: p [9] Jahangirian, M., T. Eldabi, A. Naseer, L.K. Stergioulas, T. Young, Simulation in manufacturing and business: A review.european Journal of Operational Research, (1): p [10] Rejeb, L., simulation multi-agents de modèles économiques Vers des systèmes multi-agents adaptatifs. 2005, Thèse de doctorat de lřuniversité Reims Champagne-Ardennes. [11] Lopez-Sanchez, M., X. Noria, J.A. Rodríguez, N. Gilbert, Multiagent based simulation of news digital markets.international Journal of Computer Science & Applications, (1): p [12] Borshchev, A. and A. Filippov. From system dynamics and discrete event to practical agent based modeling: reasons, techniques, tools. in Proceedings of the 22nd international conference of the system dynamics society [13] Shafer, S.M. and T.L. Smunt, Empirical simulation studies in operations management: context, trends, and research opportunities. Journal of Operations Management, (4): p [14] Maidstone, R., Discrete Event Simulation, System Dynamics and Agent Based Simulation: Discussion and Comparison. System, 2012: p [15] Siebers, P.-O.,C.M. Macal, J. Garnett, D. Buxton, M. Pidd, Discrete-event simulation is dead, long live agent-based simulation! Journal of Simulation, (3): p [16] Law, A.M., W.D. Kelton, and W.D. Kelton, Simulation modeling and analysis. Vol : McGraw-Hill New York. [17] Forrester, J.W., Industrial dynamics. Vol : MIT press Cambridge, MA. [18] Macal, C.M. and M.J. North, Tutorial on agent-based modelling and simulation. Journal of Simulation, (3): p [19] Li, G., P. Ji, L.Y. Sun, W.B. Lee, Modeling and simulation of supply network evolution based on complex adaptive system and fitness landscape. Computers & Industrial Engineering, (3): p [20] North, M.J., C.M. Macal, J.st Aubin, P. Thimmapuram, M. Bragen, J. Hahn, J. Karr, N. Brigham, D. Hampton, Multiscale agent-based consumer market modeling. Complexity, (5): p [21] Vliet, O.v., B. Vries, A. Faaij, W. Turkenburg, W. Jager, Multiagent simulation of adoption of alternative fuels. Transportation Research Part D: Transport and Environment, (6): p [22] Kuhn, J.R., J.F. Courtney, and B.J. Morris, Agent Based Simulation and the Auditor Going Concern Opinion: A Case Study of Frontier Airlines. International Journal of Business and Social Science, (22): p [23] Gottfried, K.,M. Merdan, W. Lepuschitz, T. Moser, C. Reinprecht, Multi Agent Systems combined with Semantic Technologies for Automated Negotiation in Virtual Enterprises. Multi-Agent Systems-Modelling, Control, Programming, Simulations and Applications, 2011: p [24] Mizgier, K.J., S.M. Wagner, and J.A. Holyst, Modeling defaults of companies in multi-stage supply chain networks. International Journal of Production Economics, (1): p [25] Ferreira, D.R., F. Szimanski, and C.G. Ralha, Mining the low level behaviour of agents in high level business processes. International Journal of Business Process Integration and Management, (2): p [26] Yang, Y. and W. Niu, Multi-Agents Model and Simulation for the Evoluti²on of Industrial Clusters. Journal of computers, (2). [27] Bonabeau, E., Agent-based modeling: Methods and techniques for simulating human systems. Proceedings of the National Academy of Sciences of the United States of America, (Suppl 3): p ( 90 )

93 Exploration diversifiée par entités nommées Imène SaidiUniversité dřoran, Laboratoire LITIO BP 1524, El-MřNaouer, Oran, Algérie Sihem Amer Yahia CNRS, LIG Grenoble, France Safia Nait BahloulUniversité dřoran, Laboratoire LITIO BP 1524, El-MřNaouer, Oran, Algérie AbstractŕLe web est devenu la principale source où les utilisateurs trouvent et publient des informations. Les pages web portent souvent sur un sujet particulier et sont écrites autour d'entités nommées (une personne, un pays, etc..) mais quelques moteurs de recherche restent inadéquats à certains types de recherche. En effet, ce que les utilisateurs cherchent réellement dans le web ne sont pas les pages web mais des informations que celles-ci contiennent (dans ce cas, des entités). Dans cet article, nous considérons le problème de la recherche d'entités pertinentes relatives aux requêtes des utilisateurs. Les entités recherchées pouvant être connues ou inconnues, les utilisateurs devraient avoir le choix de poser leurs requêtes de différentes manières (recherche par une/des entités, recherche par mots clés relatifs). Nous considérons également la multitude de types d'entités (Paris : ville, personne) et de catégories des documents contenant les entités (Politique, Sports,...). Nous proposons alors une approche qui traite différents types de requêtes (entités connues, ou inconnues décrites par des mots dont l'interprétation sera faite autour d'entités) et permet l exploration des résultats des entités trouvées en les diversifiant par les types et les catégories identifiés. Nos expériences démontrent l efficacité de notre approche. Keywords Recherche d entités; diversité des résultats de la recherche; Recherche d informations; indexation I. INTRODUCTION La recherche d'information suscite depuis fort longtemps l'attention de la communauté scientifique mais avec l'expansion d'internet, la mise en œuvre de solutions capables d'exploiter le contenu du web et d'améliorer la performance de la recherche est devenue primordiale. Des techniques ont été proposées et des applications ont été réalisées, leur objectif est de fournir aux utilisateurs des réponses pertinentes par rapport aux besoins qu'ils expriment. Dans certains cas, ce que l'utilisateur cherche réellement dans le web n'est pas les pages web, mais des informations que celles-ci contiennent (c.-à-d. des unités ou des entités) d'où l'idée de la recherche directe d'entités [1]. Trouver des entités à la place des documents dans le web est un axe de recherche récent dans la recherche dřinformations (RI). Les travaux de lřétat de lřart motivent leurs approches de la recherche dřentités dans le contexte du web. Dans notre travail, nous nous intéressons à des domaines dřapplications spécifiques où la plupart des documents sont écrits autour dřentités nommées et sont organisés par thèmes. Parmi ces domaines, nous pouvons trouver les forums de discussion, les articles de journaux, les wiki news, etc. Dans ce travail, nous construisons un système de recherche d'entités qui prend en charge des requêtes construites par une ou plusieurs entités (Recherche par entités) ainsi que les requêtes de mots clés (Recherche d'entités par des mots clés) et retourne des entités relatives aux requêtes. Dans notretravail, nous visons à offrir à l'utilisateur la possibilité de trouver des entités pertinentes aux différentes requêtes tout en augmentant la diversité des résultats. Le problème de la diversité des résultats de la recherche a été traité dans de nombreux travaux dans le contexte de recherche de documents [2] [3] [4], néanmoins, la définition que nous allons conférer à la diversité nous permettra de contourner sa complexité qui a été définie comme un problème NP-complet. Notre définition de la diversité se base sur différentes caractéristiques des entités, à savoir, les types des entités (personne, pays, ) et les catégories des documents qui contiennent les entités (politique, sport, ). A notre connaissance, ce type de diversité est nouveau et nřa jamais été proposé dans les travaux de lřétat de lřart qui sont relatifs à la recherche dřentités. Notre approche permet lřexploration des différentes entités trouvées ainsi que leurs documents diversifiés(les documents portant sur chaque entité). Nous évaluons notre approche en utilisant le corpus 20NewsGroups 8. Nos expériences démontrent lřefficacité de notre approche à retourner des résultats diversifiés aux utilisateurs. Cet article est organisé comme suit. Dans la section 2, nous présentons quelques travaux relatifs à la recherche d'entités. La section 3 est consacrée à la présentation des exemples de motivationet la Section 4 à la solution du problème ainsi quřà la présentation de lřalgorithme. La section 5 est réservée aux expérimentations. Dans la section 6, nous présentons une conclusion et des perspectives. II. TRAVAUX RELATIFS A LA RECHERCHE DřENTITES Le concept de la recherche d'entités a été présenté en [1]il a pour but d'exploiter la richesse du web afin d'en tirer les données enfouies dans les pages non structurées. Les premiers travaux [5] [6] [7] sur la recherche dřentités proposent principalement des approches efficaces pour le passage à lřéchelle dans le contexte du web mais ne sřoccupent pas de lřefficacité de la recherche des entités [8]. Dans [8], une architecture est proposée pour la recherche dřentités et des algorithmes efficaces sont présentés pour le classement des entités trouvées. Dans [9], les auteurs ont proposé un système pour une recherche d'entités efficace en se basant sur les tables relationnelles et dans [10], ils ont proposé une méthode pour faciliter les traitements nécessaires de la recherche en s'inspirant du succès que l'index inversé a connu dans la RI. La proposition est de concevoir des index qui facilitent le traitement en 8 ( 91 )

94 considérant les entités comme mots clés pour l'index. Dans notre travail nous nous baserons également sur la construction dřindex qui nous sera utile pour le traitement des différentes requêtes. Quelques approches de la recherche dřentités ont été proposées dans le contexte de Wikipédia, leur but est de classer les entités trouvées en exploitant les liens entre les pages de Wikipédia [11]. Dřautres approches [12] [13] utilisent la sémantique et les techniques NLP (Neurolinguistic programming) pour améliorer lřefficacité de la recherche dřentités. Dans un autre travail [14], le premier moteur de recherche d'entités a été présenté. Le système de recherche d'entités proposé crée un document de concordance pour chaque entité, ce document représente toutes les phrases contenant cette entité dans tout le corpus. Ces documents seront alors indexés et recherchés en utilisant des logiciels de recherche open-source, le résultat sera une liste des entités classées. La recherche dřentités est également utilisée pour lřanalyse des résultats des moteursde recherche. Les auteurs de [15], proposent de chercher les entités dans les snippets 9 des résultats, un snippet étant un texte de 10 à 20 mots. Ils proposent dřenrichir les systèmes de recherche classiquepar les résultats de la recherche des entités nommées. Cet enrichissement sera effectué au moment de traitement de la requête, aucun prétraitemet nřest fait au préalable. Lřinconvénient de cette approche est que les snippets ne contiennent pas toutes les entités nommées. Dans un autre travail [16], les auteurs étendent la recherche des entités du travail précédent [15] en considérant les textes complets des résultats. Lřinconvénient de cette approche est le traitement des gros volumes de données et la consommationconsidérable des ressources, aucun prétaitement nřest effectué également. Le graphe de connaissance "Google Knowledge Graph" [17], mis en place récemment par Google comprend les entités du monde réel et leurs relations et améliore la recherche de Google en retournant à lřutilisateur une description de lřentité quřil cherche si la requête est composée dřune seule entité seulement. La contribution de notre travail est de considérer différents types de requêtes et retourner des entités ainsi que leurs documents en interprétant les requêtes par les entités des documents de manière à maximiser la diversité des résultats. Dans les travaux cités précédemment, aucune diversification n'a été proposée pour les résultats. III. EXEMPLES DE MOTIVATION Dans le cadre de ce travail, les entités recherchées peuvent être connues lorsque l'utilisateur saisit une entité (Recherche par une Entité "R1E") ou plusieurs entités (Recherche par Plusieurs Entités "RPE") ou inconnues s'il ignore le nom de l'entité et saisit des mots clés relatifs (Recherche par Mots clés "RMC"). Supposons que l'utilisateur souhaite avoir des informations sur les marques de voitures. Lřutilisateur peut poser différentes requêtes. 9 Le snippet est une description ou un extrait de la page qui apparaît sous son titre et son URL. Exemple 1. Dans le premier scénario 1 (Fig. 1), lřutilisateur veut avoir des informations sur une marque de voiture particulière : ce cas représente la recherche d'une entité : R1E. Lřutilisateur saisit l'entité (connue) qu'il veut trouver: "Ford", il aura en résultat l'entité "Ford" avec les entités composées par "Ford". Lřentité Ford a plusieurs types, il peut s'agir de Gerald Ford l'ancien président d'amérique, de la marque de voiture Ford ou encore d'une région en Amérique. Nous supposons que c'est plus intéressant de prendre en compte les différents types d'une même entité et de retourner à l'utilisateur les documents les plus pertinents de chaque type. Nous avons nommé cette approche : diversification par types. Les entités composées par "Ford" seront retournées aussi à l'utilisateur ainsi il pourra explorer leurs documents relatifs. Exemple Fig. 2. Recherche 2. Dans le par deuxième plusieurs entités scénario ŖRPEŗ 2 (Fig. 2), lřutilisateur veut avoir des documents portant sur deux marques de voitures (il cherche un lien ou une comparaison entre les marques) : ce cas représente la recherche par plusieurs entités : RPE. Lřutilisateur saisit les entités (connues) : "Ford et Chevrolet", il aura en résultat les documents portants sur les deux entités. Les entités relatives, qui apparaissent dans le même contexte seront retournées à l'utilisateur, nous les avons nommé : entités contextuelles. Nous supposons dans ce cas que c'est intéressant de prendre en compte les différentes catégories des documents les plus pertinents de la requête. Nous avons nommé cette approche : diversification par catégories. Les entités relatives seront retournées aussi à l'utilisateur ainsi il pourra explorer leurs documents relatifs. Exemple 3. Dans le troisième scénario 3 (Fig. 3), lřutilisateur veut avoir des informations sur les différentes ( 92 )

95 compagnies de voitures : ce cas représente la recherche d'entités par mots clés : RMC. Lřutilisateur saisit sa requête : "compagnie de voiture", il aura en résultat les entités relatives (entités contextuelles) à cette requête et les résultats de chaque entité trouvée seront traités comme le cas de la recherche par entités (diversification par types si l'entité a plusieurs types sinon diversification par catégories). Fig. 3. Recherche par plusieurs entités ŖRPEŗ IV. NOTRE APPROHE Pour certaines sources de données telles que les forums et les articles de Fig. journaux, 3. Recherche nous par motsclés supposons ŖRMCŗ que cřest plus intéressant dřinterpréter les requêtes des utilisateurs par les entités contenues dans les sources. Les entités existantes peuvent avoir plusieurs types et les documents les contenant peuvent avoir plusieurs catégories.a cet effet, nous exploitons cette multitude pour diversifier les résultats retournés à lřutilisateur en prenant en considération la pertinence. Dans ce qui suit, nous allons présenter notre modèle de données et nous donnerons aussi les étapes de notre approche. A. Modèle de donnée Soit D lřensemble de tous les documents du corpus, E lřensemble des entités du corpus et K lřensemble des mots clés. Chaque document d D contient un ensemble dřentités e i ie et un ensemble de mots clés K. Nous supposons un ensemble de catégories C (Politique, Technology_Internet, Sports,...) et un ensemble de types T (Person, Company,...). Un document a un identificateur id, une catégorie c C avec un score score(c). Une entité a un identificateur id_e et a un ou plusieurs types types T avec un score score(e) du type. B. Etapes de notre approche Nous considérons D, corpus des documents semi ou non structurés (dřun forum, site de news, etc.), notre approche consiste à faire dřabord un prétraitement hors ligne pour préparer les informations au traitement en ligne, la figure (Fig. 4) résume les étapes de notre approche : Fig. 4. Etapes de notre approche Etape 1 : Traitement Offline (Fig. 4) Nous commençons par le traitement hors ligne qui consiste à annoter le corpus des documents D en utilisant un système dřannotation automatique tel quřopen Calais 10, pour extraire les entités, leurs types et les catégories des documents avec leurs scores dřextraction. Ce système rattache des méta-données sémantiquement riches aux documents en les catégorisant en thèmes et en extrayant les entités nommées quřils contiennent avec des scores. Nous créons différents index pour stocker les informations, i.e. les mots clés, les entités, les types, les catégories et les scores. Nous avons pris pour les scores : le tf*idf pour le mot clé, le score(e) pour une entité e qui est extrait par Open Calais ainsi que le score(c)dřune catégoriecextrait également par Open Calais. Trois index sont nécessaires, à savoir : - Un index inversé classique pour les mots clés (KI : Keywords Index) qui stocke les mots clés avec leurs tf*idf. - Un index inversé pour les types dřentités (EI : Entities Index), qui permet de déterminer les documents où une entité apparait et quel est son type et son score (score(e)) - Un index pour les entités et les catégories des documents (DI : Document Index), qui permet de savoir quelles sont les entités dřun document et quelle est sa catégorie avec son score (score(c)). Etape 2 : Traitement Online (Fig. 4) Dans le traitement en ligne, nous utilisons nos index.considérons une requête Q = {t 1,..., t n } / t i E K,Q est une requête de recherche par mots clés ou une requête de recherche par une/des entités. Le traitement des requêtes est présenté dans lřalgorithme 1. Selon le type de la requête Q, notre idée est dřoffrir une diversification dřinterprétations en retournant un ensemble dřentités que nous nommons R, tel que : 10 Open calais, ( 93 )

96 Cas 1 : R sont les entités qui apparaissent dans les documents communs entre les entités de la requête si la requête est de type RPE. Nous supposons que lorsque lřutilisateur exprime une requête dřentités (RPE), cřest quřil cherche un lien ou veut faire une comparaison (ex, Sarkozy et Merkel, Renault ou Peugeot, infection et tumeur,...), voir lřalgorithme 1 suivant de la ligne 9 à la ligne 13. Cas 2 : Un cas spécial de ce type de requête (RPE) est le cas Recherche par une Entité.Si la requête nřest composée que dřune seule entité, R sera égal à lřentité ellemême étendue par les entités composées par cette dernière, cřest à dire, les entités qui commencent, finissent ou contiennent lřentité de la requête. Voir lřalgorithme 1 de la ligne 4 à la ligne 7. Notant que si la requête est un mélange dřentités et de mot clés (non vides et nřa pas dřopérateurs logiques), elle est alors considérée comme une requête de mots clés (RMC). Cas 3 : R sont les entités qui apparaissent dans les meilleurs documents (Top k) qui répondent à la requête si la requête est une recherche par mots clés RMC. Les entités sont extraites en utilisant lřindex DI (voir lřalgorithme 1 de la ligne 13 à la ligne 16).Pour ce type de recherche RMC, nous avons considéré la requête comme une requête Top k dont les résultats sont associés à un score. Dans notre travail le tf*idf du mot clé est utilisé comme score et est trouvé dans lřindex KI. Les documents ayant le plus grand score sont les Top k résultats. Dans notre approche, nous avons utilisé lřalgorithme du Top k processing proposé dans [18]. Nous supposons que les entités qui apparaissent dans les meilleurs documents ou les documents communs entre les entités de la requête sont pertinents (i.e. répondent à la requête) ou contextuelles (i.e. apparaissent dans le contexte donc peuvent intéresser lřutilisateur). Après avoir trouvé lřensemble R, un même traitement sera appliqué à toutes les entités trouvées pour diversifier les documents relatifs aux entités et pour que l'utilisateur puisse explorer les résultats de n'importe quelle entité de R. Pour chaque entité e R, il sřagit dřidentifier un ensemble S = {d 1 d m } de documents à retourner à lřutilisateur comme suit : Ŕ Si lřentité a plusieurs types : la diversification des documents est faite selon les types de lřentité. "Au moins un document" par type (meilleur document, selon le plus grandscore(e)) doit être retourné àlřutilisateur pour garantir un maximum de diversité. Les autres documents seront sélectionnés selon pertinence c.-à-d., leurs scores doivent dépasser un seuil.voir lřalgorithme 1 de la ligne 19 à la ligne 24. Ŕ Si lřentité a un seul type : la diversification des documents est faite selon les catégories des documents relatifs à lřentité. "Au moins un document" par catégorie (meilleur document, selon le plus grand cscore) doit être retourné à lřutilisateur pour garantir un maximum de diversité. Les autres documents sont sélectionnés selon leur pertinence, c.- à-d., leurs scores doivent dépasser le seuil. Voir lřalgorithme 1 de la ligne 26 à la ligne 30. La condition "Au moins un document" garantit que les documents ayant un type dřentité unique ou une catégorie unique ne seront pas négligés, même si leur score nřest pas élevé (nřatteint pas le seuil de pertinence). Cela maximise la diversité. Dans notre travail, nous exploitons les différents types et catégories extraits par annotations du corpus et stockés préalablement dans des index. Ceci nous permet de contourner la complexité du problème de diversification des documents définit comme un problème NP-Complet puisquřil sřagit de trouver un sous-ensemble divers de taille N dans un ensemble plus grand. Cřest la définition de la diversité dans notre problème qui nous permet dřindexer le traitement et de simplifier la complexité des requêtes. Algorithme 1 : Traitement_requête Entrées : Q /*La requête*/ Sorties : R /*Ensemble dřentités*/, S[] /*Les listes des documents diversifiés des entités*/ 1 Début 2 R[] ; /*La liste des entités relatives trouvées*/ 3 Si (Q.RPE() == Vrai) alors 4 Si (Q.nbr_entités() == 1) alors 5 /*Si lřutilisateur cherche par une seule entité*/ ; 6 R entitiés_composées(q, EI) ; 7 /*Consulter lřindex pour trouver les entités composées*/ 8 Sinon/*Si lřutilisateur cherche par plusieurs entités*/ 9 DocCommuns [] : liste ; 10 DocCommunschercher_docs_communs (Q, EI) 11 R DI.entities(DocCommuns) ; 12 /*Trouver les entités qui apparaissent dans DocCommuns en utilisant DI*/ 13 Finsi 14 Sinon 15/* Requête de mots clés i.e. RPE== Faux*/ 16 R DI.entities(topK(KI,Q)); 17 Finsi 18 Pour chaque e dans R do 19 e.docs[ ] EI.Accès(e); /* Mettre les documents de e dans docs */ 20 Si(e.hasTypes == Vrai) alors 21 /*Si lřentité a plusieurs types */ ; 22 e.s types(meilleur_document (score(e))) ; 23 /*Prendre le meilleur document de chaque type de e pour assurer la diversité des types */ 24 e.s e.s + documents_pertinents(seuil) ; 25 /*Ajouter les documents de chaque type qui dépassent le seuil de la pertinence */ 26Sinon/*Si lřentité a un seul type*/ ; 27 e.s catégories(meilleur_document (score(c))) ; 28 /*Prendre le meilleur document de chaque catégorie pour assurer la diversité des catégories*/ 29 e.s e.s + documents_pertinents (seuil) ; /*Ajouter les documents de chaque catégorie qui dépassent le seuil de pertinence */ 30Finsi 31 Fin 32 Fin V. EXPERIENCES Nous avons implémenté en java un prototype du fonctionnement de notre système. L'architecture du système est composée de deux parties, une partie hors ligne (offine) et une partie en ligne (online). Le prototype réalisé permet dans un premier temps d'indexer et d'annoter le corpus de ( 94 )

97 documents afin de créer les index présentés préalablement (KI, EI, DI). Pour l'annotation, l'api dřopen Calais a été utilisée. Les index contiendront toutes les informations nécessaires au traitement en ligne des requêtes. Dans le traitement en ligne, notre prototype permet de traiter les requêtes des utilisateurs. Il offre à l'utilisateur le choix entre une requête de recherche par entités ou une requête de recherche par mots clés et retourne des résultats, c'est à dire des entités et des documents pertinents aux entités trouvées. Les documents sont classés et diversifiés pour augmenter à la fois la pertinence et la variété des résultats. Le corpus 20 NewsGroups 11 est utilisé pour les expériences. Ce dataset est une collection d'environ messages, collectés de 20 différents newsgroups (environ 1000 messages par groupes).ce corpus a été choisi pour sa richesse en entités et en catégories. Lřétude expérimentale est en cours, elle nřest pas totalement couverte par cet article, nous avons néanmoins mesuré la qualité des résultats obtenus etpour cela, nous avons fait des tests utilisateur. Par le biais de formulaires, nous avons demandé à 10 utilisateurs de numéroter de 1 à 3, les réponses de 5 requêtes obtenues par notre prototype, ((1) étant très pertinent, (2) peut être pertinent et (3) pas du tout pertinent), et ce pour les trois types de requêtes (R1E, RPE, RMC).Les réponses ont été agrégées et la moyenne a été calculée et transformée en pourcentage pour chaque requête (pourcentage de pertinence). Requête R1E : Pour le premier type R1E, les requêtes posées sont présentées dans le tableau suivant ainsi que le nombre et les pourcentages des entités retrouvées : Requêtes R1E Nombre d'entités trouvées REQUETES R1E Pourcentage des entités pertinentes Pourcentage des autres entités composées Chevrolet % 16.66% Lincoln % 48.48% America % 42.10% Ford 25 57% 35% Cancer % 56.31% Les entités composées sont pertinentes lorsque elles sont notées (1) par les utilisateurs, ceci représente le pourcentage des entités pertinentes (voir Table I). Nous avons remarqué que les entités sont parfois notées (2) puisque certaines entités composées sont moins pertinentes que les autres du point de vue de leur sens par rapport à lřutilisateur.elles sont constituées par la même entité mais peuvent exprimer des choses complétement différentes (exemple : Lincoln : voiture, personne, ville) ce qui explique les résultats obtenus dans la Table I.Lorsque les entités trouvées sont notées (3), les utilisateurs nous ont exprimé le fait quřils ne connaissent pas lřentité composée retournée. Nous pensons enrichir les entités retournées par des snippets décrivant lřentité. Nous remarquons quele pourcentage moyen des requêtes de Table I est de 46.67% pour les entités pertinentes et 39.71% pour les autres entités 11 composées, donc globalement 87.38% des entités retournées satisfont les utilisateurs (très pertinentes ou peuvent être pertinentes). Requête RPE : Pour le deuxième type RPE, nous présentons dans Table II les requêtes posées ainsi que le nombre et les pourcentages des entités trouvées : Requêtes RPE Nombre d'entités relatives trouvées REQUETES RPE Pourcentage des entités pertinentes Pourcentage des entités contextuelles Ford and Chevrolet % 16.66% Lincoln and bush % 11% Infection and tumors 8 50% 33% Volvo USA % 25.61% Washington and Baghdad % 27.65% Lorsque les entités répondent à la requêtes elles ont été notées (1) (pourcentages de entités pertinentes, voir Table II), lorsquřelles avaient un lien avec le contexte de la requête elles ont été notées (2) (pourcentages de entités contextuelles, voir Table II). Le reste des entités sont non significatives i.e. les entités qui apparaissent dans le contexte mais qui ne nřont pas de liens avec la requête. Nous remarquons quele pourcentage moyen des requêtes de Table II est de 52.67% pour les entités pertinentes et 22.78% pour les entités contextuelles, donc globalement 75.54% des entités retournées satisfont les utilisateurs. Requête RMC : Pour le troisième type RMC, les requêtes posées sont présentées dans Table III, nous présentons également le nombre des entités retrouvées ainsi que les pourcentages de pertinence : Requêtes RMC Nombre d'entités relatives Trouvées REQUETES RMC Pourcentage des entités pertinentes Pourcentage des entités contextuelles Ford car % 28.57% Patient disease % 22% Car dealer % 20% Buy Ford 14 29% 29.32% Prime minister % 35.82% Dans Table III, nous avons calculé le pourcentage des entités pertinentes qui ont été notes (1) par les utilisateurs. Les entités notées (2) sont contextuelles (Voir Table III). Pour toutes les requêtes de Table III, au moins 27% des entités retournées sont pertinentes (requête prime minister) et au moins 20% des entités sont contextuelles (requête car dealer). Le pourcentage moyen des requêtes de Table III est de 34.35% pour les entités pertinentes et 27.14% pour les entités contextuelles, donc globalement 61.49% des entités retournées satisfont les utilisateurs. La qualité des résultats est moins bonne que les deux autres types de requêtes (R1E, RPE) car lřinterprétation des mots clés est plus complexe que celle des entités. Une amélioration de cette partie de notre approche est prévue dans un futur travail. ( 95 )

98 VI. CONCLUSION ET PERSPECTIVES Nous avons présenté une approche de diversification des résultats de la recherche des entités et nous avons considéré trois types de recherche : recherche par une entité (R1E), recherche par plusieurs entités (RPE) et recherche par mots clés (RMC). Le but de notre approche est de permettre lřexploration des résultats diversifiés qui sont retournés aux utilisateurs. Les entités pertinentes retournées (qui répondent à la requête)sont soit étendues par les entités composées si la requête est formée dřune seule entité soit par les entités apparaissant dans le contexte de la requête (entités contextuelles) si elle est formée par plusieurs entités ou par mots clés. Les entités trouvées peuvent avoir plusieurs types et les documents répondant à une entité trouvée peuvent aussi avoir plusieurs catégories. Notre définition de la diversité sřappuie donc sur les types et les catégories trouvés par annotation. Les documents les plus pertinents (dépassant un seuil) de chaque type ou catégories sont pris comme résultat pour assurer la diversité. En résumé nous pouvons dire que l'objectif de ce travail est dřintroduire la notion de la diversité des résultats dans le cadre de la recherche d'entités et par entités, ainsi que la sélection des résultats les plus pertinents à différents types de requêtes. Pour une continuation de ce travail, plusieurs perspectives peuvent être envisagées, parmi ces perspectives nous pouvons citer : Attributiondřun nouveau score auxrésultats en considérant la fiabilité de l'extraction des systèmes d'annotations. Améliorer les algorithmes pour éviter les cas d'impertinence des résultats. Appliquer un classement pertinent aux entités trouvées pour faciliter l'exploration et ajouter un descriptif aux entités retournées. REFERENCES [1] T. Cheng, X. Yan, and K. C.-C. Chang. Supporting entity search: a largescaleprototype search engine. In SIGMOD Conference, pages , [2] Agrawal R., Gollapudi S., Halverson A., Ieong S. (2009). Diversifying search results. In Wsdm,p [3] Drosou M., Pitoura E. (2010). Search result diversification. SIGMOD Record, vol. 39, no 1,p [4] Angel A., Koudas N. (2011). Efficient diversity-aware search. In Sigmod conference, p [5] T. Cheng and K. C.-C. Chang. Entity search engine: Towards agile best-effort information integration over the web. In CIDR 2007, Third Biennial Conference on Innovative Data Systems Research, Asilomar, CA, USA, January 7-10, pages 108Ŕ [6] H. Bast, A. Chitea, F. Suchanek, and I. Weber. Ester: efficient search on text, entities, and relations. In SIGIR ř07: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, pages 671Ŕ678, New York, NY, USA, ACM [7] T. Cheng, X. Yan, and K. C.-C. Chang. Entityrank: searching entities directly and holistically. In VLDB ř07: Proceedings of the 33rd international conference on Very large data bases,pages 387Ŕ398. VLDB Endowment, [8] Gianluca Demartini, Claudiu S. Firan, Mihai Georgescu, Tereza Iofciu, Ralf Krestel, Wolfgang Nejdl: An Architecture for Finding Entities on the Web.LA-WEB/CLIHC 2009: [9] M. Zhou, T. Cheng, and K. C.-C. Chang. Data-oriented content query system : Searching fordata into text on the web [10] T. Cheng and K. C.-C. Chang. Beyond pages : Supporting efficient, scalable entity search with dual-inversion index [11] J. Pehcevski, A.-M. Vercoustre, and J. A. Thom. Exploiting locality of wikipedia links in entity ranking. In C. Macdonald, I. Ounis, V. Plachouras, I. Ruthven, and R. W. White, editors, Advances in Information Retrieval, 30th European Conference on IR Research, ECIR 2008, Glasgow, UK, March 30-April 3, Proceedings, volume 4956 of Lecture Notes in Computer Science, pages 258Ŕ269. Springer, [12] G. Demartini, C. S. Firan, T. Iofciu, R. Krestel, and W. Nejdl. A model for ranking entities and its application to wikipedia. Web Congress, Latin American, 0:29Ŕ38, [13] G. Demartini, C. S. Firan, T. Iofciu, and W. Nejdl. Semantically enhanced entity ranking. In J. Bailey, D. Maier, K.-D. Schewe, B. Thalheim, and X. S. Wang, editors, WISE, volume 5175 of Lecture Notes in Computer Science, pages 176Ŕ188.Springer, [14] Bautin M., Skiena S. (2009). Concordance-based entity-oriented search. Web Intelligence andagent Systems, vol. 7, no 4, p [15] Fafalios P., Kitsos I., Marketakis Y., Baldassarre C., Salampasis M., Tzitzikas Y. (2012). Websearching with entity mining at query time. In Irfc, p [16] Kitsos I., Magoutis K., Tzitzikas Y. (2013). Scalable entity-based summarization of web searchresults using mapreduce. In Distributed and parallel databases (dapd), springer journals. [17] Singhal A. (2012). Introducing the knowledge graph: things, not strings. [18] R. Fagin, A. Lotem, and M. Naor. Optimal aggregation algorithms for middleware. J. Comput. Syst. Sci., 66(4):614656, 2003 ( 96 )

99 Une approche sémantique pour la recommandation de services dans le cadre dřune formation en ligne Khaled BEDJOU Lamia BERKANI Ecole Nationale Supérieure dřinformatique, ESI ex INI Département dřinformatique Oued Smar, Alger, Algérie Laboratoire dřintelligence Artificielle (LRIA), USTHB, Alger, Algérie Faiçal AZOUAOU Ecole Nationale Supérieure dřinformatique, ESI ex INI Oued Smar, Alger, Algérie Résumé L utilisation des services web dans le domaine du e-learning est devenue de plus en plus accrue. Cependant, vu le nombre important de ces services, une sélection adéquate est nécessaire pour améliorer leur apport et efficacité. Nous proposons dans cet article un système de recommandation personnalisée de services dans le cadre d une formation en ligne. L objectif est d assister les apprenants dans leurs activités pédagogiques (exercices individuels,résolution de problèmes en groupe, etc.) en leur proposant les services les mieux adaptés, à la fois, à leurs profils et à leurs besoins. Le système est basé sur une approche sémantique en utilisant plusieurs ontologies. L article présente la démarche globale de recommandation ainsi qu une représentation sémantique des différentes ontologies utilisées. Afin d illustrer notre travail, un prototype de système de recommandation a été présenté. Mots clés recommandation, service web, profil utilisateur, qualité de service, ontologie, e-learning. I. INTRODUCTION Les services webconsistent à exposer sur un réseau, une ou plusieurs applications répondant à certains impératifs technologiques. Ces services peuvent proposer des fonctions très simples (du type requête/réponse) ou un ensemble complet d outils, permettant d aller jusqu à la composition des services pour proposer une application complète. Profitant de l infrastructure du web sémantique, les services web dits «sémantiques» ouvrent des perspectives d avancées clés dans le traitement d information. Un large spectre d applications peut être considéré, incluant des services dédiés au commerce en ligne (e-enterprise, e- Business), à la recherche scientifique (e-science), à l éducation (e-learning),ainsi que ceux dédiés aux citoyens (e-government, e-democracy), etc. Le secteur de l information et de la communication et plus particulièrement les plates-formes d apprentissage à distance, ne sont pas restés indifférents à l expansion des services web. Les exigences accrues des acteurs (Administrateurs, Enseignants, Apprenants) de ces systèmes en termes d adaptation, de parcours, de partage et de réutilisation des contenus ont incité l orientation de ces systèmes vers des environnements distribués basés sur des architectures orientées services web. Une plate-forme d apprentissage peut être vue comme un ensemble de web services qui coopèrent entre eux pour fournir certaines fonctionnalités aux acteurs de la plateforme. Les architectures e-learning orientées services web facilitent la réutilisation de fonctionnalités, l interconnexion, la gestion et l évolution d applications à base de services. Cependant, avec lřaugmentation du nombre de services disponibles, il devient difficile de trouver les services les mieux adaptés à une situation dřapprentissage donnée. Pour cela nous nous intéressons dans le cadre de cet article à la recherche et recommandation personnalisées de services dans le cadre dřune formation en ligne. Lřobjectif est de supporter les apprenants dans leurs activités pédagogiques en leur suggérant des services selon leurs profils et leurs besoins. Nous proposons dans cet article une démarche globale de recommandation basée sur une approche sémantique. Un ensemble dřontologies a été utilisées, dont : lřontologie du profil utilisateur, lřontologie de domaines de connaissances et lřontologie dédiée aux services prenant en compte la dimension de qualité de services. Afin dřillustrer notre travail, nous avons proposé une architecture technique ainsi quřun prototype de système de recommandation de services web pour une formation en ligne. Le reste de cet article sera organisé comme suit : la section 2 décrit avec plus de détails la problématique de recherche. La section 3, présente un état de lřart sur les systèmes et approches de recommandation de services web, en particulier dans le domaine du e-learning. La section 4 propose notre solution de recommandation de services web dédiée aux apprenants dans le cadre dřune formation en ligne. La section 5 présente lřarchitecture du système ainsi que quelques captures écrans afin dřillustrer notre travail. Enfin, la conclusion, présente les apports de notre travail et présente des perspectives futures. II. PROBLEMAIQUE Une plate-forme pédagogique est un logiciel qui assiste la conduite des formations ouvertes et à distance. Elle est basée sur des techniques collaboratives et regroupe les outils nécessaires aux trois principaux acteurs de la formation : apprenant, tuteur, administrateur. Cependant, chaque utilisateur possède des besoins et des préférences différents.c est pourquoi, il serait intéressant de personnaliser ces techniques, afin de fournir des résultats plus adaptés aux besoins des utilisateurs. A partir de différents travaux, dont ceux présentés dans [1] et [2], nous identifions une liste non exhaustive ( 97 )

100 dřactivités dřapprentissage dans un système e-learning que nous avons classé selon lřacteur de lřactivité en question (apprenant ou enseignant) comme suit: Les activités des enseignants (tuteurs) : regroupent la conception dřun contenu pédagogique, la publication et la mise à jour des contenus pédagogiques, les corrections des évaluations, etc. Les activités des apprenants : regroupent le suivi des cours, la réalisation des exercices, les tests dřévaluation, etc. Ainsi, le fonctionnement est décomposé en différentes activités, ou groupes d'activités, qui peuvent être mises en application de façon indépendante sous la forme de services web. Dans le cadre dřune formation en ligne, lřutilisateur est amené à utiliser des services web pour réaliser une tâche ou une activité dřapprentissage.cependant avec la constante augmentation du nombre de ressources sur le web, lřaccès à une ressource ou un service adapté aussi bien aux besoins de lřutilisateur quřà ses préférences devient une tâche difficile. En effet, des outils de recherche délivrent des résultats où la quantité dřinformation est importante. Lřutilisateur est donc, très vite submergé par des informations qui ne sont pas forcément en adéquation avec ses usages. Cřest dans ce sens que la recommandation sémantique et personnalisée de services peut améliorer la qualité dřapprentissage en proposant à lřutilisateur les services web adéquats avec son contexte, ses préférences et ses besoins. Notre objectif est de développer un système de recommandation de services web basée sur une approche sémantique. En effet, la représentation sémantique va nous permettre de mieux définir les besoins et profils des apprenants ainsi que le contexte de la formation. Pour cela, une étude des travaux déjà existants sera nécessaire. III. ETAT DE LřART A. Recommandation de services Lřétat de lřart montre que les approches de découvertes de services dépendent du niveau de représentation, sémantique ou syntaxique, des descriptions des services Web. Les approches de découverte de services web sont classées selon 3 grandes catégories dřapproches [3] : Des approches basées sur la syntaxe : le principe général de cette approche est la comparaison syntaxique entre la requête, basée mots clés, de lřutilisateur et les descriptions syntaxiques (WSDL) des services Web. La découverte de service web dans cette catégorie dřapproche est basée sur des techniques issues du domaine de la recherche dřinformations (RI), tels que les travaux [4] et [5]. Des approches basées sur la sémantique : se focalisent sur la description sémantique des services Web. Ce développement est de plus en plus significatif puisquřil semble pouvoir aborder certaines insuffisances des approches basées sur les mots clés. Les ontologies sont le modèle utilisé pour la représentation sémantique des services Web.Elles permettent dřétablir des relations sémantiques entre les différents concepts dřun domaine. Parmi les travaux qui sont classés dans cette catégorie dřapproche, nous citons les travaux de[6],[7],[8] et [9]. Des approches basées sur le contexte : Le contexte dřun service Web peut grouper la localisation du service (restriction dřusage géographique du service), le coût dřutilisation, la catégorie de service, etc. Le contexte de la découverte de services est pris en compte afin de ne proposer à lřutilisateur que des services qui répondent au mieux à ses besoins et dont le contexte de chaque service offert est adéquat avec celui de lřutilisateur. Parmi les travaux qui sont classés dans cette catégorie dřapproche, nous citons les travaux de [10], [11], [12], [13], [14] et [3]. B. Recommandation de services en e-learning Dans le domaine de l éducation ou formation en ligne, les travaux de découverte et recommandation de services sont plutôt classés dans les catégories d approches sémantiques et contextuelles. Le nombre de plateformes e- learning, qui sont basées sur les web services,est de plus en plus croissant [15], [16] et [17]. Plusieurs travaux de recherches ont été réalisés sur la découverte de services web sémantiques dans le cadre de l e-learning. Certains auteurs ont proposé une infrastructure pour la découverte de services basée sur l utilisation d une ontologie de e-learning. Ilsont exploité les relations sémantiques entre concepts et connaissances du domaine à enseigner pour permettre de retrouver les plates-formes d elearning disponibles. [18]. D autres auteurs ont procédé à doter les services d une description sémantique, à base d ontologies, des différents critères de choix des services. Ainsi, d élaborer une description ontologique du profil utilisateur, qui permet de filtrer les résultats de la recherche pour suggérer uniquement les résultats les plus pertinents. [19]. D autres travaux se sont basés sur la logique floue et l appariement multi-phases. L objectif est de traiter l'information imprécise ou vague dans le service Web correspondant, et mettre en œuvre un raisonnement basé sur la logique floue et les variables linguistiques, et ainsi d'améliorer l'efficacité, le rappel et la précision de la découverte de services Web. [20]. IV. CONTRIBUTION Nous proposons dans cette section, notre approche de recommandation sémantique de services dans le contexte d une formation en ligne. Nous présentons tout d abord le processus global de recommandation, puis nous exposons la représentation sémantique des différents aspects liés à notre recherche. Finalement, nous présentons l architecture de notre système avec quelques scénarios d utilisation. A. Processus de recommandation Suite à l étude de l état de l art, nous avons constaté un manque de travaux sur la recommandation sémantique de ( 98 )

101 services. Pour cela, nous proposons une solution de recommandation de services, selon le processus suivant : - Etape 0 : Authentification et récupération des informations du profil utilisateur. - Etape 1 : renseigner les critères de recherche. - Etape 2 : Recherche des descriptions des services web qui correspondent aux critères de la requête en utilisant lřontologie des services web OWL-S qui sera décrite dans la section ci-dessous. - Etape 3 : Pré-filtrage des résultats de recherche selon les critères de langues et préférences. - Etape 4 : Filtrage des résultats trouvés selon les informations du profil utilisateur, grâce à lřontologie du profil utilisateur. - Etape 5 :Recommandation de service selon les informations de lřutilisateur et les services web et affichage des résultats de recommandation. B. Représentation sémantique Nous décrivons dans cette section la description des ontologies utilisées. Certaines de ces ontologies ont été développées en suivant la méthodologie de Noy [21], telles que lřontologie du profil utilisateur et celle liée aux services. Tandis que dřautres sont déjà existantes et ont été exploitées dans notre recherche telle que lřontologie de domaine de connaissances. Nous décrivons ci-dessous ces ontologies comme suit : 1) Ontologie du profil utilisateur Dans un domaine de lřapprentissage, toutes les dimensions de la personnalisation doivent être prises en compte pour répondre de manière pertinente et adaptée aux besoins dřun utilisateur donné (administrateur, enseignant ou apprenant). Nous citons en particulier les dimensions suivantes: données personnelles, centres dřintérêt, niveaux de connaissance, confidentialité des informations dans l'organisation de l'institution, contexte technique, contexte géographique, etc. Afin de proposer une représentation sémantique du profil, nous nous sommes inspirés principalement de lřontologie IMS-LIP [22] et de certaines ontologies présentées dans la littérature [19]. Les concepts pris en compte dans notre ontologie de profil sont les suivants : «Info_personnelles» : comporte les informations personnelles de lřutilisateur, à savoir son identité (nom, prénom, etc.), contacts (adresse, ville, , etc.) et ses informations démographiques (date de naissance, langue maternelle, etc.). «Education» : spécifie les informations concernant le niveau dřéducation atteint par lřutilisateur. Elle englobe les domaines, le niveau et lřorganisme dřéducation. «Compétences» : indique les domaines et les outils maîtrisés par lřutilisateur. «Préférences» : comporte les préférences des utilisateurs en ce qui concerne les langues, la licence (libre, payante), les régions où il souhaite que ses ressources soient disponibles, etc. «Intérêts» : indique les centres dřintérêts de lřutilisateur, soit dans le domaine de la formation ou dans dřautres domaines. Fig. 2. Ontologie de profil utilisateur 2) Ontologie des services web Le langage OWL-S (Web Ontology Language for Web services) est un sous-ensemble du langage OWL (Web Ontology Langage) consacré à la description sémantique de services Web. Une description OWL-S est donnée en trois éléments [23] : le service profile, le process model, et le grounding. Ces trois éléments correspondent respectivement aux représentations suivantes :"que fait le service", "comment le service travaille" et " comment accéder au service". La figure 2 ci-dessous représente une extension à cette ontologie pour pouvoir mesurer la qualité de servicecomme suit : «Service profile» :décrit les fonctionnalités des services Web. Il est utile pour leur découverte et leur sélection. «Service model» :détaille la sémantique des données échangées, au niveau des messages échangés entre services Web. «Service grounding» :indique lřencodage des données échangées, les protocoles de communication, ainsi que toutes les parties concrètes nécessaires à lřinvocation du service. ( 99 )

102 Fig. 3. Ontologie des services web La qualité de service peut être déterminée selon ces paramètres : Précision : représente le degré dřexactitude de réponse dřun service à une requête donnée. Il est calculé par rapport aux nombre de fois quřil est invoqué, ainsi que le taux dřappréciation des utilisateurs. Par exemple, un service est invoqué 56 fois, et il y a 16 appréciations positives par rapport aux besoins des utilisateurs, dans ce cas, la précision sera égale à 16/56=0,28. Disponibilité : représente la probabilité quřun service soit disponible au moment de lřinvoquer. Elle est mesurée par le pourcentage de temps quřun service soit disponible sur une période prolongée. Par exemple, sur une période de 60 minutes (3600 secondes), un service X est invoqué 6 fois et le temps dřattente total du service était de 300 secondes. La disponibilité, dans ce cas, sera égale à 300/3600 = 0,083. Performance : cřest la qualité de traitement des requêtes du service, mesurée par le nombre de requêtes traitées pendant une période et le temps nécessaire au traitement dřune requête. Par exemple, si le temps nécessaire de traitement de requête était de 25 secondes et que le nombre de requêtes traitées pendant 60 minutes (3600 secondes) était de 16 requêtes, la performance du service sera égale à 16*25/3600 = 0,111. 3) Ontologie du domaine de connaissances Nous utilisons également une ontologie de domaine de connaissances nommée DKOnto (Domain Knowledge Ontology), qui décrit les concepts reliés aux domaines dřintérêts (exemple : génie logiciel, réseaux, bases de données, etc.). Nous considérons dans notre recherche lřontologie hiérarchique du domaine de lřinformatique qui dérive de la taxonomie connue dřacm 12. Etant donné que nous allons nous limiter dans cet article à la description du premier processus de recommandation (i.e. la recommandation directe), par conséquent, lřontologie liée aux activités dřapprentissage sera présentée dans un prochain travail C. Application du processus de recommandation La découverte de service, dans notre approche, est basée essentiellement sur les paramètres (Input, Output, Description du service Web, et Nom du service Web). Une fois les termes de la requête de lřutilisateur sont récupérés, on procède au calcul de la similarité entre ces termes et les services web publiés dans lřontologie OWL-S. Pour faire, nous avons deux cas de figures différents, le premier concerne la comparaison terme-terme (entre un terme de la requête dřun côté et les paramètres Řtermeř Input, Output, NameService de lřautre coté) ; le deuxième cas concerne la comparaison terme-texte (entre un terme de la requête dřun côté et le texte de la description du service web de lřautre coté). Nous avons proposé un algorithme de calcul pour chacun des deux cas comme suit : 1) Algorithme 1 : Debut T[] : tableau qui contient les termes de la requête S[] : liste des services web publiés dans lřontologie OWL-S Pour chaque terme T[i] de la requête faire Debut Pour chaque service web S[j] de lřontologie OWL-S faire Debut P[] : paramètres du service web S[j] Pour chaque paramètre P[k] faire Debut Result[] CalculSimilarity1(T[i], P[k]) FinPour FinPour FinPour Fin A la fin de lřexécution de cet algorithme, nous allons avoir comme résultats, un tableau Result[] de valeurs de similarité pour chaque terme de la requête. i.e. si nous avons n termes de la requête et m services web dans lřontologie OWL-S, nous aurons n tableaux de 2 colonnes (termes/ Service) de m lignes chacun. Pour la fonction CalculSimilarity1 (T[i], P[k]), elle calcule le degré de similarité entre les deux termes T[i] et P[k], T[i] étant un terme de la requête et P[k] un des paramètres du service web. Pour le choix de la mesure de similarité, nous avons opté au résultat de lřétude de comparaison des mesures de similarité sémantique les plus populaires sur lřontologie WordNet, effectuée par [24], dans laquelle, la mesure de Jaing & Contrath [25] a donné les meilleurs résultats. Cette mesure combine entre les techniques basées sur les arcs et les techniques basées sur les nœuds. Cette mesure utilise la mesure de Resnik [26], la formule de calcul de similarité est donnée comme suit: En dřautres termes, la similarité est égale à lřinverse de la distance sémantique entre X et Y. La distance est égale au contenu en information de X + le contenu de Y Ŕ le contenu du parent le plus récent. ic ( )= -log p(x) : p(x) est la probabilité de trouver un concept ou un de ses descendants dans le corpus. ( )= -log p(y) : p(y) est la probabilité de trouver un concept ou un de ses descendants dans le corpus. ( 100 )

103 i ( )= Max [IC(c)], c dans lřensemble des antécédents des deux concepts X et Y où IC(c) représente le concept le plus spécifique (qui maximise la valeur de similarité) qui subsume (situé à un niveau hiérarchique plus élevé) des deux concepts X et Y dans lřontologie. 2) Algorithme 2 : Nous présentons ci-dessous la description de notre second algorithme qui permet de calculer les mesures des similarités terme-texte. Dans ce cas, pour pouvoir calculer le degré de correspondance entre un terme de la requête et le texte de description de service web, nous allons utiliser les techniques de recherche dřinformation (IR) dans la fonction de calcul de similarité comme suit : Debut T[] : tableau qui contient les termes de la requête S[] : liste des service web publiés dans lřontologie OWL-S Pour chaque terme T[i] de la requête faire Debut Pour chaque service web S[j] de lřontologie OWL-S faire Debut text Description du service web S[j] Ponderation [] CalculSimilarity2 (T[i], text) FinPour FinPour TPonder [] (des poids des termes de la requête) SPonder [] Ponderation [] Result Cosinus (TPonder[], SPonder[]) /* Cosinus (R j, S k ) = Fin i ( ) Pour la fonction CalculSimilarity2 (T[i], text), elle calcule le degré de correspondance du terme T[i] au Texte text. Dans cette fonction la similarité est calculée en comparant la différence entre les descriptions textuelles de ces deux paramètres. La précision est améliorée en utilisant WordNet comme outil statistique donnant plus de poids à des termes très spécifiques étant positionnés profondément dans la hiérarchie. Lřune des techniques utilisées dans le domaine de recherche dřinformation (RI) pour faire ce calcul est la norme TF-IDF. TF-IDF compte la fréquence dřoccurrence dřun terme dans un document par rapport à la fréquence dřapparition dans un corpus. Dans notre cas, on considère quřun service dans lřontologie OWL-S correspond à un document en RI, donc nous allons calculer un TF-s qui sera le nombre de fréquences dřun terme de la requête dans une description textuelle dřun service web. IDF est le nombre de fréquence dřun terme dans le corpus, dans notre cas, nous allons calculer IDF-s qui sera le nombre de fréquence dřun terme de la requête dans le corpus (lřensemble des descriptions des services web) Pour chaque terme de la requête, TF-s changera dřun service web à un autre, donc il sera calculé pour chaque service, tandis que IDF-s restera fixe pour lřensemble des services, donc il ne sera calculé quřune seule fois. Pour un terme Ti de la requête, nous aurons IDF-s i = log (1+ ) (2) Où N est le nombre total de services et Ni le nombre de descriptions de services dont Ti apparait. TF-s ij = Nombre dřapparition du terme Ti dans le service S j. */ Les fréquences sont alors utilisées pour construire un vecteur pondéré de termes décrivant le service. Pour construire ce vecteur, nous calculons les pondérations globales pour chaque service comme suit : W ij = TF-s ij * IDF-s i (3) La similarité est donc déduite par le calcul de la similarité vectorielle entre les deux vecteurs de termes en utilisant une de ces techniques (Cosinus, Jaccard, Overlap, Dice, Euclidienne, etc.) issues du domaine de la Recherche dřinformation. En résumé des deux algorithmes que nous avons présentés, lřalgorithme1 calcule le degré de correspondance des termes de la requête avec les paramètres (Input, Output et NameService) du service web, et rend comme résultat des tableaux de valeurs pour chaque terme. Lřalgorithme2 calcule le degré de correspondance des termes de la requête avec les descriptions des services web, et rend comme résultat des tableaux de valeurs pour chaque terme de la requête. En faisant une réunion entre les tableaux par un calcul de moyenne pour chaque couple (Terme, Service), nous allons avoir un tableau global qui nous donne le degré de similarité entre la requête et les différents services web.nous recommandons aux utilisateurs, les services dont le degré de similarité est supérieur ou égal à un seuil donné. V. IMPLEMENTATION Pour assurer le bon fonctionnement de notre système et mettre en œuvre les caractéristiques citées précédemment, nous proposons de développer une architecture basée sur un brassage entre le modèle J2EE (une plate-forme dédiée aux applications multi-tiers) et le modèle orienté services (client, fournisseur, UDDI). Nous avons opté pour ce choix parce que le J2EE est un langage complet, ouvert et il est le plus adapté et le plus utilisé avec les services web. A. Architecture du système Notre système est dédié aux consommateurs de services. Il assure la recherche et la recommandation des services qui répondent, le plus, à leurs besoins. Il présente deux types de recommandations : (1) Recommandation directe, en recherchant un service web ; et (2) Recommandation indirecte, durant la réalisation dřune activité dřapprentissage donnée. Pour la recommandation directe, nous utilisons : les informations de lřutilisateur récupérées de lřontologie du profil utilisateur, les descriptions des services web dans lřontologie OWL-S et le module de découverte qui fait les calculs et matchings entre la requête et les services web. Pour la recommandation indirecte, nous allons utiliser lřontologie des activités dřapprentissage que nous allons décrire dans nos futurs travaux. Lřarchitecture technique du système est illustrée dans la figure 3 ci-dessous : ( 101 )

104 Afin de pouvoir faire une recherche à base de mots clés saisis dans la requête, nous devons dřabord faire une analyse linguistique sur la requête. Deux méthodes du domaine de la recherche dřinformation sont proposées, la normalisation et la lemmatisation. Pour la normalisation il sřagit de garder les racines des mots (radical), quant à la lemmatisation, elle correspond à ramener les mots à leurs lemme (entrée au dictionnaire). Fig. 3. Architecture technique du système Lřimplémentation des ontologies que nous avons développées sřest effectuée à travers lřéditeur dřontologies Protégé 3.5. Cet éditeur est open source, gratuit et possède une interface modulaire, ce qui permet son enrichissement par des modules additionnels (plugins). La figure 4 illustre un exemple dřune ontologie développée sous lřéditeur Protégé 3.5. Fig. 4. Développement des ontologies sous Protégé B. Prototype de système de recommandation de services web Nous présentons dans cette section quelques captures de notre système de recommandation en les discutant selon le scénario suivant : Nous supposons quřun apprenant recherche des services web en introduisant un ensemble dřinformations comme illustré par la figure 5. Après authentification, le service web dédié à la gestion du profil utilisateur récupère les informations relatives au profil de lřapprenant : informations personnelles, préférences, centres dřintérêts etc. La recherche des services web se fait en introduisant la requête (mots clés) dans un seul champ, comme illustré dans la figure 5 ci-dessous: Fig.5. Page de recherche des services En général le radical des mots nřa pas de sens, et vu que dans notre cas, nous nous intéressons à la recherche sémantique (qui garde le sens des mots), nous avons opté à utiliser la méthode de la lemmatisation pour traiter les requêtes des utilisateurs. Lřextraction des lemmes est composée des étapes suivantes : - Extraction des mots simples : suite de caractères séparés par (blanc, signe de ponctuation, caractères spéciaux, nombre). - Suppression des mots vides (Stoplist, Common word remmoval) : mots trop fréquents mais pas utiles à la recherche. - Détermination du lemme et de sa catégorie grammaticale pour chacun des mots à l'aide dřun lemmatiseur / analyseur syntaxique. - Filtrage des lemmes en fonction de leur catégorie grammaticale. Seul les noms et les verbes sont conservés. Les autres lemmes sont supprimés. Une fois la requête traitée, nous aurons une liste de termes (lemmes) avec lesquels nous procédons à la recherche sémantique des services web selon les deux algorithmes présentés précédemment, en faisant une comparaison (calcul de similarité) entre ces termes et les paramètres des services web. Une fois les mesures de similarité calculées, le système peut retourner un nombre important de services web qui correspondent à la requête de lřutilisateur. Pour réduire le nombre de services retournés, nous procédons à un préfiltrage des résultats selon les critères de langues et préférences de lřutilisateur cřest-à-dire ne pas recommander les services qui ne correspondent pas à la langue spécifiée par lřutilisateur et même chose pour les services qui peuvent ne pas lřintéresser en se référant à ces préférences. Grâce à lřontologie du profil utilisateur, nous allons rendre la découverte de service personnalisée i.e. si deux utilisateurs effectuent la même requête, le système propose des résultats différents pour chaque utilisateur et ce en utilisant lřontologie du profil utilisateur pour filtrer les services web trouvés.nous procédons donc, comme suit : le système accède à lřontologie du profil utilisateur pour récupérer toutes ses informations (informationspersonnelles, intérêts, éducation, compétences etc.) et avec ces informations nous filtrons les résultats trouvés dans lřétape précédente et ainsi nous proposons des résultats personnalisés pour chaque utilisateur. Enfin, le système affiche les services recommandés pour lřutilisateur, comme illustré dans la figure 6ci-dessous : ( 102 )

105 Fig. 6. Page de résultats de recherche Notre système, affiche les résultats de recherches à gauche avec la possibilité de trier les résultats selon le choix de lřutilisateur (tri par nom de service, par catégorie de service gratuit ou payant, etc). La liste de services affichés à droite de la page représente des services suggérés par le système, ce sont des services qui peuvent intéreser lřutilisateur. VI. CONCLUSION Afin de faciliter lřaccès aux services web dans le cadre dřune formation en ligne, nous nous sommes intéressés à une recommandation personnalisée basée sur une approche sémantique. Une recommandation sémantique de service web proposée à lřapprenant initialement ; Nous avons proposé une démarche générale de recommandation. Comme première étape, nous nous sommes limités dans cet article à la recommandation directe, en recherchant un service donné, en présentant les différentes ontologies nécessaires. Le deuxième type de recommandation de services durant une activité dřapprentissage sera présenté dans nos prochains travaux. De plus, nous envisageons de tester différentes fonctions de similarités sémantiques, et éventuellement de proposer notre propre métrique de similarité. De plus, il sera nécessaire de dřévaluer notre approche et de voir son intérêt pour les apprenants dans le cadre dřune formation réelle. REFERENCES [1] Madjarov, I.: Des services web pour le e-learning, Laboratoire des sciences de lřinformation et des Systèmes, Maroc 2005 [2] Vossen, G., Weterkamp, P.: E-Learning as Web Services 2003 [3] Chelbabi, M.: Découverte de Services Web Sémantiques : une Approche basée sur le Contexte 2006 [4] Newcomer, E.: Understanding Web Services- XML, WSDL, SOAP and UDDI, chapter 5, Finding Web Services : UDDI Registry. Addison Wesley Professional, May 2003 [5] Rompothong, P., Senivongse, T.: A query federation of uddi registries. In ISICT ř03: Proceedings of the 1st international symposium on Information and communication technologies, pages 561Ŕ566. Trinity College Dublin 2003 [6] Paolucci, M., Kawamura, T., Payne, T.R., Sycara, K.P.: Semantic matching of web services capabilities. In ISWC ř02 : Proceedings of the First International Semantic Web Conference on The Semantic Web, pages 333Ŕ347, London, UK 2002 [7] Motta, E., Domingue, J., Cabral, L., Gaspari. M.: Irs-2 A framework and infrastructure for semantic web services. In International Semantic Web Conference, pages 306Ŕ [8] Vu, L.H., Hauswirth, M., Aberer, K.: Towards p2p-based semantic web service discovery with qos support. In Business Process Management Workshops, pages 18Ŕ [9] Verma, K., Mulye, R., Zhong, Z. Sivashanmugam, K., Sheth, A.: Speed-r Semantic p2p environment for diverse web service registries 2005 [10] Strang, T., Popien, C-L.: A context modeling survey. In Workshop Proceedings, First International Workshop on Advanced Context Modelling, Reasoning And Management at UbiComp 2004 [11] Pokraev, S., Koolwaaij, J., Wibbels, M.: Extending uddi with contextaware features based on semantic service descriptions. In ICWS, pages 184Ŕ [12] Keidl, M., Kemper, A.: Toward context-aware adaptable web services. In 13th World Wide Web Conference (WWW), New York, USA 2004 [13] Doulkeridis, C., Loutas, N., Vazirgiannis, M.: A system architecture for context-aware service discovery. In International Workshop on Context for Web Services CWS [14] Mostéfaoui, K.: Towards a contextualisation of service discovery and composition for pervasive environments. In Workshop on Web Services and Agent Based engineering 2003 [15] Ivan, M.: Des services web pour le e-learning. e-ti - la revue électronique des technologies d'information, Premier Numéro 2005 [16] E-Learning as a Web Service. Seventh International Database Engineering and Applications Symposium (IDEAS'03) 2003 [17] Xiaohong, Q., Anumit, J.: Web Service Architecture for e-learning 2005 [18] Addour, D.: Développement dřune plateforme pour la découverte de services web 2012 [19] Boudali, F., Balla, A., Amrouche, H.: Découverte personnalisée des web services e-learning2008 [20] Zhenglian, Haisong, Liang, Yonghua.: Framework of Semantic Web Service Discovery Based on Fuzzy Logic and Multi-phase Matching 2008 [21] Natalya, F. Noy, Deborah, L., McGuinness.: Ontology Development 101: A Guide to Creating Your First Ontology 2000 [22] MS Consortium, [23] Martin, D.L., Paolucci, M., McIlraith, S.A., Burstein, M.H., McDermott, D.V., McGuinness, D.L., Parsia, B., Payne, T.R., Sabou, M., Solanki, M., Srinivasan, N., Sycara, K.P.: Bringing Semantics to Web Services :The OWL-S Approach. In J. Cardoso and A. P. Sheth, editors, SWSWPC, volume 3387 of Lecture Notes in Computer Science, pages 26Ŕ [24] Varelas, G., Voutsakis, E., Raftopoulou, P., Petrakis, E., & Milios, E..Semantic similarity methods in wordnet and their application to information retrieval on the web.proc. of WIDM, [25] Jiang, J., & Conrath, D. Semantic similarity based on corpus statistics and lexical taxonomy. Proceedings of International Conference on Research in Computational Linguistics. Taiwan 1997 [26] Resnik, P. Semantic similarity in a taxonomy: an information based measure and its application to problems of ambiguity in natural language. Journal of Artificial Intelligence Research, 11: ( 103 )

106 A Topology Management scheme with scalability and QoS guarantee for Large Scale Mobile Ad Hoc Networks in Urban Environment Abdelhak Bentaleb 1, Saad Harous 2 and Abdelhak Boubetra 1 1 Department of Computer Science, University of El Bachir El Ibrahimi, Bordj Bou Arreridj, Algeria 2 College of Information Technology, United Arab Emirates University, P.O Box 15551, Al Ain, UAE bentaleb_abdelhak@yahoo.com, harous@uaeu.ac.ae, boubetraabd@yahoo.fr Abstract in this paper we propose a scheme made up of two level hierarchies constructed based on trade-off between the clustering and virtual backbone techniques for large scale MANETs. We designed an efficient weight based clustering approach whichconsiders QoS requirements in the first level. In the second level we built a virtual backbone based on connected dominating set algorithm. Our proposed scheme achieves several goals: support the network scalability when network size increases (thousands of nodes), supports the multimedia services with QoS, forms stable network, reduces the communications overhead, and improves the usage of scarce resources such as bandwidth. Index Terms Clustering; Large Scale MANETs; Weighted Metrics; Virtual Backbone; Dominating Set. I. INTRODUCTION Today, therecent rapid growth of cities and the evolution of wireless/mobile technologies [1], the world is becoming more and more urban [2]. The performance of the urban environment is affected by the availability of ICTinfrastructure and intelligent management [3][4]. Thus, Wireless and Mobile networks play an essential challenging role in the urban environments. The mobile wireless networks are divided into two main classes. The most usual class named Ŗcellular networksŗ that provides services by using a fixed infrastructures, typically consisting of a set of mobile nodes connected to each other. The second class, known as Mobile Ad Hoc NETworks (MANETs), which represents a self-configuring and selforganizing network of mobile devices connected bywireless links. Each device in a MANET is free to move independently in any direction, and will therefore change its links to other devices frequently without the support of centralized management [1].Nearby nodes can communicate with each other directly by exploiting the wireless technologies of their devices in an ad hoc mode. Due to these characteristics, MANETs have gained great attraction recently and has been utilized to model problems in various fields and application domains such smart cities, military communications, forest hazards, hostile environments, disaster management, health applications, and emergency services. Currently, with the emergence of multimedia services, network topology management with QoS, resource management and data routing have become hot research topics in MANETs that have attracted a lot of interest [1, 2]. However, it is very difficult to guarantee a good network topology management with QoS requirements of multimedia services in large scale MANETs. This is due to the complexity of the features of these networks, namely: network size, limited bandwidth, dynamic topology, limited power, and lack of information about the network status, etc. II. PROBLEM STATEMENT AND MOTIVATION A. Problem Statement In large scale MANETs, the network structuring (topology management) with scalability and QoS guarantee considered one of theimportant task to simplify the data routing operation of multimedia services. However, the topology changes unpredictably due to the nodes mobility [1] and also, maintaining the stability with low overheads in these kinds of networks is a challenging issue.indeed, the development of feasible topology management schemes and protocolsto manage large MANETs is a very complex task The main issue in urban environments is how to support applications and services in a complex, distributed, large and diverse environment. This problem is being investigated intensively by many researchers [2, 3,5]. For some applications such as multimedia services (e.g., videoconference, VoIP, Video on Demand, etc.), most ofthe existing routing schemes are not suitable especially if there is a need to guarantee certain requirements of quality of service [13].It is important to adapt MANETs to support network with large number of nodes and some acceptable level of QoS in order to efficiently deploy applications that are complex and require a lot of resources. To the best of our knowledge none of the proposed hierarchical routing structures [6, 7,9, 10,11, 14]support efficiently multimedia services in large scale MANETs. B. Motivation and Goals In last few years, several topology management schemes have been proposed focusing on different metrics [6, 14], to address the scalability issue in MANETs without taking into consideration the applications kinds and network size. To address the aforementioned shortcomings, in this paper, we propose a network topology management scheme which satisfies the urban environment properties. Our proposed topology management scheme constructs two hierarchical levels based on the clustering and virtual backbone technique for large scale MANETs (Figure 1). The proposed scheme takes into account the network scalability with large number of nodes, and the QoS needed to support demanding applications such as multimedia services. In summary, our proposed scheme is a QoS-based hierarchical scheme for large scale MANETs in urban environment that is able to: ( 104 )

107 Support the Scalability and QoS requirements of demanding applications like multimedia services. Maximize lifespan of the network. Minimize the number of clusters. Decrease the network overhead, create stable structure and improve the usage of scarce resources such as bandwidth. Figure 1: Our Network Topology Structure The remainder of this paper is organized as follows. Section III reviews some related works, Section IVexplains the proposed scheme and describes its phases. Section Vanalyses the performance of the proposed scheme by simulation. Finally, Section VI concludes the paper and introduces future work. III. RELATED WORK In the last few years, many research papers about network topology managements in MANETs have been published which aim to address the related issues in these kind of network such as: routing, QoS, scalability, security [6, 7, 8, 14]. Among those, the scalability with QoS guarantee of the multimedia services in large scale MANETs is one of the main challenges. To the best of our knowledge, most of the proposed schemes are based on the clustering technique or virtual backbone construction mechanism[6, 7, 10, 11, 12, 14, 20, 23, 25]. However, the majority of them resolve the scalability issue only without supporting the QoS of demanding applications like multimedia services. Also, they are not scalable when the network size increases to a very large number of nodessuch as urban environment scenario. In other word, they do not take into consideration the applications kinds and network size. In this section, we review some topology management schemes proposed in the literature. In literature, various clustering schemes based and virtual backbone schemes based in MANETs have been proposed to organize the network,optimize the network communications,and ensure good information dissemination. A virtual structure is created to support the network services like routing, broadcasting, and optimize the usage of resources. Generally, these schemes differ on how they elect cluster heads[6, 15].Among these schemes we have Lowest- ID, Highest-Degree, Distributed Clustering Algorithm, Weighted Clustering Algorithm (WCA) and Distributed Weighted Clustering Algorithm (DWCA) schemes.also on how the cluster heads are structured in the network [16]: Independent Dominating Set (IDS), Connected Dominating Set (CDS), Minimum Connected Dominating Set (MCDS) and Weakly Connected Dominating Set (WCDS). In [17], Guizani et al proposed a new clustering algorithm in MANETs called α-stability Structure Clustering (α-ssca). α-ssca is composed of three phases. The first phase consists in exchanging HELLO messages between neighbor nodes in order to collect the information necessary for cluster heads election. The second phase consists in CHs election and clusters formation. In this scheme, the election of cluster heads is based on the score metric, which represents the number of neighbors whose status has not been decided yet. Each node has one of the following statuses: CH, member node, not-decided. Initially all nodes are in the not-decided status. During cluster formation phase, the nodes having the highest score are declared as cluster heads and change their status to CH. After, each neighbor joins one of neighbor clusters as member nodes. Finally, the final phase is the maintenance of the cluster structure when there is a change due to nodes movement. This algorithm has some advantages like: it increase moderately the number of clusters with the aim of improving the topology stability of the clusters generated, reduces the overheads.the score metric is used in way to have the neighboring CHs far away from each other in order to eliminate cluster maintenance invocation when two cluster heads become one hop neighbors. N. Mitton et al in [18] proposed two new ideas. First one, a new metric suitable to gather and aggregate network nodes into clusters and the second is a new distributed cluster head election heuristic called ŖDensityŗ. The proposed heuristic enables load balancing to guarantee a fair distribution of load among CHs, minimizing the number of control exchanged messages in the whole network. This heuristic is based on a criterion which gathers the neighborhood density of a node. This density criterion helps to keep the network stable when the topology evolves slightly (absorb small topology changes). The density metric takes into consideration both links and the number of nodes in a k- neighborhood. So, it is the ratio between the number of links and the number of nodes in a k-neighborhood. The k-density of a node uis defined as: Where: Ρk(u) : the density of node u, Γk(u) : list of k- neighborhood of a node u andδk(u) : degree of a node u (the number of k-neighbors). During cluster formation, all nodes broadcast the HELLO messages periodically and build their k-neighbors lists based on the received HELLO messages. After, each node computes its k-density value using the density function and broadcasts it to all its k-neighbors innext HELLO message. The node with highest k-density value in its neighborhood is elected as a CH. In the case of a tie the algorithm uses the node ID as CH selection criteria. After CHs election process is done, each neighbor joins the cluster for which it has the highest density as member node. Each ( 105 )

108 member node broadcasts the cluster head ID and its density to its neighbor nodes. During cluster maintenance, each node periodically checks its density, neighbors and mobility. When node mobility or node density change eventsoccur, the cluster maintenance phase will be invoked automatically and tries to adapt the network to all topology changes with less overhead. The proposed scheme generates a limited number of clusters and produces a less number of CHs re-election. However, this scheme does not support network with large number of nodes. In [22] S. Guha and S. Khuller proposed two polynomial time approximation schemes for minimum connected dominating set (MCDS) problem which they based on finding a connected dominating set of minimum size. These schemes are centralized-based. The first scheme is characterized by a greedy algorithm which has the approximation ratio of 2 (H(Δ) + 1) where Δ is the maximum degree and H is the harmonic function. This scheme builds a spanning tree T based on four main steps. The node with the highest degree is selected as the root T. Initially, all nodes are marked with white. After, the node with the largest number of white neighbors is marked as black and its neighbors are marked as grey. The black and grey nodes then become members of T. The algorithm repeats until no white node exists in the network. The nonleaf nodes of T form the CDS (the black nodes). The second scheme is an enhancement of the first scheme.it is divided into two phases. During the first phase, the algorithm finds a dominating set. During the second phase it connects the dominating set using a Steiner tree algorithm [19]. The approximation factor of this algorithm is H(Δ) + 2 with a ratio of 3 + ln(δ). J. Wu and H. Li [21] proposed a distributed pruningbased algorithm for calculating connected dominating set in MANETs. The proposed schemeit based on the two hops neighbors information knowledge. This algorithm uses a marking process where each node marks itself as a CDS member if it has two unconnected neighbors. This algorithm creates a virtual backbone but adds many redundant nodes. The authors presented an enhancement of this algorithm by adding two dominant pruning rules named marking rules. These rules reduce the size of the CDS by removing some redundant CDS members. In [22], F. Dai et al proposed an extended and generalization version of [21] in order to reduce the size of the dominating set in the network. The proposed dominant pruning rule referred to as Rule k which extended the pruning rules [21] to k-hop neighborhoods in order to achieve better results. IV. OUR PROPOSEDAPPROACH Our scheme builds two hierarchical levels based on a trade-off between the clustering approachin the first level and the virtual backbone techniques in the second level for large scale MANETs. Node States In our scheme, we define fivestates, each node is in one of the following states: Cluster head (CH), core member (COM), margin member (CAM), not-decided (ND), gateway node (GW) depending on its roles (Figure 2).Initially, all nodes in ND status. Figure 2: General Structure and node states in our Network Topology Cluster Formation Phase Our cluster formation phase consists of four main stages to build the clusters structure: 1. Neighbor Nodes detection Initially all network nodes are in not-decided state. During this stage, all network nodes exchange a D-HELLO message periodically so that each node notifies its neighbor nodes of its presence and builds/maintains its local topology information. 2. Cluster heads election process After neighbor nodes detection stage the cluster head election process is invoked. This stage is dedicated to the cluster heads election in the whole network. In the following, we propose a cluster head election algorithm that allows selecting a set of robust and optimal cluster heads in large scale network and dividing the network into a number of clusters. During this stage, each node v i computes its weight value W i and broadcasts it to its k- neighbors in the next D-HELLO message. Then, on reception of D-HELLO message, each node v i compares the received weight values of its neighbors with its own weight value. If its own weight value is the highest, it declares itself a cluster head. Otherwise, it chooses the neighbor having the highest weight value among all its k- neighbors as its cluster head. The node that has many votes (selected by several neighbors as CH in its neighborhood), chosen as a cluster head in its neighborhood. Each node v i based on a combination of QoS metrics and clustering metrics to compute its weight value W. Clustering metrics: Node trust (T):the trust value T vi of nodev i represents the direct relations relating to its 1-hop neighbors and indirect relations relating to its k-hop neighbors. In our algorithm we used the method described in [28] to calculate the trust node value (T). Node density (D): the node density D vi of nodev i represents the ratio between the number of links and the number of nodes in a k-neighborhood. We used the model described in [18] to calculate the density metric (D). Node mobility (M): In our algorithm, each node v i uses the method described in [29] to compute its mobility value (M vi ). The mobility value (M vi ) of nodev i represents its effective average relative speed. ( 106 )

109 Battery remaining energy (E): The energy value E vi of node v i is a serious metric that affects directly the lifetime of the cluster structure and network which represents the battery remaining power of node v i. After the calculation of four metrics (T, D, M, E), the clustering weight value Cl(v i )of a node v i is calculated as: Cl(v i ) = ω 1 T vi +ω 2 D vi + ω 3 M vi + ω 4 E vi Where ω i are weight factors for the corresponding metrics with ω i = 1 QoS metrics: Local Available Bandwidth (LBW):The local available bandwidth LBW vi of nodev i represents the unconsumed bandwidth at node v i. Each node v i defines its own LBW vi by passively listening to network activities. In our algorithm, we use the model described in [26] to calculate the Local Available Bandwidth (LBW). Link Quality (S):The link quality value S vi of nodev i is defined as the estimated number of transmissions required to successfully send a packet over the link. We used the model described in [30] to calculate the link quality value (S). After the calculation of four metrics (T, D, M, E), the QoS weight value QoS(v i )of a node v i is calculated as: QoS(v i ) = ώ 1 LBW vi +ώ 2 S vi + ώ 3 node ID Where ώ i are weight factors for the corresponding metrics with ώ i = 1 After that, each node v i computes its weight value based on a combination of QoS metrics and clustering metrics and selects the optimal cluster head that has the highest weight value W in its neighborhood. W(v i ) = w 1 Cl(v i ) + w 2 QoS(v i ). Where w i are weight factors for the corresponding metrics with w i = Network nodejoins process: During this stage, each node joins a suitable cluster.node v i joins the neighbor cluster head that has the largest weight value in its neighborhood. 4. Gateway election process: Once cluster heads are elected and nodes join process is completed, each cluster head selects itsgateway nodes to communicate with neighbor clusters based on the QoS metrics. Nodes are candidate to be gateways if they have margin member status and they hear two or more cluster heads.the gateway node g with highest QoS value (Qos(g)) among other gateway nodes candidates is selected. B.3. Virtual Backbone Construction phase Once the gateways are selected in the network and the clusters are formed, the virtual backbone construction algorithm is invoked in order to build a virtual backbone in the network at level two. Ourvirtual backbone construction algorithm is divided into two parts. The first one is a distributed algorithm to find the optimal dominating set (DS) which covers all member nodes in the whole network. The second part is a connectivity algorithm to connect the dominating set and form the Connected Dominating Set. A virtual backbone can be formed by constructing a Connected Dominating Set (CDS). 1. Dominating Set Construction and connectivity: Once the first level is done and the clusters structure is generated, the connected dominating set step is invoked in order to select the set of CDS and generate the virtual backbone. Initially, all cluster heads and gateways nodes are selected as DS member (part 1). After, each cluster head selects a set of connectors form its member nodes based on two metrics: the QoS value (the one with high QoS value form its member nodes) and (k,m) rule in order to ensure the connectivity between DS members (part 2).This mechanism leads to construct a partial virtual backbone in each cluster (optimal dominating set (DS) which covers all member nodes in each cluster). After that, the set of partial VB are connecting using the clusters gateways to construct the complete VB. B.4. Topology Maintenance Our topology maintenance tries to adapt our network structure to all topology changes that can occur due to nodes mobility. We define several types of events for topology maintenance invocation. In the first level we define three types of event: The node movements, the trust threshold property and the cluster head weight value change. In the second level, some DS nodes may cause link failures due to dynamic topology that lead to the virtual backbone structure imbalance and network instability. Therefore, we introduce a new mechanism named dominating set recovery mechanism which is capable to select alternative dominating nodes from the set of DS nodes candidate. Our proposed topology maintenance mechanism aims to keep the network connected and reduce the number of reelections. Thus, we are able to maintain the network stability during the topology construction for large scale MANETs. V. PERFORMANCE EVALUATION In this section, we present the initial performance evaluation of our proposed scheme using Optimum Network Performance simulator (OPNET) [27]. In Table 1, we provide all simulation parameters. A. Simulation model and parameters The network model that we designed to simulate and evaluate our scheme consists of mobile nodes of type MANET placed randomly in an area of simulation meters square. The mobility model we have chosen is the model RWP (Random Way Point), node speed between 0 to 100 m/s,ieee as Physical and MAC layer. We assume that the radio model uses data-rate of 2 Mbits/s, Transmission range 250 meters, packet size 128 bytes, simulation time is 900 seconds. ( 107 )

110 Table 1. Simulation Parameters Parameter Meaning Value N Number of Nodes [500 Ŕ 3000] nodes X Y Area of simulation 2000 m 2000 m Speed Speed of the nodes 0 m/s m/s Mobility Mobility Model RWP Tx Transmission range 250 m PT Pause Time 0 sec HI Hello Interval 2 sec Pkt Size Packet Size 128 byte Data rate Data rate 2 Mbits/s W i Weights Equally Duration Simulation Time 900 sec In our initial experimental study we validate the scalability and QoS of our proposed scheme in very large network in terms of number of generated clusters and average lifetime duration of cluster, average number of CH changes, total overheads, clusters stability, and number of dominating set. The main goal of our scheme is tosupport the network scalability when network size increases (thousands of nodes), supports the multimedia services with an acceptable level of QoS.So, in this part, we present the initial simulation results (Figure 3) of our network topology management scheme, and its comparison with previousschemes [6, 17, 18, 22, 24]. Based on the initial simulation results, our scheme performed better than others schemes. Figure 3: The Initial simulation results ( 108 )

111 VI. CONCLUSION In this work, we studied the scalability and QoS issues for large scale mobile ad hoc networks in urban environment. Network topology management approach is one of the solutions that got a great attention in last few years. In this paper, we proposed a QoS based hierarchical scheme for large scale MANETs within urban environment scenario. Our scheme considers a trade-off between clustering approach and virtual backbone approach in order to build a 2-level hierarchical scheme. We compared the performance of our scheme with a number of existing network topology management schemes [6, 17, 18, 22, 24]. The preliminary simulation results (Figure 3) have shown that our scheme performs generally better than the other network topology schemes in terms of: average number of CHs, average number of CH changes, total overheads, and number of backbone nodes.as future work, we plan to run simulation with very large number of nodes (up to 3000 nodes) and study the effect of other metrics. REFERENCES [1] Corson, S., Macker J. (1999), ŖMobile Ad hoc Networkingŗ, [2] Augé-Blum, I., Boussetta, K., Rivano, H. (2012), ŖCapillary Networks:A Novel Networking Paradigm for Urban Environmentsŗ,the first workshop on Urban networking, pp [3] Caragliu, A., Del Bo, C., and Nijkamp, P., (2009)."Smart cities in Europe", Series Research Memoranda [4] European Smart Cities project, [5] Woo LEE, Y., (2013), ŖUbiquitous (Smart) Cityŗ, EU Parliament Seminar. [6] Bentaleb, A., Boubetra, A., Harous, S. (2013), ŖSurvey of Clustering Schemes in Mobile Ad hoc Networksŗ, Communications and Network, Vol. 5 No. 2B, pp [7] Correa, B.A., Hincapie, R.C., Ospina, L. (2007), ŖSurvey on Clustering Techniques for Mobile Ad Hoc Networksŗ, Rev. Fac. Ing. Univ. Antioquia, No. 41, pp [8] Suman, P., Bisen, D., Tomar, P., Sejwar, V., Shukla, R. (2009), ŖComparative study of Routing Protocols for Mobile Ad-Hoc Networksŗ, International Journal of Information Technology & Knowledge Management, Vol. 4 No. 1, pp [9] Hong, X., Xu, K., and Gerla, M. (2002), ŖScalable Routing Protocols for Mobile Ad Hoc Networksŗ, IEEE Network magazine, Vol. 16 No. 4, pp [10] Butenko,S., Cheng,X., zhu Du,D., and Pardalos, P.(2003) ŖOn the construction of virtual backbone for ad hoc wireless networkŗ. Book chapter: Cooperative Control: Models, Applications and Algorithms Vol. 1, pp [11] Basagni, S., Mastrogiovanni, M., Panconesi, A., and Petrioli, C. (2006) ŖLocalized protocols for ad hoc clustering and backbone formation: a performance comparison. Parallel and Distributed Systemsŗ, IEEE Transactions, Vol 17 No 4, pp.292ŕ306. [12] Lee, B., Yu, C., Moh, S. (2005), ŖIssues in scalable clustered network architecture for mobile ad Hoc networksŗ, Handbook of Mobile Computing, CRC Press,pp [13] Crawley, E., Nair, R., Rajagopalan, B., Sandick; H., (1998) ŖA Framework for QoS based Routing in the Internetŗ:ftp://ftp.nordu.net/rfc/rfc2386.txt (RFC 2386). [14] Bao, L., Garcia-Luna-Aceves, J.(2003) ŖTopology management in ad hoc networksŗ,4th ACM international symposium on Mobile ad hoc networking & computing, pp [15] Bentaleb, A., Harous, S. and Boubetra, A. (2013), ŖA Weight Based Clustering Scheme for Mobile Ad hoc Networksŗ, (MoMM2013), Vienna, Austria, pp [16] Cokuslu, D., Erciyes, K., Dagdeviren, O. (2006), ŖA Dominating Set Based Clustering Algorithm for Mobile Ad Hoc Networksŗ. Book chapter: Computational Science, Vol. 3991, pp [17] Guizani, B., Ayeb, B., Koukam, A. (2011), ŖImpact of Stability in Cluster Based Link State Routing Protocol for Self-Organizing Networks,ŗ 7th ICWMC. [18] Mitton, N., Busson, A., Fleury, E. (2004), ŖSelforganization in large scale ad Hoc networksŗ, In Med- Hoc-Net, Brodum, Turkey, pp [19] Yu, J., Wang, N., Wang, G., Yu, D. (2013), ŖConnected dominating sets in wireless ad hoc and sensor networks: A comprehensive surveyŗ. Computer Communications, Vol. 36 No. 2, pp [20] Guha, S., Khuller, S., (1998), ŖApproximation Algorithms for Connected Dominating Setsŗ, Algorithmica, Vol.20 No.4, pp [21] Wu, J., Li, H., (1999), ŖOn Calculating Connected Dominating Sets for Efficient Routing in Ad Hoc Wireless Networksŗ; 3rd international workshop on Discrete algorithms and methods for mobile computing and communication, pp [22] Dai, F., Wu, J., (2004) ŖAn extended localized algorithm for connected dominating set formation in ad hoc wireless networksŗ, IEEE Transaction on Parallel Distributed Systems Vol.15 No.10, pp.908ŕ920. [23] Anitha, VS., Sebastian, MP, (2009), ŖSCAM: Scenariobased Clustering Algorithm for Mobile ad hoc networksŗ, First International Communication Systems and Networks and Workshops, pp [24] Anitha, VS., Sebastian, MP., (2009), ŖScenario-Based Diameter-Bounded Algorithm for Cluster Creation and Management in Mobile Ad hoc Networksŗ, 13th IEEE/ACM International Symposium on Distributed Simulation and Real Time Applications, pp [25] Bentaleb, A., Harous, S., Boubetra, A. (2014), ŖA scalable clustering scheme and its performance evaluationŗ, International Journal of Pervasive Computing and Communications, Vol. 10 No. 1, pp.27ŕ 42. [26] Yang, Y., Kravets, R., (2005), ŖContention-aware admission control for ad hoc networksŗ. IEEE Transactions on Mobile Computing, Vol. 4 No. 4, pp.363 Ŕ 377. [27] OPNET technologies, inc [28] Babu, S., Raha, A., Naskar, K. (2011) ŖGeometric Mean based Trust Management System for WSNs (GMTMS)ŗ, InIEEE Proceedings of World Congress on Information and Communication Technologies (WICT 11), Mumbai, India, pp [29] Ni, M., Zhong, Z., Zhao, D.(2011), ŖMPBC: A Mobility Prediction-Based Clustering Scheme for Ad Hoc Networksŗ, IEEE Transactions on Vehicular Technology, Vol. 60 No. 9, pp: 4549Ŕ [30] De Couto, D., Aguayo, D., Bicket, J, Morris, R. (2003) ŖA high-throughput path metric for multi-hop wireless routing,ŗ 9th Annual International Conference on Mobile Computing and Networking, pp: 134Ŕ146. ( 109 )

112 Overview of Incentive Mechanisms in Peer-to-Peer Systems Fatima Lamia Haddi and Mahfoud Benchaïba Laboratory of Information Systems (LSI), Department of Computer Science University of Science and Technology Houari Boumédiène Algiers, Algeria {flhaddi, Abstract Peer-to-Peer (P2P) systems suffer from noncontribution of peers. Non-contribution has several forms depending on the P2P application and system types and hence peer's possible collaborative operations. Peers are usually driven by their self-interest at the expense of social welfare. The main objective of an incentive mechanism is to motivate peers to collaborate to simultaneously achieve self-utility and social welfare. Multiple incentive mechanisms have been proposed to enhance collaboration. In this paper, we give a detailed definition of an incentive mechanism's objectives and roles. We then present a developed classification of incentive mechanisms in P2P systems. We also survey some practical incentive mechanisms in P2P systems and finally discuss their implementation. Keywords Incentive mechanisms; P2P systems; freeriding; collaboration enhancement. I. INTRODUCTION In a Peer-to-Peer(P2P) system, a peer can ask and offer services to other peers. Peers connect and self-organize in an overlay network and resources are deployed all over the system. Offering logical (application oriented) services involves physical resources (CPU, memory and bandwidth). In designingp2p systems, a common assumption is an altruistic behavior of peers. All peers are supposed to unconditionally contribute resources and respect protocols; however, they are classified according to their behaviors as contributors and non-contributorssince they are either motivated by altruism, rationality, selfishness or malice. Moreover, their motivation and behavior can evolve with time. Peerřs motivations for non-contribution areresource saving for personal using or malice. Malicious behavior appears when peers become competitors or in order to collapse the entire system. Contribution implies costs peer wise and brings benefits peer and system wise. Non-contribution is encouraged by decentralization, autonomy and hidden motivations (the fact to hide the reasons of defection to the other peers). Peers are driven by users, who often only consider their own interests and utilities, at the expense of the system's welfare and performance [1]. Low contribution implies a global resources' scarcity, a reduced system's attractiveness, less robustness, less scalability, less fault tolerance, important failure rate and may lead to the tragedy of commons: the peers demanding resources are competing against each other to access them while those offering the resources are overwhelmed and cannot respond. Non-contribution has no direct consequences on a peer's rights: it can still ask for resources and consumes them. The peer wishes to maximize its benefits and minimize its participation costs. Systems might tolerate a certain non-contribution level but collapse if no peer shares any resource. Contribution usually incurs a cost at the provider peer's level: giving up some of its physical resources for a period and not using them for own purposes. Since system's viability and performance are linked to collaboration, an extrinsic motivation is to be created to stimulate peers to provide at least as much resources they consume, reducing the burden on the system in terms of resources consumption. Our contributions, in comparison with other papers as [1] are: a clear definition of an incentive mechanismřs objectives and roles, a classification of incentive mechanisms according to the targeted application or system and an in-depth definition of the incentive schemes, ahighlight of the desirable features of an incentive mechanism. This paperřs outline is as follows. We first state the roles and the objectives of incentive mechanisms in section 2. We then introduce a developed classification of incentive mechanisms based on the observed operations of the system or the application they target, review some proposed incentive schemes, discuss their advantages and drawbacks and present some examples proposed in the literature in section 3. In section 4, we underline the main points of the proposition of a practical incentive mechanism. Finally, we conclude in section 5. II. OBJECTIVES AND ROLES OF AN INCENTIVE MECHANISM A. Incentive mechanisms objectives The objectives of an incentive mechanism are the following: ensuring system's viability, making contribution beneficial to peers, balancing resource consumption and provision at a peer, reducing or eliminating non-contribution possibility, ensuring fairness between peers in getting compensation, ensuring resource abundance. A P2P system's viability inherently depends on resource sharing. Altruistic behavior is desirable to system's operability in the introduction phase. The incentive ( 110 )

113 mechanism might guarantee that every newcomer contributes and should make contribution beneficial. An incentive mechanism's major aim is to reduce or eliminate non-contribution. Nevertheless, an equal peers' contribution is not necessary [2]. The system might tolerate a certain amount of defection below a determined threshold, under which system's performance is not majorly affected (according to the required QoS in the system) and might decide to give defectors a redemption chance. An incentive mechanism should ensure fairness: benefits are balanced between peers according to their contribution levels when peers with different capabilities are considered (low capability peers cannot collaborate as much as high capability ones). Furthermore, a contributing peer timelessly participates at increasing system's usefulness and resource availability and/or diversity. They are equally increased by staying on and by letting shared resources in the resource pool. Resource availability. When multiple peers hold an item of a replicable resource, its availability is increased. The workload is thus better balanced among and response delays decreased. Resource diversity.whenever peers contribute with new resources to the system, resource diversity is increased. However, offering such a resource may make demands converge on its provider and may cause congestion. Hence, resource abundance keeps the system from the tragedy of commons as peers do not compete against each other to access a resource. Since many peers provide a resource, requesting peers can target different providers and get satisfied more quickly. B. Incentive mechanisms roles An incentive mechanism must assume the following roles. Conditioning access to the resources (dealing with newcomers), Detecting and sanctioning non-contribution, Compensating contribution cost, Preventing peers from escaping sanctions or the cost of sharing, adapts to peer behavior change and peer's ability for providing resources. An incentive mechanism must deal with newcomers and sets the entry rules to the system. A system with a free entry might dissuade peers from participation and make noncontribution a possible option. On one hand, a non-contributor is a peer that does not propose any resource while on the other hand, a defector, advertises resources but does not effectively share them when asked for. The system must distinguish contributor and noncontributor peers. To detect non-contribution, collaborative operations watched by the system must be enumerated. A peer's participation level is defined in order to classify the peer as collaborative or non-collaborative for each of the considered operations. A global definition of peer's participation level considers then each of the watched collaborative actions and the QoS required for acceptable performances of the system. Contribution should be the only alternative for the peer to access resources. Costs compensation can be immediate or delayed. Incentive factors must be set and disincentive factors reduced or eliminated. An incentive factor is compensation for the cost of sharing whereas disincentive factors are all what can be exploited by peers not to contribute but still benefit from the system. A peer is punished by being temporarily disabled to access resources. Peer's behavior might change. The incentive mechanism should consider redemption: the peer that contributes again gets access to resources again. Punishment depends on the targeted system and application types. It can be restricting resource access or exploiting the peer by increasing the peer's workload. All peers cannot contribute the same resources, then, peer's capability must be taken into consideration. III. INCENTIVE MECHANISMS IN P2P SYSTEMS Incentive mechanisms vary according to the specification level (generic, specific to a system's type or an application) and to the incentive scheme.the specification level allows a better view of collaborative operations in the system and a definition of non-contribution. A. Generic incentives Generic incentive mechanisms are abstract from the system's type and only consider resources and peers. Most of them are theoretical incentive models featuring economic theory (game theory and mechanism design) where P2P systems are viewed as a set of actors (peers) that base on their own information, capabilities and preferences to behave in a self-interested way while ignoring system welfare. Combined peers behaviors lead to a certain system's state. These propositions study the behaviors of peers with or without incentive mechanisms and are analyzed to show the evolution of P2P systems with and without incentives. Effectiveness and global optimality at equilibrium of the theoretical models must be proven. These propositions may provide general guidelines for practical incentive mechanisms design.we argue that if a generic incentive mechanism can capture most important P2P systems' characteristics, they do not consider the proper functioning and the performance metrics of a particular application. They might also not be robust enough against specific misbehaving patterns of an application. Specification of incentive mechanisms guarantees more efficiency. Various game models of game theory are used from which we cite [3] for evolutionary prisoners' dilemma (EPD), [4] for generalized prisoners' dilemma (GPD) and finally repeated games in [5]. B. Specific incentives : targeting specific systems and applications Impact of non-contribution and effectiveness of incentives depend on P2P system and application types. Some incentive mechanism propositions specifically encounter misbehavior in centralized, decentralized structured and unstructured P2P systems and might be ( 111 )

114 application specific. Indeed, contributors and noncontributors are identified with regard to the considered collaborative operations. Observed collaborative operations consume peer's physical resources (bandwidth and storage space) and are as follows. Resource lookup. Without incentives, search can be degraded. o o o In unstructured P2P systems, peers might not transfer packets to neighbors. In structured P2P systems, peers might neither not hold nor maintain routing tables nor route request packets. In a hybrid P2P system, the super-peer informs affiliate peers about resources location in the system. A peer might not assume the super-peer role. Resource hosting in structured P2P systems. In structured file sharing systems, files are relocated at peers with the closest identifier. This supposes that the host peer is willing to give up some memory space for storing the file and bandwidth when responding to requests. Effective resource sharing. In advertisement based P2P systems, resource advertising does not guarantee effective sharing and cannot be considered contribution. Information providing. Some protocols require peers to provide others truthful information for system's functioning. Observed collaborative operations can also be applicative. Peers are considered untruthful and able to defect in every possible application specific collaborative task as they can modify client software code. The target applications are content distribution applications (file sharing and multimedia streaming applications), distributed storage or distributed computing applications. According to the applicative goal, the mainly solicited physical resources are different. 1) Content distribution systems A copy of the requested content is sent to the requesting peers. Transferring content temporarily involves sharing provider's bandwidth. In multimedia streaming systems, stream transfer delay must be the shortest possible as streams are viewed in real time; they thus require greater amounts of bandwidth than in file sharing systems. 2) Distributed storage Distributed storage involves similar resources than file sharing networks except that peers must be guaranteed to be able to retrieve their data when needed. 3) Distributed computing Peer's processing power is the primary resource. Memory and bandwidth are queried for storing intermediary results and getting in and out input and output data respectively. Measuring physical resources contribution is done by considering the amount of the most critical resource of the application. However, measuring the resource contribution is only necessary if the peer is satisfied of the service that it has been offered (for example, in file sharing systems, the peer should be satisfied of the received file in terms of its completeness, its integrity and its quality). C. Incentive schemes There are two types of incentive schemes: economic based and reciprocity based. 1) Economic based incentives Economic incentives create an economy where providing a service is lucrative. A peer has to pay the contribution of other peers with regard to the considered collaborative operations. The remuneration (virtual coins) is exchanged between transacting peers. The peer does not consume a resource unless it has contributed before and owns sufficient amount of currency to pay for the resource. The only behavior that shows is contribution: non-contribution does not show to other peers but still affects the peer that does not have the required amount of currency to get resources. The drawbacks of such mechanisms are the important overhead imposed by the communications and the requirement for persistent and strong peer's identification [6]. Persistent identification means that the identifiers are valid over a long period of time. Strong identifiers are resistant to peers' malicious intentions like impersonating. They also may have a single point of failure if a function is implemented in a centralized way. Indeed, they might need a central authority to distribute the currency. Finally, security is needed in payment schemes to ensure robustness of the incentive mechanism. Economic based incentives differ from each other depending on: the observed operations, the resource pricing scheme, who is paid, and the payment mechanism. The resource provider is paid for providing the resource. Intermediary peers participating in the transaction may get paid or not depending on whether routing packets is an observed operation. The resource price can be fixed or variable over time but must be fair in the sense that it must reflect the real cost of resource provision. A trusted entity sets the price in fixedprice schemes whereas in variable-price schemes, the price can either be fixed by a trusted entity or by one of the transacting peers. On one hand, if the price is settled by the peers providing resources, it should reflect the availability of resources the peers share and their workload (which depends on owned resources' popularity). Provider peers might also be tempted by overpricing the resource. In case where the resource's availability value in the system is high, the requester get to choose among the several prices' propositions which places the peers offering the requested resource in a situation of competition. On the other hand, if requester peers settle the price, they will tend to lower it. Another option is that several requesting peers targeting a resource at the same provider bid for it. Payment mechanisms [7, 8] specify coin valuing (the value of coin with regard to one unit of provided resource), coin issuing responsible at the bootstrapping phase, the payment strategy (when the resource is paid: before transfer, during transfer, after transfer) and the actual coin transfer method (accounting). It should detect double spending, coin fraud and any possible malicious attack. Moreover, payment transactions have to be controlled and peers identification is needed for accounting so that each peer has its account and ( 112 )

115 cannot cheat the system. Both centralized and distributed implementations are possible for a payment mechanism. Authors in [10] propose an incentive mechanism where both provider and routing nodes are paid for providing and transferring the file. A file is supposed detained by only one server. There are n disjoint paths from the client to the server and peers at one hop from the server are called terminal nodes. For a wanted file, a peer has a utility and a maximum price offered P C. It sends lookup messages through the different paths and each intermediate node adds its marginal cost to the total marginal cost. An intermediate node's marginal cost depends on its cost of forwarding the request (it is higher if the peer is loaded). Terminal nodes submit a bid (for resource payment) that equals the offered price minus the total marginal cost. The server runs a Vickrey auction where the highest bid path wins the auction and pays the second offered price. The profit is than fairly shared between the nodes of the winning path in proportion to their marginal cost. The auction is secured to avoid cheating. We argue that authors were not realistic when supposing that a resource is offered by a unique server and the paths to it are disjoint. In a P2P file sharing network, a file might be offered by multiple peers and finding disjoint paths from a client to server is costly. [9] addresses the dropping problem. Authors suppose resources abundance and a pay-per-service system. Some peers provide the same resources with different prices and are in competition with each other. Thus, if they do not forward queries, a peer offering a less pricey resource does not get chosen. This incentive mechanism tries to insure a proper search mechanism. The protocol is based on RTR(Right To Respond)messages. RTRmessages are encrypted. A peer must pay to receive a request as responding to it may bring revenue. Once the RTR is bought, the peer has two options: to respond to the request if it owns the corresponding file and hopes to be chosen to provide the service or to sell the RTR to another peer. Before a peer A forwards the query to a peer B, it sends it an offer message; this latter is necessary to the peer B to decide whether to buy the request or not. This proposition lacks details about pricing scheme and payment mechanism. 2) Reciprocity based incentives One peer might decide to collaborate depending on its knowledge of others present and/or past behaviors. A peer offers its resources to contributors and defects on noncontributors. A common issue for reciprocity schemes is dealing with newcomers. Newcomers might be hard to transact with especially if they have no initial resource to contribute. They might be dissuaded from joining the system if joining rules are too restrictive or enticed to whitewashing (escaping consequences of past non-contribution) if the joining rules are too loose. A fixed-fee entry rule or a stranger adaptive strategy might be established. The fixed-fee entry rule conditions access to the system by a specified amount of resources to provide. The stranger adaptive strategy states to treat strangers according to the behavior of the past newcomers. Another solution to whitewashing is assigning persistent identifiers for all newcomers. Another problem is peer's identification. A peer's identity must be strong and persistent over time (the longest possible). Whitewashing is feasible if identities are not strong. Peers should not be able to escape their past misbehavior by entering the system under a new identity and allow a coherent information keeping. Reciprocity based schemes are divided into two subclasses: direct reciprocity schemes and indirect reciprocity schemes. a) Direct reciprocity schemes Direct reciprocity schemes consider interactions between each couple of peers. On one hand, a peer A provides resources to a peer B if: B has already provided resources to A, Bis providing resources to A, B is going to provide a resource to A.On the other hand, a peer A might consider the peer's B priority among other asking peers according to their contribution. Drawbacks of these mechanisms are that the only possible operation to consider is resource provision and the need of mutual interest for owned resources. These mechanisms can be further classified according to the reciprocity time intoimmediate and deferred direct reciprocity schemes. Immediate direct reciprocity schemes In immediate ones, resource exchange between the interacting peers is simultaneous. After an agreement on the exchanged resources, the transaction phase starts. Transacting peers do owe nothing to each other at the end of the transaction. The advantages of immediate direct reciprocity schemes are as follows: no need for keeping history of the previous interactions with peers, no need for strong and persistent peers' identification mechanism, little overhead, it can detect freeriding in real time and react by stopping the current resource provision, no need for a central entity to track the reciprocity. The drawbacks of this type of mechanisms are that peers need an immediate mutual interest for the currently owned resources (so that they can immediately exchange them), non-scalability and a possible delay before the start of resource provision. While this scheme could be interesting to implement, to our knowledge, there have been no proposition. Deferred direct reciprocity schemes Deferred direct reciprocity schemes differ from the immediate ones in that compensation for providing resource is not immediate: there is no initial agreement on the exchanged resources before the first resource transfer. Their advantage is that immediate mutual interest for owned resources is mandatory. The drawbacks of deferred direct reciprocity schemes are: the possibility of a peer leaving the system after getting the resource, ( 113 )

116 transaction information must be kept for future reciprocation, long duration sessions are required for repetitive interactions: this is not always possible in reality and choosing a peer to interact with becomes harder. Authors in [11] propose SLIC, a direct deferred reciprocity based incentive mechanism for unstructured P2P networks. Each peer has a capacity (that it uses either for generating new queries or responding to received queries), an answering power (the probability of having the asked for resource) and a set of neighbors. Every peer monitors its neighbors in the operation of processing and forwarding queries, thus, peers are guaranteed better service if they provide more capacity to respond to requests and if they establish more connections. A peer periodically computes its neighbors weights (its opinions about its neighbor), whose values vary from 0 to 1: 0 means that the neighbor is useless and 1 means that it is an excellent neighbor. A peer gets better service if its neighbors give it a higher weight value. Weights computation takes into account the query hit messages neighbors originate during a period for the queries with expired TTL. The peer then decides if its neighbor behaves well enough for processing or forwarding its requests. The paper also addresses the initialization of a newcomer (to avoid whitewashing and strict restrictions to enter the network) with three possible schemes. Finally are discussed two possible options to decide if peer should accept a connection request of a newcomer unconditionally: limited or unlimited degree. b) Indirect reciprocity schemes Indirect reciprocity schemes consider interactions between more than two peers. Advantages of indirect reciprocity schemes are that frequent transactions between two peers are not necessary and the scalability to large populations in comparison with direct reciprocity schemes. Their drawback is that they may rely on second hand observations which raise trust issues between peers. Indirect reciprocity schemes are exchange based or reputation based. Exchange based reciprocity schemes In an exchange based reciprocity scheme, the peers organize in groups (a ring or a swarm) in which they share resources in an immediate way. In a ring, there is an organized transitive resource exchange: a peer is served by its predecessor and serves its successor. A swarm is a set of peers where a peer might serve and might get served by multiple peers at the same time. It gathers peers with the same interests. If the resource is dividable (a file composed of chunks), the swarm is the set of peers sharing chunks of that same file. The advantages of such schemes are that resource sharing is stimulated and delay latency for resource getting is reduced. Their drawbacks are that mutual interest in resources is needed to form groups and group formation is a dynamic process that induces more resources consumption. In [12] is proposed a bartering based approach where peer's received service quality is proportional to the one it provides. A peer downloads while uploading. The uploading bandwidth in the ring is the smallest bandwidth offered by a peer. Peers are encouraged to increase their uploading bandwidths in order to see their download speed increasing. In our view, however, authors do not give many details about rings construction and its feasibility. This method totally eliminates freeriding if cheating (a peer pretending that it has file but does not) is not considered possible. Rings construction increases the delay before starting downloads and imposes a communication overhead because of exchanged messages. In BitTorrent [13], the freeriding problem is addressed with the tit-for-tat (TFT) incentive strategy that entices peers to seed. However, through implementing a strategic BitTorrent client, authors in [14], [15] have proven the inefficiency of this strategy to provide robustness: BitTorrent's well functioning is not due to TFT but to some altruism in the system. Freeriders are still able to cheat the system and achieve high quality downloads (optimal downloading speed and time). Still, with the TFT strategy, a seeder gains nothing in comparison to leechers or freeriders. Reputation based reciprocity schemes In indirect reputation based reciprocity schemes, a peer relies on reputation value of another peer to decide whether to transact with it or not. Reputation value is computed using its local information about transaction outcomes and/or some or all others opinions. The reputation value represents the trust that a peer has towards another and reflects both peer's capacity and motivation. Negative feedback translates into a lower reputation value while positive feedback into higher reputation value. On one hand, the providing peer might decide whether or not to provide the resource based on the reputation value of the demanding peer. On the other hand, the requesting peer might get refused resources because of a poor reputation. The peer gets enticed to behave well in order to build a good reputation and get served. A reputation mechanism assesses a reputation value (trust degree) based on a contribution level and has five functions: information gathering, reputation value assessment, reputation value storage, reputation value dissemination, the decision function. Information gathering. After each interaction, the peer getting the service reports the transaction's success or failure and its satisfaction value of the observed collaborative operations based on the expected QoS and the received QoS. Information sources can be restrained or not. Reputation value assessing.the aggregation of satisfaction values into a reputation value is specific to each reputation mechanism and its computation obeys to a method. When to compute the score is another factor of reputation mechanisms as the behavior varies through time. A frequent update might not be necessary as the computation gives the same value whereas a less regular one could lead to cheating: a peer with a high enough reputation can stop contributing and still benefit from it. A solution is considering short term history [16]. Short term history ( 114 )

117 ensures that a peer that was once a good contributor and that has not been anymore in a nearest period of time does not benefit from its previous good reputation. The score value type depends on its evaluation: it can be binary (1 for contributor, 0 for non-contributor) or real and comprised between 0 and 1. Reputation is also classified into autonomous (relative) or global(absolute) reputation. In autonomous reputation schemes, the peer relies on what it knows from itstransactionswith other peers; values are neither disseminated nor aggregated. In global ones, information is disseminated to and aggregated from multiple or all peers. Reputation value storage.a centralized storage induces a single point of failure. The distributed storage makes the reputation mechanism more vulnerable to peers misbehavior. The responsible of computation can either send the reputation value on demand to a specific peer, on update or periodically or send a blacklist of guilty peers to all peers. Reputation value dissemination.reputation mechanisms differ from each other depending on how reputation values are disseminated, to whom they are disseminated and when they are disseminated. If the reputation value is sent through specific messages, the respective mechanism is explicit. If reputation value is adjoined to a message, the mechanism is a gossip mechanism [6]. It could be sent on update or on demand. It is sent on demand to the peer that asked for it or on update to all systems peers or a restrained group of peers. The decision function.the incentive mechanism maps the reputation value into a type of peer (collaborative or noncollaborative) and then to reward or sanction. As reward can be proportional to the contribution level and the quality of the offered services, punishment can be proportional to the harm the peer caused to the system. The advantage of reputation based mechanisms is that direct reciprocity in resource providing between peers is not necessary. Their drawbacks are as follows. Peers unreliability in information reporting. Information quality and correctness of reputation values. Reputation mechanisms are subject to individual or collective false reporting (false accusation or false praise). Information validity and integrity are not ensured and consciously sharing incorrect information about peerřs reputation should be sanctioned. Sybil attack is a possible individual malicious behavior where a user joins the system under different identities and uses them to enhance the reputation of one of them. Collusion is an example of collective malicious behavior where a group of peers declare false transactions in order to improve each others' reputation. Correctness of reputation values depends on the gathered information quality in terms of completeness, accuracy (timeliness) and truth. Information completeness depends on the number of information sources. Ideally, a peer A gets feedback about a peer B from all other peers that have already interacted with it. Restraining information sources to a set of peers (in the local neighborhood) implies integrity issues and potential group attacks (collusion). Increasing information sources decreases the quality of each of them [17]. Not restraining information sources allows an accurate evaluation but can lead to additional overhead. Moreover, the gathering time influences information correctness. Information accuracy depends on whether the information is up-to-date or not. Accuracy might also consider freshness. Recent peer's behavior might be completely different from past peer's behavior. Defining a window allows to consider the most representative past behavior. Truthful information revealing should be enticed. Reputation values of sources can be used for weighing their opinions in handling information integrity. Good information quality implies high overhead: a compromise between the three previous factors is thus necessary. Two kinds of reputation mechanisms exist: centralized and decentralized [18]. In centralized implementations, an objective central authority is responsible for gathering, computing, storing and disseminating reputation values. In decentralized ones, all peers or some trusted peers gather information, compute, store and propagate reputation values. Another possibility is that only peers that have been involved in transactions with other peers are actors of the reputation mechanism. This latter option imposes the necessity of coherence of reputation values maintained at each entity. While the impact of bad behavior should be superior to that of good behavior [17], indirect reciprocity schemes do not consider non-contribution level to compute reputation values, and cannot be perfectly representative since defection motivations are not known. Authors in [19] propose a reputation based incentive mechanism for P2P file sharing networks where a peer is enticed to share files while downloading. At joining, a peer must advertise a minimum number of files and effectively share them when asked for. A decentralized index holds the peers' shared files and contains a field where a peer can check the validity of the resources provided by the peer it is serving. A peer is not served if it refuses to serve files to others. When the peer A wants to download a resource from the peer B, B is interested in knowing if A is sharing the files it advertises. If A refuses to share a file to a peer C, this latter informs B (it gets its identity from the index) and B stops uploading to A. The same arrives if the shared file is not valid. In order to increase availability time, the average download time is increased by fixing the upload bandwidth: the peersř presence time in the system is longer. Authors in [20] propose a middleware of four components to stimulate fair cooperation. A peer joins the system by sharing a set of resources it is willing to contribute. It is assigned a strong identity by the registration service to avoid whitewashing and an initial access level reflecting the portion of resources it has access to as a newcomer. The access level value evolves proportionally to participation level and both are computed by the aggregation service. A peer's participation value is increased when it responds to a query and decreased if it forwards a query while it should have responded to it. Fairness in access to reward is ensured in the following way: if two peers are able to respond to a query, it is the one with the smallest participation level that responds to it (and thus gets the chance to improve it). Semantic group membership ( 115 )

118 serviceallows grouping peers with common interests (they share at least one resource of the type of other peers in the same group: semantic groups augment the potential of sharing between peers) and supervising them by supervisors (trusted peers): peer's queries are responded by neighbors in semantic groups for each type of resource. Peers are tracked when their suspicion level reaches a certain threshold by the tracking service that prioritizes them for responding to request. If they do not, after a time-out, they are notified freeriders to the tracking service with a probability of the requester's access level. Peers also notify the outcome of their transactions to this service. When participation level increases, suspicion level decreases. Authors, however, do not consider trust issues and information misreporting. Authors in [21] deal with reporting truthful feedback information in P2P systems. Peers involved in a transaction have to rate each other on the transaction quality and submit a feedback message to credibility holders. Credibility holders are peers structured in a DHT that are responsible for storing and providing reputation values for transacting peers. If peers disagree on a transaction quality, one of them is lying and both should be punished by a temporary ban from transaction. Duration of punishment depends on and is proportional to the non-credibility value. Each peer should send feedback messages to every credibility holder maintaining credibility information about the transaction. Newcomers are assigned a default value of non-credibility. Each peer has a pair of public and private keys to sign feedback messages. Receiving a feedback message from only one transacting peer is considered as disagreement and is punished. In order to ensure truthfulness of credibility holders, a peer periodically asks for its non-credibility values from credibility holders and compares them. This trust mechanism allows a better peer selection as peers do compute reputation values are influenced by non-credibility ones. One drawback is that it still cannot distinguish truthful peer from the untruthful peer and hence punishes the innocent peer. IV. DISCUSSION In a P2P system, the incentive mechanism is responsible for identifying and stimulating non-contributors to provide resources while compensating contribution. Noncontribution definition depends on the system functioning and the quality of service required from the system. Targeting a specific application type or system adds to the mechanism's efficiency as it allows an accurate definition of contribution (observed collaborative operations) and noncontribution (setting the thresholds under which the peer is considered non-contributor). Every proposition of a practical incentive mechanism requires a specification of the target system and/or application. Opting for an incentive scheme requires a compromise between: researched system's performance and how observed collaborative operations affect it, advantages and drawbacks of incentive schemes and their implementation costs within the specific system. Incentive mechanism's functions are undertook in a centralized, decentralized or hybrid way. We argue that opting for one of them depends on the specific needs of the system. Compromises are to be made between advantages and drawbacks of centralization and decentralization. We can compare the incentive mechanisms on the following parameters: the targeted system and application, the observed operations, the incentive strategies and the type of incentive mechanisms. Incentive mechanisms requirements are scalability, robustness to peers threatening or escaping consequences of their behaviors and a minimum communication and information storage. Incentive mechanisms design and implementation confront the challenge of security and peer's identification. The frontier with security issues is very subtle and incentive mechanisms must define what is considered as a valid contribution: it should be provision of an interesting and useful resource. Incentive mechanisms efficacy is closely related to peer's identification mechanism. If a peer can escape the incentive mechanism constraints or penalties, the mechanism is no longer effective. They also have to resist malicious attacks and be resilient to failures. Attacks range from individual (false praise, treachery, whitewashing and Sybil attacks) to collective attacks (like collusion). False praise: sharing false values. Treachery: a peer may behave well and change strategy while still benefiting from its past good reputation. Sybil attacks: a same peer appears under multiple identities in order to influence a collective decision by submitting a choice several times. Collusion: peers group themselves so they can make transactions with each other in order to enhance their reputation value. V. CONCLUSION AND FUTURE WORK This paper addressed incentive mechanisms in P2P systems. We first highlighted roles and objectives of an incentive mechanism. We then classified incentive mechanisms according to their specification level and the incentive scheme they implement. Generic incentive propositions are exploited to design more specific incentive mechanisms targeting a specific system and/or application type. Specifying the system and application type allows a precise definition of contribution and hence a clear identification of non-contributors according to the chosen observed collaborative operations. Once observed operations and contribution assumptions clearly set, incentive schemes are to be chosen according to the system's overall needs in terms of functioning and performance. Major challenging issues related to incentive mechanisms are security and peers identification. Other issues target more specifically some incentive schemes rather than other like defining efficient pricing or payment mechanisms in an economic incentive scheme. We also underline the features, advantages and drawbacks of each incentive scheme. Finally, we argue that this classification is helpful in incentive mechanism proposition targeting static or mobile P2P systems. REFERENCES [1] M. R. Rahman, ŖA Survey of incentive mechanisms in Peer-to-Peer systems,ŗ [2] S. B. Guruprasad Khataniar and A. Khataniar, ŖA comparative study of incentive mechanisms used in Peer-to-Peer system,ŗ ( 116 )

119 [3] K. Lai, M. Feldman, I. Stoica, and J. Chuang, ŖIncentives for cooperation in peer-to-peer networks,ŗ [4] M. Feldman, K. Lai, I. Stoica, and J. Chuang, ŖRobust Incentive Techniques for Peer-to-Peer Networks,ŗ in Proceedings of the 5th ACM Conference on Electronic Commerce, ser. EC ř04. New York, NY, USA: ACM, 2004, pp. 102Ŕ111. [5] H. Chen, H. Xu, and L. Chen, ŖIncentive mechanisms for P2P network nodes based on repeated game,ŗ JNW, vol. 7, no. 2, 2012, pp. 385Ŕ392. [6] M. Karakaya, I. Korpeoglu, and O. Ulusoy, ŖFree riding in Peer-to- Peer networks,ŗ IEEE Internet Computing, vol. 13, no. 2, 2009, pp. 92Ŕ98 [7] B. Yang and H. Garcia-Molina, ŖPPay: Micropayments for Peer-to- Peer systems,ŗ in Proceedings of the 10th ACM conference on Computer and communication security. ACM Press, 2003, pp. 300Ŕ 310. [8] F. D. Garcia and J.-H. Hoepman, ŖOff-Line Karma: A decentralized currency for Peer-to-Peer and grid applications,ŗ in ACNS, ser. Lecture Notes in Computer Science, vol. 3531, 2005, pp. 364Ŕ377. [9] B. Yang, T. Condie, S. Kamvar, and H. Garcia-Molina, ŖNoncooperation in competitive P2P networks.ŗ [10] R. Gupta and A. K. Somani, ŖPricing strategy for incentivizing selfish nodes to share resources in Peer-to-Peer (P2P) networks,ŗ vol. 2, 2004, pp. 624Ŕ629. [11] Q. Sun and H. Garcia-Molina, ŖSLIC: A selfish sink-based incentive mechanism for unstructured Peer-to-Peer networks,ŗ in 24th International Conference on Distributed Computing Systems, 2004, pp. 506Ŕ 515. [12] T. Ackemann, R. Gold, C. Mascolo, and W. Emmerich, ŖIncentives in Peer-to-Peer and grid networking,ŗ UCL-CS, vol. 1, 2002, pp. 1Ŕ 12. [13] B. Cohen, ŖIncentives build robustness in BitTorrent,ŗ [14] M. Piatek, T. Isdal, T. Anderson, A. Krishnamurthy, and A. Venkataramani, ŖDo incentives build robustness in BitTorrent,ŗ in Proceedings of the 4th USENIX Conference on Networked Systems Design & Implementation, ser. NSDIř07. Berkeley, CA, USA: USENIX Association, 2007, pp. 1Ŕ1. [15] S. Jun and M. Ahamad, ŖIncentives in BitTorrent induce free riding,ŗ in Proceedings of the 2005 ACM SIGCOMM Workshop on Economics of Peer-to-Peer Systems, ser. P2PECON ř05. New York, NY, USA: ACM, 2005, pp. 116Ŕ121. [16] M. Feldman, K. Lai, I. Stoica, and J. Chuang, ŖRobust incentive techniques for Peer-to-Peer networks,ŗ in EC ř04: Proceedings of the 5th ACM conference on Electronic commerce. New York, NY, USA: ACM, 2004, pp. 102Ŕ111. [17] S. Marti and H. Garcia-Molina, ŖTaxonomy of trust: Categorizing P2P reputation systems,ŗ Computer Networks, vol. 50, no. 4, 2006, pp. 472Ŕ484. [18] A. Blanc, Y.-K. Liu, and A. Vahdat, ŖDesigning incentives for Peerto-Peer routing,ŗ in INFOCOM. IEEE, 2005, pp. 374Ŕ385. [19] P. Antoniadis, C. Courcoubetis, and B. Strulo, ŖIncentives for content availability in memory-less Peer-to-Peer file sharing systems,ŗ SIGecomExchanges, vol. 5, no. 4, 2005, pp. 11Ŕ20. [20] E. Anceaume, M. Gradinariu, and A. Ravoaja, ŖIncentives for P2P fair resource sharing,ŗ in Peer-to-Peer Computing. IEEE Computer Society, 2005, pp. 253Ŕ260. [21] T. G. Papaioannou and G. D. Stamoulis, ŖAn incentivesř mechanism promoting truthful feedback in Peer-to-Peer systems,ŗ in CCGRID, 2005, pp. 275Ŕ283. ( 117 )

120 Optimisation du routage des navires par une approche hybride basée sur lřacf Ibrahim HENNI 1, Khaled BELKADI 2 LAMOSI, USTO-MB Université Mohamed BOUDIAF ORAN, ALGERIE 1 hennibrahim@live.fr 2 belkadi1999@yahoo.com Résumé Face à la hausse du prix international du pétrole et le réchauffement climatique, les concepts du «transport vert» ont été soulevés dans l'industrie du transport maritime international. Par conséquent, la gestion du transport doit prendre soin non seulement de l'efficacité économique, mais aussi de la protection de l'environnement pour prévenir la pollution. Les Systèmes d Information Géographique (SIG) ont une place prépondérante dans le cadre de la navigation maritime. Les déplacements des navires dans un environnement maritime sont planifiés. La planification efficace de route empruntée par un navire est généralement déterminée par trois aspects : la précision de la prédiction du comportement hydrodynamique du navire dans différentes conditions météorologiques, l'exactitude des prévisions météorologiques, et l'algorithme d'optimisation. Dans ce papier nous avons apporté des modifications à l'algorithme de Colonie de Fourmis (ACF) pour l'application de la navigation maritime, et nous avons intégré les concepts de l Algorithme Génétique (AG) pour améliorer son efficacité. Mots clés Métaheuristiques; Optimisation multiobjectif; SIG; Route Maritime Optimale; Système de navigation I. INTRODUCTION Dans le monde globalisé d'aujourd'hui, le transport de marchandises en mer est d'une grande pertinence: plus de quatre-vingt dix pour cent (90%) du commerce mondial est transporté sur mer [1]. Selon les statistiques, le volume de marchandises transportées par voie maritime a eu des effets négatifs importants sur l'environnement, ce qui peut causer un réchauffement climatique et une pollution de l'air. Par conséquent, une raison supplémentaire pour réduire la pollution de l'air est de diminuer la consommation de carburant pendant la navigation [2]. Le choix de la route optimale, le maintien de la vitesse et l'évitement des obstacles peuvent non seulement réduire la consommation de carburant de façon significative, mais aussi améliorer la sécurité de la navigation. Un équilibre entre la sécurité de la navigation et de l'efficacité économique doit être trouvé [3] parce que la détermination de la route optimale est un problème multicritère nonlinéaire et englobe de nombreuses contraintes. En d'autres termes, le processus de la planification ne doit pas prendre en compte seulement l'évaluation des risques sécuritaires en cas de déviation pendant la navigation, mais aussi éviter une augmentation du coût total en raison des mesures de déviation. Le problème de planification de routes maritimes consiste à minimiser le temps de parcours etles distances parcourues dřun navire pour aller dřun point courant à un objectif. Diverses contraintes météorologiques peuvent être considérées : force du vent et caractéristiques des vagues. On sřintéresse au problème de navigation maritime. Il est connu dans la littérature comme étant NP- Difficile [4].Pour résoudre des instances de taille importante, une solution consiste dans un premier temps à faire recours aux méthodes dřoptimisation combinatoire telles que les métaheuristiques. Dans ce papier, nous allons étudier le problème du routage optimal des navires en modélisant le déplacement et en dégageant une solution basée sur un algorithme d'optimisation qui optimisera les déplacements effectuées par les navires et qui tiendra compte à la fois de la sécurité et de lřéconomie. Afin de réaliser cette mission d'optimisation, nous avons proposé un nouvel Algorithme de Colonie de Fourmis (ACF) avec lřintégration des concepts delřalgorithme Génétique (AG). Le calcul et la recherche de lřinformation géographique sont fournis par le Système dřinformation Géographique (SIG) développé. II. NAVIGATION MARITIME La navigation désigne l'ensemble des techniques et méthodes qui permettent au navire de déterminer sa position et de calculer la route à suivre pour se rendre à sa destination, en toute sécurité [5]. A. Route maritime Il n'existe pas aujourd'hui de données répertoriant les routes réellement suivies par les navires parcourant les mers du globe. On dispose par contre des ports de départ et d'arrivée de la plupart des voyages commerciaux, d'informations ponctuelles sur la position de certains navires à proximité des côtes, ainsi que de données sur les grandes routes généralement empruntées par les navires. Aujourd'hui, dans l'évaluation des routes maritimes optimales, la principale préoccupation, outre la sécurité, est généralement accordée aux temps de navigation (ou vitesse de navigation) plutôt que de la distance. En considération descritères de la sécurité et de la consommation d'énergie, la plus courte distance entre deux ports n'est pas nécessairement une route optimale. Il ya de nombreuses routes à choisir entre elles, la route qui prend le moins de temps est la route optimale. B. Calcul de la route optimale La résolution d'un problème de route optimale consiste à trouver la route avec le moindre coût parmi l'ensemble des chemins candidats, en tenant en compte les conditions météorologiques. Le coût mentionné n'est pas limité à la distance seulement, mais doit prendre en considération le temps de navigation, la consommation de carburant, ou une combinaison de facteurs.les variables de décision qui doivent être contrôlées sont les manœuvres de cap et de vitesse. Le coût total (I) est calculé comme la somme des ( 118 )

121 coûts sur chaque segment de route ( ). Il est basé sur la position du navire (P), des changements dans le contrôle de manœuvre (C) (i.e., vitesse et cap) et la durée en temps (t). Avec ces facteurs de coût, le problème de routage des navires peut être décrit par la formule suivante: ( ( ) ( ) ( )) (1) où : - f (P, C, t) fonction du coût du voyage pour une position donnée, contrôle de manœuvre et un temps t; et P R, C C A. - R une région possible de navigation. - C A variable de contrôle de direction du cap et de maintien de la vitesse. - ds est mesuré par la consommation de carburant et le degré de sécurité des navires navigants. C. Modélisation des trajets Les progrès dans la prise en compte de la connaissance en temps-réel des informations sur les déplacements des objets mobiles sřaccompagnent du développement des systèmes dřinformations géographiques (SIG) qui favorisent, pour leur part, la gestion et la manipulation de ces données. Lřéquipe dřyvan Bédard de lřuniversité Laval au Québec a développé une méthode générale qui permet dřétendre nřimporte quel formalisme graphique de modélisation pour la conception géographique. Cette méthode est une extension des diagrammes de classes UML pour la définition des données spatio-temporelles. Plusieurs notations ont été reprises de la méthode entités-relations Modul-R[6]. Trajet - date : String - heuredepart : heur - heurearrivée : heur 1 TypeTrajet - durée : int - prix : float - actif : boolean 1..* 0..* 1 portdepart portarriv 1 1 Traverse 0..* Figure 1 : Schéma conceptuel GEO-UML III. ALGORITHME DE COLONIE DES FOURMIS ET LE ROUTAGE DES NAVIRES Le principe sřinspire du comportement de masse de colonies de fourmis.dans le monde naturel, dans la recherche de la nourriture par des fourmis, elles prennent les différents chemins possibles du nid à la source de nourriture, différentes fourmis vont d'abord choisir des chemins différents mais à la fin, la plupart des fourmis vont découvrir le même chemin le plus court. Cetterecherche du plus court chemin est un processus interactif. A. Le principe de l algorithme des colonies des fourmis(acf) On met un certain nombre de fourmis artificielles (navires) qui suivent un ensemble de règles de recherche pour trouver la route optimale globale. L'objectif de routage 1 TypeTraverse - actif : boolean Port - lieu : String 1 Navire - nom : String - categorie : String - tonnage : int - capapassager : int * 1 Flotte - nbnavire :int des navires est de trouver la plus sûre et la plus économique route de navigation basé sur les conditions météorologiques et selon les règles dřévitement des plates-formes pétrolières fixées au fond marin entre les points de départ et de destination. B. Division du système de grille marine Afin de planifier les changements de cap nécessaires dans la route de navigation, l'espace maritime doit d'abord être divisé en grilles [7], et la route de navigation se compose de Waypoints. La procédure pour faire une grille est la suivante: - Établir d'abord une route orthodromique entre le point de départ (L1, λ1) et le point final (L2, λ2), pour servir de base à la planification de la route. - Ensuite définir une distance X, et définir les points des segments le long de la route orthodromique (Lx, λx) dans des intervalles de X. - Puis connecter les points de segmentation dans le Nord- Sud, Est-Ouest pour former un système de grille. - Enfin définir la matrice des coordonnées et de nœuds, et la planification de la route sera établie dans ce système de grille. Avec les avancées de la communication et de la technologie de positionnement, le système de grille et la route de navigation peuvent être ajustés de manière dynamique et continue, selon les dernières conditions météorologiques, le dernier point de positionnement et le point final sur la route orthodromique. C. L implémentation de l algorithme des colonies des fourmis La première étape consiste à établir un système de grille et sa matrice de nœuds dans la zone de navigation, et fournir à chaque nœud avec la valeur initiale appropriée dans la matrice pour former la matrice initiale des informations de nœud. Ensuite, mettre toutes les fourmis sur le point de départ pour leur permettre de se déplacer simultanément vers la direction de l'objectif, et pour atteindre le point de destination à la fin. Dans le processus, chaque fourmi utilise la règle de transition d'état et soumis à un processus de sélection lors du passage au prochain nœud. Toutes les fourmis vont atteindre la destination simultanément et compléter une route. Après que toutes les fourmis ont atteint la destination, calculer la valeur de la fonction objectif en se basant sur des routes découvertes par chaque fourmi.chaque nœud est également mis à jour avec la quantité globale de phéromone, chaque fourmi k laisse une quantité de phéromone dans chaque arc quřelle choisit. La mise à jour renforce les arcs choisis en prenant en considération lřévaporation. Ce processus serarépété jusqu'à ce que la route optimale soit découverte. L'explication détaillée du processus est la suivante: 1)Réglage de la quantité de phéromone Le nombre de fourmis est supposéégal àm. Et, chaque fourmi choisit la route suivante en fonction de la probabilité correspondante sur la base de la quantité de phéromone sur le trajet, au lieu de choisir la route qu'elle a déjà traversé. Lors de l'achèvement d'un cercle de route, elle produit une quantité correspondante de la concentration de phéromone, sur la base de la distance totale de la route, et met à jour la concentration de phéromone sur le trajet passé. ( 119 )

122 Avec τ ab (t) représente la concentration de phéromone sur lřarc (a, b) à l'instant t, la concentration de phéromone sur cette route à l'instant t +1 est: τ ab(t+1) = ρ.τ ab(t) + τ (2) où : ρ - Une constante qui indique le facteur de quantité de phéromone, sa valeur est comprise entre 0 et 1, et (1 - ρ) représente le coefficient d'évaporation de phéromone. τ -Indique la quantité de phéromone ajoutée sur la route (a, b) par la fourmi k entre lřinstant t et t +1. Si la fourmi k-ième passe par (a, b) τ = { a (3) Sinon Q est une constante qui est la quantité totale de phéromone produite par chaque fourmi ; d ab est la distance entre le nœud a etle nœud b. Eq. (3) indique que l'accroissement de la concentration de phéromone est lié au coût de la route traversée. 2)Principe de sélection de Waypoints La règle de transition consiste à orienter la direction de recherche de chaque fourmi vers la meilleure solution. Pour la fourmi k localisée au nœud a, la probabilité de choix de lřarc sortant (a, b) à lřinstant t est définie par : P (t) = ( ) ( ) (a) 0 sinon, si b ( ) où : N k(a) - Ensemble de nœuds candidats qui peuvent être visités par la fourmi k située au sommet a. η ab - valeur heuristique, dite visibilité, définie par lřinverse du coût sur lřarc (a, b) ; η ab = 1/d ab. α, β : Les deux principaux paramètres, qui contrôlent lřimportance relative de lřintensité et de la visibilité dřune arête. τ ab (t) - Quantité de phéromones sur lřarc (a, b) à lřinstant t. Cette règle de transition donne la probabilité de choix du prochain nœud à sélectionner selon la quantité de phéromones et la valeur heuristique locale. Les paramètres α et β contrôlent lřimportance relative de ces deux composants. Si α=0 les fourmis choisissent le nœud ayant la meilleure valeur heuristique. En revanche, si β =0, le choix de probabilité ne dépend que la quantité de phéromones. La piste de phéromones est renforcée immédiatement dès quřune fourmi complète une route. La quantité de phéromones ajoutée dépend de la qualité de route traversée. 3)Procédure de calcul Les étapes d'utilisation de l'acf pour déterminer la route optimale sont énumérées ci-dessous: 1. Initialisation de la quantité de phéromone sur tous les nœuds situés dans la zone de navigation, pour former la matrice initiale. 2. m fourmis sont prêtes à démarrer au point de départ A. 3. Chaque fourmi choisit le nœud suivant dans la matrice sur la base de la règle de transition d'état de l'équation (4), et atteint la destination à la fin, formant une route possible. (4) 4. Calculer la fonction objectif dřune route possible de chaque fourmi sur la base de l'équation (1), et garder la route optimale. 5. Selon la fonction objectif et le principe de réglage de la quantité de l'équation (2), ajuster la quantité de phéromone de chaque point. 6. Vérifier si les conditions d'arrêt sont remplies (si le nombre de cycles établis ou la valeur minimum de la fonction objectif est atteint). Si les conditions sont remplies, la recherche est achevée, sinon, répéter la procédure à partir de l'étape (2) jusqu'à ce que les conditions d'arrêt soient remplies. 4)Calcul du coût de navigation Le calcul des coûts de navigation doit tenir en compte des conditions environnementales, les zones maritimes dangereuses et les performances hydrodynamiques des navires. a) Comportement hydrodynamique du navire : Les navires qui naviguent dans la Méditerranée sont affectés par le vent et les vagues. En conséquence, la vitesse réelle du navire dans les vagues sera certainement inférieure à celle dans l'eau calme. La dégradation de vitesse est la plus importante parmi les divers facteurs impliqués dans le calcul de route maritime [8]. Elle est présente dans de nombreuses formules de calcul de route, elle a une influence notable sur la précision de positionnement des navires. Une enquête menée par le Comité régional des pêches maritimes et des élevages marins de Bretagne en 2007 montre également une prise de conscience très claire de la part des professionnels de la navigation, de la nécessité de mettre en place un certain nombre de «bons gestes» pour faire des économies de carburant. La formule retenue pour calculer le ralentissement de vitesse peut être utilisée pour produire des courbes de performance des navires ou des courbes de dégradation de vitesse, comme le montre la figure 2 ci-dessous. L'effet de la direction des vagues sur la dégradation de vitesse est différent en fonction de cette direction si elle est en face ou en arrière. La relation entre l'orientation du navire et les directions des vagues sont montrées dans la figure 3. Figure 2 : Courbes de performance du navire ( 120 )

123 Figure 3 : Orientation du navire et la direction des vagues Les principaux facteurs affectant la vitesse du navire sont le vent et les vagues, alors que la hauteur des vagues est étroitement liée à la vitesse du vent. Pour des raisons de simplicité, la formule empirique recommandée par l'institut central de la recherche maritime russe pour calculer le ralentissement de vitesse du navire a été retenue. Les principaux facteurs inclus sont la hauteur des vagues, direction des vagues, et coefficient de performance du navire. La formule est exprimée comme suit : V = V 0 -(0.745h-0.257q.h).( D.V 0 ) (5) où : V Ŕ la vitesse réelle dans la mer. V 0 Ŕ la vitesse dans l'eau calme. h Ŕ la hauteur des vagues. q Ŕ l'angle entre le cap du navire et la direction des vagues. D Ŕ la charge réelle du navire. b) Traitement des données de l'environnement : Les données environnementales comprennent des données géographiques, de navigation, et des données météorologiques, cřest à dire les informations de base sur les zones de navigation pour le calcul des coûts. En combinant des calculs, des mesures de la distance de navigation et des données de l'environnement, différentes données de coût peuvent être obtenues. Le processus de traitement et de calcul est le suivant: Les données géographiques : les frontières des terres et les limites de la mer et les zones de danger (par exemple, les plates-formes pétrolières oules zones maritimes peu profondes) sont stockées sous forme de données vectorielles de type polygone dans le SIG. Nous avons initialisé les nœuds dans les zones terrestres et les zones des platesformes pétrolières avec la valeur de 0, tandis que les autres nœuds sont définis par une valeur constante. Ainsi, les fourmis ne passent pas par les nœuds dans la zone de terres et ne recherchent que dans la zone maritime. Les données météorologiques : avec les progrès dans les nouvelles technologies de l'information et communication, de nombreuses informations météo sont alors facilement accessibles. Les navires en haute mer ne peuvent être connectés à l'internet que par des satellites, ce qui est relativement coûteux, il nřy a que certains navires qui utilisent cette méthode pour recueillir des informations météo. Les données GRIB(General Regularly-distributed Information in Binaryform) téléchargés de l'internet sont converties en un format SIG dans le système et utilisés pour l'optimisation de la route. Les données hydro-météorologiques GRIB sont standardisées par l'organisation mondiale des météo, et de nombreuses stations aux États-Unis et en l'europe publient des données météorologiques dans ce format. En général, les prévisions pour les 5 prochains jours sont disponibles, et ils sont mis à jour toutes les 6, 12 ou 24 heures. La résolution spatiale peut atteindre 0,5 x 0,5. Ce format offre une précision pour la vitesse du vent, direction du vent, la pression atmosphérique, la température de l'eau de mer, la hauteur des vagues, la direction des vagues, et certaines autres informations météorologiques peuvent être incluses de manière sélective. Ces informations répondent adéquatement aux exigences du routage météorologique. L'information peut être téléchargée directement à partir d'internet à l'ordinateur de bord pour un traitement ultérieur, pour gagner du temps et améliorer la précision. Le ralentissement de la vitesse du navire est principalement causé par les vagues, la direction des vagues et la hauteur des vagues sont extraites des données GRIB pour le calcul de la route. L'effet du vent a été ignoré parce que sa relation avec les vagues est linéaire. c) Méthode de calcul : la grille de données «la direction des vagues et la hauteur des vagues» est extraite du GRIB. Les données sont ensuite converties en cellules de la couche de données dans le SIG pour faciliter l'intégration avec les fonctions de calcul de SIG. Ensuite, l'utilisation des fonctions d'analyse spatiale SIG est faite pour calculer la distance dans toutes les cellules pour chaque route candidate, et de trouver les données de la hauteur des vagues et la direction des vagues des cellules passées. En utilisant la formule de ralentissement de vitesse du navire, la valeur de la vitesse perdue peut être calculée. Enfin, sur la base de la distance à travers les cellules, le coût en termes de temps ou en termes de consommation du carburant peut être calculé. Si le temps de navigation est considéré comme le principal coût, la formule de calcul est la suivante: t j = (6) T c = ( d ) (7) où : t j - le temps requis pour passer la j ème cellule. d j - la distance de la route candidate pour passer la cellule j. v- vitesse normale sans perturbation météo. w j - la vitesse perdue par les effets des vagues dans la cellule j. T c - coût total de navigation. F j - facteur de coût de distance additionnel dans la j ème cellule. 5)Contribution à l'amélioration des performances de calcul a) Limites de déviation de la direction maximale et de la longueur maximale de segment de route : compte tenu du grand nombre de nœuds, beaucoup de capacités de calcul seront perdues. Lřavantage de limitation de déviation de direction maximale et limitation de la longueur maximale de segment de route est dřéviter beaucoup de calculs inutiles. Nous avons limité l'angle de déviation de route à ± 45 par rapport à la direction originale et la longueur maximale du segment de route ne doit pas dépasser celle qui peut être parcourue en un jour de navigation avec une vitesse courante. ( 121 )

124 b) Détermination de la vitesse critique : tout en effectuant des calculs de routage, on doit tenir compte de la vitesse critique du navire (vitesse maximale autorisée) lors de la navigation dans des conditions météorologiques différentes. Ainsi, le résultat de calcul peut produire la route optimale en respectant le principe de la sécurité. Le calcul de la vitesse critique est principalement lié à la hauteur des vagues et la direction des vagues. La formule suivante [9] est utilisée pour imposer des limites de la vitesse maximale sur la vitesse critique d'un navire pour assurer la sécurité de la navigation. V Limit = e ( ) h ( ) (8) où : μ(q) = q 2.3 r(q) = q 2.3 q Ŕ représente la direction des vagues. h Ŕ représente la hauteur des vagues. c) L'ajout d'opérateurs de croisement pour l'algorithme génétique : nous avons utilisé l'opération de croisementpour la recherche de la route optimale et dřautres routes d'une façon aléatoire à chaque itération.si les deux fourmis passent par le même point (Waypoint) de la grille, alors une opération de croisement est réaliséesystématiquement entre les deux routes (sauf les points dedépart et d'arrivée) sur la base du même point de la grille, encombinant la première moitié de la routea avec la seconde moitié de la route B pour former une nouvelle route, et également la deuxième moitié de la route A avec la première moitié de la route B pour former une nouvelle route. Si les deux fourmis ne passent pas le même point de la grille, alors les opérations de croisement ne sont pas effectuées. Si, après l'opération de croisement, la route obtenue est meilleure que la route optimale actuelle alors lřinformation de la route optimale est mise à jour. Lřajout des opérations de croisement augmente la capacité de la fourmi pour trouver une meilleure route dans la recherche, ainsi que la variété des solutions. d) L'ajout d'opérateursde mutation : afin dřeffectuer une exploration plus large de lřespace de recherche et dřéviter toute convergence prématuréeou disparition de la diversité des solutions, nous avons ajouté le concept d'opération de mutation à l'ag par la sélection d'un point de la grille de la route optimale actuelle et le muter avec un point aléatoire de la grille non utilisé, pour former une nouvelle route. Si la nouvelle route a un coût inférieur à celui de la route optimale d'origine, alors la route optimale d'origine est remplacée par cette nouvelle route. Etablir un système de grille dans la zone de navigation Former la matrice initiale des nœuds Mettre à jour la matrice des nœuds Mettre m fourmisau point de départ Tracer les routes Croisement (Si les deux fourmis passent par le même Waypoint) Calculer la valeur de la fonction objectif Non Garder la route optimale Figure 4 : Organigramme de lřapproche hybride ACF et AG IV. RESULTATS Mutation Enregistrer la meilleure solution Condition dřarrêt Fin Oui Cette recherche expérimentale a simulé la route de navigation de Oran-Algérie à Bizerte-Tunisie, avec (35 42' 54'' N, 0 37' 50'' W) comme des coordonnées de point de départ, et (37 16' 34'' N, 9 50' 44'' E) comme des coordonnées de point final.les données GRIB étaient utilisées pour laméditerranée en 17/03/2014.La vitesse de navigation est de 18 nœuds en mer calme. La route a été générée par la recherche de lřacf ; elle a été générée en testant et en combinant les points de passage. Les résultats simulés sont présentés sur la Fig. 5, où la route noire est la route orthodromique, la route rouge est la route ( 122 )

125 optimale produite par l'acf, et les routes jaunes sont les routes générées dans le processus de recherche. Figure 5 : Simulation deroutesgénérées par lřalgorithme Les routes maritimes ont été évaluées sur la base du temps de navigation total. A partir des expériences, il a été constaté que le choix approprié du nombre des fourmis et des paramètres peut améliorer l'efficacité de l'algorithme. Lorsque le nombre de fourmis est faible, l'acf ne montre pas de signes clairs de convergence, et la solution optimale est difficile à obtenir. Ceci est également vrai lorsque le uds. Donc un gain de 45minutes de navigation et un gain pour la consommation du carburant par rapport à la route orthodromique. V. CONCLUSION Dans ce papier, nous avons étudié le problème du routage optimal des navires en modélisant le déplacement et en dégageant une solution basée sur un algorithme d'optimisation qui optimise les déplacements effectuées par les navires et qui tient compte à la fois de la sécurité et de lřéconomie. Pour cela, nous avons proposé un nouvel Algorithme de Colonie de Fourmis (ACF) avec lřintégration des concepts de lřalgorithme Génétique (AG). Le calcul et la recherche de lřinformation géographique sont fournis par le Système dřinformation Géographique (SIG) développé. Dans le futur, nous pouvons intégrer un mécanismed'évitement de collision et non pas seulement les obstacles fixes (plates-formes pétrolières). Des recherches intéressantes Ito et al. [10], et Smierzchalski Michalewicz [3] et Tsou [11, 12] ont utilisé l'ag et ils ont obtenu de très bons résultats. Les environnements informatiques distribués et les applications de traitement parallèle peuvent encore améliorer lřefficacité de la résolution par le mécanisme de l'intelligence collective ACF. REFERENCES [1] J. Flecks, ŖStudy Green Shipping, HVB Global Shippingŗ, Hamburg, pp. 4-5, nombre de fourmis est plus grand (20) et les paramètres α et β sont de faible valeur ( 3). Quand α et β sont plus grandes ( 4), la convergence est plus évidente, mais un grand nombre d'itérations est nécessaire. Lorsque le nombre de fourmis 50 et α, β > 4, une meilleure convergence est atteinte, mais la solution est tombée dans un optimum local à de nombreuses reprises. Il a été constaté que, lorsque le nombre de fourmis est relativement grand et les paramètres sont tels que α <β (α = 2, β = 3), une meilleure convergence a été obtenue par l'acf et une solution optimale proche a été plus facilement obtenue. Par conséquent, les paramètres pour dériver la route optimale sont définis comme suit: α = 2, β = 3, ρ = 0.5, m (nombre de fourmis)= 100 et N (nombre de cycles)= 50. Lors de la navigation en direction Est, en raison de l'influence des vents Nord-Est en provenance de lřitalie, la simulation ACF indique que la route de navigation devrait être déplacée au sud de la route orthodromique (Fig. 5). Si le navire a suivi la route orthodromique dont la distance est 561,4 miles nautiques, avec la vitesse en eau calme de 18 nœuds, le temps de navigation dans les conditions météorologiques était 32,5 h et la vitesse moyenne était de 17,26 nœuds. Malgré que la distance générée par l'acf (égale à 568,3 MN) soit plus longue que la route orthodromique, le temps de navigation était seulement de 31,75 h et la vitesse moyenne était de 17,89 nœ [2] S. J. Bijlsma, ŖMinimal Time Route Computation for Ships with Pre- Specified Voyage Fuel Consumptionŗ, The Journal of Navigation, vol. 61, 2008, pp [3] R.Smierzchalski, Z. Michalewicz, ŖModeling of ship trajectory in collision situations by an evolutionary algorithm,ŗ IEEE Transactions On Evolutionary Computation,Vol. 4, 2000, pp [4] M. Kefi Gazdar, ŖOptimisation Heuristiques Distribuée du Problème de Stockage de Conteneurs dans un Port,ŗ Thèse de doctorat,ecole centrale de Lille ; Juin [5] S.Wei, P. Zhou, ŖDevelopment of a 3D Dynamic Programming Method for Weather Routing,ŗ International Journal on Marine Navigation and Safety of Sea Transportation, Vol. 6, No. 1, 2012, pp [6] A. ZOGHLAMI, ŖModélisation et conception de systèmes dřinformation géographique gérant lřimprécision,ŗ Thèse de doctorat, Université Paris 8 Ecole Doctorale Sciences Sociales, [7] R. Motte, S. Calvert, ŖOn The selection of Discrete Grid Systems for On board Micro-based Weather Routeing, ŗ The Journal of Navigation, Vol 43, No. 1, 1990, pp [8] R. Motte, R. S. Burns, and S. Calvert, ŖAn Overview of Current Methods Used in Weather Routeing, ŗ. The Journal of Navigation,Vol. 41, No. 1, 1988, pp [9] F. Wang, C. Jia, The Study on The Optimal Ship Routing, in Chinese. Journal of Dalian Maritime University, Vol. 24, No. 2, 1998, pp [10] M.Ito, F. Zhang and N.Yoshida,: Collision avoidance of ship with genetic algorithm. Proceedings of 1999 IEEE International Conference on Control Applications, 1999, pp. 1791Ŕ1796. [11] Tsou, M.-C., Kao, S.-L., Su, C.-M.: Decision Support for Genetic Algorithms for Ship Collision Avoidance Route Planning. The Journal of Navigation, Vol. 63, 2010, pp [12] Tsou, M.-C.,: Integration of a Geographic Information System and Evolutionary Computation for Automatic Routing in Coastal Navigation. The Journal of Navigation, Vol. 63, 2010, pp ( 123 )

126 TRACIS: a system for interpreting learnersř traces Amina ZEDADRA, Yacine LAFIFI, Safia BENDJEBAR LabSTIC laboratory, University 8 May 1945 Guelma BP 401 Guelma 24000, Algeria zedadra_a@yahoo.fr, laf_yac@yahoo.fr, bendjebar_s@hotmail.fr Abstract In Computer-Supported Collaborative Learning (CSCL) systems, the learners collaborate to reach the common goals. They left a lot of traces that concern all their pedagogical activities: learning, assessment, collaboration, tutoring, etc. The huge quantity of traces makes some tasks very difficult mainly the following-up of learners. The last is carried out by human actors called tutors. These actors found a lot of data on all the activities of their learners. So, how they can filter the pertinent traces? How can they interpret these traces in order to better help the learners? What are the tools to visualize these traces? The aim of this paper is to answer these questions by proposing a CSCL system that contains a new module of interpreting traces. This system is called TRACIS (TRACes Interpreting System). It is based on traces left by learners during their learning process. So, our main goal is to promote learning, simplifying the visualization and interpretation of these visualizations, and have a good use of traces made by the learners to ensure an effective monitoring in distance learning. Keywords Trace, CSCL, Interpretation, E-learning, Indicator, Collaboration. I. INTRODUCTION As it was mentioned by many authors and empirical studies, collaboration is an important activity in educational systems. This activity allows learners to share their knowledge and experiences. The main aim of this activity is to enhance learnersř profiles (cognitive and behavioral). For doing this, many e-learning systems propose to their learners collaborative tasks that must carried out in groups. Computer-Supported Collaborative Learning (CSCL) systems provide learners with tools that facilitate the learning process. Learners can learn by collaborating in synchronous or asynchronous manner by using a lot of communication tools. Furthermore, in some CSCL systems collaborative scenarios are prepared by teachers. Learners can learn together learning objectsř concepts, resolve collaborative exercises, carry out collaborative projects, prepare together common product, etc. With these different activities, the aim is to enhance the knowledge of each learner and improve his cognitive and behavioral profiles. When using CSCL systems, the learners left a lot of traces. They concern all the learnersř actions during their learning and collaboration process. Tutors can visualize learnersř traces in order to assist them and to know their actions. In addition, these traces can be visualized by learners themselves. But, these traces are voluminous and concern many pedagogical activities (learning, assessment, tutoring, etc.). So, a step of interpreting of these traces is required. The goal of this paper is to present a CSCL system that takes into account the process of interpreting traces. In other words, it can give more information about the actions carried out by the learners during any period. For doing this, a set of indicators are proposed that concern the main learnersř activities and traces. Furthermore, for facilitating the interpretation step both graphic and textual interpretation is provided by the interpreting system, which is called TRACIS (for TRACes Interpreting System). In TRACIS, we focus on the tutor who has a leading role in monitoring learners and support the collaborative learning activities. It can be used by students and tutors at any higher education establishment that adopts the tutoring task (it is an essential task for students of the first cycle in Algerian universities). Furthermore, it has many features for facilitating the filtering of pertinent traces and their interpretation. In fact, the developed system provides each actor with tools of perception and visualization of traces to adapt them to his role and his tutoring style. The perception of what happens during the learning activity plays a crucial role in enabling learners to make decisions they consider suitable and carry out their tasks. TRACIS is developed at LabSTIC laboratory ( We present some screenshots about the developed system and the appreciations of some students who used the system. Actually, the system is under test at a higher education establishment. The rest of the paper is organized as follows. In the section 2, we present some research works about the interpretation of traces. Section 3 presents the main architecture of TRACIS system. In section 4, we present some screenshots about the developed system. Section 5 is reserved to the conclusion and the future work. II. RELATED WORKS There are many definitions associated to the term of trace. According to (Champin and Prié, 2002), traces are Ŗa sequence of states and transitions representing the user activityŗ. (Choquet and Iksal, 2007) define the trace in the field of the re-engineering of the human learning environment as Ŗa teaching object as well as the pedagogical resources or scenariosŗ. In another term, Jermann and his colleagues defined a trace as (Jermann et al., 2001) Ŗan observation or a recording of the interaction of learners with a system for an analysisŗ. Also, the term of interpretation is defined in different ways according to the context of its application. As result, it has various definitions. (Daele and Berthiaume, 2011) defined the interpretation as Ŗan analysis of the learnersř production and an attribution of a value to the learning traces that they providedŗ. According to (Lund and Mille, 2009), Ŗthe term of interpretation is to provide a formal semantics to a symbolic descriptionŗ. There are some works that aims at interpreting traces. (Cheype, 2006) interprets the traces of learners in order to detect if the trace is a succession of actions which tend to lead to the success or the failure of an exercise. This approach is used to calculate indicators that are calculated by ( 124 )

127 [May et al., 2009] [France et al., 2007] [Mazza and Milani, 2005] Authors Visualization (yes/no) Visualization for? Interpretation (Yes/No) Interpretation for? [Heraud et al., 2005] [Cheype, 2006] 2 nd International Conference on New Technologies & Communication (ICNTC-2015) using data mining techniques. Heraud and his colleagues (Heraud et al., 2005) propose to understand the learnersř behavior in order to improve their pedagogical scenarios by an interpretation of their activities traces (use of the courses or the forum during the resolution of a set of exercises). GISMO (Mazza and Milani, 2005) is a tool, which traces and visualizes the learnerřs activities. It uses the information to make graphical representations. The latter are handled by the instructors to know what happens in the distance classes. May and his colleagues (May et al., 2009) propose a visualization approach to offer to the users a simple sight but representative of their activities. The system expresses the learnersř traces to help the participants in their learning processes. France and his colleagues (France et al., 2007) present a tracesř visualization interface which allows the tutor to observe and adapt the learners groupř activity within a human learning environment called ClassromVis. The latter offers a double interest: control the learning situation and the dynamic interaction between learners. TABLE I. Ye s Summary of the related works. Instructors Yes Instructors Yes Tutors Yes Tutors Yes Users No / III. Yes Tutors No / Yes Designers No / ARCHITECTURE OF THE DEVELOPED SYSTEM The developed system (i.e. TRACIS) is a CSCL system. So, it has the main tools of e-learning systems and those facilitating the collaboration process. Its main part is the traces interpreting sub-system, which uses some interpretation rules in order to provide the teachers and the tutors with more information about the learning paths of each learner. These rules can be updated any time by the tutors or the administrator of the system. Figure 1 presents the main architecture of the system (TRACIS). It has four interfaces that are associated to the human actors of the system: administrator, teacher, tutor and learner. In addition, it holds a data base that has all the information about the human actors, their traces, the interpretation rules, the learning objects, the assessment results, the collaboration contents, etc. TRACIS possessed three sub-systems: Learning Management System (LMS) that manages all the tasks about the learning and the assessment processes. Collaboration Management System (CMS) that manages all the tasks related to the collaboration activity and the tools facilitating the communication among learners. Traces Interpretation System (TIS) that takes into account the task of interpreting the traces left by learners. ( 125 )

128 Learner TIS LMS CMS Traces collector WEB server Learning objects manager Collaboration requestsmanager Traces filtering Learning activitiesmanager Learnersř groups manager Virtual meetings manager Collaboration tools Indicators calculator Traces visualization Learners, tutors, learning objects, traces, exercises, etc. Interpretation rules Traces interpreter Teacher Administrator Fig. 1. System Architecture. A. Learning Management System (LMS) This part has three modules. The first one is the learning objects manager, which is responsible of managing the learning objects (insertion, suppression, search, etc.). The second module is the manager of learnersř groups, which takes into account the process of the organization of learners into groups. Several methods are adopted by TRACIS for forming groups: randomly, formation by teachers or according learnersř choices. The third and the last module is the manager of learning activities. This module provides the authors (teachers) with tools that facilitate the management of the collaborative activities. The latter are proposed to enhance the learning quality of learners by collaborating. B. Collaboration Management System (CMS) CSCL systems are designed to support the collaboration among learners. TRACIS has a subsystem that takes into account the collaboration process. So, it can manage the collaboration requests sent by the learners and the virtual meetings. Each learner can demand collaboration with another learner by specifying the object of collaboration. All the information on the collaboration requests are saved in the data base for a future use. They are used for calculating the behavioral profiles of learner. In fact, the system recorded the main information about each demand of collaboration (sender, receiver, date, preferred tool of collaboration, object, and the appreciation of learners in the case when a collaboration is carried out). C. Traces Interpretation System (TIS) This sub-system has five modules. The first one is the collector of traces, which gathers all the traces left by the learners when using TRACIS. Theses traces concern: the learning activities, the assessment exercises, the collaboration requests, the use of research engine, etc. In CSCL systems, these traces are voluminous. So, a filtering step is necessary. This action is carried out by the second module, which is the traces filter module. It aims at filtering the traces and let in the data base only the relevant ones. In order to interpret the traces, some indicators are calculated. This task is carried out by the indicators calculator module. The latter is responsible of calculating all the indicators that will be used for facilitating the interpretation process. In fact, the interpretation rules are the values of these indicators for knowing the best interpretation of traces. ( 126 )

129 The traces can be visualized by a module called traces visualization module. It provides the users with some visualization tools (graphical, textual, or hybrid). Finally, according to the values of the indicators, the tracesinterpreter carried out its tasks. It is responsible of the main task of TRACIS, which is the interpretation of learnersř traces. Interpretation rules: In our system, the tutors have many roles: pedagogue, guide, organizer, etc. By observing the learnersř traces, the tutors can send messages containing advice to learners according to some interpreting rules. These rules used the values of some indicators that are related to the different pedagogical activities of the learners. We give some of the indicators used by TRACIS. EXAMPLES OF INDICATORS. N Indicator Pedagogical Activity 1 Number of daily Collaboration collaboration requests. 2 Number of daily Collaboration received collaboration requests. 3 Period of each Collaboration collaboration process. 4 Number of s sent by the learner. Communication/ Collaboration 5 Number of s Communication/ received by the learner. Collaboration 6 Number of solved Collaboration/Assessment collaborative exercises. 7 Percentage of responses added to the forum. Communication/ Collaboration 8 Percentage of time spent by learner in consulting learning objects. Learning 9 Percentage of learner's presence in the system. 10 Percentage of requesting assistance to other members of the groups. 11 Percentage of the time spent by learner in resolving assessment exercises Learning Tutoring Assessment In order to better explain our contribution, we give some examples of rules used to send messages having advice to learners. If the number of solved collaborative exercises in a week < 2 then send a message (ŘIt is better to solve more exercises with your teammatesř). If the percentage of the time spent on one learning object compared to the total period of the session < 50% then send a message (ŘIt is better to consult more learning objectsř). If the number of access days to the system per week <3 then send a message (ŘVisit the system and benefit from its good featuresř). IV. IMPLEMENTATION OF THE DEVELOPED SYSTEM TRACIS was implemented at LabSTIC laboratory at Guelma University. It is under evaluation by license students of Computer science department (specialty: Ŗinformation systemsŗ). Each learner can get access to the system from any computer connected to the intranet of the university. He must be enrolled successfully before beginning the use of the system. The tutors can see all the traces of their learners. Furthermore, they can see the interpretation of these traces. Figure 2 presents a screenshot taken from TRACIS. It presents the interpretation of learning traces. As it is mentioned by the figure, the concerned learner didn't access to the learning space from May 12th until May 18th. Between May 18th and June 4th, he accessed the system many times. Fig. 2.Graphical and textual interpretation of learning traces. ( 127 )

130 Figure 3 presents graphical and textual interpretation of collaboration traces. This form of visualization helps the tutors to take the right decision about the message content that will be sent to the concerned learner. The system is under evaluation in order to extract the effectiveness of the interpretation process and the rules used in the actual version. The appreciations of some tutors who used the system are very encouraging. Furthermore, there are some problems cited by the tutors. The encountered difficulties will be corrected in the future version. V. CONCLUSION AND FUTURE WORKS In this research, we have proposed an interpreting subsystem that can be used in a collaborative learning system. It aims at facilitating the tutors' tasks and assisting learners during their pedagogical activities (learning, assessment and collaboration). Furthermore, it provides tutors with both textual and graphical interpretation of learners' traces according to some interpreting rules that can be updated by the tutors themselves. These rules used a set of indicators that are calculated from the traces left by learners. The developed system (i.e. TRACIS) holds the main features of computer supported collaborative learning systems. As it is mentioned in its architecture, it has some modules that take into account the groups formation, the learning objects management (creation, downloading, updating, etc.), the communication tools management, the knowledge assessment, the collaborative activities management, etc. TRACIS is under evaluation at a higher education institution. The first results shows that it can help tutors in their tasks by providing them with only the relevant traces among all the traces left by the learners. In addition, it presents to them an interpretation of these relevant traces. This task become automatic and let the tutors concentrate on their main tasks (i.e. tutoring) instead of interpreting manually the actions of their learners. This novel feature is our main contribution in this paper. In fact, the system interprets automatically all the relevant traces of the learners according to a set of interpretation rules which used some parameters. Actually, the system uses some parameters that were definite in collaboration with some researchers at psychology department of Guelma University. As future work, we propose to conduct an experiment with university students and tutors in order to extract the Fig. 3. Collaboration traces interpretation. advantages, the limits and the appreciation of both tutors and students. Also, we propose to conceive a technique for automatic filtering traces and conceive a language for interpreting traces independent of their use. Finally, we propose to conceive other forms of traces representation and other interpretation methods based on the semantics of these traces. VI. REFERENCES Champin, P.A. Prié, Y. (2002). Musette : un modèle pour réutiliser lřexpérience sur le web sémantique. Journées scientifiques Web sémantique, October 2002, Paris, France. Cheype, A. (2006). Recherche de motifs séquentiels pour guider l'interprétation des traces d'apprentissage dans un EIAH. 1ere Rencontre Jeunes Chercheurs en EIAH, RJC- EIAH 2006, Mars 11-12, Every, France, pp Choquet, C. Iksal, S. (2007). Modeling tracks for the model driven reengineering of a TEL system. Journal of Interactive Learning Research (JILR), Vol. 18, pp Cram, D., Jouvin, D., Mille, A. (2007). Visualisation interactive de traces et réflexivité: application à l'eiah collaboratif synchrone EMEDIATHEQUE. Sciences et Technologies de lřinformation et de la Communication pour lřenseignement et la Formation, Special issue: Analyses des traces dřutilisation dans les EIAH, Vol. 14. Available on « cram/sticef2007cram06.htm». France, L., Heraud, J.M., Marty, J.C., Carron, T. (2007).Visualisation et régulation de l'activité des apprenants dans un EIAH tracé. Environnements Informatiques pour l'apprentissage Humain EIAHř2007, June 27-29, Lausanne, Suisse, pp Jermann P., Soller, A., Muehlenbrock, M. (2001). From mirroring to guiding: A review state of the art technology for supporting collaborative learning. Proceedings of the First European Conference on Computer-Supported Collaborative Learning. Heraud, J.M., Marty, J.C., France, L., Carron, T. (2005).Une aide à l'interprétation de traces : application à l'amélioration de scénarios pédagogiques. Environnements ( 128 )

131 Informatiques pour lřapprentissage Humain EIAHř2005, March 25-27, Montpellier, France. May, M., George, S., Prévôt, P. (2009). Tracer, analyser et visualiser les activités de communications médiatisées des apprenants. JOCAIR 2008, Journées Communication et Apprentissage Instrumentés en Réseau, August , University of Picardie Jules Verne, Amiens, France, pp Mazza, R., Milani, C. (2005). Exploring usage analysis in learning systems: Gaining insights from visualisations. The Workshop on Usage analysis in learning systems, the twelfth International Conference on Artificial Intelligence in Education, July 18-22, Amsterdam, The Netherlends, pp Lund, K., Mille, A. (2009). Traces, traces d'interactions, traces d'apprentissage : définitions, modèles informatiques, structurations, traitements et usages. Analyse de traces et personnalisation des environnements informatiques pour l'apprentissage humain, éditeur Hermès Sciences Publications, pp Daele, A., Berthiaume, D. (2011). Choisir ses stratégies d'évaluation. Research report, February 2011, Lausanne University, Suisse. ( 129 )

132 Towards Building Web Service Ontology: A WSDL Reverse Engineering Approach Houda EL BOUHISSI Department of Computer Sciences EEDIS Laboratory Sidi-Bel-Abbes University, Algeria Houda.elbouhissi@gmail.com Abstractŕ The Semantic Web Services technology is used to describe the Web services capabilities and content in a computer-interpretable language and improve the quality of existing tasks, including Web Services discovery, invocation, composition and monitoring. This paper addresses the topic of defining a knowledge based system for representing Semantic Web Service ontologies according to the WSMO conceptual model and proposes a software engineering approach to this problem using an existing Web Service. The proposal uses a reverse engineering technique and a similarity measure starting from a WSDL File of an existing Web Service till modeling WSMO Ontology specified in WSML language. The paper also presents a tool to support that technique throughout a real-life case study. Index Terms Web Service, Semantic Web Service, Ontology, WSDL, Reverse engineering. I. INTRODUCTION Current technologies allow usage of Web Services but only with syntactical information descriptions, therefore, it only provides a set of rigid services that cannot adapt to a changing environment without human intervention. A possible solution to all these problems is likely to be provided by converting Web Services into Semantic Web Services to be semantically marked-up software resources that can be published, discovered, composed and executed across the Web in a task driven semi-automatic way. Today, organizations are increasingly forced to modernize using Semantic Web Services which, in recent years, become one of the most effective, efficient, and economical means to make intelligent systems. This migration calls for reverse engineering of Web Services to Semantic Web services. However, there are few approaches that consider Servicesř ontologies as the target for reverse engineering. A majority of the work on reverse engineering has been done on tools that require a previous knowledge of the Web Service Application, however few tools uses WSDL File as resource information. As an attempt to fill gap in this area, we propose a novel approach to reverse engineering of Web Services to Serviceřs ontology. This paper continuous our previous research on domain knowledge driven Web Service Analysis [1] and describes a reverse engineering process for building Semantic Web Service Ontology according to Mimoun MALKI Department of Computer Sciences EEDIS Laboratory Sidi-Bel-Abbes University, Algeria Mimoun.Malki@gmail.com the Web Service Modeling Ontology conceptual model. The proposed approach deals with a software engineering technique that consists of extracting useful information from a WSDL file of an existing Web Service in order to build Web Service Ontology specified in the Web Service Modeling language (WSML). Our approach is based on the idea that semantics of a Web Service can be inferred, without an explicit analysis of the Web Service code. Rather, these semantics can be extracted by analyzing WSDL description File, which is the most popular document that describes a Web Service application. The semantics are supplemented with the domain ontologies and user Ŗhead knowledgeŗ to build a WSMO ontology. Our approach can be applied to migrating Web Service application, which is usually described by the WSDL File to the ontology based Semantic Web. The remainder of this paper is structured as follows: Section 2 summarizes the Semantic Web Services related works. In section 3, the proposed approach will be described in detail. In Section 4, an experimental test of the proposed techniques is reported. Finally, section 5 concludes the paper and gives future directions of the on-going project. II. BACKGROUND Several approaches have already been suggested for adding Semantic to Web Services. Semantics can either be added to currently existing syntactic Web Service standards such as UDDI and WSDL, or services can be described using some ontology based description languages. The Major initiatives in the area of SWSs are documented by W3C member submissions, such as, OWL-S [2], WSMO [3] and WSDL-S [4]. Ontology Web Language for Services (OWL-S) is a description language that semantically describes Web Services using OWL ontologies. OWL-S services are mapped to WSDL operations, and inputs and outputs of OWL-S are mapped to WSDL messages. The Web Services Description Language - Semantic (WSDL-S) augments the expressivity of WSDL with semantics such as domain ontology in an arbitrary semantic representation language. ( 130 )

133 The WSDL-S proposal was superseded by Semantic Annotations for WSDL (SAWSDL) [5] which is restricted and homogenized version of WSDL-S in which annotations like preconditions and effects have not been explicitly contemplated. The Web Service Modeling Ontology (WSMO) provides ontological specifications for the description of Semantic Web Services. One of the main objectives of WSMO is to give a solution to application integration problems for Web Services by providing a conceptual framework and a formal language for semantically describing all relevant aspects of Web Services. Furthermore, WSMO is the only standard for which there exist several implementation environments which aim to support the complete standard. For these reasons WSMO is used as our Semantic Web Services technology throughout the rest of this paper. We will explain next the concepts of the WSMO approach in detail. III. THE PROPOSED APPROACH The main contributions of the approach presented in this paper can be summarized as follows: 1. We propose a conceptual modeling approach for the specification of ontologies. The approach is based on WSDL File of an existing Web Service and semantic similarity measures using WordNet; 2. By using the proposed approach, we describe a set of Web based software tools allowing the developer to define WSMO ontologies and the final user to explore them. A. The WSMO Framework WSMO is a conceptual model for describing Semantic Web Services. It consists of four components, describing semantic aspects of Web Services: ontologies, Web Services, Goals, and Mediators. Each of these WSMO Top Level Elements can be described with non-functional properties, such as, creator, creation date, format, language, owner, rights, source, type, etc. Web Services element in WSMO describes semantic aspects of the already defined Web Services. Also, goal element expresses the user requests. The correct invocation of the right Web Service is done by means of elements called Mediators. These elements resolve heterogeneities between the interacting parties both at data level by providing ontologies mapping, and at process level by resolving communication mismatches. Although this paper is related to ontologies specification, it briefly describes all the WSMO elements. Ontologies provide a formal and explicit specification of the application domain and of all the data used by the other components. Optionally, they may be described by nonfunctional properties and may import existing ontologies. However, the WSMO ontology is composed of: 1. Concepts, describing the ontology domain possibly organized in a hierarchy, 2. Relations, representing further connections among concepts, 3. Instances of concepts and relations, setting values to their attributes and parameters respectively, 4. Axioms for further definition of concepts and relations through logical expressions. Furthermore, WSMO comes along with a Web Service Modeling Language Modeling language (WSML 13 ) and a Web Service execution Environment (WSMX 14 ). The WSML is a formalization of the WSMO ontology and providing a language within which the properties of Semantic Web Services can be described. WSMX provides an architecture including discovery, mediation, selection, and invocation. In addition, it has been designed to include all the required supporting components enabling an exchange of messages between requesters and the providers of services. B. Motivation Among the Graphical User Interface tools for building and managing ontologies compliant to WSMO, we distinguish the WSMO-Studio [6] and the Web Services Modeling Toolkit (WSMT) [7]. However, WSMO Studio is a WSMO editor for building the aspects of Semantic Web Services, available as Eclipsebased plug-ins. Its main functionalities include definition of ontologies, Web Services, Goals and Mediators, and services composition through graphical user interfaces. We focus our analysis in the ontologies editor since our interest is on the ontologies building. WSMO Studio stores ontologies in WSML, the representation language of WSMO. The tool supports interaction with repositories for import/export ontologies, but the editing is done on local copies on the userřs machine. At the moment, no extensions are offered to allow concurrent access and editing to a shared repository. Whereas, the Web Services Modeling Toolkit (WSMT) is an Integrated Development Environment (IDE) for Semantic Web Services developed for the Eclipse framework. The WSMT aims at aiding the developers of Semantic Web Services through the WSMO paradigm by providing a seamless set of tools to improve their productivity. The IDE focuses on three main areas, namely engineering of WSMO descriptions, creation of mediation mappings and interfacing with Semantic Execution Environments (SEEs) and external systems. These tools produce ontologies in a completely manual manner where the user participation is fundamental at all stages of creation. Both tools are based on a prior knowledge and comprehension of the user, that is, the process involves select choices or introduces useful information. This process is costly and time-consuming. In addition, currently, there is no automatic or semi-automatic tool for creating WSMO ontologies ( 131 )

134 For these reasons, this paper describes a proposed approach to create a semi-automatic tool that uses the information provided by the WSDL file to create WSMO ontologies. C. Methodology Traditional reverse engineering tools extract knowledge from source code and software documentation [8]. However, this approach is rather limiting as often information concerning how the code was developed and the rationale for its design are lacking. Moreover, a piece of source code may be cryptic due to a lack of developer comments. The proposed approach in this paper is to use the description of an existing Web Service (WSDL File) itself to specify ontology according to the WSMO conceptual model. Therefore, this proposal proceeds mainly in two principal stages (figure1): Fig. 2. System Architecture Fig. 1. Main stages of the proposal A stage of reverse engineering for the identification of the useful information in the WSDL File. A stage of engineering for the construction of the Web Service Ontology according to WSMO conceptual model Our approach uses a WSDL File as input, and goes through five basic steps: (1) Entities identification to extract useful information from a WSDL File, (2) analyzing the extracted information by applying mapping rules to create the backbone of the ontology, (3) Semantic enhancement of the useful information using domain ontologies for applicability and consideration of the standardization problem, (4) Building ontology by translating the formal model into ontology element specified in the WSML language, and (5) Validation of the produced element. The proposed approach does not require that Web Service change at all, but adds a semantic layer to an existing Web Service. Therefore, it reduces the efforts and the cost to build a WSMO Ontology by reengineering without paying attention to the source code or how the application has been built. The proposal is divided into the following five high-level phases of building the Semantic Web Service ontology process, see Figure 1: a) Phase 1: Entities identification. This phase deals with the information required to create the WSMO ontology (concepts, attributes, relationships, and axioms) starting from an existing WSDL File. In this Phase, we are interested to the XML Schema part of the WSDL File which is a description of data types of the Web Serviceřs input and output. In this schema we can find the definition of ComplexTypes, SimpleTypes and the declaration of elements. However, their explanations are as the following: Simple Type Definition: XML Schema provides a wide range of built-in data types, for example, string, integer, Boolean, float, decimal, etc, these are examples of one form of simple type definitions. Another form of simple type definitions can be used to provide constraints on the values of built-in types. For example, it may be necessary to restrict the allowed values of the positiveinteger data type to a particular maximum value. Complex Type Definition: Can be used to: define a data type composed of sub-elements of other data types; define the allowed structure of child elements using the keywords all, sequence and choice; or extend or restrict the definition of an existing complex type. Additionally, the values of elements can be accompanied by constraints on their values. Attribute Declarations: Attributes can be either global or associated with a particular complex type definition. Attributes are an association between a name and a simple type definition. Restrictions (also called facets) are used to define acceptable values for XML elements or attributes. We use the restriction element to indicate the existing (base) type, and to identify the 'facets' that constrain the range of values. The extraction phase is a full automatic process, we identify the information between the <element> and </element> according to Complextype, Simple type, and Attribute definition. ( 132 )

135 Also we enumerate all the restriction statement options. These information concern name, type, and restriction attribute. All the extracted information is stored in a XML file for further use. For example, we assume that the XML schema part of the WSDL File contains the example definitions (see figure 3). We retrieve the following information: Complextype, Simpletype, shipto, name, string, address, string, city, string, country, string, restriction, enumerate Germany and Canada. <xs:element name="shipto"> <xs:complextype> <xs:sequence> <xs:element name="name" type="xs:string"/> <xs:element name="address" type="xs:string"/> <xs:element name="city" type="xs:string"/> <xs:element name="country" type="xs:string"/> <xs:simpletype> <xs:restriction base="xs:string"> <xs:enumeration value="germany"/> <xs:enumeration value="canada"/> </xs:restriction> </xs:simpletype> </xs:element> </xs:sequence> </xs:complextype> </xs:element> Fig. 3. Example of XML schema part of a WSDL File b) Phase 2: Analysis Phase. This step focuses on the mapping of retrieved information in the previous step using mapping rules. The mapping engine deals with a set of transformation rules and analyzes the information. This phase produces a set of concepts and axioms. Definition of each concept is accompanied by his sub concept, its components with their attributes name and type. The mapping produced is roughly based on the following rules (see Figure 4): Fig. 4. Mapping Rules Definition Rule 01: Simple type definition. If a simple type is used to create a new type based, we create a new concept with the same built-in type (see figure 5 for an example. Also, if the simple type participates in the definition of a complex type, it will be mapped to a property (attribute) of the complex type with the main built-in type. <xsd :element name=ŗageŗ> <xsd :simpletype> <xsd :restriction base=ŗxsd :positiveintegerŗ> <xsd :maxexclusive value=ŗ35ŗ> </xsd :restriction> </xsd :simpletype> </xsd :element> Fig. 5. Example for the Rule 01 Rule 02: Complex type definition. Complex type definitions can obtain sub-components that are a mixture of simple elements, attributes and other complex type definitions. We propose to map each complex type to a concept in the WSMO Ontology. Sub-components with simple type built-in are mapped to attributes with the same built-in type and attributes are mapped to attributes with the same built-in type. If the sub-component is itself a complex type, here we proceed in a recursive manner, we create first the corresponding concept, and then the sub-components are mapped to attributes with the build-in type (see figure 6) which contains a definition assumed to be within the XML Schema part of the WSDL File. Finally, the complex type embedded in another complex type is mapped at one hand to sub-concept of the complex type and at the other hand to a concept. <xs:element name=ŗcustomerŗ> <xs:complextype> <xs:sequence> <xs:element name=ŗdobŗ type=ŗxs:dateŗ > <xs:element name=ŗaddressŗ type=ŗxs:stringŗ /> </xs:sequence> </xs:complextype> </xs:element> Fig. 6. Example for the Rule 02 Rule 3: Attributes. An attribute may be associated directly to the root or embedded in a simple or complex type. If an attribute depends to the root, we propose to create a new concept with the built-in type. If the attribute is embedded in a simple or a complex type, it is mapped to an attribute of the concept of the complex or the simple type. Rule 4: Restriction element for data type. Each restriction is mapped to an axiom, with the corresponding option. As an Example of restriction definition, in figure 3, the CountryConstraint which defines the corresponding value of the Country. The results of the analysis phase are stored in a XML file which is mainly designed by the tags <complextype>... </complextype> and <simpletype>... </simpletype >. This formalization facilitates better the translation into the WSML language. c) Phase 3: Semantic Enhancement. In the process of identifying entities in the document, it is possible that we find values for attributes or relationships that were not previously present in the knowledge base. Enhancing the existing metadata could be as simple as entering values for attributes, in which case they could be automated; or as complex as modifying the underlying schema, in which case some user involvement might be required. The third step of our proposed is calculation of semantic similarity measure which aims to quantify how much two ( 133 )

136 concepts from the XML file produced before and domain ontology are similar. The similarity analysis of these concepts is used through WordNet dictionary which will give us a standardized and complete synonym set and classifies the entities. We use WordNet 15 based similarity measures [9] such as Path, Resnik, Lin and Jiang. WordNet is an online lexical database designed for use in a program. The use of ontology allows greater expressiveness and provided rich semantic concepts. Measuring semantic similarity between words has been playing an important role in many research areas such as Artificial Intelligence, Linguistics, Cognitive Science, and Knowledge Engineering. Measuring the semantic similarity or distance between words is a process of quantifying the relatedness between the words utilizing the knowledge obtained from certain information sources. For this reason, we use the WordNet as a taxonomic reference, so the idea is to compare the concept of the XML file already created with domain ontology, using the WordNet. We consider that to choose candidates concepts is enough to resolve semantic interoperability. Figure 7 depicts the algorithm of the semantic enhancement process. We have an XML file corresponding to the data types of the Web Service expressed, in concept, attribute, restriction and type. We are interested to only the concepts that have not sub concept, as concept candidates because we assume that is enough to identify if the produced WSMO ontology is well defined. We also have an uploaded an ontology containing concepts according to any domain and each concept may possibly have a set of attributes. Subsequently, we perform similarity calculations to identify the semantic concepts of the ontology. We define a threshold value for prior semantic similarity measure. The threshold is a value between 0 and 1, the value 1 indicating that the two entities are completely similar. Algorithm 1: Semantic enhancement Input: XML File (i Candidates concepts) Concepts of Domain Ontology (j Candidates concepts) A Similarity measure Threshold value for the similarity measure Output: List of concepts Begin Create a vector containing the concepts of domain ontology (j concepts) For each concept C k of the XML File (k=1 to i do) do For each concept CO m m=1 of the domain ontology (m=1 to j) do Calculates the distance between C k and CO m If (the similarity = the threshold) then supersedes the concept c k by the concept CO m EndIf EndFor EndFor End. 15 WordNet is an online lexical database designed for use under program control. English nouns, verbs, adjectives, and adverbs are organized into sets of synonyms, each representing a lexicalized concept (See Fig. 7. Algorithm 1 : Semantic enhancement The threshold value is an important decision point. If it is very low, between [0.0, 0.5], many concepts can be wrongly matched i.e. false positives can be returned by function similarity (c1, c2). On the other hand, if this value is high, between [0.7, 1.0], many concepts which might be matched are not caught, i.e. many false negatives can be discarded. Second, we must choose a method to compute the semantic similarity measure as described above. If the semantic similarity measure between the concept of the XML file and the ontology concept is greater than or equal the threshold, we can consider that the concept belongs to the domain of the ontology concept, therefore this concept can be superseded by the concept of the of the domain ontology and at last its sub concept is retrieved for adding in the XML file. d) Phase 4: Building Ontology. Ontologies and Semantic Web Services need formal languages for their specification in order to enable automated processing. As for ontology descriptions, the W3C recommendation for an ontology language OWL has limitations both on a conceptual level and with respect to some of its formal properties. One proposal for the description of Semantic Web Services is WSML which is the formal language of the WSMO. The WSML ontology is created on the fly according to the content of the enhanced XML file. The WSML Ontology (see figure 8) mainly consists of: WSML variant, Namespace, A set of non functional properties, Concepts and Axioms. Concepts and axioms are retrieved stately from XML schema. Table 1 depicts the main transformation rules from XML to WSML language. For example, the XML file introduced above will be translated to the following representation in WSML language. TABLE: XML TO WSML TRANSLATION RULES XML Element Complex_Type Constructor Concept Constructor Attribute Constructor Restriction constructor Enumetare constructor Attribute of SimpleConcept WSLML Element Concept Concept Concept axiom Or operator Figure 8 presents the translation of the entity Customer of the figure 6. Each attribute is joined to its corresponding value-type by the constructor OfType. Concept Customer Dob OfType date Address OfType string attribute Datatype Fig. 8. A screenshot of a the proposed tool ( 134 )

137 However, the non functional properties are introduced by the user by selecting items from a list defined before. e) Phase 4: Validation. All previous steps may introduce wrong concepts and relationships, thus an automated validation step is needed. This step is often done by hand. Before registering the ontology, it should be validated to ensure WSML correctness and accuracy. If the ontology is not suitable to the WSML language, a domain expert could bring some alterations to correct it. Once the ontology is validated, it will be stored in the. IV. EXPERIMENTATION In order to validate and evaluate our approach, a software tool has been created. The execution engine of this tool has been fully implemented in Java with the NetBeans IDE because there is a large amount of libraries that ease the retrieval and parsing of web pages and the construction of ontologies. This tool represents the first step of our efforts in developing a general translation engine for building Semantic Web Service ontology according to the WSMO conceptual model. The tool is called BUOWES (Building Ontology for Web Service), which is a semi automatic tool for the translation of the WSDL file to an incomplete WSMO ontology. To improve our proposal with a semantic layer and ensure semantic interoperability, we used a semantic similarity measure, so candidatesř concepts of the XML file could be superseded with other ones retrieved by domain ontology. The user participation is fundamental and must be promoted to upload the appropriate domain ontology. The building module translates the terms into WSML specification and generates the ontology according to the WSML language. The user can visualize the WSMO Ontology as a tree or in an editor specified in the WSML Language. Finally, the validator module checks the produced ontology to ensure WSML correctness and accuracy. Non functional properties are added by the user. The user may choose the relevant non functional properties from a list of choices (see figure 10). Fig. 10. Adding non-functional properties We perform our tool on a data set of Web services that contains 20 WSDL File of different domains showing the impact of the proposed tool in decreasing the time and the effort of the building process.. Figure 11 depicts an example of ontology builded for tourism domain. Fig. 9. A screenshot of a the proposed tool A screen-shot of the BUOWESřs user interface is presented in figure 9. BUOWES is a software tool which takes as an input the WSDL specification and domain ontology and returns WSMO ontology description specified in the WSML language as an output. BUOWES software tool provides a friendly user interface and simple to utilize. You can either upload a WSDL file by its URL or by browsing locally. Then, the wrapper module parses the WSDL file and extracts the XSD (XML Schema Definition) defined between the WSDL type tags. The mapping engine converts the XSDs extracted to terms used by the ontology, according to a set of mapping rules. The mapping engine produces a list of terms which will be stored in an XML file to be used next. Fig. 11. Building Ontology for a WSDL of Tourism Web Service Moreover, the experimental results promise that the proposed tool will have a positive impact on the building process as a whole. V. CONCLUSION In this paper, we have described the current main Semantic Web Services approaches and we have proposed a novel approach for building Semantic Web ( 135 )

138 Service ontology according to the WSMO conceptual model. The proposed technique uses a reverse engineering process and WSDL file of existing Web Service. Our approach is composed by two main aspects: reverse engineering the WSDL file and engineering the WSMO Ontology specified in the WSML language. Our approach is based on the idea that semantics of a Web Service can be extracted by analyzing WSDL File. These semantics are supplemented with the domain ontologies and user head knowledge to build the ontology. Finally, we have implemented a set of end user tools based on web interfaces for: The insertion of WSDL Files, Calculating the similarity measure, Browsing the ontological repository by the final user and producing WSML Ontology. The strong point of the proposed approach is that it relies on a WSDL File of an existing Web Service without paying attention to the source code of the Web Service application. Also, the use of domain ontology improves semantic interoperability. The work reported in this paper is a part of large project, and actually, the work still in progress aimed at extending our approach to build Web Services, Goals and Mediators. We believe that the results of our initial experimentation are quite promising, and we will continue to develop and evaluate this process. Conference (ESWC'08), Tenerife, Canary Islands, Spain, June 1-5, pp [26] W. Xiaomin, A. Murray, Storey, M.-A., & R. Lintern (2004). A Reverse Engineering Approach to Support Software Maintenance: Version Control Knowledge Extraction. In Proceedings of the 11th Working Conference on Reverse Engineering (WCREř04), Washington, DC, USA, pp [27] L. Meng, R. Huang, and J. Gu (2013). A Review of Semantic Similarity Measures in WordNet. International Journal of Hybrid Information Technology. Vol. 6, No. 1. ACKNOWLEDGMENTS We would like to thank the anonymous reviewers for their valuable comments. REFERENCES [19] H. EL BOUHISSI and M. Malki. Reverse Engineering Existing Web Service Applications", In Proc. Of 16th Working Conference on reverse Engineering,WCREř09, Published by the IEEE Computer Society, pp , ISSN Number , ISBN October 13-16, 2009, Lille, France. [20] D. Martin, M. Burstein, J. O. Hobbs, D. Lassila, S. McDermott, S. McIlraith, M. Narayanan, B. Paolucci, T. Parsia, E. Payne, Sirin, N. Srinivasan & K. Sycara (2004). OWL Web Ontology Language for Services (OWL-S), W3C Member Submission. [21] J. De Bruijn, C. Bussler, J. Domingue, D. Fensel, M. Hepp, U. Keller, M. Kifer, B. König-Ries, J. Kopecky, R. Lara, H. Lausen, E. Oren, A. Polleres, D. Roman, J. Scicluna, & M.,Stollberg (2005). Web Service Modeling Ontology (WSMO). [22] R. E. Akkiraju, J. Farrell, J. Miller, M. Nagarajan, M. Schmidt, A. Sheth & K. Verma, (2005). Web Service Semantics - WSDL-S, W3C Member Submission. [23] J. Farrell & H. Lausen (2007). Semantic Annotations for WSDL and XML Schema. W3C Candidate Recommendation, Retrieved from [24] M. Dimitrov, A. Simov & D. Ognyanov (2005). WSMO Studio Ŕ An Integrated Service Environment for WSMO. In Proceedings of the Workshop on WSMO Implementations Innsbruck, Austria, June 6-7. [25] M. Kerrigan & A. Mocan (2008). The Web Service Modeling Toolkit. In Proceedings of the 5th European Semantic Web ( 136 )

139 CS-DSM : Cloud Service Description and Selection Model Sihem BEY *, Youssef Amghar + and Fahima Nader * * National School of Computer.ESI. Algeria + INSA-Lyon. LIRIS. France {s_bey, f_nader}@esi.dz youssef.amghar@insa-lyon.fr Abstract According to statistics, Cloud Computing has experienced a phenomenal propagation in the industry world, in the few last years.many important enterprises such as Amazon, IBM, Google, etc have adopted it by becoming CSP (Cloud Service Provider). Faced to this huge number of CSPs offering several services with different QoS levels, Cloud Service Discovery and Selection issue becomes more than ever an important researcher s challenge. In this paper, we aim to help consumers to find the best CSP likely to meet his service technical and quality requirements. We propose a Cloud service Description and Selection model CS-DSM that: 1) allows consumer to specify his service functional and nonfunctional requirements and to evaluate the CSP by providing his feedback; 2) allows CSP to describe the service technical. specifications that he can ensure and to define the QoS that he can guarantee. More precisely, we propose a WSDL (Web Service Description Language) and a UDDI (Universal Description Discovery and Integration) extension models. We propose likewise a Cloud Service Selection Algorithm including a CSPs ranking mechanism based on a qualimetry results. Index TermsŕCloud Computing, Consumers, Selection Algorithm, Service Description, Service Provider, Qualimetry ACOHM : Bio-inspired routing protocol for High Mobile Ad Hoc Networks SAYAD Lamri #*1, AISSANI Djamil #, BOUALLOUCHE-MEDJKOUNE Louiza # # Laboratoire LAMOS, Faculté des Sciences Exactes, Université de Bejaia, ALGERIE siad_lamri@yahoo.fr * Département d Informatique, Université de M sila, ALGERIE Abstract A Mobile Ad Hoc Network (MANET) is set of mobile entities acting both as nodes and routers, and moving without any central administration. The most important advantage of this kind of networks is the short time needed to deploy and thus to use this network. Therefore, MANETs are suitable for recue and military operations. This paper considers Ad Hoc networks in the context of high mobility. Thus, a new routing protocol, ACOHM, has been proposed to deal with the dynamic aspect of MANETs. The proposed routing protocol takes inspiration from foraging behavior of ant colonies. In fact, artificial ants are used to mimic this behavior in order to construct multiple routes between a source node and a destination. This approach is, then, coupled with an asynchronous route maintenance mechanism. Simulation results show that our protocol ACOHM outperform AODV in terms of packet delivery ratio and average end-to-end delay. Keywords ŕ ACO, Bio-inspired, routing, MANET, High Mobility Routage semantique dřinformation dans un reseau p2p de partage de fichier 1 Ahlem Kenniche, 2 Lougmiri Zekri, 3 Bouziane Beldjilali Département Informatique, Faculté des Sciences Université dřoran Es-Sénia 1 ahlemkenniche@yahoo.fr 2 zekri.lougmiri@univ-oran.dz 3 bouziane.beldjilali@univ-oran.dz ( 137 )

140 Abstract- Cet article présente une approche de routage des requêtes dans un réseau pair à pair de partage de fichier en utilisant une méthode fondée sur les profils sémantiques des pairs. Pour cela, chaque pair inclut une matrice de cas et collabore avec les autres pairs pour échanger des requêtes. Une particularité de cette approche est qu elle permet un enrichissement de la base de cas en utilisant la connaissance et les correspondances relatives aux voisins des pairs. Notre objectif principal par l utilisation d une représentation booléenne de la base de cas est de réduire le temps de calcul lié à une indexation classique et de minimiser l espace de stockage grâce au stockage binaire. Pour cela, nous explorons plusieurs stratégies complémentaires, notamment pour réduire la taille des index à traiter. Mots clés : systèmes p2p, routage sémantique, matrice de cas. The Fusion of SVD and NLS inversions for the Retrieval of a Simulated 3D Urban Structures in a Tomography SAR Application Hichem Mahgoun USTHB, Laboratory of Signal and Image Processing, Algiers Abstract In this paper we present the model of tomography SAR and the performances of the algorithms used to retrieve thereflectivity signal for a rang azimuth resolution cell. The study is based on two methods, a non parametric estimation method (SVD 1) based on the decomposition in singular value of the projection matrix, and a parametric estimation method (NLS2), based on a non linear square estimator. After a comparison between the performances of the two inversion methods, we apply the chosen methodology to retrieve the reflectivity signal of an elementary structure (cub), and show the results in radar and ground coordinates. In a second step, we study the behavior of a tomography SAR system for a small town and we apply SVD and NLS inversion separately. Finally, we propose a technique that uses a fusion between SVD and NLS, to achieve rapidity and high accuracy. We conclude about the perspectives of the use of Tomography SAR at large scale for urban area. Keywords RADAR, SAR, Tomography, multi-baselines, SVD, NLS, 3D imaging Les jointures des flux de données dans les réseaux de capteurs sans fil Djail Boubekeur Ecole Supérieur dřinformatique dřalger b_djail@esi.dz Abstract - Dans les réseaux de capteurs sans fil, la minimisation des coûts des transmissions demeure un très grand défi. Le défi est d'autant plus grand que la quantité d'information à transmettre est très grande. Les exécutions des requêtes de jointures constituent un cas où des volumes d'informations très importants doivent être transmis, ce qui entraine une consommation très élevée de l'énergie fournie par les batteries en place. Les jointures dans les réseaux de capteurs sont réalisées entre des flux de données. Peu de travaux de recherche ont été Hidouci Walid-Khaled Ecole Supérieur dřinformatique dřalger wk.hidouci@gmail.com réalisés pour ce type de jointures. La plupart des travaux s intéressaientaux tables statiques plutôt qu aux flux de données. L'article suivant présentera l'état de l'art des techniques suggérées pour l'exécution des requêtes de jointures sur des flux de données. Keywords: réseaux de capteurs sans fil, coût de communication, jointure intra-réseau, flux de données. ( 138 )

141 Parallel Pipelined Implementation of DES Cryptographic Algorithm on Multicore Machines Slimane Mohamed Industrial Computing and Networking Laboratory Computer Science Department, University of Oran, BP 1524 Oran, Algeria Sekhri Larbi Industrial Computing and Networking Laboratory Computer Science Department, University of Oran, BP 1524 Oran, Algeria Abstract The DES (Data Encryption Standard) cipher is considered as the most important symmetric cryptographic algorithm which encrypts the information by blocks of 64 bits length. It is so fast compared to other symmetric algorithms which make it popular as encryption security solution. Its execution on modern multicore platforms does not take great benefit of the power of such machines with its sequential implementation. In order to tackle this problem we must design a parallel version for multicore. This work tries to make a parallel variant of DES sequential version by processing several blocks in parallel way in order to speed-up the encryption and decryption process. As the sequential nature of its internal structure, it is more suitable to use pipelined pattern of parallelism to achieve this goal. We consider each step in the algorithm as stage that receives the output of the previous one as its input and process it then send the result to next stage. We will show the benefit of such approach by comparing it with sequential version. Keywords: DES, symmetric cryptographic algorithm, encryption by bloc, parallel pipelined code, multicore machines. Election de Leader dans les Réseaux Mobiles Ad Hoc Basée sur le Protocole de Routage TORA Leila MELIT, Omar YAKHLEF Département dřinformatique Université de Jijel, Ouled Aissa, Jijel, Algérie Nadjib BADACHE Laboratoire des Systèmes Informatiques USTHB, Alger, Algérie Résumé L élection de leader est un problème fondamental dans les systèmes distribués statiques et dynamiques. La définition classique de ce problème est d élire finalement un leader unique parmi un ensemble fini de noeuds. Cependant, la résolution du problème d élection devient plus difficile dans les réseaux mobiles ad hoc où les coupures des liens et la défaillance des noeuds sont considérées comme norme et pas comme exception. Dans cet article, nous proposons un nouvel algorithme d élection pour les réseaux mobiles ad hoc basé sur le protocole de routage TORA. L algorithme proposé assure que chaque composante connexe du réseau mobile ad hoc finira par avoir exactement un leader pour tous ses noeuds. Ainsi, l algorithme proposé tolère n importe quel nombre de défaillances de processus et de liens à condition que ce nombre soit fini durant l exécution de l algorithme. Nos résultats de simulations montre que notre algorithme permet une réduction de la dissipation d'énergie en minimisant le nombre de messages échangés. En plus, il converge plus vite à un état stable. Mots clés élection de leader; réseaux mobiles ad hoc;protocole de routage TORA ; DAG orienté leader ; inversement de liens. ( 139 )

142 Extraction des relations de causalité dans le domaine médical Fatma Zohra Belkredim Département de maths,université Hassiba Benbouali Chlef,Algérie Djamila Hammouche Département dřinformatique. Université Hassiba Benbouali Chlef, Algérie Sana Ouraghi Département dřinformatique. Université Hassiba Benbouali Chlef, Algérie Résumé L extraction d information dans le domaine médical est très importante. Elle permet de fournir des informations et d en découvrir de nouvelles informations afin de prendre des décisions pour améliorer la qualité des soins. Il s agit d extraire automatiquement des informations non structurées sous forme textuelle et de les convertir sous forme structurées en vue d interrogation de base de données et du traitement automatique du langage naturel. L extraction des relations de causalité dans le domaine médical permet d avoir accès à une information pertinente qui servira aux membres hospitaliers. Ces relations sont exprimées par les concepts qui ont une connotation médicale et causale. Après une introduction, nous présenterons la causalité, son extraction puis son implémentation et la validation. Mots cléscausalité, Extraction de relations, Domaine médical. Vers une simulation de lřorchestration des activités mobiles dřapprentissage avec Netlogo Nassim DENNOUNI, Yvan PETER, Luigi LANCIERI Équipe NOCE, Laboratoire LIFL Université Lille 1, France dennouninas@gmail.com,yvan.peter@univ-lille1.fr / luigi.lancieri@univ-lille1.fr Zohra SLAMA Équipe ISIBA, Laboratoire EEDIS Université DJILALI LIABES de Sidi Bel Abbes, Algérie zslama@yahoo.com Résumé Pendant le déroulement des sorties pédagogique, les apprenants peuvent créer, partager ou enrichir les activités et les ressources du scénario d apprentissage. Cependant face à la croissance du nombre de POIs (Point Of Interest), les apprenants sont confrontés au problème de la sélection de l'activité d'apprentissage la plus appropriée par rapport à leurs contextes spatiotemporels. Les systèmes de recommandation basés sur le filtrage collaboratif peuvent être utilisés pour résoudre ce problème. Dans cet article nous allons simuler ce type de réseau d apprentissage grâce à l environnent Netlogo. Ce dernier nous a permis de modéliser notre système de formation qui est composé de plusieurs apprenants agissant en parallèle afin de tester nos différentes techniques d orchestration des activités mobiles d apprentissage. Mots clés ŕ apprentissage mobile, sortie pédagogique, orchestration des activités mobiles, filtrage collaboratif, Recommandation des POIs, Netlogo. ( 140 )

143 ICNTC'2015 Chlef, Algérie 3-4Mars, 2015 ICNTCř2015 a relevé les défis liés à la construction dřune future plateforme pour internet et à lřutilisation des nouvelles technologies de la communication qui sont basées sur des infrastructures fixes, sans fil et mobiles. Cette manifestation a été aussi un lieu idéal pour les chercheurs, les institutions officielles, les décideurs, les participants du secteur public et les industriels car elle a facilité le transfert et le partage des résultats de recherches au sein de la communauté des chercheurs et des doctorants.

Montrer encore