Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l étiquetage des clusters par

Dimension: px
Commencer à balayer dès la page:

Download "Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l étiquetage des clusters par"

Transcription

1 Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l étiquetage des clusters ar maximisation de vraisemblance : alication au clustering des gros corus de données textuelles hétérogènes Jean-Charles Lamirel, Zied Boulila, Maha Ghribi, Pascal Cuxac, Claire François To cite this version: Jean-Charles Lamirel, Zied Boulila, Maha Ghribi, Pascal Cuxac, Claire François. Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l étiquetage des clusters ar maximisation de vraisemblance : alication au clustering des gros corus de données textuelles hétérogènes. Sixième colloque : Veille Stratégique Scientifique et Technologique - VSST 2010, Oct 2010, Toulouse, France..00, <hal > HAL Id: hal htts://hal.archives-ouvertes.fr/hal Submitted on 9 Aug 2011 HAL is a multi-discilinary oen access archive for the deosit and dissemination of scientific research documents, whether they are ublished or not. The documents may come from teaching and research institutions in France or abroad, or from ublic or rivate research centers. L archive ouverte luridiscilinaire HAL, est destinée au déôt et à la diffusion de documents scientifiques de niveau recherche, ubliés ou non, émanant des établissements d enseignement et de recherche français ou étrangers, des laboratoires ublics ou rivés.

2

3 Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l étiquetage des clusters ar maximisation de vraisemblance : alication au clustering des gros corus de données textuelles hétérogènes Jean-Charles Lamirel(*), Zied Boulila (*), Maha Ghribi (**), Pascal Cuxac (**), Claire François (**) jean-charles.lamirel@loria.fr, maha.ghribie@inist.fr, ascal.cuxac@inist.fr, claire.francois@inist.fr (*) INRIA team TALARIS-LORIA, Vandoeuvre les Nancy, France (**) INIST-CNRS, Vandoeuvre les Nancy, France Mots clefs : Veille scientifique et technologique, clustering, classification incrémentale, gaz neuronal, données textuelles, qualité Keywords: Scientific and technical observation, clustering, incremental classification, neural gas, textual data, quality Palabras clave : Escudriñar científico y tecnológico, clustering, clasificación incremental, gas neuronal, datos textuales, calidad Résumé Dans le cadre de la veille ou de l analyse rosective, il est très courant d avoir recours aux méthodes de clustering our traiter de gros volumes de données textuelles. Les algorithmes de clustering affichent généralement de bonnes erformances dans le cas où les corus à traiter sont de nature homogène. Cela vaut articulièrement our les algorithmes de clustering neuronaux, et encore lus sécifiquement our les récentes versions adatatives de ces algorithmes, comme l'algorithme incrémental de gaz neuronal croissant (IGNG). Ceendant, ce aier illustre clairement la chute drastique de erformance de la luart de ces algorithmes dans le cas lus réaliste où les corus à traiter s avèrent être de nature hétérogène, ou olythématique. Dans ce contexte, des mesures sécifiques de qualité de clustering et de nouvelles techniques d étiquetage des clusters qui sont indéendantes de la méthode de clustering utilisée sont exloitées our l'évaluation des erformances des méthodes. Un nouvel algorithme de gaz neuronal croissant exloitant une mesure de similarité basée sur la maximisation de la qualité de l'étiquetage des clusters est ensuite résenté comme une alternative à l algorithme IGNG original basé sur la distance euclidienne. Nous montrons que cette solution ermet d obtenir un accroissement très significatif de erformance our le clustering des données textuelles olythématiques. Celle-ci fournit également ar ailleurs un véritable caractère incrémental à l'algorithme roosé. 1 Introduction Les méthodes neuronales de clustering artagent le rincie de rendre en considération des relations de voisinage entre les clusters, qu'elles soient rédéfinies (toologie fixe), comme dans le cas des «cartes auto-organisatrices» (SOM) [14], ou dynamiques (toologie libre), comme dans celui des «gaz neuronaux» qu ils soient statiques (NG) [23], ou croissants (GNG) [6]. Comarativement aux méthodes de clustering usuelles, comme

4 K-MEANS [25], cette stratégie les rend moins sensibles aux conditions initiales, ce qui rerésente un avantage déterminant dans le cadre de l'analyse des données textuelles, qui sont souvent rerésentées comme des données éarses associées à des esaces de descrition fortement multidimensionnels. Les avantages et les inconvénients théoriques des différents algorithmes de clustering existants sont une chose, mais qu en est-il dans la réalité? Une comaraison lus claire du comortement de ces algorithmes utilisant une base commune, et lus articulièrement une estimation fiable de la qualité de leurs résultats sur des données comlexes comme les données textuelles hétérogènes ou olythématiques s avérait nécessaire our aorter lus de lumière sur leur avantage et sur leurs inconvénients effectifs. Elle s avérait également indisensable our décider de l exloitation ultérieure de certains d entre eux dans le cadre de la classification incrémentale. Nous avons donc mené une exérimentation exhaustive de ces algorithmes sur deux tyes de données différents, à savoir des données homogènes et des données olythématiques, le contexte de ces dernières étant celui qui se raroche le lus, dans le cadre statique, des contraintes intrinsèques de la classification incrémentale. Nous avons our cela exloité nos rores mesures génériques d évaluation de la qualité du clustering qui sont indéendantes de la méthode de clustering et que nous résentons ar la suite. Nous exosons également ci-arès une comaraison du comortement des méthodes de clustering neuronales que nous avons résentées sur des données homogènes et hétérogènes en utilisant une méthode de clustering non neuronale, en l occurrence la méthode Walktra, comme méthode de référence. Nous résentons finalement les améliorations que nous avons déveloées à la fois our obtenir des résultats satisfaisants sur des données comlexes, comme les données olythématiques, et arallèlement, our obtenir des méthodes offrant un comortement réellement incrémental. 2 Les méthodes de classification dérivées de SOM L aroche SOM est basée sur l observation biologique que le cortex ossède la caacité articulière de réduire la rerésentation de grands ensembles de données sous la forme de cartes auto-organisées. Comme le montre Kohonen [14], une cartograhie d'un esace de données multidimensionnel sur une grille bidimensionnelle de neurones qui regroueront arès arentissage les roriétés synthétiques des données considérées eut ainsi être définie. L'algorithme d arentissage de SOM est résenté en détails dans [14]. Il se comose de deux rocédures de base aliquées à chaque nouvelle donnée d entrée : (1) choix d un neurone gagnant our la donnée sur la grille, et, (2) mise à jour des oids, ou comosantes, associés au vecteur de référence du neurone gagnant et de ceux de ses neurones voisins en fonction de cette donnée. Chaque neurone ouvant être assimilé à un cluster, l algorithme SOM eut donc être considéré comme un algorithme de clustering du tye «le gagnant emorte le lus» 1. Une fois l arentissage achevé, les données d arentissage euvent être affectées individuellement aux neurones, ou clusters, de la grille. Les cartes SOM ont été emloyées avec succès our de nombreuses alications du domaine général de l'analyse de données textuelles, comme our le clustering de comtes-rendus de réunion ou celui de données socio-économiques [29], ou encore our la cartograhie et le feuilletage des fonds documentaires [16]. Kaski et al. ont notamment mis au oint une adatation sécifique de SOM, aelée WEBSOM, our l'analyse des grands fonds de documents, en exloitant des techniques de rojection aléatoires visant à réduire la dimension descritive des documents [12]. La méthode MultiSOM a introduit de son coté la communication entre lusieurs cartes SOM associées à des oints de vue différents définis sur les 1 Contrairement à K-MEANS, qui eut être considéré comme un algorithme de tye «le gagnant remorte le tout», du fait que chaque donnée d entrée n influence qu un seul cluster à la fois au cours de l arentissage.

5 mêmes données [17], ce qui revient à ermettre de croiser de manière non suervisée des analyses basées sur des critères multiles. Cette dernière aroche a été aliquée avec succès à l'analyse des notices de brevets [18], ainsi qu à celle des données Web ([7],[20]). Finalement, des versions incrémentales de SOM intégrant des rocessus de croissance hiérarchique de la grille ermettent de suivre l évolution des caractéristiques des données [24]. L'avantage général de l aroche SOM est qu'elle combine de manière homogène dans un même modèle un rocessus de clustering avec un rocessus comlémentaire de rojection des résultats. Ceendant, le fait que les cartes SOM rerésentent des structures discontinues rend l aroche sécialement sensible aux données marginales [15]. Le défaut rincial de cette méthode reste malgré tout celui de ne as ermettre rerésenter très fidèlement les distributions de données comlexes en raison de la structure toologique fixe de la grille. Au contraire, l'algorithme «Neural Gas» (NG) [23], utilise un rocessus dynamique d estimation du voisinage des neurones vis-à-vis de chaque donnée d entrée. Les changements de oids ne sont as déterminés ar les distances relatives entre les neurones dans un treillis tyologiquement ré-structuré, mais ar la distance relative entre ceux-ci dans l'esace d'entrée, d où la désignation de «gaz neuronal» attribuée à ce tye de réseau. De fait, grâce à la relaxation des contraintes toograhiques ar raort à SOM, NG tend à mieux rerésenter la structure des distributions de données comlexes, menant théoriquement à de meilleurs résultats de classification. Néanmoins, un des inconvénients rinciaux de cet algorithme est que le nombre de neurones, matérialisant le nombre final de clusters, rerésente un aramètre fixe. L'algorithme «Growing Neural Gas» (GNG) [6] résout le caractère statique de l'algorithme NG en mettant en avant le concet du réseau évolutif. En effet, dans cette aroche, le nombre de neurones est adaté endant la hase d arentissage en fonction des caractéristiques de la distribution de données analysée. GNG donne ainsi la ossibilité de créer et de surimer des neurones, ainsi que des connexions structurelles de voisinage entre ces derniers 2. Le rocessus de suression se fonde sur la notion d âge limite, d'une connexion. Au tems t, si une connexion atteint cet âge limite, sans avoir été renouvelée, ou rafraichie, elle est automatiquement surimée; les neurones isolés sont ensuite surimés en conséquence. D'autre art, la création des neurones est oérée seulement ériodiquement (à chaque T itérations ou méta-ériode de tems) entre les deux neurones voisins qui ont cumulés l'erreur la lus imortante our rerésenter les données. Différents critères d arrêt euvent être emloyés, comme un nombre maximal de neurones ou un changement minimal entre les vecteurs de référence des neurones entre deux ériodes de tems. Ceendant, ces critères euvent dans certains cas ne as être atteints, articulièrement avec des données multidimensionnelles comlexes ou éarses. Ceci rerésente un inconvénient imortant de la méthode GNG. L'algorithme «Incremental Growing Neural Gas» (IGNG) [26] rerésente une adatation de l'algorithme GNG qui relaxe la contrainte d'évolution ériodique du réseau. Par conséquent, dans cet algorithme, un nouveau neurone est créé chaque fois que la distance de la donnée d'entrée courante aux neurones existants est suérieure à un seuil réfixé. La valeur est un aramètre global qui corresond à la distance moyenne des données d entrée vis-à-vis du centre de leur distribution. Par ailleurs, chaque nouveau neurone asse ar une hase embryonnaire durant laquelle il ne eut as être surimé, même s il a erdu toutes ses connexions de voisinage. La hase embryonnaire est un aramètre fixe qui corresond à un nombre donné d'étaes de tems arès lesquelles un neurone devient mature. Prudent et Ennaji arguent du fait que cette hase ermet de réduire l'imact des données bruitées durant l arentissage. A l issue de la hase d arentissage, les données sont rojetées uniquement sur les neurones matures. Prudent et Ennaji ont montré que la méthode IGNG roduisait de meilleurs résultats que les méthodes neuronales concurrentes sur les 2 Ces connexions, dites «hebbiennes» [10] ou cométitives, sont crées au cours de l arentissage entre le neurone gagnant et son concurrent direct. Elles ermettent de structurer dynamiquement le réseau créé, et euvent être exloitées dans tous les algorithmes neuronaux à toologie libre.

6 distributions-test usuelles. Ceendant, le fait que le aramètre doive être calculé avant l arentissage et déende globalement de l'ensemble des données d entrée ne laide as en faveur du caractère incrémental de la méthode, même si celui-ci a été défendu ar ses auteurs. L'objectif rincial de l algorithme «Imroved Incremental Growing Neural Gas» (I 2 GNG) [9] est de résoudre la faiblesse de l'algorithme IGNG en termes de comortement incrémental. Dans ce but, l'algorithme I 2 GNG exloite une valeur variable du seuil qui est calculée à chaque étae de l arentissage et qui déend de chaque neurone (c.-à-d. de chaque cluster). Les données sont dynamiquement associées aux neurones durant l arentissage. Par conséquent, au tems t, le seuil de chaque neurone corresond à la distance moyenne de son vecteur de référence à ses données actuellement associées. L'algorithme I 2 GNG a été testé avec succès our la classification non suervisée de documents de facturation. Ceendant, l'inconvénient rincial de celui-ci semble être lié à son initialisation. En effet, une valeur de seuil ar défaut doit être sécifiée à la création de chaque nouveau neurone, et aucune solution récise n'a été roosée jusqu'ici ar les auteurs our traiter correctement ce roblème. 3. Evaluation des résultats de clustering basée sur les notions de récision et de rael En classification non suervisée (clustering), le fait de ne as avoir de classification de référence sur laquelle s auyer rerésente un lourd handica our évaluer la erformance des algorithmes. Il existe certes des indices de qualité basés sur des calculs de distance dont les lus connus sont les inerties intra-classe et inter-classes [22] : - L inertie intra-classe ermet de mesurer le degré d homogénéité entre les données associées à une classe. Elle calcule leurs distances ar raort au oint rerésentant le rofil de la classe. - L inertie inter-classes mesure le degré d hétérogénéité entre les classes. Elle calcule les distances entre les oints rerésentant les rofils des différentes classes de la artition. Parmi les autres indices de qualité utilisant la distance entre individus, ou données, qui ont été déveloés, l on citera l indice de Dunn [5], l indice de validation de Davies-Bouldin [2] et la Silhouette [28]. Tous ces indices, ne ermettent ceendant as d estimer la qualité du clustering dans bon nombre de cas, comme dans celui des données textuelles [8], [13]. Dès 2004, nous avons déveloé une aroche alternative basée sur des mesures de Rael, Précision et F-mesure non suervisée exloitant les descriteurs des données associées aux classes [19], que nous avons affinée deuis. Dans le domaine de la recherche d information, le Rael R rerésente le raort entre le nombre de documents ertinents restitués our une requête donnée et le nombre total de documents ertinents qui auraient été trouvés dans la base de données documentaire. La Précision P rerésente le raort entre le nombre de documents ertinents qui ont été restitués our une requête donnée et le nombre total de documents retournés our ladite requête. Le Rael et la Précision se comortent en général de manière antagoniste : quand le Rael augmente, la Précision baisse, et inversement. La fonction F a ainsi été mise en lace our identifier le meilleur comromis entre le Rael et la Précision. Elle est rerésentée ar la moyenne harmonique : 2( R P) F = (Eq. 1) R + P Le rincie des mesures de Rael et de Précision adaté au cas de la classification non suervisée est illustré à la figure 1.

7 Cluster C 1 Cluster C 2 D 1 D 2 D 3 Données associées au cluster R ( ) = 1 P ( ) = 1 R ( ) = 1 P ( ) = 2/3 D 5 D 6 D 7 D 8 Données associées au cluster R ( ) = 4/5 P ( ) = 1 R ( ) = 1 P ( ) = 1/2 : Proriétés des données de C 1 : Proriétés rores de C 1 : Proriétés des données de C 2 : Proriétés rores de C 2 Figure 1. Princie des indices de Rael(R)-Précision(P) non suervisés. Le Rael ermet de mesurer l exhaustivité du contenu des clusters, lié à la résence de roriétés qui leur sont sécifiques (que nous nommons «roriétés rores»). Plus un cluster résente un ensemble de roriétés rores qui lui sont exclusives, lus il se distingue des autres clusters, et donc lus le critère d hétérogénéité entre clusters est renforcé. La Précision mesure l homogénéité des clusters en termes de roortion de données contenant les roriétés rores de ces remiers. Plus les données associées à un cluster résentent des roriétés rores communes, lus elles sont similaires entre elles, et donc lus le critère d homogénéité à l intérieur des clusters est renforcé. Plus récisément, soit une artition P = (C 1 ; ;C k ) issue d une classification non suervisée d un ensemble de documents. Pour un cluster C, nous ouvons définir l ensemble des roriétés rores S c : W d C d SC = { d, d Ci C W C = max ' ( W c' )}, avec W C = (Eq. 2) C P W où et d W rerésente le oids de la roriété our un document d. C W rerésente le raort du oids cumulé de la roriété dans le cluster C ar raort à son oids total dans la artition. Les roriétés rores maximisent donc le rael ondéré ( W ). C C ' P d C ' d

8 Nous ouvons donc définir l ensemble des clusters rores de la artition P comme suit : P = { C P S C } (Eq. 3) Dans cet ensemble de clusters rores, nous définissons alors les Macro Rael- Précision comme les valeurs moyennes de Rael et de Précision our l ensemble des clusters. Ils rennent les formes suivantes : R M 1 1 P S = ; c P C P C SC P M 1 1 P C P S = (Eq. 4) C SC c c où c résente l ensemble des données du cluster C ossédant la roriété et P rerésente l ensemble des données de la artition P ossédant la roriété. Le Macro-Rael et la Macro-Précision ont des comortements inverses en fonction du nombre de clusters. Ainsi, ces indices ermettent d'estimer de manière globale un nombre otimal de clusters our une méthode donnée et our un ensemble de données fixé. La meilleure artition est dans ce cas celle qui minimise l écart entre leur valeur. Nous avons réalablement montré [19] qu un des avantages déterminants de cette aroche, qui s insire de l analyse du comortement des classificateurs symboliques, est d être indéendante de la méthode de clustering utilisée, contrairement aux aroches basées sur la distance. Elle ermet donc de comarer différentes méthodes entre elles. Ceendant, son défaut rincial est que la Macro-Précision, en articulier, est eu sensible à la résence de clusters hétérogènes de fort effectif, surtout dans le cas de l existence conjointe d un nombre imortant de clusters de faible taille [8]. En conclusion, même si les Macro-mesures ermettent d estimer le nombre otimal de clusters our une méthode donnée, elles ne ermettent as our autant d estimer la qualité intrinsèque de la artition roduite ar ladite méthode. Pour corriger cela, nous définissons ci-arès de nouveaux indices de Micro Rael/Précision, calculés en moyennant directement les valeurs de Rael/Précision sur l ensemble des roriétés rores, et non lus sur les clusters : R m 1 c = ; L P c C, Sc P m 1 c = (Eq. 5) L c c C, S c où L rerésente la dimension de l esace de descrition des documents. Les Micro- Rael/Précision ossèdent des caractéristiques générales analogues aux Macro- Rael/Précision. Ceendant, en les comarant avec ces derniers indices, il devient ossible d identifier des résultats de clustering hétérogènes. En effet, dans ce dernier cas, les Précisions des clusters de etite taille ne comenseront lus celles des clusters de grande taille et les roriétés imrécises résentes dans ces derniers, s ils s avèrent

9 hétérogènes, auront un effet considérable sur la Micro-Précision. Par conséquent, même si la Macro- et la Micro-Précision mesurent toutes deux le degré d homogénéité des clusters, l écart entre ces deux mesures ermet de confirmer la résence de clusters hétérogènes de taille imortante. D'une manière comlémentaire, nous définissons des étiquettes dont le rôle est de mettre us sécifiquement en lumière les caractéristiques ou les roriétés sécifiques des clusters inhérents à une artition. Cet étiquetage eut être ainsi emloyé our visualiser ou synthétiser des résultats de clustering [21], ou bien encore our valider ou otimiser l arentissage d'une méthode de clustering [1]. Il eut se baser sur les roriétés endogènes des données aussi bien que sur leurs roriétés exogènes. Les roriétés endogènes des données rerésentent celles qui sont emloyées durant le rocessus de clustering. Les roriétés exogènes rerésentent des roriétés comlémentaires, ou des roriétés sécifiques de validation. Des mesures de ertinence d'étiquette euvent être directement dérivées des indices de qualité que nous avons résentés récédemment. Aussi, our une roriété, le Rael d étiquette L-R dérive directement de l équation 2. Il est exrimé comme : La Précision d étiquette L-P eut être exrimée comme : L R( ) = W c (Eq. 6) c L P( ) = c d c W d, d c En conséquence, our un cluster c, l'ensemble d'étiquettes L C qui euvent lui être attribuées est l ensemble des roriétés des données qui maximisent la F-mesure d étiquettage à l intérieur de ce cluster, c'est-à-dire celle qui vérifient : où la F-mesure d étiquettage L F( ) eut être définie comme : c c d W d (Eq. 7) {, ( ) ( ( ))} L = d d c L F = Max L F (Eq. 8) c c C c 2( L R( ) L P( )) c c L F( ) = c L R( ) + L P( ) c c Dès lors que le Rael d'étiquette est équivalent à la robabilité conditionnelle P(c ) et la Précision d'étiquette est équivalente à la robabilité conditionnelle P( c), cette stratégie d étiquetage eut être comrise comme une aroche de maximisation de vraisemblance, relativement à la définition originale donnée ar Demster et al. [3]. (Eq. 9)

10 Dans la section suivante, nous utiliserons les mesures de Macro/Micro Précision, Rael, F-mesure, ainsi que la F-mesure d étiquettage our réaliser les évaluations numériques des résultats de clustering. Nous réaliserons également une analyse qualitative ar le biais des étiquettes associées aux clusters. 4. Comaraison des méthodes de clustering Le but de notre remière exérience est de comarer le comortement des méthodes de clustering neuronales décrites en section 2 sur deux tyes différents de corus de données textuelles, à savoir un corus thématiquement homogène et un corus olythématique, de manière à aorter lus de lumière sur les qualités et les défauts effectifs de ces méthodes dans un contexte suffisamment général. Notre corus-test de données thématiquement homogènes est un ensemble de 1000 notices de brevets se raortant à la technologie des huiles moteurs enregistrées durant l'année Un index brut est roduit à artir du texte associé au sous-cham des notices décrivant le domaine d'utilisation des brevets, en exloitant un analyseur lexicograhique ermettant d extraire des termes comosés [11]. Cet index brut est ensuite normalisé en fusionnant les termes synonymes (ar exemle «ingénierie des huiles» et «fabrication des huiles»). Chaque notice de brevet est ensuite indexée ar une sélection de termes issue de l'index normalisé. Nous avons finalement aliqué un seuil de fréquence de 2 sur les termes d'indexation, avec comme conséquence de réduire l esace de descrition des notices à un esace de 234 mots-clés. Le corus résultant eut être considéré comme un corus homogène uisqu'il couvre le cham élémentaire du domaine d'utilisation des brevets avec un vocabulaire normalisé limité et contextuel. Notre corus-test de données hétérogène, ou olythématique, rerésente de son coté un ensemble de 1341 notices bibliograhiques issues de la base de données de PASCAL de l INIST et couvrant 1 année comlète de recherche (i.e. 2005), tous domaines confondus, et imliquant au moins un laboratoire de recherche Lorrain 3. Comme dans le cas des notices de brevets, la structure d une notice bibliograhique est une structure multichams (titres, auteurs, affiliations, résumé, mots-clés, ) qui synthétise l information contenue dans la ublication corresondante. Dans notre exérience, seuls sont ris en comte les termes résents dans le cham des mots-clés. Un seuil de fréquence de 3 est finalement aliqué sur ces termes d'indexation, avec comme conséquence de réduire l esace de descrition des notices à un esace de 889 mots-clés. Comme ces mots-clés couvrent malgré tout un grand ensemble de sujets différents (aussi éloignés les uns des autres que la médecine, la hysique structurelle ou la sylviculture), le corus résultant eut cette fois être considéré comme un corus fortement olythématique. Dans les deux cas, un rétraitement est aliqué aux index résultants des notices de manière à en obtenir une rerésentation vectorielle. Les vecteurs obtenus sont ensuite ondérés selon le schéma de ondération IDF [27], afin de diminuer l'effet des termes d index les lus réandus. Les méthodes de clustering neuronales que nous avons récédemment décrites ont toutes été considérées dans nos exérimentations. Nous avons également considéré la méthode K-MEANS [25] dans ces exérimentations afin de confronter aux méthodes susdites une méthode de référence de la catégorie des méthodes de clustering non neuronales. Pour chaque méthode neuronale, ainsi que our la méthode K-MEANS, nous avons oéré lusieurs arentissages différents, en faisant varier le nombre de clusters dans le cas des méthodes statiques (SOM, NG), et les aramètres de 3 Ces notices ont été extraites de la base à artir de l interface STANALYST de l INIST.

11 voisinage dans le cas des méthodes dynamiques (GNG, IGNG, I2GNG). Nous avons finalement conservé la meilleure artition roduite ar chaque méthode en nous basant sur l examen des valeurs de Macro Rael-Précision définies à la section 2 (Equation 1-4). Dans le cas de la méthode IGNG, nous avons otimisé le rocessus en en faisant varier le aramètre de voisinage autour de la valeur otimale théorique T. Nous avons observé que les meilleurs résultats de clustering étaient obtenus ar l emloi de valeurs lus etites que T. Nous avons donc défini une fonction d'évolution du aramètre telle que : σ = σ, 1 σ = β σ, avec β < 1. i+ 1 T i Dans le cas d'igng, nous avons otimisé le rocessus en faisant varier selon cette dernière stratégie. Le même rocessus est également oéré avec la méthode I 2 GNG en utilisant ceendant une variation du aramètre relative à chaque cluster en lieu et lace d une variation absolue. Les résultats de clustering obtenus sur les données thématiquement homogènes et ceux obtenus sur les données olythématiques sont résentés dans le tableau 1. DONNEES THEMATIQUEMENT HOMOGENES DONNEES POLYTHEMATIQUES METHODE DE CLUSTERING NBR OPTIMAL DE CLUSTERS F- MESURE MACRO F- MESURE MICRO NBR OPTIMAL DE CLUSTERS F- MESURE MACRO F- MESURE MICRO K-MEANS SOM NG GNG IGNG I 2 GNG Tableau 1. Résultats de clustering sur le corus de données thématiquement homogènes et sur le corus de données olythématiques our l ensemble des méthodes testées.

12 L'analyse des mesures de qualité sur le remier corus de données homogènes met en évidence de bons résultats our resque toutes les méthodes neuronales, exceté our la méthode I 2 GNG. Les meilleurs résultats sont obtenus avec les méthodes basées sur une toologie libre, et articulièrement avec la méthode NG et avec la méthode IGNG. De lus, étant donné que la uissance de la synthèse d une méthode de clustering est aussi liée à sa caacité à roduire de bons résultats avec un nombre de clusters aussi faible que ossible, l avantage tourne nettement en faveur d'igng qui obtient une Micro-F-mesure ratiquement équivalente à celle du NG, tout en nécessitant un nombre de clusters deux fois moindre. Un autre résultat intéressant est également mis en lumière ar cette exérience : dès lors que l on eut otimiser son nombre de clusters, comme c est le cas dans le cadre de cette exérience, l'algorithme d'arentissage de NG semble être lus efficace que celui de GNG (nombre final de clusters similaire our les deux méthodes avec de meilleures valeurs de qualité our la méthode NG). Dans le cas de la méthode non neuronale K-MEANS, il aarait une différence assez nette entre la Macro F-mesure et la Micro F-mesure. Comme nous l avons décrit dans la section 3, cette différence illustre des résultats de clustering déséquilibrés comrenant des clusters bruités de taille imortante 4. Les résultats d I 2 GNG aaraissent seulement moyens, alors qu ils devraient être au moins équivalents à ceux d IGNG, étant donné que ce remier algorithme est censé rerésenter une amélioration du second. La méthode I 2 GNG semble donc clairement souffrir de roblèmes d'initialisation, comme cela ouvait être ressenti. En effet, comme aucune valeur ar défaut n est fournie ar cette méthode our définir l'influence de voisinage d'un cluster nouvellement créé (celui-ci ne contient alors qu une seule donnée associée), chaque cluster eut initialement agglomérer aléatoirement n'imorte quel tye de données, y comris des données qui sont très dissimilaires les unes des autres. Ceci eut ar conséquent mener à la création des clusters hétérogènes de taille relativement imortante qui euvent à leur tour coexister avec des clusters de très etite taille, notamment si des groues de données suffisamment discriminants sont résents dans le corus d arentissage. Une remière analyse des résultats sur notre deuxième corus de données olythématiques rouve que la luart des méthodes de clustering ont des difficultés énormes à traiter ce tye de données, roduisant ar conséquent des résultats de qualité très médiocre, même our leur nombre otimal de clusters. Ces mauvais résultats sont illustrés lus articulièrement ar de faibles valeurs de Micro F-mesure. La différence très élevée entre les valeurs de Macro F-mesure et de celles de Micro F-mesure illustre quant à elle la résence de clusters-oubelles attirant la majeure artie des données, arallèlement à celle de clusters-oussières rerésentant des groues marginaux, ou encore non comlètement formés. C'est très nettement le cas our les méthodes K-MEANS et I 2 GNG, et à une lus faible amleur our la méthode NG. La méthode IGNG qui a roduit les meilleurs résultats avec des données homogènes devient également fortement concernée ar ce hénomène à artir du moment où elle doit gérer des données olythématiques. Le seul comortement relativement cohérent sur ces données est celui de la méthode SOM. Celui-ci est illustré ar une valeur moins faible de Micro F-mesure et ar une bonne concordance entre la valeur de Micro F-mesure et celle de Macro F-mesure. Un cas très critique est celui de méthode K-MEANS, dont le résultat revient en définitive à agglomérer l ensemble des documents du corus dans un seul cluster de taille significative 5. Une situation également critique se roduit avec la méthode GNG qui ne fournit aucun résultat sur ce corus en raison de son incaacité à s'échaer d'un cycle infini de la création-destruction de neurones, autrement dit de clusters. Les résultats ainsi que les comortements des méthodes euvent être confirmés ar une exertise arofondie du contenu des clusters et de la 4 Ce hénomène va s accentuer our cette méthode et toucher quasiment toutes les autres méthodes dans le cas du traitement de données hétérogènes. 5 Dans le cas du corus olythématique, la méthode K-MEANS ne roduit systématiquement qu un seul cluster significatif associé à des clusters-miettes ne contenant qu un seul document (un cluster de 1189 documents et 154 clusters d 1 seul document, dans notre cas). Ce qui revient à dire que dans ce cas, cette méthode à un ouvoir de discrimination nul.

13 distribution des tailles de ces derniers. Pour faciliter ce travail, il est également ossible de juger de la nature des résultats en s intéressant aux étiquettes qu il est ossible d associer aux clusters en emloyant la stratégie de maximisation de vraisemblance décrite ar l équation 8. Les résultats des étiquetages obtenus ar cette stratégie our les cas resectifs des méthodes K-MEANS et SOM sont résentés aux figures 2 et 3. [1189] Racine Densité Protéine Loi échelle Aareil resiratoire athologie Condition aux limites Forêt Protéine lait Protection environnement Prévision Analyse donnée Pollution air Fibre In situ DNA Alcool Mécanique roche Sol Méthode analytique Cosmologie Traitement donnée Cartograhie Végétation Rhizoshère Eau otable Alication Méthode Monte Carlo Zone urbaine Grain Pédiatrie Cours eau Logiciel Partie aérienne végétal Inhibiteur enzyme Diagramme hase Photosynthèse Système nerveux athologie Exression génique Variation saisonnière Nucléosynthèse Biodisonibilité Matière organique Ingénierie Vérification rogramme Cytométrie flux Lymhocyte T Diffusion(transort) Floculation Analyse comosante rinciale Dérédateur Détection Produit contraste Arbre forestier feuillu Tolérance Industrie alimentaire Système à retard Tolérance faute Système tems réel Problème NP difficile Aareil resiratoire Polymère Synchronisation... Figure 2. Vue générale des étiquettes d un cluster généré ar la méthode K-MEANS. Ce cluster regroue 1189 documents sur les 1341 du corus, et 840 étiquettes sur les 889 de fréquence suérieure 3. Il attire un grand nombre d étiquettes de différentes natures, figurant un contenu très hétérogène. [28] 27-- Etude théorique Méthode dynamique moléculaire Simulation numérique Interface gaz liquide Continuum Modèle thermodynamique Fluide non newtonien Diffusion Nanoarticule Laser semiconducteur Proriété mécanique Analyse statistique Système binaire Comressibilité Point critique Proriété rhéologique Ecoulement conduite Perte charge Macromolécule Effet dimensionnel Mouillage [21] 38-- Zone temérée Foresterie Arbre forestier feuillu Arbre forestier Peulement forestier Plante ligneuse Forêt décidue Montagne Sylviculture Futaie Arbre forestier résineux Formation végétale Gestion forestière Dendrométrie Peulement forestier artificiel Filière bois Ecohysiologie Stade juvénile lante Entomologie Phytoathologie Caractéristique eulement Industrie bois Qualité roduction Tolérance Economie forestière Déérissement forêt Modèle simulation Peulement forestier mélangé Symtomatologie Recommandation Bois feuillu Histoire Réglementation Bois résineux Contrainte Photosynthèse Climat Canoée [16] 28-- Cardioathie Insuffisance cardiaque Aigu Conduite à tenir Myocarde athologie Pronostic Mortalité Chimiothéraie Eidémiologie Aareil circulatoire Chronique Evolution Cœur Stratégie Electrocardiograhie Santé ublique Electrodiagnostic Facteur rédictif Maladie Prévalence Soin Comlication Coût Maladie héréditaire Tomodensitométrie Résultat Risque Figure 3. Vue générale des étiquettes extraites de la artition générée ar la méthode SOM, récédées du nombre de documents et du nombre d étiquettes ar classe. Il y a ici différents clusters de taille semblable attirant des groues d'étiquettes sémantiquement homogènes.

14 Une cause lausible du roblème d'agglomération de données, se roduisant avec resque toutes les méthodes de clustering examinées avec ce corus, est la nature de la similarité exloitée ar défaut ar l ensemble des méthodes exérimentées endant l'arentissage, en l occurrence la distance euclidienne. En effet, c'est un hénomène connu que cette distance, qui est la mesure de similarité la lus utilisée our le clustering, devient faiblement discriminante dans les esaces fortement multidimensionnels contenant des données éarses [30] : dans ce contexte la distribution des distances euclidiennes est fortement biaisée vers les etites valeurs, ce qui revient également à considérer les données comme très similaires entre elles. Seul l arentissage sous contrainte de grille roosé ar la méthode SOM de Kohonen semble rerésenter une bonne stratégie our réserver celle-ci de roduire des résultats tro mauvais dans un contexte aussi critique. De fait, ce tye d arentissage imose l homogénéité des résultats en réartissant à la fois les données et le bruit sur la grille. Afin de résoudre les roblèmes observés sur le corus de données olythématiques, nous roosons à la section suivante lusieurs adatations alicables sur les algorithmes de clustering otentiellement les meilleurs sur les données homogènes. 5. Adatations originales des algorithmes IGNG et I2GNG 5.1 Adatations d'igng Choix aléatoire du gagnant final armi des gagnants multiles (IGNG-R) : Du fait de l'utilisation d'une distance non discriminante, nous avons u vérifier exérimentalement qu à beaucou d'étaes de l'arentissage de l algorithme IGNG il existait lusieurs neurones concurrents qui ouvaient être considérés comme des gagnants otentiels, étant donné que ces neurones avaient la même distance vis-à-vis de la donnée d'entrée courante. L'algorithme doit ceendant choisir un gagnant final du fait de sa stratégie de tye «le gagnant emorte le lus». Dans l'algorithme original, chaque fois que cette situation se résente, la stratégie aliquée ar défaut consiste à rendre comme gagnant final le remier neurone de la liste des neurones créés. Dans le cas du corus de données olythématiques ce roblème s est révélé être très fréquent, et conduit directement à l'aarition d'un cluster-oubelle, rerésenté ar le remier neurone créé. Une meilleure stratégie consiste à effectuer un rocessus de sélection aléatoire dans le cas où un gagnant doit être choisi armi lusieurs neurones équidistants d une donnée d'entrée. La conséquence indirecte de cette nouvelle stratégie est également celle de reartir le bruit entre lusieurs neurones. Choix du gagnant final armi des gagnants multiles emloyant une aroche de maximisation de l étiquetage des clusters (IGNG-M) : Chaque fois qu'un gagnant doit être choisi armi lusieurs neurones équidistants d une donnée d'entrée, une stratégie lus ertinente que l'aroche aléatoire consiste à emloyer une aroche de maximisation de la F-mesure de l étiquetage our choisir le gagnant final. Selon cette stratégie, la donnée d'entrée est d abord attachée à tous les challengers otentiels our créer des «challengers-augmentés», et la F-mesure moyenne d'étiquetage des «challengers-augmentés» est calculée sur la base de l'équation 8. Le gagnant est ensuite choisi comme le challenger dont l état augmenté maximise ositivement la différence de F-mesure moyenne d étiquetage avec son état standard. Utilisation directe d'une aroche de maximisation de la qualité de l étiquetage des clusters comme mesure de similarité (IGNG-F) : La dernière stratégie résentée eut malgré tout ne as ermettre de faire face à l'influence critique de la distance euclidienne dès lors que, dans cette stratégie, cette distance non discriminante reste emloyée comme critère de sélection rincial. Une stratégie qui semble lus adéquate consiste

15 donc à surimer comlètement l'utilisation de la distance euclidienne dans le rocessus de sélection d un gagnant, en considérant cette fois l'aroche de maximisation de la qualité de l'étiquetage des clusters comme seul rocessus de sélection. Un autre avantage d une telle stratégie est de fournir our la remière fois à la l aroche IGNG un caractère véritablement incrémental. En effet, ce nouvel algorithme fonctionne sans ne nécessiter aucun aramètre rédéfini déendant du corus analysé ou de données initiales. Un autre de ses avantages déterminants our l incrémentalité est qu il eut rendre en comte un esace de descrition des données d entrée ouvert, ou évolutif. 5.2 Adatation d'i2gng Stratégie d'initialisation de récirocité de voisinage (I 2 GNG-N) : Une aroche ossible our faire face aux roblèmes d'initialisation de la méthode I 2 GNG eut consister à créer des noyaux d'initialisation afin de fournir des aramètres initiaux d'influence de voisinage aux clusters. Dans ce contexte, une stratégie d initialisation basée sur les voisins réciroques [4] semble être l une des lus aroriées. En effet, cette stratégie résente l avantage de minimiser l'influence de l'initialisation sur l'évolution ultérieure des clusters. Néanmoins, un des inconvénients rinciaux d emloyer une stratégie d initialisation, quelle qu elle soit, est de surimer le caractère incrémental de cet algorithme. 5.3 Nouveaux résultats Le tableau 2 illustre les résultats obtenus avec nos nouvelles stratégies. Il démontre lus articulièrement l'efficacité de notre stratégie de clustering basée directement sur la maximisation de l étiquetage (IGNG-F) qui surasse toutes les stratégies existantes, en roduisant les résultats les meilleurs sur les données olythématiques, et notamment avec le lus etit nombre de clusters. On eut également remarquer qu'une amélioration significative des erformances de l'algorithme I 2 GNG est obtenue une fois qu une stratégie d'initialisation du voisinage des clusters est emloyée (I 2 GNG-N). METHODE DE CLUSTERING NBR OPTIMAL DE CLUSTERS F-MESURE MICRO SOM (Référence) IGNG Original IGNG-R (Affectation aléatoire des égaux) IGNG-L (Affectation des égaux ar maximisation d étiquetage) IGNG-F (Similarité basée sur la maximisation d étiquetage) I 2 GNG Original I 2 GNG-N (Initialisation ar voisinage réciroque) Tableau 2. Résultats de clustering sur le corus de données olythématiques our les nouveaux algorithmes déveloés.

16 6. Conclusion Dans ce travail, nous avons montré que les méthodes de clustering neuronales, comme la méthode IGNG, affichaient de très bonnes erformances dans le contexte de l'analyse d un corus de données textuelles homogènes. Pour évaluer les erformances de ces méthodes nous avons exloité des mesures sécifiques de qualité qui résentent la roriété d être indéendantes de la méthode considérée. En exloitant ces mêmes mesures, nous avons également montré la diminution drastique de erformance de la luart des méthodes de clustering, quand un corus de données textuelles olythématiques est considéré en entrée. Ce roblème eut s avérer critique dans le cadre de nombreuses alications, comme les alications de veille, et en articulier celles de lus en lus nombreuses, qui sont amenées à maniuler des données olythématiques, hétérogènes ou changeantes. Il y avait donc nécessité de réviser en rofondeur le mode oératoire des méthodes de clustering. En nous basant sur certains des rincies de nos mesures de qualité, nous avons roosé un algorithme de gaz neuronal croissant original exloitant une nouvelle mesure de similarité basé sur la maximisation de la qualité de l'étiquetage des clusters, comme alternative à la distance euclidienne exloitée dans les aroches usuelles. Nous avons exérimentalement rouvé que cette nouvelle méthode fournissait des résultats suérieurs aux méthodes de référence existantes en contexte olythématique. Par ailleurs, il aarait qu elle fournit également un véritable caractère incrémental à l'algorithme que nous avons roosé. Ces dernières ossibilités nous ouvrent des ersectives claires our aliquer dans un futur roche notre nouvelle aroche de clustering incrémentale au domaine de l'exloitation des données textuelles changeant au cours du tems. Dans un futur lus lointain, nous comtons également aliquer cette aroche, en l associant au aradigme d analyse de données multi-vues que nous avons récédemment roosé [20], à d autres domaines orteurs mettant en jeux des données numériques en arallèle avec des données textuelles, tout en intégrant une dimension temorelle, comme c est le cas des données génomiques. Nous comtons également adater le rincie original de similarité ar maximisation d'étiquetage des clusters à lusieurs autres algorithmes de clustering. La latitude d évolution de notre nouvelle aroche our l analyse rosective et our la veille est donc articulièrement grande. 7. Bibliograhie [1] Attik M., Al Shehabi S. and Lamirel J.-C. (2006). Clustering Quality Measures for Data Samles with Multile Labels. Proceedings of the The IASTED International Conference on Databases and Alications (DBA), Innsbruck, Austria, February [2] Davies, D.and Bouldin, W. (2000). A cluster searation measure. IEEE Trans. Pattern Anal. Machine Intell, 1(4), [3] Demster, A.P., Laird, N.M. and Rubin, D.B. (1977). Maximum likelihood for incomlete data via the em algorithm. Journal of the Royal Statistical Society, vol. B-39: [4] De Rham C. (1980). La classification hiérarchique ascendante selon la méthode des voisins réciroques. Les cahiers de l analyse de données, Vol. 5, No. 2, ages , [5] Dunn J. (1974): Well Searated clusters and otimal fuzzy artitions. Journal of Cybernetics,4,

17 [6] Fritzke B. (1995). A growing neural gas network lerans toologies. Tesauro G., Touretzky D. S., leen T. K., Eds., Advances in neural Information rocessing Systems 7, , MIT Press, Cambridge MA. [7] François C., Hoffmann M., Lamirel J.-C. and Polanco X. (2003). Artificial Neural Network maing exeriments. EICSTES (IST ) Final Reort (WP 9.4), 86., Setember [8] Ghribi M., Cuxac P., Lamirel J.C., Lelu A. (2010). Mesures de qualité de clustering de documents : Prise en comte de la distribution des mots clés. Atelier EGC EVALECD, Hammamet, Tunisia, January [9] Hamza H., Belaïd Y., Belaïd. A and Chaudhuri B. B. (2008). Incremental classification of invoice documents. 19th International Conference on Pattern Recognition - ICPR [10] Hebb, D.O. (1949). The Organization of Behavior: A Neurosychological Theory, Wiley, New York, [11] Jouve, O. (1999). Les nouvelles technologies de la recherche d information, Séminaire Documentation, Paris. [12] Kaski S., Honkela T., Lagus K. and Kohonen, T. (1998). WEBSOM-self organizing mas of document collections, Neurocomuting, vol. 21, [13] Kassab R. and Lamirel J.-C. (2008). Feature Based Cluster Validation for High Dimensional Data. IASTED International Conference on Artificial Intelligence and Alications (AIA), Innsbruck, Austria, February [14] Kohonen T. (1982). Self-organized formation of toologically correct feature mas. Biological Cybernetics, vol. 43, [15] Kohonen T. (2001). Self-Organising Mas. 3rd ed. Berlin: Sringer-Verlag, [16] Lamirel J.-C. and Créhange M. (1994). Alication of a symbolico-connectionist aroach for the design of a highly interactive documentary database interrogation system with on-line learning caabilities. Proceedings ACM-CIKM 94, Gaitherburg, Maryland, USA, November 94. [17] Lamirel, J-C., Ducloy J. and Oster, G. (2000). Adatative browsing for information discovery in an iconograhic context, In Conference Proceedings RIAO, Paris, Vol. 2, [18] Lamirel J.-C. and Al Shehabi S. (2003). Neural Network driven Patent Analysis. Proceedings of ACL 2003 Worksho on Patent Analysis, Saoro, Jaan, July [19] Lamirel J.-C., Al-Shehabi S., François C. and Hoffmann M. (2004a). New classification quality estimators for analysis of documentary information: alication to atent analysis and web maing. Scientometrics, 60(3). [20] Lamirel J.-C., Al Shehabi, S., François, C., & Polanco, X. (2004b). Using a comound aroach based on elaborated neural network for Webometrics: an examle issued from the EICSTES Project. Scientometrics, Vol. 61, No. 3, [21] Lamirel J.-C., Ta A.P. and Attik M. (2008). Novel Labeling Strategies for Hierarchical Reresentation of Multidimensional Data Analysis Results. IASTED International Conference on Artificial Intelligence and Alications (AIA), Innsbruck, Austria, February [22] Lebart L.,Maurineau A., Piron M. (1982): Traitement des données statistiques. Dunod, Paris. [23] Martinetz T. and Schulten K. (1991). A "neural gas" network learns toologies. In Kohonen, T., Makisara K., Simula O., and Kangas J., editors, Articial Neural Networks, Elsevier Amsterdam. [24] Merkl D., Shao H.H., Dittenbach M. and Rauber A. (2003). Adative hierarchical incremental grid growing: an architecture for high-dimensional data visualization. In Proceedings of the 4th Worksho on Self-Organizing Mas, Advances in Self-Organizing Mas, , Kitakyushu, Jaan, Setember

18 [25] MacQueen J.B. (1967). Some methods of classification and analysis of multivariate observations. L. Le Cam and J. Neyman (Eds.), Proc. 5th Berkeley Symosium in Mathematics, Statistics and Probability, vol 1., , Univ. of California, Berkeley, USA, [26] Prudent Y. and Ennaji A. (2005). An Incremental Growing Neural Gas learns Toology. ESANN2005, 13th Euroean Symosium on Artificial Neural Networks, Bruges, Belgium, 27-29Aril 205, ublished in Neural Networks, IJCNN aos;05. Proceedings IEEE International Joint Conference, vol. 2, no , July-4 Aug [27] Robertson S. E. and Sarck Jones, K. (1976). Relevance Weighting of Search Terms. Journal of the American Society for Information Science, 27: [28] Rousseeuw P.J. (1987). Silhouettes: a grahical aid to the interretation and validation of cluster analysis. Journal of Comutational and Alied Mathematics, 20, [29] Varsis A. and Versino C. (1992). Clustering of Socio-Economic Data with Kohonen Mas, In Proceedings of third International Worksho on Parallel Alications in Statistics and Economics, Pragues, Czechoslovakia. [30] Verleysen, M. (2004). Learning High-Dimensional Data with Artificial Neural Networks, LEARNING 04, Elche, Sain, October 2004.

dénombrement, loi binomiale

dénombrement, loi binomiale dénombrement, loi binomiale Table des matières I) Introduction au dénombrement 1 1. Problème ouvert....................................... 2 2. Jeux et dénombrements...................................

Plus en détail

L information sera transmise selon des signaux de nature et de fréquences différentes (sons, ultrasons, électromagnétiques, électriques).

L information sera transmise selon des signaux de nature et de fréquences différentes (sons, ultrasons, électromagnétiques, électriques). CHAINE DE TRANSMISSION Nous avons une information que nous voulons transmettre (signal, images, sons ). Nous avons besoin d une chaîne de transmission comosée de trois éléments rinciaux : 1. L émetteur

Plus en détail

Module : réponse d un système linéaire

Module : réponse d un système linéaire BSEL - Physique aliquée Module : réonse d un système linéaire Diaoramas () : diagrammes de Bode, réonse Résumé de cours - Caractérisation d un système hysique - Calcul de la réonse our une entrée donnée

Plus en détail

Accès optiques : la nouvelle montée en débit

Accès optiques : la nouvelle montée en débit Internet FTR&D Dossier du mois d'octobre 2005 Accès otiques : la nouvelle montée en débit Dans le domaine du haut débit, les accès en France sont our le moment très majoritairement basés sur les technologies

Plus en détail

Des familles de deux enfants

Des familles de deux enfants Des familles de deux enfants Claudine Schwartz, IREM de Grenoble Professeur, Université Joseh Fourier Les questions et sont osées dans le dernier numéro de «Pour la Science» (n 336, octobre 2005, article

Plus en détail

Compression scalable d'images vidéo par ondelettes 2D+t

Compression scalable d'images vidéo par ondelettes 2D+t Comression scalable d'images vidéo ar ondelettes 2D+t Madji Samia, Serir Amina et Ouanane Abdelhak Université des Sciences et de la Technologie Houari Boumediene, Laboratoire de traitement d images et

Plus en détail

S2I 1. quartz circuit de commande. Figure 1. Engrenage

S2I 1. quartz circuit de commande. Figure 1. Engrenage TSI 4 heures Calculatrices autorisées 214 S2I 1 L essor de l électronique nomade s accomagne d un besoin accru de sources d énergies miniaturisées. Les contraintes imosées à ces objets nomades sont multiles

Plus en détail

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale Stéphanie Perriere To cite this version: Stéphanie Perriere. La voix en images : comment l

Plus en détail

NFE107 Urbanisation et architecture des systèmes d information. Juin 2009. «La virtualisation» CNAM Lille. Auditeur BAULE.L 1

NFE107 Urbanisation et architecture des systèmes d information. Juin 2009. «La virtualisation» CNAM Lille. Auditeur BAULE.L 1 Juin 2009 NFE107 Urbanisation et architecture des systèmes d information CNAM Lille «La virtualisation» Auditeur BAULE.L 1 Plan INTRODUCTION I. PRINCIPES DE LA VIRTUALISATION II. DIFFÉRENTES TECHNIQUES

Plus en détail

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales Natacha Gondran To cite this version: Natacha Gondran. Système de diffusion d information

Plus en détail

Santé et hygiène bucco-dentaire des salariés de la RATP

Santé et hygiène bucco-dentaire des salariés de la RATP Santé et hygiène bucco-dentaire des salariés de la RATP Percetion des salariés et examen clinique du raticien Période 2006-2009 14 juin 2012 Dominique MANE-VALETTE, Docteur en Chirurgie dentaire dominique.mane-valette@rat.fr

Plus en détail

DIVERSIFICATION DES ACTIVITES ET PRIVATISATION DES ENTREPRISES DE CHEMIN DE FER : ENSEIGNEMENTS DES EXEMPLES JAPONAIS

DIVERSIFICATION DES ACTIVITES ET PRIVATISATION DES ENTREPRISES DE CHEMIN DE FER : ENSEIGNEMENTS DES EXEMPLES JAPONAIS Ecole Nationale des Ponts et Chaussées Laboratoire Paris-Jourdan Sciences Economiques DIVERSIFICATION DES ACTIVITES ET PRIVATISATION DES ENTREPRISES DE CHEMIN DE FER : ENSEIGNEMENTS DES EXEMPLES JAPONAIS

Plus en détail

Découvrez les bâtiments* modulaires démontables

Découvrez les bâtiments* modulaires démontables Découvrez les bâtiments* modulaires démontables w Industrie w Distribution * le terme «bâtiment» est utilisé our la bonne comréhension de l activité de Locabri. Il s agit de structures modulaires démontables

Plus en détail

Un modèle de composition automatique et distribuée de services web par planification

Un modèle de composition automatique et distribuée de services web par planification Un modèle de comosition automatique et distribuée de services web ar lanification Damien Pellier * Humbert Fiorino ** * Centre de Recherche en Informatique de Paris 5 Université Paris Descartes 45, rue

Plus en détail

Procès - Verbal du Conseil Municipal Du lundi 15 décembre 2014

Procès - Verbal du Conseil Municipal Du lundi 15 décembre 2014 Procès - Verbal du Conseil Municial Du lundi 15 décembre 2014 Nombre de membres comosant le Conseil Municial : 15 Nombre de membres en exercice : 15 Nombre de Conseillers résents : 14 Nombre de Conseillers

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

Sous le feu des questions

Sous le feu des questions ARTICLE PRINCIPAL Assureurs Protection juridique Sous le feu des questions Comment les assureurs Protection juridique vont-ils désormais romouvoir leurs roduits? Seraient-ils artisans d une assurance Protection

Plus en détail

prix par consommateur identiques différents prix par identiques classique 3 unité différents 2 1

prix par consommateur identiques différents prix par identiques classique 3 unité différents 2 1 3- LE MONOOLE DISCRIMINANT Le monoole eut vendre ertaines unités de roduit à des rix différents. On arle de disrimination ar les rix. Selon une terminologie due à igou (The Eonomis of Welfare, 1920), on

Plus en détail

Manuel de l'utilisateur

Manuel de l'utilisateur 0 Manuel de l'utilisateur Mise en route... 4 Votre Rider 0... 4 Réinitialiser le Rider 0... 5 Accessoires... 5 Icônes d'état... 5 Connexion, synchro et chargement... 6 Allumer/éteindre le Rider 0... 6

Plus en détail

VOIP. Pr MOUGHIT Mohamed m.moughit@gmail.com. Cours VOIP Pr MOUGHIT Mohamed 1

VOIP. Pr MOUGHIT Mohamed m.moughit@gmail.com. Cours VOIP Pr MOUGHIT Mohamed 1 VOIP Pr MOUGHIT Mohamed m.moughit@gmail.com Cours VOIP Pr MOUGHIT Mohamed 1 Connexion fixe, rédictible Connexion établie avant la numérotation user Centre de commutation La Radio est le suort imrédictible

Plus en détail

statique J. Bertrand To cite this version: HAL Id: jpa-00237017 https://hal.archives-ouvertes.fr/jpa-00237017

statique J. Bertrand To cite this version: HAL Id: jpa-00237017 https://hal.archives-ouvertes.fr/jpa-00237017 Quelques théorèmes généraux relatifs à l électricité statique J. Bertrand To cite this version: J. Bertrand. Quelques théorèmes généraux relatifs à l électricité statique. J. Phys. Theor. Appl., 1874,

Plus en détail

Catalogue 3 Chaine sur Mesure

Catalogue 3 Chaine sur Mesure Catalogue 3 Chaine sur Mesure SUBAKI Les Chaines 2009 CAALGUE 3 Classification chaine sur mesure sériés de chaîne ye de chaîne subaki Caractéristiques RUNNER BS Performance suérieure Général Chaînes à

Plus en détail

TP : Outils de simulation. March 13, 2015

TP : Outils de simulation. March 13, 2015 TP : Outils de simulation March 13, 2015 Chater 1 Initialisation Scilab Calculatrice matricielle Exercice 1. Système Unix Créer sous Unix un réertoire de travail outil_simulation dans votre home réertoire.

Plus en détail

En vue de l'obtention du. Présentée et soutenue par Philippe NERISSON Le 5 février 2009

En vue de l'obtention du. Présentée et soutenue par Philippe NERISSON Le 5 février 2009 THÈSE En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délivré ar l Institut National Polytechnique de Toulouse Disciline ou sécialité : Dynamique des Fluides Présentée et soutenue ar Philie

Plus en détail

Bois. P.21 Bois-béton à Paris. Carrefour du Bois. Saturateurs. Usinage fenêtres. Bardages P.25 P.34 P.31 P.37. La revue de l activité Bois en France

Bois. P.21 Bois-béton à Paris. Carrefour du Bois. Saturateurs. Usinage fenêtres. Bardages P.25 P.34 P.31 P.37. La revue de l activité Bois en France CMP Bois n 19-12 avril - mai 2010 P.25 Carrefour du Bois P.34 cm La revue de l activité Bois en France Bois Saturateurs P.31 Usinage fenêtres P.37 Bardages Tout our l usinage du bois massif. Tout d un

Plus en détail

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne Sophie Morlaix To cite this version: Sophie Morlaix. L indice de SEN, outil de mesure de l équité

Plus en détail

.NET remoting. Plan. Principes de.net Remoting

.NET remoting. Plan. Principes de.net Remoting Plan.NET remoting Clémentine Nebut LIRMM / Université de Montellier 2 de.net Remoting côté serveur côté client.net Remoting en ratique Les canaux de communication L'activation L'invocation Les aramètres

Plus en détail

Chambre Régionale de Métiers et de l Artisanat. Région Auvergne. Région Auvergne

Chambre Régionale de Métiers et de l Artisanat. Région Auvergne. Région Auvergne Chambre Régionale de Métiers et de l Artisanat L Artisanat en Auvergne, l Energie du Déveloement Région Auvergne Région Auvergne Edito Edito Valoriser la formation des jeunes et des actifs : un enjeu

Plus en détail

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile W. Lermantoff To cite this version: W. Lermantoff. Sur le grossissement

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

ARBRE DE PERFORMANCE GOUVERNANCE INTEGREE ET FEDERATRICE DE LA PERFORMANCE (Version 10)

ARBRE DE PERFORMANCE GOUVERNANCE INTEGREE ET FEDERATRICE DE LA PERFORMANCE (Version 10) MANAGEMENT & ERFORMANCE ARBRE DE ERFORMANCE GOUVERNANCE INTEGREE ET FEDERATRICE DE LA ERFORMANCE (Version 10) Ancrer l Architecture d Entreprise dans un modèle métier stable de génération de valeur HILOSOHIE

Plus en détail

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Gwenole Fortin To cite this version: Gwenole Fortin. Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence. 2006.

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Guide d utilisation (Version canadienne) Téléphone sans fil DECT 6.0/ avec répondeur et afficheur/ afficheur de l appel en attente CL83101/CL83201/

Guide d utilisation (Version canadienne) Téléphone sans fil DECT 6.0/ avec répondeur et afficheur/ afficheur de l appel en attente CL83101/CL83201/ Guide d utilisation (Version canadienne) Téléhone sans fil DECT 6.0/ avec réondeur et afficheur/ afficheur de l ael en attente CL83101/CL83201/ CL83301/CL83351/ CL83401/CL83451 Félicitations our votre

Plus en détail

Vous êtes un prestataire touristique dans les Monts de Guéret? L Office de Tourisme du Grand Guéret peut vous accompagner!

Vous êtes un prestataire touristique dans les Monts de Guéret? L Office de Tourisme du Grand Guéret peut vous accompagner! Le guide 2015 e u q i t s i r u o t e r i du artena Vous êtes un restataire touristique dans les Monts de Guéret? L Office de Tourisme du Grand Guéret eut vous accomagner! Qui sommes nous? 2 Edito Nouveau

Plus en détail

Les marchés du crédit dans les PVD

Les marchés du crédit dans les PVD Les marchés du crédit dans les PVD 1. Introduction Partout, les marchés du crédit sont au centre de la caacité des économies à croître, uisqu ils financent l investissement. Le Taleau 1 montre ar exemle

Plus en détail

Commande prédictive des systèmes non linéaires dynamiques

Commande prédictive des systèmes non linéaires dynamiques Rébliqe Algérienne Démocratiqe et olaire Ministère de l Enseignement Sérier et de la Recherche Scientifiqe Université Molod Mammeri de Tizi-Ozo Faclté de Génie Electriqe et Informatiqe Déartement Atomatiqe

Plus en détail

Dessin assisté par ordinateur en lycée professionnel

Dessin assisté par ordinateur en lycée professionnel Dessin assisté par ordinateur en lycée professionnel Bernard Dauga To cite this version: Bernard Dauga. Dessin assisté par ordinateur en lycée professionnel. Bulletin de l EPI (Enseignement Public et Informatique),

Plus en détail

«INVESTIR SUR LE MARCHE INERNATIONAL DES ACTIONS A-T-IL PLUS D EFFET SUR LA PERSISTANCE DE LA PERFORMANCE DES FONDS? ILLUSTRATION BRITANNIQUE»

«INVESTIR SUR LE MARCHE INERNATIONAL DES ACTIONS A-T-IL PLUS D EFFET SUR LA PERSISTANCE DE LA PERFORMANCE DES FONDS? ILLUSTRATION BRITANNIQUE» Manuscrit auteur, ublié dans "«COMPTABILITE ET ENVIRONNEMENT», France (007)" «INVESTIR SUR LE MARCHE INERNATIONAL DES ACTIONS A-T-IL PLUS D EFFET SUR LA PERSISTANCE DE LA PERFORMANCE DES FONDS? ILLUSTRATION

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Documents et lieux de mémoire de la persécution et de la déportation des Juifs à Nîmes. Pistes d'intervention auprès des classes de 3e et de 1ère.

Documents et lieux de mémoire de la persécution et de la déportation des Juifs à Nîmes. Pistes d'intervention auprès des classes de 3e et de 1ère. Documents et lieux de mémoire de la ersécution et de la déortation des Juifs à Nîmes. Pistes d'intervention aurès des classes de 3e et de 1ère. L'enseignement du génocide des Juifs est inscrite à trois

Plus en détail

Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque

Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque Grégory Wegmann, Stephen Nozile To cite this version: Grégory

Plus en détail

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678 Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées

Plus en détail

CATALOGUE 2. Chaine avec attachements

CATALOGUE 2. Chaine avec attachements CAALGUE 2 Chaine avec attachements SUBAKI LES CAIES 2010 CAALGUE 2 CAIE AVEC AACEMES Anti-corrosion Classification Sériés de ye de SUBAKI Caractéristiques RUER BS Performance suérieure Général Chaînes

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Développements algorithmiques au LIAMA et àamap en vue de l'analyse d'une scène forestière

Développements algorithmiques au LIAMA et àamap en vue de l'analyse d'une scène forestière Développements algorithmiques au LIAMA et àamap en vue de l'analyse d'une scène forestière Principaux contributeurs: Zhang Xiaopeng (CASIA-NLPR-LIAMA Coordinateur Groupe Image) Li HongJun (CASIA-NLPR-LIAMA

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Optimisation de la compression fractale D images basée sur les réseaux de neurones Optimisation de la compression fractale D images basée sur les réseaux de neurones D r BOUKELIF Aoued Communication Networks,Architectures and Mutimedia laboratory University of S.B.A aoued@hotmail.com

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Calculer les coûts ou bénéfices de pratiques sylvicoles favorables à la biodiversité : comment procéder?

Calculer les coûts ou bénéfices de pratiques sylvicoles favorables à la biodiversité : comment procéder? Calculer les coûts ou bénéfices de pratiques sylvicoles favorables à la biodiversité : comment procéder? H. Chevalier, M. Gosselin, Sebastian Costa, Y. Paillet, M. Bruciamacchie To cite this version: H.

Plus en détail

Peut-on perdre sa dignité?

Peut-on perdre sa dignité? Peut-on perdre sa dignité? Eric Delassus To cite this version: Eric Delassus. Peut-on perdre sa dignité?. 2013. HAL Id: hal-00796705 https://hal.archives-ouvertes.fr/hal-00796705 Submitted

Plus en détail

Laboratoire d Automatique et Productique Université de Batna, Algérie

Laboratoire d Automatique et Productique Université de Batna, Algérie Anale. Seria Informatică. Vol. IX fasc. 2 Annals. Computer Science Series. 9 th Tome st Fasc. 2 La sélection de paramètres d un système industriel par les colonies de fourmis Ouahab Kadri, L. Hayet Mouss,

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Compte-rendu de Hamma B., La préposition en français

Compte-rendu de Hamma B., La préposition en français Compte-rendu de Hamma B., La préposition en français Badreddine Hamma To cite this version: Badreddine Hamma. Compte-rendu de Hamma B., La préposition en français. Revue française de linguistique appliquée,

Plus en détail

Conditions Générales PACK Conseil Informatique Média. «Responsabilité civile professionnelle des prestataires de services»

Conditions Générales PACK Conseil Informatique Média. «Responsabilité civile professionnelle des prestataires de services» Conditions Générales ACK Conseil Informatique Média «Responsabilité civile professionnelle des prestataires de services» Référencées «CG ACK CIM 1009» RÉAMBULE Le présent contrat est établi sur la base

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Vers une Optimisation de l Algorithme AntTreeStoch

Vers une Optimisation de l Algorithme AntTreeStoch Revue des Sciences et de la Technologie - RST- Volume 3 N 1 / janvier 2012 Vers une Optimisation de l Algorithme AntTreeStoch O. KADRI, H. MOUSS, A. ABDELHADI, R. MAHDAOUI Laboratoire d Automatique et

Plus en détail

Retrouvez-nous sur esg.fr. Diplôme Bac+5 visé par l État / Grade Master Membre de la Conférence des Grandes Écoles

Retrouvez-nous sur esg.fr. Diplôme Bac+5 visé par l État / Grade Master Membre de la Conférence des Grandes Écoles Retrouvez-nous sur esg.fr Savoir être our agir avec sens Dilôme Bac+5 visé ar l État / Grade Master Membre de la Conférence des Grandes Écoles SOMMAIRE Avec 5 500 élèves, 27 500 dilômés et 5 camus au cœur

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Famille continue de courbes terminales du spiral réglant pouvant être construites par points et par tangentes

Famille continue de courbes terminales du spiral réglant pouvant être construites par points et par tangentes Famille continue de courbes terminales du spiral réglant pouvant être construites par points et par tangentes M. Aubert To cite this version: M. Aubert. Famille continue de courbes terminales du spiral

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition

Plus en détail

Les Champs Magnétiques

Les Champs Magnétiques Les Champs Magnétiques Guillaume Laurent To cite this version: Guillaume Laurent. Les Champs Magnétiques. École thématique. Assistants de prévention, Paris, France. 2014, pp.31. HAL Id:

Plus en détail

c. Calcul pour une évolution d une proportion entre deux années non consécutives

c. Calcul pour une évolution d une proportion entre deux années non consécutives Calcul des itervalles de cofiace our les EPCV 996-004 - Cas d u ourcetage ou d ue évolutio e oit das la oulatio totale des méages - Cas d u ourcetage ou d ue évolutio das ue sous oulatio das les méages

Plus en détail

Forge. Présentation ( )

Forge. Présentation ( ) ( RetourListeFichesParThèmes ) Forge Présentation Définition Objectifs Services fournis, fonctions disponibles Services en ligne d hébergement de projets La solution des logiciels intégrés pour le déploiement

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Analyse dialectométrique des parlers berbères de Kabylie

Analyse dialectométrique des parlers berbères de Kabylie Saïd GUERRAB Analyse dialectométrique des parlers berbères de Kabylie Résumé de la thèse (pour affichage) Il est difficile de parler du berbère sans parler de la variation. Il y a d abord une variation

Plus en détail

Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique.

Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique. Sensibilisation à la sécurité informatique Jean-Luc Archimbaud To cite this version: Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique. lieux en France, 1997, pp.17. École

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS Nazih Selmoune (*), Zaia Alimazighi (*) Selmoune@lsi-usthb.dz, Alimazighi@wissal.dz (*) Laboratoire des systèmes

Plus en détail

Les intermédiaires privés dans les finances royales espagnoles sous Philippe V et Ferdinand VI

Les intermédiaires privés dans les finances royales espagnoles sous Philippe V et Ferdinand VI Les intermédiaires privés dans les finances royales espagnoles sous Philippe V et Ferdinand VI Jean-Pierre Dedieu To cite this version: Jean-Pierre Dedieu. Les intermédiaires privés dans les finances royales

Plus en détail

C f tracée ci- contre est la représentation graphique d une

C f tracée ci- contre est la représentation graphique d une TLES1 DEVOIR A LA MAISON N 7 La courbe C f tracée ci- contre est la représentation graphique d une fonction f définie et dérivable sur R. On note f ' la fonction dérivée de f. La tangente T à la courbe

Plus en détail

Sur la transformation de l électricité statique en électricité dynamique

Sur la transformation de l électricité statique en électricité dynamique Sur la transformation de l électricité statique en électricité dynamique E. Bichat To cite this version: E. Bichat. Sur la transformation de l électricité statique en électricité dynamique. J. Phys. Theor.

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

LA CERTIFICATION DES ARMATURES

LA CERTIFICATION DES ARMATURES LA CERTIFICATION DES ARMATURES NF - Aciers our béton armé NF - Armatures AFCAB - Disositifs de raboutage ou d ancrage des armatures du béton AFCAB - Pose des armatures du béton LE CYCLE DES ARMATURES :

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

Mécanique du point : forces Newtoniennes (PCSI)

Mécanique du point : forces Newtoniennes (PCSI) écanique du oint : foces Newtoniennes (PCSI Question de cous On admet que, losqu'il est soumis à une foce Newtonienne F K u, la tajectoie d'un cos est lane et décite a mc K +e cosθ où C θ est une constante

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire

Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire Stéphanie Demonchaux To cite this version: Stéphanie Demonchaux. Étude des formes de pratiques de la gymnastique

Plus en détail

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1 Trajectoires individuelles d'exposition aux psychotropes au cours de la grossesse et partitionnement en fonction du profil d'exposition : utilisation des K-means pour données longitudinales Caroline Hurault-Delarue

Plus en détail

Budget Constrained Resource Allocation for Non-Deterministic Workflows on a IaaS Cloud

Budget Constrained Resource Allocation for Non-Deterministic Workflows on a IaaS Cloud Budget Constrained Resource Allocation for Non-Deterministic Workflows on a IaaS Cloud Eddy Caron, Frédéric Desprez, Adrian Muresan, Frédéric Suter To cite this version: Eddy Caron, Frédéric Desprez, Adrian

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

CR 15, CRI 15, CRN 15, CRE 15, CRIE 15, CRNE 15

CR 15, CRI 15, CRN 15, CRE 15, CRIE 15, CRNE 15 Lenntech info@lenntech.com www.lenntech.com GRUNDFOS LIVRET TECNIQUE CR 15, CRI 15, CRN 15, CRE 15, CRIE 15, CRNE 15 Pomes centrifuges multicellulaires verticales 5 z 1 CR, CRI, CRN, CRE, CRIE, CRNE Caractéristiques

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires Chapitre 2 : Systèmes radio mobiles et concepts cellulaires Systèmes cellulaires Réseaux cellulaires analogiques de 1ère génération : AMPS (USA), NMT(Scandinavie), TACS (RU)... Réseaux numériques de 2ème

Plus en détail

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École

Plus en détail

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES Patrick Rousset 1,2 et Christiane Guinot 3 1 CEREQ, Service

Plus en détail

CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009

CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009 Société en commandite Gaz Métro CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009 Taux de la contribution au Fonds vert au 1 er janvier 2009 Description Volume Coûts Taux 10³m³ 000 $ /m³ (1) (2)

Plus en détail