Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS Moustapha DOUMIATI. pour obtenir le diplôme Master de recherche en informatique

Dimension: px
Commencer à balayer dès la page:

Download "Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599. Moustapha DOUMIATI. pour obtenir le diplôme Master de recherche en informatique"

Transcription

1 Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599 présenté par Moustapha DOUMIATI pour obtenir le diplôme Master de recherche en informatique Fouille de données pour l analyse des performances d unités opérationnelles d un groupe industriel dans le domaine de l environnement Encadré par : Pr. Thierry DENOEUX Astride AREGUI

2 2

3 Remerciements Je remercie vivement en premier lieu mon responsable du stage, le professeur Thierry Denoeux, pour toute l aide et les nombreux conseils qu il m a prodigués tout au long de ce travail. Je tiens à remercier la doctorante Astride Aregui, pour m avoir soutenu, encouragé et conseillé tout au long de ce travail. Je souhaite adresser mes sincères remerciement à Messieurs Billard, Belpois, Jacq et Madame Blanc, les membres de l entreprise qui n ont jamais hésité à me donner toute information technique nécessaire concernant les jeux de données. Je voudrais montrer toute ma reconnaissance et ma gratitude à tous les membres de ma famille au Liban, qui ont toujours été là pour m encourager et me remotiver lorsque le coeur n y était plus. Je remercie mes amis du bureau Krystina, Xu, et Dao avec qui j ai passé des beaux moments pleins de travail. Je remercie plus spécifiquement mon ami Dao Tien-tuan qui m a aidé à apprendre Latex. Bien sûr, je tiens à montrer toute ma gratitude envers les personnes qui ont pu m aider, m encourager et me soutenir pendant cette année de travail, d autant plus que c était ma première année en France. J en oublie certainement mais je leur dit encore merci pour tout.

4 Liste des abréviations ACP Analyse en Composantes principales BU Business Unit CAH Classification Ascendante Hiérarchique CM Centres Mobiles E Environnemental Reporting ECD Extraction des Connaissances à partir des Données KDD Knowledge Discovery in Data Base NA Not a number NS Not on Service P Performance Ratio Report 4

5 Notations Nous donnons ici la liste des notations utilisées dans notre rapport. k Nombre des classes ou des partitions x i Individu numéro i µ i Poids correspondant à l individu i g i Barycentre de la classe i g Barycentre du nuage des points d(i,j) Distance entre l objet i et l objet j C i Classe ou partition numéro i x j i Valeur prise par l individu i pour la variable j x t Transposé du vecteur x R p Espace des variables I Inertie D Critère d agrégation (Distance entre classes) C i Cardinal des éléments de la classe i Ω Ensemble des individus w ij Poids de connexion dirigée du neurone j vers le neurone i f Fonction de transfert du neurone λ Valeur propre associée à une matrice W i Vecteur poids du neurone i V i Voisinage du neurone α(t) Taux d apprentissage du neurone u i,j Degré d appartenance de l objet i à la classe j γ Coefficient de réglage flou 5

6 Résumé Chaque année l entreprise SUEZ environnement envoie à ses filiales des questionnaires afin d évaluer leurs performances. Aujourd hui, SUEZ environnement nous fournit deux bases de données correspondant aux années 2001, 2002, 2003 et 2004 et souhaite les exploiter pour en extraire de l information. La première base de données met en relation les filiales et leurs réponses aux questions (indicateurs) et la deuxième met en relation les filiales et des ratios calculés à partir des indicateurs. Le cadre de notre projet fait partie d un processus appelé Extraction des Connaissances à partir des Données (ECD). Ce processus comporte trois phases principales : Prétraitement de données ; Fouille des données ; Intérprétation des experts. Au cours de notre projet, nous avons essayé de répondre aux questions de l entreprise et de mettre en évidence : Une typologie des indicateurs. Une typologie des filiales. Notre rapport est structuré en trois parties : 1. Une partie bibliographique dans laquelle nous avons expliqué les méthodes et les algorithmes utilisés dans notre analyse ; 2. Une partie pratique où nous ne nous sommes intéressés qu à la base de données filiales/indicateurs afin de ne pas compliquer notre rapport. Dans une première partie, nous décrivons les données et leur prétraitement, puis nous avons mis en évidence des typologies des indicateurs et des filiales ; 3. Enfin, une partie annexe. Notez que nous avons tenté d interpréter les résultats obtenus en termes de métier, grâce à l aide des membres de l entreprise. 6

7 Table des matières 1 Introduction 11 I Fondements théoriques 15 2 Analyse en Composantes principales (ACP) Introduction Représentations géométriques des données Analyse du nuage des individus Ajustement du nuage des individus Choix du nombre d axes à conserver Composantes Principales Contribution relative d un axe à un individu Analyse dans l espace des individus Individus supplémentaires Conclusion Classification automatique : Notions de bases Introduction Introduction à la classification automatique Classification par méthode de partitionnement Algorithme des centres mobiles net(k-moyennes) La classification floue Algorithme des k-medoïdes Classification ascendante hiérarchique (CAH) Conclusion

8 4 Cartographie associative Introduction Le neurone formel Schéma fonctionnel du neurone formel Apprentissage du réseau neuronal formel Apprentissage compétitif Cartographie associative Cartes organisatrices de Kohonen Application de l algorithme de Kohonen Comparaison avec l ACP Interprétation de la classification par les cartes de Kohonen Conclusion II Base de données filiales/indicateurs 37 5 Description, représentation et prétraitement des données de la base filiales/indicateurs Introduction Description des données Représentation mathématique des données Correction et codage des données Choix du logiciel Caractéristiques des individus Valeurs manquantes Sélection des individus et des variables Nouvelle représentation des données Transformation et normalisation des données Algorithme de centres mobiles pour l imputation des valeurs manquantes Evolution des filiales par année Valeurs atypiques Conclusion Analyse des données par ACP Introduction Méthodologie de l analyse effectuée Analyse des données du secteur A (Water Production) Analyse des données du secteur B (Water Distribution) Conclusion

9 7 Classification automatique des indicateurs Introduction Méthodologie de classification des indicateurs Création de table de proximité Classification à partir des facteurs Méthode de ré-étiquetage des classes pour la formation des formes fortes Stratégie de classification des indicateurs par secteur Signe de relation entre les indicateurs Classification des indicateurs du secteur A Classification des indicateurs du secteur C Conclusion Segmentation des filiales par secteur Introduction Création du tableau des données Segmentation des filiales du secteur A Conclusion Interprétation des résultats en termes de métiers Introduction Interprétation de la typologie des indicateurs du secteur A Interprétation de la typologie des indicateurs du secteur C Interprétation de la typologie des indicateurs du secteur D Interprétation de la typologie des indicateurs du secteur E Interprétation de la typologie des filiales Conclusion Conclusion générale et perspective 90 III Annexe 91 A Liste des Contract Reference 92 B Présentation des secteurs 94 C Analyse des données du secteur C 102 D Analyse des données du secteur D 109 E Analyse des données du secteur E 116 9

10 F Classification des indicateurs du secteur B 123 G Classification des indicateurs du secteur D 129 H Classification des indicateurs du secteur E 136 I 145 I.1 Segmentation des filiales du secteur B J 147 J.1 Segmentation des filiales du secteur C K 149 K.1 Segmentation des filiales du secteur D L 151 L.1 Segmentation des filiales du secteur E M Description, représentation et Prétraitement des données de la base filiales/ratios 153 M.1 Introduction M.2 Description des données M.3 Caractéristiques des filiales M.4 Valeurs manquantes M.5 Valeurs atypiques

11 Chapitre 1 Introduction Le cadre de notre étude est le domaine de l environnement de l eau. Notre objectif consiste à comprendre les relations existantes entre différents indicateurs concernant plusieurs secteurs de ce domaine. Ainsi, la construction d une base de connaissances exploitable par les différents indicateurs demeure une nécessité évidente pour comprendre cette liaison. L entreprise SUEZ environnement dispose aujourd hui de deux bases de données sur ces indicateurs et souhaite les exploiter afin d en extraire de la connaissance. Nous utiliserons dans ce rapport des termes de métiers, couramment utilisés en anglais même dans les filiales françaises, sans les traduire. Les travaux de ce projet font partie d un processus, issu de la convergence de plusieurs disciplines (statistiques, intelligence artificielle, analyse de données, reconnaissance de formes,...), connu surtout sous le nom de fouille de données (ou Data Mining). La fouille de données constitue le coeur du processus d Extraction des Connaissances à partir des Données (ECD) ou en anglais Knowledge Discovery in Data base (KDD). Le processus d ECD consiste en l analyse de bases de données (souvent très grandes) afin de découvrir des relations insoupçonnées et de résumer les données d une manière à la fois compréhensible et utile. C est le «processus d identification de modèles pertinents, nouveaux, potentiellement utiles, et compréhensibles extraits d un volume considérable de données». Ainsi l ECD est un processus interactif (l utilisateur est dans la boucle du processus) et itératif. Ce processus intervient dans plusieurs applications : détection des fraudes, gestions des stocks ; 11

12 la bioinformatique ; le benchmarketing (qui sera le domaine traité dans notre projet)[1, 2]. Le processus d extraction de connaissances illustré dans la figure 1.1 consiste en une séquence itérative composée des étapes suivantes : Sélection : Permet de sélectionner les données pertinentes pour la tâche de fouille de donnée à accomplir. En fait, l entreprise SUEZ envoie à ses filiales des enquêtes ou des questionnaires de type P «Performance Ratio Report», ou de type E «Environmental Reporting», et parfois les deux types questionnaires. Dans notre cas, nous n avons conservé que les individus (filiales) qui reçoivent des questionnaires de type P afin d éviter toute redondance dans notre base de données et de diminuer le nombre de valeurs manquantes, les questionnaires de type P sont plus généraux ; Prétraitement : Cette phase traite la présence de bruits, d erreurs et de données manquantes. Nous parlons alors de nettoyage de données ; Transformation : Les données sont transformées ou consolidées dans un format approprié à la tâche de fouille de données choisie. Nous parlons surtout de normalisation et de standardisation des données ; Data Mining : Dans cette phase, des méthodes mathématiques sont utilisées afin d extraire des modèles et des règles ; Interprétation, évaluation : Enfin, cette étape identifie les modèles intéressants représentant les connaissances, en se basant non seulement sur des mesures d intérêt mais aussi sur l avis de l expert. La Fouille de Données est donc la plus importante composante de l ECD. Alors qu habituellement les statisticiens travaillent sur des bases de données de taille raisonnable, en échantillonnant parfois la population, les utilisateurs de la fouille de données désirent quant à eux garder un maximum d information et travaillent donc sur l ensemble des données disponibles. Cette volonté engendre un certain nombre de difficultés dans l analyse de tableaux de données[1, 2]. Les principales tâches de la fouille de données sont : 1. Classification : Elle permet de prédire si une instance de donnée (individu) est membre d un groupe ou d une classe prédéfinie (la classe est l ensemble de données qui sont similaires au sens d un certain critère donné) ; 2. Segmentation (en anglais Clustering) : C est un partitionnement logique de la base de données en clusters (groupes d instances ayant les mêmes caractéristiques) en se basant sur un apprentissage non supervisé (classes inconnues). Nous parlons alors de classification automa- 12

13 Fig. 1.1 Processus d extraction de connaissance. tique ; 3. Recherche d association : Corrélation (ou relation) entre les attributs (les variables) ; 4. Recherche de séquence : C est la recherche de liaisons entre événements sur une période de temps ; 5. Détection des données atypiques (outliers) : Détection des instances ayant les caractéristiques les plus différentes des autres. Dans notre projet, nous nous intéressons surtout aux tâches 2, 3 et 5 puisque le cadre de notre travail est de trouver des liaisons entre les indicateurs, alors les classer sans aucune connaissance a priori. Afin d éviter toute confusion, il est indispensable de différencier les trois termes suivants : Donnée : valeur d une variable pour un objet. Information : résultat d analyse sur les données. Connaissance : information utile pour l entreprise. L analyse de ces données est précieuse pour le progrès du fonctionnement de l entreprise. Parmi les outils statistiques utilisés pour l analyse de don- 13

14 nées, nous pouvons citer les méthodes factorielles comme l ACP (Analyse en Composantes Principales, cf. chapitre 2), les méthodes de classification automatique et de segmentation des données (cf. chapitre 3). Nous avons souligné divers problèmes que l on est amené à résoudre avant d utiliser de telles méthodes, il s agit du prétraitement des données : détections des erreurs de saisies et des données atypiques, traitement des données manquantes, normalisation et standardisation des données (cf. chapitre 5). Les travaux de ce rapport seront présentés en dix chapitres, dont le premier est une introduction générale et les autres sont structurés en deux parties, et enfin une partie annexe : Partie Théorique : Dans le deuxième chapitre, nous présentons une petite introduction à l ACP montrant son fonctionnement et son but ; Dans le troisième chapitre, nous illustrons quelques méthodes utilisées dans la classification automatique des données ; Le quatrième chapitre présente l utilisation de la cartographie associative dans la classification automatique : l algorithme compétitif, et l algorithme de Kohonen ; Partie Pratique : Le cinquième chapitre présente le prétraitement que nous avons effectué sur les données de la base filiales/indicateurs ; Le sixième chapitre présente les relations entre les indicateurs et les individus en se basant sur l ACP ; Le septième chapitre présente les relations entre les indicateurs en se basant sur des méthodes de classification automatique ; Le huitième chapitre présente une typologie de segmentations des filiales ; Le neuvième chapitre présente l interprétation des groupes indicateurs et filiales trouvés en terme de métier ; Le dixième chapitre est une conclusion générale de rapport. 14

15 Première partie Fondements théoriques 15

16 Chapitre 2 Analyse en Composantes principales (ACP) 2.1 Introduction Lorsqu on étudie simultanément un nombre important de variables quantitatives, comment en faire un graphique global? La difficulté vient de ce que les individus étudiés ne sont plus représentés dans un plan, espace de dimension 2, mais dans un espace de dimension plus importante. L objectif de l Analyse en Composantes Principales (ACP) est de revenir à un espace de dimension réduite (par exemple 2 ou 3) en perdant le moins d information possible. Il s agit donc d obtenir un résumé le plus pertinent possible des données initiales. L ACP permet une étude globale des données et des variables en utilisant des représentations. L interprétation repose principalement sur l examen des projections des points-individus et des points-variables sur les plans formés par des couples d axes factoriels. Dans ce chapitre, nous allons introduire quelques idées de base concernant l ACP. Pour plus d information concernant l ACP, nous utilisons comme références [4, 5], d où nous avons tiré les idées fondamentales. 2.2 Représentations géométriques des données L ACP s applique à des données quantitatives représentées sous la forme d un tableau de données X à n lignes et p colonnes. Chaque ligne correspond à un individu (ou observation) i = 1,..., n, et chaque colonne à une variable quantitative (ou descripteur) j = 1,..., p qui prend des valeurs dans R. Le 16

17 tableau individus variables X est alors une matrice réelle de la forme : x x j 1... x p 1 x 1 i... x j i... x p i x 1 n... x j n... x p n Si Ω est un ensemble fini de n points x de R p auxquels sont associés les poids µ x, ensemble de nombres réels positifs dont la somme est µ, l ensemble N(Ω) = {(x, µ x ), /x Ω} sera appelé nuage de points dans R p. Le centre de gravité du nuage est g = 1 µ x Ω µ x x, et son inertie est I = x Ω µ x d 2 (g, x). L ACP trouve les directions de dispersion maximale du nuage des individus et du nuage des variables. Cela permet de trouver, pour le nuage des individus et pour le nuage des variables, des représentations dans des sous-espaces de plus faible dimension que l espace initial R p et respectivement R n, tout en conservant un maximum de dispersion (ou d inertie) du nuage. Selon que le tableau X correspond aux valeurs directement recueillies et non centrées pour les descripteurs, aux valeurs centrées (la moyenne sur la population est nulle pour chaque variable) ou aux valeurs centrées et réduites (l écart-type sur la population est unitaire pour chaque variable), nous obtenons l ACP générale, l ACP centrée ou l ACP normée. La méthode d analyse du tableau X reste la même, mais la signification des résultats est différente. Dans la suite nous nous intéressons à l ACP normée où la matrice X s écrit :. avec : X = (R g t.i)d 1 r D r = n σ j étant l écart type de la variable x j. σ σ σ p, 2.3 Analyse du nuage des individus L analyse du nuage des individus consiste à trouver des sous-espaces linéaires tels que l inertie (la dispersion) des projections des points individus sur ces sous-espaces soit maximale, autrement dit que l inertie expliquée soit maximale. Nous recherchons successivement les sous-espaces de dimension 1,2 17

18 et q < p. Pour un nombre de dimensions données, le sous-espace qui maximise la dispersion est également celui qui ajuste le mieux le nuage, c est-à-dire qui minimise l erreur faite lors de l approximation du nuage initial par le nuage des projections. En général, il n est pas justifié d accorder lors de l analyse plus de poids à certains individus qu à d autres. Par la suite, chaque individu sera considéré avec un poids unitaire et nous utilisons comme métrique la distance euclidienne. 2.4 Ajustement du nuage des individus D après le théorème de décomposition d une matrice, la recherche des sous-espaces est obtenue en diagonalisant la matrice X t X, puis en ordonnant les vecteurs propres dans l ordre décroissant des valeurs propres et enfin en normalisant les vecteurs propres. Les vecteurs propres u α sont les axes factoriels, et les inerties expliquées ou portées par ces axes sont égales aux valeurs propres λ α correspondantes. Notons que ces vecteurs propres forment une base orthonormée. 2.5 Choix du nombre d axes à conserver Il est important de savoir à partir de quel ordre les différences entre les pourcentages d inertie expliquée par les axes factoriels successifs ne sont plus significatifs. Sachant que la part d inertie expliquée par un axe est donnée par la valeur propre correspondante, une solution simple est d examiner la courbe de décroissance des valeurs propres (ou bien les pourcentages d inertie expliquée) pour déterminer les points où la pente de la courbe diminue (en valeur absolue) de façon brutale ; seuls les axes qui précèdent ce changement de pente seront retenus. Par exemple sur la figure 2.1, seulement les 4 premiers axes sont conservés. Le pourcentage d inertie expliquée par un sous-espace vectoriel E α = λ (u 1,..., u α )est égale à λ α 100. Ce pourcentage exprime la qualité Inertie totale de représentation si on tient compte de ce sous espace vectoriel. 18

19 Fig. 2.1 Choix du nombre des axes à conserver. 2.6 Composantes Principales Pour pouvoir obtenir les différentes représentations du nuage dans des espaces de dimension réduite, il suffit de déterminer les coordonnées de la projection de tous les points du nuage sur chaque axe factoriel. Soit z α = (z 1 α,..., z n α) t = X u α ces n coordonnés pour l axe α. Les composantes principales s expriment matriciellement par la relation Z = X U où U est la matrice des vecteurs propres normés. 2.7 Contribution relative d un axe à un individu C est le rapport entre l inertie restante après projection sur l axe u α et l inertie initiale qu apporte l individu i : Cor(i, α) = (zi α) 2 x i Analyse dans l espace des individus Dans le tableau X la variable x j est représentée par un vecteur de R n. L analyse du nuage des variables consiste à trouver des sous-espaces linéaires de R n tels que la dispersion des projections des p points variables sur ces espaces soit maximale. 19

20 La recherche des sous-espaces est obtenue en diagonalisant la matrice X X t, puis en ordonnant les vecteurs propres dans l ordre décroissant des valeurs propres et enfin en normalisant les vecteurs propres. Les vecteurs propres v α sont alors les axes factoriels. Comme nous parlons de l ACP normée, la coordonnée de la projection du point représentant la variable x j sur l axe factoriel d ordre α qui est c j α = x t jv α, est égale au coefficient de corrélation entre la variable initiale x j et la variable principale définie par les projections des points-individus sur l axe factoriel d ordre α. 2.9 Individus supplémentaires Il faut leur appliquer la même transformation géométrique que celle qui a été appliquée à tous les individus initiaux. Rappelons que nous avons centré en colonne le tableau initial et divisé chaque colonne par son écart-type multiplié par le racine carré du nombre d individus actifs non supplémentaires. Si y s = (y 1 s,..., y p s) est le vecteur ou l observation initiale supplémentaire, on le transforme donc en : x s = ( y1 s g 1 nσ1,..., yp s g p nσp ), où g est le vecteur barycentre des éléments actifs et σ j l écart-type d une colonne calculé sur les éléments actifs. On appelle éléments actifs, les n individus et les p variables de l analyse avant l introduction des élémnts supplémentaires Conclusion Ce chapitre a présenté les notions de base de l ACP. Plus tard, nous utilisons cette technique afin de pouvoir analyser et interpréter les données. 20

21 Chapitre 3 Classification automatique : Notions de bases 3.1 Introduction Comme nous l avons indiqué dans l introduction, le but initial est de notre projet est de mettre en évidence les relations entre indicateurs ou variables. Il est à noter que la classification de variables est un sujet important, peu abordé dans les ouvrages classiques. En effet, dans le monde de la fouille des données, les variables mesurées sont souvent très nombreuses, et il est indispensable de les réduire ou de mieux les structurer en recherchant des typologies. Les méthodes de classification de variables permettent d atteindre ces objectifs. Dans ce chapitre, nous définissons la classification automatique, et nous présentons les algorithmes les plus utilisés en classification automatique. Dans un premier temps, nous présentons des méthodes de classifications exclusives ou nettes (un objet appartient à un groupe et à un seul) et puis nous abordons la classification non exclusive ou floue (un objet peut appartenir aux plusieurs groupes avec des degrés d appartenance). 3.2 Introduction à la classification automatique La classification automatique est une des méthodes statistiques largement utilisées dans la Fouille de Données. Elle s effectue dans un cadre d appren- 21

22 tissage non supervisé, qui a pour but d obtenir des informations sans aucune connaissance préalable, contrairement à l apprentissage supervisé. Elle peut être combinée avec d autres méthodes de différentes façons, en preou en post-traitement. En effet, elle permet de résumer l information avant transmission à une autre méthode et ainsi permettre de mieux analyser les données. Elle peut aussi, suite à un prétraitement des données, être utilisée pour mieux comprendre la quintessence de l information contenue dans les fichiers. La classification ou le regroupement en classes homogènes consistent à regrouper des points d un espace quelconque en classes. Chaque classe peut ensuite être associée à un représentant (sa moyenne, son barycentre, un prototype) ce qui conduit à une description simplifiée des données initiales. Il s agit d une démarche très courante qui permet de mieux comprendre l ensemble analysé. Ces applications sont nombreuses, surtout en statistique. En tant que branche de la statistique, la classification automatique a été énormément étudiée depuis de nombreuses années, en se basant principalement sur des distances. Parmi les algorithmes ainsi développés, on retrouve les k-moyennes, k-medoïdes,...on peut distinguer deux grandes familles de méthodes de classification : les méthodes de partitionnement simple et les méthodes hiérarchiques. Les premières cherchent une partition des objets, ou bien des variables, en un nombre de classes donné, comme l algorithme de centres mobiles (kmoyennes). Deux critères doivent être satisfaits : Chaque groupe doit contenir au moins un objet, les classes vides ne sont pas tolérées. Chaque objet doit appartenir à un seul groupe. Les autres méthodes de classification, dites de classification hiérarchique, consistent à créer une décomposition hiérarchique d un tableau de données. On peut envisager deux stratégies : ascendante ou descendante. L approche ascendante démarre avec chaque objet formant une classe distincte. On fusionne à chaque étape les deux classes les plus proches afin de ne plus obtenir qu une seule classe, à moins qu une condition de terminaison ne soit vérifiée. L approche descendante démarre avec tous les objets dans une seule et même classe. A chaque itération, une classe est décomposée en classes plus petites, jusqu à n avoir plus qu un seul objet dans chaque classe, ou éventuellement qu une condition d arrêt soit vérifiée. Ici aussi, il est nécessaire d introduire une notion de similarité ou de dissimilarité entre les objets et les classes [1]. 22

23 3.3 Classification par méthode de partitionnement Ce type de méthodes repose généralement sur des algorithmes simples, et permet de traiter rapidement des ensembles d effectif assez élevé en optimisant localement un critère, généralement l inertie intra-classe. Parmi ces célèbres algorithmes on retrouve l algorithme des Centres Mobiles (CM) dans ses deux versions nette et floue, et l algorithme des k-medoides Algorithme des centres mobiles net(k-moyennes) L algorithme des CM est une méthode assez répandue, dont l avantage est d être simple et efficace, mais qui conduit souvent à un optimum local. L algorithme des centres mobiles peut se définir comme suit : Indiquer le nombre de classes a priori. Choisir k individus qui forment les centres initiaux des k classes. Tant qu il n y a pas convergence vers la stabilisation des centres : 1. Construction de la partition suivante en affectant chaque individu à la classe du centre de laquelle il est le plus proche, ceci au sens de la distance euclidienne. 2. Les centres de gravité des nouvelles partitions deviennent les nouveaux centres. L algorithme peut être représenté par la figure 3.1. Après quelques itérations (généralement moins de 20), les centres ne bougent plus et la poursuite de cet algorithme ne changera plus les résultats : l algorithme a convergé. Notons enfin que cet algorithme existe sous deux versions : celle de MacQueen et celle de Forgy. L algorithme de MacQueen recalcule les nouveaux centres dès qu un objet a été transféré d une classe à une autre. A l inverse, dans l algorithme de Forgy, le calcul des centres de gravité intervient une fois que tous les objets ont été réaffectées à la classe la plus proche. Souvent nous nous intéressons à l algorithme de Forgy. Critère à optimiser On considère qu une partition est bonne si elle produit des groupes de variance interne faible. L algorithme consiste à minimiser le critère suivant : I intra = k m=1 i C m d 2 (x i, g m ), k est le nombre de classes et g m est le centre de gravité de la classe m. 23

24 Fig. 3.1 Illustration de l algorithme des centres mobiles. Le critère I intra, qui est simplement la somme des inerties particulières des classes, est appelé inertie intra-classes. La méthode des centres mobiles consiste à chercher la partition qui minimise I inter pour avoir en moyenne des classes bien homogènes, ce qui revient à chercher le maximum de l inertie interclasse : I inter = k m=1 p m d 2 (g m, g), où g est le centre de gravité du nuage de points initiaux et p m est le poids de la classe. Ce résultat est dû à la relation liant l inertie totale, qui ne dépend que de la partition avec les inerties interclasses et intra-classes : I total = I intra + I inter. Ceci peut être représenté par les figures 3.2 et 3.3. Notion de formes fortes L algorithme des CM conduit à un optimum local du critère retenu : le choix initial des centres influe sur la solution finale. Pour pallier cet inconvénient, on effectue plusieurs passages de l algorithme avec des initialisations différentes. On retient les points qui restent groupés quel que soit le tirage de départ : on constitue ainsi des classes «stables» appelées formes fortes. Cette notion est très utilisée pour juger de l indépendance de la partition retenue par rapport aux conditions initiales choisies [7]. 24

25 Fig. 3.2 Inertie totale = Inertie inter + Inertie intra. Fig. 3.3 Illustration des inerties inter/intra classes. Avantages et inconvénients de l algorithme L algorithme CM est caractérisé par les avantages suivants : Possibilité de traiter des ensembles de taille importante ; Simplicité et efficacité ; Rapidité en convergence. Parmi ses inconvénients, nous citons : Besoin de spécifier le nombre de classes à priori ; Initialisation arbitraire des centres au départ ; Les points isolés sont mal gérés ; Peu robuste en présence des données atypiques La classification floue Nous avons parlé jusqu à maintenant de la classification nette ou exclusive où un objet appartient à une classe et une seule. Dans le cas de la classification non exclusive un objet peut appartenir à plusieurs classes ; c est le cas des méthodes de classification floue. La typologie floue est issue de la notion de sous-ensemble flou introduite par Zadeh en 1965 [7]. D après [7], Dunn (1974) a étendu l algorithme des centres mobiles à la méthode de typologie floue : on parle alors de l algorithme des centres mobiles flous. L idée retenue est l appartenance partielle d un objet à une classe en remplaçant l appartenance et la non appartenance de l objet à un sous-ensemble par une appartenance graduelle indiquant la proximité de l objet à chaque classe. On emploiera donc une méthode de classification floue 25

26 dès qu on aura le sentiment qu une partition formelle n est pas adaptée, par exemple lorsqu il existe des «ponts» entre classes. Les k classes floues sont caractérisées par leurs fonctions d appartenance respectives et tout objet possède k degrés d appartenance. On note u i,j le degré d appartenance de l objet i à la classe j avec 1 j k et j u i,j = 1. A p objets, on associera une matrice U de dimension p k, dont le terme (i,j) représente le degré d appartenance de l individu x i à la classe C j [5, 7]. L algorithme des centres mobiles flous L algorithme des CM flous est l un des principaux algorithmes de la classification floue. Nous parlons alors de classification non exclusive. Les principales étapes de l algorithme des centres mobiles flous sont les suivants : La fixation arbitraire d une matrice d appartenance ; Le calcul des centroïdes ; le réajustement de la matrice d appartenance suivant la position des centroides. En général, l algorithme converge vers un optimum local. La technique de base est, comme pour l algorithme des centres mobiles nets, la minimisation de l inertie intra-classes min i,j u i,j d 2 (x i, g j ) où γ est le coefficient de réglage flou (valeur conseillée entre 1 et 2). L algorithme consiste à itérer les étapes suivantes : 1. Calcul des centres : 2. Calcul de la partition floue : g j = u i,j = i uγ i,j x i i uγ i,j 1 x i g γ 1 j 2 1 j x i g γ 1 j Algorithme des k-medoïdes Le calcul d un centroïde (centre, ou barycentre d une classe ou d un groupe) peut se révéler peu significatif dans certains cas. Il est alors plus ;. 26

27 judicieux de choisir comme centre du groupe un objet présent dans le groupe et non pas un objet fictif. L algorithme des k-medoïdes peut être vu comme une adaptation de l algorithme des CM. Le medoïde d une classe peut être calculé en trouvant l objet i de cette classe qui minimise h C j d(i, h) où C j est la classe qui contient l objet i et d(i,h) la distance euclidienne entre l objet i et l objet h de la même classe. Cet algorithme peut être alors décrit comme suit : 1. Initialisation : choisir arbitrairement un objet comme medoïde pour chaque cluster ; 2. Affecter chaque objet au medoïde le plus proche ; 3. Recalculer le medoïde de chaque cluster ; 4. Répéter les étapes 2 et 3 jusqu à l instant où les medoïdes ne bougent plus. Cet algorithme souffre des mêmes inconvénients que l algorithme CM mais il a l avantage d être plus robuste vis-à-vis des points atypiques [6]. 3.4 Classification ascendante hiérarchique (CAH) Définition d une hiérarchie Un ensemble H de parties non vides de l ensemble W est une hiérarchie sur W si : W H ; i W, i H ; h, h H, h h = ou h h ou h h ; Une hiérarchie peut être vue comme un ensemble de partitions emboîtées. Graphiquement, une hiérarchie est souvent représentée par une structure arborescente appelée arbre hiérarchique ou dendrogramme. Il existe deux types de familles de méthodes : les méthodes descendantes ou diviseuses, et les méthodes ascendantes ou agglomératives. La première approche, moins utilisée, consiste à partir d une seule classe regroupant tous les objets, à partager celle-ci en deux. Cette opération est répétée à chaque itération jusqu à ce que toutes les classes soient réduites à des singletons. La seconde, qui est la plus couramment utilisée, consiste à partir des objets (chacun est dans sa propre classe), et à agglomérer itérativement les classes les plus proches, afin de n en obtenir plus qu une seule contenant tous les objets. S il est assez aisé de calculer une distance entre deux points, il est 27

28 Fig. 3.4 Méthode de Représentation de la classification hiérarchique. moins évident de calculer une distance entre une classe et un point, ou encore entre deux classes. Plusieurs distances classiques dites critères d agrégation existent. Les plus couramment utilisés sont : les critères du lien minimum, du lien maximum, du lien moyen et le critère de Ward qui résulte de la perte d inertie en regroupant deux classes C 1 et C 2, et conduit à minimiser l inertie intra classe. En fait, c est le critère le plus souvent utilisé. Le critère d agrégation de Ward se décrit comme suit : avec : d : distance euclidienne ; C i : cardinal de la classe C i ; g i : barycentre de la classe C i. D ward = C 1 C 2 C 1 + C 2 d2 (g 1, g 2 ), À une hiérarchie est associé un indice, fonction strictement croissante, qui a la particularité de prendre une valeur nulle pour toute classe singleton. Ainsi, pour les classes du bas de la hiérarchie l indice vaut 0, et pour les autres classes, cet indice est défini en associant à chacune des classes construites la distance qui séparait les deux classes fusionnées pour former cette nouvelle classe. Ci-dessous, nous décrivons les principales étapes de l algorithme de classification ascendante hiérarchique (CAH) : 1. Au départ, chaque objet est dans sa propre classe ; 2. On fusionne les deux classes les plus proches (selon le critère choisi) ; 3. On attribue à la nouvelle classe un indice égale à la distance qui séparait ces deux classes ; 28

29 4. On répète l étape 2 jusqu à n avoir plus qu une seule classe. En analysant l évolution du critère, il est possible de déterminer un nombre de classes approprié. A l inverse des méthodes de classification par partition, nous n avons donc pas besoin ici de la connaissance a priori du nombre de classes [1]. 3.5 Conclusion Dans ce chapitre, nous avons expliqué le principe de la classification automatique tout en montrant son importance dans le monde de la fouille de donnée. Nous avons de plus expliqué la différence entre la classification par partition et la classification hiérarchique tout en présentant les algorithmes les plus utilisés. Enfin, nous avons développé la classification floue qui apporte de bonnes solutions pour la classification dans le cas où les frontières entre les classes ne sont pas bien définies. 29

30 Chapitre 4 Cartographie associative 4.1 Introduction La classification automatique en analyse de données et l apprentissage non supervisé par réseaux de neurones résolvent des problèmes similaires. Ce chapitre concerne une introduction générale aux réseaux de neurones artificiels et l application de l algorithme de Kohonen dans le domaine de la classification non supervisée. Un réseau neuronal artificiel a la capacité d apprendre des informations, de généraliser et d identifier des fonctions non linéaires multidimensionnelles. Nous présentons quelques concepts fondamentaux pour la compréhension du fonctionnement des réseaux neuronaux et montrons leur importance dans le domaine de la classification automatique. 4.2 Le neurone formel Un réseau de neurones est un ensemble de neurones formels connectés entre eux. Il est formé d une couche d entrée, une ou plusieurs couches cachées et une couche de sortie. Son architecture peut être représenté comme dans la figure 4.1. Pour bien comprendre son fonctionnement, examinons le neurone formel Schéma fonctionnel du neurone formel Le neurone formel est un modèle mathématique très simplifié du neurone biologique. Il s agit d un automate relié à des automates voisins par des connexions représentées par des coefficients de pondérations (nombres réels). Il reçoit en entrée les signaux délivrés par les neurones auxquels il est 30

31 Fig. 4.1 Architecture d un réseau neuronal formal. connecté, et fournit en sortie un signal qui dépend à la fois de ses signaux d entrée et des poids de ses différentes connexions. Cette sortie est le résultat d une fonction f dite de transfert appliquée à la somme A i = j w ij e j + w i0. Fig. 4.2 Schéma fonctionnel du neurone formel. La fonction de transfert peut prendre différentes formes : fonction non linéaire, fonction à seuil binaire, fonction linéaire à seuil,.... Elle représente l état d activation du neurone. La sortie du neurone S i est fonction de la somme pondérée A i, telle que S i =f(a i ) Apprentissage du réseau neuronal formel On entend par phase d apprentissage la phase où les paramètres du réseaux subissent des modifications suivant des règles appelées règles d apprentissage, jusqu à stabilisation du réseau ; c est-à-dire jusqu à ce que la sortie 31

32 désirée soit à peu près obtenue. Mais afin de pouvoir effectuer l apprentissage du réseau, il est nécessaire de créer une base de données dans un domaine bien défini appelée base d apprentissage et qui contiendra toutes les informations à mémoriser dans le réseau. On distingue en général deux modes d apprentissage [8] : Apprentissage supervisé : On fournira au réseau des exemples à mémoriser, pour les comparer par la suite avec les vecteurs obtenus à la sortie du réseau lors de la phase d apprentissage. La base d apprentissage est alors constituée par un nombre suffisant de couples entrée/sortie ; Apprentissage non supervisé : Dans ce cas, on n a pas besoin d une base des sorties désirées et le réseau évolue tout seul jusqu à obtenir la sortie souhaitée. 4.3 Apprentissage compétitif La forme la plus simple d apprentissage compétitif, dite «règle du gagnant prend tout», modifie seulement le vecteur poids du meilleur neurone (au sens d un critère donné), à chaque étape de l apprentissage. L architecture de ce réseau est représentée sur la figure 4.3. Fig. 4.3 Architecture du réseau compétitif. A chaque présentation d une entrée x (un vecteur de l exemple d apprentissage) et après normalisation des vecteurs de poids, deux étapes sont effectuées : 32

33 Localisation du vecteur de poids gagnant W k (correspondant au meilleur neurone), qui vérifie la condition : x W k = min k x W k. Modification des vecteurs poids de l unité gagnante : W k (t + 1) = W k (t) + α(t)[x(t) W k (t)], 0 α(t) 1 est le taux d apprentissage. Remarquons qu en remplaçant respectivement les mots «neurone» par «prototype» et «vecteur d entrée» par «individu», selon la terminologie de l analyse des données, il est évident que la règle d apprentissage est la même que celle utilisée par l algorithme de centres mobiles (version de MacQueen). Dans ce cas précis, les réseaux de neurones ne nous semblent pas apporter de grandes nouveautés. En conséquence, nous nous intéressons à une version plus développée de l apprentissage compétitif. 4.4 Cartographie associative L apprentissage compétitif, dans sa version la plus simple, ne tient aucun compte d interactions latérales entre les neurones. La cartographie associative utilise cette idée d interactions et postule des relations de voisinage a priori entre les unités. Ainsi chaque unité possède un ensemble d unités voisines, qui constituent son voisinage. Le but de la cartographie associative consiste à associer chaque vecteur d entrée à un neurone de la carte (couche compétitive + définition de topologie sur cette couche). Autrement dit, des données proches (dans l espace d entrée) vont avoir des représentations proches dans l espace de sortie et vont donc être classés dans une même classe ou dans des classes voisines. Trois architectures sont couramment utilisées pour la carte : Cartes unidimensionnelles où chaque neurone possède deux voisins. Cartes bidimensionnelles à voisinage rectangulaire où chaque neurone possède quatre voisins. Cartes bidimensionnelles à voisinage hexagonal où chaque neurone possède six voisins. Notons que si l on dispose d un espace muni d une métrique d, on peut lui donner une structure d espace topologique en définissant le voisinage V k de l unité ou du neurone k comme l ensemble des unités contenus dans une boule de rayon η non nul centrée en k. 33

34 Fig. 4.4 Topologie des voisinages Cartes organisatrices de Kohonen Kohonen a proposé un algorithme d apprentissage de carte associative. Cet algorithme peut se présenter comme suit [9] : Initialisation : l architecture de la carte est spécifiée, ce qui revient à choisir le nombre de neurones et à définir les relations de voisinages. Les vecteurs de poids sont initialisés. Localisation du vecteur de poids gagnant Wk qui vérifie la condition : x Wk = min k x W k. Modification des vecteurs poids de l unité gagnante et de ses voisines, k Vk (voisinage de l unité gagnante : Wk (t + 1) = W k (t) + α(t)[x(t) W k (t)], où 0 α(t) 1 est le taux d apprentissage. Kohonen conseille de démarrer avec un nombre de voisins important mais de le faire décroître au cours des itérations, afin d améliorer les performances de l algorithme et de bien organiser la carte. De plus, le nombre d itérations exécutées ne doit pas être inférieur à 500 fois le nombre de neurones dans la carte. Plusieurs modifications marginales ont été proposées pour cet algorithme, mais dans notre travail nous utilisons la version originale de Kohonen Application de l algorithme de Kohonen Les méthodes non supervisées sont intéressants et en particulier l algorithme de Kohonen est de nos jours largement utilisé. Il accomplit la double tâche de «projection» et de «classification». La principale caractéristique de la méthode de Kohonen est la conserva- 34

35 tion de la topologie : des observations «proches» dans l espace d origine provoquent la réponse du même neurone ou de deux neurones voisins dans la carte. Après apprentissage, un exemple d entrée sera représenté par le neurone dont il se rapproche le plus. De point de vue de la classification, chaque neurone de la couche compétitive correspond à une classe. Chaque classe sera alors caractérisé par le vecteur de poids du neurone correspondant de la carte Comparaison avec l ACP La carte de Kohonen construite à partir d observations peut être comparée aux projections linéaires réalisées par l ACP. Cependant, il est souvent nécessaire de prendre en compte plusieurs projections bidimensionnelles de l ACP pour avoir une bonne représentation des données, alors qu une seule carte de Kohonen suffit. Il est important de noter que si X est la matrice des données centrées, l ACP est réalisée via la diagonalisation de la matrice X t X, alors que la carte de Kohonen est construite avec les observations de la matrice X [10] Interprétation de la classification par les cartes de Kohonen Le choix du nombre de classes est arbitraire et il n existe pas de méthode sûre pour choisir la taille de la grille. Pour obtenir une bonne organisation des cartes de Kohonen, il est préférable de travailler sur de grandes cartes. Mais on peut penser que le nombre significatif de classes sera souvent plus petit que la taille de la grille. D un autre côté, il n est ni facile ni utile d interpréter et de décrire un trop grand nombre de classes. Aussi d après [10], Cottrell et al. ont-ils proposé de réduire le nombre de classes en utilisant une CAH sur les vecteurs codes avec la distance de Ward. De cette manière, deux classifications emboîtées sont définies, ce qui permet de distinguer les classes de Kohonen (ou «micro-classes») et les «macro-classes» qui regroupent certaines «micro-classes». L avantage de cette double classification est qu elle permet d analyser les données à un niveau global «macro» qui met en évidence les caractéristiques générales et à un niveau plus fin «micro» qui permet de déterminer les caractéristiques de phénomènes plus précis [10]. 35

36 4.5 Conclusion Dans ce chapitre, nous avons montré l importance des réseaux de neurones dans le domaine de la classification. L algorithme compétitif dans sa version simple et les cartes organisatrices de Kohonen sont aujourd hui couramment utilisés en classification automatique. 36

37 Deuxième partie Base de données filiales/indicateurs 37

38 Chapitre 5 Description, représentation et prétraitement des données de la base filiales/indicateurs 5.1 Introduction Dans ce chapitre nous allons décrire les données de la base filiales/indicateurs fournie par l entreprise, puis nous effectuerons l étape de prétraitement des données : sélection et nettoyage des données, valeurs manquantes, valeurs atypiques,...a noter que la phase de prétraitement est une phase assez importante du processus ECD car elle influe fortement sur la suite de l analyse de données. 5.2 Description des données Chaque année, l entreprise SUEZ environnement envoie à ses filiales, situées dans différents pays, des enquêtes comprenant des questions concernant huit secteurs différents du domaine de l eau potable et de l eau usée (cf. tableau 5.1). L entreprise recueille ses enquêtes afin d établir une étude comparative entre les filiales dans chaque secteur. Aujourd hui, SUEZ met à notre disposition les résultats des enquêtes correspondant aux années 2004, 2003, 2002 et Notre objectif sera de les expoiter afin d en extraire des relations entre différents indicateurs. Ces indicateurs constituent les réponses aux questions posées dans les questionnaires et sont décrits en annexe B. 38

39 Notons qu il existe des questionnaires de type P (Performance Ratio Report) et des questionnaires de type E (Environmental Reporting). Notre étude se concentre sur les questionnaires de type P et sur les cinq premiers secteurs. Les données sont constituées de fichiers Excel, mettant en relation les filiales, qui sont représentées par leur Contract Reference (cf. annexe A) et les mesures des indicateurs des différents secteurs. Un autre fichier, dit Business Unit et qui décrit en détail les caractéristiques des filiales est également mis à notre disposition. 5.3 Représentation mathématique des données Les données se présentent sous forme de quatre tableaux, chaque tableau correspondant à une année : respectivement 2004, 2003, 2002 et Chaque tableau met en relation n Contract Reference (lignes) ou individus, et p descripteurs ou indicateurs. Chaque variable ou descripteur correspond à un indicateur de performance pour une tâche donnée. Les indicateurs sont divisés en huit secteurs différents des domaines de l eau potable et de l eau usée. Chaque secteur est représenté par un symbole et décrit par m descripteurs ou indicateurs. Le tableau 5.1 montre les différents secteurs ainsi que le nombre d indicateurs correspondants. Chaque tableau correspond à une année et met Secteur Symbole Nombre d indicateurs WaterProduction A 31 Water Distribution B 29 Sewage Collection C 24 Sewage Treatment D 27 Customer Services E 49 Corporate Support F 8 Overall Business Issues G 21 Financial Indicators H 21 Tab. 5.1 Présentation des différents secteurs. en relation 71 individus et 213 indicateurs, formant une matrice de dimensions

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Optimisation de la compression fractale D images basée sur les réseaux de neurones Optimisation de la compression fractale D images basée sur les réseaux de neurones D r BOUKELIF Aoued Communication Networks,Architectures and Mutimedia laboratory University of S.B.A aoued@hotmail.com

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Exercices Corrigés Premières notions sur les espaces vectoriels

Exercices Corrigés Premières notions sur les espaces vectoriels Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

1 - PRESENTATION GENERALE...

1 - PRESENTATION GENERALE... Contenu PREAMBULE... 2 INTRODUCTION... 2 1 - PRESENTATION GENERALE... 4 Qualité et optimalité... 8 2 - AGREGATION AUTOUR DE CENTRES MOBILES... 9 2.1 LES BASES DE L'ALGORITHME... 10 2.2 TECHNIQUES CONNEXES...

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Optimisation, traitement d image et éclipse de Soleil

Optimisation, traitement d image et éclipse de Soleil Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Suites numériques 3. 1 Convergence et limite d une suite

Suites numériques 3. 1 Convergence et limite d une suite Suites numériques 3 1 Convergence et limite d une suite Nous savons que les termes de certaines suites s approchent de plus en plus d une certaine valeur quand n augmente : par exemple, les nombres u n

Plus en détail

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection Nicolas HEULOT (CEA LIST) Michaël AUPETIT (CEA LIST) Jean-Daniel FEKETE (INRIA Saclay) Journées Big Data

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Quelques éléments de statistique multidimensionnelle

Quelques éléments de statistique multidimensionnelle ANNEXE 1 Quelques éléments de statistique multidimensionnelle Les méthodes d analyse statistique exploratoire utilisées au cours des chapitres précédents visent à mettre en forme de vastes ensembles de

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée Nicolas Creff Du 1er février au 31 juillet 2011 Promotion 2011 Majeure SCIA Rapport de Stage Titre : Clustering à l aide d une représentation supervisée Sujet : Personnalisation de scores à l aide de la

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Chaînes de Markov au lycée

Chaînes de Markov au lycée Journées APMEP Metz Atelier P1-32 du dimanche 28 octobre 2012 Louis-Marie BONNEVAL Chaînes de Markov au lycée Andreï Markov (1856-1922) , série S Problème 1 Bonus et malus en assurance automobile Un contrat

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

Programmation linéaire et Optimisation. Didier Smets

Programmation linéaire et Optimisation. Didier Smets Programmation linéaire et Optimisation Didier Smets Chapitre 1 Un problème d optimisation linéaire en dimension 2 On considère le cas d un fabricant d automobiles qui propose deux modèles à la vente, des

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

Analyse dialectométrique des parlers berbères de Kabylie

Analyse dialectométrique des parlers berbères de Kabylie Saïd GUERRAB Analyse dialectométrique des parlers berbères de Kabylie Résumé de la thèse (pour affichage) Il est difficile de parler du berbère sans parler de la variation. Il y a d abord une variation

Plus en détail

La mesure de Lebesgue sur la droite réelle

La mesure de Lebesgue sur la droite réelle Chapitre 1 La mesure de Lebesgue sur la droite réelle 1.1 Ensemble mesurable au sens de Lebesgue 1.1.1 Mesure extérieure Définition 1.1.1. Un intervalle est une partie convexe de R. L ensemble vide et

Plus en détail

www.h-k.fr/publications/objectif-agregation

www.h-k.fr/publications/objectif-agregation «Sur C, tout est connexe!» www.h-k.fr/publications/objectif-agregation L idée de cette note est de montrer que, contrairement à ce qui se passe sur R, «sur C, tout est connexe». Cet abus de langage se

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

Le calcul du barème d impôt à Genève

Le calcul du barème d impôt à Genève Le calcul du barème d impôt à Genève Plan : 1. Historique Passage d un système en escalier à une formule mathématique 2. Principe de l imposition Progressivité, impôt marginal / moyen ; barème couple/marié

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Théorie et codage de l information

Théorie et codage de l information Théorie et codage de l information Les codes linéaires - Chapitre 6 - Principe Définition d un code linéaire Soient p un nombre premier et s est un entier positif. Il existe un unique corps de taille q

Plus en détail

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples, Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

SudoClick Reconnaissance de grilles de sudoku pour téléphones portables

SudoClick Reconnaissance de grilles de sudoku pour téléphones portables SudoClick Reconnaissance de grilles de sudoku pour téléphones portables Patrick Anagnostaras 1 24 mai 2008 Department of Informatics - Master Project Report Département d Informatique - Departement für

Plus en détail

MANUEL DU BLENDED LEARNING

MANUEL DU BLENDED LEARNING MANUEL DU BLENDED LEARNING ÉDITION 2014 www.360learning.com SOMMAIRE Définition... 4 Pourquoi proposer du Blended Learning à ses clients... 5 Les phases du Blended Learning... 7 9 arguments pour vendre

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Mesure agnostique de la qualité des images.

Mesure agnostique de la qualité des images. Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire

Plus en détail

Théorèmes de Point Fixe et Applications 1

Théorèmes de Point Fixe et Applications 1 Théorèmes de Point Fixe et Applications 1 Victor Ginsburgh Université Libre de Bruxelles et CORE, Louvain-la-Neuve Janvier 1999 Published in C. Jessua, C. Labrousse et D. Vitry, eds., Dictionnaire des

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Limitations of the Playstation 3 for High Performance Cluster Computing

Limitations of the Playstation 3 for High Performance Cluster Computing Introduction Plan Limitations of the Playstation 3 for High Performance Cluster Computing July 2007 Introduction Plan Introduction Intérêts de la PS3 : rapide et puissante bon marché L utiliser pour faire

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE LA PHYSIQUE DES MATERIAUX Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE Pr. A. Belayachi Université Mohammed V Agdal Faculté des Sciences Rabat Département de Physique - L.P.M belayach@fsr.ac.ma 1 1.Le réseau

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

I. Polynômes de Tchebychev

I. Polynômes de Tchebychev Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire

Plus en détail