REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

Dimension: px
Commencer à balayer dès la page:

Download "REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE"

Transcription

1 REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE Université Mouloud Mammeri de Tizi-ouzou Faculté de Génie Electrique et Informatique Département d Informatique MEMOIRE Pour obtenir le diplôme de MAGISTER Option : Systèmes Informatiques Présenté et soutenu publiquement par Mr. RAHMANI Rabah Découverte d associations sémantiques dans les bases de données relationnelles par des méthodes de Data Mining JURY : Proposé et dirigé par Mr. DJOUADI Yassine-Mansour Maître de Conférences Mr. RASSOUL Idir Maître de conférences Classe A, UMMTO Président Mr. DJOUADI Yassine-Mansour Maître de conférences Classe A, UMMTO Rapporteur Mme. AMIROUCHE Fatiha Maître de conférences Classe B, UMMTO Examinatrice Mr. SADI Bachir Maître de conférences Classe A, UMMTO Examinateur 1

2 Table des matières Introduction... 4 Chapitre 1 Introduction à l extraction de connaissances Introduction Processus général du KDD Les tâches du Data-Mining Les outils du Data-Mining Conclusion Chapitre 2 Le modèle relationnel Les concepts du modèle Algèbre relationnelle Conclusion Chapitre 3 Découverte de règles d associations et de dépendances fonctionnelles Introduction Découverte de règles d association basées sur les fréquents Découverte de dépendances fonctionnelles Conclusion Chapitre 4 Découverte de dépendances multivaluées Introduction Définition et propriétés des dmvs Stratégies de découverte de dmv Conclusion Chapitre 5 Proposition d une méthode découverte de dépendances multivaluées Introduction

3 5.2 Présentation de la méthode Enumération des dmvs candidates Description de la proposition Conclusion Conclusion Bibliographie

4 Introduction L apparition du modèle relationnel de données, (Codd, 1970), a constitué une avancée méthodologique décisive pour les informaticiens dans leur métier de conception et de réalisation d applications, à tel point qu il est pratiquement le seul à être utilisé de nos jours. Ce modèle fournit, pour la première fois, grâce à ses fondements mathématiques solides, la possibilité de dissocier nettement et de façon sûre leur effort de représentation des données de celui d écriture des programmes de traitements car il offre simultanément le moyen de représentation des données, la relation, et le moyen de leur manipulation, l algèbre relationnelle, assurant ainsi ce qui était recherché à l époque: l indépendance entre données et traitements. Dès lors, l effort de représentation des données constitua la part prépondérante dans la construction d une base de données et la recherche s orienta alors vers l enrichissement du modèle de représentation, lui exigeant d être de plus en plus fidèle à la réalité représentée ; en quelque sorte d être plus «sémantique». C est ainsi que les années 1970 et 1980 virent la proposition de plusieurs modèles sémantiques (Codd, 1979) (Hammer, 1978) (Peckham, 1988) (Smith, 1977) etc. Dans ce mémoire on s intéressera au premier niveau de sémantique, capté à travers les contraintes entre les valeurs des attributs, donnant naissance à la notion de dépendances entre données. CODD, lui-même, énonça les premières associations sémantiques de son modèle en établissant les dépendances fonctionnelles et la notion de normalisation de relations (Codd, 1972). D autres dépendances furent ensuite proposées : dépendances multivaluées dépendances de jointure, etc. (Fagin, 1977) (Fagin, 1979). Typiquement, la construction d une base de données commence par l élaboration de son schéma conceptuel. Cette activité, intuitive au départ, puis plus ou moins formalisée dans ses étapes suivantes, consiste à déduire de la réalité à modéliser des attributs à regrouper sous forme de relations. Ce regroupement est effectué en se fondant sur certaines propriétés générales concernant les valeurs des attributs ; ce sont les énoncés de dépendance (fonctionnelle, multivaluée, de jointure, etc.). Les données factuelles sont alors progressivement ajoutées, modifiées ou supprimées dans la base de données répondant à ce schéma par le biais d un système de gestion de bases de données. La qualité et la durée de vie d une base de données obtenue grâce à cette démarche sont tributaires, non seulement de la sagacité de son concepteur mais aussi de l évolution de la réalité qui est difficile à maîtriser. Le concepteur a-t-il oublié une dépendance? A-t-il utilisé une dépendance démentie par la réalité des données? C est lorsque l on constate des anomalies d insertion, de mise à jour, de suppression, que l on est amené à se poser ces questions. Un moyen d y répondre est de «fouiller» dans les données factuelles de la base de données afin de découvrir ces dépendances. C est pour cela que ce travail entre dans le cadre général de ce qui est désigné par «découverte de connaissances dans les données». L intitulé de ce domaine suggère, qu à partir de données de plus en plus nombreuses et faciles d accès, on peut extraire quelques «pépites» précieuses que sont les connaissances. 4

5 Plus précisément, la découverte de connaissances dans les données, est maintenant un domaine bien établi et délimité ; il possède ses propres méthodes et fait appel à des outils bien précis. Aussi, notre travail concerne la découverte de dépendances multivaluées entre attributs d une relation déjà enregistrée. Outre cette introduction et une conclusion, ce mémoire comporte cinq chapitres. Le premier est une introduction au processus de découverte de connaissances dans les données avec sa définition et ses différentes étapes. Dans le deuxième chapitre on décrira le modèle relationnel de données en mettant l accent sur les dépendances fonctionnelles. Le chapitre trois introduit quelques méthodes de découverte de dépendances fonctionnelles et de règles d association. Le chapitre quatre donne le détail sur les dépendances multivaluées et sur deux méthodes de leur découverte. Enfin le chapitre cinq concerne notre contribution à la découverte de dépendances multivaluées par la présentation de notre algorithme 5

6 Chapitre 1 : Introduction à l extraction de connaissances Chapitre 1 Introduction à l extraction de connaissances Sommaire 1.1 Introduction Processus général du KDD Les tâches du Data-Mining Classification Règles d association Segmentation Recherche de séquences Les outils du Data-Mining Les réseaux de neurones Les séries temporelles Réseaux bayésiens Arbres de décision Conclusion

7 Chapitre 1 : Introduction à l extraction de connaissances 1.1 Introduction A l origine, Data-Mining était un terme utilisé par les statisticiens pour désigner l usage abusif des données dans le but de tirer des conclusions qui s avéraient souvent invalides. Les statisticiens savent qu en présence de nombreuses conclusions certaines d entre elles sont vraies pour des raisons purement statistiques. Un exemple fameux (Ullman, 2000). Dans les années 1950, à l université de Duke 1, David Rhine parapsychologue, a testé des étudiants pour isoler ceux d entre eux doués de perception extra-sensorielle en leur faisant deviner la couleur de 10 cartes. Il trouva, qu environ 1/1000 d entre eux ont deviné la couleur de la totalité de ces cartes. Au lieu de réaliser que ce résultat est tout à fait prévisible de façon purement aléatoire, il en conclut que ces étudiants avaient le don de perception extrasensorielle. Quand, plus tard, il les testera de nouveau pour la même expérience, il trouva qu ils ne firent pas mieux que la moyenne des étudiants. Il en conclut que le fait d apprendre aux gens qu ils avaient le don de perception extrasensorielle leur faisait perdre ce don! Une définition du Data- Mining (Ullman, 2000) C est la découverte de résumés utiles de données. Une autre définition (Pasquier, 1999) C est la phase de recherche de connaissances dans le processus plus général de découverte de connaissances dans les données ( KDD : Knowledge Discovery in Data). Ce qui nous mène à cette définition du KDD (Pasquier, 1999) Processus non trivial, semi-automatique, composé de plusieurs étapes allant de la préparation des données jusqu à l interprétation des résultats en passant par la découverte proprement dite, le Data-Mining. 1.2 Processus général du KDD Dans (HB-DM, 2005) on décrit le processus de découverte de connaissances comme un processus interactif et itératif comportant 9 étapes (figure 1). Ce processus est itératif globalement et au niveau de chaque étape. La première étape consiste à fixer les objectifs de la découverte selon la connaissance que l on a du domaine, la dernière est l obtention puis l implémentation des connaissances. découvertes. 1 Durham, Caroline du nord, USA. 7

8 Chapitre 1 : Introduction à l extraction de connaissances 4 5,6,7 Transformation. Data mining. 8 Evaluation et interprétation. 9 connaissances découvertes. Visualisation et intégration. 3 2 Sélection et addition. Prétraitement et nettoyage des données. Datamining actif Données pré-traitées Données transformées Modèle Données Données sélectionnées 1 Domaine et objectif Figure1. Processus général de KDD 1. Fixation des objectifs selon la compréhension du domaine. Les connaissances à découvrir sont plus ou moins indiquées par l utilisateur. Les personnes en charge de ce processus (parmi eux des informaticiens) doivent dès cette étape prendre des décisions en fonction de leur compréhension de ces objectifs du domaine de départ. Ces décisions concernent, entre autre, les transformations à apporter aux données, les nouvelles représentations à adopter en fonction du but poursuivi et les algorithmes à utiliser. 8

9 Chapitre 1 : Introduction à l extraction de connaissances En fonction de l évolution dans cette étape il peut même y avoir une révision de l un des choix préalablement pris. Ayant compris les objectifs de la découverte, le pré-traitement des données peut commencer. C est l objet des 3 étapes suivantes. 2. Création des données concernées par la découverte. Dans cette étape on effectue l inventaire de toutes les données dont on dispose. En fonction des objectifs de la découverte on peut juger utile de rajouter d autres données sous forme d attributs. La création de cet ensemble de données initial est crucial pour la suite du processus puisque c est de lui que dépendent les connaissances à découvrir. C est pour cela qu il s effectue aussi de façon interactive et itérative. 3. Pré-traitement et nettoyage des données. Cette étape s occupe de la fiabilité des données créées durant l étape précédente. Cette fiabilité peut être remise en cause par les valeurs inconnues, les valeurs aberrantes et les valeurs bruitées. Assurer la fiabilité de ces données est une tâche non triviale puisqu elle peut faire appel à des méthodes de prédiction de paramètres, des méthodes de détection de valeurs aberrantes etc. 4.Transformation des données Cette étape prépare les données pour le Data-Mining en transformant les données de l étape précédente de façon à ce que cette tâche se fasse avec des complexités raisonnables. Cette transformation concerne essentiellement deux aspects : - réduction de dimension et extraction de résumés de données, - discrétisation des attributs numériques et transformations fonctionnelles. Cette étape peut être cruciale pour la totalité du projet de découverte de connaissances; et les transformations à effectuer sur les données sont souvent spécifiques au domaine considéré. Ainsi, en médecine on s intéresse plus souvent aux rapports entre les résultats d analyse qu aux résultats pris isolément. Dans l analyse des achats d une ménagère le nom du préposé à la caisse est de peu d intérêt, etc. Cependant, même si une bonne transformation n a pas été effectuée, on s en apercevra plus tard en observant les résultats obtenus ; lesquels seront une indication sur la transformation à effectuer. Ayant achevé les 4 étapes précédentes, les 4 étapes suivantes vont effectuer la partie Data-Mining proprement dite. L intérêt sera porté sur l aspect algorithmique à employer pour chaque projet. 9

10 Chapitre 1 : Introduction à l extraction de connaissances 5.Choix de la tâche appropriée de Data-Mining Les objectifs qui ont guidé tout le processus depuis les premières étapes sont maintenant en mesure de nous indiquer la tâche de Data-Mining à entreprendre. Ces objectifs peuvent se classer en 2 groupes généraux : la prédiction et la classification. La prédiction est souvent appelée tâche supervisée et la classification tâche non supervisée. Les deux sont basées sur un modèle qui utilise des exemplaires de données test pour leur élaboration et supposent que ce modèle reste valide pour d autres exemplaires de données réelles. 6.Choix de l algorithme de Data-Mining. Parmi plusieurs algorithmes, lesquels choisir pour accomplir nôtre tâche? A ce stade le choix est guidé par le degré de précision recherché par rapport à la facilité d interprétation des connaissances extraites. Si l on recherche la précision ; alors les réseaux de neurones sont recommandés ; si l on désire plus de clarté, alors on opte pour les arbres de décision. Etc. 7.Mise en œuvre de l algorithme. Finalement, l algorithme de Data-Mining est implémenté en utilisant un ou plusieurs langages de programmation. On peut être amené à faire des réglages sur les paramètres de l algorithme en le faisant tourner plusieurs fois, jusqu à l obtention des résultats désirés. 8.Evaluation. A ce stade on évalue les résultats obtenus (et acceptés) par l algorithme. On les interprète à la lumière des objectifs fixés durant la première étape. On peut ainsi reconsidérer les premières étapes pour voir leurs effets sur l algorithme (par exemple en ajoutant des éléments à l étape 4 et en recommençant à partir de là). Les connaissances obtenues sont finalement documentées pour utilisation à l étape 9. 9.Utilisation des connaissances découvertes. Les connaissances découvertes sont jugées pertinentes et utiles. Elles deviennent actives en ce sens qu elles seront injectées dans le système pour voir leurs effets. C est par exemple le cas quand on redéfinit le schéma d une base de données relationnelle après découverte de dépendances. 10

11 Chapitre 1 : Introduction à l extraction de connaissances 1.3 Les tâches du Data-Mining. La méthodologie de fouille dans les données est plus ou moins établie à l heure actuelle ; elle est caractérisée par les tâches de Data Mining dont on peut citer Classification. Etant donné un ensemble prédéfini de classes d objets, affecter un objet à une classe, selon une certaine mesure de proximité est le rôle de la classification. Les techniques de classification commencent par définir un plan d expérience ou un ensemble de données d apprentissage sur lequel on applique les méthodes de classification. Puis, pour mesurer leur pouvoir de classement correct, on applique les mêmes méthodes sur un jeu d essai ( testing set ) Règles d association. Une règle d association est un énoncé du type 60% des clients qui achètent du lait achètent aussi du pain. Le domaine d application classique des règles d association concerne l analyse du panier de la ménagère par les grandes surfaces de distribution. Ces règles leur permettent de réorganiser la disposition de leurs produits dans les rayons, d offrir des promotions en fonction des habitudes d achat découvertes, etc. L assise formelle des règles d association est donnée dans le papier fondateur de Agrawal et Srikant qui exhibe l algorithme A-priori (Agrawal, 1994) pour la découverte de ces règles. Deux étapes sont nécessaires pour cette découverte. 1. découverte des fréquents, 2. affichage des règles d association. Les règles d association seront considérées plus en détail dans le chapitre suivant Segmentation ( Clustering ) La segmentation a pour but de découvrir dans les données des groupes, non identifiés à l avance, ayant les mêmes caractéristiques ; ce sont les clusters Recherche de séquences Une séquence est une liaison entre événements sur une certaine période de temps. Ces séquences sont par exemple du type «celui qui achète un téléviseur achètera une caméra numérique d ici 2 ans». Ceci permet d anticiper l arrivée d événements. 11

12 Chapitre 1 : Introduction à l extraction de connaissances 1.4 Les outils du Data-Mining Sous ce vocable sont regroupées les méthodes mathématiques et algorithmiques permettant d effectuer les tâches de Data Mining. On peut citer Les réseaux de neurones Les réseaux de neurones sont des modèles de calcul tendant à imiter le fonctionnement, tel que compris par les biologistes, des neurones animales et spécialement humaines. Initialement, le représentant du neurone humain était appelé perceptron, dont le modèle de calcul est le suivant. x d f y d sortie = f( w i x i ) i=1 x 1 Figure 1.1. Fonctionnement d un neurone Un réseau de neurones est constitué de plusieurs perceptrons interconnectés de différentes façons. On distingue. 1. le réseau de neurones multicouches ou multilayer perceptron les neurones de ce type de réseau sont regroupés en couches dont, une d entrée, une de sortie et une ou plusieurs intermédiaires (fig1.2). Dans la figure 1.2 le réseau à 3 couches, où tous les neurones de 2 couches adjacentes sont connectés, les sorties sont reliées aux entrées par y = f 2 (w 2 f 1 (w 1 x)). 12

13 Chapitre 1 : Introduction à l extraction de connaissances Sortie(Y) Couche de sortie Couche intermédiaire Entrées(X) Figure 1.2. Réseau multicouche Couche d entrée 2. Réseau de Hopfield. C est un réseau à une seule couche avec interconnectivité complète (figure 1.3). 1 W 21 W 31 W 12 W 13 W W 32 Figure 1.3. Réseau de Hopfield à 3 neurones. Un réseau de Hopfield est caractérisé par son fonctionnement en fonction du temps selon les équations. n-1 u i (t) = w ij x j (t) + v i. j=1 j i x i (t+1) = sign(u i (t)). avec sign(x) = 1 si x 0-1 sinon. u i (t) est l état du neurone du neurone i à l instant t x i (t) est la sortie du neurone i. v i est le seuil du neurone i. 13

14 Chapitre 1 : Introduction à l extraction de connaissances A chaque instant un tel réseau est caractérisé globalement par son énergie définie par. E(t) = ½ U(t) T WU(t) V(t). U et V sont des vecteurs et W la matrice des poids des connections. A T dénote la transposée de la matrice A. Il a été montré que cette énergie décroît, en fonction du temps jusqu à atteindre un point fixe. Les états des différents neurones dans cet équilibre sont interprétés comme des mémoires associatives (adressables par le contenu). Il existe d autre structures de réseau de neurones que nous ne présentons pas. Le lecteur intéressé peut se rapporter à (HB-DM, 2005) Les séries temporelles. Les séries temporelles représentent la mesure de certaines caractéristiques en fonction du temps. Les statisticiens ont établi ce concept et ses propriétés depuis plus d un siècle (HB-DM, 2005); mais leurs techniques s avèrent insuffisantes pour les énormes quantités de données des séries temporelles réelles. En tant qu outil de Data-Mining les grandes séries temporelles sont traitées selon plusieurs aspects. Elles sont d abord représentées de telle sorte à ce que l on puisse définir une mesure de similarité entre séries. Puis on les manipule pour plusieurs utilisations. - Indexation : trouver les séries temporelles les plus similaires. - Clustering : trouver des groupes de séries temporelles similaires à partir des données brutes sans fixer les groupes au préalable. - Classification : étant données des classes prédéfinies, affecter une série temporelle à une classe. - Prédiction : étant donnée une série temporelle discrète de n points, prédire la valeur de la caractéristique au temps n+1. - Résumé : étant donnée une série temporelle Q comportant n points de données, avec n extrêmement grand ; créer une approximation de Q de dimension beaucoup plus petite. - Détection d anomalie : étant donnée une série temporelle Q supposée normale et une autre série R non analysée, trouver toutes les sections de R qui contiennent des anomalies par comparaison avec Q. 14

15 Chapitre 1 : Introduction à l extraction de connaissances - Segmentation : partition d une série temporelle Q de n points en K segments ( K << n ) qui définissent Q proche de Q Réseaux bayésiens. Les réseaux bayésiens sont fondés sur le concept de probabilité conditionnelle, entre événements aléatoires, du révérend Thomas Bayes qui a posé l expression suivante. P(A B) P(B) = P(A B) = P(B A) P(A). Dans laquelle A et B sont des événements aléatoires. P(A B) (P(B A)) se lit probabilité de A sachant B (probabilité de B sachant A). P(A B) est la probabilité de l occurrence simultanée de A et de B. De cette expression il vient et P(A B) = P(B A) P(A) P(B) P(B A) = P(A B) P(B) P(A). Un réseau bayésien se compose de 2 éléments. - Un graphe orienté acyclique. - Une distribution de probabilité. Les sommets du graphe représentent des variables aléatoires et les arcs représentent des probabilités conditionnelles indiquant des dépendances directes entre variables. Dans un réseau bayésien, le but est d identifier le meilleur réseau de dépendances. La construction d un réseau bayésien s appuie sur un en ensemble de données d apprentissage décrites par des valeurs prises par des attributs considérées comme des variables aléatoires. Des connaissances a-priori sur le domaine permettent de valider ces dépendances stochastiques sur la base des données d apprentissage. 15

16 Chapitre 1 : Introduction à l extraction de connaissances Ad_mal Nbvoit Genre Ad_fem Origine Chambr Région Logis Enfants Durée Poss Age Etat Figure 1.4. Exemple de réseau bayésien. La figure 1.4 ci-dessus montre un réseau bayésien construit à partir de données recensées entre Avril 1996 et Mars 1997 par le British Office of National Statistics de Grande Bretagne et concerne une enquête menée sur la vie des ménages. Ces statistiques sont résumées dans treize variables dont la description est donnée ci-dessous. Variable Description Valeurs Région Région de naissance du chef de famille Angleterre, Ecosse, Pays de Galle Ad_fem Nombre d adultes femmes dans la famille 0, 1, 2 Ad_mal Nombre d adultes hommes dans la famille 0, 1, 2 Enfants Nombre d enfants 0, 1, 2, 3, 4 Age Age du chef de famille 17-36, 36-50, 50-66, Genre Genre du chef de famille M, F Logis Type de logement Chambre, Appartement, Maison, Autre Chambr Nombre de chambres à coucher 1, 2, 3, 4 Nbvoit Nombre de voitures du ménage 1, 2, 3, 4 Poss Mode de possession du logis Location, Propriété, Secteur social Durée Durée de résidence (en mois) 0-3, 3-9, 9-19, 19 Origin Origine ethnique du chef de famille Caucasien, Chinois, Noir, Indien, Autre Etat Etat d activité du chef de famille Actif, Inactif, Retraité 16

17 Chapitre 1 : Introduction à l extraction de connaissances Arbres de décision. Les arbres de décision sont essentiellement utilisés pour effectuer des tâches de classification. Un arbre de décision se compose d une racine, de nœuds internes et de feuilles. Les feuilles sont les supports de décision. Les nœuds internes partitionnent les individus, décrits par les données, en deux ou plusieurs groupes. Utiliser un arbre de décision consiste à placer un nouvel individu dans une feuille. Idéalement un arbre de décision possède des feuilles pures, ce qui signifie qu il n y a pas d ambiguïté dans le choix de la feuille qui recevra le nouvel individu. Mais l obtention d un tel arbre est tributaire du choix de la variable de partitionnement à partir des données d apprentissage. Intuitivement une variable à peu de valeurs constitue une bonne variable de partitionnement et on peut considérer l arbre de décision comme une classification à partir des données. Des techniques plus formelles permettent de mesurer la variabilité des données comme par exemple l entropie. Figure 1.5. Exemple d arbre de décision pour l octroi de prêt 17

18 Chapitre 1 : Introduction à l extraction de connaissances 1.5 Conclusion Nous venons de présenter tâches principales du Data Mining ainsi que les principaux outils utilisés pour les effectuer. Il faut noter qu à l heure actuelle le choix de l outil par rapport a une tâche donnée dépend fortement du domaine considéré. L un des défis du Data Mining est de rendre systématique ce choix. 18

19 Chapitre 2 : Le modèle relationnel Chapitre 2 Le modèle relationnel Sommaire 2.1 Les concepts du modèle Introduction Définition formelle des relations Dépendances fonctionnelles Définition de la dépendance fonctionnelle Implication logique de dépendances fonctionnelles Algèbre relationnelle sélection Projection La jointure Conclusion

20 Chapitre 2 : Le modèle relationnel Le modèle relationnel est un modèle de données fondé sur la notion mathématique de relation entre ensembles. Il a été proposé, en 1970 par E.F. Codd (Codd, 1970), et a constitué le modèle qui a concrétisé l idée qui existait à cette époque de rendre définitivement indépendants les traitements et les données ; ce qui n était pas le cas avec les modèles en usage alors, à savoir les modèles à pointeurs : hiérarchique et réseau. 2.1Les concepts du modèle Introduction Dans le modèle relationnel, les données sont représentées sous forme de tables dont les lignes ont la même sémantique ; chacune d elles est censée décrire un objet ou une association du monde réel. Considérons un exemple pour fixer les idées : la gestion des examens dans un département d université. Un examen a un ordre dans l année ( EMD1,EMD2, ). Il concerne une année d étude dont on connaît le nombre d étudiants qui seront tous des candidats potentiels à l examen. L examen a lieu dans un endroit (amphi, salle, laboratoire, ) dont on connaît le nombre de places. Il se déroule à une date et heure données et possède une durée. De plus, des enseignants sont affectés dans tous les endroits d examination pour en assurer le bon déroulement. Il est inutile, pour le sujet qui nous concerne, de s attarder sur une quelconque méthode de conception d un modèle de données pour cette réalité. Supposons pour les besoins de notre propos que nous ne percevons que la relation universelle et qu une seule table est utilisée (table 2.1). AN EF MD EX DT HR DR EN PL SR 3AI 117 Syst1 EMD1 20/02/09 8h30 1h30 Amphi 90 Ali 3AI 117 Syst1 EMD1 20/02/09 8h30 1h30 Amphi 90 Omar 3AI 117 Syst1 EMD1 20/02/09 8h30 1h30 salle1 30 Zina 4AI 80 Comp EMD1 21/02/09 10h30 2h00 Amphi 90 Said Table 2.1 AN : Année d étude EF : Effectif de l année d étude MD : Module examiné EX : Ordre de l examen dans l année DT : Date de l examen HR : Heure de l examen. DR : Durée de l examen EN : Endroit de l examen PL : Nombre de places de l endroit SR : Nom de l enseignant surveillant. 20

21 Chapitre 2 : Le modèle relationnel Définition formelle des relations. Soient D 1, D 2,, D m des ensembles, au sens classique, finis ou dénombrables, appelés domaines. Soient A 1, A 2,, A n d autres ensembles prenant leurs valeurs Dans les domaines Di et distingués ainsi parce que A i et A j (i j) peuvent prendre leurs valeurs dans le même domaine D k. Définition du schéma de relation Toute famille R = A l A d d éléments, distincts, des ensembles A i constitue un schéma de relation. Les Ai sont appelés attributs de la relation. On convient de dénoter par une lettre de la fin de l alphabet (X,Y ) une famille d attributs et on note R(X,Y) un schéma de relation et par une lettre du début de l alphabet ( A, B, ) un attribut élémentaire. Définition de la relation. Une relation r de schéma R est un sous-ensemble du produit cartésien des attributs de R. Les éléments de r sont appelés tuples. Quand une relation est représentée sous forme de table, les lignes constituent les tuples et les colonnes les attributs de la relation. Remarque : Dans une application informatique utilisant une base de données relationnelle, la relation constitue l interface utilisateur. Celui-ci agit sur cette base en ajoutant, supprimant et modifiant des tuples. Mais l aspect le plus intéressant d une base de données à plusieurs relations est son interrogation afin d y chercher une information. Cette interrogation est effectuée à l aide d un langage basé sur l algèbre relationnelle dont nous donnons plus loin les opérateurs principaux Dépendances fonctionnelles. Si on observe la relation de la table 2.1 on constate, par exemple, que les deux premiers tuples sont identiques, à la valeur d un attribut près (SR), et eux -mêmes identiques au troisième, aux valeurs de trois attributs près. Ainsi, pour ajouter un nouveau surveillant à la relation, on doit rajouter toutes les autres informations concernant l examen et qui ont déjà été mémorisées lors de l ajout d un surveillant antérieurement. D autre part, si pour une raison ou une autre on décide de supprimer un tuple concernant un examen qui est le seul à se dérouler dans un certain endroit, on perd du même coup le nombre de places de cet endroit. Ce genre de situations indésirables est appelé anomalies de manipulation de données. Le concept de dépendances entre valeurs de données est né de la volonté d éliminer ces anomalies. Le premier type de dépendance à être établi est la dépendance fonctionnelle. 21

22 Chapitre 2 : Le modèle relationnel Définition de la dépendance fonctionnelle. Etant données 2 familles X et Y, distinctes, d un ensembles d attributs R, on dit que la dépendance fonctionnelle, notée X Y, est vérifiée si, et seulement si, dans une relation de schéma R(,X,,Y, ), lorsque 2 tuples ont la même valeur en X, ils ont aussi la même valeur en Y. Il faut signaler que l énoncé de dépendance fonctionnelle concerne 2 familles d attributs quelles que soient leurs valeurs, prises dans leurs domaines respectifs. En ce sens c est une vérité générale vérifiée par toute relation qui contient ces 2 familles d attributs dans son schéma. On dit aussi que les dépendances fonctionnelles sont un type de contraintes sémantiques inhérentes à la compréhension que nous avons de la réalité modélisée. Dans la réalité concernant le déroulement d un examen, modélisée par la relation dont une partie est visible dans la table 2.1 on peut abstraire les dépendances suivantes (parmi d autres). AN EF AN MD EX DT HR AN MD EX DR EN PL SR DT HR EN EN DT HR EX MD AN Avant de voir l utilité de ces dépendances fonctionnelles dans la correction des anomalies citées ci-dessus, rappelons la notion de décomposition de relation. Etant donnée une relation r de schéma R = A 1 A 2 A n, une décomposition de r en m relations est la donnée des relations r 1, r 2,, r m tel que chacune des ri est de schéma R i = A i1 A ik et R i R. Les A il et A jp ne sont pas forcément disjoints. En termes d algèbre relationnelle r i est la projection de r sur R i. Cette décomposition est dite sans perte d information (ou simplement sans perte) si la jointure des r i est égale à r. Evidemment dans la réalité, seules les décompositions sans perte sont recherchées. Une dépendance fonctionnelle X Y dans une relation r de schéma R = XYZ fournit une condition suffisante pour décomposer r en r1 de schéma R1 = XY et r2 de schéma R2 = XZ sans perte (Nicolas, 1979). Les 6 dépendances fonctionnelles de notre exemple permettent une décomposition en 6 relations dont on donne pour chacune un échantillon. On voit aisément que cette décomposition remédie aux anomalies citées. En particulier, même si un endroit n est pas utilisé, sa capacité en nombre de places est mémorisée; c est le cas de la salle2. 22

23 Chapitre 2 : Le modèle relationnel AN MD EX DT HR AN MD EX DR 3 AI Syst EMD1 22/02/09 8h30 3AI Syst EMD1 1h30 4AI Comp EMD1 21/02/09 10h30 4AI Comp EMD1 2h00 r 1 r 2 EN PL SR DT HR EN Amphi 90 Ali 20/02/09 8h30 Amphi Salle1 30 Omar 21/02/09 10h30 Amphi Salle2 40 Zina 20/02/09 8h30 Amphi Said 20/02/09 8h30 Salle1 r 3 r 5 AN EF EN DT HR EX MD AN r 4 3AI 117 Amphi 20/02/09 8h30 EMD1 Syst 3AI 4AI 80 Amphi 21/02/09 10h30 EMD1 Comp 4AI Salle1 20/02/09 8h30 EMD1 Syst 3AI r 6 Table 3.2. Relations obtenues par décomposition Implication logique de dépendances fonctionnelles (Ullman, 1983). Des dépendances fonctionnelles peuvent être logiquement impliquées par d autres. Par exemple, si nous avons perçu les deux dépendances fonctionnelles A B et B C, on peut tout de suite en déduire la dépendance fonctionnelle A C. Pour preuve, considérons deux tuples, t et u ; s ils ont la même valeur selon A et des valeurs différentes selon B alors la dépendance fonctionnelle A B n est pas valide. D un autre coté, s ils ont la même valeur selon B et des valeurs différentes selon C, ce serait la dépendance fonctionnelle B C qui ne serait pas valide. En conséquence, si l on est sûr que A B et B C sont valides, alors il en est sûrement de même pour A C. Un certain nombre d axiomes pour l implication de dépendances fonctionnelles a été établi par Armstrong (Armstrong, 1974). Une dépendance fonctionnelle qui ne peut pas être déduite d autres est dite minimale. Un certain nombre de propriétés de schémas de relations vis-à-vis des dépendances fonctionnelles qu ils renferment ont été définies, ce sont les formes normales. Les plus significatives d entre elles sont la «troisième forme normale» et la «forme normale de Boyce-Codd» qui garantissent que la plupart des anomalies de manipulation sont évitées. 2.2Algèbre relationnelle Parmi les nombreux opérateurs de l algèbre relationnelle, nous allons en présenter 3, la sélection, la projection et la jointure. Le lecteur intéressé par les autres opérateurs peut se référer à (Maïer, 1985) 23

24 Chapitre 2 : Le modèle relationnel Nous considérons des schémas R = A 1 A 2 An et S = B 1 B 2 B m sur lesquels sont construites de relations r, s, etc Sélection. Quand on applique l opérateur de sélection à une relation r(r) on obtient une autre relation s (R) sous-ensemble de r. L opérateur de sélection, noté σ, effectue la sélection selon la notation suivante. σ A=a ( r ) = s = { t r t ( A ) = a}. Exemple. Considérons la relation r 6 précédente. La relation r 6 donnée par σ EN = Amphi ( r 6 ) = r 6 est la suivante EN DT HR EX MD AN Amphi 20/02/09 8h30 EMD1 Syst 3AI Amphi 21/02/09 10h30 EMD1 Comp 4AI On voit que cet opérateur permet de restituer les examens qui se déroulent dans un endroit particulier ; ici l amphi. Plus généralement, puisque s est un sous-ensemble de r, l opérateur de sélection permet de choisir le critère selon lequel est défini ce sous-ensemble. On peut de plus appliquer l opérateur de sélection selon plusieurs attributs de la façon suivante. σ A1=a1,A2=a2,...,Ak=ak ( r ) Projection. La projection s applique aussi à une relation r pour obtenir une autre relation, s, qui n est pas un sous-ensemble de r en général. La relation s est construite à l aide d un sous-ensemble d attributs de r et elle est notée comme suit. Π X( r ). Où X est un sous-ensemble de R. Exemple. Π {EN,DT,HR} ( r 6 ) = r 6 donnée ci-dessous. EN DT HR Amphi 20/02/09 8h30 Amphi 21/02/09 10h30 Salle1 20/02/09 8h30 r 6 24

25 Chapitre 2 : Le modèle relationnel Ici, on observe que l opération de projection permet d obtenir l occupation de tous les endroits d examination. On peut combiner l opérateur de projection avec l opérateur de sélection. Par exemple si seule l occupation de l amphi nous intéresse on écrirait. Π {EN=Amphi,DT,HR} ( r 6 ) = r 6 donnée ci- dessous. EN DT HR Amphi 20/02/09 8h30 Amphi 21/02/09 10h30 r La jointure. Alors que les opérations de sélection et de projection s appliquent à une seule relation, et de ce fait sont appelées opérations unaires, la jointure s applique à 2 relations. Si, pour éliminer les anomalies de manipulation de données, on éclate la relation universelle en plusieurs relations, on perd en revanche la correspondance entre attributs ainsi éparpillés. C est le rôle de l opération de jointure d effectuer ce regroupement. La jointure d une relation r (R) avec une relation s ( S ) est une relation q (T ), avec T = RS, telle que pour tout tuple t de q il existe un tuple t r de r et un tuple t s de S tels que t r = t ( R ) et t s = t ( S ). Puisque R S est un sous-ensemble aussi bien de R que de S, il s ensuit que t r ( R S ) = t s (R S ). Par conséquent chaque tuple de q est la combinaison d un tuple de r et d un tuple de s ayant la même valeur selon R S. L opération de jointure est notée. q = r s. Si R S = Ø alors r s est le produit cartésien de r par s. Exemple. Considérons les relations r 4 et r 6 précédentes. La relation r 4 r 6 = r 4 r 6 est la suivante. EN DT HR EX MD AN EF Amphi 20/02/09 8h30 EMD1 Syst 3AI 117 Amphi 21/02/09 10h30 EMD1 Comp 4AI 80 Salle1 20/02/09 8h30 EMD1 Syst 3AI 117 r 4 r 6 25

26 Chapitre 2 : Le modèle relationnel Si nous effectuons maintenant une autre jointure entre r 3 et r 4 r 6 nous obtenons la relation r 3 r 4 r 6 suivante. EN DT HR EX MD AN EF PL Amphi 20/02/09 8h30 EMD1 Syst 3AI Amphi 21/02/09 10h30 EMD1 Comp 4AI Salle1 20/02/09 8h30 EMD1 Syst 3AI r 3 r 4 r 6. L idée derrière ces 2 jointures est d obtenir une relation qui regroupe l effectif d une année pour un module donné avec le nombre de places des différents endroits qui accueillent l examen correspondant. On pourra ainsi vérifier si le nombre de places cumulées des différents endroits d examination est suffisant pour contenir l effectif des années par module. Par exemple, l amphi est suffisant (90) pour contenir l effectif des 4AI (80) pour l EMD1 de compilation. Le cumul des places de l amphi (90) et de celles de la salle1 ( 30) est suffisant (120) pour contenir l effectif des 3AI (117) pour l examen de système. 2.3 Conclusion Nous espérons avoir illustré, à travers ce court exemple, la capacité de représentation et de manipulation de données du modèle relationnel. Nous avons mis l accent sur la simplicité intuitive de l appréhension de la réalité à travers ce modèle puis nous avons donné un aperçu de ses aspects plus formels comme la notion de dépendance fonctionnelle et la notion induite de décomposition de relations permettant d éviter les anomalies de manipulation de données. Enfin nous avons abordé les opérateurs les plus importants de l algèbre relationnelle en insistant sur leur capacité à reconstruire notre représentation intuitive de départ. 26

27 Chapitre 3 : Découverte de règles d association et de dépendances fonctionnelles Chapitre 3 Découverte de règles d associations et de dépendances fonctionnelles. Sommaire 3.1 Introduction Découverte de règles d association basées sur les fréquents Position du problème Les fréquents Les fréquents maximaux Les fréquents fermés Découverte de dépendances fonctionnelles Introduction Tane Dep-miner Critique de dep-miner Conclusion

28 Chapitre 3 : Découverte de règles d association et de dépendances fonctionnelles 3.1. Introduction. Une règle d association est une règle du type 70 % de clients qui achètent du lait achètent aussi du pain. C est donc, à l origine, une association entre articles du panier de la ménagère des grandes surfaces de distribution qui mémorisent toutes les transactions de caisse. Les techniques d extraction de règles d association possèdent 2 étapes dissymétriques dans leur complexité. a. recherche d ensembles ayant une certaine fréquence dans la table des transactions. b. Exhibition des règles d association. L étape a étant, de loin la plus complexe, une multitude de travaux lui a été consacré à partir de l article fondateur (Agrawal, 1994) où le premier algorithme de découverte de fréquents a été introduit, l algorithme A-priori. Depuis, la notion de fréquent a été étudiée plus en profondeur pour donner les fréquent fermés (Zaki, 2002), (Pasquier, 1999) et les fréquents maximaux (Kedem, 1998). Dans ce chapitre nous introduisons aussi la découverte de dépendances fonctionnelles dans une base de données relationnelle. Les dépendances fonctionnelles s apparentent quelque peu aux règles d association mais leurs techniques de découverte diffèrent fondamentalement comme on le verra Découverte de règles d association basées sur les fréquents Position du problème. Tel que posé par (Agrawal, 1994) le problème est le suivant. Soit I = { i 1, i 2,, i m } un ensemble de littéraux appelés articles ou items. Soit D un ensemble de transactions tel que chaque T de D est un sous-ensemble de I. On dira qu une transaction T contient X, un sous-ensemble de I, si X T. Une règle d association est une implication de la forme X => Y où X I, Y I et X Y = Ø. Si s% des transactions de D contiennent X U Y, on dira que cette règle a le support s. Considérons maintenant les seules transactions de D qui contiennent X. Si c% d entre elles contiennent aussi Y, on dira que cette règle a la confiance c. Si supp() et conf() désignent le support et la confiance, respectivement, ces 2 paramètres se formulent comme suit. supp( X => Y ) = i { T i D et X T i et Y T i } / j { T j D } = s. conf( X => Y ) = supp ( X => Y )/ supp ( X ) = s / supp ( X ) = c. Les règles d association extraites de l ensemble des transactions D sont celles choisies par l utilisateur qui fixe 2 seuils minimum, minsup pour le support et minconf pour la confiance. Ensuite seules sont extraites les règles dont le support est supérieur ou égal à minsup et la confiance supérieure ou égale à minconf. 28

29 Chapitre 3 : Découverte de règles d association et de dépendances fonctionnelles On peut maintenant préciser les 2 étapes du processus de découverte de règles d association. 1. Découvrir les ensembles d items, appelés itemsets, de support supérieur ou égal à minsup. 2. Utiliser ces itemsets pour extraire les règles d association. On peut d ores et déjà expliciter l étape 2, c'est-à-dire la façon dont les règles sont trouvées. Soit un des ensembles découverts à l étape1. Pour chacun des sous-ensembles a, non vide, de on exhibera la règle a => ( - a ) si le rapport supp( ) / supp ( a ) est au moins égal à minconf. Dans la suite nous explicitons l étape 1 selon le type d itemsets que l on veut découvrir Les fréquents. Dans (Agrawal, 1994) les ensembles extraits à l étape1 étaient appelés large itemsets, nom qui a été changé en frequent itemsets dans leur papier suivant (Agrawal, 1996). C est ce dernier, adopté par la communauté des Data-Miners, que nous utilisons. La cardinalité des fréquents dont on peut extraire des règles d association étant au minimum de 2 et au maximum de I, l algorithme A-priori les découvre progressivement des plus petits aux plus grands (algorithme A-priori ). 1. L 1 = { frequent 1-itemsets } /* trouvés dans la base des transactions */ 2. for ( k = 2 ; L k-1 Ø ; k++ ) do begin 3. C k = apriori-gen( L k-1 ); /* nouveaux candidats */ 4. forall transaction t D do begin 5. C t = subset ( C k, t ); /* candidats existent dans les transactions */ 6. forall candidate c C t 7. c.count++ ; 8. end ; 9. L k = { c C k c.count >= minsup }; 10. end; 11. Answer = k L k ; Algorithme A-priori. Dans cet algorithme un itemset de cardinalité i est dénoté i-itemset. L algorithme commence par lire la base des transactions à la recherche des 1-itemsets fréquents, puis construit progressivement les i-itemsets fréquents, i 2, grâce à la fonction apriori-gen qui fait la jointure de 2 (i-1)-itemsets fréquents qui ne diffèrent que par un seul item, en vérifiant que cet i-itemset existe bien dans les transactions, grâce à la fonction subset(). Cette façon de procéder est basée sur les intuitions, démontrées dans (Pasquier, 2000), suivantes. - Tous les sous-ensembles d un itemset fréquent sont eux-mêmes fréquents. 29

30 Chapitre 3 : Découverte de règles d association et de dépendances fonctionnelles - Tous les sur-ensembles d un itemset non fréquent sont non fréquents. On peut considérer que l algorithme A-priori va rechercher le premier i-itemset non fréquent, en parcourant tous ses sous-ensembles fréquents, puis s arrête Les fréquents maximaux. Y a-t-il un moyen de trouver rapidement cet i-itemset non fréquent sans considérer ces sous-ensembles? Cette idée est à la base des fréquents maximaux (Kedem, 1998) qui sont caractérisés par leur recherche dans les transactions en combinant, sous forme de co-routines, une recherche ascendante, pour les itemsets de plus en plus grands, et une recherche descendante, pour les itemsets de plus en plus petits. Le principe de leur recherche est le suivant. Si, par le biais de la recherche descendante, un itemset a été classé fréquent, il est inutile de poursuivre la recherche vers ses sous-ensembles dont on est sûr qu ils sont fréquents. D un autre côté, si par le biais de la recherche ascendante, un itemset a été classé non fréquent, il est inutile de poursuivre la recherche vers ses sur-ensembles dont on est sûr qu ils sont non fréquents Les fréquents fermés. Toujours dans leur tentative de réduire l espace de recherche des fréquents, certains travaux (Pasquier, 1999) (Zaki, 2002) (Agrawal, 1996)ont introduit la notion de fermé (donc de fermé fréquent). Ceci est effectué en considérant, simultanément, l ensemble des items et l ensemble des transactions. Cette idée a été entrevue sans être explicitée par (Agrawal, 1996) dans leur nouvel algorithme A-prioriTid, mais les résultats fondés sont dans (Pasquier, 1999). Le fondement théorique de la caractérisation des fermés est le suivant. Si l on met en correspondance, grâce à une fonction f, l ensemble des items avec l ensemble des transactions où ils apparaissent. Puis on met en correspondance, grâce à une fonction h, l ensemble des transactions avec l ensemble des items qu elles contiennent, on arrive à caractériser les fermés comme étant les éléments identiques obtenus par (fog) et (gof) (Pasquier, 1999). L ensemble des fermés, munis de la relation d inclusion forment un treillis de Galois. Un résultat important de (Pasquier, 1999) dit que l ensemble des fréquents maximaux est identique à l ensemble des fréquents maximaux fermés. 30

31 Chapitre 3 : Découverte de règles d association et de dépendances fonctionnelles 3.3 Découverte de dépendances fonctionnelles Introduction. Parmi les diverses méthodes (Flach, 2000) (Lopes, 2000), (Huhtala, 1998) de découverte de dépendances fonctionnelles, nous en décrivons 2 qui utilisent le partitionnement de le relation r en classes d équivalence, selon les valeurs des attributs de r. Soit X = X 1 X 2 X n un sous-ensemble d attributs de R. Deux tuples, t et u, sont dits équivalents par rapport à X si i on a t [ X i ] = u [ X i ]. L ensemble des classes d équivalences par rapport à X est une partition de r selon X ; elle est notée Π X. Exemple. Soit la relation r de schéma R = ABCDE suivante (Lopes, 2000). No de tuple A B C D E b a i i g b a 12 Les partitions selon chacun des attributs sont. Π A = { {1,2},{3},{4},{5},{6},{7} }. Π B = { {1,6},{2,7},{3,4},{5} }. Π C = { {1},{2},{3},{4,5},{6},{7} } Π D = { {1,6},{2,7},{3,4},{5} }. Π E = { {1,6},{2,7},{3,4,5} } Tane. (Huhtala, 1998) Tane exploite la propriété de raffinement entre partitions pour inférer des dépendances fonctionnelles. 31

32 Chapitre 3 : Découverte de règles d association et de dépendances fonctionnelles Une partition Π raffine une partition Π si chaque classe d équivalence de Π est un sousensemble d une classe d équivalence de Π. Les dépendances fonctionnelles sont découvertes grâce aux deux lemmes suivants. Lemme1. X -> A est valide dans r si et seulement si Π X raffine Π A. Lemme2. X -> A est valide dans r si et seulement si Π X = Π AUX Dep-miner. (Lopes, 2000) Dep-miner utilise la notion d ensemble en accord défini pour 2 tuples t et u différents, comme étant l ensemble des attributs pour lesquels t et u ont les mêmes valeurs. Un ensemble en accord est noté ag (t,u ) = { A R / t [ A ] = u [ A ] } Pour une relation r, on définit aussi un ensemble en accord comme étant Ag ( r ) = { ag ( t, u ) / t,u r, t u }. Avant de voir l utilité de l ensemble en accord pour une relation, signalons que son calcul utilise les classes d équivalence telle que l on vient de les voir. On introduit d abord la notion de partition élaguée, qui est une partition sans singleton. Pour l exemple ci-dessus les partitions élaguées sont. Π e A = { {1,2}. Π e B = { {1,6},{2,7},{3,4} } Π e C = {{4,5} } Π e D = { {1,6},{2,7},{3,4} } Π e E = { {1,6},{2,7},{3,4,5} }. La réunion des partition élaguée donne r e, en général différente de r. On définit ensuite les classes d équivalence maximales comme étant MC = Max ( ) { c Π e A / Π e A r e } Pour notre exemple MC = {{1,2},{1,6},{2,7},{3,4,5} }. Les ensembles en accord de la relation r sont reliés aux classes d équivalences 32

33 Chapitre 3 : Découverte de règles d association et de dépendances fonctionnelles maximales, c, par le Lemme1 r étant une relation, on a ag ( r ) = U c MC ag ( c ). Une autre notion est définie vis-à-vis des dépendances fonctionnelles. Il s agit des ensembles maximaux. Un ensemble maximal est un ensemble d attributs, X, qui ne détermine pas un certain attribut, A, mais dont tout sur-ensemble strict le détermine dans une relation r. Il est noté et défini comme max ( dep( r ), A ) = { X R / r X -> A et Y R, X Y, r = Y-> A}. On note aussi, pour toute la relation MAX ( dep ( r ) ) = U A R max ( dep(r), A). Les ensembles maximaux sont reliés aux ensembles en accord par le Lemme 2 Max(dep(r),A) = Max { X ag(r) / A X }. Pour découvrir les parties gauches des dépendances fonctionnelles dont la partie droite est A, l idée de (Lopes, 2000) est de trouver des sur ensembles minimaux de max(dep ( r ), A ). Pour cela il construit d abord ce qu il appelle le complément des ensembles maximaux, noté cmax ( dep ( r ), A ). Par définition, la réunion d un élément de max ( dep ( r ), A) avec son homologue de cmax(dep( r ), A) donne un Y tel que Y -> A, mais comment être sûr qu il n existe pas de Y tel que Y Y et Y -> A de telle sorte à assurer que les dépendances obtenues sont minimales? Pour ce faire (Lopes, 2000) s appuie sur un résultat de (Mannila, 1994a) et (Mannila, 1994b) qui, établissant que les éléments de cmax(dep ( r ), A) forment un hypergraphe simple (Berge, 1976), montrent que les parties gauches minimales sont les transversaux minimaux de cet hypergraphe Critique de dep-miner et de Tane L ensemble des partitions élaguées peut être vide; dans ce cas l algorithme depminer est indéterminé. Cette situation correspond au cas où tous les tuples sont différents selon tous les attributs, comme sur l exemple ci-dessous. No tuple A B C

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy. Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

République Algérienne Démocratique et Populaire

République Algérienne Démocratique et Populaire République Algérienne Démocratique et Populaire وزارة التعليم العالي والبحث العلمي Ministère de l Enseignement Supérieur et de la Recherche Scientifique UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE d ORAN

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Chapitre VIII. Les bases de données. Orientées Objet. Motivation Chapitre VIII Motivation Le modèle relationnel connaît un très grand succès et s avère très adéquat pour les applications traditionnelles des bases de données (gestion) Les bases de données Orientées Objet

Plus en détail

Etude d Algorithmes Parallèles de Data Mining

Etude d Algorithmes Parallèles de Data Mining REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes PLAN CYCLE DE VIE D'UN LOGICIEL EXPRESSION DES BESOINS SPÉCIFICATIONS DU LOGICIEL CONCEPTION DU LOGICIEL LA PROGRAMMATION TESTS ET MISE AU POINT DOCUMENTATION CONCLUSION C.Crochepeyre Génie Logiciel Diapason

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Bases de Données. Plan

Bases de Données. Plan Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Qu est-ce qu une probabilité?

Qu est-ce qu une probabilité? Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

1 Introduction et installation

1 Introduction et installation TP d introduction aux bases de données 1 TP d introduction aux bases de données Le but de ce TP est d apprendre à manipuler des bases de données. Dans le cadre du programme d informatique pour tous, on

Plus en détail

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies INF 232: Langages et Automates Travaux Dirigés Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies Année Académique 2013-2014 Année Académique 2013-2014 UNIVERSITÉ JOSEPH

Plus en détail

Rappel sur les bases de données

Rappel sur les bases de données Rappel sur les bases de données 1) Généralités 1.1 Base de données et système de gestion de base de donnés: définitions Une base de données est un ensemble de données stockées de manière structurée permettant

Plus en détail

Bases de données. Chapitre 1. Introduction

Bases de données. Chapitre 1. Introduction Références : Bases de données Pierre Wolper Email : pw@montefiore.ulg.ac.be URL : http : //www.montefiore.ulg.ac.be/~pw/ http : //www.montefiore.ulg.ac.be/ ~pw/cours/bd.html Henry F. Korth, Abraham Silberschatz,

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Le langage SQL Rappels

Le langage SQL Rappels Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,

Plus en détail

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Calculer avec Sage. Revision : 417 du 1 er juillet 2010 Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Chapitre 2. Eléments pour comprendre un énoncé

Chapitre 2. Eléments pour comprendre un énoncé Chapitre 2 Eléments pour comprendre un énoncé Ce chapitre est consacré à la compréhension d un énoncé. Pour démontrer un énoncé donné, il faut se reporter au chapitre suivant. Les tables de vérité données

Plus en détail

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

CONCEPTION Support de cours n 3 DE BASES DE DONNEES CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Calculs de probabilités

Calculs de probabilités Calculs de probabilités Mathématiques Générales B Université de Genève Sylvain Sardy 13 mars 2008 1. Définitions et notations 1 L origine des probabilités est l analyse de jeux de hasard, tels que pile

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

Temps forts départementaux. Le calcul au cycle 2 Technique opératoire La soustraction

Temps forts départementaux. Le calcul au cycle 2 Technique opératoire La soustraction Temps forts départementaux Le calcul au cycle 2 Technique opératoire La soustraction Calcul au cycle 2 La soustraction fait partie du champ opératoire additif D un point de vue strictement mathématique,

Plus en détail

Modèles et simulations informatiques des problèmes de coopération entre agents

Modèles et simulations informatiques des problèmes de coopération entre agents Modèles et simulations informatiques des problèmes de coopération entre agents Bruno Beaufils LIFL Axe CIM Équipe SMAC Laboratoire d'informatique Plan 1. Motivations 2. Dilemme itéré du prisonnier 3. Simulations

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques : MTH EN JEN 2013-2014 Elèves de seconde, première et terminale scientifiques : Lycée Michel Montaigne : HERITEL ôme T S POLLOZE Hélène 1 S SOK Sophie 1 S Eteindre Lycée Sud Médoc : ROSIO Gauthier 2 nd PELGE

Plus en détail

Formula Negator, Outil de négation de formule.

Formula Negator, Outil de négation de formule. Formula Negator, Outil de négation de formule. Aymerick Savary 1,2, Mathieu Lassale 1,2, Jean-Louis Lanet 1 et Marc Frappier 2 1 Université de Limoges 2 Université de Sherbrooke Résumé. Cet article présente

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Rapport de stage d initiation

Rapport de stage d initiation Ministère de l enseignement supérieur et de la recherche scientifique Direction Générale des Études Technologiques Institut Supérieur des Etudes Technologiques de SILIANA Département Technologies de l

Plus en détail

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2 éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Guide du/de la candidat/e pour l élaboration du dossier ciblé

Guide du/de la candidat/e pour l élaboration du dossier ciblé Guide du/de la candidat/e pour l élaboration du dossier ciblé en vue de l obtention du titre de "Conseiller ère diplômé e en orientation professionnelle, universitaire et de carrière" par la validation

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Définitions. Numéro à préciser. (Durée : )

Définitions. Numéro à préciser. (Durée : ) Numéro à préciser (Durée : ) On étudie dans ce problème l ordre lexicographique pour les mots sur un alphabet fini et plusieurs constructions des cycles de De Bruijn. Les trois parties sont largement indépendantes.

Plus en détail

Chap. 3: Le modèle de données entité-association (E.A.)

Chap. 3: Le modèle de données entité-association (E.A.) Chap. 3: Le modèle de données entité-association (E.A.) En anglais: Entity-Relationship (ER) Origines: C.Bachman (1969), P.Chen (1976). Modèle de données > décrire la réalité perçue à travers les données

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Écriture de journal. (Virement de dépense)

Écriture de journal. (Virement de dépense) Écriture de journal (Virement de dépense) SERVICE DES FINANCES Équipe de formation PeopleSoft version 8.9 Août 2014 TABLES DES MATIERES AVERTISSEMENT... 3 INTRODUCTION... 4 RAISONS JUSTIFIANT LA CRÉATION

Plus en détail

UML (Diagramme de classes) Unified Modeling Language

UML (Diagramme de classes) Unified Modeling Language UML (Diagramme de classes) Unified Modeling Language Sommaire Introduction Objectifs Diagramme de classes Classe (Nom, attribut, opération) Visibilité et portée des constituants d une classe Association

Plus en détail

Chapitre 1 Cinématique du point matériel

Chapitre 1 Cinématique du point matériel Chapitre 1 Cinématique du point matériel 7 1.1. Introduction 1.1.1. Domaine d étude Le programme de mécanique de math sup se limite à l étude de la mécanique classique. Sont exclus : la relativité et la

Plus en détail

Probabilités. C. Charignon. I Cours 3

Probabilités. C. Charignon. I Cours 3 Probabilités C. Charignon Table des matières I Cours 3 1 Dénombrements 3 1.1 Cardinal.................................................. 3 1.1.1 Définition............................................. 3

Plus en détail

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et

Plus en détail

Le produit semi-direct

Le produit semi-direct Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

LA CONDUITE D UNE MISSION D AUDIT INTERNE

LA CONDUITE D UNE MISSION D AUDIT INTERNE 1 LA CONDUITE D UNE MISSION D AUDIT INTERNE Toute mission d Audit est réalisée en trois étapes essentielles: 1 ère étape : La préparation de la mission 2 ème étape : La réalisation de la mission 3 ème

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

LE MODELE CONCEPTUEL DE DONNEES

LE MODELE CONCEPTUEL DE DONNEES LE MODELE CONCEPTUEL DE DONNEES Principe : A partir d'un cahier des charges, concevoir de manière visuelle les différents liens qui existent entre les différentes données. Les différentes étapes de réalisation.

Plus en détail

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Chapitre 5 LE MODELE ENTITE - ASSOCIATION Chapitre 5 LE MODELE ENTITE - ASSOCIATION 1 Introduction Conception d une base de données Domaine d application complexe : description abstraite des concepts indépendamment de leur implémentation sous

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

Méthodes d évolution de modèle produit dans les systèmes du type PLM

Méthodes d évolution de modèle produit dans les systèmes du type PLM Résumé de thèse étendu Méthodes d évolution de modèle produit dans les systèmes du type PLM Seyed Hamedreza IZADPANAH Table des matières 1. Introduction...2 2. Approche «Ingénierie Dirigée par les Modèles»

Plus en détail

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE Le cours de la première année concerne les sujets de 9ème et 10ème années scolaires. Il y a bien sûr des différences puisque nous commençons par exemple par

Plus en détail

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE SûretéGlobale.Org La Guitonnière 49770 La Meignanne Téléphone : +33 241 777 886 Télécopie : +33 241 200 987 Portable : +33 6 83 01 01 80 Adresse de messagerie : c.courtois@sureteglobale.org APPORT DES

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Format de l avis d efficience

Format de l avis d efficience AVIS D EFFICIENCE Format de l avis d efficience Juillet 2013 Commission évaluation économique et de santé publique Ce document est téléchargeable sur www.has-sante.fr Haute Autorité de santé Service documentation

Plus en détail

Dossier I Découverte de Base d Open Office

Dossier I Découverte de Base d Open Office ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire

Plus en détail

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Bachir Bekka Février 2007 Le théorème de Perron-Frobenius a d importantes applications en probabilités (chaines

Plus en détail

Bases de données relationnelles

Bases de données relationnelles Bases de données relationnelles Système de Gestion de Bases de Données Une base de données est un ensemble de données mémorisé par un ordinateur, organisé selon un modèle et accessible à de nombreuses

Plus en détail

ÉPREUVE COMMUNE DE TIPE 2008 - Partie D

ÉPREUVE COMMUNE DE TIPE 2008 - Partie D ÉPREUVE COMMUNE DE TIPE 2008 - Partie D TITRE : Les Fonctions de Hachage Temps de préparation :.. 2 h 15 minutes Temps de présentation devant le jury :.10 minutes Entretien avec le jury :..10 minutes GUIDE

Plus en détail

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1 Chap 4: Analyse syntaxique 1 III- L'analyse syntaxique: 1- Le rôle d'un analyseur syntaxique 2- Grammaires non contextuelles 3- Ecriture d'une grammaire 4- Les méthodes d'analyse 5- L'analyse LL(1) 6-

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

Annexe 6. Notions d ordonnancement.

Annexe 6. Notions d ordonnancement. Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document

Plus en détail

Chapitre 0 Introduction à la cinématique

Chapitre 0 Introduction à la cinématique Chapitre 0 Introduction à la cinématique Plan Vitesse, accélération Coordonnées polaires Exercices corrigés Vitesse, Accélération La cinématique est l étude du mouvement Elle suppose donc l existence à

Plus en détail