Machine Learning avec Weka

Dimension: px
Commencer à balayer dès la page:

Download "Machine Learning avec Weka"

Transcription

1 Machine Learning avec Weka Module X8II090 - Cours 1 Florian Boudin Département informatique, Université de Nantes Révision 1 du 4 janvier 2012

2 Plan Préambule Introduction Traitement des données Format d entrée Pré-traitement des données Classification Les algorithmes de classification dans Weka Les méthodes de base Entraînement et sauvegarde des modèles dans Weka Évaluation de l apprentissage Conclusion 04 jan 2012 / Rév. 1 - page 2 sur 53

3 Objectifs et notions abordées Objectif principal : être capable d utiliser le toolkit Weka Interface graphique Outil en ligne de commande Ce cours reprend les exemples ainsi que la méthodologie du livre Data Mining par Witten & Frank Site web du cours 04 jan 2012 / Rév. 1 - page 3 sur 53

4 Motivations La fécondation in vitro (procréation médicalement assistée) Collecte d ovules et de spermatozoïdes Fécondation de plusieurs embryons Comment choisir les "meilleurs" embryons à implanter? Nombre de cellules, régularité, fragmentation,... (± 60 critères) L éleveur de Nouvelle-Zélande Habituellement 20% des vaches sont abattues en fin de saison Comment choisir les vaches pour l abattoir? Reproduction, quantité et qualité du lait, problèmes de santé, âge, amour de l éleveur,... (± 700 critères) Autres exemples : reconnaissance du code postal, filtrage anti-spams, radars automatiques L exploration de données et l apprentissage sont partout! 04 jan 2012 / Rév. 1 - page 4 sur 53

5 Plan Préambule Introduction Traitement des données Classification Évaluation de l apprentissage Conclusion 04 jan 2012 / Rév. 1 - page 5 sur 53

6 D ou vient le nom Weka? Alan Vernon via Wikimedia Commons 04 jan 2012 / Rév. 1 - page 6 sur 53

7 Présentation de Weka (1) Weka (Waikato Environment for Knowledge Analysis) Environnement Waikato pour l analyse de connaissances Suite de logiciels d apprentissage automatique et d exploration de données écrite en Java Développée à l université de Waikato en Nouvelle-Zélande Historique 1993, Développement de la version originale en C 1997, Re-développement à partir de zéro en Java 2005, Weka reçoit le SIG KDD award 2006, Pentaho Corporation acquiert une licence exclusive 04 jan 2012 / Rév. 1 - page 7 sur 53

8 Présentation de Weka (2) downloads sur Sourceforge (2011) Disponible pour toutes les plateformes Windows x86, Windows x64, Mac OS X, Linux etc. Documentation riche et communauté large Le livre Data Mining : Practical Machine Learning Tools and Techniques (troisième édition) API Wiki FAQ Tutoriels, mailing list, etc. 04 jan 2012 / Rév. 1 - page 8 sur 53

9 Que contient le toolkit Weka? Outils de pré-traitement des données (filtering) Sélection, transformation, combinaison d attributs, normalisation, re-échantillonnage, etc. Algorithmes pour l exploration de données Clustering, classification, régression, etc. Analyse de résultats Évaluation de performances, comparaison d algorithmes, etc. Plusieurs interfaces Graphiques (Explorer, Experimenter et Knowledge Flow) En ligne de commande (CLI) 04 jan 2012 / Rév. 1 - page 9 sur 53

10 Aperçu de l interface de Weka 04 jan 2012 / Rév. 1 - page 10 sur 53

11 Utilisation de l outil en ligne de commande L interface graphique est suffisante pour les premières expériences L interface en CLI est recommandée pour une utilisation plus poussée Elle offre des fonctionnalités supplémentaires Elle utilise beaucoup moins de mémoire Penser à : Augmenter le maximum heap size de Java (-Xmx1024M) Ajouter weka.jar dans CLASSPATH 04 jan 2012 / Rév. 1 - page 11 sur 53

12 Plan Préambule Introduction Traitement des données Format d entrée Pré-traitement des données Classification Évaluation de l apprentissage Conclusion 04 jan 2012 / Rév. 1 - page 12 sur 53

13 Format d entrée (1) Le format d entrée par défaut de Weka est le ARFF (Attribute Relation File Format) D autres formats peuvent être importés CSV, binaire, BDD SQL (avec JDBC), à partir d une URL, etc. Caractéristiques du format de fichier ARFF : 1. Les commentaires sont précédés de % % Ceci est un commentaire dans un ensemble % de donnees. 2. Définition du nom de l ensemble de données Le nom doit être aussi compréhensible que temperaturemaison_14jours 04 jan 2012 / Rév. 1 - page 13 sur 53

14 Format d entrée (2) 3. Définition des features Attributs nominaux suivis des valeurs entre outlook {sunny, overcast, rainy} Attributs numériques avec temperature real Attributs chaines avec string, les valeurs doivent être entre doubles guillemets "blah blih untexte string Attributs dates avec date (yyyy-mm-dd-thh :mm unedate date signale le début des instances 04 jan 2012 / Rév. 1 - page 14 sur 53

15 Exemple de fichier ARFF % Ensemble de donnees sur la weather % Definition des outlook {sunny, overcast, temperature humidity windy {TRUE, play {yes, no} % Debut des sunny,85,85,false,no sunny,80,90,true,no overcast,83,86,false,yes rainy,70,96,false,yes jan 2012 / Rév. 1 - page 15 sur 53

16 Format d entrée (3) Par défaut, le dernier attribut est considéré comme la variable de classe / à prédire En CLI, la commande -c permet de choisir la variable à prédire, e.g. -c 1 spécifie le premier attribut Dans le cas de données éparses, il est possible de compresser les données en ne représentant pas explicitement les valeurs 0 Le format est <index><espace><valeur> % Instances contenant beaucoup de 0 0, 6, 0, 0, 0, 0, 3, 0, 0, 0, "class A" 0, 0, 0, 4, 0, 0, 0, 0, 0, 0, "class B" % Instances compressees avec des accolades {1 6, 6 3, 10 "class A"} {3 4, 10 "class B"} 04 jan 2012 / Rév. 1 - page 16 sur 53

17 Format d entrée (4) Les outils de visualisation sont très utiles ARFFviewer : visualisation, modification, tri, etc. Explorer : chargement des données, histogrammes, etc. Apprendre à voir les données Les histogrammes et les courbes montrent les dépendances Trop de données prendre un extrait Démonstration 1 Visualisation et modification du contenu d un fichier ARFF Chargement et visualisation des courbes Conversion ARFF CSV 04 jan 2012 / Rév. 1 - page 17 sur 53

18 Plan Préambule Introduction Traitement des données Format d entrée Pré-traitement des données Classification Évaluation de l apprentissage Conclusion 04 jan 2012 / Rév. 1 - page 18 sur 53

19 Pré-traitement des données (1) Les pré-traitements dans Weka sont effectués grâce aux filtres Les filtres permettent de modifier les ensemble de données : supprimer ou ajouter des attributs, ré-échantillonner, supprimer des exemples, etc. Le package weka.filters dispose de deux types de filtres Filtres non supervisés Filtres supervisés, i.e. tirant parti de l information de la classe Il existe des filtres pour les attributs et pour les exemples Attention à l évaluation des résultats, les filtres supervisés utilisent les valeurs de classes et peuvent biaiser les résultats 04 jan 2012 / Rév. 1 - page 19 sur 53

20 Pré-traitement des données (2) Plusieurs dizaines de filtres Ajout, suppression et copie d attributs (Add, Remove et Copy) Ajout de bruit (AddNoise) Fusion d attributs (Merge) Conversion (NominalToBinary, StringToBinary, etc.) Anonymer (Obfuscate) Méthode de discrétisation (Discretize) Exemple d application d un filtre avec l Exlorer et en CLI 04 jan 2012 / Rév. 1 - page 20 sur 53

21 Application d un filtre : normalisation 04 jan 2012 / Rév. 1 - page 21 sur 53

22 Application d un filtre : normalisation 04 jan 2012 / Rév. 1 - page 21 sur 53

23 Application d un filtre : normalisation 04 jan 2012 / Rév. 1 - page 21 sur 53

24 Application d un filtre : normalisation Avec un clic droit sur le nom du filtre, il est possible d obtenir plus de détails sur son fonctionnement. Il est également possible de modifier certains paramètres. 04 jan 2012 / Rév. 1 - page 21 sur 53

25 Application d un filtre : normalisation Le filtre a normalisé toutes les valeurs numériques de l ensemble de données dans l intervalle [0, 1]. 04 jan 2012 / Rév. 1 - page 21 sur 53

26 Application d un filtre en CLI Tous les filtres disposent des options -i et -o pour spécifier l ensemble de données d entrée et de sortie L option -h permet d obtenir la liste des options disponibles Supprimer les deux premiers attributs d un ensemble de données java weka.filters.unsupervised.attribute.remove -R 1-2 -i data1.arff -o data2.arff Créer un sous ensemble préservant la distribution des classes java weka.filters.supervised.instance.resample -i data1.arff -o data1-5%.arff -c last -Z 5 04 jan 2012 / Rév. 1 - page 22 sur 53

27 Pré-traitement des données (3) Le pré-traitement des données est très important, et il a un impact majeur sur la qualité de l apprentissage Démonstration 2 Chargement des données Application de filtres avec l explorer (ajout de bruit, anonymer) 04 jan 2012 / Rév. 1 - page 23 sur 53

28 Plan Préambule Introduction Traitement des données Classification Les algorithmes de classification dans Weka Les méthodes de base Entraînement et sauvegarde des modèles dans Weka Évaluation de l apprentissage Conclusion 04 jan 2012 / Rév. 1 - page 24 sur 53

29 Les algorithmes de classification Les classifieurs dans Weka sont des modèles pour prédire des valeurs nominales ou numériques Algorithmes de classification inclus Arbres de décision Classification bayésienne naïve Machine à vecteurs de support (SVM) Perceptron multi-couche Réseau bayésien, etc. Des meta-classifieurs Combinaison Bagging Boosting, etc. 04 jan 2012 / Rév. 1 - page 25 sur 53

30 L onglet Classify dans l Explorer 04 jan 2012 / Rév. 1 - page 26 sur 53

31 Plan Préambule Introduction Traitement des données Classification Les algorithmes de classification dans Weka Les méthodes de base Règles de classification Classification Bayésienne probabiliste Les arbres de décision Entraînement et sauvegarde des modèles dans Weka Évaluation de l apprentissage Conclusion 04 jan 2012 / Rév. 1 - page 27 sur 53

32 Déduction de règles de classification Trouver des règles de classification simples (1R pour 1-rule) Idée Une règle pour chaque attribut Une branche pour chacune des valeurs des attributs Pseudocode pour 1R Pour chaque attribut Pour chaque valeur de cet attribut, creer une regle Compter combien de fois chaque classe apparait Trouver la classe la plus frequente Creer une regle : attribut-valeur -> classe Calculer le taux d'erreur de la regle Choisir les regles avec le plus petit taux d'erreur 04 jan 2012 / Rév. 1 - page 28 sur 53

33 Déduction de règles de classification outlook {sunny,overcast,rainy} temperature numeric humidity numeric windy {TRUE,FALSE} play sunny,85,85,false,no sunny,80,90,true,no overcast,83,86,false,yes rainy,70,96,false,yes rainy,68,80,false,yes rainy,65,70,true,no overcast,64,65,true,yes sunny,72,95,false,no sunny,69,70,false,yes rainy,75,80,false,yes sunny,75,70,true,yes overcast,72,90,true,yes overcast,81,75,false,yes rainy,71,91,true,no Attributs Règles Erreurs Total 1 outlook sunny no 2/5 4/14 overcast yes 0/4 rainy yes 2/5 2 temperature 85 no 0/1?/14 83 yes 0/ humidity 96 yes 0/1?/14 95 no 0/ windy false yes 2/8 5/14 true no 3/6 choix aléatoire de la meilleur règle 04 jan 2012 / Rév. 1 - page 29 sur 53

34 Déduction de règles de classification outlook {sunny,overcast,rainy} temperature numeric humidity numeric windy {TRUE,FALSE} play sunny,85,85,false,no sunny,80,90,true,no overcast,83,86,false,yes rainy,70,96,false,yes rainy,68,80,false,yes rainy,65,70,true,no overcast,64,65,true,yes sunny,72,95,false,no sunny,69,70,false,yes rainy,75,80,false,yes sunny,75,70,true,yes overcast,72,90,true,yes overcast,81,75,false,yes rainy,71,91,true,no Attributs Règles Erreurs Total 1 outlook sunny no 2/5 4/14 overcast yes 0/4 rainy yes 2/5 2 temperature 85 no 0/1?/14 83 yes 0/ humidity 96 yes 0/1?/14 95 no 0/ windy false yes 2/8 5/14 true no 3/6 choix aléatoire de la meilleur règle 04 jan 2012 / Rév. 1 - page 29 sur 53

35 Déduction de règles de classification outlook {sunny,overcast,rainy} temperature numeric humidity numeric windy {TRUE,FALSE} play sunny,85,85,false,no sunny,80,90,true,no overcast,83,86,false,yes rainy,70,96,false,yes rainy,68,80,false,yes rainy,65,70,true,no overcast,64,65,true,yes sunny,72,95,false,no sunny,69,70,false,yes rainy,75,80,false,yes sunny,75,70,true,yes overcast,72,90,true,yes overcast,81,75,false,yes rainy,71,91,true,no Attributs Règles Erreurs Total 1 outlook sunny no 2/5 4/14 overcast yes 0/4 rainy yes 2/5 2 temperature 85 no 0/1?/14 83 yes 0/ humidity 96 yes 0/1?/14 95 no 0/ windy false yes 2/8 5/14 true no 3/6 choix aléatoire de la meilleur règle 04 jan 2012 / Rév. 1 - page 29 sur 53

36 Déduction de règles de classification outlook {sunny,overcast,rainy} temperature numeric humidity numeric windy {TRUE,FALSE} play sunny,85,85,false,no sunny,80,90,true,no overcast,83,86,false,yes rainy,70,96,false,yes rainy,68,80,false,yes rainy,65,70,true,no overcast,64,65,true,yes sunny,72,95,false,no sunny,69,70,false,yes rainy,75,80,false,yes sunny,75,70,true,yes overcast,72,90,true,yes overcast,81,75,false,yes rainy,71,91,true,no Attributs Règles Erreurs Total 1 outlook sunny no 2/5 4/14 overcast yes 0/4 rainy yes 2/5 2 temperature 85 no 0/1?/14 83 yes 0/ humidity 96 yes 0/1?/14 95 no 0/ windy false yes 2/8 5/14 true no 3/6 choix aléatoire de la meilleur règle Problème avec les attributs numériques 04 jan 2012 / Rév. 1 - page 29 sur 53

37 Classification 1-R dans Weka 04 jan 2012 / Rév. 1 - page 30 sur 53

38 Discrétisation des données Comment convertir les attributs numériques en attributs nominaux pour pouvoir créer des règles? Il faut discrétiser les attributs numériques yes no yes yes yes no no yes yes yes no yes yes no 04 jan 2012 / Rév. 1 - page 31 sur 53

39 Discrétisation des données Comment convertir les attributs numériques en attributs nominaux pour pouvoir créer des règles? Il faut discrétiser les attributs numériques yes no yes yes yes no no yes yes yes no yes yes no Création (automatique) de 8 catégories en découpant aux points 64.5, 66.5, 70.5, 72, 77.5, 80.5 et 84 1-R n utilise qu un attribut! Utiliser tous les attributs, chacun contribuant à la décision 04 jan 2012 / Rév. 1 - page 31 sur 53

40 Plan Préambule Introduction Traitement des données Classification Les algorithmes de classification dans Weka Les méthodes de base Règles de classification Classification Bayésienne probabiliste Les arbres de décision Entraînement et sauvegarde des modèles dans Weka Évaluation de l apprentissage Conclusion 04 jan 2012 / Rév. 1 - page 32 sur 53

41 Ensemble de données outlook {sunny, overcast, temperature {hot, mild, humidity {high, windy {TRUE, play {yes, sunny,hot,high,false,no sunny,hot,high,true,no overcast,hot,high,false,yes rainy,mild,high,false,yes rainy,cool,normal,false,yes rainy,cool,normal,true,no overcast,cool,normal,true,yes jan 2012 / Rév. 1 - page 33 sur 53

42 Classification Bayésienne probabiliste I Méthode simple et intuitive basée sur le théorème de Bayes P(H E) = P(E H)P(H) P(E) Ou H est l hypothèse à tester et E l évidence associée à H, P(H) est une probabilité a priori Calcul des probabilités conditionnelles à partir des instances P(E H) P(outlook : sunny yes), P(windy : TRUE yes),... P(H) P(yes), P(no) 04 jan 2012 / Rév. 1 - page 34 sur 53

43 Classification Bayésienne probabiliste sunny,hot,high,false,no sunny,hot,high,true,no overcast,hot,high,false,yes rainy,mild,high,false,yes rainy,cool,normal,false,yes rainy,cool,normal,true,no overcast,cool,normal,true,yes sunny,mild,high,false,no sunny,cool,normal,false,yes rainy,mild,normal,false,yes sunny,mild,normal,true,yes overcast,mild,high,true,yes overcast,hot,normal,false,yes rainy,mild,high,true,no P(outlook : sunny yes) = 2/9 P(outlook : sunny no) = 3/5 P(windy : TRUE yes) = 3/9... P(yes) = 9/14 P(no) = 5/14 04 jan 2012 / Rév. 1 - page 35 sur 53

44 Classification Bayésienne probabiliste (2) Outlook Temperature Humidity Windy Play value yes no value yes no value yes no value yes no yes no sunny 2/9 3/5 hot 2/9 2/5 high 3/9 4/5 false 6/9 2/5 9/14 5/14 overcast 4/9 0/5 mild 4/9 2/5 normal 6/9 1/5 true 3/9 3/5 rainy 3/9 2/5 cool 3/9 1/5 Un nouvel exemple arrive : ( sunny ; cool ; high ; true ;? ) 04 jan 2012 / Rév. 1 - page 36 sur 53

45 Classification Bayésienne probabiliste (2) Outlook Temperature Humidity Windy Play value yes no value yes no value yes no value yes no yes no sunny 2/9 3/5 hot 2/9 2/5 high 3/9 4/5 false 6/9 2/5 9/14 5/14 overcast 4/9 0/5 mild 4/9 2/5 normal 6/9 1/5 true 3/9 3/5 rainy 3/9 2/5 cool 3/9 1/5 Un nouvel exemple arrive : ( sunny ; cool ; high ; true ;? ) 04 jan 2012 / Rév. 1 - page 36 sur 53

46 Classification Bayésienne probabiliste (2) Outlook Temperature Humidity Windy Play value yes no value yes no value yes no value yes no yes no sunny 2/9 3/5 hot 2/9 2/5 high 3/9 4/5 false 6/9 2/5 9/14 5/14 overcast 4/9 0/5 mild 4/9 2/5 normal 6/9 1/5 true 3/9 3/5 rainy 3/9 2/5 cool 3/9 1/5 Un nouvel exemple arrive : ( sunny ; cool ; high ; true ;? ) Vraisemblance de yes : 2/9 3/9 3/9 3/9 9/14 = jan 2012 / Rév. 1 - page 36 sur 53

47 Classification Bayésienne probabiliste (2) Outlook Temperature Humidity Windy Play value yes no value yes no value yes no value yes no yes no sunny 2/9 3/5 hot 2/9 2/5 high 3/9 4/5 false 6/9 2/5 9/14 5/14 overcast 4/9 0/5 mild 4/9 2/5 normal 6/9 1/5 true 3/9 3/5 rainy 3/9 2/5 cool 3/9 1/5 Un nouvel exemple arrive : ( sunny ; cool ; high ; true ;? ) Vraisemblance de yes : 2/9 3/9 3/9 3/9 9/14 = Vraisemblance de no : 3/5 1/5 4/5 3/5 5/14 = jan 2012 / Rév. 1 - page 36 sur 53

48 Classification Bayésienne probabiliste (2) Outlook Temperature Humidity Windy Play value yes no value yes no value yes no value yes no yes no sunny 2/9 3/5 hot 2/9 2/5 high 3/9 4/5 false 6/9 2/5 9/14 5/14 overcast 4/9 0/5 mild 4/9 2/5 normal 6/9 1/5 true 3/9 3/5 rainy 3/9 2/5 cool 3/9 1/5 Un nouvel exemple arrive : ( sunny ; cool ; high ; true ;? ) Vraisemblance de yes : 2/9 3/9 3/9 3/9 9/14 = Vraisemblance de no : 3/5 1/5 4/5 3/5 5/14 = Les nombres peuvent être changés en probabilités Probabilité de yes = / ( ) = 20.5% Probabilité de no = / ( ) = 79.5% 04 jan 2012 / Rév. 1 - page 36 sur 53

49 Classification Bayésienne probabiliste (3) Méthode simple et intuitive basée sur le théorème de Bayes P(H E) = P(E H)P(H) P(E) Ou H est l hypothèse à tester et E l évidence associée à H, P(H) est une probabilité a priori Reprise de l exemple précédent outlook : sunny ; temperature : cool ; humidity : high ; windy : true P(yes E) = P(sunny yes) P(cool yes) P(high yes) P(true yes) P(yes) P(E) P(yes E) = 2/9 3/9 3/9 3/9 9/14 P(E) 04 jan 2012 / Rév. 1 - page 37 sur 53

50 Plan Préambule Introduction Traitement des données Classification Les algorithmes de classification dans Weka Les méthodes de base Règles de classification Classification Bayésienne probabiliste Les arbres de décision Entraînement et sauvegarde des modèles dans Weka Évaluation de l apprentissage Conclusion 04 jan 2012 / Rév. 1 - page 38 sur 53

51 Les arbres de décision Processus récursif Sélectionner un attribut en noeud racine et ajouter une branche pour chacune des valeurs possibles Répéter le processus pour chaque branche, utilisant uniquement les attributs qui atteignent la branche Quel attribut choisir? Celui qui divise de la manière la plus pure mesure de pureté 04 jan 2012 / Rév. 1 - page 39 sur 53

52 Les arbres de décision Processus récursif Sélectionner un attribut en noeud racine et ajouter une branche pour chacune des valeurs possibles Répéter le processus pour chaque branche, utilisant uniquement les attributs qui atteignent la branche Quel attribut choisir? Celui qui divise de la manière la plus pure mesure de pureté 04 jan 2012 / Rév. 1 - page 39 sur 53

53 Les arbres de décision Processus récursif Sélectionner un attribut en noeud racine et ajouter une branche pour chacune des valeurs possibles Répéter le processus pour chaque branche, utilisant uniquement les attributs qui atteignent la branche Quel attribut choisir? Celui qui divise de la manière la plus pure mesure de pureté 04 jan 2012 / Rév. 1 - page 39 sur 53

54 Classification J48 dans Weka 04 jan 2012 / Rév. 1 - page 40 sur 53

55 Plan Préambule Introduction Traitement des données Classification Les algorithmes de classification dans Weka Les méthodes de base Entraînement et sauvegarde des modèles dans Weka Évaluation de l apprentissage Conclusion 04 jan 2012 / Rév. 1 - page 41 sur 53

56 Entraînement et sauvegarde des modèles (1) 04 jan 2012 / Rév. 1 - page 42 sur 53

57 Entraînement et sauvegarde des modèles (2) L option -t spécifie l ensemble de données d entraînement et -d permet de sauvegarder le modèle construit java weka.classifiers.trees.j48 -t train.arff -d j48.model L option -l permet de charger un modèle sauvegardé et -T spécifie l ensemble de données de test java weka.classifiers.trees.j48 -l j48.model -T test.arff Chaque classifieur a un format de modèle binaire différent, un modèle ne pourra être lu que par le même classifieur 04 jan 2012 / Rév. 1 - page 43 sur 53

58 Entraînement et sauvegarde des modèles (3) Weka contient de très nombreux algorithmes de classification regroupés en catégories : bayes, functions, rules, trees, etc. Attention : il faut installer LibSVM pour que Weka puisse l utiliser Démonstration 3 Entraînement de modèles simples (Explorer) Sauvegarde/chargement des modèles Présentation d Akinator (arbre de recherche) 04 jan 2012 / Rév. 1 - page 44 sur 53

59 Plan Préambule Introduction Traitement des données Classification Évaluation de l apprentissage Conclusion 04 jan 2012 / Rév. 1 - page 45 sur 53

60 Mesures de performance Matrice de confusion classe réelle oui classe prédite non oui vrai positif (TP) faux negatif (FN) non faux positif (FP) vrai negatif (TN) Calcul des mesures classiques Précision = TP TP + FP Rappel = TP TP + FN f-mesure = 2 P R (P + R) Les erreurs n ont pas toutes le même impact : matrice de coût 04 jan 2012 / Rév. 1 - page 46 sur 53

61 Découpage des données Situation idéale : grand ensemble de données d entraînement et ensemble de données de test distinct Découpage des données en deux sous-ensembles Ensemble d entraînement (e.g. 66%) Ensemble de test (e.g. 33%) Validation croisée en n strates Partitionnement en n sous-ensembles n 1 sous-ensembles utilisé en entraînement et 1 pour le test Processus répété n fois (un par partitionnement) 04 jan 2012 / Rév. 1 - page 47 sur 53

62 Découpage des données avec l Explorer 04 jan 2012 / Rév. 1 - page 48 sur 53

63 Évaluation du modèle avec l Explorer 04 jan 2012 / Rév. 1 - page 49 sur 53

64 Découpage des données en CLI L option -T spécifie l ensemble de données de test et -i permet d afficher les informations de précision/rappel et f-mesure java weka.classifiers.trees.j48 -i -l j48.model -T weather.arff L option -split-percentage détermine le pourcentage de données qui sera utilisé pour le découpage train/test java weka.classifiers.trees.j48 -t train.arff -split-percentage 66 L option -x détermine le nombre de strates pour la validation croisée, fonctionne uniquement si -T est absent java weka.classifiers.trees.j48 -t train.arff -x jan 2012 / Rév. 1 - page 50 sur 53

65 Les différentes options de test de Weka Weka fournit un ensemble d options permettant d évaluer la qualité des modèles appris Être constant dans les paramètres d évaluation afin de pouvoir comparer les différentes méthodes Démonstration 4 Présentation des sorties par défaut Découpage 66/33 et validation croisée 04 jan 2012 / Rév. 1 - page 51 sur 53

66 Plan Préambule Introduction Traitement des données Classification Évaluation de l apprentissage Conclusion 04 jan 2012 / Rév. 1 - page 52 sur 53

67 Conclusion Aperçu des fonctionnalités de classification de Weka Présentation des méthodes de classification de base Toujours essayer la méthode la plus simple Être très rigoureux avec l évaluation des modèles Lecture conseillée de Data Mining par Witten & Frank Site web du cours 04 jan 2012 / Rév. 1 - page 53 sur 53

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1 Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1 V. Fiolet Université de Mons-Hainaut 2006-2007 Nous allons aujourd hui nous intéresser à la tâche de classification

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Data Mining. Master 1 Informatique - Mathématiques UAG

Data Mining. Master 1 Informatique - Mathématiques UAG Data Mining Master 1 Informatique - Mathématiques UAG 1.1 - Introduction Data Mining? On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

DATA MINING FOR SCIENTISTS

DATA MINING FOR SCIENTISTS DATA MINING FOR SCIENTISTS LAYACHI BENTABET, Bishop s University, Winter 2007 Notes par Philippe Giabbanelli I. Une introduction à la fouille de données 1) Les Grandes Etapes Classification. On prédit

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

TANAGRA : un logiciel gratuit pour l enseignement et la recherche TANAGRA : un logiciel gratuit pour l enseignement et la recherche Ricco Rakotomalala ERIC Université Lumière Lyon 2 5, av Mendès France 69676 Bron rakotoma@univ-lyon2.fr http://eric.univ-lyon2.fr/~ricco

Plus en détail

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

SAP BusinessObjects Web Intelligence (WebI) BI 4

SAP BusinessObjects Web Intelligence (WebI) BI 4 Présentation de la Business Intelligence 1. Outils de Business Intelligence 15 2. Historique des logiciels décisionnels 16 3. La suite de logiciels SAP BusinessObjects Business Intelligence Platform 18

Plus en détail

HighPush. document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale.

HighPush. document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale. Version du Date document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale Commentaires 1 Table des matières 1 Introduction / Identification...

Plus en détail

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013 Plan 1. Présentation générale 2. Projet 3. Travaux futurs

Plus en détail

AWS avancé. Surveiller votre utilisation d EC2

AWS avancé. Surveiller votre utilisation d EC2 10 AWS avancé Dans ce chapitre, nous bâtirons sur les bases que nous avons apprises jusqu ici. Nous étudierons des sujets plus avancés tels que la surveillance de votre utilisation d AWS, l utilisation

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy. Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de

Plus en détail

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons Ahmad OSMAN 1a, Valérie KAFTANDJIAN b, Ulf HASSLER a a Fraunhofer Development Center

Plus en détail

Tutoriel : utilisation de l outil de veille TaDaweb

Tutoriel : utilisation de l outil de veille TaDaweb Tutoriel : utilisation de l outil de veille TaDaweb Document réalisé par : Anaïs Carroux, Anaïs Chaffard, Lucie Choulet, Mylène Coconnier, Garance Foucher, Nizar Elyoussfi, Jean-Baptiste Mac Luckie, Aurélie

Plus en détail

Fouille de données (Data Mining) - Un tour d horizon -

Fouille de données (Data Mining) - Un tour d horizon - Laboratoire d Informatique Fondamentale de Lille OOPAC Fouille de données (Data Mining) - Un tour d horizon - E-G. Talbi talbi@lifl.fr Introduction au Data Mining Définition du Data Mining Pourquoi le

Plus en détail

Développement d applications Internet et réseaux avec LabVIEW. Alexandre STANURSKI National Instruments France

Développement d applications Internet et réseaux avec LabVIEW. Alexandre STANURSKI National Instruments France Développement d applications Internet et réseaux avec LabVIEW Alexandre STANURSKI National Instruments France Quelles sont les possibilités? Publication de données Génération de rapports et de documents

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

http://mondomaine.com/dossier : seul le dossier dossier sera cherché, tous les sousdomaines

http://mondomaine.com/dossier : seul le dossier dossier sera cherché, tous les sousdomaines Principales fonctionnalités de l outil Le coeur du service suivre les variations de position d un mot-clé associé à une URL sur un moteur de recherche (Google - Bing - Yahoo) dans une locale (association

Plus en détail

Introduction : présentation de la Business Intelligence

Introduction : présentation de la Business Intelligence Les exemples cités tout au long de cet ouvrage sont téléchargeables à l'adresse suivante : http://www.editions-eni.fr Saisissez la référence ENI de l'ouvrage RI3WXIBUSO dans la zone de recherche et validez.

Plus en détail

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile Dans ce TP, vous apprendrez à définir le type abstrait Pile, à le programmer en Java à l aide d une interface

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

5. Excel 2010, le tableur collaboratif. a. Concevez des tableaux lisibles

5. Excel 2010, le tableur collaboratif. a. Concevez des tableaux lisibles 5. Excel 2010, le tableur collaboratif Avec Excel 2010, modéliser sa pensée avec des chiffres et prendre les décisions qui s imposent devient plus simple quel que soit le nombre de données que vous manipulez

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Utilisation avancée de SugarCRM Version Professional 6.5

Utilisation avancée de SugarCRM Version Professional 6.5 Utilisation avancée de SugarCRM Version Professional 6.5 Document : Utilisation_avancee_SugarCRM_6-5.docx Page : 1 / 32 Sommaire Préambule... 3 I. Les rapports... 4 1. Les principes du générateur de rapports...

Plus en détail

Évaluation et implémentation des langages

Évaluation et implémentation des langages Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation

Plus en détail

FOIRE AUX QUESTIONS ACT! 2009

FOIRE AUX QUESTIONS ACT! 2009 FOIRE AUX QUESTIONS ACT! 2009 Informations générales sur ACT! 1. Quelles sont les principales fonctionnalités d ACT!? - Gérer tous vos contacts et vos clients en toute simplicité - Communiquer avec vos

Plus en détail

Cours Plugin Eclipse. Université Paris VI / Parcours STL / Master I Pierre-Arnaud Marcelot - Iktek - pamarcelot@iktek.com

Cours Plugin Eclipse. Université Paris VI / Parcours STL / Master I Pierre-Arnaud Marcelot - Iktek - pamarcelot@iktek.com Cours Plugin Eclipse Université Paris VI / Parcours STL / Master I Pierre-Arnaud Marcelot - Iktek - pamarcelot@iktek.com 1 Qui suis-je? Ancien étudiant de Jussieu - Paris VI Diplomé du Master Technologies

Plus en détail

Nouveautés CRM 2015 & Migration. By Tanguy Touzard MVP CRM

Nouveautés CRM 2015 & Migration. By Tanguy Touzard MVP CRM Nouveautés CRM 2015 & Migration By Tanguy Touzard MVP CRM Nouvelles fonctionnalités Sécurité Recherche Hiérarchies Champs calculés/agrégés Règles métier Processus métier Catalogue produit SLA Information

Plus en détail

Accéder à ZeCoffre via FTP

Accéder à ZeCoffre via FTP Accéder à ZeCoffre via FTP Table des matières Introduction... 2 Qu est-ce que FTP... 3 Comment se connecter à ZeCoffre via FTP... 4 Connexion FTP depuis Windows / Linux / Mac OS X... 5 Connexion FTP depuis

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

Bio-Rad Laboratories CONTRÔLE DE QUALITÉ. Le logiciel de Bio-Rad pour une gestion experte du contrôle de qualité

Bio-Rad Laboratories CONTRÔLE DE QUALITÉ. Le logiciel de Bio-Rad pour une gestion experte du contrôle de qualité Bio-Rad Laboratories CONTRÔLE DE QUALITÉ Le logiciel de Bio-Rad pour une gestion experte du contrôle de qualité CONTRÔLE DE QUALITÉ 1 Unity Real Time 2.0 Unity Real Time 2.0 est un logiciel pour la gestion

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Manuel logiciel client Java

Manuel logiciel client Java Manuel logiciel client Java 2 Copyright Systancia 2012 Tous droits réservés Les informations fournies dans le présent document sont fournies à titre d information, et de ce fait ne font l objet d aucun

Plus en détail

Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG

Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG Data Mining Master 2 Informatique UAG Bibliographie (1) U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy, editors, Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996 Gilbert

Plus en détail

ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A.

ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A. ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A. - 1 - PREAMBULE Les conditions générales d utilisation détaillant l ensemble des dispositions applicables

Plus en détail

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier. PRÉSENTATION PRODUIT Plus qu un logiciel, la méthode plus efficace de réconcilier. Automatiser les réconciliations permet d optimiser l utilisation des ressources et de générer plus de rentabilité dans

Plus en détail

DEVAKI NEXTOBJET PRESENTATION. Devaki Nextobjects est un projet sous license GNU/Public.

DEVAKI NEXTOBJET PRESENTATION. Devaki Nextobjects est un projet sous license GNU/Public. DEVAKI NEXTOBJET 1 Présentation...2 Installation...3 Prérequis...3 Windows...3 Linux...3 Exécution...4 Concevoir une BDD avec Devaki NextObject...5 Nouveau MCD...5 Configurer la connexion à la base de

Plus en détail

Ricco Rakotomalala. SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel).

Ricco Rakotomalala. SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel). 1 Objectif SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel). Excel le tableur de manière général est très populaire auprès des «data scientist» 1. Mais, s il est effectivement performant

Plus en détail

Plateforme de capture et d analyse de sites Web AspirWeb

Plateforme de capture et d analyse de sites Web AspirWeb Projet Java ESIAL 2A 2009-2010 Plateforme de capture et d analyse de sites Web AspirWeb 1. Contexte Ce projet de deuxième année permet d approfondir par la pratique les méthodes et techniques acquises

Plus en détail

Business Intelligence avec Excel, Power BI et Office 365

Business Intelligence avec Excel, Power BI et Office 365 Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Sélection de Caractéristiques pour le Filtrage de Spams

Sélection de Caractéristiques pour le Filtrage de Spams Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. k_menghour@yahoo.fr, souici_labiba@yahoo.fr

Plus en détail

Outils pour les réseaux de neurones et contenu du CD-Rom

Outils pour les réseaux de neurones et contenu du CD-Rom Outils pour les réseaux de neurones et contenu du CD-Rom Depuis le développement théorique des réseaux de neurones à la fin des années 1980-1990, plusieurs outils ont été mis à la disposition des utilisateurs.

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved. Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans

Plus en détail

Programme détaillé. LES TABLEAUX DE BORD Formation en présentiel (21 h) accompagnée d un parcours e-learning Excel (5 h)

Programme détaillé. LES TABLEAUX DE BORD Formation en présentiel (21 h) accompagnée d un parcours e-learning Excel (5 h) Programme détaillé LES TABLEAUX DE BORD Formation en présentiel (21 h) accompagnée d un parcours e-learning Excel (5 h) Public : Toute personne assurant ou participant à la gestion d une entreprise (et

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Comment faire des étiquettes d adresse avec LIBREOFFICE, à partir d un fichier EXEL ou CALC

Comment faire des étiquettes d adresse avec LIBREOFFICE, à partir d un fichier EXEL ou CALC Comment faire des étiquettes d adresse avec LIBREOFFICE, à partir d un fichier EXEL ou CALC LIBREOFFICE est une suite bureautique gratuite, OPEN SOURCE, et multiplate-forme.(windows, Linux, Mac OS). Une

Plus en détail

HelpDesk. Sept avantages de HelpDesk

HelpDesk. Sept avantages de HelpDesk HelpDesk Artologik HelpDesk est l outil rêvé pour ceux qui recherchent un programme de support et de gestion des tickets alliant facilité d utilisation et puissance. Avec Artologik HelpDesk, vous pourrez

Plus en détail

Procédure d'utilisation de Password Gorilla

Procédure d'utilisation de Password Gorilla Procédure d'utilisation de Password Gorilla PROCÉDURE RÉFÉRENCE DIFFUSION Procédure d'utilisation de Password Gorilla N/A LIBRE F-QM01 Procedure utilisation Password Gorilla 1/12 Table des matières 1.

Plus en détail

NOS FORMATIONS EN BUREAUTIQUE

NOS FORMATIONS EN BUREAUTIQUE NOS FORMATIONS EN BUREAUTIQUE Par Vivien Romaric DOVI EREBYA SENEGAL «Villa N 1, cité BOURGI - Route de l'aéroport - Dakar, Sénégal» +221 77 475 74 59 info@erebya.com 1 FORMATION N 002 : Initiation à l

Plus en détail

Introduction à Eclipse

Introduction à Eclipse Introduction à Eclipse Eclipse IDE est un environnement de développement intégré libre (le terme Eclipse désigne également le projet correspondant, lancé par IBM) extensible, universel et polyvalent, permettant

Plus en détail

VIPE CNAM 6 mars 2015. Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

VIPE CNAM 6 mars 2015. Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF CNAM 6 mars 205 Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF 2 UCE / CRM-DA / PROF Application prototype pour l apprentissage multi-label interactif 2 sous-applications en ligne (utilisable par

Plus en détail

Table des matières A. Introduction... 4 B. Principes généraux... 5 C. Exemple de formule (à réaliser) :... 7 D. Exercice pour réaliser une facture

Table des matières A. Introduction... 4 B. Principes généraux... 5 C. Exemple de formule (à réaliser) :... 7 D. Exercice pour réaliser une facture Excel 2007 -2- Avertissement Ce document accompagne le cours qui a été conçu spécialement pour les stagiaires des cours de Denis Belot. Le cours a été réalisé en réponse aux diverses questions posées par

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Manuel d utilisation du site web de l ONRN

Manuel d utilisation du site web de l ONRN Manuel d utilisation du site web de l ONRN Introduction Le but premier de ce document est d expliquer comment contribuer sur le site ONRN. Le site ONRN est un site dont le contenu est géré par un outil

Plus en détail

Une ergonomie intuitive

Une ergonomie intuitive Une ergonomie intuitive Les solutions de la ligne PME offrent une interface de travail proche des usages quotidiens en informatique. Leur ergonomie intuitive facilite la prise en main du logiciel. Une

Plus en détail

CREATION D UN WINPE 3.1

CREATION D UN WINPE 3.1 CREATION D UN WINPE 3.1 Créé le 03/10/2011 Page 1 de 10 1. QU EST CE WINPE L environnement de pré-installation Windows (Windows PE) est un système d exploitation minimal conçu pour préparer un ordinateur

Plus en détail

Guide Tenrox R8.7 de configuration de Microsoft Reporting Services

Guide Tenrox R8.7 de configuration de Microsoft Reporting Services Guide Tenrox R8.7 de configuration de Microsoft Reporting Services Février 2006 Guide Tenrox R8.7 de configuration de Microsoft Reporting Services Copyright 2006 Tenrox. Tous droits réservés. Il est interdit

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

FEN FICHE EMPLOIS NUISANCES

FEN FICHE EMPLOIS NUISANCES Version 4.8.2 Date mise à jour : 19 Février 2013 Auteur : LAFUMA Gilles Email : glfm02@orange.fr Web : www.procarla.fr/soft Présentation : FEN FICHE EMPLOIS NUISANCES Le Logiciel FEN Fiche emploi nuisance

Plus en détail

Objet du document. Version document : 1.00

Objet du document. Version document : 1.00 Version document : 1.00 Objet du document Les dix points de cet article constituent les règles à connaitre pour intégrer une application au sein d AppliDis. Le site des Experts Systancia comporte également

Plus en détail

TP Bases de données réparties

TP Bases de données réparties page 1 TP Bases de données réparties requêtes réparties Version corrigée Auteur : Hubert Naacke, révision 5 mars 2003 Mots-clés: bases de données réparties, fragmentation, schéma de placement, lien, jointure

Plus en détail

WINDOWS SHAREPOINT SERVICES 2007

WINDOWS SHAREPOINT SERVICES 2007 WINDOWS SHAREPOINT SERVICES 2007 I. TABLE DES MATIÈRES II. Présentation des «content types» (Type de contenu)... 2 III. La pratique... 4 A. Description du cas... 4 B. Création des colonnes... 6 C. Création

Plus en détail

Messagerie & Groupeware. augmentez l expertise de votre capital humain

Messagerie & Groupeware. augmentez l expertise de votre capital humain Messagerie & Groupeware augmentez l expertise de votre capital humain OUTLOOK 2010* Etude des fonctionnalités d un logiciel de messagerie Tout public 1 journée MG01 Maîtrise de l environnement Windows

Plus en détail

Module d anonymisation

Module d anonymisation Module d anonymisation Préambule Ce module permet d «anonymiser» un fichier, c est à dire de masquer les informations qu il contient en fonction de règles préalablement spécifiées. Le fichier généré par

Plus en détail

5. Apprentissage pour le filtrage collaboratif

5. Apprentissage pour le filtrage collaboratif 686 PARTIE 5 : Au-delà de l apprentissage supervisé 5. Apprentissage pour le filtrage collaboratif Il semble que le nombre de choix qui nous sont ouverts augmente constamment. Films, livres, recettes,

Plus en détail

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln. MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.fr Plan Introduction Généralités sur les systèmes de détection d intrusion

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Chapitre 7. Récurrences

Chapitre 7. Récurrences Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,

Plus en détail

Groupe Eyrolles, 2005,

Groupe Eyrolles, 2005, Groupe Eyrolles, 2005, Table des matières AVANT-PROPOS...................................................... XVIII CD-Rom Mozilla Thunderbird sur le CD-Rom offert avec cet ouvrage XIX 1. INSTALLATION ET

Plus en détail

Programme des Obligations d épargne du Canada. Guide d utilisation du serveur FTPS. Version 2.4

Programme des Obligations d épargne du Canada. Guide d utilisation du serveur FTPS. Version 2.4 Programme des Obligations d épargne du Canada Guide d utilisation du serveur FTPS Version 2.4 Le 5 août 2014 Guide d utilisation du serveur FTPS Guide d utilisation du serveur FTPS Historique des mises

Plus en détail