Les techniques d exploitation de données (Data Mining)
|
|
|
- Sarah Simoneau
- il y a 10 ans
- Total affichages :
Transcription
1 Les techniques d exploitation de données (Data Mining) 1 Présenté par : Emer Mestiri, M.sc Finance, Data Scientist Conseiller Gestion de risque de crédit, Mouvement Desjardins
2 Sommaire 2 I. Logiciel SAS Miner I.1 Présentation I.2 Forces et inconvénients 1.3 Interface de travail 1.4 Nœuds et tâches II. Techniques d exploitation de données II.1 Méthode des ensembles II.2 Classes rares II.3 Machine à support vectoriel
3 I. Logiciel SAS Miner 3 I.1 Présentation Repose sur le socle commun de l ensemble des solutions décisionnelles de SAS; Conçu pour fonctionner avec les technologies SAS d intégration et d analyse de données et de reporting; Industrialise le processus de data mining pour but de définir les modèles de prédiction et de segmentations;
4 I.2 Forces 4 Modèles prédéfinis et auto-documenté ; Utilisation simple et flexible ; Interface intuitive et déploiement facile des processus ; Outils de validation et d évaluation des modèles ; Une Plus-Value décisionnelle plus importante ;
5 I.2 Inconvénients 5 Des serveurs de grande capacité; Une Licence plus dispendieuse; Peu ou pas de programmation ;
6 I.3 Interface de travail 6 La barre des raccourcis La fenêtre des projets S.E.M.M.A (Sample, Explore, Modify, Model, Assess) Propriétés des projets Diagramme ou espace de travail Propriétés générales et aide pour le projet
7 I.4 Nœuds et tâches 7 Échantillonnage : 1. Identifier et définir l'ensemble des variables; 2. Créer de façon aléatoire des échantillons; 3. Partitionner les données sous forme de données d apprentissage, de validation et de test; Exploration : 1. Définir les relations entre des variables; 2. Identifier les valeurs extrêmes et les valeurs aberrantes; 3. Bâtir des règles d association, de segmentation «Clustering» et/ou de l analyse factorielle; 4. Sélectionner les variables significatives à l aide de critères comme R2,Khi-2, AIC, BIC etc.;
8 I.4 Nœuds et tâches 8
9 I.4 Nœuds et tâches (suite) 9 Modification : 1. Transformer les variables existantes ou créer des variables supplémentaires; 2. Remplacer les valeurs manquantes et filtrer les données ; Modèle : 1. Décider des modèles statistiques ou des modèles de prévision (moindres carrés, régression linéaire/logistique, arbre de décision, réseaux de neurones ou la méthode d ensemble); 2. Ajuster les modèles par l'utilisateur dans la fenêtre des propriétés des projets; Évaluation : 1. Comparer la performance des différents modèles en affichant les estimations des erreurs quadratiques, le taux de mauvaises classifications ou des graphiques/tableaux (exemple: la courbe ROC). 2. Choisir le groupe d échantillon des données (Validation ou test).
10 I.4 Nœuds et tâches (Modifier) 10
11 I.4 Nœuds et tâches (Évaluation) 11
12 II. Techniques d exploitation de données 12 II.1 Méthodes des ensembles Définition: La méthode d ensembles est un ensemble de modèles dont les prédictions sont combinées d une certaine manière (typiquement une moyenne pondérée ou non des valeurs prédites) afin de prédire de nouvelles données.
13 II.1 Méthodes des ensembles 13 Objectifs des méthodes d ensemble : 1. Précision : Une moyenne de plusieurs mesures répétées est plus précise qu une mesure individuelle. Une moyenne de valeurs prédites par différents modèles est souvent plus précise que la valeur prédite à l aide d un seul modèle. 1. Stabilité : Une moyenne est beaucoup plus stable qu une seule mesure.
14 II.1 Méthodes des ensembles 14 Variables explicatives 1. Variables continues: La moyenne des valeurs prédites par chaque modèle. 2. Variables nominales, ordinales ou intervalles : La moyenne de la probabilité a posteriori de chaque modèle pour chaque classe de la variable cible (La classe la plus populaire).
15 II.1 Méthodes des ensembles 15 Présentation du sujet : a) Une compagnie de télécommunication ; b) Une base de données qui contient des informations sur le comportement de ses clients (nbre de minutes d appels, nbre de plaintes, les forfaits etc.) ; c) Prédire le taux de rétention de ses clients ; Les modèles utilisés : a) Le Bagging ; b) Le Boosting ; c) Les forêts aléatoires ;
16 II.1 Méthodes des ensembles 16
17 II.1 Méthodes des ensembles 17
18 II.1 Méthodes des ensembles 18
19 II.1 Méthodes des ensembles 19 Exécuter la tache «Fin de Traitement en Groupe» pour fermer la boucle du Bagging
20 II.1 Méthodes des ensembles 20
21 II.1 Méthodes des ensembles 21
22 II.1 Méthodes des ensembles 22 Exécuter la tache «Fin de Traitement en Groupe» pour fermer la boucle du Boosting
23 II.1 Méthodes des ensembles 23
24 II.1 Méthodes des ensembles 24
25 II.1 Méthodes des ensembles 25
26 II.1 Méthodes des ensembles 26
27 II.1 Méthodes des ensembles 27
28 II.1 Méthodes des ensembles 28
29 II.1 Classes rares 29 Objectifs du modèle des classes rares : 1. Détecter ou prédire des événements relativement rares (<5%) ; 2. Éviter la réalisations des événements à conséquences coûteuses (écrasement d avion, maladie rare, fraude, etc.); Méthodes de prévisions pour les classes rares 3. Un sur-échantillonnage de la classe rare (sous-échantillonnage de la classe majoritaire; 4. Méthodes basées sur le coût de classifier incorrectement les observations ;
30 II.1 Classes rares 30
31 II.1 Classes rares Sans ajustement Avec ajustement 31
32 II.1 Classes rares 32 Sans ajustement Avec ajustement
33 III.3 Machine à support vectoriel (SVM) 33 Objectifs du modèle SVM: 1. Résoudre des problèmes de discrimination ou de régression ; 2. Modéliser des phénomènes non linéaires; 3. Une précision importante des prédictions dans certains problèmes (Bioinformatique, recherche informatique, etc.);
34 III.3 Machine à support vectoriel (SVM) 34 Les observations sur les 2 frontières sont le SVM Comment nous pouvons classifier ces observations? Toutes ces droites séparent bien les deux classes. Laquelle choisir? Seules les observations sur les frontières sont importantes Le meilleur classificateur linéaire est celui qui a la marge maximale!!!
35 III.3 Machine à support vectoriel (SVM) 35 Limites : 1. Le Nœud HP SVM de SAS EM peut seulement être utilisé pour les variables binaires ; 2. Les variables manquantes sont supprimées de l analyse => imputer les valeurs manquantes; 3. Difficile à interpréter les modèles ;
36 III.3 Machine à support vectoriel (SVM) 36
37 III.3 Machine à support vectoriel (SVM) 37
38 III.3 Machine à support vectoriel (SVM) 38
39 Questions 39
40 Annexes 40 Échantillonnage : Ajouter : Ajout des tables Partitionnement des données : Partitionne les données en plusieurs tables (Apprentissage, validation et test) Importation de fichier : Importer un fichier externe Filtrer : Supprime des données en fonction des critères définis Données en entrée : fournit des détails sur les variables contenues dans la table à étudier Fusionner : Le nœud fusion crée de nouvelles tables ou vues en combinant des colonnes de plusieurs tables Échantillonnage : Crée un échantillon de donnée
41 Annexes 41 Exploration : Association : Effectue une étude d association et recherche de séquence Classe : Effectue une classification des observations pouvant être utilisée pour segmenter les bases de données (Analyse factorielle) DMDB : Calcule les statistiques descriptives à l aide de la procédure DMBD Graphiques interactifs : Générer des rapports graphiques et des graphiques interactifs Analyse des liens : Effectue une analyse de liens Panier de consommation : Réalise une analyse du panier de consommation pour les données avec une potentielle taxinomie Multiples graphiques statiques : Génère divers graphiques et courbes sur la totalité des données Analyse de chemins : Analyse les données Web prétraitées journalisées SOM/Kohonen : Effectue un apprentissage non supervisé en utilisant la quantification vectorielle de Kohonen (VQ), les cartes auto-organisatrices de Kohonen (SOM) ou un lot de cartes de Kohonen avec un lissage de Nadaraya-Watson ou un lissage linéaire local. Statistiques exploratoires : Génère des statistiques univariées et bivariées. Classification des variables : Divise un ensemble de variables explicatives en classes disjointes ou hiérarchiques Sélection de variables : Offre un outil permettant de réduire le nombre de variables explicatives en utilisant les critères de sélection R² et Khi-2, etc.
42 Annexes 42 Modifier : Supprimer : Supprime physiquement des colonnes de la table d'analyse. Imputer : Impute les valeurs manquantes Discrétisation interactive : Groupe les valeurs des variables dans des classes qui peuvent être utilisées comme entrées dans le modèle prédictif. Composantes principales : Génère des composantes principales à utiliser comme entrées dans les noeuds successeurs. Remplacement : Remplace les modalités spécifiques et inconnues pour les variables qualitatives Générateur de règles : Vous permet de générer manuellement des règles conditionnelles ("if-then-else"). Transformer les variables : Applique des transformations aux variables de la table
43 Annexes 43 Modèle : Neurones automatiques : Le réseau de neurones automatiques est un outil qui aide à trouver la configuration optimale d'un modèle de réseau de neurones. Arbre de décision : Un arbre empirique représente une segmentation des données créée à l'aide d'une série de règles simples. Régression Dmine : Calcule une régression ascendante pas-à-pas des moindres carrés incluant de manière facultative des interactions bidirectionnelles, des variables de groupe et les variables AOV16. DMNeural : Crée un réseau de neurones sur les composantes principales découpées en classes. Ensemble : Le noeud Ensemble crée un nouveau modèle en reprenant une fonction de probabilité a posteriori (pour les variables à expliquer qualitatives) ou les valeurs prédites (pour les variables à expliquer continues) de plusieurs modèles Gradient Boosting : Crée une série d'arbres de décision en ajustant les résidus d'une prédiction à partir de l'arbre le plus récent de la série. LARS : Least Angle Regressions MBR : Le noeud Raisonnement à base de cas (MBR) crée un modèle de prévision des cibles nominales et binaires basé sur ses k plus proches voisins à partir d'une table d'apprentissage. Importation des modèles : Vous permet d'importer et d'évaluer un modèle qui n'a pas été créé avec un des noeuds de modélisation d'enterprise Miner. Réseau de neurones : Les réseaux de neurones correspondent à une classe de modèles de régression non linéaires flexibles, de modèles discriminants et de modèles de réduction des données interconnectés dans un système dynamique non linéaire. Moindres carrés partiels : Fournit plusieurs techniques de modélisation prédictive utilisant des variables latentes.
44 Annexes 44 Modèle : Régression : Ajuste les modèles de régression linéaire et logistique. Modélisation d événement : Ce noeud crée des modèles de classification dans le but d'améliorer la classification des événements rares dans la variable à expliquer. TwoStage : Modélise une variable qualitative et continue à expliquer. En général, la variable à expliquer continue est la valeur associée à un niveau de la variable à expliquer qualitative. Évaluation : Seuil : Nœud de seuil pour décisions cibles binaires Décision : Utilisez le nœud Décisions pour créer ou modifier les données de décision nécessaires à la création de modèles basés sur la valeur des décisions et/ou les probabilités a priori. Comparaison de modèle : Compare les modèles et prédictions de noeuds de modélisation précédents Scoring : Le nœud Scoring applique le script de scoring à une table dont le rôle est SCORING. Profil de segment : Utilisez le nœud Profil du segment pour examiner les données segmentées ou regroupées et identifier les facteurs qui différencient les segments de données de la population.
45 Annexes 45 Utilitaires : Point de regroupement : Établit un point de regroupement au sein du diagramme. Fin de traitement en groupe : Détermine une fin au traitement en groupe. A utiliser avec un noeud Début de traitement en groupe. Ext Demo : tool that illustrates the various UI elements that can be used by extension nodes Métadonnées : Le noeud Métadonnées permet de modifier les métadonnées des variables. Intégration Open Source : Soumet les programmes écrits dans les langages "open source". Inscrire un modèle : Inscrivez un modèle sur le SAS Metadata Server.
46 Annexes 46 Utilitaires : Générateur de rapports : Génère un document pour les noeuds dans le flux de processus. Code SAS : Exécute un programme SAS Enregistrer les données : Enregistre les données sous forme de tables SAS ou dans d'autres formats à un emplacement spécifié. Exportation du script de scoring : Le noeud Exportation du script de scoring extraie le script et les métadonnées de scoring dans un dossier. Il doit être précédé par un noeud Scoring. Début de traitement en groupe : Vous pouvez utiliser le noeud Début de traitement en groupe pour exécuter un flux sur plusieurs groupes d'observations ou de variables. Cette propriété va de pair avec un noeud Fin de traitement en groupe.
47 Annexes 47 Applications: Réponses incrémentale : Réponse incrémentale - Modélisation Survie : Data Mining de survie Série chronologique : Corrélation TS : Analyse l'autocorrélation et la corrélation croisée des données de la série chronologique. Préparation des données : Permet le nettoyage, l'agrégation, la transformation, la transposition, etc. des données de série chronologique. Décomposition de la série chronologique : Calcule la décomposition saisonnière classique des données de la série chronologique. Réduction de la dimension TS : Réduit la dimension des séries chronologiques à l'aide de la transformation par ondelettes discrète (DWT), la transformation de Fourier discrète (TFD), la décomposition de la valeur singulière ou l'approximation du segment de droite. Lissage exponentiel TS : Génère des prévisions à l'aide de modèles de lissage exponentiel avec des constantes de lissage optimisées pour un grand nombre de séries chronologiques. Similarité des séries chronologiques : Calcule les mesures de similarité associées aux données horodatées ou de série chronologique.
48 Annexes 48 Text Minig : Classification du texte : Le noeud Classification du texte est utilisé pour réaliser une analyse de classification sur une collection de documents. Le noeud Classification du texte doit être précédé de noeuds Décomposition du texte et Filtre du texte, et peut également être précédé d'un noeud Thèmes du texte. Filtre du texte : Appliquer des filtres pour réduire le nombre de termes ou de documents qui seront analysés. Le noeud Filtre du texte doit être précédé du noeud Décomposition du texte et peut être suivi d'un autre noeud Filtre du texte et d'un noeud Thèmes du texte. Importation du texte : Extrait le texte à partir de documents contenus dans un répertoire et crée une table de résultats. Le noeud Importation de texte peut également analyser le Web en commençant à partir d'une URL indiquée, et extraire les pages Web qu'il trouve. Décomposition du texte : Décomposer une collection de documents afin de quantifier l information concernant les termes présents dans les documents. Le nœud de décomposition s applique à des données textuelles telles que les courriers électroniques, articles de presse, pages Web, publications et enquêtes. Profil du texte : Le noeud Profil du texte est utilisé pour associer les termes descriptifs avec différents niveaux d'une variable à expliquer. Générateur de règles : Le nœud Générateur de règles génère un ensemble ordonné de règles booléennes qui serviront à décrire et prédire une variable cible. Le nœud doit être précédé des nœuds Décomposition du texte et Filtre du texte. Thème du texte : Le noeud Thèmes du texte est utilisé pour détecter automatiquement des thèmes à partir d'une collection de documents. Pour chaque thème créé, une variable est ajoutée à la table d'apprentissage que le noeud exporte. Le noeud Thèmes du texte doit être précédé du noeud Décomposition du texte et peut être suivi d'un ou plusieurs autres noeuds Filtre du texte.
Que fait SAS Enterprise Miner?
Développez une connaissance plus précise avec un processus data mining plus productif La transformation de données brutes en informations utiles reste une problématique pour les entreprises. Pour apporter
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Coup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Le Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
L'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Christophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.
2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle
Les algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
SAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
INTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Améliorer les performances du site par l'utilisation de techniques de Web Mining
Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN [email protected] [email protected] 2001 Sommaire
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Apprentissage Automatique
Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Traitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision
Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous
Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»
Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI [email protected] 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :
Agenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
L apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Pourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Spécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala [email protected] http://chirouble.univ-lyon2.fr/~ricco/data-mining
Complet Intuitif Efficace. Références
Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute
CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING
CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de
Arbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Méthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Introduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours
Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres [email protected] LIA/Université d Avignon Cours/TP
Cycle de formation certifiante Sphinx
Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives
Une comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
IBM SPSS Forecasting. Créez des prévisions d'expert en un clin d'œil. Points clés. IBM Software Business Analytics
IBM SPSS Statistics 19 IBM SPSS Forecasting Créez des prévisions d'expert en un clin d'œil Points clés Développer des prévisions fiables rapidement Réduire les erreurs de prévision Mettre à jour et gérer
Formation continue. Ensae-Ensai Formation Continue (Cepe)
CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat
" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!
"# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8
Table des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Guide de l utilisateur de IBM SPSS Modeler 15
Guide de l utilisateur de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 272. Cette version s
Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner
Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation
Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS
Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES
UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************
************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Guide d exploration de base de données de IBM SPSS Modeler 15
Guide d exploration de base de données de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p.. Cette
IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur
IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Avis sur p. 24.
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion [email protected],
Travaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES [email protected] 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Fast and furious decision tree induction
Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline
La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Filière Informatique de gestion. Facturation par APDRG : prédiction des recettes des cas non codés
Travail de diplôme 2007 Filière Informatique de gestion Facturation par APDRG : prédiction des recettes des cas non codés PrediRec Etudiant : Mathieu Giotta Professeur : Henning Mueller www.hevs.ch SIMAV
Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.
Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 [email protected] http://www.sas.com/france/academic SAS dans
Didier MOUNIEN Samantha MOINEAUX
Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?
Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS
1er semestre UE1-01 E Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS Introduction au système SAS 25,5
Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
Principe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
IBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...
SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... 3 Introduction... 3 Échelle Interactive... 4 Navigation
Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC
Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche
UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand
UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand Service méthodes statistiques Institut National d Etudes Démographiques (Ined)
SAP BusinessObjects Web Intelligence (WebI) BI 4
Présentation de la Business Intelligence 1. Outils de Business Intelligence 15 2. Historique des logiciels décisionnels 16 3. La suite de logiciels SAP BusinessObjects Business Intelligence Platform 18
Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR
Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains
Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining
Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences
ANALYSE STATISTIQUE PRÉDICTIVE
Yoshua Bengio Chaire de Recherche du Canada sur les Algorithmes d Apprentissage Statistique, Université de Montréal Charles Dugas ApSTAT Technologies Inc. Et Aviva Canada SALON INTELLIGENCE D AFFAIRE 8
1 Importer et modifier des données avec R Commander
Université de Nantes 2015/2016 UFR des Sciences et Techniques Département de Mathématiques TP1 STATISTIQUE DESCRIPTIVE Frédéric Lavancier Avant propos Ouvrir l application R Saisir dans la console library(rcmdr)
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Projet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Uplift Guide de l'utilisateur. Version 7.0A
Uplift Guide de l'utilisateur Version 7.0A 2013 Pitney Bowes Software Inc. Tous droits réservés. Ce document peut contenir des informations confidentielles et exclusives appartenant à Pitney Bowes Inc
Big Data et Prévisions. Philippe Picard, le 24 juin 2015. Page 1
Big Data et Prévisions Philippe Picard, le 24 juin 2015. Page 1 Vous dites prévisions et prédictions? Neptune Météo Marées Boson de Higgs Loto PMU Economie Sismique + Nostradamus _ Philippe Picard, le
UltraBackup NetStation 4. Guide de démarrage rapide
UltraBackup NetStation 4 Guide de démarrage rapide Table des matières 1 Fonctionnalités... 3 1.1 Ce qu UltraBackup NetStation permet de faire... 3 1.2 Ce qu UltraBackup NetStation ne permet pas de faire...
Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA
Master Exploration Informatique des données Data Mining & Business Intelligence Groupe 5 Piotr BENSALEM Ahmed BENSI Evelyne CHARIFOU Priscillia CASSANDRA Enseignant Françoise FOGELMAN Nicolas DULIAN SOMMAIRE
ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab
ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab notre compétence d'éditeur à votre service créée en juin 2010, Scilab enterprises propose services et support autour
Plan de notre intervention 1. Pourquoi le test de charge? 2. Les différents types de tests de charge 1.1. Le test de performance 1.2.
Plan de notre intervention 1. Pourquoi le test de charge? 2. Les différents types de tests de charge 1.1. Le test de performance 1.2. Le test aux limites 3. Méthode 2.1. Pré-requis 2.2. Préparation des
Algorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Codage hiérarchique et multirésolution (JPEG 2000) Codage Vidéo. Représentation de la couleur. Codage canal et codes correcteurs d erreur
Codage hiérarchique et multirésolution (JPEG 000) Codage Vidéo Représentation de la couleur Codage canal et codes correcteurs d erreur Format vectoriel (SVG - Scalable Vector Graphics) Organisation de
Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.
Master Mathématiques et Applications Spécialité : Ingénierie mathématique et modélisation Parcours : Mathématique et Informatique : Statistique, Signal, Santé (MI3S) 2015-2016 RÉSUMÉ DES COURS : (dernière
1 Description générale de VISFIELD
Guide d utilisation du logiciel VISFIELD Yann FRAIGNEAU LIMSI-CNRS, Bâtiment 508, BP 133 F-91403 Orsay cedex, France 11 décembre 2012 1 Description générale de VISFIELD VISFIELD est un programme écrit
NetCrunch 6. Superviser
AdRem NetCrunch 6 Serveur de supervision réseau Avec NetCrunch, vous serez toujours informé de ce qui se passe avec vos applications, serveurs et équipements réseaux critiques. Documenter Découvrez la
Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]
Objectif Utiliser les techniques de gestion de la mise en cache pour contrôler et améliorer les performances des requêtes Définir des mesures simples et des mesures calculées pour une table de faits Créer
Formation Actuaire Data Scientist. Programme au 24 octobre 2014
Formation Actuaire Data Scientist Programme au 24 octobre 2014 A. Eléments logiciels et programmation Python 24h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques
Résumé des communications des Intervenants
Enseignements de la 1ere semaine (du 01 au 07 décembre 2014) I. Titre du cours : Introduction au calcul stochastique pour la finance Intervenante : Prof. M hamed EDDAHBI Dans le calcul différentiel dit
4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour [email protected] Une grande partie des illustrations viennent
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
LES MODELES DE SCORE
LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d
La place de SAS dans l'informatique décisionnelle
La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie
Analyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
BLANC LIVRE. Data Discovery L alternative à la BI?
ata Discovery L alternative à la BI? Data Discovey L alternative à la BI? Data Discovery L alternative la BI? Data Discovery L alternative à la BI? Data iscovery L alternative à la BI? Data Discovery L
Université de Montréal. par Sylvain Pannetier Lebeuf
Université de Montréal Prédiction de l attrition en date de renouvellement en assurance automobile avec l aide de processus gaussiens par Sylvain Pannetier Lebeuf Département de mathématiques et statistiques
Figure 3.1- Lancement du Gambit
3.1. Introduction Le logiciel Gambit est un mailleur 2D/3D; pré-processeur qui permet de mailler des domaines de géométrie d un problème de CFD (Computational Fluid Dynamics).Il génère des fichiers*.msh
