DATA MINING : ANALYSE DE LA BASE DE DONNEES «ACTIFS.MDB»



Documents pareils
Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars Mr E.

DATA MINING - Analyses de données symboliques sur les restaurants

Université Paris IX DAUPHINE DATE : 24/04/06

Critères pour avoir la meilleure équipe!

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Dossier I Découverte de Base d Open Office

WEBSELL. Projet DATAMINING

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

La classification automatique de données quantitatives

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Reporting Services - Administration

2 Serveurs OLAP et introduction au Data Mining

Créer le schéma relationnel d une base de données ACCESS

Manuel d utilisation DeveryLoc

1 Modélisation d être mauvais payeur

Travaux pratiques avec RapidMiner

Sommaire. I.1 : Alimentation à partir d un fichier Access (.mdb)...2

Gestion des fichiers sur micro-ordinateur

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

BIRT (Business Intelligence and Reporting Tools)

PROCEDURE SAGE (immo 1000) logiciel de gestion des immobilisations

1 Introduction et installation

Manuel utilisateur Portail SAP

Le langage SQL Rappels

Initiation à la Programmation en Logique avec SISCtus Prolog

Traitement des données avec Microsoft EXCEL 2010

Proces-Verbaux Procédure de téléchargement

KPI (Key Performance Indicator) dans MOSS

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont

Encryptions, compression et partitionnement des données

1. Introduction Création d'une requête...2

Table des matières. Télécharger MetaTrader 4. Première connexion à MetaTrader 4. Se connecter à MetaTrader 4. Modifier la langue

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

Excel avancé. Frédéric Gava (MCF)

Guide de l Administrateur

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Les outils de SEO (Référencement naturel) et les Sites SharePoint Public sur Office 365

Service On Line : Gestion des Incidents

MetaTrader 4/5 pour Android. Guide de l utilisateur

Comment bien débuter sa consolidation?

Tutoriels. 01 Utiliser Praat. 02 Transcrire sous Praat en utilisant les conventions VALIBEL. Sylviane Bachy. Rédaction octobre 2005

données en connaissance et en actions?

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

LOCAL TRUST SUB. Guide d utilisation Tiers

La Clé informatique. Formation Excel XP Aide-mémoire

1. Création d'un état Création d'un état Instantané Colonnes Création d'un état Instantané Tableau... 4

LES TOUT PREMIERS PAS

INTRODUCTION AU DATA MINING

CREG : versailles.fr/spip.php?article803

Guide d information sur les OPCVM

V- Manipulations de nombres en binaire

Introduction à la B.I. Avec SQL Server 2008

Installation de SQL Server Reporting Services avec l intégration dans un site Windows SharePoint Services V3

Introduction à Business Objects. J. Akoka I. Wattiau

Manuel Cartes ristournes

les Formulaires / Sous-Formulaires Présentation Créer un formulaire à partir d une table...3

Guide de l utilisateur du Centre de gestion des licences en volume LICENCES EN VOLUME MICROSOFT

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Création et Gestion des tables

Tutoriel Atout Facture. 14/01/2015 Codelpi

TUTORIAL Microsoft Project 2010 Fonctionalités de base

SCL LOGICIEL DE CONTROL

Formation. Module WEB 4.1. Support de cours

COMPRENDRE LES DIFFERENTS TYPES DE CONNEXION LORS DE LA

Boléro. d information. Notice

MODIFICATIONS DES PRINCIPES DIRECTEURS CONCERNANT LA RÉDACTION DES DÉFINITIONS RELATIVES AU CLASSEMENT

Travailler avec les télécommunications

Formation Administrateur de Données Localisées (Prodige V3.2) Recherche et consultation des métadonnées

et les Systèmes Multidimensionnels

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

Manuel d utilisation de la base de données nationale sur la situation de l enfance en Tunisie CHILDINFO 6.0

GUIDE DU NOUVEL UTILISATEUR

La place de SAS dans l'informatique décisionnelle

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Méthode universitaire du commentaire de texte

Ingénérie logicielle dirigée par les modèles

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Skills Technology Software PARTENAIRE TECHNOLOGIQUE DE VOTRE DÉVELOPPEMENT

SG FRANCE PME. Pour profiter des opportunités du marché des PME et ETI françaises. Commercialisation jusqu au 31 juillet 2014

TP 2 Réseaux. Adresses IP, routage et sous-réseaux

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

GUIDE Excel (version débutante) Version 2013

Menu INVEST STORE. COMMENT VOUS CONNECTER SUR VOTRE CAEL AVEC OPTION BOURSE : Adresse du site

BIND : installer un serveur DNS

Statistiques Descriptives à une dimension

PARTIE A STATUTAIRE PRESENTATION SUCCINCTE : INFORMATIONS CONCERNANT LES PLACEMENTS ET LA GESTION : OPCVM conforme aux normes européennes

A QUOI SERVENT LES BASES DE DONNÉES?

Sommaire. G. Pujolle, F. Ravat, C. Soulé-Dupuy, G. Zurfluh

Cartographie Informatique Eclairage Public

Construire des plug-ins pour SAS Management Console SAS 9.1

Table des matières. 7 Gérer des ordres 5 Formater des paramètres OptionStation Pro 9

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

TUTORIEL CartoDB 11/03/15

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Bases de données. Chapitre 1. Introduction

Excel 2007 Niveau 3 Page 1

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Transcription:

EUZENADE Anne-Laure DESS 220 Informatique de gestion Université de Paris Dauphine DATA MINING : ANALYSE DE LA BASE DE DONNEES «ACTIFS.MDB» ANALYSE DE DONNEES E. DIDAY

SOMMAIRE INTRODUCTION...1 I. PRESENTATION DES DONNEES...2 A) LA BASE DE DONNEES... 2 B) LES OPCVM... 3 C) PRESENTATION DE LA BASE... 4 II. LA METHODOLOGIE D ANALYSE DES DONNEES ET PRESENTATION DE SODAS...5 A) L ANALYSE DE DONNEES SYMBOLIQUES... 5 1 - Les individus de premier et de second ordre... 5 2 - Les types de variables...5 B) UTILISATION DE SODAS... 6 1 - Présentation du logiciel... 6 2 - Fonctionnement... 7 III. ANALYSE DES DONNEES DES OPCVM...9 A) LES DONNEES SYMBOLIQUES... 9 B) UTILISATION DE SODAS... 13 3 - La méthode SOE (Symbolic Object Editor)... 13 4 - La méthode STAT... 19 5 - La méthode DIV : Divisive Clustering... 20 6 - La méthode TREE : arbre décisionnel... 23 7 - La méthode PYR... 24 CONCLUSION... 26

INTRODUCTION L objectif de ce rapport est d analyser des données grâce à un logiciel de Data mining : SODAS (Symbolic Official Data Analyse System). Le data mining est apparu dans les années 90, pour extraire des connaissances nouvelles à partir d une base de données. Le data mining tire, à partir d une vaste base de données, des «pépites», c est à dire des conclusions nouvelles quant aux données entrées dans le logiciel. Il existe de nombreux logiciels de data mining tels que Clémentine, SAS ou Oracle. Tous ont la méthodologie en commun : il faut trouver un domaine, construire une base (data warehouse), définir des questions ouvertes et le problème général. Une fois ces étapes accomplit, en rentrant en input dans le logiciel les requêtes de la base, il en sortira, en output, les réponses aux questions posées (après une brève analyse des résultats). Ainsi, tout au long de ce mémoire, nous nous attarderons sur l analyse des OPCVMs gérée par la société SG AM. La base de données regroupe des données sur les caractéristiques des OPCVMs (clients, support, devise ) et notamment sur la plus ou moins value dégagée entre la date de création et la date de fermeture. Nous pouvons aussi nous intéresser à la croissance de la valeur de ces OPCVMs entre ces deux dates. Le problème général principal sera de savoir s il est possible de tirer des conclusions quant aux caractéristiques principales d un OPCVM «rentable» (avec une plus value et une croissance importante) ou déficitaire. - 1 -

I. PRESENTATION DES DONNEES A) LA BASE DE DONNEES Les données que nous allons utilisées pour notre étude proviennent de la base de données ACCESS : Actifs.mdb. Cette base regroupe des données sur des OPCVM gérées par SG AM (Société Générale Asset Management, filière de la Société Générale). J ai choisi de conserver uniquement les données sur les OPCVM qui sont clôturées pour une meilleure interprétation des résultats. Ainsi, la plus value dégagée sera calculée sur la différence de valeur entre la date de création et la date de clôture et non pas sur les cours des OPCVMs. De plus, les données sur les OPCVM étant multiples, nous les avons réduites pour le besoins de l analyse. Ainsi, les valeurs prises au cours du temps par les OPCVMs n entrent pas en compte. Nous pouvons considérer cette base de données représentatives des OPCVM gérées par SG AM, entre 1995 et 2002. Nous pouvons alors donner le schéma relationnel de la base : - 2 -

NB : Le CodServGes correspond au numéro de service de la SGAM qui gère l OPCVM. Le TypSupport indique la composante de l OPCVM (SICAV, FCP) Le NomZoneGéo indique le nom de la zone géographique à laquelle appartient l OPCVM Le DELTA est la différence entre la valeur initiale et la valeur finale L Intervalle donne l intervalle du delta de la plus value de l OPCVM La classe est l intervalle auquel appartient la «croissance» de la valeur de l OPCVM entre sa date de clôture et sa date d ouverture (DELTA / valini). Mais avant l analyse de données, rappelons brièvement ce qu est un OPCVM : B) LES OPCVM Un OPCVM est un Organisme de Placements Collectif en Valeurs Mobilières. Il est composé d instruments financiers : Actions, Obligations ou instruments financiers divers, négociables sur le marché. Les OPCVM collectent l'épargne auprès du public afin de la placer sur les marchés financiers. Ex : SICAV ( société d investissement à capital variable ), dont la fonction est d attirer le petit épargnant. Généralement, un OPCVM est composé d un seul de ses instruments financiers mais il arrive, de plus en plus souvent, pour des raisons évidentes de sécurité, que le client souhaite diversifier sa composition. On parle alors d OPCVM diversifiés. Les OPCVM diversifiés sont donc composés de ces trois types d instruments financiers et par conséquent, on le divise en trois pour être gérées par trois gérants, chacun compétent dans son domaine. Ce sont alors les Fonds de Fonds ou alors, OPCVM d OPCVM. On parle aussi, parfois, d OPCVM de placement collectif : ce sont des OPCVM dédiés à plusieurs particuliers, pour une valeur globale. Chaque particulier achète la part qu il souhaite. C est un OPCVM à capital non fixe, c est à dire que la valeur globale de l OPCVM évolue en fonction du nombre de particuliers y adhérant. Mais on peut aussi avoir un OPCVM divisé en SICAV (capital variable) et en FCP (Capital fixe). Concernant les FCP, il y aura un nombre limité de clients dans un OPCVM de placement collectif. Nous venons d expliquer, très brièvement, la notion d OPCVM. Dans la base étudiée, à un OPCVM est associé un seul support, un seul client et un seul service de gestion, ce qui implique que les OPCVMs diversifiés ont déjà été divisés. Nous pouvons désormais décrire la base de données utilisée avec les différentes variables prises en compte. - 3 -

C) PRESENTATION DE LA BASE Voici les différentes tables : TB GLOBAL OPCVM : cette table regroupe toutes les données par OPCVM, la clé unique correspond à un code OPCVM. TypeClient : cette table stocke les différents type de client des OPCVM. Ils sont de trois sortes : les personnes morales (Entreprise, institutions etc), les personnes physiques (particuliers etc) ou le type Tous public (l OCPVM s adresse aux deux publics). La clé unique correspond à un numéro associé à chaque type de client. TypeSupport : cette table stocke les différents type de support existant pour les OPCVM : FCP divers, SICAV, Fonds dédiés etc. La clé unique correspond à un numéro unique par type de support. NalitéSupport : cette table stocke la nationalité de chaque support de l OPCVM. La clé unique correspond à un numéro unique par support. Nous pouvons ajouter que cette table est liée à TB GLOBAL OPCVM et non à Type Support car un même support peut avoir plusieurs nationalité. ZoneGéo : cette table stocke les zone géographiques des OPCVM. La clé unique est un numéro unique par zone géographique. SerGes cette table stocke le service de gestion s occupant de l OPCVM. La clé unique correspond au numéros de service utilisés chez SG AM. Toutes les tables sont reliées entre elles par un lien d intégrité référentielle. Nous venons alors de décrire les données des OPCVMs qui seront analysées ici. Mais avant de faire cette analyse, nous allons présenter le logiciel SODAS et quels sont les principes utilisés. - 4 -

II. LA METHODOLOGIE D ANALYSE DES DONNEES ET PRESENTATION DE SODAS A) L ANALYSE DE DONNEES SYMBOLIQUES Avant de commencer l analyse, il faut définir quelques notions, pour mieux comprendre l objectif et la méthodologie utilisée. 1 - Les individus de premier et de second ordre Pour analyser des données avec le logiciels SODAS, il faut identifier les individus de premier et de second ordre. Les individus de premier ordre sont des individus à part entière. On peut donner comme exemple un homme ou un chien. Les individus de second ordre sont les concepts. C est un ensemble associée à une classe. Les concepts sont définis par leurs intentions et leurs extensions. Un concepts est l ensemble des individus qui satisfait ses propriétés. Par exemple, les hommes ou les chiens. Le but de l analyse de données est d étudier les individus de premier ordre. On étend alors les méthodes utilisées aux individus de second ordre. 2 - Les types de variables Il existe différents types de variables que nous devons décrire avant de commencer l analyse : Les données uniques quantitatives : par exemple, un individu x a un seul âge y : Age(x) = y. Les données uniques nominales : par exemple, le nom de l individu x : Nom(x)= «peter» Les données multivaluées : par exemple, le nombre d enfant : nb(x) = {1, 2, 4}. C est à dire que l individu x a soit 1, soit 2 soit 4 enfants. Des intervalles : par exemple, l âge de l individu qui est : âge(x)=[22 ; 30]. L individu a entre 22 et 30 ans. - 5 -

Des taxonomies : par exemple, une ville appartient à une seule région. Et plusieurs villes peuvent appartenir à plusieurs à la même région. L ensemble de ses variables est utilisé pour constituer le tableau des données symboliques à analyser. B) UTILISATION DE SODAS Le logiciel SODAS est un logiciel issu d un projet européen avec 17 équipes de projets et financé par EURO STAT. Les principaux avantages de ce logiciel est qu il est gratuit et disponible sur Internet, sur le site : http://www.ceremade.dauphine.fr. 3 - Présentation du logiciel L analyse de données par SODAS débute à partir d une base de données, sur un logiciel Microsoft ou autre (comme ACCESS). Des requêtes doivent être faites au préalable sur le logiciel utilisé. Dans cette base de données, il faut définir les objets de premier ordre, les variables que les décrivent et les concepts. A chaque individu doit être associé un concept. Les taxonomies doivent aussi être détaillées. Après avoir fait les requêtes nécessaires sur le logiciel de base de données, il est nécessaire de tout importer sur SODAS. Ceci sera fait grâce à l interface DB2SO. Un tableau de données symboliques est alors créé. SODAS a identifié les concepts et les a décrit par une généralisation des propriétés des individus qui leur sont associés. Ce tableau est ensuite analysé par les différentes méthodes de SODAS. L utilisateur utilisera les méthodes qui lui paraissent les plus judicieuses pour son analyse. Il dispose de douze méthodes : certaines pour identifier les caractéristiques principales des concepts (SOE, STAT ), d autres pour analyser les éventuels rapprochements entre les différents concepts (DIV ou TREE ). A partir du logiciel SODAS, on fait une analyse simplifiée. Les résultats sont facilement analysables. L interface est simple et facile d utilisation. Nous pouvons décrire son fonctionnement plus précisément. - 6 -

4 - Fonctionnement L interface du logiciel SODAS est très simple. Il est composé de trois fenêtres principales, regroupant toute l analyse de données : (1) (2) (3) (1) C est la barre de menu : elle permet de créer la chaine d analyse des données. A l aide de «sodas file» / «Import», on importe les données d un logiciel de base de données (access par exemple) vers SODAS. Le menu «Chaining» / «Open» ou / «New» permet d ouvrir une chaîne déjà existante ou d en créer une. (2) C est la fenêtre des méthodes d analyse disponibles et mises au point pour SODAS. Ces méthodes peuvent être incorporer dans la chaîne pour analyser les données de la base. La méthode SOE est une méthode qui décrit graphiquement les concepts et ses variables. Elle permet de faire ressortir les caractéristiques principales de chaque concept. C est la première méthode à utiliser pour l analyse des données. Les méthodes utilisées ensuite sont choisies au grès de l utilisateur. - 7 -

(3) C est la fenêtre principale : c est la chaîne d analyse (notre analyse sur les OPCVMs ). La «case» du dessus est celle qui correspond à la base de données utilisée. C est un fichier.sds qui est généré par le DB2SO. Il comprend toutes les requêtes appelées pour l analyse. Les autres «cases» du dessous correspondent à toutes les méthodes utilisées lors de l analyse. Le symbole d une page représente le reporting des résultats de la méthode, et le schéma le plus à droite représente graphiquement les résultats, s il y en a. Il suffit de cliquer deux fois sur l icône voulu soit pour indiquer les arguments de la méthodes (et les modifier), soit pour visualiser le rapport, soit pour visualiser les résultats. Maintenant que nous avons décrit à la fois les données et le logiciel ainsi que son fonctionnement, nous pouvons commencer l analyse. - 8 -

III. ANALYSE DES DONNEES DES OPCVM A) LES DONNEES SYMBOLIQUES 5 - Les individus de premier et de second ordre Nous utilisons donc la base de données Actifs.mdb. Nous prenons comme individus de premier ordre la plus value des différentes catégories d OPCVM. Pour décrire les OPCVM, nous avons les variables suivantes : 1. La plus value dégagée entre la date de création et la date de clôture : DELTA 2. L intervalle auquel appartient la plus value : Intervalle 3. Le type de support (SICAV ou FCP) : Type support (x2) 4. Nationalité du support : Nom Nat Support 5. La date de création de l OPCVM : Date créa 6. le type de client (personne morale ) : NomTypClient 7. L OPCVM est elle «tout public»? : Tout public 8. La nationalité du client : Nationalité Client 9. Fonds de Fonds : Fds de fds 10. La référence du continent sur lequel est basé l OPCVM : N ZoneGéo 11. La zone géographique à laquelle appartient l OPCVM : Nom Zone Géo 12. La classe d augmentation de la valeur de l OPCVM : classe 13. La localisation du service de gestion de l OPCVM : Localisation 14. Plus ou moins value : PV ou MV 15. Le service de gestion de l OPCVM : NomSerGes 16. La devise de l OPCVM : RefDevInv 17. Fonds de groupe : Fds Groupe 18. Pays de l OPCVM : RefPays 19. Le numéro de la société qui gère l OPCVM : N Stéges 20. La division de la SGAM qui gère l OPCVM : DivisionRattchmt Enfin, les concepts sont les intervalles des plus values générées, groupées avec la «croissance» de la valeur de l OPCVM entre sa création et sa clôture. Ces concepts sont des variables qualitatives par définitions car ce sont une chaîne de caractères. On obtient ainsi 18 concepts : - Une plus value comprise entre 0 et 10 000 avec une croissance entre 1 et 5-9 -

- Une plus value comprise entre 0 et 10 000 avec une croissance inférieure à 1 - Une plus value comprise entre 0 et 10 000 avec une croissance entre 0 et 1 - Une plus value comprise entre 0 et 10 000 avec une croissance de 0 - Une plus value comprise entre 0 et 10 000 avec une croissance supérieure à 5 - Une plus value comprise entre 10 000 et 0, avec une croissance entre 5 et 1 - Une plus value comprise entre 10 000 et 0, avec une croissance entre 0 et 1 - Une plus value comprise entre 10 000 et 50 000, avec une croissance entre 1 et 5 - Une plus value comprise entre 10 000 et 50 000 avec une croissance entre 0 et 1 - Une plus value comprise entre 10 000 et 50 000 avec une croissance supérieure à 5 - Une plus value comprise entre 100 000 et 50 000 avec une croissance entre 5 et 1 - Une plus value comprise entre 100 000 et 50 000 avec une croissance entre 5 et -1 - Une plus value comprise entre -50 000 et -10 000 avec une croissance entre 5 et 1 - Une plus value comprise entre 50 000 et 10 000 avec une croissance entre 1 et 0 - Une plus value entre 50 000 et 100 000 avec une croissance entre 1 et 5 - Une plus value entre 50 000 et 100 000 avec une croissance supérieure à 5 - Une plus value inférieure à -100 000 avec une croissance entre 5 et 1 - Une plus value supérieure à 100 000 avec une croissance supérieure à 5 On utilise ensuite le module DB2SO de SODAS, qui permet de construire l ensemble des assertions de la base de données Actif.mdb. Les individus appartenant à différents groupe sont regroupés: ici, on regroupe les OPCVM par type de plus values. Chaque groupe constitue une assertion. On rajoute ensuite la description des concepts et une taxonomie. 6 - Requêtes utilisées pour l analyse de données : Afin d analyser les données de Actif.mdb dans Sodas, nous faisons quatre requêtes sur Access : La première requête, nommée «Data» renvoie tous les individus de premier ordre et les variables de descriptions utilisées pour l analyse. - 10 -

Sous DB2SO, on tape «Select * from [Data] ;» Data est définie comme suit : SELECT FROM WHERE [TB GLOBAL OPCVM].NomOpcvm, ([Intervalle]+" de "+[Classe]) AS PV, [TB GLOBAL OPCVM].DELTA, TypSupport.TypeSupport, NalitéSupport.NomNatSupport, [TB GLOBAL OPCVM].DateCréa, TypClient.NomTypClient, [TB GLOBAL OPCVM].[Tout public?], [TB GLOBAL OPCVM].NalitéCli, [TB GLOBAL OPCVM]. [ Fds de Fds], [TB GLOBAL OPCVM].N ZoneGéo, ZoneGéo.NomZoneGéo, [Serv Ges].Localisation, [Serv Ges].NomServGest, [TB GLOBAL OPCVM].N StésGes, [TB GLOBAL OPCVM].RefDevInv, [TB GLOBAL OPCVM].FdsGroupe, [TB GLOBAL OPCVM].RefPays, [Serv Ges].DivisionRattchmt ZoneGéo, TypSupport, TypClient, [Serv Ges], NalitéSupport, [TB GLOBAL OPCVM] NalitéSupport.N NatSupport = [TB GLOBAL OPCVM].N NatSupport) AND (NalitéSupport.N NatSupport = [TB GLOBAL OPCVM].N NatSupport)) AND [Serv Ges].CodServGes = [TB GLOBAL OPCVM].CodServGes) AND TypClient.N TypClient = [TB GLOBAL OPCVM].N TypClient) AND TypSupport.N TypSupport = [TB GLOBAL OPCVM].N TypSupport) AND ZoneGéo.N ZoneGéo = [TB GLOBAL OPCVM].N ZoneGéo; La seconde requête utilisée définit les concepts : «Select * from [Support-pv] ;» SELECT DISTINCT (Data.PV), [Moins value].intervalle, [Moins value].classe, [Moins value].[pv ou MV] FROM WHERE Data, [Moins value] Data.PV = [Moins value].pv; La troisième requête pondère les plus value à 1. C est une variable Multi-Booléenne. «Select * from [Support] ;» La requête a pour code : SELECT FROM DISTINCT ([Data].[PV]), [Data].[TypeSupport], 1 AS Pondération Data; - 11 -

Il a été nécessaire, via l interface de sodas DB2SO de modifier le type de la variable TypeSupport pour qu elle soit considérée comme une variable Multimodale booléenne. Enfin, la quatrième requête crée une taxonomie entre le service qui s occupe de l OPCVM et la direction qui lui est rattachée, au sein de la SGAM. En effet, un service appartient à une seule direction. La taxonomie prendra alors en compte ce lien. «Select * from [Taxogestion] ;» SELECT FROM WHERE DISTINCT Data.NomServGest, [Serv Ges].DivisionRattchmt Data, [Serv Ges] Data.NomServGest = [Serv Ges].NomServGest; On a alors le fichier DB2SO suivant, qui résume l ensemble de nos données : Première requête Seconde requête Troisième requête Taxonomie Nous exportons ensuite ce fichier vers un fichier sodas : OPCVM.sds. On pourra ainsi analyser les données. On connaît les objets symboliques et les variables de descriptions (cf. pages 9-10). On peut aussi décrire la taxonomie dégagée : - 12 -

Division SGAM Services : SGAM /ACT ACT/EUR, ACT/INT SGAM / PRIV / FRA PRIV/FRA SGAM / ALT ALT/FCR, ALT/SAM SGAM / DIV DIV/GES, DIV/GEP, DIV/FDF, DIV/ESA SGAM / OBM OBM/MON, OBM/INV, OBM/INT,OBM/FRA, OBM/EUR, OBM/CIM, OBM/CAL, OBM/ASS. FILIALES SGAM USA/COWEN, USA, TOK, SIN, LONDR_EMM, LONDR, FFR (Frankfort), ESP, BRASIL, KOSMOS SOGEN AM, BAREP GESTION. SGAM / ETG ETG B) UTILISATION DE SODAS 1 - La méthode SOE (Symbolic Object Editor) La méthode SOE permet de présenter l ensemble des objets symboliques et les variables descriptives. La visualisation des données se fait grâce à l étoile ZOOM. Chaque étoile ZOOM représente un objet symbolique avec l ensemble de ses variables. Il est ainsi aisé de voir les caractéristiques principales qui ressortent pour chaque objet. On pourra aussi comparer les objets symboliques entre eux. L étoile zoom peut être visualiser en deux ou trois dimensions. Application de la méthode : On visualise les objets symboliques qui sont intéressants : une plus value faible avec une croissance maximale, une grande plus value à croissance élevée, une moins value extrême avec une décroissance faible On prend donc : Une plus value comprise entre [0 ; 10 000[ avec une croissance supérieure à 5, Une plus value >100 000 avec une croissance supérieure à 5, Une moins value comprise entre [-50 000 ; - 10 000[ avec une croissance supérieure à 1, Une croissance comprise entre [10 000 ;50 000[ avec une croissance supérieure à 5. - 13 -

Les variables visualisées sont : le type et la nationalité du support le type et la nationalité du client la zone géographique de l OPCVM Le service de la SGAM qui s occupe de l OPCVM On obtient alors les étoiles suivantes : - 14 -

Cette étoile 2D (et 3D à droite) représente les OPCVM qui ont une plus value comprise entre 0 et 10 000 mais qui ont une croissance supérieure à 500%. Les caractéristiques que nous pouvons en sortir sont : ce sont des clients de type «Personne morale» à 100 %, français. Le support est un FCP Français. On remarque donc que ce concept est caractérisé par une nationalité française que ce soit pour des clients ou pour les types de support. De plus, ces OPCVM sont exclusivement gérés par la direction DIV de la SGAM (division s occupant de la gestion diversifiée) - 15 -

Nous regarderons ici l étoile en 3D (à droite) sur les OPCVM d une plus value supérieure à 100 000 et d une croissance supérieure à 500 % est plus hétérogène. Les clients sont français et indiens, de type personne morale. Le support est toujours un FCP (Fonds communs de placement dédiés ) - 16 -

Cette étoile 2D représente les OPCVM d une plus value comprise entre 10 000 et 50 000 mais toujours d une croissance supérieure à 500%. On remarque qu il y a toujours les mêmes caractéristiques, à savoir : les clients Français et indiens, et un support FCP français. La différence provient du type de client : ici, il s agit d OPCVM ouverts à tous le monde. Les directions qui les gèrent sont multiples. Il s agit majoritairement de la gestion alternative de la SGAM (SGAM/ALT). On peut alors se demander si une telle croissance provient du fait de la nationalité française des supports mais aussi des clients. On analysera alors une autre catégorie des concepts : une moins value comprise entre 50 000 et 10 000, avec une croissance comprise entre 100% et 0 : - 17 -

Ici, la répartition est beaucoup plus hétérogène d après l étoile trois D: le support est Français, irlandais, japonais Et même le type de support est différent (FCP mais aussi SICAV et majoritairement des GSM). Les clients proviennent de multiples pays. Et c est sans doute pour cette raison qu une grande partie de ces OPCVM sont gérés par les filiales étrangères de la SGAM. On peut donc dire, à partir de ces analyses, qu une croissance de 500 % des OPCVM se caractérise par une gestion française de FCP et de clients français. Les moins values, plus rares, sont hétérogènes. On peut se demander si elles sont dues à une mauvaise économie ou à une mauvaise gestion. - 18 -

2 - La méthode STAT La méthode STAT de SODAS donnera des graphes différents selon le type des variables. Il existe quatre méthodes différentes : les fréquences relatives pour les variables multimodales, les fréquences relatives pour des variables intervalle, les capacités et les min, Max ou moyenne pour les variables multimodales probabilistes. Enfin, on a la possibilité de visionner les variables intervalles grâce à un graphe biplot. Ici, on n analysera que les variables à l aide du graphe des capacités : Cette méthode construit un histogramme présentant la probabilité minimum, la probabilité maximale et la probabilité moyenne prise pour chaque modalité de la variable sélectionnée. Application : On prend le paramètre «TypeSupport» de l OPCVM : En observant cet histogramme, on apprend que pour certains objets symboliques, les Fonds Communs de placement sont les uniques supports. En effet, le maximum des modalités des FCPE ou des FCP Dédié est 1. Ainsi, on peut penser que le support unique de certains concepts se restreints à un seul type : le FCPE ou FCP Dédié. - 19 -

On peut remarquer que le FCPE a la moyenne la plus élevée, suivi des FCP Dédié puis des FCP. Nous pouvons alors dire que le support des Fonds communs de placement est le support les plus utilisés dans les concepts étudiés. Enfin, il apparaît qu aucun support n est présent à la fois dans tous les objets symboliques : le minimum des proportions de tous les supports est 0. On peut aussi étudier les types de client : Nous remarquons que les clients de type «Personne morale» sont présents à la fois dans tous les concepts car le minimum de ses proportions est supérieur à 0. De plus, nous pouvons remarquer que pour certains objets symboliques ce type de client est le seul demandeur. En effet, c est la seule modalité qui a une capacité maximale de 1. 3 - La méthode DIV : Divisive Clustering La méthode DIV est une méthode de classification hiérarchique. La première classe de la division contient tous les objets symboliques. Puis, chaque classe est divisée en deux sous classes selon une question binaire (réponse par oui ou non). L utilisateur indique les variables ordonnées qu il souhaite utilisée pour la classification ainsi que le nombre de classes qu il désire voir apparaître. - 20 -

Le résultat se présente sous forme de fichier texte qui rassemble : Les variables sélectionnées par l utilisateur Pour chaque classe, une liste des objets symboliques y appartenant. L arbre présentant la division hiérarchique avec le nombre de classes indiquées par l utilisateur. Application : Paramètres : les variables sélectionnées sont : Le type et la nationalité du support et le nom et le type de client. On obtient les résultat suivant : PARTITION IN 6 CLASSES : -------------------------: Classe 1 (n=4) : "[10000;50000[ de <1" "[10000;50000[ de >5" "[-10000;0[ de [-5;-1[" "[50000;100000[ de >5" Classe 2 (n=1) : "[0;10000[ de 0" Classe 3 (n=5) : "[0;10000[ de <1" "[0;10000[ de [1;5[" "[50000;100000[ de [1;5[" "[0;10000[ de >5" "[0;10000[ de >-1" Classe 4 (n=2) : "[-10000;0[ de >-1" "[-100000;-50000[ de >-1" - 21 -

Classe 5 (n=1) : "[-50000;-10000[ de [-5;-1[" Classe 6 (n=5) : "[-50000;-10000[ de >-1" "<-100000 de [-5;-1[" ">100000 de >5" "[-100000;-50000[ de [-5;-1[" "[10000;50000[ de [1;5[" Explicated inertia : 38.941829 THE CLUSTERING TREE : --------------------- - the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=4)!!----2- [NomTypClient <= Tous Public]!!!! +---- Classe 3 (Ng=5)!!!!!!---4- [TypeSupport <= FCPE]!!!!!!!! +---- Classe 5 (Ng=1)!!!!!!!!!---5- [TypeSupport <= FCP]!!!!!!! +---- Classe 6 (Nd=5)!!!!!----3- [NalitéCli <= FRA]!!! +---- Classe 4 (Nd=2)!!----1- [NomNatSupport <= France]! +---- Classe 2 (Nd=1) - 22 -

A travers cette hiérarchisation, nous constatons que la nationalité du support est la première tranche de découpage. Nous pouvons même dire que les supports sont les plus souvent français (seul les concept ayant une croissance de 0 % ne sont pas français). Cela signifie que concernant SG AM, les OPCVM ont principalement des supports français. Ceci n est pas étonnant étant donné que SG AM est situé en France En descendant dans cette hiérarchie, nous voyons que la majorité des clients sont différents du type «tous public» et que ceux ci sont principalement français (en dehors des moins value ayant une croissance entre 0 et 1). Ainsi, quelque soit le concept, l OPCVM est majoritairement français, avec des clients de type personne morale (d après la méthode STAT). Nous pouvons même remarqué qu il n y a pas de moins values pour les clients «personne morale» français, ayant un support français de type FCPE (classe 3). 4 - La méthode TREE : arbre décisionnel La méthode TREE est une procédure de partitionnement. A chaque étape, les meilleurs partionnement est obtenu grâce à une mesure donnée en paramètre. Application : variable Class Identifier Intervalle1 Variable set Identifier Type Support, Type client Number of Terminal Node 8 On obtient l arbre suivant, qui se lit comme suit : + --- IF ASSERTION IS TRUE (up)! --- x [ ASSERTION ]! + --- IF ASSERTION IS FALSE (down) - 23 -

+---- [ 4 ][0;10000[!!----2[ TypeSupport = Fonds Dédiés ]!!! +---- [ 5 ][0;10000[!!----1[ TypeSupport = FCPE ]!! +---- [ 24 ][0;10000[!!!!---12[ TypeSupport = FCP ]!!!!! +---- [ 25 ][10000;50000[!!!!----6[ TypeSupport = SICAV ]!!!!! +---- [ 13 ][-50000;-10000[!!!----3[ TypeSupport = GSM ]! +---- [ 7 ][10000;50000[ 5 - La méthode PYR Cette méthode permet une généralisation de la hiérarchisation en permettant la création de classes non disjointes à niveau donné. La pyramide issue de la méthode est construite par un algorithme de regroupement de classes qui opère du bas vers le haut. Les objets symboliques sont à la base de la pyramide. A chaque niveau supérieur de la pyramide, la méthode PYR agglomère les classes pour obtenir le sommet de la pyramide. Dans une classification symbolique pyramidale, chaque classe formée est définie non seulement par l ensemble de ses éléments (appelé son intention) mais aussi par un objet symbolique qui décrit ses propriétés (appelé son extension). Chaque classe supérieur hérite de l intention de son prédécesseur. On a ainsi la notion d héritage. La structure d ordre permet alors d identifier les concepts intermédiaires : ceux qui «comblent» le fossé entre des classes bien identifiées. - 24 -

Application : Paramètres : concepts, type de client et type de support. D après cette pyramide, nous pouvons remarquer que les concepts dits «incohérents» peuvent se rapprocher. Ces concepts correspondent à une croissance non proportionnelle à leur plus ou moins value (ex : une plus value entre 0 et 10 000 avec une croissance supérieure à 5). - 25 -

CONCLUSION A partir de cette analyse nous, pouvons conclure qu il n existe pas de «recette miracle» pour composer un OPCVM grandement rentable. En revanche, il est possible de tirer quelques caractéristiques pour éviter de faire une moins value. Nous pouvons cependant dire que le logiciel SODAS est un logiciel convivial, qui permet une visualisation des résultats et une analyse aisée. Il est facile d utilisation, à condition d avoir une bonne base de données dès le départ. - 26 -