PROJET DE DATA MINING SUR DES DONNEES CINEMATOGRAPHIQUES AVEC LE LOGICIEL SODAS



Documents pareils
Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars Mr E.

DATA MINING - Analyses de données symboliques sur les restaurants

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Critères pour avoir la meilleure équipe!

Université Paris IX DAUPHINE DATE : 24/04/06

La classification automatique de données quantitatives

1 Modélisation d être mauvais payeur

WEBSELL. Projet DATAMINING

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Initiation à la Programmation en Logique avec SISCtus Prolog

données en connaissance et en actions?

2 Serveurs OLAP et introduction au Data Mining

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Introduction à MATLAB R

Module d échange de données INTERLIS v1.0 GeoConcept Manuel d'utilisation

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Introduction au datamining

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

La base de données dans ArtemiS SUITE

ESIEA PARIS

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Langage SQL : créer et interroger une base

Micro-ordinateurs, informations, idées, trucs et astuces utiliser le Bureau à distance

Afin de valider votre inscription merci de bien veiller à :

Cours Bases de données 2ème année IUT

Introduction à Business Objects. J. Akoka I. Wattiau

Séries Statistiques Simples

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

Traitement des données avec Microsoft EXCEL 2010

Groupe 11 TABLE DES MATIERES

Le Langage SQL version Oracle

INTRODUCTION AU DATA MINING

Sybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. DOCUMENTATION

BIRT (Business Intelligence and Reporting Tools)

Introduction à la B.I. Avec SQL Server 2008

Manuel d utilisation du module Liste de cadeaux PRO par Alize Web

La place de SAS dans l'informatique décisionnelle

Créer un rapport pour Reporting Services

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

FEN FICHE EMPLOIS NUISANCES

Logiciel XLSTAT version rue Damrémont PARIS

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

IBM SPSS Direct Marketing

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

Extraction d informations stratégiques par Analyse en Composantes Principales

La nouvelle planification de l échantillonnage

AGROBASE : un système de gestion de données expérimentales

: seul le dossier dossier sera cherché, tous les sousdomaines

Le langage SQL Rappels

Exemple PLS avec SAS

WHATSUP GOLD GESTION DE LA BASE DE

UltraBackup NetStation 4. Guide de démarrage rapide

Spécificités, Applications et Outils

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

«Manuel Pratique» Gestion budgétaire

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

SERIE 1 Statistique descriptive - Graphiques

TP 1. Prise en main du langage Python

Pourquoi un GMAO? Pourquoi GMAO-Machine Bateau? Démarrage Dossier Menu Principal Structure, classification des équipements Fiche d intervention

Utiliser Access ou Excel pour gérer vos données

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

Introduction : présentation de la Business Intelligence

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

Exercices sur SQL server 2000

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

ERETES-SERIES. Support de formation. Formation ERETES ERETES-SERIE 1/58

Bases de données relationnelles

SUGARCRM MODULE RAPPORTS

TP3 : Creation de tables 1 seance

Rapport de Mini-Projet en ArcGIS Engine

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

INF6304 Interfaces Intelligentes

Travaux pratiques avec RapidMiner

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

La place de la Géomatique Décisionnelle dans le processus de décision

ht t p: // w w w.m e di al o gis.c om E - Ma i l : m ed i a l og i m e di a l o g i s. c om Envoi des SMS

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

Logiciel de sauvegarde Echo

Utilisation du Logiciel de statistique SPSS 8.0

Gestion de stock pour un magasin

Les tablettes et l'extranet Intermixt Mode d'emploi

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Your Detecting Connection. Manuel de l utilisateur. support@xchange2.net

Mesurer les performances (CPU) sous Linux

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

CREATION D UNE EVALUATION AVEC JADE par Patrick RUER (

PROBABILITES ET STATISTIQUE I&II

Transcription:

UNIVERSITE PARIS-IX - Novembre 2004- DAUPHINE PROJET DE DATA MINING SUR DES DONNEES CINEMATOGRAPHIQUES AVEC LE LOGICIEL SODAS Réalisé par : Sonia GUEHIS -DEA 127- Encadré par: Mr Edwin DIDAY

TABLE DES MATIERES I- Présentation du projet :... 4 II- Description des données :... 4 III- Choix des individus, variables et concept :... 6 IV- Les étapes de réalisation :... 7 1-DB2SO :... 7 2-La méthode SOE (Symbolic Object Editor) :... 9 3-La méthode PCM :... 17 4-Le module TREE (Decision Tree on Symbolic objects):... 20 5-La méthode DIV :... 22 5-Le module STAT:... 26 6-La méthode PYR:... 27 7-La méthode SCLUST:... 28 2

INTRODUCTION Le Data Mining est un processus analytique destiné à explorer de larges quantités de données afin de dégager une certaine structure et/ou des relations systématiques entre variables, puis en validant les conclusions en appliquant les structures trouvées à de nouveaux groupes de données. Il permet ainsi de découvrir des informations jusque la inconnues, mais qui peuvent se révéler utiles et lucratives, et d'utiliser ces informations pour soutenir des décisions commerciales tactiques et stratégiques. Le logiciel sodas est un logiciel prototype public capable d'analyser des données symboliques. il est issu du projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du domaine. Il est téléchargeable à l'adresse suivante: http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm Son idée générale est de construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, d'analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques. On commencera par expliciter le but de ce projet et de définir les données qui ont fait sujet de notre étude. On présentera ensuite l'architecture et les outils de l'analyse des données symboliques développés dans SODAS. Ces outils généralisent les méthodes de l'analyse des données classiques et ceux de la statistique usuelle, aussi bien en entrée, en autorisant des données plus complexes car plus proches de la réalité, qu'en sortie, en fournissant des objets symboliques plus aptes à exprimer des connaissances que les résultats numériques habituels. 3

L application du Data Mining aux données Cinématographiques I- Présentation du projet : Le but de ce projet de Data Mining appliquée au données cinématographiques est en premier lieu d appliquer les notions vues en théorie, de s apprivoiser avec l environnement du logiciel Sodas et d analyser des données cinématographiques et ce à travers l utilisation des différentes méthodes qu offre le logiciel. II- Description des données : Les données qui nous serviront d input pour notre analyse ont été téléchargés depuis le site : http://www.ceremade.dauphine.fr/%7etouati/cinema.htm La base de données BDCinéma.mdb est une base de données relationnelle sous format Access. Cette base de données regroupe 100 films qui ont tous été nominés pour les oscars. Les informations concernant les films sont notamment le réalisateur, l acteur principal, le budget consacré, le lieu de tournage ainsi que le revenu retiré Voici la liste des tables regroupant toutes ces informations ainsi que les relations entre elles: 4

La table film est la table principale de cette base, en effet elle regroupe les informations suivantes : Le titre du film Le genre de film Le pays du film Le numéro du réalisateur L acteur principal La durée L année du film Le nombre d oscars Le lieu de tournage Le budget Le revenu Le bénéfice La table réalisateur est aussi importante dans la mesure ou elle regroupe les données associées au réalisateur, son nom prénom, le nombre de films qu il a réalisé, son âge, sa nationalité, le nombre d oscars qu il détient à son actif. D autres tables sont aussi indispensables pour la complétude des données. 5

III- Choix des individus, variables et concept : -Les individus choisis pour ce projet sont les films nominés aux oscars ayant reporté au moins un oscar. -Les concepts choisis pour faire l analyse sont les réalisateurs. -Les variables de description choisis sont : Le genre de film Le nombre d oscar La nationalité du film L âge du réalisateur Le nombre d oscars du réalisateur L acteur principal Le bénéfice L année du film Le continent de tournage Le pays du réalisateur Les requêtes permettant de traduire ces choix sont les suivantes : 1- la requête film_réalisateur nous renvoie les concepts et les variables de description : SELECT DISTINCT Film.Titre, Realisateur.Nom, Film.Année, Film.Genre, Film.Nombre_Oscars, Realisateur.Nationalité, Realisateur.Age, Realisateur.Nombre_Oscars, Film.Acteur_Principal, Film.[Bénéfice(K)], Continent_Tournage.Continent_Tournage, Pays_Realisateur.Pays FROM Age_Realisateur, Oscars, Age_Realisateur AS Age_Realisateur_1, Revenu_Ecart, Age_Realisateur AS Age_Realisateur_2, Budget_ecart, ((Continent_Realisateur INNER JOIN Pays_Realisateur ON Continent_Realisateur.Continent_id=Pays_Realisateur.Continent_id) INNER JOIN Region_Realisateur ON Pays_Realisateur.Pays_id=Region_Realisateur.Pays_id) INNER JOIN (Realisateur INNER JOIN ((Continent_Tournage INNER JOIN Lieu_Tournage ON Continent_Tournage.Cotinent_Tournage_id=Lieu_Tournage.Continent_Tournage_id) INNER JOIN Film ON Lieu_Tournage.Lieu_Tournage_id=Film.Lieu_Tournage_id) ON Realisateur.N _Réalisateur=Film.N _Réalisateur) ON Region_Realisateur.Région_id=Realisateur.Région_id WHERE Film.Nombre_Oscars<>0; 6

2- Deux autres requêtes ont été introduites pour définir deux taxonomies : La taxonomie lieu tournage : SELECT Lieu_Tournage.Lieu_Tournage, Continent_Tournage.Continent_Tournage FROM Continent_Tournage INNER JOIN Lieu_Tournage ON Continent_Tournage.Cotinent_Tournage_id = Lieu_Tournage.Continent_Tournage_id; La taxonomie pays réalisateur : SELECT DISTINCT Region_Realisateur.Région, Pays_Realisateur.Pays FROM Pays_Realisateur INNER JOIN Region_Realisateur ON Pays_Realisateur.Pays_id = Region_Realisateur.Pays_id; IV- Les étapes de réalisation : 1-DB2SO : Ce module permet l extraction des données symboliques depuis la base de données relationnelles donnant comme output des objets symboliques (Symbolics Objects) appelées modal ou booléen SO. Chaque SO présente une description de groupe d individus par quelques variables. Ces variables décrivent les variations selon le groupe d individus. Une présentation de ce module du logiciel Sodas se trouve sur le site : http://www.ceremade.dauphine.fr/%7etouati/methodeshtml/db2so-inria- Paris2000-ang_fichiers/frame.htm Pour ce faire, il s agit de configurer le système de liaison ODBC de Sodas pour donner le chemin de la base relationnelle cinématographique : 7

Il s agit par la suite, une fois que la base de données cinématographique est connue par DB2SO, de formuler la requête objet de l analyse, afin de mettre en évidence les concepts choisis, et les variables de description : 8

On introduite par la suite les taxonomies précédemment définies : Le résultat ainsi obtenu est le suivant : Il s agit par la suite de sauvegarder le fichier généré par les requêtes sous forme cinéma.gaj et l exporter par la suite afin de générer le fichier sodas d extension sds qui nous permettra par la suite d appliquer les différentes méthodes de SOADS. 2-La méthode SOE (Symbolic Object Editor) : (http://www.ceremade.dauphine.fr/%7etouati/aidedoc/aidesoe/soe.htm) Ce module permet d afficher sous formes de tableaux les objets symboliques présent dans le fichier SODAS, et d améliorer notamment par des modifications sur les données au sein des tableaux en question. Cet éditeur offre des fonctionnalités d affichages des graphiques en 2D ou 3D ainsi que la représentation SOL de chaque objet symbolique présent dans le tableau. 9

Il s agit en premier lieu de donner le chemin du fichier sodas crée lors de la phase précédente, il suffit par la suite d insérer une méthode au chaînage et de la paramétrer pour lancer l exécution de la méthode qui donnera lieu à un fichier de listing et le tableau d objets symboliques. Le tableau présente les concepts choisis (les réalisateurs) ainsi que les variables de description, sur lesquels va porter l interprétation et qui seront sujet à des sélection selon les cas de figures des interprétions requises: 10

Le concept CAMERON : ->Représentation 2D : ->Représentation 3D : ->Interprétation : James CAMERON est un réalisateur dont les films sont récents (les années 80/90) il a réalisé des films du genre fantaisie pour la moitié de ses films, en science fiction pour le quart et en drame pour le quart restant. Il a eu 3 oscars mais ses fils ont reporté 11 oscars. C est le réalisateur dont les films ont eu le plus de bénéfice ayant un maximum de 1.635.000 même si n ayant réalisé que 12 films sur un seuil atteint par d autres réalisateurs de 136 films. 11

Le concept SPIELBERG : ->Représentation 2D : ->Représentation 3D : ->Interprétation : SPIELBERG est un réalisateur dont les films sont récents aussi (77-98), il a principalement réalisé les films de fantaisie à 75% des cas. Il a eu 3 oscars et ses films en ont eu 5. Les bénéfices sont tout de même importants atteignant les 850.000. 12

Le concept DISNEY : ->Représentation 2D : ->Représentation 3D : ->Interprétation : Walt DISNEY est un réalisateur des années 60, il a réalisé des films comiques dans tous ses films dont le nombre s élevant à 28 films tournés tous en Amérique. Il est le réalisateur qui a eu le plus d oscars atteignant le seuil maximum de 22 oscars. Ses films ont été récompensés à 5 reprises. Les bénéfices ont atteint les 194.000. 13

Le concept ALLEN : ->Représentation 2D : ->Représentation 3D : ->Interprétation : Woody ALLEN a réalisé 37 films dans les années 80, il a été récompensé à 3 reprises par des oscars, le même nombre de fois ses films ont en remporté des oscars aussi. Ayant travaillé sur des films portant sur la comédie intégralement, il a réussi à atteindre des bénéfices s élevant à 73.600. 14

Le concept GIBSON: ->Représentation 2D : ->Représentation 3D : ->Interprétation : Mel GIBSON connu en tant qu acteur mais aussi réalisateur des années 1990, a réalisé des films du genre Drame dans les deux films qu il a fait, il a eu deux oscars et ses films ont en eu 5 pour des bénéfices atteignant les 130.000. 15

Le concept H ITCHCOCK : ->Représentation 2D : ->Représentation 3D : ->Interprétation : HITCHCOK est un réalisateur dont les films sont des années 1937/1940, il a réalisé les films de drame uniquement. Il n a pas eu d oscars et ses films en ont eu 2 sur 55 réalisés. Les bénéfices sont assez faibles (par comparaison au seuil maximum) s élevant à 4.000. 16

CONCLUSION GENERALE : De part l interprétation individuel faite sur deux réalisateurs de film de drame (HITCHCOK et Gibson), deux des films de comédie (ALLEN et DISNEY) et deux de films de fantaisie et de science fiction (CAMERON et SPEILBERG) on peut tirer des conclusion d ordre générale suivantes : Il y a une corrélation entre le nombre d oscars des films et le nombre d oscars qu a eu le réalisateur. Il n y a pas de corrélation entre les bénéfices apportés par les films et le nombre de films réalisés ni le nombre d oscars à l actif du réalisateur. Les films de drame et de comédie, bien qu ils aient été récompensés par des oscars, que les réalisateurs aient produit un bon nombre de film, ils n ont pas atteint des bénéfices colossaux. Les films de fantaisie et de science fiction eux, ayant émergé principalement dans les années 80/90/2000, et grâce à l évolution des moyens technologiques en terme d outils cinématographique, de numérisation ainsi que la prolifération des moyens informatiques ont atteint des seuils de bénéfices très importants. D autre part cette catégorie de films vise un public de jeune âge, qui représente la tranche d âge principalement cinéphile durant ces années. 3-La méthode PCM : http://www.ceremade.dauphine.fr/%7etouati/aidedoc/aidepcm/pcm.html La méthode PCM est une extension de la méthode standard d'analyse des composantes principales qui prend comme entrée, une matrice de termes généraux les (aij) de type d'intervalle. Chaque aij de valeur est un intervalle contenant toutes les valeurs possibles du dispositif j pour un objet i. Au lieu de représenter chaque point sur un plan factoriel par un point, comme dans la méthode standard d'analyse des composantes principales, dans cette méthode proposée chaque objet est visualisée par un rectangle. 17

La méthode après paramétrage, son exécution donnera lieu à un fichier texte (listing) et un graphe portant les corrélations entre les variables continues et les concepts objets de l étude. Le listing contient : La matrice des données d entrée. La matrice de variance covariance : Année 416.5616 4.3816 1649255.2500-351.3096-17.2160 Nombre_Oscars 4.3816 6.6416 86888.0313-12.3296 2.0240 Bénéfice (K) 1649255.2500 86888.0313 78915796992.0000-1800760.7500-35094.7031 Nombre_Films -351.3096-12.3296-1800760.7500 694.7775 15.7360 Nombre_Oscars_realisateur -17.2160 2.0240-35094.7031 15.7360 18.2400 La matrice de corrélation : Année 1.0000 0.0833 0.2877-0.6530-0.1975 Nombre_Oscars 0.0833 1.0000 0.1200-0.1815 0.1839 Bénéfice(K) 0.2877 0.1200 1.0000-0.2432-0.0293 Nombre_Films -0.6530-0.1815-0.2432 1.0000 0.1398 Nombre_Oscars_realisateur -0.1975 0.1839-0.0293 0.1398 1.0000 Les valeurs propres et les pourcentages d inertie : Propers Values and inerty percentage: Année= 0.336 (6.72%) Nombre_Oscars= 1.204 (24.09%) Bénéfice (K)= 0.827 (16.54%) Nombre_Films= 1.916 (38.32%) Nombre_Oscars_realisateur= 0.717 (14.34%) Les descriptions factorielles des intervalles sur les axes PC1, PC2, PC3, PC4 La matrice de corrélation: les variables initiales/les composantes principales. Année -0.863-0.116-0.140 0.229 Nombre_Oscars -0.262 0.760-0.281-0.521 Bénéfice (K) -0.541 0.190 0.809-0.121 Nombre_Films 0.854-0.013 0.265-0.197 Nombre_Oscars_realisateur 0.281 0.760 0.061 0.583 Le graphe généré représentant les axes PC1(38.32) le nombre de films et l axe PC3(16.54) le bénéfice st le suivant: 18

->Interprétation : Ce graphe PCM confirme bien les interprétations faites précédemment dans la mesure où l on voit que il n y a pas de corrélation entre le nombre de films réalisés et les bénéfices atteints. Le graphe généré représentant les axes PC2(24.09) le nombre d oscars des films et l axe PC4(14.34) le nombre d oscars des réalisateurs est le suivant: 19

->Interprétation : Ce graphe PCM confirme aussi les interprétations faites précédemment dans la méthode SOE dans la mesure où l on voit que il y a une corrélation entre le nombre d oscars des films et le nombre d oscars des réalisateurs. 4-Le module TREE (Decision Tree on Symbolic objects): L arbre de décision permet de créer des partitions structurées sous forme d arbre et ce selon une variable classe choisie dans notre cas nationalité des réalisateurs (les concepts). La requête pour ce faire a été introduite au niveau du module DB2So en sélectionnant du menu le bouton : Add one or more single-valued varaibles On obtient alors le résultat suivant : Au niveau du chaînage on choisit le module TREE : 20

L arbre de décision se lit de la manière suivante : + --- IF ASSERTION IS TRUE (up)! --- x [ ASSERTION ]! + --- IF ASSERTION IS FALSE (down) Cas des variables quantitatives: Variable Class Identifier: nationalité. GROUP OF PREDICATE VARIABLES : ( 1 ) Année ( 3 ) Nombre_Oscars ( 5 ) Bénéfice(K) ( 8 ) Nombre_Films ( 9 ) Nombre_Oscars_realisateur. NUMBER OF A PRIORI CLASSES : 5 ID_CLASS NAME_CLASS 1 Américaine 2 Canadienne 3 Allemande 4 Anglaise 5 Australienne LIST OF SYMBOLIC OBJECTS IN THE LEARNING SET : "Kubrick" "Mctiernan" "Cameron" "Coppola" "Howard" "Fleming" "Burton" "Gibson" "Welles" "Spielberg" "Zemeckis" "Scott" "Allen" "Ford" "Emmerich" "Stone" "Lucas" "Minghella" "Demme" "Disney" "Luhrmann" "Pollack" "Bay" "Hitchcock" "Donner" 21

================================== EDITION OF DECISION TREE PARAMETERS : Learning Set : 25 Number of variables : 5 Max. number of nodes: 7 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1.00 Frequency of test set : 0.00 +---- [ 4 ]Américaine ( 16.12 0.30 0.00 1.44 0.00 )!!----2[ Année <= 1995.000000]!!!! +---- [ 10 ]Américaine ( 2.36 0.01 0.00 0.14 1.00 )!!!!!----5[ Nombre_Oscars <= 2.000000]!!! +---- [ 11 ]Anglaise ( 0.08 0.06 0.00 1.42 0.00 )!!----1[ Bénéfice(K) <= 618800.000000]! +---- [ 3 ]Allemande ( 0.43 0.64 1.00 0.00 0.00 ) ->Interprétation du résultat: On peut remarquer selon l arbre de décision que les Américains qui sont les réalisateurs en plus grand nombre font la différence sur les allemands en terme de bénéfice étant donnée que l Amérique est un pays plus producteur en terme de cinéma que l Allemagne. Les américains gagnent plus d oscars que leurs confrères Anglais. 5-La méthode DIV : DIV (Divisive Clustering) est une méthode de classification hiérarchique qui commence avec tous les objets d une classe et procède par divisions successives de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l inertie. L algorithme se termine après k-1 divisions, où k représente le nombre de classes données comme inputs par l utilisateur. 22

THE SELECTED SPLIT-VARIABLES ARE : -------------------------- ( 1) :Année ( 3) :Nombre_Oscars ( 6) :Bénéfice(K) ( 9) :Nombre_Films ( 10) :Nombre_Oscars_realisateur VARIANCE OF THE CRITERTION-VARIABLES : ------------------------------------ Année : 467.116800 Nombre_Oscars : 8.872000 Bénéfice(K) : 123309515394.646390 Nombre_Films : 694.777600 Nombre_Oscars_realisateur : 18.240000 ------------------------------------------------------- PARTITION IN 2 CLUSTERS : -------------------------: Cluster 1 (n=22) : Kubrick Mctiernan Coppola Howard Fleming Burton Gibson Welles Zemeckis Scott Allen Ford Stone Lucas Minghella Demme Disney Luhrmann Pollack Bay Hitchcock Donner Cluster 2 (n=3) : Cameron Spielberg Emmerich Explicated inertia : 62.612649 23

DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 1- [Bénéfice(K) <= 543275.000000] IS TRUE Cluster 2 : IF 1- [Bénéfice(K) <= 543275.000000] IS FALSE THE CLUSTERING TREE : --------------------- - the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=22)!!----1- [Bénéfice(K) <= 543275.000000]! +---- Classe 2 (Nd=3) NAME OF INTERNAL VT0 FILE : D:\sodas\version0812\CTVPFC01.vt0 ------- END OF PROGRAM DIV --------- ->Interprétation du résultat: En choisissant la variable de bénéfice, on a deux classes qui se forment et l une d entre elle est particulièrement intéressante dans la mesure ou les résultats confirment les interprétations faite auparavant : En effet, les réalisateurs «Cameron Spielberg Emmerich» sont des réalisateurs de films de science fiction et ce sont eux qui se démarquent des autres et ce, non pas de part le nombre d oscars mais en terme de bénéfice. THE SELECTED SPLIT-VARIABLES ARE : 24

-------------------------- ( 2) :Genre NOT SELECTED : more than 12 categories ( 3) :Nombre_Oscars VARIANCE OF THE CRITERTION-VARIABLES : ------------------------------------ Genre : 0.813208 Nombre_Oscars : 8.872000 ------------------------------------------------------- PARTITION IN 2 CLUSTERS : -------------------------: Cluster 1 (n=17) : Kubrick Mctiernan Coppola Howard Burton Welles Spielberg Zemeckis Scott Allen Ford Emmerich Stone Luhrmann Bay Hitchcock Donner Cluster 2 (n=8) : Cameron Fleming Gibson Lucas Minghella Demme Disney Pollack Explicated inertia : 29.905281 DESCRIPTION OF THE CLUSTERS : -------------------------- Cluster 1 : IF 1- [Nombre_Oscars <= 4.250000] IS TRUE Cluster 2 : IF 1- [Nombre_Oscars <= 4.250000] IS FALSE THE CLUSTERING TREE : --------------------- - the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=17)!!----1- [Nombre_Oscars <= 4.250000]! +---- Classe 2 (Nd=8) NAME OF INTERNAL VT0 FILE : D:\sodas\version0812\cinéma\projet\CTVRZW01.vt0 ------- END OF PROGRAM DIV --------- ->Interprétation du résultat: 25

En changeant le choix de variables et en choisissant la variable de nombre d oscars on retrouve une autres classification des concepts réalisateurs à savoir le concept «Spielberg» ne fait pas partie de la classe qui se démarque des autres composés par les concepts qui ont fait l objet de notre étude au sein de la méthode SOE : «Cameron Fleming Gibson Lucas Minghella Demme Disney Pollack» et qui ne sont pas forcément des réalisateurs de films de science fiction. 5-Le module STAT: STAT ( Elementary Statistics On Symbolic Objects) étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. Les méthodes dépendent du type des variables de la base et sont filtrées en fonction de la méthode de travail : - fréquences relatives pour variables multimodales (a) - fréquences relatives pour variables intervalles (b) - capacités et min/max/mean pour variables multimodales probabilistes - biplot pour variables intervalles (d) - objet central. Les données des méthodes sélectionnées peuvent être regardées de deux façons : listing ou graphe. Le graphe peut être changé et personnalisé (texte, couleurs ). Dans la méthode a, on calcule la fréquence relative de chaque modalité de la variable multinominale en prenant en compte les règles données par la base. Le graphique associé à la distribution de la variable peut être soit un histogramme soit un diagramme circularisé. Dans la méthode b, soit X une variable intervalle observée dans un ensemble d objets symboliques. On peut construire un histogramme pour la variable X sur l intervalle [a,b] où a est la plus petite limite et b la plus grande. Le calcul des fréquences relatives associées à une classe Ck prend en compte le recouvrement de Ck par les valeurs intervalle de X sur chaque objet symbolique. 23 Dans la méthode d, le graphique présente un objet symbolique comme un rectangle sur le plan à deux variables choisies par l utilisateur. Chaque côté du rectangle représente la distance de l axe pour l objet symbolique. 26

->Interprétation du résultat: On constate que la plupart des réalisateurs étudiés ont réalisé des fils après les années 80 pour des nombres de films inférieurs à 25 films en moyenne. Les grands bénéfices n ont pas été colossaux pour la majorité de la population étudiée. Bien encore cette méthode approuve les conclusions des autres, dans la mesure ou l on constate que les variables nombre oscars et bénéfice ne sont pas corrélés, tandis que les variables nombre de films réalisés et le nombre d oscars qu a eu le réalisateurs sont corrélés. 6-La méthode PYR: Ce modèle pyramidal généralise les hiérarchies en laissant non disjoint des classes à un niveau donné au lieu d une partition. D'ailleurs, les classes de la pyramide sont des intervalles d'un ordre total sur l'ensemble étant groupé, par conséquent les pyramides constituent un modèle intermédiaire entre l'arbre et les structures de treillis. La méthode proposée laisse grouper des données plus complexes que le modèle tabulaire, en considérant la variation sur les valeurs prises par les variables. La pyramide est construite par un algorithme ascendant. Dans la classification pyramidal symbolique chaque partition formée est définie non seulement par l'ensemble de ses éléments sa prolongation - mais également par un objet symbolique, qui décrit leurs propriétés - l'intension du concept. 27

7-La méthode SCLUST: C est la méthode des nuées dynamiques appliqué au fichier Sodas de notre base avec choix des variables composant les axes du plan. ->Interprétation du résultat: On constate que les concepts réalisateurs qui ont le nombre le plus élevé d oscars sont inversement les moins bons en terme de bénéfice. 28

CONCLUSION GENERALE A l issue de cette étude menée sur des données cinématographiques par appel aux différentes méthodes de Sodas, nous avons pu faire différentes interprétations ayant dans la majorité des cas les mêmes résultats et conclusion. En effet, ce projet nous a permis de mettre en application les notions vues en cours concernant les objets symboliques, les concepts et les méthodes de classification tel que SOE, PCM, la méthode des pyramides PYR, STAT, SCLUST des nuées dynamiques, la méthode DIV. Sur cette base de données concernant le cinéma, et ayant opté pour le choix des réalisateurs comme concept étudié, nous avons pu tiré les conclusions suivantes : Les réalisateurs de science fiction sont ceux qui ont le plus de bénéfice et ne récoltaient pas forcément un grand nombre d oscars. Les réalisateurs des films de genre comédie étaient plus fréquents dans les années 60 /70 plutôt que les années 90/2000 et ont récolté un plus grand nombre d oscars et ont réalisé le plus grand nombre de films. 29