Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars Mr E.

Transcription

1 Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ

2 Sommaire Introduction... 3 I - Etat de l art du Datamining et de Sodas... 4 I.1 - Le datamining... 4 I.2 - Logiciel Sodas... 6 II - Problématique choisie et ensemble de données... 7 II.1 - Problématique choisie... 7 II.2 - Base de données relationnelle... 7 II.3 - Individus et concepts... 9 III - Requêtes III.1 - Requête principale III.2 - Requête AddSingle III.3 - Requête Taxonomie III.4 - Extraction sous DB2SO IV - Analyses sur SODAS IV.1 - Méthode VIEW IV.2 - Méthode STAT IV.3 - Méthode DIV IV.4 - Méthode SPCA IV.5 - Méthode HIPYR IV.6 - Méthode TREE IV.7 - Méthode SYKSOM Pépites Mounia CHERRAD Anne-Sophie REGOTTAZ - 2

3 Introduction Université Paris Dauphine Datamining - DESS ID- 2004/2005 Dans le cadre du cours de Datamining dispensé en DESS Informatique Décisionnelle à Dauphine, nous étions en charge de réaliser une fouille de données symboliques. Nous avons choisi le domaine des séries télévisées, celles-ci étant nominées et récompensées tous les ans par les cérémonies de Golden Globes et EMMY Awards. Nous nous intéresserons plus précisément aux critères de nomination et au fait qu une série gagne ou non. Pour ce faire nous avons créé une Base de données et nous l avons exploitée à l aide du logiciel de d analyse de données symbolique : SODAS. Dans ce document, vous trouverez tout d abord une présentation du Datamining, ensuite la description des données sources de l étude, puis la manière dont les requêtes ont été extraites de la Base de données, et enfin vous trouverez l analyse complète que nous avons réalisée avec les différentes méthodes proposées par SODAS. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 3

4 I - Etat de l art du Datamining et de Sodas I.1 - Le datamining I.1.1 Définition À l'origine, le datamining était en deux mots : le «Data Mining». Il constitue l ensemble des techniques permettant d'aller puiser des informations pertinentes dans les montagnes de données stockées ces dernières décennies dans les entreprises (Datawarehouses). Il consiste à «trouver des diamants dans un tas de charbon sans se salir les doigts». L exploration des données, aussi connue sous les noms «fouille de données» et «data mining», a pour objet l'extraction du savoir implicite à de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. I Outils utilisés Il existe de nombreux produits commerciaux vendus pour le datamining. Selon le site «Ultra-Fluide.com», les points forts supposés des logiciels commerciaux (interface, documentation, support) ne compensent pas certains inconvénients relatifs notamment aux coûts ou au code propriétaire. Les logiciels commerciaux disposent également bien souvent de budgets spécifiques visant à les faire connaître. Ils conseillent donc des produits open source, que nous allons vous présenter ci-dessous : R-projet : R est un langage et une infrastructure spécialisés pour les traitements statistiques. R est l'un des nombreux projets GNU distribué sous licence GPL (logiciel libre). R est écrit en langage compilé (principalement en C), ce qui autorise de bonnes performances. La qualité de cet environnement et son ouverture ont permis à une myriade de théoriciens, statisticiens et informaticiens de compléter cette plate-forme d'un nombre impressionnant de fonctionnalités. Des dizaines de packages offrant des milliers de fonctions en font probablement la plate-forme la plus complète. Ce n'est cependant pas l'outil le plus simple d'abord. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 4

5 Scilab et Mixmod : Scilab est un langage et une infrastructure spécialisés pour les traitements mathématiques numériques et la modélisation. Scilab est un projet de l'inria et de l'ecole Nationale des Ponts et Chaussées. Sa licence autorise une utilisation gratuite ainsi que la modification des sources. Scilab supporte un spectre très large d'applications, et de nombreuses contributions sont opérationnelles sur cette plate-forme. Mixmod est une contribution de l'inria, du Laboratoire de Mathématique de Besançon et du Laboratoire Heudiasys de Compiègne qui fonctionne sur Scilab. Mixmod propose des fonctionnalités de clustering (analyse discriminante et maximum de vraisemblance). Mixmod est relativement simple d'utilisation et s'avère adapté pour un volume raisonnable de données. Autoclass-c : C est un logiciel spécialisé dans le clustering (analyse discriminante et maximum de vraisemblance). Il a été développé par un laboratoire de la NASA et est disponible dans le domaine public. Autoclass-c est un outil performant écrit en C qui n'a plus évolué depuis Le datamining est également utilisé dans des sociétés, comme BusinessDecision. Les outils qu ils utilisent sont : SAS, SLP, SPSS, IBM, KXEN I Applications Le Datamining est de plus en plus utilisé par les entreprises. On retrouve notamment : Les services publics dans la lutte anti-fraude : La faible rentabilité de certains impôts est, dans de nombreux cas, expliquée par la fraude fiscale, fraude fiscale difficilement endiguée à cause d énorme moyens humains et financiers qu elle nécessite. Fujitsu Consulting a mis en place une méthode de scoring permettant de détecter les fraudeurs. La méthode utilisée s appuie sur les méthodes de Datawarehousing et de datamining : on récupère des données de plusieurs services (fraudes, fisc) et on estime la corrélation entre les différentes variables et la probabilité de frauder. Cette méthode sembla avoir donné des résultats au Québec, Fujitsu vise aujourd hui le marché européen - Mounia CHERRAD Anne-Sophie REGOTTAZ - 5

6 L industrie du disque : Aujourd hui, l industrie du disque se met tout doucement au datamining. Deux constats ont encouragé cette évolution : d abord, le fait que la quasi-totalité des fans d un groupe ne savent pas quand le dernier disque de leurs idoles est sorti et ensuite parce que cette approche «Marketing Quantitatif» était relativement absent des préoccupations du monde de la musique. Les nouvelles technologies de l information et la multitude de solutions logicielles laissent ouvert un vaste champ d application du datamining dans l industrie du disque. I.2 - Logiciel Sodas SODAS est un outil public d analyse de données symboliques. Il est disponible à l adresse : Il est issu du projet de EUROSTAT appelé SODAS. L idée générale de ce projet est de construire, à partir d'une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles et de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données sur des individus et d analyser ensuite ce tableau, par des méthodes d'analyse de données symboliques, pour en extraire des connaissances. Le tableau contient alors des données symboliques dont les individus correspondent aux concepts décrits par généralisation des propriétés des individus de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques selon le type de variables et le choix de l'utilisateur. Il est possible de créer un fichier d'objets symboliques sur lequel des méthodes d'analyse de données symboliques peuvent s'appliquer au sein du logiciel SODAS (histogrammes des variables symboliques comme STAT, classification automatique comme DIV, HIPYR, analyse factorielle comme SPCA, analyse discriminante comme TREE, visualisations graphiques VIEW,...). - Mounia CHERRAD Anne-Sophie REGOTTAZ - 6

7 II - Problématique choisie et ensemble de données II.1 - Problématique choisie Nous avons choisi d analyser les séries télévisées nominées aux Golden Globes et EMMY Awards en 2003 et Nous nous sommes intéressées à trois types de récompense : meilleure série, meilleur acteur, meilleure actrice, dans un genre donné c'est-à-dire dramatique ou comique. Nous voulons connaître les facteurs déterminant le fait qu une série gagne une récompense. Nous aimerions également trouver les critères de sélection pour les nominations d une série aux Golden Globes ou EMMY Awards. Ainsi nous avons cherché plusieurs renseignements sur ces séries. Pour ce faire nous avons créé une nouvelle base de données sous Access, puis nous l avons entièrement remplie avec les différents champs qui nous semblaient importants. Les sites web qui nous ont servi pour remplir cette base sont : Site pour les nominés : Site pour les gagnants : II.2 - Base de données relationnelle La base de données que nous avons conçue manuellement sous Access est «SeriesNomineesOscars.mdb». Elle se compose de 14 tables dont les deux principales sont «Serie» et «Nomination». Elle comporte 121 enregistrements dans la table «Nomination», 37 dans la table «Serie», 21 dans la table «ActricePrincipale» et 27 dans la table «ActeurPrincipal». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 7

8 Vous trouverez ci-dessous le schéma relationnel de la base : Table CATEGORIE AWARD : Le champs «nomcategorie» prend les valeurs : Serie, Acteur ou Actrice. Le champs «nomaward» prend les valeurs : Golden ou EMMY. Table NOMINATION : La table Nomination contient toutes les nominations des séries, acteurs et actrices, dans les catégories comique et dramatique pour les Golden Globes et EMMY Awards 2003 et En règle générale, le nombre de nominés pour chaque catégorie de récompense est de cinq. Le champ booléen «gagnante» désigne les séries, acteurs et actrices gagnants. Le champ «nbsaisons» car celui-ci varie suivant le champ «anneenomination» qui se trouve dans cette table. Table ACTEUR PRINCIPAL et ACTRICE PRINCIPALE : Ces tables contiennent les noms, prénoms, âges de chaque acteur. Le champ «idnationalite» référence le lieu, Pays et Continent d origine de ces acteurs, le lieu étant leur ville de naissance. Table REALISATEUR : Dans le cas où la série a été réalisée par deux réalisateurs de sexe opposés alors le champ sexe prend la valeur mixte. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 8

9 Table SERIE : Université Paris Dauphine Datamining - DESS ID- 2004/2005 Une série se décrit par son libellé, son genre, sa cible, sa durée, son réalisateur, ses chaînes et dates de première diffusion en Amérique et France, son nombre d acteurs masculin et féminin, son nombre de nominations et son nombre d awards gagnés, ainsi que par : Les champs «idacteurprincipal» et «idactriceprincipale»: qui référencent les tables «ActeurPrincipal» et «ActricePrincipale». Pour chaque série, nous avons considéré l acteur (et/ou actrice) ayant été nominé aux oscars même s il n était pas l acteur principal. Dans le cas où une série était nominée et aucun de ses acteurs ne l était, nous avons stocké l acteur (ou l actrice) principal. Si un seul acteur (ou actrice) est référencé alors l autre référence à l acteur sera égale à 1 ; cette référence correspond à aucun acteur. II.3 - Individus et concepts Individus : Nos individus sont les nominés aux Golden Globes et EMMY Awards 2003 et On entend par nominés, les acteurs, actrices ou séries télévisées dans les catégories comique ou dramatique. Nous avons 121 individus. Concepts : Nous avons choisi de grouper les individus en deux parties : «Gagnant» et «Perdant» (ici appelé Nomine) ; puis en trois catégories de récompense : «Acteur», «Actrice», «Serie» ; et enfin en deux types de récompense : Golden Globes ou EMMY Awards. Les concepts sont : Gagnant EMMY Acteur Gagnant EMMY Actrice Gagnant EMMY Serie Nomine EMMY Acteur Nomine EMMY Actrice Nomine EMMY Serie Gagnant Golden Acteur Gagnant Golden Actrice Gagnant Golden Serie Nomine Golden Acteur Nomine Golden Actrice Nomine Golden Serie Cette répartition des individus nous permettra, lors de nos analyses, de trouver les différences entre les caractéristiques des gagnants et des perdants de chaque type de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 9

10 III - Requêtes Université Paris Dauphine Datamining - DESS ID- 2004/2005 III.1 - Requête principale La requête principale sur Access se nomme : «RequetePrincipaleGagnantPerdant». La représentation un concept se fait à l aide du croisement des 3 variables suivantes : «Gagnante» dans la table Nomination. Si gagnant vaut 0 alors ce champ prend la valeur Nomine, sinon il prend la valeur Gagnant. «nomaward» dans la table CategorieAward «nomcategorie» dans la table CategorieAward Les valeurs des champs «nomnomine», «SexeActeur», «AgeActeur» et «OrigineActeur» dépendent de la catégorie de récompense. Nous avons donc utilisé la fonction IIf(condition, true, false) pour attribuer les valeurs suivant cette règle : Si la catégorie est 1 ou 4, alors c est une série ; dans ce cas nous récupérons le libellé de la série et les caractéristiques de l acteur principal. Si la catégorie est 2 ou 5, alors c est un acteur ; dans ce cas nous récupérons le nom de l acteur et ses caractéristiques. Si la catégorie est 3 ou 6, alors c est une actrice ; dans ce cas nous récupérons le nom de l actrice et ses caractéristiques. Le champ «tauxreussite» nous permet de mesurer le ratio entre le nombre de récompenses gagnées par l individu par rapport au nombre de fois qu il a été nominé. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La seconde colonne contenant le nom du concept. SELECT Nomination.idNomination, IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie AS Concept, Serie.libelleSerie, - Mounia CHERRAD Anne-Sophie REGOTTAZ - 10

11 IIf(Nomination.idCategorie=1,Serie.libelleSerie, IIf(Nomination.idCategorie=2,ActeurPrincipal.prenom+" "+ActeurPrincipal.nom, IIf(Nomination.idCategorie=3,ActricePrincipale.prenom+" "+ActricePrincipale.nom, IIf(Nomination.idCategorie=4,Serie.libelleSerie, IIf(Nomination.idCategorie=5,ActeurPrincipal.prenom+" "+ActeurPrincipal.nom, AS NomNomine, ActricePrincipale.prenom+" "+ActricePrincipale.nom)))) ) IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,"F","M"), IIf(Nomination.idCategorie=2,"M", IIf(Nomination.idCategorie=3,"F", IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,"F","M"), IIf(Nomination.idCategorie=5,"M","F"))))) AS SexeActeur, IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,ActricePrincipale.age,ActeurPrincipal.age), IIf(Nomination.idCategorie=2,ActeurPrincipal.age, IIf(Nomination.idCategorie=3,ActricePrincipale.age, IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,ActricePrincipale.age, ActeurPrincipal.age), IIf(Nomination.idCategorie=5,ActeurPrincipal.age,ActricePrincipale.age))))) AS AgeActeur, IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,LieuActrice.ville,LieuActeur.ville), IIf(Nomination.idCategorie=2,LieuActeur.ville, IIf(Nomination.idCategorie=3,LieuActrice.ville, IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,LieuActrice.ville,LieuActeur.ville), IIf(Nomination.idCategorie=5,LieuActeur.ville,LieuActrice.ville))))) AS OrigineActeur, Serie.duree, Nomination.nbSaisons, Serie.nbActeursMasculins, Serie.nbActeursFeminins, Realisateur.nom AS nomrealisateur, ChaineAmericaine.nomChaineAm, - Mounia CHERRAD Anne-Sophie REGOTTAZ - 11

12 Year(Serie.datePremiereDiffAm) AS AnneeDiffAm, ChaineFrancaise.nomChaineFr, IIf(Year(Serie.datePremiereDiffFr)=3000,2006,Year(Serie.datePremiereDiffFr)) AS AnneeDiffFr, Nomination.anneeNomination, (Round((Serie.nbAwardsGagnes/Serie.nbNominations),3)*100) AS TauxReussite FROM LieuActrice INNER JOIN (LieuActeur INNER JOIN ( (Realisateur INNER JOIN (ChaineFrancaise INNER JOIN ( ChaineAmericaine INNER JOIN (ActricePrincipale INNER JOIN (ActeurPrincipal INNER JOIN Serie ON ActeurPrincipal.idActeur=Serie.idActeurPrincipal) ON ActricePrincipale.idActrice=Serie.idActricePrincipale) ON ChaineAmericaine.idChaineAm=Serie.idChaineDiffusionAm) ON ChaineFrancaise.idChaineFr=Serie.idChaineDiffusionFr) ON Realisateur.idRealisateur=Serie.idRealisateur) INNER JOIN (CategorieAward INNER JOIN Nomination ON CategorieAward.idCategorie=Nomination.idCategorie) ON Serie.idSerie=Nomination.idSerie) ON LieuActeur.idLieu=ActeurPrincipal.idNationalite) ON LieuActrice.idLieu=ActricePrincipale.idNationalite; Voici un extrait de la feuille de données de la requête principale : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 12

13 III.2 - Requête AddSingle La requête addsingle sur Access se nomme : «AddSingleGagnantPerdant». Elle permet d apporter des informations complémentaires sur chacun des 12 concepts. Il s agit de calculer la durée moyenne des séries ainsi que le nombre moyen d actrices, d acteurs, de saisons et de nominations des individus de chaque concept. La dernière variable étant «Resultat» qui permet de préciser si les individus du concept ont gagnés ou non la récompense. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La première colonne contenant le nom du concept. SELECT IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie AS Concept, Round(Avg(Serie.nbActeursFeminins),1) AS NbActricesMoy, Round(Avg(Serie.nbActeursMasculins),1) AS NbActeursMoy, Round(Avg(Nomination.nbSaisons),1) AS NbSaisonsMoy, Round(Avg(Serie.duree),1) AS DureeMoy, Round(Avg(Serie.nbNominations),1) AS NbNominationsMoy, IIf(Nomination.gagnante<>0,"Gagnant","Perdant") AS Resultat FROM Serie INNER JOIN (CategorieAward INNER JOIN Nomination ON CategorieAward.idCategorie=Nomination.idCategorie ) ON Serie.idSerie=Nomination.idSerie GROUP BY IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie, IIf(Nomination.gagnante<>0,"Gagnant","Perdant"); - Mounia CHERRAD Anne-Sophie REGOTTAZ - 13

14 Voici un extrait de la feuille de données de la requête addsingle : III.3 - Requête Taxonomie La requête des taxonomies sur Access se nomme : «TaxonomieVillePays». Cette requête permet de définir les correspondances entre les variables ville et pays utilisées dans les lieu de naissance des acteurs. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La première colonne contenant les villes et la seconde leur pays respectifs. SELECT LieuActeur.ville AS Ville, PaysActeur.pays AS Pays FROM PaysActeur INNER JOIN LieuActeur ON PaysActeur.idPays=LieuActeur.idPays GROUP BY LieuActeur.ville, PaysActeur.pays; - Mounia CHERRAD Anne-Sophie REGOTTAZ - 14

15 Voici un extrait de la feuille de données de la requête Taxonomie : III.4 - Extraction sous DB2SO Nous allons présenter dans cette partie les différentes étapes de manipulation de SODAS et de DB2SO pour l extraction et le traitement des données. Importation de DB2SO : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 15

16 Création de la source de données : Sélection des données de la requête Principale : Ajout des données de la requête AddSingle : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 16

17 Ajout des données de la requête Taxonomie : Export et visualisation des données extraites : Après avoir passé toutes ces étapes, il convient d appliquer les diverses méthodes d analyse de données symboliques que propose SODAS sur le chaining. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 17

18 IV - Analyses sur SODAS Dans cette partie, nous allons présenter les méthodes statistiques que nous avons appliquées à l ensemble de données. Pour chaque méthode, nous rappellerons tout d abord les principes, puis nous analyserons les résultats obtenus. IV.1 - Méthode VIEW IV Description de la méthode L objectif de la méthode VIEW est de fournir une image synthétique du concept et de comparer les concepts entre eux. Le module SOEditor permet de visualiser le contenu du tableau de données symboliques : les concepts et les variables qui le décrivent. La méthode SOE permet de représenter graphiquement en deux ou trois dimensions les concepts du tableau : c est ce qui s appelle l étoile zoom. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 18

19 Il existe deux types de variables : les variables quantitatives (mesurables, continues ou discrètes) et les variables qualitatives (ordinales, nominales ). Pour les variables qualitatives, leur représentation se fait grâce à des diagrammes en barres. Pour les variables quantitatives, elle se fera par des intervalles de valeurs. Les représentations en étoiles zoom sont parfois un peu trop condensées, il est toujours possible de visualiser un troisième type de représentation, pour un axe donné, sous forme d histogrammes verticaux ou horizontaux IV Interprétation Après avoir exécuté la méthode VIEW, nous avons pu visualiser les données sur SOEditor et nous avons extrait les pépites que vous trouverez ci-dessous. Nous avons comparé les concepts deux à deux. Nous avons pu remarquer les différences établies entre les EMMY Awards et les Golden Globes sur une même catégorie de récompense (Série, Acteur, Actrice). Au sein d un même type de récompense (Golden ou EMMY), nous avons comparé les différences établies entre les gagnants et les perdants. Comparaison Séries Nominées Golden et Séries Nominées EMMY: Analyse des résultats : Nous constatons que : - Les Golden Globes nominent des séries de moins de 7 ans. - Les séries nominées aux EMMY Awards sont plus anciennes (entre 2 et 10 ans) et leurs acteurs principaux sont plus âgés (le plus jeune ayant 37 ans). - Le taux de réussite pour les séries nominées aux Golden reflète des nominations plus appropriées puisqu elles obtiennent jusqu à 50% de taux de réussite. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 19

20 Comparaison Séries Nominés Golden et Séries Gagnantes Golden Analyse des résultats : Les séries qui ont gagné aux Golden Globes sont celles qui ont : - un nombre de saisons peu élevé (compris entre 1 et 3 ans) - au moins 3 acteurs masculins mais qui n excèdent pas 6. - un acteur principal âgé entre 36 et 43 ans. L âge est donc très restrictif pour déterminer les séries gagnantes aux Golden Globes. - été diffusées sur des chaînes très peu nominées. Les séries de «HBO» et «NBC», pourtant les plus nominées, n ont pas remporté de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 20

21 Comparaison Acteurs Nominés Golden et Acteur Gagnants Golden Analyse des résultats : Les acteurs ayant gagné aux Golden Globes en 2003 et 2004 ont tous joué dans des séries ayant exactement un nombre de saisons égal à 2. Nous remarquons également que les acteurs gagnants sont entourés de trois femmes au maximum, alors que parmi les nominés nous pouvions trouver jusqu à 10 actrices ; et sont entourés de trois hommes au minimum. Les séries de «Fx» et «NBC», pourtant celles dont les acteurs sont les plus nominés, n ont pas remporté de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 21

22 Comparaison Actrices Nominées EMMY et Actrices Gagnantes EMMY : Analyse des résultats : Les actrices ayant gagné aux EMMY Awards en 2003 et 2004 sont âgées de 36 à 44 ans et jouent dans des séries de 4 à 6 ans diffusées seulement sur «HBO» et «NBC». Ces trois résultats sont extrêmement restrictifs à la vue des actrices qui avaient été nominées. Comparaison Actrices Nominées Golden et Actrices Nominées EMMY : Analyse des résultats : Nous remarquons que les nominations des actrices aux Golden Globes correspondent à des séries diffusées en France par les chaînes «TF1» et «Teva», alors que les nominations des actrices aux EMMY Awards correspondent à des séries essentiellement diffusées sur «M6». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 22

23 IV.2 - Méthode STAT IV Description de la méthode Cette méthode étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. Elle ressemble aux méthodes statistiques traditionnelles appliquées sur des individus. Pour les variables qualitatives, elle permet de représenter la répartition des données via des histogrammes. Pour les variables quantitatives, elle permet de représenter l information (minimum, maximum et moyenne) via des diagrammes en boîte. Cette procédure fournit, dans un classeur Excel, l ensemble des statistiques élémentaires sur les variables nominales et continues. Le rapport obtenu constitue la «base statistique» de l enquête, à laquelle on pourra se référer à tout moment au cours de l exploitation statistique approfondie qui suivra. L objectif est de décrire la répartition des données variable par variable indépendamment du concept. Plusieurs types d analyses sont possibles à partir de STAT : Analyse des fréquences relatives pour les variables intervalles Analyse des capacités et min/max/mean pour les variables modales probabilistes. Analyse par biplot pour des variables intervalles IV Interprétation Fréquences relatives pour des variables intervalles Nous avons choisi d étudier plus en détail la variable : Duree En ce qui concerne le paramétrage de la variable Duree, la méthode choisie est de représenter les fréquences pour les intervalles. Nous avons retenu un découpage en trois classes. L application de la méthode STAT sur la variable Duree donne le résultat suivant : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 23

24 Analyse des résultats : La durée d une série nominée aux Golden Globes ou EMMY Awards, en moyenne, est de 35 minutes. La durée minimum étant de 22 minutes et la durée maximum de 50 minutes. Environ 73 % des séries ont une durée entre 22 et 42 minutes, et les 27% restants ont une durée comprise entre 42 et 50 minutes. Capacités et min/max/mean pour des variables modales probabilistes Nous nous sommes également intéressées à la variable nomchaineam, nous avons voulu visualiser les capacités, autrement dit l étendue des données : minimum, maximum et moyenne. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 24

25 L application de la méthode STAT sur la variable nomchaineam donne le résultat suivant : Il est possible de visualiser les données sous deux représentations graphiques: Soit par capacité, soit par représentation des probabilités min/max/mean. Visualisation en mode capacité : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 25

26 Visualisation en mode min/max/mean : Analyse des résultats : En ce qui concerne les diffusions des séries sur les chaînes américaines, nous remarquons que : - Les valeurs maximum obtenues sont pour les chaînes «HBO» et «NBC» puisqu elle obtiennent toutes les deux une valeur maximum de 50 %. Ceci signifie qu il existe au moins un concept dont la moitié des séries le composant sont diffusées sur «HBO» et au moins un autre concept dont la moitié des séries sont diffusées sur «NBC». - Les valeurs moyennes obtenues par les chaînes sont : 25% de l ensemble des séries nominées aux Golden Globes et EMMY Awards sont diffusées sur la chaîne «HBO». C est donc la chaîne ayant la plus grande influence sur les nominations. La chaîne «the WB» est celle la moins représentée dans les nominations puisqu elle n est présente qu à 1%. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 26

27 IV.3 - Méthode DIV IV Description de la méthode DIV est une méthode de classification hiérarchique. Au départ les concepts forment une unique partition. L algorithme procède par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l inertie. L objectif est de regrouper au sein d une même classe des concepts proches de par leurs caractéristiques. L algorithme s arrête après avoir effectué k-1 divisions, k étant le nombre de classes donné en entrée à la méthode par l utilisateur. Le listing disponible en sortie contient les informations suivantes : - une liste de la «variance» des variables quantitatives ou bien une liste des valeurs possibles pour les variables qualitatives, - pour chaque partition de 2 à k classes, une liste des objets contenus dans chaque classe ainsi que l inertie expliquée, et - l arbre de classification. IV Interprétation Pour cette méthode, nous avons conservé les douze concepts initialement présents. Nous avons appliqué la méthode selon deux classifications : Sur les variables qualitatives : Sur les variables quantitatives : - SexeActeur - nomchaineam - nomchainefr - duree - nbsaisons - nbacteursmasculins - nbacteursfeminins - TauxReussite - Mounia CHERRAD Anne-Sophie REGOTTAZ - 27

28 En ce qui concerne le paramétrage, il faut déterminer le nombre de clusters. Nous avons considéré qu il serait souhaitable de prendre la racine carrée supérieure du nombre de concepts, soit quatre classes, puisque nous avions douze concepts. L application de la méthode DIV sur les variables qualitatives donne le résultat suivant : BASE=C:\Program Files\DECISIA\SODAS version 2.0\Tmp\DF6M1R01.CMD nind=12 nvar=21 nvarsel=3 nvarcoup=3 METHOD=DIV ASSO VERSION=02 DATE=02/24/ THE SELECTED SPLIT-VARIABLES ARE : ( 3) :SexeActeur 1- M 2- F ( 11) :nomchaineam 1- Fox 2- CBS 3- Fx 4- HBO 5- NBC 6- USA Network 7- BBC America 8- ABC 9- The WB ( 13) :nomchainefr 1- Canal 2- TF1 3- Paris Premiere 4- Jimmy 5- F2 6- TPS Star 7- M6 8- Serie Club 9- Teva 10-13e rue 11- aucune 12- TF6 PARTITION IN 4 CLUSTERS : Cluster 1 (n=1) : Gagnant Golden serie Cluster 2 (n=4) : Nomine EMMY actrice Nomine Golden actrice Gagnant Golden actrice Gagnant EMMY actrice Cluster 3 (n=1) : Gagnant EMMY acteur Cluster 4 (n=6) : Nomine Golden acteur Nomine Golden serie Nomine EMMY serie Nomine EMMY acteur Gagnant EMMY serie Gagnant Golden acteur - Mounia CHERRAD Anne-Sophie REGOTTAZ - 28

29 Explicated inertia : Université Paris Dauphine Datamining - DESS ID- 2004/2005 THE CLUSTERING TREE : the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no Classe 1 (Ng=1)!! [nomchainefr = TF1 OR Canal]!!! Classe 4 (Nd=6)!! [nomchaineam = Fx]!!! Classe 3 (Nd=1)!! [SexeActeur = M]! Classe 2 (Nd=4) Analyse des résultats : On observe qu avec quatre clusters nous avons une inertie de 61,3 % avec les variables qualitatives. La première division se fait par rapport à la variable SexeActeur : - Si le sexe est masculin, de nouvelles divisions sont effectuées : - Si la série est diffusée sur la chaîne Fx, une nouvelle division est effectuée : - Si la série est diffusée sur les chaînes françaises «TF1» ou «Canal», alors nous obtenons la classe 1 composée du concept «Gagnant Golden serie». - Sinon si la série n est pas diffusée sur les chaînes françaises «TF1» ou «Canal», alors nous obtenons la classe 4, composée des concepts «Nomine Golden acteur, Nomine Golden serie», «Nomine EMMY serie», «Nomine EMMY acteur «, «Gagnant EMMY serie», «Gagnant Golden acteur». - Sinon si la série n est pas diffusée sur la chaîne américaine «Fx», alors nous obtenons la classe 3 composée du concept «Gagnant EMMY acteur». - Sinon si le sexe est féminin nous obtenons une classe indivisible : la classe 2 composée des 4 concepts «Nomine EMMY actrice», «Nomine Golden actrice», «Gagnant Golden actrice», «Gagnant EMMY actrice». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 29

30 Nous remarquons que deux concepts se distinguent clairement des autres : - «Gagnant Golden serie» : Les gagnants aux Golden Globes dans la catégorie meilleure série sont des séries qui ont un acteur principal de sexe masculin, et qui ont été diffusées sur les chaînes «Fx», et «TF1» ou «Canal». - «Gagnant EMMY acteur» : Les gagnants aux EMMY Awards dans la catégorie meilleur acteur sont des séries qui ont un acteur principal de sexe masculin, et qui ne sont pas diffusées sur la chaîne «Fx». L application de la méthode DIV sur les variables quantitatives donne le résultat suivant : BASE=C:\Program Files\DECISIA\SODAS version 2.0\Tmp\DF6M1R01.CMD nind=12 nvar=21 nvarsel=5 nvarcoup=5 METHOD=DIV ASSO VERSION=02 DATE=02/24/ VARIANCE OF THE CRITERTION-VARIABLES : duree : nbsaisons : nbacteursmasculins : nbacteursfeminins : TauxReussite : PARTITION IN 4 CLUSTERS : : Cluster 1 (n=1) : Cluster 4 (n=7) : Nomine Golden acteur Cluster 2 (n=3) : Gagnant Golden serie Gagnant Golden actrice Gagnant EMMY acteur Cluster 3 (n=1) : Gagnant Golden acteur Nomine Golden serie Nomine EMMY serie Nomine EMMY acteur Nomine EMMY actrice Nomine Golden actrice Gagnant EMMY serie Gagnant EMMY actrice Explicated inertia : THE CLUSTERING TREE : the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no - Mounia CHERRAD Anne-Sophie REGOTTAZ - 30

31 +---- Classe 1 (Ng=1)!! [duree <= ]!!! Classe 4 (Nd=7)!! [TauxReussite <= ]!! Classe 2 (Ng=3)!!! [TauxReussite <= ]! Classe 3 (Nd=1) Analyse des résultats : On observe qu avec quatre clusters nous avons une inertie de 93,1 % avec les variables quantitatives. La première division se fait par rapport à la variable TauxReussite : - Si le taux est inférieur ou égal à 46,075, de nouvelles divisions sont effectuées : - Si la durée de la série est inférieure ou égale à 34 minutes, alors nous obtenons la classe 1 composée du concept «Nomine Golden acteur». - Sinon si la durée de la série est supérieure à 34 minutes, alors nous obtenons la classe 4 composée des concepts «Nomine Golden serie «, «Nomine EMMY serie «, «Nomine EMMY acteur», «Nomine EMMY actrice», «Nomine Golden actrice», «Gagnant EMMY serie», «Gagnant EMMY actrice» - Sinon si le taux est supérieur à 46,075, de nouvelles divisions sont effectuées : - Si le taux est inférieur ou égal à 67,5, alors nous obtenons la classe 2, composée des concepts «Gagnant Golden serie», «Gagnant Golden actrice», «Gagnant EMMY acteur». - Sinon si le TauxReussite est inférieur ou égal à 67,5, alors nous obtenons la classe 3, composée du concept «Gagnant Golden acteur». Nous remarquons que deux concepts se distinguent clairement des autres : - «Gagnant Golden acteur» : Les gagnants aux Golden Globes dans la catégorie meilleur acteur sont des séries qui ont un taux de réussite supérieur à 67,5%. - «Nomine Golden acteur» : Les nominés aux Golden Globes dans la catégorie meilleur acteur sont des séries qui ont un taux de réussite inférieur ou égal à 46% et une durée inférieure ou égale à 34 minutes. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 31

32 IV.4 - Méthode SPCA IV Description de la méthode Cette méthode reprend les principes de l analyse factorielle en composantes principales (ACP) et n accepte que des variables intervalles. Elle se base sur des variables quantitatives et a pour objectif de grouper les individus qui ont des valeurs proches. L objectif de cette méthode sur le tableau de données symboliques est le même que pour l analyse classique, mis à part qu il s agit de grouper des concepts et non plus des individus. La méthode SPCA correspond à l analyse en composantes principales classiques. Mais au lieu d obtenir une représentation par points sur un plan factoriel, elle propose une visualisation de chaque concept par des rectangles. IV Interprétation Les variables que nous avons mises en entrée de la méthode SPCA sur SODAS sont : - AgeActeur - Duree - NbSaisons - NbActeursMasculins - NbActeursFeminins L application de la méthode SPCA sur ces variables donne le résultat suivant : ****** PRINCIPAL COMPONENTS ANALYSIS ****** File:D:\CONCEPTGAGNANTPERDANT.SDS SELECTIONS Symbolic Object:12 Gagnant Golden serie ==> AA00 Nomine Golden acteur ==> AA01 Nomine Golden serie ==> AA02 Nomine EMMY serie ==> AA03 Nomine EMMY acteur ==> AA04 Nomine EMMY actrice ==> AA05 Nomine Golden actrice ==> AA06 Gagnant Golden actrice ==> AA07 Gagnant EMMY serie ==> AA08 Gagnant EMMY actrice ==> AA09 Gagnant Golden acteur ==> AA10 Gagnant EMMY acteur ==> AA11 - Mounia CHERRAD Anne-Sophie REGOTTAZ - 32

33 Variables:5 AgeActeur ==> AE00 duree ==> AG00 nbsaisons ==> AH00 nbacteursmasculins ==> AI00 nbacteursfeminins ==> AJ00 SO-PCA values Explained Cumulated Histogram Inertia % % 0-25%-50%-75%-100% Ev **************** Ev ************* Ev ******** SPCA Coordinates [Min;Max] (12 objs,3 fact)= Objects Factor 1 Factor 2 Factor 3 Gagnant Golden serie [ ; ] [ ; ] [ ; ] Nomine Golden acteur [ ; ] [ ; ] [ ; ] Nomine Golden serie [ ; ] [ ; ] [ ; ] Nomine EMMY serie [ ; ] [ ; ] [ ; ] Nomine EMMY acteur [ ; ] [ ; ] [ ; ] Nomine EMMY actrice [ ; ] [ ; ] [ ; ] Nomine Golden actric [ ; ] [ ; ] [ ; ] Gagnant Golden actri [ ; ] [ ; ] [ ; ] Gagnant EMMY serie [ ; ] [ ; ] [ ; ] Gagnant EMMY actrice [ ; ] [ ; ] [ ; ] Gagnant Golden acteu [ ; ] [ ; ] [ ; ] Gagnant EMMY acteur [ ; ] [ ; ] [ ; ] Quality measure of the SOs representation (12 objs,3 fact)= Objects Factor 1 Factor 2 Factor 3 Gagnant Golden serie Nomine Golden acteur Nomine Golden serie Nomine EMMY serie Nomine EMMY acteur Nomine EMMY actrice Nomine Golden actric Gagnant Golden actri Gagnant EMMY serie Gagnant EMMY actrice Gagnant Golden acteu Gagnant EMMY acteur Correlations between variables and factors (5 vars,3 fact)= Var. Factor 1 Factor 2 Factor 3 AgeActeur duree nbsaisons nbacteursm Mounia CHERRAD Anne-Sophie REGOTTAZ - 33

34 nbacteursf Représentation graphique des axes de plus grande inertie, qui sont ici : - L axe 1 : AgeActeur avec 68,6% d inertie - L axe 2 : Duree de la série avec 26,2% d inertie Soit un total de 94,8 % d inertie représentée par ces deux axes. Analyse des résultats : Nous pouvons constater que parmi les cinq variables en entrée de la méthode, les deux axes qui ont la plus grande inertie sont l âge de l acteur et la durée de la série. Sur le dernier graphique, les quatre concepts sont représentés: «Gagnant Golden Acteur», «Gagnant EMMY Acteur», «Gagnant Golden actrice» et «Gagnant EMMY Actrice». Il est donc possible de comparer les concepts soit selon la catégorie de nomination («acteur» ou «actrice»), soit selon le type de récompense («Golden Globes» ou «EMMY Awards»). Nous avons remarqué que la donnée de plus grande variabilité est l âge de l acteur principal, et celle de plus petite variabilité est la durée de la série. En ce qui concerne les EMMY Awards, la fourchette d âge des actrices gagnantes est plus resserrée alors que la fourchette d âge des acteurs gagnants est plus étendue. En ce qui concerne les Golden Globes, les acteurs gagnants ont des âges nettement plus avancés que les actrices gagnantes. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 34

35 IV.5 - Méthode HIPYR IV Description de la méthode La méthode des pyramides généralise le principe des hiérarchies en permettant les classes non disjointes à un niveau donné au lieu d une partition. Cette méthode permet de classer des données plus complexes que ce qu autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans un échantillonnage pyramidal symbolique, chaque échantillon formé est défini non seulement par l ensemble de ses éléments- son extension- mais aussi par l objet symbolique, qui décrit ses propriétés- son intention. En entrée de cette méthode, l utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs réelles), des intervalles de valeurs réelles ou bien des histogrammes. L utilisateur est invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger L objectif est de regrouper des concepts proches de par leurs caractéristiques en permettant de trouver des concepts dans plusieurs classes. IV Interprétation Les paramètres en entrée de la méthode HIPYR sur SODAS sont : - Variables intervalles : NbSaisons et AnneeDiffFr - Variables nominales : SexeActeur et nomchainefr Le listing est présenté ci-dessous, avec seulement les classes de niveau supérieur à 0 : METHOD = HIERARCHICAL AND PYRAMIDAL CLUSTERING (HIPYR) SUBJECT = PYRAMIDAL CLUSTERING FROM THE SYMBOLIC OBJECTS DATA ===================================================================== THE CLASS - "C_1/14" AGGREGATION HEIGHT THIS CLASS IS FORMED BY THE UNION OF THE SYMBOLIC OBJECTS Gagnant Golden serie, Gagnant Golden acteur - Mounia CHERRAD Anne-Sophie REGOTTAZ - 35

36 THE CLASS EXTENSION (SYMBOLIC OBJECTS) [Gagnant Golden serie, Gagnant Golden acteur] LONG SYMBOLIC OBJECT DESCRIBING THE CLASS [SexeActeur = (M(0.75), F(0.25))] ^ [nbsaisons = [1, 3]] ^ [nomchainefr = (Canal(0.25), Paris Premiere(0.25), F2(0.25), TPS Star(0.25), aucune(0.25))] ^ [AnneeDiffFr = [2001, 2006]] ===================================================================== THE CLASS - "C_6/14" AGGREGATION HEIGHT THIS CLASS IS FORMED BY THE UNION OF THE SYMBOLIC OBJECTS Gagnant Golden actrice, Gagnant EMMY actrice THE CLASS EXTENSION (SYMBOLIC OBJECTS) [Gagnant Golden actrice, Gagnant EMMY actrice] LONG SYMBOLIC OBJECT DESCRIBING THE CLASS [SexeActeur = (F(1))] ^ [nbsaisons = [1, 6]] ^ [nomchainefr = (TF1(0.25), Jimmy(0.25), F2(0.25), M6(0.25), aucune(0.25), TF6(0.25))] ^ [AnneeDiffFr = [1999, 2006]] ===================================================================== THE CLASS - "C_12/14" AGGREGATION HEIGHT THIS CLASS IS FORMED BY THE UNION OF THE SYMBOLIC OBJECTS Gagnant EMMY serie, Gagnant EMMY acteur THE CLASS EXTENSION (SYMBOLIC OBJECTS) [Gagnant EMMY serie, Gagnant EMMY acteur] LONG SYMBOLIC OBJECT DESCRIBING THE CLASS [SexeActeur = (M(1))] ^ [nbsaisons = [2, 11]] ^ [nomchainefr = (TF1(0.25), Jimmy(0.25), F2(0.25), TPS Star(0.25), M6(0.25), Serie Club(0.5))] ^ [AnneeDiffFr = [1998, 2005]] ===================================================================== THE CLASS - "C_14/14" AGGREGATION HEIGHT - 1 THIS CLASS IS FORMED BY THE UNION OF THE SYMBOLIC OBJECTS Nomine Golden serie AND THE CLASSES "C_5/14", "C_11/14", "C_13/14" THE CLASS EXTENSION (SYMBOLIC OBJECTS) [Nomine Golden serie, Nomine EMMY actrice, Gagnant Golden serie, Gagnant Golden acteur, Gagnant EMMY acteur, Nomine Golden acteur, Nomine Golden actrice, Nomine EMMY serie, Gagnant Golden actrice, Gagnant EMMY actrice, Nomine EMMY acteur, Gagnant EMMY serie] LONG SYMBOLIC OBJECT DESCRIBING THE CLASS [SexeActeur = (M(0.75), F(0.125))] ^ [nbsaisons = [1, 11]] ^ [nomchainefr = (Canal(0.0625), TF1(0.0625), Paris Premiere(0.0625), Jimmy( ), F2( ), TPS Star(0.125), M6( ), Serie Club(0.0625), Teva(0.0625), 13e rue( ), aucune(0.0625), TF6(0.0625))] ^ [AnneeDiffFr = [1996, 2006]] - Mounia CHERRAD Anne-Sophie REGOTTAZ - 36

37 ===================================================================== THE DISSIMILARITY MATRIX 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0.63, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, THE EVALUATION VALUE = ===================================================================== Représentation graphique de la pyramide résultante de l exécution de HIPYR: - Mounia CHERRAD Anne-Sophie REGOTTAZ - 37

38 IV.6 - Méthode TREE IV Description de la méthode La méthode TREE propose un algorithme par agrandissement d arbre. Il s agit d une procédure récursive de partitionnement en plusieurs classes qui peut être vue comme une recherche itérative d un ensemble organisé d objets symboliques qui correspond le mieux aux données initiales. L objectif de cette méthode est de trouver, pour une variable à expliquer Y, la variable x qui l explique le mieux. Il s agit alors de trouver les variables les plus caractéristiques de chaque classe. Les critères d arrêt de cette méthode sont : - une taille de classe pas assez grande («Minimum size to split the node») - une classe majoritaire ( «Minimum size of no-majority classes») - le nombre de feuilles terminales atteint ( «Number of terminal nodes») - deux nœuds fils trop petits («Minimum size of right or left descendant nodes») La méthode TREE peut être évaluée de deux manières : «pure» ou «fuzzy». Elle utilise les différents critères de division : «Gini», «information» ou «likehood». IV Interprétation Les paramètres de la méthode TREE sur SODAS sont : - Class Identifier variable : Resultat (inséree par la requête Addsingle) - Explanatory variable : SexeActeur, AgeActeur, nomchaineam, nbactricesmoy, nbacteursmoy, nbsaisonsmoy, nbnominationsmoy - Terminal nodes : 2 - Soft assignement : PURE. - Spliting criterion : GINI L application de la méthode TREE sur les 12 concepts donne le résultat suivant : BASE= D :\ConceptGagnantPerdant.sds Number of OS = 12 Number of variables = 22 METHOD=TREE Version 2.0 INRIA Mounia CHERRAD Anne-Sophie REGOTTAZ - 38

39 Learning Set : 12 Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1 Frequency of test set : 0.00 NUMBER OF A PRIORI CLASSES : 2 ID_CLASS NAME_CLASS 1 Gagnant 2 Perdant CLASS SIZE LEARNING TOTAL TEST TREE CRITERION ================================================================ Ord variable value criterion ================================================================ 1 ( 17) NbActricesMoy ( 21) NbNominationsMoy ( 18) NbActeursMoy ( 4) AgeActeur ( 19) NbSaisonsMoy ================================================================ SPLITTING NODE: 1 VARIABLE : ( 17) NbActricesMoy SPLIT : CRITERION : LEARNING SET ==================================================== left node right node Row totals node ==================================================== Gagnant Perdant ==================================================== Total ==================================================== RESULTS BY LEAF LEAF : 2 ========================================================= N(k/t) N(k) P(k/t) P(t/k) ========================================================= Gagnant Perdant ========================================================= - Mounia CHERRAD Anne-Sophie REGOTTAZ - 39

40 RULE : IF [ NbActricesMoy <= ] IS TRUE THEN ASSIGN_CLASS IS Perdant r(t)= p(t)= R(t)= List of objects : ( 2)Nomine Golden acteur ( 2)Nomine Golden serie ( 2)Nomine EMMY serie ( 2)Nomine EMMY acteur ( 2)Nomine EMMY actrice ( 2)Nomine Golden actrice ( 1)Gagnant EMMY serie ( 1)Gagnant Golden acteur LEAF : 3 ========================================================= N(k/t) N(k) P(k/t) P(t/k) ========================================================= Gagnant Perdant ========================================================= RULE : IF [ NbActricesMoy <= ] IS FALSE THEN ASSIGN_CLASS IS Gagnant r(t)= p(t)= R(t)= List of objects : ( 1)Gagnant Golden serie ( 1)Gagnant Golden actrice ( 1)Gagnant EMMY actrice ( 1)Gagnant EMMY acteur RESULTS BY SYMBOLIC OBJECT ========================================================== No Nom Leaf Class No true assig. ========================================================== 1 Gagnant Golden serie Nomine Golden acteur Nomine Golden serie Nomine EMMY serie Nomine EMMY acteur Nomine EMMY actrice Nomine Golden actrice Gagnant Golden actrice Gagnant EMMY serie (*) 10 Gagnant EMMY actrice Gagnant Golden acteur (*) 12 Gagnant EMMY acteur ========================================================== R(T)= MISCLASSIFICATION RATE BY CLASS TRUE CLASS ( ERROR /SIZE ) FREQUENCY Gagnant ( 2 / 6 ) Perdant ( 0 / 6 ) 0.00 TOTAL ( 2 / 12 ) Mounia CHERRAD Anne-Sophie REGOTTAZ - 40

41 Arbre de décision résultant : Université Paris Dauphine Datamining - DESS ID- 2004/ IF ASSERTION IS TRUE (up)! --- x [ ASSERTION ]! IF ASSERTION IS FALSE (down) < 2 >Perdant ( )!!----1[ NbActricesMoy <= ]! < 3 >Gagnant ( ) Représentation graphique des deux classes résultantes du Tri «Gagnant» et «Perdant»: - Mounia CHERRAD Anne-Sophie REGOTTAZ - 41

42 Analyse des résultats : La variable à expliquer est la donnée «Resultat» qui indique si les individus du concept sont des gagnants ou des perdants. Nous cherchons donc à trouver parmi les cinq variables en entrée, celle qui explique le mieux le fait de gagner ou de perdre. Selon le listing, la variable qui discrimine le mieux est donc le nombre moyen d actrices dans la série. Il en résulte un découpage des données en deux classes : «Perdant» et «Gagnant». Le taux d erreur de classification est de 16,7% soit 2 concepts sur 12 qui ont été classés dans la mauvaise catégorie. Tous les concepts perdants sont bien affectés à la classe «Perdant» et 4 concepts gagnants sur 6 sont affectés à la classe «Gagnant». Les 2 concepts gagnants qui ont été classés dans la catégorie «Perdant» sont : Gagnant EMMY serie et Gagnant Golden Acteur. Les gagnants sont les nominés dont le nombre moyen d actrices est supérieur à 3,8, et les perdants sont ceux dont ce même nombre est inférieur à 3,8. Nous pouvons conclure que la variable «nbactricesmoy» est celle qui explique le mieux la variable de départ «Resultat». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 42

43 IV.7 - Méthode SYKSOM IV Description de la méthode La méthode de SYKSOM s appuie sur le principe des cartes de Kohonen. Les cartes de Kohonen sont une classe de réseaux de neurones ayant principalement la particularité de prendre en compte des propriétés de continuité spatiale ou temporelle. Ce type de réseau s'appuie sur une dynamique de propagation multi-directionnelle avec de fortes interactions entre neurones d'un même voisinage. Cette méthode est utilisée pour la classification de séries chronologiques ou pour le problème du voyageur de commerce. Le nuage de point initial se représente de la manière suivante : IV Interprétation Les variables en entrée de la méthode SYKSOM sont : - NbActricesMoy - NbActeursMoy - NbSaisonsMoy - DureeMoy - NbNominationsMoy - Mounia CHERRAD Anne-Sophie REGOTTAZ - 43

44 L application de la méthode TREE sur les 12 concepts donne le résultat suivant : METHOD=SYKSOM Version 12/20/03 Aachen 2003 BASE = D:\ConceptGagnantPerdant.sds Number of columns a = 5 Number of rows b = 5 Number of Symbolic Objects = 12 Number of variables = 5 Number of clusters (neurons) = 25 Dimension of vectors = 5 Exponential kernel Distance : Vertex-type distance LIST OF SYMBOLIC OBJECTS IN EACH CLUSTER Les clusters de Size 0 et Empty sont : Cluster 1 ( 1x1), Cluster 2 ( 1x2), Cluster 4 ( 1x4), Cluster 5 ( 1x5), Cluster 7 ( 2x2), Cluster 8 ( 2x3), Cluster 9 ( 2x4), Cluster 10 ( 2x5), Cluster 11 ( 3x1), Cluster 14 ( 3x4), Cluster 16 ( 4x1),Cluster 17 ( 4x2) Cluster 18 ( 4x3), Cluster 19 ( 4x4), Cluster 20 ( 4x5), Cluster 21 ( 5x1), Cluster 22 ( 5x2), Cluster 23 ( 5x3), Cluster 24 ( 5x4), Cluster 25 ( 5x5), Les autres clusters de taille supérieure sont : Cluster 3 ( 1x3) Size 3 List of objects: ( 1) Gagnant Golden serie ( 8) Gagnant Golden actrice ( 12) Gagnant EMMY acteur Cluster 6 ( 2x1) Size 1 List of objects: ( 11) Gagnant Golden acteur Cluster 12 ( 3x2) Size 1 List of objects: ( 2) Nomine Golden acteur Cluster 13 ( 3x3) Size 6 List of objects: ( 3) Nomine Golden serie ( 4) Nomine EMMY serie ( 5) Nomine EMMY acteur ( 6) Nomine EMMY actrice ( 9) Gagnant EMMY serie ( 10) Gagnant EMMY actrice Cluster 15 ( 3x5) Size 1 List of objects: ( 7) Nomine Golden actrice - Mounia CHERRAD Anne-Sophie REGOTTAZ - 44

45 Représentation graphique des clusters suivant le nombre moyen de nominations et de saisons: Représentation du cluster 13 (3*3), en graphe en étoile avec SYKSOM : Représentation graphique avec la méthode VMAP : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 45

46 Analyse des résultats : Université Paris Dauphine Datamining - DESS ID- 2004/2005 Selon le listing, nous obtenons, à partir des cinq variables en entrée, 25 clusters dont seulement cinq sont non vide, le plus gros étant le cluster 3*3 qui comporte six individus. Plus précisément, les clusters qui se démarquent de par le nombre de saisons et le nombre de nominations sont : - Cluster (2*1) constitué du concept «Gagnant Golden acteur» : Il en résulte que la plupart des Gagnants aux Golden Globes dans la catégorie meilleur acteur ont joué dans des séries récentes ( nbsaisons <=2) et ont un taux de réussite élevé (nbnominations <= 3). - Cluster (3*3) constitué des concepts «Nomine Golden serie», «Nomine EMMY serie», «Nomine EMMY acteur», «Nomine EMMY actrice», «Gagnant EMMY serie», «Gagnant EMMY actrice» : Il en résulte que la plupart de ces concepts ont joué dans les séries les plus anciennes ( nbsaisons >=5) et ont un taux de réussite faible, c est-à-dire ayant beaucoup de nominations comparativement au nombre de récompenses obtenues (nbnominations >=6). En conclusion, nous pouvons constater que les Golden Globes récompensent essentiellement des séries récentes, nominées un petit nombre de fois, alors que les EMMY Awards nominent et récompensent surtout les séries anciennes. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 46

47 Pépites Les pépites trouvées concernent ici les nominés et les gagnants en 2003 et 2004 aux Golden Globes et EMMY Awards. Les deux facteurs les plus pertinents sont : - Chaîne américaine : Les deux chaînes ayant la plus grande influence sur les nominations sont «HBO» et «NBC». - Nombre d actrices : Les séries gagnantes sont celles dont le nombre moyen d actrices est supérieur à 3,8. Nous présenterons tout d abord les pépites concernant les Golden Globes, et enfin celles concernant les EMMY Awards. Golden Globes Les critères de nomination d une série aux Golden Globes sont : - Nombre de saisons inférieur à 7 ans - Peu de nominations et jusqu à 50% de taux de réussite. Série Les séries qui ont gagné en sont celles qui ont : - un acteur principal de sexe masculin - un nombre de saisons peu élevé (compris entre 1 et 3 ans) - au moins 3 acteurs masculins mais qui n excèdent pas 6. - un acteur principal âgé entre 36 et 43 ans. - été diffusées sur les chaînes «Fx», et «TF1» ou «Canal». Acteur Les acteurs ayant gagné ont tous joué dans des séries : - ayant exactement un nombre de saisons égal à 2. - ayant trois actrices maximum, et trois acteurs minimum. - qui ne sont diffusées ni sur «Fx» ni sur «NBC». - avec un taux de réussite supérieur à 67,5%. - avec un nombre de nominations inférieur ou égal à 3. Actrice Les actrices nominées jouent dans des séries diffusées en France par les chaînes «TF1» et «Teva». Les actrices gagnantes sont nettement plus jeunes que les acteurs gagnants. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 47

48 EMMY Awards Les EMMY Awards nominent et récompensent surtout les séries anciennes. La fourchette d âge des actrices gagnantes est plus resserrée alors que la fourchette d âge des acteurs gagnants est plus étendue. Série Les séries nominées sont anciennes (entre 2 et 10 ans) Acteur Les acteurs principaux des séries nominées sont âgés (le plus jeune ayant 37 ans). Actrice Les actrices nominées jouent dans des séries essentiellement diffusées sur «M6». Les actrices gagnantes sont âgées de 36 à 44 ans et jouent dans des séries de 4 à 6 ans diffusées seulement sur «HBO» et «NBC». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 48

Montrer encore