Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.



Documents pareils
Critères pour avoir la meilleure équipe!

DATA MINING - Analyses de données symboliques sur les restaurants

La classification automatique de données quantitatives

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Introduction à la B.I. Avec SQL Server 2008

INTRODUCTION AU DATA MINING

1 Modélisation d être mauvais payeur

Université Paris IX DAUPHINE DATE : 24/04/06

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction au Data-Mining

Introduction au datamining

2 Serveurs OLAP et introduction au Data Mining

données en connaissance et en actions?

Utiliser Access ou Excel pour gérer vos données

Logiciel XLSTAT version rue Damrémont PARIS

Business Intelligence

WEBSELL. Projet DATAMINING

Techniques d interaction dans la visualisation de l information Séminaire DIVA

BIRT (Business Intelligence and Reporting Tools)

Travaux pratiques avec RapidMiner

Spécificités, Applications et Outils

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Extraction d informations stratégiques par Analyse en Composantes Principales

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Agenda de la présentation

Statistiques Descriptives à une dimension

Le langage SQL Rappels

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

EXCEL et base de données

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Encryptions, compression et partitionnement des données

Comment créer un diagramme de Gantt avec OpenOffice.org

La place de SAS dans l'informatique décisionnelle

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

IBM SPSS Direct Marketing

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Mémo d utilisation de ADE-4

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Business Intelligence avec Excel, Power BI et Office 365

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Travailler avec les télécommunications

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Introduction au Data-Mining

Créer le schéma relationnel d une base de données ACCESS

Jean-François Boulicaut & Mohand-Saïd Hacid

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Analyse de grandes bases de données en santé

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

TUTORIAL REUTERS. Utilisation de l'utilitaire de recherche Reuters

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Arbres binaires de décision

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Bases de données. Chapitre 1. Introduction

Gestion des données avec R

THOT - Extraction de données et de schémas d un SGBD

Pourquoi l apprentissage?

EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

Séries Statistiques Simples

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Dossier I Découverte de Base d Open Office

Entrepôt de données 1. Introduction

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Initiation à Excel. Frédéric Gava (MCF)

8. Gestionnaire de budgets

Comment consolider des données

Lire ; Compter ; Tester... avec R

Le scoring est-il la nouvelle révolution du microcrédit?

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

Chapitre 1 : Introduction aux bases de données

Sybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. DOCUMENTATION

SAP BusinessObjects Web Intelligence (WebI) BI 4

Les algorithmes de fouille de données

Introduction aux SGBDR

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Didier MOUNIEN Samantha MOINEAUX

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Langage SQL : créer et interroger une base

Business Intelligence avec SQL Server 2012

Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

2014/2015. Rapport 4 REALISE PAR : ISMAIL NAIT ABDELLAH OUALI SOUFIANE HOURRI MOHAMED OUSSAFI ENCADRE PAR : MME L.LAMRINI ANOUAR OUFQIR SMARTSIR

Le disque dur. Le disque dur est l'organe servant à conserver les données sous forme de dossiers de manière permanente.

MyReport, une gamme complète. La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! pour piloter votre activité au quotidien.

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Traitement des données avec Microsoft EXCEL 2010

Transcription:

Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ

Sommaire Introduction... 3 I - Etat de l art du Datamining et de Sodas... 4 I.1 - Le datamining... 4 I.2 - Logiciel Sodas... 6 II - Problématique choisie et ensemble de données... 7 II.1 - Problématique choisie... 7 II.2 - Base de données relationnelle... 7 II.3 - Individus et concepts... 9 III - Requêtes... 10 III.1 - Requête principale... 10 III.2 - Requête AddSingle... 13 III.3 - Requête Taxonomie... 14 III.4 - Extraction sous DB2SO... 15 IV - Analyses sur SODAS... 18 IV.1 - Méthode VIEW... 18 IV.2 - Méthode STAT... 23 IV.3 - Méthode DIV... 27 IV.4 - Méthode SPCA... 32 IV.5 - Méthode HIPYR... 35 IV.6 - Méthode TREE... 38 IV.7 - Méthode SYKSOM... 43 Pépites... 47 - Mounia CHERRAD Anne-Sophie REGOTTAZ - 2

Introduction Université Paris Dauphine Datamining - DESS ID- 2004/2005 Dans le cadre du cours de Datamining dispensé en DESS Informatique Décisionnelle à Dauphine, nous étions en charge de réaliser une fouille de données symboliques. Nous avons choisi le domaine des séries télévisées, celles-ci étant nominées et récompensées tous les ans par les cérémonies de Golden Globes et EMMY Awards. Nous nous intéresserons plus précisément aux critères de nomination et au fait qu une série gagne ou non. Pour ce faire nous avons créé une Base de données et nous l avons exploitée à l aide du logiciel de d analyse de données symbolique : SODAS. Dans ce document, vous trouverez tout d abord une présentation du Datamining, ensuite la description des données sources de l étude, puis la manière dont les requêtes ont été extraites de la Base de données, et enfin vous trouverez l analyse complète que nous avons réalisée avec les différentes méthodes proposées par SODAS. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 3

I - Etat de l art du Datamining et de Sodas I.1 - Le datamining I.1.1 Définition À l'origine, le datamining était en deux mots : le «Data Mining». Il constitue l ensemble des techniques permettant d'aller puiser des informations pertinentes dans les montagnes de données stockées ces dernières décennies dans les entreprises (Datawarehouses). Il consiste à «trouver des diamants dans un tas de charbon sans se salir les doigts». L exploration des données, aussi connue sous les noms «fouille de données» et «data mining», a pour objet l'extraction du savoir implicite à de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. I.1.2 - Outils utilisés Il existe de nombreux produits commerciaux vendus pour le datamining. Selon le site «Ultra-Fluide.com», les points forts supposés des logiciels commerciaux (interface, documentation, support) ne compensent pas certains inconvénients relatifs notamment aux coûts ou au code propriétaire. Les logiciels commerciaux disposent également bien souvent de budgets spécifiques visant à les faire connaître. Ils conseillent donc des produits open source, que nous allons vous présenter ci-dessous : R-projet : R est un langage et une infrastructure spécialisés pour les traitements statistiques. R est l'un des nombreux projets GNU distribué sous licence GPL (logiciel libre). R est écrit en langage compilé (principalement en C), ce qui autorise de bonnes performances. La qualité de cet environnement et son ouverture ont permis à une myriade de théoriciens, statisticiens et informaticiens de compléter cette plate-forme d'un nombre impressionnant de fonctionnalités. Des dizaines de packages offrant des milliers de fonctions en font probablement la plate-forme la plus complète. Ce n'est cependant pas l'outil le plus simple d'abord. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 4

Scilab et Mixmod : Scilab est un langage et une infrastructure spécialisés pour les traitements mathématiques numériques et la modélisation. Scilab est un projet de l'inria et de l'ecole Nationale des Ponts et Chaussées. Sa licence autorise une utilisation gratuite ainsi que la modification des sources. Scilab supporte un spectre très large d'applications, et de nombreuses contributions sont opérationnelles sur cette plate-forme. Mixmod est une contribution de l'inria, du Laboratoire de Mathématique de Besançon et du Laboratoire Heudiasys de Compiègne qui fonctionne sur Scilab. Mixmod propose des fonctionnalités de clustering (analyse discriminante et maximum de vraisemblance). Mixmod est relativement simple d'utilisation et s'avère adapté pour un volume raisonnable de données. Autoclass-c : C est un logiciel spécialisé dans le clustering (analyse discriminante et maximum de vraisemblance). Il a été développé par un laboratoire de la NASA et est disponible dans le domaine public. Autoclass-c est un outil performant écrit en C qui n'a plus évolué depuis 2002. Le datamining est également utilisé dans des sociétés, comme BusinessDecision. Les outils qu ils utilisent sont : SAS, SLP, SPSS, IBM, KXEN I.1.3 - Applications Le Datamining est de plus en plus utilisé par les entreprises. On retrouve notamment : Les services publics dans la lutte anti-fraude : La faible rentabilité de certains impôts est, dans de nombreux cas, expliquée par la fraude fiscale, fraude fiscale difficilement endiguée à cause d énorme moyens humains et financiers qu elle nécessite. Fujitsu Consulting a mis en place une méthode de scoring permettant de détecter les fraudeurs. La méthode utilisée s appuie sur les méthodes de Datawarehousing et de datamining : on récupère des données de plusieurs services (fraudes, fisc) et on estime la corrélation entre les différentes variables et la probabilité de frauder. Cette méthode sembla avoir donné des résultats au Québec, Fujitsu vise aujourd hui le marché européen - Mounia CHERRAD Anne-Sophie REGOTTAZ - 5

L industrie du disque : Aujourd hui, l industrie du disque se met tout doucement au datamining. Deux constats ont encouragé cette évolution : d abord, le fait que la quasi-totalité des fans d un groupe ne savent pas quand le dernier disque de leurs idoles est sorti et ensuite parce que cette approche «Marketing Quantitatif» était relativement absent des préoccupations du monde de la musique. Les nouvelles technologies de l information et la multitude de solutions logicielles laissent ouvert un vaste champ d application du datamining dans l industrie du disque. I.2 - Logiciel Sodas SODAS est un outil public d analyse de données symboliques. Il est disponible à l adresse : http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm. Il est issu du projet de EUROSTAT appelé SODAS. L idée générale de ce projet est de construire, à partir d'une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles et de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données sur des individus et d analyser ensuite ce tableau, par des méthodes d'analyse de données symboliques, pour en extraire des connaissances. Le tableau contient alors des données symboliques dont les individus correspondent aux concepts décrits par généralisation des propriétés des individus de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques selon le type de variables et le choix de l'utilisateur. Il est possible de créer un fichier d'objets symboliques sur lequel des méthodes d'analyse de données symboliques peuvent s'appliquer au sein du logiciel SODAS (histogrammes des variables symboliques comme STAT, classification automatique comme DIV, HIPYR, analyse factorielle comme SPCA, analyse discriminante comme TREE, visualisations graphiques VIEW,...). - Mounia CHERRAD Anne-Sophie REGOTTAZ - 6

II - Problématique choisie et ensemble de données II.1 - Problématique choisie Nous avons choisi d analyser les séries télévisées nominées aux Golden Globes et EMMY Awards en 2003 et 2004. Nous nous sommes intéressées à trois types de récompense : meilleure série, meilleur acteur, meilleure actrice, dans un genre donné c'est-à-dire dramatique ou comique. Nous voulons connaître les facteurs déterminant le fait qu une série gagne une récompense. Nous aimerions également trouver les critères de sélection pour les nominations d une série aux Golden Globes ou EMMY Awards. Ainsi nous avons cherché plusieurs renseignements sur ces séries. Pour ce faire nous avons créé une nouvelle base de données sous Access, puis nous l avons entièrement remplie avec les différents champs qui nous semblaient importants. Les sites web qui nous ont servi pour remplir cette base sont : Site pour les nominés : www.serieslive.com/actualite/archives_articles.php Site pour les gagnants : www.planete-series.com/emmy.php?emmy_id=56 II.2 - Base de données relationnelle La base de données que nous avons conçue manuellement sous Access est «SeriesNomineesOscars.mdb». Elle se compose de 14 tables dont les deux principales sont «Serie» et «Nomination». Elle comporte 121 enregistrements dans la table «Nomination», 37 dans la table «Serie», 21 dans la table «ActricePrincipale» et 27 dans la table «ActeurPrincipal». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 7

Vous trouverez ci-dessous le schéma relationnel de la base : Table CATEGORIE AWARD : Le champs «nomcategorie» prend les valeurs : Serie, Acteur ou Actrice. Le champs «nomaward» prend les valeurs : Golden ou EMMY. Table NOMINATION : La table Nomination contient toutes les nominations des séries, acteurs et actrices, dans les catégories comique et dramatique pour les Golden Globes et EMMY Awards 2003 et 2004. En règle générale, le nombre de nominés pour chaque catégorie de récompense est de cinq. Le champ booléen «gagnante» désigne les séries, acteurs et actrices gagnants. Le champ «nbsaisons» car celui-ci varie suivant le champ «anneenomination» qui se trouve dans cette table. Table ACTEUR PRINCIPAL et ACTRICE PRINCIPALE : Ces tables contiennent les noms, prénoms, âges de chaque acteur. Le champ «idnationalite» référence le lieu, Pays et Continent d origine de ces acteurs, le lieu étant leur ville de naissance. Table REALISATEUR : Dans le cas où la série a été réalisée par deux réalisateurs de sexe opposés alors le champ sexe prend la valeur mixte. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 8

Table SERIE : Université Paris Dauphine Datamining - DESS ID- 2004/2005 Une série se décrit par son libellé, son genre, sa cible, sa durée, son réalisateur, ses chaînes et dates de première diffusion en Amérique et France, son nombre d acteurs masculin et féminin, son nombre de nominations et son nombre d awards gagnés, ainsi que par : Les champs «idacteurprincipal» et «idactriceprincipale»: qui référencent les tables «ActeurPrincipal» et «ActricePrincipale». Pour chaque série, nous avons considéré l acteur (et/ou actrice) ayant été nominé aux oscars même s il n était pas l acteur principal. Dans le cas où une série était nominée et aucun de ses acteurs ne l était, nous avons stocké l acteur (ou l actrice) principal. Si un seul acteur (ou actrice) est référencé alors l autre référence à l acteur sera égale à 1 ; cette référence correspond à aucun acteur. II.3 - Individus et concepts Individus : Nos individus sont les nominés aux Golden Globes et EMMY Awards 2003 et 2004. On entend par nominés, les acteurs, actrices ou séries télévisées dans les catégories comique ou dramatique. Nous avons 121 individus. Concepts : Nous avons choisi de grouper les individus en deux parties : «Gagnant» et «Perdant» (ici appelé Nomine) ; puis en trois catégories de récompense : «Acteur», «Actrice», «Serie» ; et enfin en deux types de récompense : Golden Globes ou EMMY Awards. Les concepts sont : Gagnant EMMY Acteur Gagnant EMMY Actrice Gagnant EMMY Serie Nomine EMMY Acteur Nomine EMMY Actrice Nomine EMMY Serie Gagnant Golden Acteur Gagnant Golden Actrice Gagnant Golden Serie Nomine Golden Acteur Nomine Golden Actrice Nomine Golden Serie Cette répartition des individus nous permettra, lors de nos analyses, de trouver les différences entre les caractéristiques des gagnants et des perdants de chaque type de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 9

III - Requêtes Université Paris Dauphine Datamining - DESS ID- 2004/2005 III.1 - Requête principale La requête principale sur Access se nomme : «RequetePrincipaleGagnantPerdant». La représentation un concept se fait à l aide du croisement des 3 variables suivantes : «Gagnante» dans la table Nomination. Si gagnant vaut 0 alors ce champ prend la valeur Nomine, sinon il prend la valeur Gagnant. «nomaward» dans la table CategorieAward «nomcategorie» dans la table CategorieAward Les valeurs des champs «nomnomine», «SexeActeur», «AgeActeur» et «OrigineActeur» dépendent de la catégorie de récompense. Nous avons donc utilisé la fonction IIf(condition, true, false) pour attribuer les valeurs suivant cette règle : Si la catégorie est 1 ou 4, alors c est une série ; dans ce cas nous récupérons le libellé de la série et les caractéristiques de l acteur principal. Si la catégorie est 2 ou 5, alors c est un acteur ; dans ce cas nous récupérons le nom de l acteur et ses caractéristiques. Si la catégorie est 3 ou 6, alors c est une actrice ; dans ce cas nous récupérons le nom de l actrice et ses caractéristiques. Le champ «tauxreussite» nous permet de mesurer le ratio entre le nombre de récompenses gagnées par l individu par rapport au nombre de fois qu il a été nominé. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La seconde colonne contenant le nom du concept. SELECT Nomination.idNomination, IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie AS Concept, Serie.libelleSerie, - Mounia CHERRAD Anne-Sophie REGOTTAZ - 10

IIf(Nomination.idCategorie=1,Serie.libelleSerie, IIf(Nomination.idCategorie=2,ActeurPrincipal.prenom+" "+ActeurPrincipal.nom, IIf(Nomination.idCategorie=3,ActricePrincipale.prenom+" "+ActricePrincipale.nom, IIf(Nomination.idCategorie=4,Serie.libelleSerie, IIf(Nomination.idCategorie=5,ActeurPrincipal.prenom+" "+ActeurPrincipal.nom, AS NomNomine, ActricePrincipale.prenom+" "+ActricePrincipale.nom)))) ) IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,"F","M"), IIf(Nomination.idCategorie=2,"M", IIf(Nomination.idCategorie=3,"F", IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,"F","M"), IIf(Nomination.idCategorie=5,"M","F"))))) AS SexeActeur, IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,ActricePrincipale.age,ActeurPrincipal.age), IIf(Nomination.idCategorie=2,ActeurPrincipal.age, IIf(Nomination.idCategorie=3,ActricePrincipale.age, IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,ActricePrincipale.age, ActeurPrincipal.age), IIf(Nomination.idCategorie=5,ActeurPrincipal.age,ActricePrincipale.age))))) AS AgeActeur, IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,LieuActrice.ville,LieuActeur.ville), IIf(Nomination.idCategorie=2,LieuActeur.ville, IIf(Nomination.idCategorie=3,LieuActrice.ville, IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,LieuActrice.ville,LieuActeur.ville), IIf(Nomination.idCategorie=5,LieuActeur.ville,LieuActrice.ville))))) AS OrigineActeur, Serie.duree, Nomination.nbSaisons, Serie.nbActeursMasculins, Serie.nbActeursFeminins, Realisateur.nom AS nomrealisateur, ChaineAmericaine.nomChaineAm, - Mounia CHERRAD Anne-Sophie REGOTTAZ - 11

Year(Serie.datePremiereDiffAm) AS AnneeDiffAm, ChaineFrancaise.nomChaineFr, IIf(Year(Serie.datePremiereDiffFr)=3000,2006,Year(Serie.datePremiereDiffFr)) AS AnneeDiffFr, Nomination.anneeNomination, (Round((Serie.nbAwardsGagnes/Serie.nbNominations),3)*100) AS TauxReussite FROM LieuActrice INNER JOIN (LieuActeur INNER JOIN ( (Realisateur INNER JOIN (ChaineFrancaise INNER JOIN ( ChaineAmericaine INNER JOIN (ActricePrincipale INNER JOIN (ActeurPrincipal INNER JOIN Serie ON ActeurPrincipal.idActeur=Serie.idActeurPrincipal) ON ActricePrincipale.idActrice=Serie.idActricePrincipale) ON ChaineAmericaine.idChaineAm=Serie.idChaineDiffusionAm) ON ChaineFrancaise.idChaineFr=Serie.idChaineDiffusionFr) ON Realisateur.idRealisateur=Serie.idRealisateur) INNER JOIN (CategorieAward INNER JOIN Nomination ON CategorieAward.idCategorie=Nomination.idCategorie) ON Serie.idSerie=Nomination.idSerie) ON LieuActeur.idLieu=ActeurPrincipal.idNationalite) ON LieuActrice.idLieu=ActricePrincipale.idNationalite; Voici un extrait de la feuille de données de la requête principale : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 12

III.2 - Requête AddSingle La requête addsingle sur Access se nomme : «AddSingleGagnantPerdant». Elle permet d apporter des informations complémentaires sur chacun des 12 concepts. Il s agit de calculer la durée moyenne des séries ainsi que le nombre moyen d actrices, d acteurs, de saisons et de nominations des individus de chaque concept. La dernière variable étant «Resultat» qui permet de préciser si les individus du concept ont gagnés ou non la récompense. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La première colonne contenant le nom du concept. SELECT IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie AS Concept, Round(Avg(Serie.nbActeursFeminins),1) AS NbActricesMoy, Round(Avg(Serie.nbActeursMasculins),1) AS NbActeursMoy, Round(Avg(Nomination.nbSaisons),1) AS NbSaisonsMoy, Round(Avg(Serie.duree),1) AS DureeMoy, Round(Avg(Serie.nbNominations),1) AS NbNominationsMoy, IIf(Nomination.gagnante<>0,"Gagnant","Perdant") AS Resultat FROM Serie INNER JOIN (CategorieAward INNER JOIN Nomination ON CategorieAward.idCategorie=Nomination.idCategorie ) ON Serie.idSerie=Nomination.idSerie GROUP BY IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie, IIf(Nomination.gagnante<>0,"Gagnant","Perdant"); - Mounia CHERRAD Anne-Sophie REGOTTAZ - 13

Voici un extrait de la feuille de données de la requête addsingle : III.3 - Requête Taxonomie La requête des taxonomies sur Access se nomme : «TaxonomieVillePays». Cette requête permet de définir les correspondances entre les variables ville et pays utilisées dans les lieu de naissance des acteurs. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La première colonne contenant les villes et la seconde leur pays respectifs. SELECT LieuActeur.ville AS Ville, PaysActeur.pays AS Pays FROM PaysActeur INNER JOIN LieuActeur ON PaysActeur.idPays=LieuActeur.idPays GROUP BY LieuActeur.ville, PaysActeur.pays; - Mounia CHERRAD Anne-Sophie REGOTTAZ - 14

Voici un extrait de la feuille de données de la requête Taxonomie : III.4 - Extraction sous DB2SO Nous allons présenter dans cette partie les différentes étapes de manipulation de SODAS et de DB2SO pour l extraction et le traitement des données. Importation de DB2SO : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 15

Création de la source de données : Sélection des données de la requête Principale : Ajout des données de la requête AddSingle : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 16

Ajout des données de la requête Taxonomie : Export et visualisation des données extraites : Après avoir passé toutes ces étapes, il convient d appliquer les diverses méthodes d analyse de données symboliques que propose SODAS sur le chaining. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 17

IV - Analyses sur SODAS Dans cette partie, nous allons présenter les méthodes statistiques que nous avons appliquées à l ensemble de données. Pour chaque méthode, nous rappellerons tout d abord les principes, puis nous analyserons les résultats obtenus. IV.1 - Méthode VIEW IV.1.1 - Description de la méthode L objectif de la méthode VIEW est de fournir une image synthétique du concept et de comparer les concepts entre eux. Le module SOEditor permet de visualiser le contenu du tableau de données symboliques : les concepts et les variables qui le décrivent. La méthode SOE permet de représenter graphiquement en deux ou trois dimensions les concepts du tableau : c est ce qui s appelle l étoile zoom. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 18

Il existe deux types de variables : les variables quantitatives (mesurables, continues ou discrètes) et les variables qualitatives (ordinales, nominales ). Pour les variables qualitatives, leur représentation se fait grâce à des diagrammes en barres. Pour les variables quantitatives, elle se fera par des intervalles de valeurs. Les représentations en étoiles zoom sont parfois un peu trop condensées, il est toujours possible de visualiser un troisième type de représentation, pour un axe donné, sous forme d histogrammes verticaux ou horizontaux IV.1.2 - Interprétation Après avoir exécuté la méthode VIEW, nous avons pu visualiser les données sur SOEditor et nous avons extrait les pépites que vous trouverez ci-dessous. Nous avons comparé les concepts deux à deux. Nous avons pu remarquer les différences établies entre les EMMY Awards et les Golden Globes sur une même catégorie de récompense (Série, Acteur, Actrice). Au sein d un même type de récompense (Golden ou EMMY), nous avons comparé les différences établies entre les gagnants et les perdants. Comparaison Séries Nominées Golden et Séries Nominées EMMY: Analyse des résultats : Nous constatons que : - Les Golden Globes nominent des séries de moins de 7 ans. - Les séries nominées aux EMMY Awards sont plus anciennes (entre 2 et 10 ans) et leurs acteurs principaux sont plus âgés (le plus jeune ayant 37 ans). - Le taux de réussite pour les séries nominées aux Golden reflète des nominations plus appropriées puisqu elles obtiennent jusqu à 50% de taux de réussite. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 19

Comparaison Séries Nominés Golden et Séries Gagnantes Golden Analyse des résultats : Les séries qui ont gagné aux Golden Globes 2003-2004 sont celles qui ont : - un nombre de saisons peu élevé (compris entre 1 et 3 ans) - au moins 3 acteurs masculins mais qui n excèdent pas 6. - un acteur principal âgé entre 36 et 43 ans. L âge est donc très restrictif pour déterminer les séries gagnantes aux Golden Globes. - été diffusées sur des chaînes très peu nominées. Les séries de «HBO» et «NBC», pourtant les plus nominées, n ont pas remporté de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 20

Comparaison Acteurs Nominés Golden et Acteur Gagnants Golden Analyse des résultats : Les acteurs ayant gagné aux Golden Globes en 2003 et 2004 ont tous joué dans des séries ayant exactement un nombre de saisons égal à 2. Nous remarquons également que les acteurs gagnants sont entourés de trois femmes au maximum, alors que parmi les nominés nous pouvions trouver jusqu à 10 actrices ; et sont entourés de trois hommes au minimum. Les séries de «Fx» et «NBC», pourtant celles dont les acteurs sont les plus nominés, n ont pas remporté de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 21

Comparaison Actrices Nominées EMMY et Actrices Gagnantes EMMY : Analyse des résultats : Les actrices ayant gagné aux EMMY Awards en 2003 et 2004 sont âgées de 36 à 44 ans et jouent dans des séries de 4 à 6 ans diffusées seulement sur «HBO» et «NBC». Ces trois résultats sont extrêmement restrictifs à la vue des actrices qui avaient été nominées. Comparaison Actrices Nominées Golden et Actrices Nominées EMMY : Analyse des résultats : Nous remarquons que les nominations des actrices aux Golden Globes correspondent à des séries diffusées en France par les chaînes «TF1» et «Teva», alors que les nominations des actrices aux EMMY Awards correspondent à des séries essentiellement diffusées sur «M6». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 22

IV.2 - Méthode STAT IV.2.1 - Description de la méthode Cette méthode étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. Elle ressemble aux méthodes statistiques traditionnelles appliquées sur des individus. Pour les variables qualitatives, elle permet de représenter la répartition des données via des histogrammes. Pour les variables quantitatives, elle permet de représenter l information (minimum, maximum et moyenne) via des diagrammes en boîte. Cette procédure fournit, dans un classeur Excel, l ensemble des statistiques élémentaires sur les variables nominales et continues. Le rapport obtenu constitue la «base statistique» de l enquête, à laquelle on pourra se référer à tout moment au cours de l exploitation statistique approfondie qui suivra. L objectif est de décrire la répartition des données variable par variable indépendamment du concept. Plusieurs types d analyses sont possibles à partir de STAT : Analyse des fréquences relatives pour les variables intervalles Analyse des capacités et min/max/mean pour les variables modales probabilistes. Analyse par biplot pour des variables intervalles IV.2.2 - Interprétation Fréquences relatives pour des variables intervalles Nous avons choisi d étudier plus en détail la variable : Duree En ce qui concerne le paramétrage de la variable Duree, la méthode choisie est de représenter les fréquences pour les intervalles. Nous avons retenu un découpage en trois classes. L application de la méthode STAT sur la variable Duree donne le résultat suivant : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 23

Analyse des résultats : La durée d une série nominée aux Golden Globes ou EMMY Awards, en moyenne, est de 35 minutes. La durée minimum étant de 22 minutes et la durée maximum de 50 minutes. Environ 73 % des séries ont une durée entre 22 et 42 minutes, et les 27% restants ont une durée comprise entre 42 et 50 minutes. Capacités et min/max/mean pour des variables modales probabilistes Nous nous sommes également intéressées à la variable nomchaineam, nous avons voulu visualiser les capacités, autrement dit l étendue des données : minimum, maximum et moyenne. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 24

L application de la méthode STAT sur la variable nomchaineam donne le résultat suivant : Il est possible de visualiser les données sous deux représentations graphiques: Soit par capacité, soit par représentation des probabilités min/max/mean. Visualisation en mode capacité : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 25

Visualisation en mode min/max/mean : Analyse des résultats : En ce qui concerne les diffusions des séries sur les chaînes américaines, nous remarquons que : - Les valeurs maximum obtenues sont pour les chaînes «HBO» et «NBC» puisqu elle obtiennent toutes les deux une valeur maximum de 50 %. Ceci signifie qu il existe au moins un concept dont la moitié des séries le composant sont diffusées sur «HBO» et au moins un autre concept dont la moitié des séries sont diffusées sur «NBC». - Les valeurs moyennes obtenues par les chaînes sont : 25% de l ensemble des séries nominées aux Golden Globes et EMMY Awards sont diffusées sur la chaîne «HBO». C est donc la chaîne ayant la plus grande influence sur les nominations. La chaîne «the WB» est celle la moins représentée dans les nominations puisqu elle n est présente qu à 1%. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 26

IV.3 - Méthode DIV IV.3.1 - Description de la méthode DIV est une méthode de classification hiérarchique. Au départ les concepts forment une unique partition. L algorithme procède par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l inertie. L objectif est de regrouper au sein d une même classe des concepts proches de par leurs caractéristiques. L algorithme s arrête après avoir effectué k-1 divisions, k étant le nombre de classes donné en entrée à la méthode par l utilisateur. Le listing disponible en sortie contient les informations suivantes : - une liste de la «variance» des variables quantitatives ou bien une liste des valeurs possibles pour les variables qualitatives, - pour chaque partition de 2 à k classes, une liste des objets contenus dans chaque classe ainsi que l inertie expliquée, et - l arbre de classification. IV.3.2 - Interprétation Pour cette méthode, nous avons conservé les douze concepts initialement présents. Nous avons appliqué la méthode selon deux classifications : Sur les variables qualitatives : Sur les variables quantitatives : - SexeActeur - nomchaineam - nomchainefr - duree - nbsaisons - nbacteursmasculins - nbacteursfeminins - TauxReussite - Mounia CHERRAD Anne-Sophie REGOTTAZ - 27

En ce qui concerne le paramétrage, il faut déterminer le nombre de clusters. Nous avons considéré qu il serait souhaitable de prendre la racine carrée supérieure du nombre de concepts, soit quatre classes, puisque nous avions douze concepts. L application de la méthode DIV sur les variables qualitatives donne le résultat suivant : ------------------------------------------------------- BASE=C:\Program Files\DECISIA\SODAS version 2.0\Tmp\DF6M1R01.CMD nind=12 nvar=21 nvarsel=3 nvarcoup=3 METHOD=DIV ASSO VERSION=02 DATE=02/24/03 ------------------------------------------------------- THE SELECTED SPLIT-VARIABLES ARE : ( 3) :SexeActeur 1- M 2- F ( 11) :nomchaineam 1- Fox 2- CBS 3- Fx 4- HBO 5- NBC 6- USA Network 7- BBC America 8- ABC 9- The WB ( 13) :nomchainefr 1- Canal 2- TF1 3- Paris Premiere 4- Jimmy 5- F2 6- TPS Star 7- M6 8- Serie Club 9- Teva 10-13e rue 11- aucune 12- TF6 PARTITION IN 4 CLUSTERS : Cluster 1 (n=1) : Gagnant Golden serie Cluster 2 (n=4) : Nomine EMMY actrice Nomine Golden actrice Gagnant Golden actrice Gagnant EMMY actrice Cluster 3 (n=1) : Gagnant EMMY acteur Cluster 4 (n=6) : Nomine Golden acteur Nomine Golden serie Nomine EMMY serie Nomine EMMY acteur Gagnant EMMY serie Gagnant Golden acteur - Mounia CHERRAD Anne-Sophie REGOTTAZ - 28

Explicated inertia : 61.300172 Université Paris Dauphine Datamining - DESS ID- 2004/2005 THE CLUSTERING TREE : --------------------- - the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=1)!!----3- [nomchainefr = TF1 OR Canal]!!! +---- Classe 4 (Nd=6)!!----2- [nomchaineam = Fx]!!! +---- Classe 3 (Nd=1)!!----1- [SexeActeur = M]! +---- Classe 2 (Nd=4) Analyse des résultats : On observe qu avec quatre clusters nous avons une inertie de 61,3 % avec les variables qualitatives. La première division se fait par rapport à la variable SexeActeur : - Si le sexe est masculin, de nouvelles divisions sont effectuées : - Si la série est diffusée sur la chaîne Fx, une nouvelle division est effectuée : - Si la série est diffusée sur les chaînes françaises «TF1» ou «Canal», alors nous obtenons la classe 1 composée du concept «Gagnant Golden serie». - Sinon si la série n est pas diffusée sur les chaînes françaises «TF1» ou «Canal», alors nous obtenons la classe 4, composée des concepts «Nomine Golden acteur, Nomine Golden serie», «Nomine EMMY serie», «Nomine EMMY acteur «, «Gagnant EMMY serie», «Gagnant Golden acteur». - Sinon si la série n est pas diffusée sur la chaîne américaine «Fx», alors nous obtenons la classe 3 composée du concept «Gagnant EMMY acteur». - Sinon si le sexe est féminin nous obtenons une classe indivisible : la classe 2 composée des 4 concepts «Nomine EMMY actrice», «Nomine Golden actrice», «Gagnant Golden actrice», «Gagnant EMMY actrice». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 29