Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars Mr E.
|
|
|
- Jean Lajoie
- il y a 10 ans
- Total affichages :
Transcription
1 Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ
2 Sommaire Introduction... 3 I - Etat de l art du Datamining et de Sodas... 4 I.1 - Le datamining... 4 I.2 - Logiciel Sodas... 6 II - Problématique choisie et ensemble de données... 7 II.1 - Problématique choisie... 7 II.2 - Base de données relationnelle... 7 II.3 - Individus et concepts... 9 III - Requêtes III.1 - Requête principale III.2 - Requête AddSingle III.3 - Requête Taxonomie III.4 - Extraction sous DB2SO IV - Analyses sur SODAS IV.1 - Méthode VIEW IV.2 - Méthode STAT IV.3 - Méthode DIV IV.4 - Méthode SPCA IV.5 - Méthode HIPYR IV.6 - Méthode TREE IV.7 - Méthode SYKSOM Pépites Mounia CHERRAD Anne-Sophie REGOTTAZ - 2
3 Introduction Université Paris Dauphine Datamining - DESS ID- 2004/2005 Dans le cadre du cours de Datamining dispensé en DESS Informatique Décisionnelle à Dauphine, nous étions en charge de réaliser une fouille de données symboliques. Nous avons choisi le domaine des séries télévisées, celles-ci étant nominées et récompensées tous les ans par les cérémonies de Golden Globes et EMMY Awards. Nous nous intéresserons plus précisément aux critères de nomination et au fait qu une série gagne ou non. Pour ce faire nous avons créé une Base de données et nous l avons exploitée à l aide du logiciel de d analyse de données symbolique : SODAS. Dans ce document, vous trouverez tout d abord une présentation du Datamining, ensuite la description des données sources de l étude, puis la manière dont les requêtes ont été extraites de la Base de données, et enfin vous trouverez l analyse complète que nous avons réalisée avec les différentes méthodes proposées par SODAS. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 3
4 I - Etat de l art du Datamining et de Sodas I.1 - Le datamining I.1.1 Définition À l'origine, le datamining était en deux mots : le «Data Mining». Il constitue l ensemble des techniques permettant d'aller puiser des informations pertinentes dans les montagnes de données stockées ces dernières décennies dans les entreprises (Datawarehouses). Il consiste à «trouver des diamants dans un tas de charbon sans se salir les doigts». L exploration des données, aussi connue sous les noms «fouille de données» et «data mining», a pour objet l'extraction du savoir implicite à de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. I Outils utilisés Il existe de nombreux produits commerciaux vendus pour le datamining. Selon le site «Ultra-Fluide.com», les points forts supposés des logiciels commerciaux (interface, documentation, support) ne compensent pas certains inconvénients relatifs notamment aux coûts ou au code propriétaire. Les logiciels commerciaux disposent également bien souvent de budgets spécifiques visant à les faire connaître. Ils conseillent donc des produits open source, que nous allons vous présenter ci-dessous : R-projet : R est un langage et une infrastructure spécialisés pour les traitements statistiques. R est l'un des nombreux projets GNU distribué sous licence GPL (logiciel libre). R est écrit en langage compilé (principalement en C), ce qui autorise de bonnes performances. La qualité de cet environnement et son ouverture ont permis à une myriade de théoriciens, statisticiens et informaticiens de compléter cette plate-forme d'un nombre impressionnant de fonctionnalités. Des dizaines de packages offrant des milliers de fonctions en font probablement la plate-forme la plus complète. Ce n'est cependant pas l'outil le plus simple d'abord. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 4
5 Scilab et Mixmod : Scilab est un langage et une infrastructure spécialisés pour les traitements mathématiques numériques et la modélisation. Scilab est un projet de l'inria et de l'ecole Nationale des Ponts et Chaussées. Sa licence autorise une utilisation gratuite ainsi que la modification des sources. Scilab supporte un spectre très large d'applications, et de nombreuses contributions sont opérationnelles sur cette plate-forme. Mixmod est une contribution de l'inria, du Laboratoire de Mathématique de Besançon et du Laboratoire Heudiasys de Compiègne qui fonctionne sur Scilab. Mixmod propose des fonctionnalités de clustering (analyse discriminante et maximum de vraisemblance). Mixmod est relativement simple d'utilisation et s'avère adapté pour un volume raisonnable de données. Autoclass-c : C est un logiciel spécialisé dans le clustering (analyse discriminante et maximum de vraisemblance). Il a été développé par un laboratoire de la NASA et est disponible dans le domaine public. Autoclass-c est un outil performant écrit en C qui n'a plus évolué depuis Le datamining est également utilisé dans des sociétés, comme BusinessDecision. Les outils qu ils utilisent sont : SAS, SLP, SPSS, IBM, KXEN I Applications Le Datamining est de plus en plus utilisé par les entreprises. On retrouve notamment : Les services publics dans la lutte anti-fraude : La faible rentabilité de certains impôts est, dans de nombreux cas, expliquée par la fraude fiscale, fraude fiscale difficilement endiguée à cause d énorme moyens humains et financiers qu elle nécessite. Fujitsu Consulting a mis en place une méthode de scoring permettant de détecter les fraudeurs. La méthode utilisée s appuie sur les méthodes de Datawarehousing et de datamining : on récupère des données de plusieurs services (fraudes, fisc) et on estime la corrélation entre les différentes variables et la probabilité de frauder. Cette méthode sembla avoir donné des résultats au Québec, Fujitsu vise aujourd hui le marché européen - Mounia CHERRAD Anne-Sophie REGOTTAZ - 5
6 L industrie du disque : Aujourd hui, l industrie du disque se met tout doucement au datamining. Deux constats ont encouragé cette évolution : d abord, le fait que la quasi-totalité des fans d un groupe ne savent pas quand le dernier disque de leurs idoles est sorti et ensuite parce que cette approche «Marketing Quantitatif» était relativement absent des préoccupations du monde de la musique. Les nouvelles technologies de l information et la multitude de solutions logicielles laissent ouvert un vaste champ d application du datamining dans l industrie du disque. I.2 - Logiciel Sodas SODAS est un outil public d analyse de données symboliques. Il est disponible à l adresse : Il est issu du projet de EUROSTAT appelé SODAS. L idée générale de ce projet est de construire, à partir d'une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles et de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données sur des individus et d analyser ensuite ce tableau, par des méthodes d'analyse de données symboliques, pour en extraire des connaissances. Le tableau contient alors des données symboliques dont les individus correspondent aux concepts décrits par généralisation des propriétés des individus de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques selon le type de variables et le choix de l'utilisateur. Il est possible de créer un fichier d'objets symboliques sur lequel des méthodes d'analyse de données symboliques peuvent s'appliquer au sein du logiciel SODAS (histogrammes des variables symboliques comme STAT, classification automatique comme DIV, HIPYR, analyse factorielle comme SPCA, analyse discriminante comme TREE, visualisations graphiques VIEW,...). - Mounia CHERRAD Anne-Sophie REGOTTAZ - 6
7 II - Problématique choisie et ensemble de données II.1 - Problématique choisie Nous avons choisi d analyser les séries télévisées nominées aux Golden Globes et EMMY Awards en 2003 et Nous nous sommes intéressées à trois types de récompense : meilleure série, meilleur acteur, meilleure actrice, dans un genre donné c'est-à-dire dramatique ou comique. Nous voulons connaître les facteurs déterminant le fait qu une série gagne une récompense. Nous aimerions également trouver les critères de sélection pour les nominations d une série aux Golden Globes ou EMMY Awards. Ainsi nous avons cherché plusieurs renseignements sur ces séries. Pour ce faire nous avons créé une nouvelle base de données sous Access, puis nous l avons entièrement remplie avec les différents champs qui nous semblaient importants. Les sites web qui nous ont servi pour remplir cette base sont : Site pour les nominés : Site pour les gagnants : II.2 - Base de données relationnelle La base de données que nous avons conçue manuellement sous Access est «SeriesNomineesOscars.mdb». Elle se compose de 14 tables dont les deux principales sont «Serie» et «Nomination». Elle comporte 121 enregistrements dans la table «Nomination», 37 dans la table «Serie», 21 dans la table «ActricePrincipale» et 27 dans la table «ActeurPrincipal». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 7
8 Vous trouverez ci-dessous le schéma relationnel de la base : Table CATEGORIE AWARD : Le champs «nomcategorie» prend les valeurs : Serie, Acteur ou Actrice. Le champs «nomaward» prend les valeurs : Golden ou EMMY. Table NOMINATION : La table Nomination contient toutes les nominations des séries, acteurs et actrices, dans les catégories comique et dramatique pour les Golden Globes et EMMY Awards 2003 et En règle générale, le nombre de nominés pour chaque catégorie de récompense est de cinq. Le champ booléen «gagnante» désigne les séries, acteurs et actrices gagnants. Le champ «nbsaisons» car celui-ci varie suivant le champ «anneenomination» qui se trouve dans cette table. Table ACTEUR PRINCIPAL et ACTRICE PRINCIPALE : Ces tables contiennent les noms, prénoms, âges de chaque acteur. Le champ «idnationalite» référence le lieu, Pays et Continent d origine de ces acteurs, le lieu étant leur ville de naissance. Table REALISATEUR : Dans le cas où la série a été réalisée par deux réalisateurs de sexe opposés alors le champ sexe prend la valeur mixte. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 8
9 Table SERIE : Université Paris Dauphine Datamining - DESS ID- 2004/2005 Une série se décrit par son libellé, son genre, sa cible, sa durée, son réalisateur, ses chaînes et dates de première diffusion en Amérique et France, son nombre d acteurs masculin et féminin, son nombre de nominations et son nombre d awards gagnés, ainsi que par : Les champs «idacteurprincipal» et «idactriceprincipale»: qui référencent les tables «ActeurPrincipal» et «ActricePrincipale». Pour chaque série, nous avons considéré l acteur (et/ou actrice) ayant été nominé aux oscars même s il n était pas l acteur principal. Dans le cas où une série était nominée et aucun de ses acteurs ne l était, nous avons stocké l acteur (ou l actrice) principal. Si un seul acteur (ou actrice) est référencé alors l autre référence à l acteur sera égale à 1 ; cette référence correspond à aucun acteur. II.3 - Individus et concepts Individus : Nos individus sont les nominés aux Golden Globes et EMMY Awards 2003 et On entend par nominés, les acteurs, actrices ou séries télévisées dans les catégories comique ou dramatique. Nous avons 121 individus. Concepts : Nous avons choisi de grouper les individus en deux parties : «Gagnant» et «Perdant» (ici appelé Nomine) ; puis en trois catégories de récompense : «Acteur», «Actrice», «Serie» ; et enfin en deux types de récompense : Golden Globes ou EMMY Awards. Les concepts sont : Gagnant EMMY Acteur Gagnant EMMY Actrice Gagnant EMMY Serie Nomine EMMY Acteur Nomine EMMY Actrice Nomine EMMY Serie Gagnant Golden Acteur Gagnant Golden Actrice Gagnant Golden Serie Nomine Golden Acteur Nomine Golden Actrice Nomine Golden Serie Cette répartition des individus nous permettra, lors de nos analyses, de trouver les différences entre les caractéristiques des gagnants et des perdants de chaque type de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 9
10 III - Requêtes Université Paris Dauphine Datamining - DESS ID- 2004/2005 III.1 - Requête principale La requête principale sur Access se nomme : «RequetePrincipaleGagnantPerdant». La représentation un concept se fait à l aide du croisement des 3 variables suivantes : «Gagnante» dans la table Nomination. Si gagnant vaut 0 alors ce champ prend la valeur Nomine, sinon il prend la valeur Gagnant. «nomaward» dans la table CategorieAward «nomcategorie» dans la table CategorieAward Les valeurs des champs «nomnomine», «SexeActeur», «AgeActeur» et «OrigineActeur» dépendent de la catégorie de récompense. Nous avons donc utilisé la fonction IIf(condition, true, false) pour attribuer les valeurs suivant cette règle : Si la catégorie est 1 ou 4, alors c est une série ; dans ce cas nous récupérons le libellé de la série et les caractéristiques de l acteur principal. Si la catégorie est 2 ou 5, alors c est un acteur ; dans ce cas nous récupérons le nom de l acteur et ses caractéristiques. Si la catégorie est 3 ou 6, alors c est une actrice ; dans ce cas nous récupérons le nom de l actrice et ses caractéristiques. Le champ «tauxreussite» nous permet de mesurer le ratio entre le nombre de récompenses gagnées par l individu par rapport au nombre de fois qu il a été nominé. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La seconde colonne contenant le nom du concept. SELECT Nomination.idNomination, IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie AS Concept, Serie.libelleSerie, - Mounia CHERRAD Anne-Sophie REGOTTAZ - 10
11 IIf(Nomination.idCategorie=1,Serie.libelleSerie, IIf(Nomination.idCategorie=2,ActeurPrincipal.prenom+" "+ActeurPrincipal.nom, IIf(Nomination.idCategorie=3,ActricePrincipale.prenom+" "+ActricePrincipale.nom, IIf(Nomination.idCategorie=4,Serie.libelleSerie, IIf(Nomination.idCategorie=5,ActeurPrincipal.prenom+" "+ActeurPrincipal.nom, AS NomNomine, ActricePrincipale.prenom+" "+ActricePrincipale.nom)))) ) IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,"F","M"), IIf(Nomination.idCategorie=2,"M", IIf(Nomination.idCategorie=3,"F", IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,"F","M"), IIf(Nomination.idCategorie=5,"M","F"))))) AS SexeActeur, IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,ActricePrincipale.age,ActeurPrincipal.age), IIf(Nomination.idCategorie=2,ActeurPrincipal.age, IIf(Nomination.idCategorie=3,ActricePrincipale.age, IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,ActricePrincipale.age, ActeurPrincipal.age), IIf(Nomination.idCategorie=5,ActeurPrincipal.age,ActricePrincipale.age))))) AS AgeActeur, IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,LieuActrice.ville,LieuActeur.ville), IIf(Nomination.idCategorie=2,LieuActeur.ville, IIf(Nomination.idCategorie=3,LieuActrice.ville, IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,LieuActrice.ville,LieuActeur.ville), IIf(Nomination.idCategorie=5,LieuActeur.ville,LieuActrice.ville))))) AS OrigineActeur, Serie.duree, Nomination.nbSaisons, Serie.nbActeursMasculins, Serie.nbActeursFeminins, Realisateur.nom AS nomrealisateur, ChaineAmericaine.nomChaineAm, - Mounia CHERRAD Anne-Sophie REGOTTAZ - 11
12 Year(Serie.datePremiereDiffAm) AS AnneeDiffAm, ChaineFrancaise.nomChaineFr, IIf(Year(Serie.datePremiereDiffFr)=3000,2006,Year(Serie.datePremiereDiffFr)) AS AnneeDiffFr, Nomination.anneeNomination, (Round((Serie.nbAwardsGagnes/Serie.nbNominations),3)*100) AS TauxReussite FROM LieuActrice INNER JOIN (LieuActeur INNER JOIN ( (Realisateur INNER JOIN (ChaineFrancaise INNER JOIN ( ChaineAmericaine INNER JOIN (ActricePrincipale INNER JOIN (ActeurPrincipal INNER JOIN Serie ON ActeurPrincipal.idActeur=Serie.idActeurPrincipal) ON ActricePrincipale.idActrice=Serie.idActricePrincipale) ON ChaineAmericaine.idChaineAm=Serie.idChaineDiffusionAm) ON ChaineFrancaise.idChaineFr=Serie.idChaineDiffusionFr) ON Realisateur.idRealisateur=Serie.idRealisateur) INNER JOIN (CategorieAward INNER JOIN Nomination ON CategorieAward.idCategorie=Nomination.idCategorie) ON Serie.idSerie=Nomination.idSerie) ON LieuActeur.idLieu=ActeurPrincipal.idNationalite) ON LieuActrice.idLieu=ActricePrincipale.idNationalite; Voici un extrait de la feuille de données de la requête principale : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 12
13 III.2 - Requête AddSingle La requête addsingle sur Access se nomme : «AddSingleGagnantPerdant». Elle permet d apporter des informations complémentaires sur chacun des 12 concepts. Il s agit de calculer la durée moyenne des séries ainsi que le nombre moyen d actrices, d acteurs, de saisons et de nominations des individus de chaque concept. La dernière variable étant «Resultat» qui permet de préciser si les individus du concept ont gagnés ou non la récompense. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La première colonne contenant le nom du concept. SELECT IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie AS Concept, Round(Avg(Serie.nbActeursFeminins),1) AS NbActricesMoy, Round(Avg(Serie.nbActeursMasculins),1) AS NbActeursMoy, Round(Avg(Nomination.nbSaisons),1) AS NbSaisonsMoy, Round(Avg(Serie.duree),1) AS DureeMoy, Round(Avg(Serie.nbNominations),1) AS NbNominationsMoy, IIf(Nomination.gagnante<>0,"Gagnant","Perdant") AS Resultat FROM Serie INNER JOIN (CategorieAward INNER JOIN Nomination ON CategorieAward.idCategorie=Nomination.idCategorie ) ON Serie.idSerie=Nomination.idSerie GROUP BY IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie, IIf(Nomination.gagnante<>0,"Gagnant","Perdant"); - Mounia CHERRAD Anne-Sophie REGOTTAZ - 13
14 Voici un extrait de la feuille de données de la requête addsingle : III.3 - Requête Taxonomie La requête des taxonomies sur Access se nomme : «TaxonomieVillePays». Cette requête permet de définir les correspondances entre les variables ville et pays utilisées dans les lieu de naissance des acteurs. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La première colonne contenant les villes et la seconde leur pays respectifs. SELECT LieuActeur.ville AS Ville, PaysActeur.pays AS Pays FROM PaysActeur INNER JOIN LieuActeur ON PaysActeur.idPays=LieuActeur.idPays GROUP BY LieuActeur.ville, PaysActeur.pays; - Mounia CHERRAD Anne-Sophie REGOTTAZ - 14
15 Voici un extrait de la feuille de données de la requête Taxonomie : III.4 - Extraction sous DB2SO Nous allons présenter dans cette partie les différentes étapes de manipulation de SODAS et de DB2SO pour l extraction et le traitement des données. Importation de DB2SO : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 15
16 Création de la source de données : Sélection des données de la requête Principale : Ajout des données de la requête AddSingle : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 16
17 Ajout des données de la requête Taxonomie : Export et visualisation des données extraites : Après avoir passé toutes ces étapes, il convient d appliquer les diverses méthodes d analyse de données symboliques que propose SODAS sur le chaining. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 17
18 IV - Analyses sur SODAS Dans cette partie, nous allons présenter les méthodes statistiques que nous avons appliquées à l ensemble de données. Pour chaque méthode, nous rappellerons tout d abord les principes, puis nous analyserons les résultats obtenus. IV.1 - Méthode VIEW IV Description de la méthode L objectif de la méthode VIEW est de fournir une image synthétique du concept et de comparer les concepts entre eux. Le module SOEditor permet de visualiser le contenu du tableau de données symboliques : les concepts et les variables qui le décrivent. La méthode SOE permet de représenter graphiquement en deux ou trois dimensions les concepts du tableau : c est ce qui s appelle l étoile zoom. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 18
19 Il existe deux types de variables : les variables quantitatives (mesurables, continues ou discrètes) et les variables qualitatives (ordinales, nominales ). Pour les variables qualitatives, leur représentation se fait grâce à des diagrammes en barres. Pour les variables quantitatives, elle se fera par des intervalles de valeurs. Les représentations en étoiles zoom sont parfois un peu trop condensées, il est toujours possible de visualiser un troisième type de représentation, pour un axe donné, sous forme d histogrammes verticaux ou horizontaux IV Interprétation Après avoir exécuté la méthode VIEW, nous avons pu visualiser les données sur SOEditor et nous avons extrait les pépites que vous trouverez ci-dessous. Nous avons comparé les concepts deux à deux. Nous avons pu remarquer les différences établies entre les EMMY Awards et les Golden Globes sur une même catégorie de récompense (Série, Acteur, Actrice). Au sein d un même type de récompense (Golden ou EMMY), nous avons comparé les différences établies entre les gagnants et les perdants. Comparaison Séries Nominées Golden et Séries Nominées EMMY: Analyse des résultats : Nous constatons que : - Les Golden Globes nominent des séries de moins de 7 ans. - Les séries nominées aux EMMY Awards sont plus anciennes (entre 2 et 10 ans) et leurs acteurs principaux sont plus âgés (le plus jeune ayant 37 ans). - Le taux de réussite pour les séries nominées aux Golden reflète des nominations plus appropriées puisqu elles obtiennent jusqu à 50% de taux de réussite. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 19
20 Comparaison Séries Nominés Golden et Séries Gagnantes Golden Analyse des résultats : Les séries qui ont gagné aux Golden Globes sont celles qui ont : - un nombre de saisons peu élevé (compris entre 1 et 3 ans) - au moins 3 acteurs masculins mais qui n excèdent pas 6. - un acteur principal âgé entre 36 et 43 ans. L âge est donc très restrictif pour déterminer les séries gagnantes aux Golden Globes. - été diffusées sur des chaînes très peu nominées. Les séries de «HBO» et «NBC», pourtant les plus nominées, n ont pas remporté de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 20
21 Comparaison Acteurs Nominés Golden et Acteur Gagnants Golden Analyse des résultats : Les acteurs ayant gagné aux Golden Globes en 2003 et 2004 ont tous joué dans des séries ayant exactement un nombre de saisons égal à 2. Nous remarquons également que les acteurs gagnants sont entourés de trois femmes au maximum, alors que parmi les nominés nous pouvions trouver jusqu à 10 actrices ; et sont entourés de trois hommes au minimum. Les séries de «Fx» et «NBC», pourtant celles dont les acteurs sont les plus nominés, n ont pas remporté de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 21
22 Comparaison Actrices Nominées EMMY et Actrices Gagnantes EMMY : Analyse des résultats : Les actrices ayant gagné aux EMMY Awards en 2003 et 2004 sont âgées de 36 à 44 ans et jouent dans des séries de 4 à 6 ans diffusées seulement sur «HBO» et «NBC». Ces trois résultats sont extrêmement restrictifs à la vue des actrices qui avaient été nominées. Comparaison Actrices Nominées Golden et Actrices Nominées EMMY : Analyse des résultats : Nous remarquons que les nominations des actrices aux Golden Globes correspondent à des séries diffusées en France par les chaînes «TF1» et «Teva», alors que les nominations des actrices aux EMMY Awards correspondent à des séries essentiellement diffusées sur «M6». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 22
23 IV.2 - Méthode STAT IV Description de la méthode Cette méthode étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. Elle ressemble aux méthodes statistiques traditionnelles appliquées sur des individus. Pour les variables qualitatives, elle permet de représenter la répartition des données via des histogrammes. Pour les variables quantitatives, elle permet de représenter l information (minimum, maximum et moyenne) via des diagrammes en boîte. Cette procédure fournit, dans un classeur Excel, l ensemble des statistiques élémentaires sur les variables nominales et continues. Le rapport obtenu constitue la «base statistique» de l enquête, à laquelle on pourra se référer à tout moment au cours de l exploitation statistique approfondie qui suivra. L objectif est de décrire la répartition des données variable par variable indépendamment du concept. Plusieurs types d analyses sont possibles à partir de STAT : Analyse des fréquences relatives pour les variables intervalles Analyse des capacités et min/max/mean pour les variables modales probabilistes. Analyse par biplot pour des variables intervalles IV Interprétation Fréquences relatives pour des variables intervalles Nous avons choisi d étudier plus en détail la variable : Duree En ce qui concerne le paramétrage de la variable Duree, la méthode choisie est de représenter les fréquences pour les intervalles. Nous avons retenu un découpage en trois classes. L application de la méthode STAT sur la variable Duree donne le résultat suivant : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 23
24 Analyse des résultats : La durée d une série nominée aux Golden Globes ou EMMY Awards, en moyenne, est de 35 minutes. La durée minimum étant de 22 minutes et la durée maximum de 50 minutes. Environ 73 % des séries ont une durée entre 22 et 42 minutes, et les 27% restants ont une durée comprise entre 42 et 50 minutes. Capacités et min/max/mean pour des variables modales probabilistes Nous nous sommes également intéressées à la variable nomchaineam, nous avons voulu visualiser les capacités, autrement dit l étendue des données : minimum, maximum et moyenne. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 24
25 L application de la méthode STAT sur la variable nomchaineam donne le résultat suivant : Il est possible de visualiser les données sous deux représentations graphiques: Soit par capacité, soit par représentation des probabilités min/max/mean. Visualisation en mode capacité : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 25
26 Visualisation en mode min/max/mean : Analyse des résultats : En ce qui concerne les diffusions des séries sur les chaînes américaines, nous remarquons que : - Les valeurs maximum obtenues sont pour les chaînes «HBO» et «NBC» puisqu elle obtiennent toutes les deux une valeur maximum de 50 %. Ceci signifie qu il existe au moins un concept dont la moitié des séries le composant sont diffusées sur «HBO» et au moins un autre concept dont la moitié des séries sont diffusées sur «NBC». - Les valeurs moyennes obtenues par les chaînes sont : 25% de l ensemble des séries nominées aux Golden Globes et EMMY Awards sont diffusées sur la chaîne «HBO». C est donc la chaîne ayant la plus grande influence sur les nominations. La chaîne «the WB» est celle la moins représentée dans les nominations puisqu elle n est présente qu à 1%. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 26
27 IV.3 - Méthode DIV IV Description de la méthode DIV est une méthode de classification hiérarchique. Au départ les concepts forment une unique partition. L algorithme procède par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l inertie. L objectif est de regrouper au sein d une même classe des concepts proches de par leurs caractéristiques. L algorithme s arrête après avoir effectué k-1 divisions, k étant le nombre de classes donné en entrée à la méthode par l utilisateur. Le listing disponible en sortie contient les informations suivantes : - une liste de la «variance» des variables quantitatives ou bien une liste des valeurs possibles pour les variables qualitatives, - pour chaque partition de 2 à k classes, une liste des objets contenus dans chaque classe ainsi que l inertie expliquée, et - l arbre de classification. IV Interprétation Pour cette méthode, nous avons conservé les douze concepts initialement présents. Nous avons appliqué la méthode selon deux classifications : Sur les variables qualitatives : Sur les variables quantitatives : - SexeActeur - nomchaineam - nomchainefr - duree - nbsaisons - nbacteursmasculins - nbacteursfeminins - TauxReussite - Mounia CHERRAD Anne-Sophie REGOTTAZ - 27
28 En ce qui concerne le paramétrage, il faut déterminer le nombre de clusters. Nous avons considéré qu il serait souhaitable de prendre la racine carrée supérieure du nombre de concepts, soit quatre classes, puisque nous avions douze concepts. L application de la méthode DIV sur les variables qualitatives donne le résultat suivant : BASE=C:\Program Files\DECISIA\SODAS version 2.0\Tmp\DF6M1R01.CMD nind=12 nvar=21 nvarsel=3 nvarcoup=3 METHOD=DIV ASSO VERSION=02 DATE=02/24/ THE SELECTED SPLIT-VARIABLES ARE : ( 3) :SexeActeur 1- M 2- F ( 11) :nomchaineam 1- Fox 2- CBS 3- Fx 4- HBO 5- NBC 6- USA Network 7- BBC America 8- ABC 9- The WB ( 13) :nomchainefr 1- Canal 2- TF1 3- Paris Premiere 4- Jimmy 5- F2 6- TPS Star 7- M6 8- Serie Club 9- Teva 10-13e rue 11- aucune 12- TF6 PARTITION IN 4 CLUSTERS : Cluster 1 (n=1) : Gagnant Golden serie Cluster 2 (n=4) : Nomine EMMY actrice Nomine Golden actrice Gagnant Golden actrice Gagnant EMMY actrice Cluster 3 (n=1) : Gagnant EMMY acteur Cluster 4 (n=6) : Nomine Golden acteur Nomine Golden serie Nomine EMMY serie Nomine EMMY acteur Gagnant EMMY serie Gagnant Golden acteur - Mounia CHERRAD Anne-Sophie REGOTTAZ - 28
29 Explicated inertia : Université Paris Dauphine Datamining - DESS ID- 2004/2005 THE CLUSTERING TREE : the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no Classe 1 (Ng=1)!! [nomchainefr = TF1 OR Canal]!!! Classe 4 (Nd=6)!! [nomchaineam = Fx]!!! Classe 3 (Nd=1)!! [SexeActeur = M]! Classe 2 (Nd=4) Analyse des résultats : On observe qu avec quatre clusters nous avons une inertie de 61,3 % avec les variables qualitatives. La première division se fait par rapport à la variable SexeActeur : - Si le sexe est masculin, de nouvelles divisions sont effectuées : - Si la série est diffusée sur la chaîne Fx, une nouvelle division est effectuée : - Si la série est diffusée sur les chaînes françaises «TF1» ou «Canal», alors nous obtenons la classe 1 composée du concept «Gagnant Golden serie». - Sinon si la série n est pas diffusée sur les chaînes françaises «TF1» ou «Canal», alors nous obtenons la classe 4, composée des concepts «Nomine Golden acteur, Nomine Golden serie», «Nomine EMMY serie», «Nomine EMMY acteur «, «Gagnant EMMY serie», «Gagnant Golden acteur». - Sinon si la série n est pas diffusée sur la chaîne américaine «Fx», alors nous obtenons la classe 3 composée du concept «Gagnant EMMY acteur». - Sinon si le sexe est féminin nous obtenons une classe indivisible : la classe 2 composée des 4 concepts «Nomine EMMY actrice», «Nomine Golden actrice», «Gagnant Golden actrice», «Gagnant EMMY actrice». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 29
30 Nous remarquons que deux concepts se distinguent clairement des autres : - «Gagnant Golden serie» : Les gagnants aux Golden Globes dans la catégorie meilleure série sont des séries qui ont un acteur principal de sexe masculin, et qui ont été diffusées sur les chaînes «Fx», et «TF1» ou «Canal». - «Gagnant EMMY acteur» : Les gagnants aux EMMY Awards dans la catégorie meilleur acteur sont des séries qui ont un acteur principal de sexe masculin, et qui ne sont pas diffusées sur la chaîne «Fx». L application de la méthode DIV sur les variables quantitatives donne le résultat suivant : BASE=C:\Program Files\DECISIA\SODAS version 2.0\Tmp\DF6M1R01.CMD nind=12 nvar=21 nvarsel=5 nvarcoup=5 METHOD=DIV ASSO VERSION=02 DATE=02/24/ VARIANCE OF THE CRITERTION-VARIABLES : duree : nbsaisons : nbacteursmasculins : nbacteursfeminins : TauxReussite : PARTITION IN 4 CLUSTERS : : Cluster 1 (n=1) : Cluster 4 (n=7) : Nomine Golden acteur Cluster 2 (n=3) : Gagnant Golden serie Gagnant Golden actrice Gagnant EMMY acteur Cluster 3 (n=1) : Gagnant Golden acteur Nomine Golden serie Nomine EMMY serie Nomine EMMY acteur Nomine EMMY actrice Nomine Golden actrice Gagnant EMMY serie Gagnant EMMY actrice Explicated inertia : THE CLUSTERING TREE : the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no - Mounia CHERRAD Anne-Sophie REGOTTAZ - 30
31 +---- Classe 1 (Ng=1)!! [duree <= ]!!! Classe 4 (Nd=7)!! [TauxReussite <= ]!! Classe 2 (Ng=3)!!! [TauxReussite <= ]! Classe 3 (Nd=1) Analyse des résultats : On observe qu avec quatre clusters nous avons une inertie de 93,1 % avec les variables quantitatives. La première division se fait par rapport à la variable TauxReussite : - Si le taux est inférieur ou égal à 46,075, de nouvelles divisions sont effectuées : - Si la durée de la série est inférieure ou égale à 34 minutes, alors nous obtenons la classe 1 composée du concept «Nomine Golden acteur». - Sinon si la durée de la série est supérieure à 34 minutes, alors nous obtenons la classe 4 composée des concepts «Nomine Golden serie «, «Nomine EMMY serie «, «Nomine EMMY acteur», «Nomine EMMY actrice», «Nomine Golden actrice», «Gagnant EMMY serie», «Gagnant EMMY actrice» - Sinon si le taux est supérieur à 46,075, de nouvelles divisions sont effectuées : - Si le taux est inférieur ou égal à 67,5, alors nous obtenons la classe 2, composée des concepts «Gagnant Golden serie», «Gagnant Golden actrice», «Gagnant EMMY acteur». - Sinon si le TauxReussite est inférieur ou égal à 67,5, alors nous obtenons la classe 3, composée du concept «Gagnant Golden acteur». Nous remarquons que deux concepts se distinguent clairement des autres : - «Gagnant Golden acteur» : Les gagnants aux Golden Globes dans la catégorie meilleur acteur sont des séries qui ont un taux de réussite supérieur à 67,5%. - «Nomine Golden acteur» : Les nominés aux Golden Globes dans la catégorie meilleur acteur sont des séries qui ont un taux de réussite inférieur ou égal à 46% et une durée inférieure ou égale à 34 minutes. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 31
32 IV.4 - Méthode SPCA IV Description de la méthode Cette méthode reprend les principes de l analyse factorielle en composantes principales (ACP) et n accepte que des variables intervalles. Elle se base sur des variables quantitatives et a pour objectif de grouper les individus qui ont des valeurs proches. L objectif de cette méthode sur le tableau de données symboliques est le même que pour l analyse classique, mis à part qu il s agit de grouper des concepts et non plus des individus. La méthode SPCA correspond à l analyse en composantes principales classiques. Mais au lieu d obtenir une représentation par points sur un plan factoriel, elle propose une visualisation de chaque concept par des rectangles. IV Interprétation Les variables que nous avons mises en entrée de la méthode SPCA sur SODAS sont : - AgeActeur - Duree - NbSaisons - NbActeursMasculins - NbActeursFeminins L application de la méthode SPCA sur ces variables donne le résultat suivant : ****** PRINCIPAL COMPONENTS ANALYSIS ****** File:D:\CONCEPTGAGNANTPERDANT.SDS SELECTIONS Symbolic Object:12 Gagnant Golden serie ==> AA00 Nomine Golden acteur ==> AA01 Nomine Golden serie ==> AA02 Nomine EMMY serie ==> AA03 Nomine EMMY acteur ==> AA04 Nomine EMMY actrice ==> AA05 Nomine Golden actrice ==> AA06 Gagnant Golden actrice ==> AA07 Gagnant EMMY serie ==> AA08 Gagnant EMMY actrice ==> AA09 Gagnant Golden acteur ==> AA10 Gagnant EMMY acteur ==> AA11 - Mounia CHERRAD Anne-Sophie REGOTTAZ - 32
33 Variables:5 AgeActeur ==> AE00 duree ==> AG00 nbsaisons ==> AH00 nbacteursmasculins ==> AI00 nbacteursfeminins ==> AJ00 SO-PCA values Explained Cumulated Histogram Inertia % % 0-25%-50%-75%-100% Ev **************** Ev ************* Ev ******** SPCA Coordinates [Min;Max] (12 objs,3 fact)= Objects Factor 1 Factor 2 Factor 3 Gagnant Golden serie [ ; ] [ ; ] [ ; ] Nomine Golden acteur [ ; ] [ ; ] [ ; ] Nomine Golden serie [ ; ] [ ; ] [ ; ] Nomine EMMY serie [ ; ] [ ; ] [ ; ] Nomine EMMY acteur [ ; ] [ ; ] [ ; ] Nomine EMMY actrice [ ; ] [ ; ] [ ; ] Nomine Golden actric [ ; ] [ ; ] [ ; ] Gagnant Golden actri [ ; ] [ ; ] [ ; ] Gagnant EMMY serie [ ; ] [ ; ] [ ; ] Gagnant EMMY actrice [ ; ] [ ; ] [ ; ] Gagnant Golden acteu [ ; ] [ ; ] [ ; ] Gagnant EMMY acteur [ ; ] [ ; ] [ ; ] Quality measure of the SOs representation (12 objs,3 fact)= Objects Factor 1 Factor 2 Factor 3 Gagnant Golden serie Nomine Golden acteur Nomine Golden serie Nomine EMMY serie Nomine EMMY acteur Nomine EMMY actrice Nomine Golden actric Gagnant Golden actri Gagnant EMMY serie Gagnant EMMY actrice Gagnant Golden acteu Gagnant EMMY acteur Correlations between variables and factors (5 vars,3 fact)= Var. Factor 1 Factor 2 Factor 3 AgeActeur duree nbsaisons nbacteursm Mounia CHERRAD Anne-Sophie REGOTTAZ - 33
34 nbacteursf Représentation graphique des axes de plus grande inertie, qui sont ici : - L axe 1 : AgeActeur avec 68,6% d inertie - L axe 2 : Duree de la série avec 26,2% d inertie Soit un total de 94,8 % d inertie représentée par ces deux axes. Analyse des résultats : Nous pouvons constater que parmi les cinq variables en entrée de la méthode, les deux axes qui ont la plus grande inertie sont l âge de l acteur et la durée de la série. Sur le dernier graphique, les quatre concepts sont représentés: «Gagnant Golden Acteur», «Gagnant EMMY Acteur», «Gagnant Golden actrice» et «Gagnant EMMY Actrice». Il est donc possible de comparer les concepts soit selon la catégorie de nomination («acteur» ou «actrice»), soit selon le type de récompense («Golden Globes» ou «EMMY Awards»). Nous avons remarqué que la donnée de plus grande variabilité est l âge de l acteur principal, et celle de plus petite variabilité est la durée de la série. En ce qui concerne les EMMY Awards, la fourchette d âge des actrices gagnantes est plus resserrée alors que la fourchette d âge des acteurs gagnants est plus étendue. En ce qui concerne les Golden Globes, les acteurs gagnants ont des âges nettement plus avancés que les actrices gagnantes. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 34
35 IV.5 - Méthode HIPYR IV Description de la méthode La méthode des pyramides généralise le principe des hiérarchies en permettant les classes non disjointes à un niveau donné au lieu d une partition. Cette méthode permet de classer des données plus complexes que ce qu autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans un échantillonnage pyramidal symbolique, chaque échantillon formé est défini non seulement par l ensemble de ses éléments- son extension- mais aussi par l objet symbolique, qui décrit ses propriétés- son intention. En entrée de cette méthode, l utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs réelles), des intervalles de valeurs réelles ou bien des histogrammes. L utilisateur est invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger L objectif est de regrouper des concepts proches de par leurs caractéristiques en permettant de trouver des concepts dans plusieurs classes. IV Interprétation Les paramètres en entrée de la méthode HIPYR sur SODAS sont : - Variables intervalles : NbSaisons et AnneeDiffFr - Variables nominales : SexeActeur et nomchainefr Le listing est présenté ci-dessous, avec seulement les classes de niveau supérieur à 0 : METHOD = HIERARCHICAL AND PYRAMIDAL CLUSTERING (HIPYR) SUBJECT = PYRAMIDAL CLUSTERING FROM THE SYMBOLIC OBJECTS DATA ===================================================================== THE CLASS - "C_1/14" AGGREGATION HEIGHT THIS CLASS IS FORMED BY THE UNION OF THE SYMBOLIC OBJECTS Gagnant Golden serie, Gagnant Golden acteur - Mounia CHERRAD Anne-Sophie REGOTTAZ - 35
36 THE CLASS EXTENSION (SYMBOLIC OBJECTS) [Gagnant Golden serie, Gagnant Golden acteur] LONG SYMBOLIC OBJECT DESCRIBING THE CLASS [SexeActeur = (M(0.75), F(0.25))] ^ [nbsaisons = [1, 3]] ^ [nomchainefr = (Canal(0.25), Paris Premiere(0.25), F2(0.25), TPS Star(0.25), aucune(0.25))] ^ [AnneeDiffFr = [2001, 2006]] ===================================================================== THE CLASS - "C_6/14" AGGREGATION HEIGHT THIS CLASS IS FORMED BY THE UNION OF THE SYMBOLIC OBJECTS Gagnant Golden actrice, Gagnant EMMY actrice THE CLASS EXTENSION (SYMBOLIC OBJECTS) [Gagnant Golden actrice, Gagnant EMMY actrice] LONG SYMBOLIC OBJECT DESCRIBING THE CLASS [SexeActeur = (F(1))] ^ [nbsaisons = [1, 6]] ^ [nomchainefr = (TF1(0.25), Jimmy(0.25), F2(0.25), M6(0.25), aucune(0.25), TF6(0.25))] ^ [AnneeDiffFr = [1999, 2006]] ===================================================================== THE CLASS - "C_12/14" AGGREGATION HEIGHT THIS CLASS IS FORMED BY THE UNION OF THE SYMBOLIC OBJECTS Gagnant EMMY serie, Gagnant EMMY acteur THE CLASS EXTENSION (SYMBOLIC OBJECTS) [Gagnant EMMY serie, Gagnant EMMY acteur] LONG SYMBOLIC OBJECT DESCRIBING THE CLASS [SexeActeur = (M(1))] ^ [nbsaisons = [2, 11]] ^ [nomchainefr = (TF1(0.25), Jimmy(0.25), F2(0.25), TPS Star(0.25), M6(0.25), Serie Club(0.5))] ^ [AnneeDiffFr = [1998, 2005]] ===================================================================== THE CLASS - "C_14/14" AGGREGATION HEIGHT - 1 THIS CLASS IS FORMED BY THE UNION OF THE SYMBOLIC OBJECTS Nomine Golden serie AND THE CLASSES "C_5/14", "C_11/14", "C_13/14" THE CLASS EXTENSION (SYMBOLIC OBJECTS) [Nomine Golden serie, Nomine EMMY actrice, Gagnant Golden serie, Gagnant Golden acteur, Gagnant EMMY acteur, Nomine Golden acteur, Nomine Golden actrice, Nomine EMMY serie, Gagnant Golden actrice, Gagnant EMMY actrice, Nomine EMMY acteur, Gagnant EMMY serie] LONG SYMBOLIC OBJECT DESCRIBING THE CLASS [SexeActeur = (M(0.75), F(0.125))] ^ [nbsaisons = [1, 11]] ^ [nomchainefr = (Canal(0.0625), TF1(0.0625), Paris Premiere(0.0625), Jimmy( ), F2( ), TPS Star(0.125), M6( ), Serie Club(0.0625), Teva(0.0625), 13e rue( ), aucune(0.0625), TF6(0.0625))] ^ [AnneeDiffFr = [1996, 2006]] - Mounia CHERRAD Anne-Sophie REGOTTAZ - 36
37 ===================================================================== THE DISSIMILARITY MATRIX 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0.63, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, THE EVALUATION VALUE = ===================================================================== Représentation graphique de la pyramide résultante de l exécution de HIPYR: - Mounia CHERRAD Anne-Sophie REGOTTAZ - 37
38 IV.6 - Méthode TREE IV Description de la méthode La méthode TREE propose un algorithme par agrandissement d arbre. Il s agit d une procédure récursive de partitionnement en plusieurs classes qui peut être vue comme une recherche itérative d un ensemble organisé d objets symboliques qui correspond le mieux aux données initiales. L objectif de cette méthode est de trouver, pour une variable à expliquer Y, la variable x qui l explique le mieux. Il s agit alors de trouver les variables les plus caractéristiques de chaque classe. Les critères d arrêt de cette méthode sont : - une taille de classe pas assez grande («Minimum size to split the node») - une classe majoritaire ( «Minimum size of no-majority classes») - le nombre de feuilles terminales atteint ( «Number of terminal nodes») - deux nœuds fils trop petits («Minimum size of right or left descendant nodes») La méthode TREE peut être évaluée de deux manières : «pure» ou «fuzzy». Elle utilise les différents critères de division : «Gini», «information» ou «likehood». IV Interprétation Les paramètres de la méthode TREE sur SODAS sont : - Class Identifier variable : Resultat (inséree par la requête Addsingle) - Explanatory variable : SexeActeur, AgeActeur, nomchaineam, nbactricesmoy, nbacteursmoy, nbsaisonsmoy, nbnominationsmoy - Terminal nodes : 2 - Soft assignement : PURE. - Spliting criterion : GINI L application de la méthode TREE sur les 12 concepts donne le résultat suivant : BASE= D :\ConceptGagnantPerdant.sds Number of OS = 12 Number of variables = 22 METHOD=TREE Version 2.0 INRIA Mounia CHERRAD Anne-Sophie REGOTTAZ - 38
39 Learning Set : 12 Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1 Frequency of test set : 0.00 NUMBER OF A PRIORI CLASSES : 2 ID_CLASS NAME_CLASS 1 Gagnant 2 Perdant CLASS SIZE LEARNING TOTAL TEST TREE CRITERION ================================================================ Ord variable value criterion ================================================================ 1 ( 17) NbActricesMoy ( 21) NbNominationsMoy ( 18) NbActeursMoy ( 4) AgeActeur ( 19) NbSaisonsMoy ================================================================ SPLITTING NODE: 1 VARIABLE : ( 17) NbActricesMoy SPLIT : CRITERION : LEARNING SET ==================================================== left node right node Row totals node ==================================================== Gagnant Perdant ==================================================== Total ==================================================== RESULTS BY LEAF LEAF : 2 ========================================================= N(k/t) N(k) P(k/t) P(t/k) ========================================================= Gagnant Perdant ========================================================= - Mounia CHERRAD Anne-Sophie REGOTTAZ - 39
40 RULE : IF [ NbActricesMoy <= ] IS TRUE THEN ASSIGN_CLASS IS Perdant r(t)= p(t)= R(t)= List of objects : ( 2)Nomine Golden acteur ( 2)Nomine Golden serie ( 2)Nomine EMMY serie ( 2)Nomine EMMY acteur ( 2)Nomine EMMY actrice ( 2)Nomine Golden actrice ( 1)Gagnant EMMY serie ( 1)Gagnant Golden acteur LEAF : 3 ========================================================= N(k/t) N(k) P(k/t) P(t/k) ========================================================= Gagnant Perdant ========================================================= RULE : IF [ NbActricesMoy <= ] IS FALSE THEN ASSIGN_CLASS IS Gagnant r(t)= p(t)= R(t)= List of objects : ( 1)Gagnant Golden serie ( 1)Gagnant Golden actrice ( 1)Gagnant EMMY actrice ( 1)Gagnant EMMY acteur RESULTS BY SYMBOLIC OBJECT ========================================================== No Nom Leaf Class No true assig. ========================================================== 1 Gagnant Golden serie Nomine Golden acteur Nomine Golden serie Nomine EMMY serie Nomine EMMY acteur Nomine EMMY actrice Nomine Golden actrice Gagnant Golden actrice Gagnant EMMY serie (*) 10 Gagnant EMMY actrice Gagnant Golden acteur (*) 12 Gagnant EMMY acteur ========================================================== R(T)= MISCLASSIFICATION RATE BY CLASS TRUE CLASS ( ERROR /SIZE ) FREQUENCY Gagnant ( 2 / 6 ) Perdant ( 0 / 6 ) 0.00 TOTAL ( 2 / 12 ) Mounia CHERRAD Anne-Sophie REGOTTAZ - 40
41 Arbre de décision résultant : Université Paris Dauphine Datamining - DESS ID- 2004/ IF ASSERTION IS TRUE (up)! --- x [ ASSERTION ]! IF ASSERTION IS FALSE (down) < 2 >Perdant ( )!!----1[ NbActricesMoy <= ]! < 3 >Gagnant ( ) Représentation graphique des deux classes résultantes du Tri «Gagnant» et «Perdant»: - Mounia CHERRAD Anne-Sophie REGOTTAZ - 41
42 Analyse des résultats : La variable à expliquer est la donnée «Resultat» qui indique si les individus du concept sont des gagnants ou des perdants. Nous cherchons donc à trouver parmi les cinq variables en entrée, celle qui explique le mieux le fait de gagner ou de perdre. Selon le listing, la variable qui discrimine le mieux est donc le nombre moyen d actrices dans la série. Il en résulte un découpage des données en deux classes : «Perdant» et «Gagnant». Le taux d erreur de classification est de 16,7% soit 2 concepts sur 12 qui ont été classés dans la mauvaise catégorie. Tous les concepts perdants sont bien affectés à la classe «Perdant» et 4 concepts gagnants sur 6 sont affectés à la classe «Gagnant». Les 2 concepts gagnants qui ont été classés dans la catégorie «Perdant» sont : Gagnant EMMY serie et Gagnant Golden Acteur. Les gagnants sont les nominés dont le nombre moyen d actrices est supérieur à 3,8, et les perdants sont ceux dont ce même nombre est inférieur à 3,8. Nous pouvons conclure que la variable «nbactricesmoy» est celle qui explique le mieux la variable de départ «Resultat». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 42
43 IV.7 - Méthode SYKSOM IV Description de la méthode La méthode de SYKSOM s appuie sur le principe des cartes de Kohonen. Les cartes de Kohonen sont une classe de réseaux de neurones ayant principalement la particularité de prendre en compte des propriétés de continuité spatiale ou temporelle. Ce type de réseau s'appuie sur une dynamique de propagation multi-directionnelle avec de fortes interactions entre neurones d'un même voisinage. Cette méthode est utilisée pour la classification de séries chronologiques ou pour le problème du voyageur de commerce. Le nuage de point initial se représente de la manière suivante : IV Interprétation Les variables en entrée de la méthode SYKSOM sont : - NbActricesMoy - NbActeursMoy - NbSaisonsMoy - DureeMoy - NbNominationsMoy - Mounia CHERRAD Anne-Sophie REGOTTAZ - 43
44 L application de la méthode TREE sur les 12 concepts donne le résultat suivant : METHOD=SYKSOM Version 12/20/03 Aachen 2003 BASE = D:\ConceptGagnantPerdant.sds Number of columns a = 5 Number of rows b = 5 Number of Symbolic Objects = 12 Number of variables = 5 Number of clusters (neurons) = 25 Dimension of vectors = 5 Exponential kernel Distance : Vertex-type distance LIST OF SYMBOLIC OBJECTS IN EACH CLUSTER Les clusters de Size 0 et Empty sont : Cluster 1 ( 1x1), Cluster 2 ( 1x2), Cluster 4 ( 1x4), Cluster 5 ( 1x5), Cluster 7 ( 2x2), Cluster 8 ( 2x3), Cluster 9 ( 2x4), Cluster 10 ( 2x5), Cluster 11 ( 3x1), Cluster 14 ( 3x4), Cluster 16 ( 4x1),Cluster 17 ( 4x2) Cluster 18 ( 4x3), Cluster 19 ( 4x4), Cluster 20 ( 4x5), Cluster 21 ( 5x1), Cluster 22 ( 5x2), Cluster 23 ( 5x3), Cluster 24 ( 5x4), Cluster 25 ( 5x5), Les autres clusters de taille supérieure sont : Cluster 3 ( 1x3) Size 3 List of objects: ( 1) Gagnant Golden serie ( 8) Gagnant Golden actrice ( 12) Gagnant EMMY acteur Cluster 6 ( 2x1) Size 1 List of objects: ( 11) Gagnant Golden acteur Cluster 12 ( 3x2) Size 1 List of objects: ( 2) Nomine Golden acteur Cluster 13 ( 3x3) Size 6 List of objects: ( 3) Nomine Golden serie ( 4) Nomine EMMY serie ( 5) Nomine EMMY acteur ( 6) Nomine EMMY actrice ( 9) Gagnant EMMY serie ( 10) Gagnant EMMY actrice Cluster 15 ( 3x5) Size 1 List of objects: ( 7) Nomine Golden actrice - Mounia CHERRAD Anne-Sophie REGOTTAZ - 44
45 Représentation graphique des clusters suivant le nombre moyen de nominations et de saisons: Représentation du cluster 13 (3*3), en graphe en étoile avec SYKSOM : Représentation graphique avec la méthode VMAP : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 45
46 Analyse des résultats : Université Paris Dauphine Datamining - DESS ID- 2004/2005 Selon le listing, nous obtenons, à partir des cinq variables en entrée, 25 clusters dont seulement cinq sont non vide, le plus gros étant le cluster 3*3 qui comporte six individus. Plus précisément, les clusters qui se démarquent de par le nombre de saisons et le nombre de nominations sont : - Cluster (2*1) constitué du concept «Gagnant Golden acteur» : Il en résulte que la plupart des Gagnants aux Golden Globes dans la catégorie meilleur acteur ont joué dans des séries récentes ( nbsaisons <=2) et ont un taux de réussite élevé (nbnominations <= 3). - Cluster (3*3) constitué des concepts «Nomine Golden serie», «Nomine EMMY serie», «Nomine EMMY acteur», «Nomine EMMY actrice», «Gagnant EMMY serie», «Gagnant EMMY actrice» : Il en résulte que la plupart de ces concepts ont joué dans les séries les plus anciennes ( nbsaisons >=5) et ont un taux de réussite faible, c est-à-dire ayant beaucoup de nominations comparativement au nombre de récompenses obtenues (nbnominations >=6). En conclusion, nous pouvons constater que les Golden Globes récompensent essentiellement des séries récentes, nominées un petit nombre de fois, alors que les EMMY Awards nominent et récompensent surtout les séries anciennes. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 46
47 Pépites Les pépites trouvées concernent ici les nominés et les gagnants en 2003 et 2004 aux Golden Globes et EMMY Awards. Les deux facteurs les plus pertinents sont : - Chaîne américaine : Les deux chaînes ayant la plus grande influence sur les nominations sont «HBO» et «NBC». - Nombre d actrices : Les séries gagnantes sont celles dont le nombre moyen d actrices est supérieur à 3,8. Nous présenterons tout d abord les pépites concernant les Golden Globes, et enfin celles concernant les EMMY Awards. Golden Globes Les critères de nomination d une série aux Golden Globes sont : - Nombre de saisons inférieur à 7 ans - Peu de nominations et jusqu à 50% de taux de réussite. Série Les séries qui ont gagné en sont celles qui ont : - un acteur principal de sexe masculin - un nombre de saisons peu élevé (compris entre 1 et 3 ans) - au moins 3 acteurs masculins mais qui n excèdent pas 6. - un acteur principal âgé entre 36 et 43 ans. - été diffusées sur les chaînes «Fx», et «TF1» ou «Canal». Acteur Les acteurs ayant gagné ont tous joué dans des séries : - ayant exactement un nombre de saisons égal à 2. - ayant trois actrices maximum, et trois acteurs minimum. - qui ne sont diffusées ni sur «Fx» ni sur «NBC». - avec un taux de réussite supérieur à 67,5%. - avec un nombre de nominations inférieur ou égal à 3. Actrice Les actrices nominées jouent dans des séries diffusées en France par les chaînes «TF1» et «Teva». Les actrices gagnantes sont nettement plus jeunes que les acteurs gagnants. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 47
48 EMMY Awards Les EMMY Awards nominent et récompensent surtout les séries anciennes. La fourchette d âge des actrices gagnantes est plus resserrée alors que la fourchette d âge des acteurs gagnants est plus étendue. Série Les séries nominées sont anciennes (entre 2 et 10 ans) Acteur Les acteurs principaux des séries nominées sont âgés (le plus jeune ayant 37 ans). Actrice Les actrices nominées jouent dans des séries essentiellement diffusées sur «M6». Les actrices gagnantes sont âgées de 36 à 44 ans et jouent dans des séries de 4 à 6 ans diffusées seulement sur «HBO» et «NBC». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 48
Critères pour avoir la meilleure équipe!
PROJET DATAMINING Basket-ball professionnel "NBA" : Critères pour avoir la meilleure équipe! Réalisé par : Anasse LAHLOU KASSI Houssam Eddine HOUBAINE DESS TIO DESS ID Année Scolaire : SOMMAIRE INTRODUCTION...
DATA MINING - Analyses de données symboliques sur les restaurants
Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Projet de Datamining Supervisé (SODAS) Analyse des régions françaises
Master 2 ème Année Ingénierie Statistique et financière Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Réalisé par : Nicolas CHAIGNEAUD Nora SLIMANI Année universitaire 2007-2008
Christophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Introduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
INTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Université Paris IX DAUPHINE DATE : 24/04/06
Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
2 Serveurs OLAP et introduction au Data Mining
2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Utiliser Access ou Excel pour gérer vos données
Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que
Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Business Intelligence
avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................
WEBSELL. Projet DATAMINING
WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.
Techniques d interaction dans la visualisation de l information Séminaire DIVA
Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, [email protected] 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques
BIRT (Business Intelligence and Reporting Tools)
BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»
Travaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Spécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala [email protected] http://chirouble.univ-lyon2.fr/~ricco/data-mining
SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)
Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence
La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Extraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 [email protected] 1 Introduction
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Agenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Statistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Le langage SQL Rappels
Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,
RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
EXCEL et base de données
EXCEL et base de données 1. Variables et données 2. Saisie de données: quelques règles 3. EXCEL et saisie des données 4. Exemple de tableau EXCEL 5. Éviter d éventuels problèmes 1 1.1 Variables et données
Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction
PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS Depuis SAS 9.2 TS2M3, SAS propose un nouveau langage de programmation permettant de créer et gérer des tables SAS : le DS2 («Data Step 2»). Ces nouveautés
Encryptions, compression et partitionnement des données
Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des
Comment créer un diagramme de Gantt avec OpenOffice.org
Comment créer un diagramme de Gantt avec OpenOffice.org Version 1.9 du 05.05.2005 Réalisé avec : OOo 2.0 Plate-forme / Os : Toutes Distribué par le projet Sommaire 1 Une rapide introduction : Diagramme
La place de SAS dans l'informatique décisionnelle
La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie
Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA
Master Exploration Informatique des données Data Mining & Business Intelligence Groupe 5 Piotr BENSALEM Ahmed BENSI Evelyne CHARIFOU Priscillia CASSANDRA Enseignant Françoise FOGELMAN Nicolas DULIAN SOMMAIRE
IBM SPSS Direct Marketing
IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus
Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).
1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence
Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.
Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 [email protected] http://www.sas.com/france/academic SAS dans
Mémo d utilisation de ADE-4
Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose
Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Business Intelligence avec Excel, Power BI et Office 365
Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10
Jade. Projet Intelligence Artificielle «Devine à quoi je pense»
Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges
Travailler avec les télécommunications
Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Créer le schéma relationnel d une base de données ACCESS
Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...
Jean-François Boulicaut & Mohand-Saïd Hacid
e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205
Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées
PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.
FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)
Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant
Analyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013
Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,
Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services
Ce Whitepaper décrit la méthodologie de développement d un rapport personnalisé au format SQL Server Reporting Service (SSRS) appliqué à System Center Operations Manager (SCOM) Whitepaper Méthodologie
TUTORIAL REUTERS. Utilisation de l'utilitaire de recherche Reuters
TUTORIAL REUTERS Connexion à Reuters Allez sur https://portal.hpd.global.reuters.com/auth/login.aspx Le login est [email protected], =1 à 5, le et le mot de passe étant ceux qui vous ont été
Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours
Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres [email protected] LIA/Université d Avignon Cours/TP
Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie
Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même
Arbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :
BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les
Bases de données. Chapitre 1. Introduction
Références : Bases de données Pierre Wolper Email : [email protected] URL : http : //www.montefiore.ulg.ac.be/~pw/ http : //www.montefiore.ulg.ac.be/ ~pw/cours/bd.html Henry F. Korth, Abraham Silberschatz,
Gestion des données avec R
Gestion des données avec R Christophe Lalanne & Bruno Falissard Table des matières 1 Introduction 1 2 Importation de fichiers CSV 1 2.1 Structure du fichier de données...................................
THOT - Extraction de données et de schémas d un SGBD
THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) [email protected], [email protected] Mots clefs : Fouille d information, base de données, système
Pourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE
EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE QCM Remarque : - A une question correspond au moins 1 réponse juste - Cocher la ou les bonnes réponses Barème : - Une bonne réponse = +1 - Pas de réponse = 0
Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.
SAS, Cognos, Stata, Eviews, conseil, expertise, formation, mining, datamining, statistique, connaissance Changer la source d'une requête dans SAS Enterprise Guide client, valeur client, CRM, fidélisation,
Le Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab
ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab notre compétence d'éditeur à votre service créée en juin 2010, Scilab enterprises propose services et support autour
Séries Statistiques Simples
1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &
Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement
Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Dossier I Découverte de Base d Open Office
ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire
Entrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner
Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation
Initiation à Excel. Frédéric Gava (MCF) [email protected]
Initiation à Excel Frédéric Gava (MCF) [email protected] LACL, bâtiment P2 du CMC, bureau 221 Université de Paris XII Val-de-Marne 61 avenue du Général de Gaulle 94010 Créteil cedex Plan de cette année
8. Gestionnaire de budgets
8. Gestionnaire de budgets 8.1 Introduction Le Gestionnaire de budgets (Budget Workbench) permet aux utilisateurs de travailler sur les données budgétaires qu ils ont importées sur leur station de travail
Comment consolider des données
Comment consolider des données Version 0.02 du 18.11.2004 Réalisé avec : OOo 1.1.3 Plate-forme / Os : Toutes Distribué par le projet fr.openoffice.org Sommaire 1 Introduction...3 2 Création des données...4
Lire ; Compter ; Tester... avec R
Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................
Le scoring est-il la nouvelle révolution du microcrédit?
Retour au sommaire Le scoring est-il la nouvelle révolution du microcrédit? BIM n 32-01 octobre 2002 Frédéric DE SOUSA-SANTOS Le BIM de cette semaine se propose de vous présenter un ouvrage de Mark Schreiner
clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE
Cas Neptune hôtel Base de données et langage SQL Propriété Intitulé long Formation concernée Matière Notions Transversalité Présentation Description Neptune Hôtel. L interrogation d une base de données
Chapitre 1 : Introduction aux bases de données
Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données
Sybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. www.sybase.fr/poweramc DOCUMENTATION
Sybase PowerAMC 16 Guide des nouvelles fonctionnalités générales DOCUMENTATION 2 2 www.sybase.fr/poweramc A propos de PowerAMC 16 PowerAMC est une solution de modélisation d'entreprise graphique qui prend
SAP BusinessObjects Web Intelligence (WebI) BI 4
Présentation de la Business Intelligence 1. Outils de Business Intelligence 15 2. Historique des logiciels décisionnels 16 3. La suite de logiciels SAP BusinessObjects Business Intelligence Platform 18
Les algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Introduction aux SGBDR
1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux
COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES
COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée
Didier MOUNIEN Samantha MOINEAUX
Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?
IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21
IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances
Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services
Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services Nous verrons dans cet article comment exploiter simplement les données de Log de SQL Server 2008 R2 Reporting Services
Langage SQL : créer et interroger une base
Langage SQL : créer et interroger une base Dans ce chapitre, nous revenons sur les principales requêtes de création de table et d accès aux données. Nous verrons aussi quelques fonctions d agrégation (MAX,
Business Intelligence avec SQL Server 2012
Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Table des matières Les éléments à télécharger sont disponibles
Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris
Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris Diffusé par Le Projet Documentation OpenOffice.org Table des matières 1. Définir les plages...3 2. Sélectionner une plage...4
Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
2014/2015. Rapport 4 REALISE PAR : ISMAIL NAIT ABDELLAH OUALI SOUFIANE HOURRI MOHAMED OUSSAFI ENCADRE PAR : MME L.LAMRINI ANOUAR OUFQIR SMARTSIR
2014/2015 Rapport 4 REALISE PAR : ISMAIL NAIT ABDELLAH OUALI SOUFIANE HOURRI MOHAMED OUSSAFI ENCADRE PAR : ANOUAR OUFQIR MME L.LAMRINI SMARTSIR Table des matières Introduction... 2 Choix de l outil pour
Le disque dur. Le disque dur est l'organe servant à conserver les données sous forme de dossiers de manière permanente.
Le disque dur Le disque dur est l'organe servant à conserver les données sous forme de dossiers de manière permanente. Le disque dur Le partitionnement d'un disque dur. Il consiste à créer des zones sur
MyReport, une gamme complète. La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! pour piloter votre activité au quotidien.
MyReportle reporting sous excel La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! MyReport, une gamme complète pour piloter votre activité au quotidien. En rendant les données
Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions
Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental
Traitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
