Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars Mr E.
|
|
- Jean Lajoie
- il y a 8 ans
- Total affichages :
Transcription
1 Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ
2 Sommaire Introduction... 3 I - Etat de l art du Datamining et de Sodas... 4 I.1 - Le datamining... 4 I.2 - Logiciel Sodas... 6 II - Problématique choisie et ensemble de données... 7 II.1 - Problématique choisie... 7 II.2 - Base de données relationnelle... 7 II.3 - Individus et concepts... 9 III - Requêtes III.1 - Requête principale III.2 - Requête AddSingle III.3 - Requête Taxonomie III.4 - Extraction sous DB2SO IV - Analyses sur SODAS IV.1 - Méthode VIEW IV.2 - Méthode STAT IV.3 - Méthode DIV IV.4 - Méthode SPCA IV.5 - Méthode HIPYR IV.6 - Méthode TREE IV.7 - Méthode SYKSOM Pépites Mounia CHERRAD Anne-Sophie REGOTTAZ - 2
3 Introduction Université Paris Dauphine Datamining - DESS ID- 2004/2005 Dans le cadre du cours de Datamining dispensé en DESS Informatique Décisionnelle à Dauphine, nous étions en charge de réaliser une fouille de données symboliques. Nous avons choisi le domaine des séries télévisées, celles-ci étant nominées et récompensées tous les ans par les cérémonies de Golden Globes et EMMY Awards. Nous nous intéresserons plus précisément aux critères de nomination et au fait qu une série gagne ou non. Pour ce faire nous avons créé une Base de données et nous l avons exploitée à l aide du logiciel de d analyse de données symbolique : SODAS. Dans ce document, vous trouverez tout d abord une présentation du Datamining, ensuite la description des données sources de l étude, puis la manière dont les requêtes ont été extraites de la Base de données, et enfin vous trouverez l analyse complète que nous avons réalisée avec les différentes méthodes proposées par SODAS. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 3
4 I - Etat de l art du Datamining et de Sodas I.1 - Le datamining I.1.1 Définition À l'origine, le datamining était en deux mots : le «Data Mining». Il constitue l ensemble des techniques permettant d'aller puiser des informations pertinentes dans les montagnes de données stockées ces dernières décennies dans les entreprises (Datawarehouses). Il consiste à «trouver des diamants dans un tas de charbon sans se salir les doigts». L exploration des données, aussi connue sous les noms «fouille de données» et «data mining», a pour objet l'extraction du savoir implicite à de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. I Outils utilisés Il existe de nombreux produits commerciaux vendus pour le datamining. Selon le site «Ultra-Fluide.com», les points forts supposés des logiciels commerciaux (interface, documentation, support) ne compensent pas certains inconvénients relatifs notamment aux coûts ou au code propriétaire. Les logiciels commerciaux disposent également bien souvent de budgets spécifiques visant à les faire connaître. Ils conseillent donc des produits open source, que nous allons vous présenter ci-dessous : R-projet : R est un langage et une infrastructure spécialisés pour les traitements statistiques. R est l'un des nombreux projets GNU distribué sous licence GPL (logiciel libre). R est écrit en langage compilé (principalement en C), ce qui autorise de bonnes performances. La qualité de cet environnement et son ouverture ont permis à une myriade de théoriciens, statisticiens et informaticiens de compléter cette plate-forme d'un nombre impressionnant de fonctionnalités. Des dizaines de packages offrant des milliers de fonctions en font probablement la plate-forme la plus complète. Ce n'est cependant pas l'outil le plus simple d'abord. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 4
5 Scilab et Mixmod : Scilab est un langage et une infrastructure spécialisés pour les traitements mathématiques numériques et la modélisation. Scilab est un projet de l'inria et de l'ecole Nationale des Ponts et Chaussées. Sa licence autorise une utilisation gratuite ainsi que la modification des sources. Scilab supporte un spectre très large d'applications, et de nombreuses contributions sont opérationnelles sur cette plate-forme. Mixmod est une contribution de l'inria, du Laboratoire de Mathématique de Besançon et du Laboratoire Heudiasys de Compiègne qui fonctionne sur Scilab. Mixmod propose des fonctionnalités de clustering (analyse discriminante et maximum de vraisemblance). Mixmod est relativement simple d'utilisation et s'avère adapté pour un volume raisonnable de données. Autoclass-c : C est un logiciel spécialisé dans le clustering (analyse discriminante et maximum de vraisemblance). Il a été développé par un laboratoire de la NASA et est disponible dans le domaine public. Autoclass-c est un outil performant écrit en C qui n'a plus évolué depuis Le datamining est également utilisé dans des sociétés, comme BusinessDecision. Les outils qu ils utilisent sont : SAS, SLP, SPSS, IBM, KXEN I Applications Le Datamining est de plus en plus utilisé par les entreprises. On retrouve notamment : Les services publics dans la lutte anti-fraude : La faible rentabilité de certains impôts est, dans de nombreux cas, expliquée par la fraude fiscale, fraude fiscale difficilement endiguée à cause d énorme moyens humains et financiers qu elle nécessite. Fujitsu Consulting a mis en place une méthode de scoring permettant de détecter les fraudeurs. La méthode utilisée s appuie sur les méthodes de Datawarehousing et de datamining : on récupère des données de plusieurs services (fraudes, fisc) et on estime la corrélation entre les différentes variables et la probabilité de frauder. Cette méthode sembla avoir donné des résultats au Québec, Fujitsu vise aujourd hui le marché européen - Mounia CHERRAD Anne-Sophie REGOTTAZ - 5
6 L industrie du disque : Aujourd hui, l industrie du disque se met tout doucement au datamining. Deux constats ont encouragé cette évolution : d abord, le fait que la quasi-totalité des fans d un groupe ne savent pas quand le dernier disque de leurs idoles est sorti et ensuite parce que cette approche «Marketing Quantitatif» était relativement absent des préoccupations du monde de la musique. Les nouvelles technologies de l information et la multitude de solutions logicielles laissent ouvert un vaste champ d application du datamining dans l industrie du disque. I.2 - Logiciel Sodas SODAS est un outil public d analyse de données symboliques. Il est disponible à l adresse : Il est issu du projet de EUROSTAT appelé SODAS. L idée générale de ce projet est de construire, à partir d'une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles et de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données sur des individus et d analyser ensuite ce tableau, par des méthodes d'analyse de données symboliques, pour en extraire des connaissances. Le tableau contient alors des données symboliques dont les individus correspondent aux concepts décrits par généralisation des propriétés des individus de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques selon le type de variables et le choix de l'utilisateur. Il est possible de créer un fichier d'objets symboliques sur lequel des méthodes d'analyse de données symboliques peuvent s'appliquer au sein du logiciel SODAS (histogrammes des variables symboliques comme STAT, classification automatique comme DIV, HIPYR, analyse factorielle comme SPCA, analyse discriminante comme TREE, visualisations graphiques VIEW,...). - Mounia CHERRAD Anne-Sophie REGOTTAZ - 6
7 II - Problématique choisie et ensemble de données II.1 - Problématique choisie Nous avons choisi d analyser les séries télévisées nominées aux Golden Globes et EMMY Awards en 2003 et Nous nous sommes intéressées à trois types de récompense : meilleure série, meilleur acteur, meilleure actrice, dans un genre donné c'est-à-dire dramatique ou comique. Nous voulons connaître les facteurs déterminant le fait qu une série gagne une récompense. Nous aimerions également trouver les critères de sélection pour les nominations d une série aux Golden Globes ou EMMY Awards. Ainsi nous avons cherché plusieurs renseignements sur ces séries. Pour ce faire nous avons créé une nouvelle base de données sous Access, puis nous l avons entièrement remplie avec les différents champs qui nous semblaient importants. Les sites web qui nous ont servi pour remplir cette base sont : Site pour les nominés : Site pour les gagnants : II.2 - Base de données relationnelle La base de données que nous avons conçue manuellement sous Access est «SeriesNomineesOscars.mdb». Elle se compose de 14 tables dont les deux principales sont «Serie» et «Nomination». Elle comporte 121 enregistrements dans la table «Nomination», 37 dans la table «Serie», 21 dans la table «ActricePrincipale» et 27 dans la table «ActeurPrincipal». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 7
8 Vous trouverez ci-dessous le schéma relationnel de la base : Table CATEGORIE AWARD : Le champs «nomcategorie» prend les valeurs : Serie, Acteur ou Actrice. Le champs «nomaward» prend les valeurs : Golden ou EMMY. Table NOMINATION : La table Nomination contient toutes les nominations des séries, acteurs et actrices, dans les catégories comique et dramatique pour les Golden Globes et EMMY Awards 2003 et En règle générale, le nombre de nominés pour chaque catégorie de récompense est de cinq. Le champ booléen «gagnante» désigne les séries, acteurs et actrices gagnants. Le champ «nbsaisons» car celui-ci varie suivant le champ «anneenomination» qui se trouve dans cette table. Table ACTEUR PRINCIPAL et ACTRICE PRINCIPALE : Ces tables contiennent les noms, prénoms, âges de chaque acteur. Le champ «idnationalite» référence le lieu, Pays et Continent d origine de ces acteurs, le lieu étant leur ville de naissance. Table REALISATEUR : Dans le cas où la série a été réalisée par deux réalisateurs de sexe opposés alors le champ sexe prend la valeur mixte. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 8
9 Table SERIE : Université Paris Dauphine Datamining - DESS ID- 2004/2005 Une série se décrit par son libellé, son genre, sa cible, sa durée, son réalisateur, ses chaînes et dates de première diffusion en Amérique et France, son nombre d acteurs masculin et féminin, son nombre de nominations et son nombre d awards gagnés, ainsi que par : Les champs «idacteurprincipal» et «idactriceprincipale»: qui référencent les tables «ActeurPrincipal» et «ActricePrincipale». Pour chaque série, nous avons considéré l acteur (et/ou actrice) ayant été nominé aux oscars même s il n était pas l acteur principal. Dans le cas où une série était nominée et aucun de ses acteurs ne l était, nous avons stocké l acteur (ou l actrice) principal. Si un seul acteur (ou actrice) est référencé alors l autre référence à l acteur sera égale à 1 ; cette référence correspond à aucun acteur. II.3 - Individus et concepts Individus : Nos individus sont les nominés aux Golden Globes et EMMY Awards 2003 et On entend par nominés, les acteurs, actrices ou séries télévisées dans les catégories comique ou dramatique. Nous avons 121 individus. Concepts : Nous avons choisi de grouper les individus en deux parties : «Gagnant» et «Perdant» (ici appelé Nomine) ; puis en trois catégories de récompense : «Acteur», «Actrice», «Serie» ; et enfin en deux types de récompense : Golden Globes ou EMMY Awards. Les concepts sont : Gagnant EMMY Acteur Gagnant EMMY Actrice Gagnant EMMY Serie Nomine EMMY Acteur Nomine EMMY Actrice Nomine EMMY Serie Gagnant Golden Acteur Gagnant Golden Actrice Gagnant Golden Serie Nomine Golden Acteur Nomine Golden Actrice Nomine Golden Serie Cette répartition des individus nous permettra, lors de nos analyses, de trouver les différences entre les caractéristiques des gagnants et des perdants de chaque type de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 9
10 III - Requêtes Université Paris Dauphine Datamining - DESS ID- 2004/2005 III.1 - Requête principale La requête principale sur Access se nomme : «RequetePrincipaleGagnantPerdant». La représentation un concept se fait à l aide du croisement des 3 variables suivantes : «Gagnante» dans la table Nomination. Si gagnant vaut 0 alors ce champ prend la valeur Nomine, sinon il prend la valeur Gagnant. «nomaward» dans la table CategorieAward «nomcategorie» dans la table CategorieAward Les valeurs des champs «nomnomine», «SexeActeur», «AgeActeur» et «OrigineActeur» dépendent de la catégorie de récompense. Nous avons donc utilisé la fonction IIf(condition, true, false) pour attribuer les valeurs suivant cette règle : Si la catégorie est 1 ou 4, alors c est une série ; dans ce cas nous récupérons le libellé de la série et les caractéristiques de l acteur principal. Si la catégorie est 2 ou 5, alors c est un acteur ; dans ce cas nous récupérons le nom de l acteur et ses caractéristiques. Si la catégorie est 3 ou 6, alors c est une actrice ; dans ce cas nous récupérons le nom de l actrice et ses caractéristiques. Le champ «tauxreussite» nous permet de mesurer le ratio entre le nombre de récompenses gagnées par l individu par rapport au nombre de fois qu il a été nominé. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La seconde colonne contenant le nom du concept. SELECT Nomination.idNomination, IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie AS Concept, Serie.libelleSerie, - Mounia CHERRAD Anne-Sophie REGOTTAZ - 10
11 IIf(Nomination.idCategorie=1,Serie.libelleSerie, IIf(Nomination.idCategorie=2,ActeurPrincipal.prenom+" "+ActeurPrincipal.nom, IIf(Nomination.idCategorie=3,ActricePrincipale.prenom+" "+ActricePrincipale.nom, IIf(Nomination.idCategorie=4,Serie.libelleSerie, IIf(Nomination.idCategorie=5,ActeurPrincipal.prenom+" "+ActeurPrincipal.nom, AS NomNomine, ActricePrincipale.prenom+" "+ActricePrincipale.nom)))) ) IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,"F","M"), IIf(Nomination.idCategorie=2,"M", IIf(Nomination.idCategorie=3,"F", IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,"F","M"), IIf(Nomination.idCategorie=5,"M","F"))))) AS SexeActeur, IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,ActricePrincipale.age,ActeurPrincipal.age), IIf(Nomination.idCategorie=2,ActeurPrincipal.age, IIf(Nomination.idCategorie=3,ActricePrincipale.age, IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,ActricePrincipale.age, ActeurPrincipal.age), IIf(Nomination.idCategorie=5,ActeurPrincipal.age,ActricePrincipale.age))))) AS AgeActeur, IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,LieuActrice.ville,LieuActeur.ville), IIf(Nomination.idCategorie=2,LieuActeur.ville, IIf(Nomination.idCategorie=3,LieuActrice.ville, IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,LieuActrice.ville,LieuActeur.ville), IIf(Nomination.idCategorie=5,LieuActeur.ville,LieuActrice.ville))))) AS OrigineActeur, Serie.duree, Nomination.nbSaisons, Serie.nbActeursMasculins, Serie.nbActeursFeminins, Realisateur.nom AS nomrealisateur, ChaineAmericaine.nomChaineAm, - Mounia CHERRAD Anne-Sophie REGOTTAZ - 11
12 Year(Serie.datePremiereDiffAm) AS AnneeDiffAm, ChaineFrancaise.nomChaineFr, IIf(Year(Serie.datePremiereDiffFr)=3000,2006,Year(Serie.datePremiereDiffFr)) AS AnneeDiffFr, Nomination.anneeNomination, (Round((Serie.nbAwardsGagnes/Serie.nbNominations),3)*100) AS TauxReussite FROM LieuActrice INNER JOIN (LieuActeur INNER JOIN ( (Realisateur INNER JOIN (ChaineFrancaise INNER JOIN ( ChaineAmericaine INNER JOIN (ActricePrincipale INNER JOIN (ActeurPrincipal INNER JOIN Serie ON ActeurPrincipal.idActeur=Serie.idActeurPrincipal) ON ActricePrincipale.idActrice=Serie.idActricePrincipale) ON ChaineAmericaine.idChaineAm=Serie.idChaineDiffusionAm) ON ChaineFrancaise.idChaineFr=Serie.idChaineDiffusionFr) ON Realisateur.idRealisateur=Serie.idRealisateur) INNER JOIN (CategorieAward INNER JOIN Nomination ON CategorieAward.idCategorie=Nomination.idCategorie) ON Serie.idSerie=Nomination.idSerie) ON LieuActeur.idLieu=ActeurPrincipal.idNationalite) ON LieuActrice.idLieu=ActricePrincipale.idNationalite; Voici un extrait de la feuille de données de la requête principale : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 12
13 III.2 - Requête AddSingle La requête addsingle sur Access se nomme : «AddSingleGagnantPerdant». Elle permet d apporter des informations complémentaires sur chacun des 12 concepts. Il s agit de calculer la durée moyenne des séries ainsi que le nombre moyen d actrices, d acteurs, de saisons et de nominations des individus de chaque concept. La dernière variable étant «Resultat» qui permet de préciser si les individus du concept ont gagnés ou non la récompense. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La première colonne contenant le nom du concept. SELECT IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie AS Concept, Round(Avg(Serie.nbActeursFeminins),1) AS NbActricesMoy, Round(Avg(Serie.nbActeursMasculins),1) AS NbActeursMoy, Round(Avg(Nomination.nbSaisons),1) AS NbSaisonsMoy, Round(Avg(Serie.duree),1) AS DureeMoy, Round(Avg(Serie.nbNominations),1) AS NbNominationsMoy, IIf(Nomination.gagnante<>0,"Gagnant","Perdant") AS Resultat FROM Serie INNER JOIN (CategorieAward INNER JOIN Nomination ON CategorieAward.idCategorie=Nomination.idCategorie ) ON Serie.idSerie=Nomination.idSerie GROUP BY IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie, IIf(Nomination.gagnante<>0,"Gagnant","Perdant"); - Mounia CHERRAD Anne-Sophie REGOTTAZ - 13
14 Voici un extrait de la feuille de données de la requête addsingle : III.3 - Requête Taxonomie La requête des taxonomies sur Access se nomme : «TaxonomieVillePays». Cette requête permet de définir les correspondances entre les variables ville et pays utilisées dans les lieu de naissance des acteurs. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La première colonne contenant les villes et la seconde leur pays respectifs. SELECT LieuActeur.ville AS Ville, PaysActeur.pays AS Pays FROM PaysActeur INNER JOIN LieuActeur ON PaysActeur.idPays=LieuActeur.idPays GROUP BY LieuActeur.ville, PaysActeur.pays; - Mounia CHERRAD Anne-Sophie REGOTTAZ - 14
15 Voici un extrait de la feuille de données de la requête Taxonomie : III.4 - Extraction sous DB2SO Nous allons présenter dans cette partie les différentes étapes de manipulation de SODAS et de DB2SO pour l extraction et le traitement des données. Importation de DB2SO : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 15
16 Création de la source de données : Sélection des données de la requête Principale : Ajout des données de la requête AddSingle : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 16
17 Ajout des données de la requête Taxonomie : Export et visualisation des données extraites : Après avoir passé toutes ces étapes, il convient d appliquer les diverses méthodes d analyse de données symboliques que propose SODAS sur le chaining. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 17
18 IV - Analyses sur SODAS Dans cette partie, nous allons présenter les méthodes statistiques que nous avons appliquées à l ensemble de données. Pour chaque méthode, nous rappellerons tout d abord les principes, puis nous analyserons les résultats obtenus. IV.1 - Méthode VIEW IV Description de la méthode L objectif de la méthode VIEW est de fournir une image synthétique du concept et de comparer les concepts entre eux. Le module SOEditor permet de visualiser le contenu du tableau de données symboliques : les concepts et les variables qui le décrivent. La méthode SOE permet de représenter graphiquement en deux ou trois dimensions les concepts du tableau : c est ce qui s appelle l étoile zoom. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 18
19 Il existe deux types de variables : les variables quantitatives (mesurables, continues ou discrètes) et les variables qualitatives (ordinales, nominales ). Pour les variables qualitatives, leur représentation se fait grâce à des diagrammes en barres. Pour les variables quantitatives, elle se fera par des intervalles de valeurs. Les représentations en étoiles zoom sont parfois un peu trop condensées, il est toujours possible de visualiser un troisième type de représentation, pour un axe donné, sous forme d histogrammes verticaux ou horizontaux IV Interprétation Après avoir exécuté la méthode VIEW, nous avons pu visualiser les données sur SOEditor et nous avons extrait les pépites que vous trouverez ci-dessous. Nous avons comparé les concepts deux à deux. Nous avons pu remarquer les différences établies entre les EMMY Awards et les Golden Globes sur une même catégorie de récompense (Série, Acteur, Actrice). Au sein d un même type de récompense (Golden ou EMMY), nous avons comparé les différences établies entre les gagnants et les perdants. Comparaison Séries Nominées Golden et Séries Nominées EMMY: Analyse des résultats : Nous constatons que : - Les Golden Globes nominent des séries de moins de 7 ans. - Les séries nominées aux EMMY Awards sont plus anciennes (entre 2 et 10 ans) et leurs acteurs principaux sont plus âgés (le plus jeune ayant 37 ans). - Le taux de réussite pour les séries nominées aux Golden reflète des nominations plus appropriées puisqu elles obtiennent jusqu à 50% de taux de réussite. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 19
20 Comparaison Séries Nominés Golden et Séries Gagnantes Golden Analyse des résultats : Les séries qui ont gagné aux Golden Globes sont celles qui ont : - un nombre de saisons peu élevé (compris entre 1 et 3 ans) - au moins 3 acteurs masculins mais qui n excèdent pas 6. - un acteur principal âgé entre 36 et 43 ans. L âge est donc très restrictif pour déterminer les séries gagnantes aux Golden Globes. - été diffusées sur des chaînes très peu nominées. Les séries de «HBO» et «NBC», pourtant les plus nominées, n ont pas remporté de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 20
21 Comparaison Acteurs Nominés Golden et Acteur Gagnants Golden Analyse des résultats : Les acteurs ayant gagné aux Golden Globes en 2003 et 2004 ont tous joué dans des séries ayant exactement un nombre de saisons égal à 2. Nous remarquons également que les acteurs gagnants sont entourés de trois femmes au maximum, alors que parmi les nominés nous pouvions trouver jusqu à 10 actrices ; et sont entourés de trois hommes au minimum. Les séries de «Fx» et «NBC», pourtant celles dont les acteurs sont les plus nominés, n ont pas remporté de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 21
22 Comparaison Actrices Nominées EMMY et Actrices Gagnantes EMMY : Analyse des résultats : Les actrices ayant gagné aux EMMY Awards en 2003 et 2004 sont âgées de 36 à 44 ans et jouent dans des séries de 4 à 6 ans diffusées seulement sur «HBO» et «NBC». Ces trois résultats sont extrêmement restrictifs à la vue des actrices qui avaient été nominées. Comparaison Actrices Nominées Golden et Actrices Nominées EMMY : Analyse des résultats : Nous remarquons que les nominations des actrices aux Golden Globes correspondent à des séries diffusées en France par les chaînes «TF1» et «Teva», alors que les nominations des actrices aux EMMY Awards correspondent à des séries essentiellement diffusées sur «M6». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 22
23 IV.2 - Méthode STAT IV Description de la méthode Cette méthode étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. Elle ressemble aux méthodes statistiques traditionnelles appliquées sur des individus. Pour les variables qualitatives, elle permet de représenter la répartition des données via des histogrammes. Pour les variables quantitatives, elle permet de représenter l information (minimum, maximum et moyenne) via des diagrammes en boîte. Cette procédure fournit, dans un classeur Excel, l ensemble des statistiques élémentaires sur les variables nominales et continues. Le rapport obtenu constitue la «base statistique» de l enquête, à laquelle on pourra se référer à tout moment au cours de l exploitation statistique approfondie qui suivra. L objectif est de décrire la répartition des données variable par variable indépendamment du concept. Plusieurs types d analyses sont possibles à partir de STAT : Analyse des fréquences relatives pour les variables intervalles Analyse des capacités et min/max/mean pour les variables modales probabilistes. Analyse par biplot pour des variables intervalles IV Interprétation Fréquences relatives pour des variables intervalles Nous avons choisi d étudier plus en détail la variable : Duree En ce qui concerne le paramétrage de la variable Duree, la méthode choisie est de représenter les fréquences pour les intervalles. Nous avons retenu un découpage en trois classes. L application de la méthode STAT sur la variable Duree donne le résultat suivant : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 23
24 Analyse des résultats : La durée d une série nominée aux Golden Globes ou EMMY Awards, en moyenne, est de 35 minutes. La durée minimum étant de 22 minutes et la durée maximum de 50 minutes. Environ 73 % des séries ont une durée entre 22 et 42 minutes, et les 27% restants ont une durée comprise entre 42 et 50 minutes. Capacités et min/max/mean pour des variables modales probabilistes Nous nous sommes également intéressées à la variable nomchaineam, nous avons voulu visualiser les capacités, autrement dit l étendue des données : minimum, maximum et moyenne. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 24
25 L application de la méthode STAT sur la variable nomchaineam donne le résultat suivant : Il est possible de visualiser les données sous deux représentations graphiques: Soit par capacité, soit par représentation des probabilités min/max/mean. Visualisation en mode capacité : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 25
26 Visualisation en mode min/max/mean : Analyse des résultats : En ce qui concerne les diffusions des séries sur les chaînes américaines, nous remarquons que : - Les valeurs maximum obtenues sont pour les chaînes «HBO» et «NBC» puisqu elle obtiennent toutes les deux une valeur maximum de 50 %. Ceci signifie qu il existe au moins un concept dont la moitié des séries le composant sont diffusées sur «HBO» et au moins un autre concept dont la moitié des séries sont diffusées sur «NBC». - Les valeurs moyennes obtenues par les chaînes sont : 25% de l ensemble des séries nominées aux Golden Globes et EMMY Awards sont diffusées sur la chaîne «HBO». C est donc la chaîne ayant la plus grande influence sur les nominations. La chaîne «the WB» est celle la moins représentée dans les nominations puisqu elle n est présente qu à 1%. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 26
27 IV.3 - Méthode DIV IV Description de la méthode DIV est une méthode de classification hiérarchique. Au départ les concepts forment une unique partition. L algorithme procède par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l inertie. L objectif est de regrouper au sein d une même classe des concepts proches de par leurs caractéristiques. L algorithme s arrête après avoir effectué k-1 divisions, k étant le nombre de classes donné en entrée à la méthode par l utilisateur. Le listing disponible en sortie contient les informations suivantes : - une liste de la «variance» des variables quantitatives ou bien une liste des valeurs possibles pour les variables qualitatives, - pour chaque partition de 2 à k classes, une liste des objets contenus dans chaque classe ainsi que l inertie expliquée, et - l arbre de classification. IV Interprétation Pour cette méthode, nous avons conservé les douze concepts initialement présents. Nous avons appliqué la méthode selon deux classifications : Sur les variables qualitatives : Sur les variables quantitatives : - SexeActeur - nomchaineam - nomchainefr - duree - nbsaisons - nbacteursmasculins - nbacteursfeminins - TauxReussite - Mounia CHERRAD Anne-Sophie REGOTTAZ - 27
28 En ce qui concerne le paramétrage, il faut déterminer le nombre de clusters. Nous avons considéré qu il serait souhaitable de prendre la racine carrée supérieure du nombre de concepts, soit quatre classes, puisque nous avions douze concepts. L application de la méthode DIV sur les variables qualitatives donne le résultat suivant : BASE=C:\Program Files\DECISIA\SODAS version 2.0\Tmp\DF6M1R01.CMD nind=12 nvar=21 nvarsel=3 nvarcoup=3 METHOD=DIV ASSO VERSION=02 DATE=02/24/ THE SELECTED SPLIT-VARIABLES ARE : ( 3) :SexeActeur 1- M 2- F ( 11) :nomchaineam 1- Fox 2- CBS 3- Fx 4- HBO 5- NBC 6- USA Network 7- BBC America 8- ABC 9- The WB ( 13) :nomchainefr 1- Canal 2- TF1 3- Paris Premiere 4- Jimmy 5- F2 6- TPS Star 7- M6 8- Serie Club 9- Teva 10-13e rue 11- aucune 12- TF6 PARTITION IN 4 CLUSTERS : Cluster 1 (n=1) : Gagnant Golden serie Cluster 2 (n=4) : Nomine EMMY actrice Nomine Golden actrice Gagnant Golden actrice Gagnant EMMY actrice Cluster 3 (n=1) : Gagnant EMMY acteur Cluster 4 (n=6) : Nomine Golden acteur Nomine Golden serie Nomine EMMY serie Nomine EMMY acteur Gagnant EMMY serie Gagnant Golden acteur - Mounia CHERRAD Anne-Sophie REGOTTAZ - 28
29 Explicated inertia : Université Paris Dauphine Datamining - DESS ID- 2004/2005 THE CLUSTERING TREE : the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no Classe 1 (Ng=1)!! [nomchainefr = TF1 OR Canal]!!! Classe 4 (Nd=6)!! [nomchaineam = Fx]!!! Classe 3 (Nd=1)!! [SexeActeur = M]! Classe 2 (Nd=4) Analyse des résultats : On observe qu avec quatre clusters nous avons une inertie de 61,3 % avec les variables qualitatives. La première division se fait par rapport à la variable SexeActeur : - Si le sexe est masculin, de nouvelles divisions sont effectuées : - Si la série est diffusée sur la chaîne Fx, une nouvelle division est effectuée : - Si la série est diffusée sur les chaînes françaises «TF1» ou «Canal», alors nous obtenons la classe 1 composée du concept «Gagnant Golden serie». - Sinon si la série n est pas diffusée sur les chaînes françaises «TF1» ou «Canal», alors nous obtenons la classe 4, composée des concepts «Nomine Golden acteur, Nomine Golden serie», «Nomine EMMY serie», «Nomine EMMY acteur «, «Gagnant EMMY serie», «Gagnant Golden acteur». - Sinon si la série n est pas diffusée sur la chaîne américaine «Fx», alors nous obtenons la classe 3 composée du concept «Gagnant EMMY acteur». - Sinon si le sexe est féminin nous obtenons une classe indivisible : la classe 2 composée des 4 concepts «Nomine EMMY actrice», «Nomine Golden actrice», «Gagnant Golden actrice», «Gagnant EMMY actrice». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 29
Critères pour avoir la meilleure équipe!
PROJET DATAMINING Basket-ball professionnel "NBA" : Critères pour avoir la meilleure équipe! Réalisé par : Anasse LAHLOU KASSI Houssam Eddine HOUBAINE DESS TIO DESS ID Année Scolaire : SOMMAIRE INTRODUCTION...
Plus en détailDATA MINING - Analyses de données symboliques sur les restaurants
Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailProjet de Datamining Supervisé (SODAS) Analyse des régions françaises
Master 2 ème Année Ingénierie Statistique et financière Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Réalisé par : Nicolas CHAIGNEAUD Nora SLIMANI Année universitaire 2007-2008
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailIntroduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailUniversité Paris IX DAUPHINE DATE : 24/04/06
Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détail2 Serveurs OLAP et introduction au Data Mining
2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailUtiliser Access ou Excel pour gérer vos données
Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailBusiness Intelligence
avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................
Plus en détailWEBSELL. Projet DATAMINING
WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.
Plus en détailTechniques d interaction dans la visualisation de l information Séminaire DIVA
Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques
Plus en détailBIRT (Business Intelligence and Reporting Tools)
BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailSQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)
Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence
Plus en détailLa segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailAgenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Plus en détailStatistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Plus en détailLe langage SQL Rappels
Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,
Plus en détailRapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Plus en détailEXCEL et base de données
EXCEL et base de données 1. Variables et données 2. Saisie de données: quelques règles 3. EXCEL et saisie des données 4. Exemple de tableau EXCEL 5. Éviter d éventuels problèmes 1 1.1 Variables et données
Plus en détailTable des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction
PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS Depuis SAS 9.2 TS2M3, SAS propose un nouveau langage de programmation permettant de créer et gérer des tables SAS : le DS2 («Data Step 2»). Ces nouveautés
Plus en détailEncryptions, compression et partitionnement des données
Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des
Plus en détailComment créer un diagramme de Gantt avec OpenOffice.org
Comment créer un diagramme de Gantt avec OpenOffice.org Version 1.9 du 05.05.2005 Réalisé avec : OOo 2.0 Plate-forme / Os : Toutes Distribué par le projet Sommaire 1 Une rapide introduction : Diagramme
Plus en détailLa place de SAS dans l'informatique décisionnelle
La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie
Plus en détailMaster Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA
Master Exploration Informatique des données Data Mining & Business Intelligence Groupe 5 Piotr BENSALEM Ahmed BENSI Evelyne CHARIFOU Priscillia CASSANDRA Enseignant Françoise FOGELMAN Nicolas DULIAN SOMMAIRE
Plus en détailIBM SPSS Direct Marketing
IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus
Plus en détailDidacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).
1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence
Plus en détailGrégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.
Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans
Plus en détailMémo d utilisation de ADE-4
Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose
Plus en détailSélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Plus en détailBusiness Intelligence avec Excel, Power BI et Office 365
Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10
Plus en détailJade. Projet Intelligence Artificielle «Devine à quoi je pense»
Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges
Plus en détailTravailler avec les télécommunications
Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la
Plus en détailLES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailCréer le schéma relationnel d une base de données ACCESS
Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...
Plus en détailJean-François Boulicaut & Mohand-Saïd Hacid
e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205
Plus en détailIntroduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
Plus en détailPRODIGE V3. Manuel utilisateurs. Consultation des métadonnées
PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.
Plus en détailFORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
Plus en détailMagasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)
Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant
Plus en détailAnalyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Plus en détailLamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013
Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,
Plus en détailWhitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services
Ce Whitepaper décrit la méthodologie de développement d un rapport personnalisé au format SQL Server Reporting Service (SSRS) appliqué à System Center Operations Manager (SCOM) Whitepaper Méthodologie
Plus en détailTUTORIAL REUTERS. Utilisation de l'utilitaire de recherche Reuters
TUTORIAL REUTERS Connexion à Reuters Allez sur https://portal.hpd.global.reuters.com/auth/login.aspx Le login est reut@ensimag.imag.fr, =1 à 5, le et le mot de passe étant ceux qui vous ont été
Plus en détailIntroduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours
Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP
Plus en détailComment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie
Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailBASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :
BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les
Plus en détailBases de données. Chapitre 1. Introduction
Références : Bases de données Pierre Wolper Email : pw@montefiore.ulg.ac.be URL : http : //www.montefiore.ulg.ac.be/~pw/ http : //www.montefiore.ulg.ac.be/ ~pw/cours/bd.html Henry F. Korth, Abraham Silberschatz,
Plus en détailGestion des données avec R
Gestion des données avec R Christophe Lalanne & Bruno Falissard Table des matières 1 Introduction 1 2 Importation de fichiers CSV 1 2.1 Structure du fichier de données...................................
Plus en détailTHOT - Extraction de données et de schémas d un SGBD
THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailEPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE
EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE QCM Remarque : - A une question correspond au moins 1 réponse juste - Cocher la ou les bonnes réponses Barème : - Une bonne réponse = +1 - Pas de réponse = 0
Plus en détailChanger la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.
SAS, Cognos, Stata, Eviews, conseil, expertise, formation, mining, datamining, statistique, connaissance Changer la source d'une requête dans SAS Enterprise Guide client, valeur client, CRM, fidélisation,
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab
ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab notre compétence d'éditeur à votre service créée en juin 2010, Scilab enterprises propose services et support autour
Plus en détailSéries Statistiques Simples
1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &
Plus en détailFournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement
Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailDossier I Découverte de Base d Open Office
ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire
Plus en détailEntrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Plus en détailManipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner
Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation
Plus en détailInitiation à Excel. Frédéric Gava (MCF) gava@univ-paris12.fr
Initiation à Excel Frédéric Gava (MCF) gava@univ-paris12.fr LACL, bâtiment P2 du CMC, bureau 221 Université de Paris XII Val-de-Marne 61 avenue du Général de Gaulle 94010 Créteil cedex Plan de cette année
Plus en détail8. Gestionnaire de budgets
8. Gestionnaire de budgets 8.1 Introduction Le Gestionnaire de budgets (Budget Workbench) permet aux utilisateurs de travailler sur les données budgétaires qu ils ont importées sur leur station de travail
Plus en détailComment consolider des données
Comment consolider des données Version 0.02 du 18.11.2004 Réalisé avec : OOo 1.1.3 Plate-forme / Os : Toutes Distribué par le projet fr.openoffice.org Sommaire 1 Introduction...3 2 Création des données...4
Plus en détailLire ; Compter ; Tester... avec R
Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................
Plus en détailLe scoring est-il la nouvelle révolution du microcrédit?
Retour au sommaire Le scoring est-il la nouvelle révolution du microcrédit? BIM n 32-01 octobre 2002 Frédéric DE SOUSA-SANTOS Le BIM de cette semaine se propose de vous présenter un ouvrage de Mark Schreiner
Plus en détailclef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE
Cas Neptune hôtel Base de données et langage SQL Propriété Intitulé long Formation concernée Matière Notions Transversalité Présentation Description Neptune Hôtel. L interrogation d une base de données
Plus en détailChapitre 1 : Introduction aux bases de données
Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données
Plus en détailSybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. www.sybase.fr/poweramc DOCUMENTATION
Sybase PowerAMC 16 Guide des nouvelles fonctionnalités générales DOCUMENTATION 2 2 www.sybase.fr/poweramc A propos de PowerAMC 16 PowerAMC est une solution de modélisation d'entreprise graphique qui prend
Plus en détailSAP BusinessObjects Web Intelligence (WebI) BI 4
Présentation de la Business Intelligence 1. Outils de Business Intelligence 15 2. Historique des logiciels décisionnels 16 3. La suite de logiciels SAP BusinessObjects Business Intelligence Platform 18
Plus en détailLes algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Plus en détailIntroduction aux SGBDR
1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux
Plus en détailCOURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES
COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée
Plus en détailDidier MOUNIEN Samantha MOINEAUX
Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?
Plus en détailIODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21
IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances
Plus en détailExploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services
Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services Nous verrons dans cet article comment exploiter simplement les données de Log de SQL Server 2008 R2 Reporting Services
Plus en détailLangage SQL : créer et interroger une base
Langage SQL : créer et interroger une base Dans ce chapitre, nous revenons sur les principales requêtes de création de table et d accès aux données. Nous verrons aussi quelques fonctions d agrégation (MAX,
Plus en détailBusiness Intelligence avec SQL Server 2012
Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Table des matières Les éléments à télécharger sont disponibles
Plus en détailComment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris
Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris Diffusé par Le Projet Documentation OpenOffice.org Table des matières 1. Définir les plages...3 2. Sélectionner une plage...4
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détail2014/2015. Rapport 4 REALISE PAR : ISMAIL NAIT ABDELLAH OUALI SOUFIANE HOURRI MOHAMED OUSSAFI ENCADRE PAR : MME L.LAMRINI ANOUAR OUFQIR SMARTSIR
2014/2015 Rapport 4 REALISE PAR : ISMAIL NAIT ABDELLAH OUALI SOUFIANE HOURRI MOHAMED OUSSAFI ENCADRE PAR : ANOUAR OUFQIR MME L.LAMRINI SMARTSIR Table des matières Introduction... 2 Choix de l outil pour
Plus en détailLe disque dur. Le disque dur est l'organe servant à conserver les données sous forme de dossiers de manière permanente.
Le disque dur Le disque dur est l'organe servant à conserver les données sous forme de dossiers de manière permanente. Le disque dur Le partitionnement d'un disque dur. Il consiste à créer des zones sur
Plus en détailMyReport, une gamme complète. La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! pour piloter votre activité au quotidien.
MyReportle reporting sous excel La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! MyReport, une gamme complète pour piloter votre activité au quotidien. En rendant les données
Plus en détailCours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions
Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental
Plus en détailTraitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Plus en détail