Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars Mr E.

Dimension: px
Commencer à balayer dès la page:

Download "Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E."

Transcription

1 Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ

2 Sommaire Introduction... 3 I - Etat de l art du Datamining et de Sodas... 4 I.1 - Le datamining... 4 I.2 - Logiciel Sodas... 6 II - Problématique choisie et ensemble de données... 7 II.1 - Problématique choisie... 7 II.2 - Base de données relationnelle... 7 II.3 - Individus et concepts... 9 III - Requêtes III.1 - Requête principale III.2 - Requête AddSingle III.3 - Requête Taxonomie III.4 - Extraction sous DB2SO IV - Analyses sur SODAS IV.1 - Méthode VIEW IV.2 - Méthode STAT IV.3 - Méthode DIV IV.4 - Méthode SPCA IV.5 - Méthode HIPYR IV.6 - Méthode TREE IV.7 - Méthode SYKSOM Pépites Mounia CHERRAD Anne-Sophie REGOTTAZ - 2

3 Introduction Université Paris Dauphine Datamining - DESS ID- 2004/2005 Dans le cadre du cours de Datamining dispensé en DESS Informatique Décisionnelle à Dauphine, nous étions en charge de réaliser une fouille de données symboliques. Nous avons choisi le domaine des séries télévisées, celles-ci étant nominées et récompensées tous les ans par les cérémonies de Golden Globes et EMMY Awards. Nous nous intéresserons plus précisément aux critères de nomination et au fait qu une série gagne ou non. Pour ce faire nous avons créé une Base de données et nous l avons exploitée à l aide du logiciel de d analyse de données symbolique : SODAS. Dans ce document, vous trouverez tout d abord une présentation du Datamining, ensuite la description des données sources de l étude, puis la manière dont les requêtes ont été extraites de la Base de données, et enfin vous trouverez l analyse complète que nous avons réalisée avec les différentes méthodes proposées par SODAS. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 3

4 I - Etat de l art du Datamining et de Sodas I.1 - Le datamining I.1.1 Définition À l'origine, le datamining était en deux mots : le «Data Mining». Il constitue l ensemble des techniques permettant d'aller puiser des informations pertinentes dans les montagnes de données stockées ces dernières décennies dans les entreprises (Datawarehouses). Il consiste à «trouver des diamants dans un tas de charbon sans se salir les doigts». L exploration des données, aussi connue sous les noms «fouille de données» et «data mining», a pour objet l'extraction du savoir implicite à de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. I Outils utilisés Il existe de nombreux produits commerciaux vendus pour le datamining. Selon le site «Ultra-Fluide.com», les points forts supposés des logiciels commerciaux (interface, documentation, support) ne compensent pas certains inconvénients relatifs notamment aux coûts ou au code propriétaire. Les logiciels commerciaux disposent également bien souvent de budgets spécifiques visant à les faire connaître. Ils conseillent donc des produits open source, que nous allons vous présenter ci-dessous : R-projet : R est un langage et une infrastructure spécialisés pour les traitements statistiques. R est l'un des nombreux projets GNU distribué sous licence GPL (logiciel libre). R est écrit en langage compilé (principalement en C), ce qui autorise de bonnes performances. La qualité de cet environnement et son ouverture ont permis à une myriade de théoriciens, statisticiens et informaticiens de compléter cette plate-forme d'un nombre impressionnant de fonctionnalités. Des dizaines de packages offrant des milliers de fonctions en font probablement la plate-forme la plus complète. Ce n'est cependant pas l'outil le plus simple d'abord. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 4

5 Scilab et Mixmod : Scilab est un langage et une infrastructure spécialisés pour les traitements mathématiques numériques et la modélisation. Scilab est un projet de l'inria et de l'ecole Nationale des Ponts et Chaussées. Sa licence autorise une utilisation gratuite ainsi que la modification des sources. Scilab supporte un spectre très large d'applications, et de nombreuses contributions sont opérationnelles sur cette plate-forme. Mixmod est une contribution de l'inria, du Laboratoire de Mathématique de Besançon et du Laboratoire Heudiasys de Compiègne qui fonctionne sur Scilab. Mixmod propose des fonctionnalités de clustering (analyse discriminante et maximum de vraisemblance). Mixmod est relativement simple d'utilisation et s'avère adapté pour un volume raisonnable de données. Autoclass-c : C est un logiciel spécialisé dans le clustering (analyse discriminante et maximum de vraisemblance). Il a été développé par un laboratoire de la NASA et est disponible dans le domaine public. Autoclass-c est un outil performant écrit en C qui n'a plus évolué depuis Le datamining est également utilisé dans des sociétés, comme BusinessDecision. Les outils qu ils utilisent sont : SAS, SLP, SPSS, IBM, KXEN I Applications Le Datamining est de plus en plus utilisé par les entreprises. On retrouve notamment : Les services publics dans la lutte anti-fraude : La faible rentabilité de certains impôts est, dans de nombreux cas, expliquée par la fraude fiscale, fraude fiscale difficilement endiguée à cause d énorme moyens humains et financiers qu elle nécessite. Fujitsu Consulting a mis en place une méthode de scoring permettant de détecter les fraudeurs. La méthode utilisée s appuie sur les méthodes de Datawarehousing et de datamining : on récupère des données de plusieurs services (fraudes, fisc) et on estime la corrélation entre les différentes variables et la probabilité de frauder. Cette méthode sembla avoir donné des résultats au Québec, Fujitsu vise aujourd hui le marché européen - Mounia CHERRAD Anne-Sophie REGOTTAZ - 5

6 L industrie du disque : Aujourd hui, l industrie du disque se met tout doucement au datamining. Deux constats ont encouragé cette évolution : d abord, le fait que la quasi-totalité des fans d un groupe ne savent pas quand le dernier disque de leurs idoles est sorti et ensuite parce que cette approche «Marketing Quantitatif» était relativement absent des préoccupations du monde de la musique. Les nouvelles technologies de l information et la multitude de solutions logicielles laissent ouvert un vaste champ d application du datamining dans l industrie du disque. I.2 - Logiciel Sodas SODAS est un outil public d analyse de données symboliques. Il est disponible à l adresse : Il est issu du projet de EUROSTAT appelé SODAS. L idée générale de ce projet est de construire, à partir d'une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles et de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données sur des individus et d analyser ensuite ce tableau, par des méthodes d'analyse de données symboliques, pour en extraire des connaissances. Le tableau contient alors des données symboliques dont les individus correspondent aux concepts décrits par généralisation des propriétés des individus de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques selon le type de variables et le choix de l'utilisateur. Il est possible de créer un fichier d'objets symboliques sur lequel des méthodes d'analyse de données symboliques peuvent s'appliquer au sein du logiciel SODAS (histogrammes des variables symboliques comme STAT, classification automatique comme DIV, HIPYR, analyse factorielle comme SPCA, analyse discriminante comme TREE, visualisations graphiques VIEW,...). - Mounia CHERRAD Anne-Sophie REGOTTAZ - 6

7 II - Problématique choisie et ensemble de données II.1 - Problématique choisie Nous avons choisi d analyser les séries télévisées nominées aux Golden Globes et EMMY Awards en 2003 et Nous nous sommes intéressées à trois types de récompense : meilleure série, meilleur acteur, meilleure actrice, dans un genre donné c'est-à-dire dramatique ou comique. Nous voulons connaître les facteurs déterminant le fait qu une série gagne une récompense. Nous aimerions également trouver les critères de sélection pour les nominations d une série aux Golden Globes ou EMMY Awards. Ainsi nous avons cherché plusieurs renseignements sur ces séries. Pour ce faire nous avons créé une nouvelle base de données sous Access, puis nous l avons entièrement remplie avec les différents champs qui nous semblaient importants. Les sites web qui nous ont servi pour remplir cette base sont : Site pour les nominés : Site pour les gagnants : II.2 - Base de données relationnelle La base de données que nous avons conçue manuellement sous Access est «SeriesNomineesOscars.mdb». Elle se compose de 14 tables dont les deux principales sont «Serie» et «Nomination». Elle comporte 121 enregistrements dans la table «Nomination», 37 dans la table «Serie», 21 dans la table «ActricePrincipale» et 27 dans la table «ActeurPrincipal». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 7

8 Vous trouverez ci-dessous le schéma relationnel de la base : Table CATEGORIE AWARD : Le champs «nomcategorie» prend les valeurs : Serie, Acteur ou Actrice. Le champs «nomaward» prend les valeurs : Golden ou EMMY. Table NOMINATION : La table Nomination contient toutes les nominations des séries, acteurs et actrices, dans les catégories comique et dramatique pour les Golden Globes et EMMY Awards 2003 et En règle générale, le nombre de nominés pour chaque catégorie de récompense est de cinq. Le champ booléen «gagnante» désigne les séries, acteurs et actrices gagnants. Le champ «nbsaisons» car celui-ci varie suivant le champ «anneenomination» qui se trouve dans cette table. Table ACTEUR PRINCIPAL et ACTRICE PRINCIPALE : Ces tables contiennent les noms, prénoms, âges de chaque acteur. Le champ «idnationalite» référence le lieu, Pays et Continent d origine de ces acteurs, le lieu étant leur ville de naissance. Table REALISATEUR : Dans le cas où la série a été réalisée par deux réalisateurs de sexe opposés alors le champ sexe prend la valeur mixte. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 8

9 Table SERIE : Université Paris Dauphine Datamining - DESS ID- 2004/2005 Une série se décrit par son libellé, son genre, sa cible, sa durée, son réalisateur, ses chaînes et dates de première diffusion en Amérique et France, son nombre d acteurs masculin et féminin, son nombre de nominations et son nombre d awards gagnés, ainsi que par : Les champs «idacteurprincipal» et «idactriceprincipale»: qui référencent les tables «ActeurPrincipal» et «ActricePrincipale». Pour chaque série, nous avons considéré l acteur (et/ou actrice) ayant été nominé aux oscars même s il n était pas l acteur principal. Dans le cas où une série était nominée et aucun de ses acteurs ne l était, nous avons stocké l acteur (ou l actrice) principal. Si un seul acteur (ou actrice) est référencé alors l autre référence à l acteur sera égale à 1 ; cette référence correspond à aucun acteur. II.3 - Individus et concepts Individus : Nos individus sont les nominés aux Golden Globes et EMMY Awards 2003 et On entend par nominés, les acteurs, actrices ou séries télévisées dans les catégories comique ou dramatique. Nous avons 121 individus. Concepts : Nous avons choisi de grouper les individus en deux parties : «Gagnant» et «Perdant» (ici appelé Nomine) ; puis en trois catégories de récompense : «Acteur», «Actrice», «Serie» ; et enfin en deux types de récompense : Golden Globes ou EMMY Awards. Les concepts sont : Gagnant EMMY Acteur Gagnant EMMY Actrice Gagnant EMMY Serie Nomine EMMY Acteur Nomine EMMY Actrice Nomine EMMY Serie Gagnant Golden Acteur Gagnant Golden Actrice Gagnant Golden Serie Nomine Golden Acteur Nomine Golden Actrice Nomine Golden Serie Cette répartition des individus nous permettra, lors de nos analyses, de trouver les différences entre les caractéristiques des gagnants et des perdants de chaque type de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 9

10 III - Requêtes Université Paris Dauphine Datamining - DESS ID- 2004/2005 III.1 - Requête principale La requête principale sur Access se nomme : «RequetePrincipaleGagnantPerdant». La représentation un concept se fait à l aide du croisement des 3 variables suivantes : «Gagnante» dans la table Nomination. Si gagnant vaut 0 alors ce champ prend la valeur Nomine, sinon il prend la valeur Gagnant. «nomaward» dans la table CategorieAward «nomcategorie» dans la table CategorieAward Les valeurs des champs «nomnomine», «SexeActeur», «AgeActeur» et «OrigineActeur» dépendent de la catégorie de récompense. Nous avons donc utilisé la fonction IIf(condition, true, false) pour attribuer les valeurs suivant cette règle : Si la catégorie est 1 ou 4, alors c est une série ; dans ce cas nous récupérons le libellé de la série et les caractéristiques de l acteur principal. Si la catégorie est 2 ou 5, alors c est un acteur ; dans ce cas nous récupérons le nom de l acteur et ses caractéristiques. Si la catégorie est 3 ou 6, alors c est une actrice ; dans ce cas nous récupérons le nom de l actrice et ses caractéristiques. Le champ «tauxreussite» nous permet de mesurer le ratio entre le nombre de récompenses gagnées par l individu par rapport au nombre de fois qu il a été nominé. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La seconde colonne contenant le nom du concept. SELECT Nomination.idNomination, IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie AS Concept, Serie.libelleSerie, - Mounia CHERRAD Anne-Sophie REGOTTAZ - 10

11 IIf(Nomination.idCategorie=1,Serie.libelleSerie, IIf(Nomination.idCategorie=2,ActeurPrincipal.prenom+" "+ActeurPrincipal.nom, IIf(Nomination.idCategorie=3,ActricePrincipale.prenom+" "+ActricePrincipale.nom, IIf(Nomination.idCategorie=4,Serie.libelleSerie, IIf(Nomination.idCategorie=5,ActeurPrincipal.prenom+" "+ActeurPrincipal.nom, AS NomNomine, ActricePrincipale.prenom+" "+ActricePrincipale.nom)))) ) IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,"F","M"), IIf(Nomination.idCategorie=2,"M", IIf(Nomination.idCategorie=3,"F", IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,"F","M"), IIf(Nomination.idCategorie=5,"M","F"))))) AS SexeActeur, IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,ActricePrincipale.age,ActeurPrincipal.age), IIf(Nomination.idCategorie=2,ActeurPrincipal.age, IIf(Nomination.idCategorie=3,ActricePrincipale.age, IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,ActricePrincipale.age, ActeurPrincipal.age), IIf(Nomination.idCategorie=5,ActeurPrincipal.age,ActricePrincipale.age))))) AS AgeActeur, IIf(Nomination.idCategorie=1,IIf(Serie.idActeurPrincipal=1,LieuActrice.ville,LieuActeur.ville), IIf(Nomination.idCategorie=2,LieuActeur.ville, IIf(Nomination.idCategorie=3,LieuActrice.ville, IIf(Nomination.idCategorie=4,IIf(Serie.idActeurPrincipal=1,LieuActrice.ville,LieuActeur.ville), IIf(Nomination.idCategorie=5,LieuActeur.ville,LieuActrice.ville))))) AS OrigineActeur, Serie.duree, Nomination.nbSaisons, Serie.nbActeursMasculins, Serie.nbActeursFeminins, Realisateur.nom AS nomrealisateur, ChaineAmericaine.nomChaineAm, - Mounia CHERRAD Anne-Sophie REGOTTAZ - 11

12 Year(Serie.datePremiereDiffAm) AS AnneeDiffAm, ChaineFrancaise.nomChaineFr, IIf(Year(Serie.datePremiereDiffFr)=3000,2006,Year(Serie.datePremiereDiffFr)) AS AnneeDiffFr, Nomination.anneeNomination, (Round((Serie.nbAwardsGagnes/Serie.nbNominations),3)*100) AS TauxReussite FROM LieuActrice INNER JOIN (LieuActeur INNER JOIN ( (Realisateur INNER JOIN (ChaineFrancaise INNER JOIN ( ChaineAmericaine INNER JOIN (ActricePrincipale INNER JOIN (ActeurPrincipal INNER JOIN Serie ON ActeurPrincipal.idActeur=Serie.idActeurPrincipal) ON ActricePrincipale.idActrice=Serie.idActricePrincipale) ON ChaineAmericaine.idChaineAm=Serie.idChaineDiffusionAm) ON ChaineFrancaise.idChaineFr=Serie.idChaineDiffusionFr) ON Realisateur.idRealisateur=Serie.idRealisateur) INNER JOIN (CategorieAward INNER JOIN Nomination ON CategorieAward.idCategorie=Nomination.idCategorie) ON Serie.idSerie=Nomination.idSerie) ON LieuActeur.idLieu=ActeurPrincipal.idNationalite) ON LieuActrice.idLieu=ActricePrincipale.idNationalite; Voici un extrait de la feuille de données de la requête principale : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 12

13 III.2 - Requête AddSingle La requête addsingle sur Access se nomme : «AddSingleGagnantPerdant». Elle permet d apporter des informations complémentaires sur chacun des 12 concepts. Il s agit de calculer la durée moyenne des séries ainsi que le nombre moyen d actrices, d acteurs, de saisons et de nominations des individus de chaque concept. La dernière variable étant «Resultat» qui permet de préciser si les individus du concept ont gagnés ou non la récompense. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La première colonne contenant le nom du concept. SELECT IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie AS Concept, Round(Avg(Serie.nbActeursFeminins),1) AS NbActricesMoy, Round(Avg(Serie.nbActeursMasculins),1) AS NbActeursMoy, Round(Avg(Nomination.nbSaisons),1) AS NbSaisonsMoy, Round(Avg(Serie.duree),1) AS DureeMoy, Round(Avg(Serie.nbNominations),1) AS NbNominationsMoy, IIf(Nomination.gagnante<>0,"Gagnant","Perdant") AS Resultat FROM Serie INNER JOIN (CategorieAward INNER JOIN Nomination ON CategorieAward.idCategorie=Nomination.idCategorie ) ON Serie.idSerie=Nomination.idSerie GROUP BY IIf(Nomination.gagnante<>0,"Gagnant","Nomine")+" "+CategorieAward.nomAward+" "+CategorieAward.nomCategorie, IIf(Nomination.gagnante<>0,"Gagnant","Perdant"); - Mounia CHERRAD Anne-Sophie REGOTTAZ - 13

14 Voici un extrait de la feuille de données de la requête addsingle : III.3 - Requête Taxonomie La requête des taxonomies sur Access se nomme : «TaxonomieVillePays». Cette requête permet de définir les correspondances entre les variables ville et pays utilisées dans les lieu de naissance des acteurs. Vous trouverez ci-dessous le script SQL de la requête avec en gras les noms des champs. La première colonne contenant les villes et la seconde leur pays respectifs. SELECT LieuActeur.ville AS Ville, PaysActeur.pays AS Pays FROM PaysActeur INNER JOIN LieuActeur ON PaysActeur.idPays=LieuActeur.idPays GROUP BY LieuActeur.ville, PaysActeur.pays; - Mounia CHERRAD Anne-Sophie REGOTTAZ - 14

15 Voici un extrait de la feuille de données de la requête Taxonomie : III.4 - Extraction sous DB2SO Nous allons présenter dans cette partie les différentes étapes de manipulation de SODAS et de DB2SO pour l extraction et le traitement des données. Importation de DB2SO : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 15

16 Création de la source de données : Sélection des données de la requête Principale : Ajout des données de la requête AddSingle : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 16

17 Ajout des données de la requête Taxonomie : Export et visualisation des données extraites : Après avoir passé toutes ces étapes, il convient d appliquer les diverses méthodes d analyse de données symboliques que propose SODAS sur le chaining. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 17

18 IV - Analyses sur SODAS Dans cette partie, nous allons présenter les méthodes statistiques que nous avons appliquées à l ensemble de données. Pour chaque méthode, nous rappellerons tout d abord les principes, puis nous analyserons les résultats obtenus. IV.1 - Méthode VIEW IV Description de la méthode L objectif de la méthode VIEW est de fournir une image synthétique du concept et de comparer les concepts entre eux. Le module SOEditor permet de visualiser le contenu du tableau de données symboliques : les concepts et les variables qui le décrivent. La méthode SOE permet de représenter graphiquement en deux ou trois dimensions les concepts du tableau : c est ce qui s appelle l étoile zoom. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 18

19 Il existe deux types de variables : les variables quantitatives (mesurables, continues ou discrètes) et les variables qualitatives (ordinales, nominales ). Pour les variables qualitatives, leur représentation se fait grâce à des diagrammes en barres. Pour les variables quantitatives, elle se fera par des intervalles de valeurs. Les représentations en étoiles zoom sont parfois un peu trop condensées, il est toujours possible de visualiser un troisième type de représentation, pour un axe donné, sous forme d histogrammes verticaux ou horizontaux IV Interprétation Après avoir exécuté la méthode VIEW, nous avons pu visualiser les données sur SOEditor et nous avons extrait les pépites que vous trouverez ci-dessous. Nous avons comparé les concepts deux à deux. Nous avons pu remarquer les différences établies entre les EMMY Awards et les Golden Globes sur une même catégorie de récompense (Série, Acteur, Actrice). Au sein d un même type de récompense (Golden ou EMMY), nous avons comparé les différences établies entre les gagnants et les perdants. Comparaison Séries Nominées Golden et Séries Nominées EMMY: Analyse des résultats : Nous constatons que : - Les Golden Globes nominent des séries de moins de 7 ans. - Les séries nominées aux EMMY Awards sont plus anciennes (entre 2 et 10 ans) et leurs acteurs principaux sont plus âgés (le plus jeune ayant 37 ans). - Le taux de réussite pour les séries nominées aux Golden reflète des nominations plus appropriées puisqu elles obtiennent jusqu à 50% de taux de réussite. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 19

20 Comparaison Séries Nominés Golden et Séries Gagnantes Golden Analyse des résultats : Les séries qui ont gagné aux Golden Globes sont celles qui ont : - un nombre de saisons peu élevé (compris entre 1 et 3 ans) - au moins 3 acteurs masculins mais qui n excèdent pas 6. - un acteur principal âgé entre 36 et 43 ans. L âge est donc très restrictif pour déterminer les séries gagnantes aux Golden Globes. - été diffusées sur des chaînes très peu nominées. Les séries de «HBO» et «NBC», pourtant les plus nominées, n ont pas remporté de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 20

21 Comparaison Acteurs Nominés Golden et Acteur Gagnants Golden Analyse des résultats : Les acteurs ayant gagné aux Golden Globes en 2003 et 2004 ont tous joué dans des séries ayant exactement un nombre de saisons égal à 2. Nous remarquons également que les acteurs gagnants sont entourés de trois femmes au maximum, alors que parmi les nominés nous pouvions trouver jusqu à 10 actrices ; et sont entourés de trois hommes au minimum. Les séries de «Fx» et «NBC», pourtant celles dont les acteurs sont les plus nominés, n ont pas remporté de récompense. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 21

22 Comparaison Actrices Nominées EMMY et Actrices Gagnantes EMMY : Analyse des résultats : Les actrices ayant gagné aux EMMY Awards en 2003 et 2004 sont âgées de 36 à 44 ans et jouent dans des séries de 4 à 6 ans diffusées seulement sur «HBO» et «NBC». Ces trois résultats sont extrêmement restrictifs à la vue des actrices qui avaient été nominées. Comparaison Actrices Nominées Golden et Actrices Nominées EMMY : Analyse des résultats : Nous remarquons que les nominations des actrices aux Golden Globes correspondent à des séries diffusées en France par les chaînes «TF1» et «Teva», alors que les nominations des actrices aux EMMY Awards correspondent à des séries essentiellement diffusées sur «M6». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 22

23 IV.2 - Méthode STAT IV Description de la méthode Cette méthode étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. Elle ressemble aux méthodes statistiques traditionnelles appliquées sur des individus. Pour les variables qualitatives, elle permet de représenter la répartition des données via des histogrammes. Pour les variables quantitatives, elle permet de représenter l information (minimum, maximum et moyenne) via des diagrammes en boîte. Cette procédure fournit, dans un classeur Excel, l ensemble des statistiques élémentaires sur les variables nominales et continues. Le rapport obtenu constitue la «base statistique» de l enquête, à laquelle on pourra se référer à tout moment au cours de l exploitation statistique approfondie qui suivra. L objectif est de décrire la répartition des données variable par variable indépendamment du concept. Plusieurs types d analyses sont possibles à partir de STAT : Analyse des fréquences relatives pour les variables intervalles Analyse des capacités et min/max/mean pour les variables modales probabilistes. Analyse par biplot pour des variables intervalles IV Interprétation Fréquences relatives pour des variables intervalles Nous avons choisi d étudier plus en détail la variable : Duree En ce qui concerne le paramétrage de la variable Duree, la méthode choisie est de représenter les fréquences pour les intervalles. Nous avons retenu un découpage en trois classes. L application de la méthode STAT sur la variable Duree donne le résultat suivant : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 23

24 Analyse des résultats : La durée d une série nominée aux Golden Globes ou EMMY Awards, en moyenne, est de 35 minutes. La durée minimum étant de 22 minutes et la durée maximum de 50 minutes. Environ 73 % des séries ont une durée entre 22 et 42 minutes, et les 27% restants ont une durée comprise entre 42 et 50 minutes. Capacités et min/max/mean pour des variables modales probabilistes Nous nous sommes également intéressées à la variable nomchaineam, nous avons voulu visualiser les capacités, autrement dit l étendue des données : minimum, maximum et moyenne. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 24

25 L application de la méthode STAT sur la variable nomchaineam donne le résultat suivant : Il est possible de visualiser les données sous deux représentations graphiques: Soit par capacité, soit par représentation des probabilités min/max/mean. Visualisation en mode capacité : - Mounia CHERRAD Anne-Sophie REGOTTAZ - 25

26 Visualisation en mode min/max/mean : Analyse des résultats : En ce qui concerne les diffusions des séries sur les chaînes américaines, nous remarquons que : - Les valeurs maximum obtenues sont pour les chaînes «HBO» et «NBC» puisqu elle obtiennent toutes les deux une valeur maximum de 50 %. Ceci signifie qu il existe au moins un concept dont la moitié des séries le composant sont diffusées sur «HBO» et au moins un autre concept dont la moitié des séries sont diffusées sur «NBC». - Les valeurs moyennes obtenues par les chaînes sont : 25% de l ensemble des séries nominées aux Golden Globes et EMMY Awards sont diffusées sur la chaîne «HBO». C est donc la chaîne ayant la plus grande influence sur les nominations. La chaîne «the WB» est celle la moins représentée dans les nominations puisqu elle n est présente qu à 1%. - Mounia CHERRAD Anne-Sophie REGOTTAZ - 26

27 IV.3 - Méthode DIV IV Description de la méthode DIV est une méthode de classification hiérarchique. Au départ les concepts forment une unique partition. L algorithme procède par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l inertie. L objectif est de regrouper au sein d une même classe des concepts proches de par leurs caractéristiques. L algorithme s arrête après avoir effectué k-1 divisions, k étant le nombre de classes donné en entrée à la méthode par l utilisateur. Le listing disponible en sortie contient les informations suivantes : - une liste de la «variance» des variables quantitatives ou bien une liste des valeurs possibles pour les variables qualitatives, - pour chaque partition de 2 à k classes, une liste des objets contenus dans chaque classe ainsi que l inertie expliquée, et - l arbre de classification. IV Interprétation Pour cette méthode, nous avons conservé les douze concepts initialement présents. Nous avons appliqué la méthode selon deux classifications : Sur les variables qualitatives : Sur les variables quantitatives : - SexeActeur - nomchaineam - nomchainefr - duree - nbsaisons - nbacteursmasculins - nbacteursfeminins - TauxReussite - Mounia CHERRAD Anne-Sophie REGOTTAZ - 27

28 En ce qui concerne le paramétrage, il faut déterminer le nombre de clusters. Nous avons considéré qu il serait souhaitable de prendre la racine carrée supérieure du nombre de concepts, soit quatre classes, puisque nous avions douze concepts. L application de la méthode DIV sur les variables qualitatives donne le résultat suivant : BASE=C:\Program Files\DECISIA\SODAS version 2.0\Tmp\DF6M1R01.CMD nind=12 nvar=21 nvarsel=3 nvarcoup=3 METHOD=DIV ASSO VERSION=02 DATE=02/24/ THE SELECTED SPLIT-VARIABLES ARE : ( 3) :SexeActeur 1- M 2- F ( 11) :nomchaineam 1- Fox 2- CBS 3- Fx 4- HBO 5- NBC 6- USA Network 7- BBC America 8- ABC 9- The WB ( 13) :nomchainefr 1- Canal 2- TF1 3- Paris Premiere 4- Jimmy 5- F2 6- TPS Star 7- M6 8- Serie Club 9- Teva 10-13e rue 11- aucune 12- TF6 PARTITION IN 4 CLUSTERS : Cluster 1 (n=1) : Gagnant Golden serie Cluster 2 (n=4) : Nomine EMMY actrice Nomine Golden actrice Gagnant Golden actrice Gagnant EMMY actrice Cluster 3 (n=1) : Gagnant EMMY acteur Cluster 4 (n=6) : Nomine Golden acteur Nomine Golden serie Nomine EMMY serie Nomine EMMY acteur Gagnant EMMY serie Gagnant Golden acteur - Mounia CHERRAD Anne-Sophie REGOTTAZ - 28

29 Explicated inertia : Université Paris Dauphine Datamining - DESS ID- 2004/2005 THE CLUSTERING TREE : the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no Classe 1 (Ng=1)!! [nomchainefr = TF1 OR Canal]!!! Classe 4 (Nd=6)!! [nomchaineam = Fx]!!! Classe 3 (Nd=1)!! [SexeActeur = M]! Classe 2 (Nd=4) Analyse des résultats : On observe qu avec quatre clusters nous avons une inertie de 61,3 % avec les variables qualitatives. La première division se fait par rapport à la variable SexeActeur : - Si le sexe est masculin, de nouvelles divisions sont effectuées : - Si la série est diffusée sur la chaîne Fx, une nouvelle division est effectuée : - Si la série est diffusée sur les chaînes françaises «TF1» ou «Canal», alors nous obtenons la classe 1 composée du concept «Gagnant Golden serie». - Sinon si la série n est pas diffusée sur les chaînes françaises «TF1» ou «Canal», alors nous obtenons la classe 4, composée des concepts «Nomine Golden acteur, Nomine Golden serie», «Nomine EMMY serie», «Nomine EMMY acteur «, «Gagnant EMMY serie», «Gagnant Golden acteur». - Sinon si la série n est pas diffusée sur la chaîne américaine «Fx», alors nous obtenons la classe 3 composée du concept «Gagnant EMMY acteur». - Sinon si le sexe est féminin nous obtenons une classe indivisible : la classe 2 composée des 4 concepts «Nomine EMMY actrice», «Nomine Golden actrice», «Gagnant Golden actrice», «Gagnant EMMY actrice». - Mounia CHERRAD Anne-Sophie REGOTTAZ - 29

Critères pour avoir la meilleure équipe!

Critères pour avoir la meilleure équipe! PROJET DATAMINING Basket-ball professionnel "NBA" : Critères pour avoir la meilleure équipe! Réalisé par : Anasse LAHLOU KASSI Houssam Eddine HOUBAINE DESS TIO DESS ID Année Scolaire : SOMMAIRE INTRODUCTION...

Plus en détail

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING - Analyses de données symboliques sur les restaurants Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Master 2 ème Année Ingénierie Statistique et financière Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Réalisé par : Nicolas CHAIGNEAUD Nora SLIMANI Année universitaire 2007-2008

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Université Paris IX DAUPHINE DATE : 24/04/06

Université Paris IX DAUPHINE DATE : 24/04/06 Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

WEBSELL. Projet DATAMINING

WEBSELL. Projet DATAMINING WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.

Plus en détail

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Techniques d interaction dans la visualisation de l information Séminaire DIVA Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...) Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Le langage SQL Rappels

Le langage SQL Rappels Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

EXCEL et base de données

EXCEL et base de données EXCEL et base de données 1. Variables et données 2. Saisie de données: quelques règles 3. EXCEL et saisie des données 4. Exemple de tableau EXCEL 5. Éviter d éventuels problèmes 1 1.1 Variables et données

Plus en détail

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS Depuis SAS 9.2 TS2M3, SAS propose un nouveau langage de programmation permettant de créer et gérer des tables SAS : le DS2 («Data Step 2»). Ces nouveautés

Plus en détail

Encryptions, compression et partitionnement des données

Encryptions, compression et partitionnement des données Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des

Plus en détail

Comment créer un diagramme de Gantt avec OpenOffice.org

Comment créer un diagramme de Gantt avec OpenOffice.org Comment créer un diagramme de Gantt avec OpenOffice.org Version 1.9 du 05.05.2005 Réalisé avec : OOo 2.0 Plate-forme / Os : Toutes Distribué par le projet Sommaire 1 Une rapide introduction : Diagramme

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA Master Exploration Informatique des données Data Mining & Business Intelligence Groupe 5 Piotr BENSALEM Ahmed BENSI Evelyne CHARIFOU Priscillia CASSANDRA Enseignant Françoise FOGELMAN Nicolas DULIAN SOMMAIRE

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved. Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans

Plus en détail

Mémo d utilisation de ADE-4

Mémo d utilisation de ADE-4 Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose

Plus en détail

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Plus en détail

Business Intelligence avec Excel, Power BI et Office 365

Business Intelligence avec Excel, Power BI et Office 365 Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

Jean-François Boulicaut & Mohand-Saïd Hacid

Jean-François Boulicaut & Mohand-Saïd Hacid e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services Ce Whitepaper décrit la méthodologie de développement d un rapport personnalisé au format SQL Server Reporting Service (SSRS) appliqué à System Center Operations Manager (SCOM) Whitepaper Méthodologie

Plus en détail

TUTORIAL REUTERS. Utilisation de l'utilitaire de recherche Reuters

TUTORIAL REUTERS. Utilisation de l'utilitaire de recherche Reuters TUTORIAL REUTERS Connexion à Reuters Allez sur https://portal.hpd.global.reuters.com/auth/login.aspx Le login est reut@ensimag.imag.fr, =1 à 5, le et le mot de passe étant ceux qui vous ont été

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous : BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les

Plus en détail

Bases de données. Chapitre 1. Introduction

Bases de données. Chapitre 1. Introduction Références : Bases de données Pierre Wolper Email : pw@montefiore.ulg.ac.be URL : http : //www.montefiore.ulg.ac.be/~pw/ http : //www.montefiore.ulg.ac.be/ ~pw/cours/bd.html Henry F. Korth, Abraham Silberschatz,

Plus en détail

Gestion des données avec R

Gestion des données avec R Gestion des données avec R Christophe Lalanne & Bruno Falissard Table des matières 1 Introduction 1 2 Importation de fichiers CSV 1 2.1 Structure du fichier de données...................................

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE

EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE QCM Remarque : - A une question correspond au moins 1 réponse juste - Cocher la ou les bonnes réponses Barème : - Une bonne réponse = +1 - Pas de réponse = 0

Plus en détail

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes. SAS, Cognos, Stata, Eviews, conseil, expertise, formation, mining, datamining, statistique, connaissance Changer la source d'une requête dans SAS Enterprise Guide client, valeur client, CRM, fidélisation,

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab notre compétence d'éditeur à votre service créée en juin 2010, Scilab enterprises propose services et support autour

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Dossier I Découverte de Base d Open Office

Dossier I Découverte de Base d Open Office ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Initiation à Excel. Frédéric Gava (MCF) gava@univ-paris12.fr

Initiation à Excel. Frédéric Gava (MCF) gava@univ-paris12.fr Initiation à Excel Frédéric Gava (MCF) gava@univ-paris12.fr LACL, bâtiment P2 du CMC, bureau 221 Université de Paris XII Val-de-Marne 61 avenue du Général de Gaulle 94010 Créteil cedex Plan de cette année

Plus en détail

8. Gestionnaire de budgets

8. Gestionnaire de budgets 8. Gestionnaire de budgets 8.1 Introduction Le Gestionnaire de budgets (Budget Workbench) permet aux utilisateurs de travailler sur les données budgétaires qu ils ont importées sur leur station de travail

Plus en détail

Comment consolider des données

Comment consolider des données Comment consolider des données Version 0.02 du 18.11.2004 Réalisé avec : OOo 1.1.3 Plate-forme / Os : Toutes Distribué par le projet fr.openoffice.org Sommaire 1 Introduction...3 2 Création des données...4

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Le scoring est-il la nouvelle révolution du microcrédit?

Le scoring est-il la nouvelle révolution du microcrédit? Retour au sommaire Le scoring est-il la nouvelle révolution du microcrédit? BIM n 32-01 octobre 2002 Frédéric DE SOUSA-SANTOS Le BIM de cette semaine se propose de vous présenter un ouvrage de Mark Schreiner

Plus en détail

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE Cas Neptune hôtel Base de données et langage SQL Propriété Intitulé long Formation concernée Matière Notions Transversalité Présentation Description Neptune Hôtel. L interrogation d une base de données

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Sybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. www.sybase.fr/poweramc DOCUMENTATION

Sybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. www.sybase.fr/poweramc DOCUMENTATION Sybase PowerAMC 16 Guide des nouvelles fonctionnalités générales DOCUMENTATION 2 2 www.sybase.fr/poweramc A propos de PowerAMC 16 PowerAMC est une solution de modélisation d'entreprise graphique qui prend

Plus en détail

SAP BusinessObjects Web Intelligence (WebI) BI 4

SAP BusinessObjects Web Intelligence (WebI) BI 4 Présentation de la Business Intelligence 1. Outils de Business Intelligence 15 2. Historique des logiciels décisionnels 16 3. La suite de logiciels SAP BusinessObjects Business Intelligence Platform 18

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Introduction aux SGBDR

Introduction aux SGBDR 1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services Nous verrons dans cet article comment exploiter simplement les données de Log de SQL Server 2008 R2 Reporting Services

Plus en détail

Langage SQL : créer et interroger une base

Langage SQL : créer et interroger une base Langage SQL : créer et interroger une base Dans ce chapitre, nous revenons sur les principales requêtes de création de table et d accès aux données. Nous verrons aussi quelques fonctions d agrégation (MAX,

Plus en détail

Business Intelligence avec SQL Server 2012

Business Intelligence avec SQL Server 2012 Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Table des matières Les éléments à télécharger sont disponibles

Plus en détail

Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris

Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris Diffusé par Le Projet Documentation OpenOffice.org Table des matières 1. Définir les plages...3 2. Sélectionner une plage...4

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

2014/2015. Rapport 4 REALISE PAR : ISMAIL NAIT ABDELLAH OUALI SOUFIANE HOURRI MOHAMED OUSSAFI ENCADRE PAR : MME L.LAMRINI ANOUAR OUFQIR SMARTSIR

2014/2015. Rapport 4 REALISE PAR : ISMAIL NAIT ABDELLAH OUALI SOUFIANE HOURRI MOHAMED OUSSAFI ENCADRE PAR : MME L.LAMRINI ANOUAR OUFQIR SMARTSIR 2014/2015 Rapport 4 REALISE PAR : ISMAIL NAIT ABDELLAH OUALI SOUFIANE HOURRI MOHAMED OUSSAFI ENCADRE PAR : ANOUAR OUFQIR MME L.LAMRINI SMARTSIR Table des matières Introduction... 2 Choix de l outil pour

Plus en détail

Le disque dur. Le disque dur est l'organe servant à conserver les données sous forme de dossiers de manière permanente.

Le disque dur. Le disque dur est l'organe servant à conserver les données sous forme de dossiers de manière permanente. Le disque dur Le disque dur est l'organe servant à conserver les données sous forme de dossiers de manière permanente. Le disque dur Le partitionnement d'un disque dur. Il consiste à créer des zones sur

Plus en détail

MyReport, une gamme complète. La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! pour piloter votre activité au quotidien.

MyReport, une gamme complète. La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! pour piloter votre activité au quotidien. MyReportle reporting sous excel La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! MyReport, une gamme complète pour piloter votre activité au quotidien. En rendant les données

Plus en détail

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail