PROJET SODAS. Quels sont les facteurs qui font gagner une écurie en Formule1? Master MIDO

Dimension: px
Commencer à balayer dès la page:

Download "PROJET SODAS. Quels sont les facteurs qui font gagner une écurie en Formule1? Master MIDO"

Transcription

1 Tan Christophe Tran Kinh Julienne Data Mining Mr Diday PROJET SODAS Quels sont les facteurs qui font gagner une écurie en Formule1? Université de PARIS-DAUPHINE Master MIDO Spécialité ISF

2 SOMMAIRE I) Présentation du Data Mining et du logiciel SODAS. p3 A/ Émergence du Data Mining... p3 B/ Analyse des données symboliques... p3 1) Individus de premier ordre et de second ordre... p4 2) Le tableau de données symboliques... p4 3) Les objets symboliques p5 4) Les apports de l analyse de données symboliques... p5 C/ Présentation du logiciel SODAS p7 1) Fonctionnement du logiciel.. p7 2) Interface du logiciel. p8 II) Construction Base de données... p9 A) Structure de la base p9 B) Variables et requêtes... p10 1) Explication des champs de description... p10 2) Création des requêtes p12 3) Démarrage de SODAS : DB2SO.. p13 III) Les Méthodes. p18 A) SOE (Symbolic Objects Editors) p18 1) Principe.. p18 2) Application. p18 B) STAT. p24 C) DIV p27 D) PYR (Pyramidal Clustering on Symbolic Objects)... p30 E) Synthèse. p32 CONCLUSION.. p35 BIBLIOGRAPHIE p34 2

3 I) Présentation du Data Mining et du logiciel SODAS A/ Émergence du Data Mining Les entreprises subissent aujourd hui une intensification de la concurrence ou de la pression des clients. Ces facteurs les poussent à améliorer constamment la qualité de leurs produits et à accélérer de manière générale leurs processus de mise sur le marché de nouveaux produits et services. Parallèlement, les systèmes d informations se sont développés pour contribuer à améliorer la productivité des traitements. Depuis deux décennies environ, l attention des entreprises s est progressivement détournée des systèmes opérationnels pour se porter sur des systèmes décisionnels qui contribuent véritablement à la différenciation stratégique de l entreprise. Les fournisseurs de solutions informatiques ont donc développé des offres nouvelles autour du concept de «Data Warehouse» ou «entrepôt de données», vastes bases de données décisionnelles détaillées, orientées sujet et historisées. Ces entrepôts de données disposent bien sûr de capacités de reporting, c est-à-dire de présentation de données ou d agrégats sous forme de tableaux ou de graphiques, mais ils permettent rarement de découvrir des associations ou des tendances qui se nichent dans les tréfonds d une base de données, d où l émergence du Data Mining. En effet, le Data Mining est une réponse au besoin croissant qu ont les entreprises d un surcroît de productivité dans l analyse de leurs données. L'objectif est alors de synthétiser des informations stockées dans une base de données relationnelle (BDR) de manière à effectuer des analyses ultérieures non pas sur les données initiales mais sur les résultats obtenus. B/ Analyse des données symboliques Résumer les bases de données de taille parfois gigantesques par leurs concepts sous-jacents de façon à en extraire des connaissances nouvelles constitue une tâche d'importance grandissante. Savoir représenter ces connaissances par des expressions à la fois symboliques et numériques, savoir manipuler et utiliser ces expressions dans le but d'aider à décider, de mieux analyser, 3

4 synthétiser et organiser les observations, tel est l'objectif que s'assigne l'analyse des données symboliques. Les concepts qu'ils soient fournis (une région, un groupe socio-économique, un type d'entreprise ) ou obtenus par classification automatique (nuées dynamiques, hiérarchie, pyramide, treillis de concepts) peuvent être modélisés par des données plus complexes dites «symboliques» où les propriétés peuvent s'exprimer par des valeurs qualitatives ou quantitatives mais aussi par des intervalles, des histogrammes ou des valeurs multiples munies de règles et de taxonomies. Ces objets symboliques booléens ou modaux permettent non seulement de décrire les concepts par leurs propriétés communes (booléennes, probabilistes...) mais aussi de calculer leur extension dans l'ensemble des individus qu'ils représentent (des habitants, des employés, des entreprises ). 1) Individus de premier ordre et de second ordre Les bases de données qui se développent partout dans le monde prenant parfois des tailles gigantesques possèdent deux niveaux d'informations. Le premier concerne les entités de base appelées parfois «tuples» ou «individus». Le second concerne des entités d'un niveau plus élevé que l'on peut appeler «concepts» pouvant représenter de grandes quantités d'informations, obtenues par classification automatique ou par une requête. 2) Le tableau de données symboliques Un «tableau de données symboliques» autorise plusieurs valeurs par case, ces valeurs étant parfois pondérées et liées entre elles par des règles et des taxonomies. Plusieurs sources d'unités statistiques («individus») munies de variation interne sont évoquées comme les bases de données, les données stochastiques, les séries chronologiques, les données confidentielles... L'Analyse des données symboliques a pour objectif d'étendre l'analyse des données traditionnelles aux tableaux de données symboliques pour en extraire des objets symboliques. Différents types d'objets symboliques sont considérés selon que les variables décrivant les individus sont à valeur «intervalle», «histogramme» ou «variable aléatoire». On propose en particulier une modélisation stochastique où pour chaque variable, chaque individu est décrit par 4

5 une variable aléatoire, ces variables aléatoires pouvant être dépendantes et de lois différentes d'un individu à l'autre. Les treillis constituent la structure sous-jacente des objets symboliques. Les «pyramides classifiantes» permettent de réduire les classes de ce treillis et d'en donner une représentation graphique. 3) Les objets symboliques Afin de résumer le contenu d une base de donnée, les méthodes d analyse de données symboliques fournissent généralement en sortie des «descriptions» de classes d individus obtenues par «généralisation». Partant de ces descriptions, il est important de pouvoir retrouver les classes qu elles résument. Les objets symboliques permettent d effectuer ce retour. Elles permettent de décrire les concepts par leurs propriétés communes mais aussi de calculer leurs extensions dans l ensemble des individus qu ils représentent. 4) Les apports de l analyse de données symboliques Par rapport aux approches classiques, l'analyse des données symboliques présente les caractéristiques et ouvertures suivantes : - Elle s'applique à des données plus complexes. En entrée, elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité ) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d'objets symboliques. - Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et spécialisation, d'ordre et de treillis, de calcul d'extension, d'intention et de mesures de ressemblance tenant compte des connaissances sous-jacentes basées sur les règles et taxonomies. - Elle fournit des représentations graphiques exprimant entre autres la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera 5

6 représenté par une zone, elle-même exprimable sous forme d'objet symbolique, et pas seulement par un point. Les principaux avantages des objets symboliques peuvent se résumer comme suit : - Ils fournissent un résumé de la base plus riche que les données agrégées habituelles car ils tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites, ainsi que des taxonomies fournies. - Ils sont explicatifs puisqu'ils s'expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels). - En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symbolique de second niveau peut s'appliquer. - Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville. - Ils peuvent être facilement transformés sous forme de requête d'une Base de Données. Ceci a au moins les deux conséquences suivantes : 1) Ils peuvent propager les concepts qu'ils représentent d'une base à une autre (par exemple, d'un pays à l'autre de la communauté européenne). 2) Les objets symboliques formés à partir de la base par les outils de l'analyse des données symboliques permettent de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes. 6

7 C/ Présentation du logiciel SODAS 1) Fonctionnement du logiciel Il s'agit d'un logiciel prototype public (accessible à Il est issu de la collaboration de 17 équipes dans le cadre d'un projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du domaine. Il permet l'extension des méthodes de l'analyse des données classiques (Statistiques descriptives, Analyse factorielle, Classification Automatique, Arbres de décisions...) à des données symboliques. Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques. Les principales étapes d'une analyse des données dans SODAS, sont les suivantes : - Partir d'une base de données relationnelle (ORACLE, ACCESS...) - Définir ensuite un contexte par des unités statistiques de premier niveau (habitants, familles, entreprises, accidents...), les variables qui les décrivent, des concepts (villes, groupes socioéconomiques, scénario d'accident...). - Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). - Ce contexte est défini par une requête de la base. - On construit alors un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées. 7

8 Le logiciel SODAS permet alors d analyser les données symboliques sous forme d histogrammes, d étoiles..., de les comparer par des calculs de dissimilarité, de les classifier, de donner une représentation graphique et une description symbolique des classes obtenues (hiérarchie divisive, hiérarchie ou pyramide ascendante de concepts), d'en donner une représentation graphique plane (analyse en composantes principales), de les discriminer (analyse factorielle discriminante, arbres de décision)... 2) Interface du logiciel Application des méthodes Les différentes méthodes proposées 8

9 II) Construction Base de données A) Structure de la base La base de donnée F1.mdb est celle qui nous servira pour notre étude. Il s agit d une base de données relationnelles sous format Access. Elle a été créée entièrement à partir de du site Internet : Cette base de donnée regroupe 22 pilotes et 11 écuries. Les informations concernant les pilotes et les écuries sont notamment le nom, l age, le nombre de victoire Dans le but d avoir une vision plus précise de cette base de données et de son organisation, le schéma suivant permet de montrer les différentes tables créées ainsi que leurs relations entre elles. Schéma relationnel de la base de données : 9

10 Notre base est donc constituée de deux tables. Nous allons donc présenter en détail chacune des tables composant la base de donnée : - La table Team pour les concepts, qui contient toutes les informations concernant les écuries de Formule 1. - La table Pilotes pour les individus, stocke le profil des pilotes. Pour définir la structure de notre base, il a fallu au préalable établir des critères qui sont susceptibles d influencer le résultat d une course tels que l expérience des pilotes et la catégorie de la voiture. Chacun des critères est évalué grâce à l un des attributs que nous avons inclus dans les tables de la base. En établissant la description des individus et des concepts, nous gardons à l esprit qu il s agit ici de déceler les facteurs qui permettent de gagner en Formule 1. B) Variables et requêtes 1) Explication des champs de description Les individus sont les pilotes et sont décrits par les variables suivantes : - Nom : c est le nom du pilote - Nationalité : pays d origine du pilote - Age : age du pilote - Début_en_F1 : année où le pilote a débuté sa carrière en Formule 1. - Expérience : caractérise l expérience du pilote en Formule 1. - NbGP : nombre de Grand Prix couru par le pilote. - NbVictoire : nombre de victoire obtenue par le pilote. - NbPoduim : nombre de fois où le pilote est monté sur le podium. - Nb_dans_les_points : nombre de fois où le pilote a terminé la course dans les points. - Nb_Pole : nombre de pole position obtenu par le pilote. - Nb_meilleur_Tour : nombre de fois où le pilote a terminé la course avec le meilleur tour. - Nb_Pts_marqués : nombre total de points marqués par le pilote durant sa carrière. 10

11 - Ratio_pts : c est le ratio points du pilotes, obtenu en divisant le nombre de points total marqués par le nombre total de Grand prix. - Champion_du_monde : Oui si le pilote a déjà été champion du monde. - Team : écurie avec lequel le pilote est sous contrat. - ClTeam : caractérise la catégorie de l écurie. La classe Expérience est déterminée en fonction du nombre de Grand Prix. On a donc réparti les pilotes selon 3 catégories : - Débutant : le pilote compte mois de 21 Grand Prix à son actif (c'est-à-dire moins d une saison complète à son actif). - Confirmé : le pilote compte plus de 21 Grand Prix à son actif (c'est-à-dire que le pilote compte plus d une saison complète à son actif). - Expérimenté : le pilote compte plus de 100 Grand Prix à son actif. La classe ClTeam est déterminée en fonction du classement des derniers championnats et du budget de l écurie. Ainsi on obtient la répartition suivante pour les 11 écuries : - Top : Ferrari, McLaren et BMW Sauber, qui sont considérés comme les favoris. - Bon : Renault, Williams et Toyota, qui sont considérés comme des outsiders. - Correct : Red Bull Racing, Honda. - Petite : Toro Rosso, Super Aguri et Force India, qui sont considérés comme les écuries les plus faibles du plateau. Les concepts sont donc les 11 écuries engagées en Formule 1. Les variables de description des concepts sont les suivantes : - Nom : nom de l écurie. - Age : ancienneté de l écurie (calculé à partir de sa date de création). - NbGP : nombre total de Grand Prix auquel l écurie a participé. - NbVictoire : nombre total de victoire de l écurie. - NbTitres : nombre de titre de champion du monde des constructeurs. - Classement2007 : classement de l écurie lors de la saison précédente (2007). 11

12 2) Création des requêtes Les requêtes utilisées sont au nombre de deux. La requête individu_concept renvoie les individus du premier ordre et leur description. Elle permet ainsi de ressortir de la base les individus, les concepts puis les caractéristiques des individus sous la forme suivante : Au travers de DB2SO et ODBC, SODAS va pouvoir transformer ces tuples en tableau symbolique. On passe ainsi au niveau du dessus en matière d information puisque SODAS présente une description des concepts en agrégeant les caractéristiques des individus (ordinal, nominal) en champ symboliques (intervalles, probabiliste...) La construction de la requête individu_concept : 12

13 La requête concept_description permet d ajouter des colonnes de description du concept dans SODAS. Elle permet ainsi de réaliser ce que l on appelle des «add single». Elle est constituée de la manière suivante : La construction de la requête concept_description : 3) Démarrage de SODAS : DB2SO DB2SO est un élément du logiciel SODAS qui permet à l utilisateur de construire un ensemble d assertions à partir de données stockées dans une base de données relationnelle. Il est supposé qu un ensemble d individus et stocké dans une base de données et que ces individus sont distribués dans des groupes. Alors, DB2SO peut construire une assertion pour chaque groupe 13

14 d individus. Dans ce processus, les variables mère/fille et les taxonomies sur des domaines de variables peuvent aussi être associées à des assertions générées. Pour que SODAS puisse exploiter les données de notre base, il convient de préparer la structure des tables en fonctions de convention propres aux données symboliques. Pour ce faire, nous avons crée deux requêtes : individu_concept et concept_description. Ces deux requêtes nous ont donc permis de disposer les données de manières exploitables pour DB2SO, et par la même SODAS. DB2SO est invoqué à partir Import dans SODAS file. 14

15 Dans DB2SO, cliquer sur new, puis Source de données machine et Ms Access Database. 15

16 Après avoir défini la base de données F1.mdb, il s agit d exécuter chaque requête, que nous avons vu précédemment, de la façon suivante : 16

17 Dans Modify, cliquer sur Add single permet ainsi d ajouter la deuxième requête qui nous donne les concepts ainsi que leurs descriptions. Après les avoir toutes exécutées, DB2SO nous fournit un récapitulatif reprenant toutes les variables et tous les concepts définis. 17

18 Il s agit ensuite d enregistrer la session en un fichier *.gaj par l intermédiaire de la commande File/Save. Ensuite, il faut exporter ce fichier (File/Export) pour créer un nouveau fichier SODAS de type *.sds. Ce fichier sera la base de toutes les applications SODAS. III) Les Méthodes A) SOE (Symbolic Objects Editors) 1) Principe La méthode SOE permet de représenter les variables sous la forme de tableaux ou de graphes selon le concept sélectionné, cet éditeur permet donc aux utilisateurs de visualiser tous les objets symboliques présents dans SODAS et éventuellement d effectuer des modifications basiques des données. Par ailleurs il permet aussi de visualiser des représentations graphiques en 2D ou en 3D, ainsi qu une représentation SOL (Symbolic Object Language) de chaque objet symbolique. 2) Application Nous avons retenu ici les 2 meilleures écuries et les 2 dernières écuries du dernier championnat (2007), afin de pouvoir déterminer ce qui les différencient le plus. Les Objets que nous analysons sont donc : Ferrari, BMW Sauber, Toro Rosso et Super Aguri. Les variables descriptives que nous analyserons pour chaque objet sont : - Age - Début_en_F1 - Expérience - NbGP - NbVictoire - NbPodium - Nb_dans_les_points 18

19 - Nb_Pts_marqués - Ratio_pts - Champion_du_monde - ClTeam Représentation 2D : une variable qualitative est représentée par un point de taille proportionnelle au nombre d occurrences rencontrées dans l étude. Si on souhaite avoir une vue plus précise de la répartition de la variable considérée, on peut faire appel à l autre représentation, le graphique en 3D. 19

20 Représentation 3D : ce graphique représente les variables qualitatives sous formes d histogrammes et les variables quantitatives par intervalle, matérialisé par un trait sur un axe. On observe que l écurie Ferrari fait partie des Top Team en Formule 1, qu elle possède un champion du monde dans ses rangs, qui plus est le tenant du tire, des pilotes ayant plus de 5 saisons de F1 dans leurs bagages, gagnant des grand prix et marquant des points (ratio point compris entre 2.4 et 3.3 points). 20

21 BMW Sauber qui est actuellement deuxième au classement des constructeurs, fait également parti des Top Team en Formule 1, avec des pilotes expérimenté et confirmé, ayant un ratio point compris entre 1.1 et 2.5 par Grand Prix. 21

22 L écurie Super Aguri fait parti des petites écuries courant au championnat du monde de Formule 1. On observe que malgré le fait que ses deux pilotes titulaires soient des pilotes confirmés, ils n ont jamais remporté de Grand Prix, marquent très peu de point voire quasiment jamais (ratio points compris entre 0 et 0.5). 22

23 On observe que Toro Rosso, l une des petites écuries du plateau, compte parmi ses rangs deux pilotes novices, et par conséquent des pilotes ayant très peu de Grand Prix à leurs actifs, mais surtout un ratio point quasi nul. 23

24 Interprétation générale : Les quatre représentations graphiques que SODAS nous fournit, présentent des éléments de similarité entre les écuries bien classées et mal classées au championnat du monde. En effet, on peut voir que les variables expérience, classement team et ratio point sont déterminantes dans la réussite en Formule 1. On constate bien que les deux premières écuries au classement des constructeurs possèdent dans leurs rangs des pilotes expérimentés ou confirmés, ayant un ratio point supérieur à un point par Grand Prix et surtout, elles sont cataloguées comme des Top Team. Alors que les deux écuries en bas du classement, catégorisées comme des petites écuries, possèdent eux en revanche, des pilotes débutants ou confirmés, ayant un ratio point nul. D après ces premières observations, on peut donc dire que pour gagner, il faut un pilote expérimenté ou confirmé, qui soient également talentueux afin d être capable de remporter des courses et une voiture capable de gagner. B) STAT La méthode STAT (Elementary Statistics On Symbolic Objects) étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. La méthode appliquée dépend du type des variables présentes dans la base et sont filtrées selon leur nature : - fréquences relatives pour les variables multi nominales : dans cette méthode, la fréquence relative des différentes modalités de la variable multi nominale est étudiée en prenant compte des éventuelles règles relatives à la base sur laquelle l étude est réalisée. - fréquences relatives pour les variables intervalles : deux paramètres sont nécessaires à l entrée de cette méthode : une variable intervalle, noté i et un nombre de classe, noté k. Un histogramme est construit pour la variable i sur un intervalle [a, b] découpé en k classes et où a représente la borne inférieure de i et b sa borne supérieure. Cette méthode permet de calculer la fréquence relative associée à la classe C k tout en tenant compte du recouvrement de cette classe C k par les valeurs intervalles de i et ceci pour tous les objets symboliques. 24

25 - capacités et min/max/mean pour variables multi nationales probabilistes : cette méthode permet de construire un histogramme des capacités des différentes modalités de la variable considérée. Dans cet histogramme, la capacité d une modalité est représentée par l union des différentes capacités. - biplot pour les variables intervalles : cette méthode permet de construire un objet symbolique par un rectangle dans le plan de deux variables sélectionnées par l utilisateur. La dimension de chaque coté du rectangle correspond à l étendue de la variation de l objet symbolique relativement à la variable de l axe considéré. STAT est donc un ensemble de méthodes permettant de voir sous forme de listing ou de graphe les statistiques élémentaires relatives à nos données symboliques. Cette méthode va nous permettre de préciser et de confirmer les interprétations de la méthode SOE. La variable étudiée ici est le ratio points. Le nombre de classes choisi est 6. On observe que la classe [0,1] prédomine et que plus le ratio point augmente, plus la fréquence des classes diminue. 25

26 La variable étudiée est le nombre de victoire et le nombre de classes choisi est 6. On peut voir qu il y a qu une poignée de pilote capable de remporter au moins 4 courses. Ces pilotes font partis des grosses écuries tels que Ferrari, McLaren, Renault On remarque que les deux écuries Super Aguri et Toro Rosso ont dans leur rang des pilotes ayant un ratio point compris entre 0 et 1. Et que Ferrari et BMW Sauber, eux possèdent des pilotes ayant un ratio point supérieur à 1. On retrouve donc bien le lien entre le ratio points et le succès en Formule 1, qui confirme les résultats obtenus avec SOE. Pour réussir en Formule 1, il faut donc une voiture qui permet aux pilotes de gagner et ainsi engranger des points. 26

27 C) DIV DIV (Divisive Clustering) est une méthode de classification hiérarchique qui commence avec tous les objets et procède par divisions successives de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l inertie. L algorithme se termine après k-1 divisions, où k représente le nombre de classes données comme inputs par l utilisateur. Application : Les variables utilisées ici sont le nombre de victoire et le ratio points. Ainsi il sera possible de voir la répartition entre le nombre de victoire et le ratio points. Le nombre de classes choisi est de 5. Le résultat obtenu est le suivant : PARTITION IN 2 CLUSTERS : : Cluster 1 (n=7) : BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India McLaren Cluster 2 (n=4) : Ferrari Renault Red Bull Racing Honda Explicated inertia : PARTITION IN 3 CLUSTERS : : 27

28 Cluster 1 (n=7) : BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India McLaren Cluster 2 (n=2) : Red Bull Racing Honda Cluster 3 (n=2) : Ferrari Renault Explicated inertia : PARTITION IN 4 CLUSTERS : : Cluster 1 (n=6) : BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India Cluster 2 (n=2) : Red Bull Racing Honda Cluster 3 (n=2) : Ferrari Renault Cluster 4 (n=1) : McLaren Explicated inertia : PARTITION IN 5 CLUSTERS : : Cluster 1 (n=6) : BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India 28

29 Cluster 2 (n=2) : Red Bull Racing Honda Cluster 3 (n=1) : Renault Cluster 4 (n=1) : McLaren Cluster 5 (n=1) : Ferrari Explicated inertia : THE CLUSTERING TREE : Classe 1 (Ng=6)!! [Ratio_pts <= ]!!! Classe 4 (Nd=1)!! [NbVictoire <= ]!! Classe 2 (Ng=2)!!! [NbVictoire <= ]!! Classe 3 (Ng=1)!!! [NbVictoire <= ]! Classe 5 (Nd=1) 29

30 On peut voir qu il y a 4 écuries (Ferrari, Renault, Red Bull Racing et Honda) dont la moyenne de victoire de leurs pilotes soit supérieur à 3.75, et que parmi ces 4 écuries, il y en a 2 (Ferrari et Renault), qui ont une moyenne supérieure à 8 victoires dont une écurie (Ferrari) où la moyenne de victoire des 2 pilotes est supérieur à Parmi les 7 autres écuries dont la moyenne du nombre de victoire de leurs pilotes est inférieure à 3.75, il y en a 6 qui ont un ratio points inférieur à 2.96 (moyenne des ratio points des 2 pilotes). D) PYR (Pyramidal Clustering on Symbolic Objects) Après avoir étudié les classes de nos variables symboliques avec STAT, nous allons utiliser la méthode PYR de SODAS qui permet de caractériser les classes en les organisant sous forme de paliers. La pyramide est outil intéressant pour représenter les classes empiétantes et situer les écuries les unes par rapport aux autres en fonction de critères définis. Les variables sélectionnées sont : le nombre de victoire, le ratio points, le classe de l écurie et l expérience des pilotes. Ces variables là sont celles qui ont été mise en avant par les méthodes précédentes comme facteur de victoire en Formule 1. 30

31 La pyramide semble bien nous indiquer que le nombre de victoire obtenu par les pilotes des écuries, le ratio points, la catégorie de l écurie et l expérience de ses pilotes sont des variables décisives dans la réussite en Formule 1. En effet, on peut voir que les trois petites écuries du plateau sont regroupées dans le bas de la pyramide alors que la plupart des écuries faisant parti du haut du classement 2008 sont regroupées dans le haut de la pyramide. 31

32 E) Synthèse Cette étude nous a permis de trouver quelques facteurs source de succès en Formule 1, tels que la performance de la voiture, l expérience et le talent des pilotes. Cependant, grâce à la pyramide, on a aussi pu voir les limites de notre étude. En effet, McLaren qui est pourtant une Top Team se retrouve en bas de cette pyramide, alors qu elle possède en ses rangs des pilotes ayant un ratio points supérieur à 2 points par Grand Prix (dont Lewis Hamilton qui possède un ratio point de 6.14). Ainsi il y a donc d autre facteur entrant en jeu. En effet, on ne tient pas compte dans cette étude des points marqués par les pilotes pour leurs écuries actuelles mais on prend en compte les points marqués dans la totalité de leurs carrières. Par le biais des transferts, on retrouve ainsi des pilotes totalisant un nombre important de point marqué durant leur carrière dans des petites écuries. Giancarlo Fisichella en est le parfait exemple. En effet, il a été longtemps pilote chez Renault, là où il a marqué la majorité de ses points, alors qu il est aujourd hui chez Force India et ne marque plus aucun point. Ainsi, on ne peut pas vraiment juger une écurie sur le total des points de ses pilotes. Pour McLaren, leurs pilotes possèdent un ratio points important, mais ont à peine une saison de Formule 1 dans leurs bagages ce qui explique ce ratio important. Ces deux pilotes que sont Lewis Hamilton et Heikki Kovalainen ont eu la chance de débuter leur carrière dans des écuries de premier rang et par conséquent, leurs probabilités de marquer des points en Grand Prix étaient donc plus grandes. On peut voir qu un pilote comme Kimi Raikkonen, le champion du monde en titre possède un ratio point inférieur de moitié à celui de Lewis Hamilton. Ceci s explique par le fait que Raikkonen a commencé sa carrière dans une petite écurie et a eu pour conséquence de lui faire participer à un certain nombre de Grand Prix sans qu il ait une chance de marquer un point. Ce qui réduit considérablement son ratio points. On peut donc dire que le plan de carrière d un pilote peut aussi influencer ce ratio et donc lui donne finalement une importance moindre. Au final, le critère qui importe le plus serait donc la voiture. Sans une bonne voiture, l écurie aura très peu de chance de gagner, peu importe le talent du pilote, qu il soit champion du monde ou non. On peut prendre par exemple Damon Hill qui a été sacrée champion du monde en 1996 et qui a ensuite rejoint en 1997 Arrows, une petite écurie qui n existe plus aujourd hui, pour ne marquer que 7 points contre 97 points lors de son sacre en

33 CONCLUSION Suite à ce projet, on constate que le logiciel SODAS est un outil très intéressant pour l extraction de données symboliques. Il permet non seulement de faire des analyses statistiques très poussées, mais en plus, permet de comparer les différents concepts enter eux. C est donc un logiciel qui peut conduire à des informations très intéressantes, à condition que la base de données de départ tienne compte de tous les paramètres pouvant influencer la problématique de notre sujet. Pour notre problématique, il s est avéré que les données utilisées étaient trop générales, et qu il aurait fallu faire une recherche plus approfondie, afin de trouver des données plus détaillées concernant les pilotes et les écuries. Ces données là nous auraient sûrement permises de faire une étude plus approfondie, et obtenir plus de certitude concernant les facteurs favorisant la réussite en Formule 1. En effet, on aurait pu rajouté dans notre base de données, des informations concernant les éléments de la voiture comme le moteur, la boîte de vitesse, 33

34 BIBLIOGRAHIE Cours Data Mining Supervisé 2008, E. Diday, Université Paris Dauphine. Site Internet :

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING - Analyses de données symboliques sur les restaurants Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...

Plus en détail

Université Paris IX DAUPHINE DATE : 24/04/06

Université Paris IX DAUPHINE DATE : 24/04/06 Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE

Plus en détail

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E. Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ Sommaire Introduction...

Plus en détail

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Master 2 ème Année Ingénierie Statistique et financière Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Réalisé par : Nicolas CHAIGNEAUD Nora SLIMANI Année universitaire 2007-2008

Plus en détail

WEBSELL. Projet DATAMINING

WEBSELL. Projet DATAMINING WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.

Plus en détail

Critères pour avoir la meilleure équipe!

Critères pour avoir la meilleure équipe! PROJET DATAMINING Basket-ball professionnel "NBA" : Critères pour avoir la meilleure équipe! Réalisé par : Anasse LAHLOU KASSI Houssam Eddine HOUBAINE DESS TIO DESS ID Année Scolaire : SOMMAIRE INTRODUCTION...

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Patrice RATTI (CEO Renault Sport Technologies):

Patrice RATTI (CEO Renault Sport Technologies): Spark Racing Technology (SPARK) annonce officiellement ce jour la création d un consortium entièrement dédié à son projet de fournisseur de monoplaces dans le cadre du championnat FIA de Formule E qui

Plus en détail

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

CONCEPTION Support de cours n 3 DE BASES DE DONNEES CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives ************* ************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

Anticiper pour avoir une innovation d'avance : le leitmotiv de Pierre Jouniaux, entrepreneur du big data!

Anticiper pour avoir une innovation d'avance : le leitmotiv de Pierre Jouniaux, entrepreneur du big data! Anticiper pour avoir une innovation d'avance : le leitmotiv de Pierre Jouniaux, entrepreneur du big data! Pierre Jouniaux http://www.safety line.fr CV : Pierre Jouniaux, ingénieur aéronautique, pilote

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

Programmation Objet - Cours II

Programmation Objet - Cours II Programmation Objet - Cours II - Exercices - Page 1 Programmation Objet - Cours II Exercices Auteur : E.Thirion - Dernière mise à jour : 05/07/2015 Les exercices suivants sont en majorité des projets à

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

2 nd semestre. Synthèse de l étude D3 Parcours Analyse de la fidélité des clients par marque. En partenariat avec

2 nd semestre. Synthèse de l étude D3 Parcours Analyse de la fidélité des clients par marque. En partenariat avec 2 nd semestre 2014 Synthèse de l étude D3 Parcours Analyse de la fidélité des clients par marque En partenariat avec Note de synthèse 1 +33 6 87 70 31 12 1. Cadre général L étude D3 Parcours est réalisée

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

Le langage SQL Rappels

Le langage SQL Rappels Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

Reporting Services - Administration

Reporting Services - Administration Reporting Services - Administration Comment administrer SQL Server Reporting Services Cet article a pour but de présenter comment gérer le serveur depuis le "portail" de Reporting Services. Nous verrons

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Introduction à Business Objects. J. Akoka I. Wattiau

Introduction à Business Objects. J. Akoka I. Wattiau Introduction à Business Objects J. Akoka I. Wattiau Introduction Un outil d'aide à la décision accès aux informations stockées dans les bases de données et les progiciels interrogation génération d'états

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

1 Introduction et installation

1 Introduction et installation TP d introduction aux bases de données 1 TP d introduction aux bases de données Le but de ce TP est d apprendre à manipuler des bases de données. Dans le cadre du programme d informatique pour tous, on

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Dossier I Découverte de Base d Open Office

Dossier I Découverte de Base d Open Office ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire

Plus en détail

IMPORTATION, CRÉATION, MANIPULATION, EXPORTATION DE DONNÉES STATISTIQUES

IMPORTATION, CRÉATION, MANIPULATION, EXPORTATION DE DONNÉES STATISTIQUES IMPRTATIN, CRÉATIN, MANIPULATIN, EXPRTATIN DE DNNÉES STATISTIQUES Bernard Dupont Bernard.Dupont@univ-lille1.fr ahm.bahah@yahoo.fr Bien que l'analyse et le traitement des données ne soient pas sa vocation

Plus en détail

[SUIVI PEDAGOGIQUE PASS ROUSSEAU / EASYWEB DANS EASYSYSTEME] Guide d utilisation. Codes Rousseau Juin 2015 1

[SUIVI PEDAGOGIQUE PASS ROUSSEAU / EASYWEB DANS EASYSYSTEME] Guide d utilisation. Codes Rousseau Juin 2015 1 Codes Rousseau Juin 2015 1 Comment lire les résultats de vos élèves dans Easysystème? 3 cas de figure : Cas de figure n 1 : Vos élèves ont commencé leur formation avant Juin 2015 sur Easyweb et ne sont

Plus en détail

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1 Premiers pas avec SES-Pegase 1 Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données www.delta-expert.com Mise à jour : Premiers pas avec SES-Pegase

Plus en détail

Pascal Weber - Expert en organisation http://www.ameliorationcontinue.fr

Pascal Weber - Expert en organisation http://www.ameliorationcontinue.fr Livre de formation offert par Pascal Weber - Expert en organisation http://www.ameliorationcontinue.fr http://twitter.com/ameliorcontinue Le simple fait de posséder ce livre vous donne le droit de l'offrir

Plus en détail

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10 PROGRAMME RÉGIONAL DE RENFORCEMENT DE LA COLLECTE DES DONNÉES STATISTIQUES DES PECHES DANS LES ÉTATS MEMBRES ET DE CREATION D UNE BASE DE DONNÉES REGIONALE Manuel de formation TABLE DES MATIERES INTRODUCTION

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

SIG ET ANALYSE EXPLORATOIRE

SIG ET ANALYSE EXPLORATOIRE SIG ET ANALYSE EXPLORATOIRE VERS DE NOUVELLES PRATIQUES EN GÉOGRAPHIE Jean-Marc ORHAN Equipe P.A.R.I.S., URA 1243 du CNRS Paris Résumé L'offre actuelle dans le domaine des logiciels de type Système d'information

Plus en détail

Logiciels concernés. Situation. Ciel et le pont comptable. Note conçue et rédigée par Jalons sprl tous droits réservés - 27/06/2007.

Logiciels concernés. Situation. Ciel et le pont comptable. Note conçue et rédigée par Jalons sprl tous droits réservés - 27/06/2007. Logiciels concernés Ciel Gestion Commerciale Premium, Evolution, et Réseau et Ciel Compta Premium, Evolution et Réseau. Situation Ciel Gescom et Ciel Compta ne sont pas des logiciels intégrés. C'est-à-dire

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

Baromètre Responsabilité Sociale et Environnementale du Secteur Automobile

Baromètre Responsabilité Sociale et Environnementale du Secteur Automobile Baromètre Responsabilité Sociale et Environnementale du Secteur Automobile TNS Automotive PRINCIPAUX RESULTATS Contacts TNS Sofres: Muriel GOFFARD 01 40 92 27 47 muriel.goffard@tns-sofres.com Définir la

Plus en détail

Gestion de projet. GanttProject Didacticiel V1.0. 23 novembre 2013. Gérard Gervois Frédéric Giamarchi

Gestion de projet. GanttProject Didacticiel V1.0. 23 novembre 2013. Gérard Gervois Frédéric Giamarchi Gestion de projet GanttProject Didacticiel V1.0 23 novembre 2013 Gérard Gervois Frédéric Giamarchi Département G.E.I.I. I.U.T. de Nîmes Université Montpellier II Présentation GanttProject est un logiciel

Plus en détail

La Création de Valeur Durable des Constructeurs Automobiles

La Création de Valeur Durable des Constructeurs Automobiles La Création de Valeur Durable des Constructeurs Automobiles Une analyse des performances durables des constructeurs automobiles au niveau mondial RÉSUMÉ ET RÉSULTATS CLÉS www.sustainablevalue.com Auteurs

Plus en détail

La base de données dans ArtemiS SUITE

La base de données dans ArtemiS SUITE 08/14 Vous préférez passer votre temps à analyser vos données plutôt qu à chercher un fichier? La base de données d ArtemiS SUITE vous permet d administrer et d organiser confortablement vos données et

Plus en détail

Docteur en Informatique. Haytham ELGHAZEL. Classification et Prévision des Données Hétérogènes : Application aux Trajectoires et Séjours Hospitaliers

Docteur en Informatique. Haytham ELGHAZEL. Classification et Prévision des Données Hétérogènes : Application aux Trajectoires et Séjours Hospitaliers Université Claude Bernard Lyon 1 École Doctorale Informatique et Information pour la Société 2007 2008 THÈSE pour obtenir le grade de Docteur en Informatique (arrêté du 7 août 2006) présentée et soutenue

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

Mise à jour Stable Gestion des talents juin 2014 Mise à jour de la version stable St. Gallen 02.06.2014

Mise à jour Stable Gestion des talents juin 2014 Mise à jour de la version stable St. Gallen 02.06.2014 Mise à jour Stable Gestion des talents juin 2014 Mise à jour de la version stable St. Gallen Explication des icones Dans chaque communication de mise à jour, les icones utilisés ont la signification suivante:

Plus en détail

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Avant de commencer à travailler avec le produit, il est nécessaire de comprendre, à un haut niveau, les problèmes en réponse desquels l outil a été

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Business Intelligence avec SQL Server 2012

Business Intelligence avec SQL Server 2012 Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Extrait Alimenter l'entrepôt de données avec SSIS Business

Plus en détail

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE Contact : Mme Lapedra, stage@isoft.fr ISoft, éditeur de logiciels, est spécialisé dans l informatique décisionnelle et l analyse de données. Son expertise

Plus en détail

Chp. 4. Minimisation d une fonction d une variable

Chp. 4. Minimisation d une fonction d une variable Chp. 4. Minimisation d une fonction d une variable Avertissement! Dans tout ce chapître, I désigne un intervalle de IR. 4.1 Fonctions convexes d une variable Définition 9 Une fonction ϕ, partout définie

Plus en détail

Bases de données. Chapitre 1. Introduction

Bases de données. Chapitre 1. Introduction Références : Bases de données Pierre Wolper Email : pw@montefiore.ulg.ac.be URL : http : //www.montefiore.ulg.ac.be/~pw/ http : //www.montefiore.ulg.ac.be/ ~pw/cours/bd.html Henry F. Korth, Abraham Silberschatz,

Plus en détail

Graphes de trafic et Statistiques utilisant MRTG

Graphes de trafic et Statistiques utilisant MRTG Graphes de trafic et Statistiques utilisant MRTG L affichage des statistiques graphiques pour l évaluation de la bande passante Internet utilisée est considéré comme une fonction optionnelle sur un routeur.

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Modélisation de bases de données : Le modèle relationnel

Modélisation de bases de données : Le modèle relationnel Modélisation de bases de données : Le modèle relationnel Rappel chapitre 1 C est quoi un modèle? Type de modèle : Modèle hiérarchique Modèle réseau Modèle objet Modèle relationnel Cours BD Dr REZEG K 1

Plus en détail

Encryptions, compression et partitionnement des données

Encryptions, compression et partitionnement des données Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des

Plus en détail

Utiliser un tableau de données

Utiliser un tableau de données Utiliser un tableau de données OBJECTIFS : - Définir une Base de Données. - Présentation : tableau de données. - Création d un tableau de données - Gestion d un tableau de données. - Trier et Filtrer des

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus

Plus en détail

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Techniques d interaction dans la visualisation de l information Séminaire DIVA Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques

Plus en détail

Introduction à la statistique descriptive

Introduction à la statistique descriptive Chapitre chapitre 1 Introduction à la statistique descriptive Les méthodes de la statistique descriptive (statistique déductive) permettent de mener des études à partir de données exhaustives, c est-à-dire

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

Location de voitures en Thailande. Écrit par Administrateur Samedi, 29 Janvier 2011 06:22

Location de voitures en Thailande. Écrit par Administrateur Samedi, 29 Janvier 2011 06:22 La location de voitures en Thaïlande peut être un moyen très pratique de se déplacer à conditions de respecter certaines règles et d'être toujours très prudent. Louer une voiture en Thailande offre de

Plus en détail

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1 Les clusters Linux 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com white-paper-cluster_fr.sxw, Version 74 Page 1 Table des matières Introduction....2 Haute performance (High

Plus en détail

les Formulaires / Sous-Formulaires Présentation...2 1. Créer un formulaire à partir d une table...3

les Formulaires / Sous-Formulaires Présentation...2 1. Créer un formulaire à partir d une table...3 Présentation...2 1. Créer un formulaire à partir d une table...3 2. Les contrôles :...10 2.1 Le contrôle "Intitulé"...11 2.2 Le contrôle "Zone de Texte"...12 2.3 Le contrôle «Groupe d options»...14 2.4

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

MyReport, LE REPORTING SOUS EXCEL

MyReport, LE REPORTING SOUS EXCEL MyReport, LE REPORTING SOUS EXCEL De la simplicité d Excel à l autonomie des utilisateurs Avec MyReport : De la manipulation en moins. De l analyse en plus! Tous les services de l entreprise utilisent

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Bases de données élémentaires Maude Manouvrier

Bases de données élémentaires Maude Manouvrier Licence MI2E- 1ère année Outils en Informatique Bases de données élémentaires Maude Manouvrier Définitions générales et positionnement du cours dans la formation Vocabulaire relatif aux bases de données

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren) La structure de la base de données et l utilisation de PAST La structure de la base de données données originales SPÉCIMENS Code des spécimens: Identification des spécimens individuels. Dépend du but de

Plus en détail

Bases de données avancées Introduction

Bases de données avancées Introduction Bases de données avancées Introduction Dan VODISLAV Université de Cergy-Pontoise Master Informatique M1 Cours BDA Plan Objectifs et contenu du cours Rappels BD relationnelles Bibliographie Cours BDA (UCP/M1)

Plus en détail

REQUEA. v 1.0.0 PD 20 mars 2008. Mouvements d arrivée / départ de personnels Description produit

REQUEA. v 1.0.0 PD 20 mars 2008. Mouvements d arrivée / départ de personnels Description produit v 1.0.0 PD 20 mars 2008 Mouvements d arrivée / départ de personnels Description produit Fonctionnalités L application Gestion des mouvements d arrivée / départ de Requea permet la gestion collaborative

Plus en détail