PROJET SODAS. Quels sont les facteurs qui font gagner une écurie en Formule1? Master MIDO

Transcription

1 Tan Christophe Tran Kinh Julienne Data Mining Mr Diday PROJET SODAS Quels sont les facteurs qui font gagner une écurie en Formule1? Université de PARIS-DAUPHINE Master MIDO Spécialité ISF

2 SOMMAIRE I) Présentation du Data Mining et du logiciel SODAS. p3 A/ Émergence du Data Mining... p3 B/ Analyse des données symboliques... p3 1) Individus de premier ordre et de second ordre... p4 2) Le tableau de données symboliques... p4 3) Les objets symboliques p5 4) Les apports de l analyse de données symboliques... p5 C/ Présentation du logiciel SODAS p7 1) Fonctionnement du logiciel.. p7 2) Interface du logiciel. p8 II) Construction Base de données... p9 A) Structure de la base p9 B) Variables et requêtes... p10 1) Explication des champs de description... p10 2) Création des requêtes p12 3) Démarrage de SODAS : DB2SO.. p13 III) Les Méthodes. p18 A) SOE (Symbolic Objects Editors) p18 1) Principe.. p18 2) Application. p18 B) STAT. p24 C) DIV p27 D) PYR (Pyramidal Clustering on Symbolic Objects)... p30 E) Synthèse. p32 CONCLUSION.. p35 BIBLIOGRAPHIE p34 2

3 I) Présentation du Data Mining et du logiciel SODAS A/ Émergence du Data Mining Les entreprises subissent aujourd hui une intensification de la concurrence ou de la pression des clients. Ces facteurs les poussent à améliorer constamment la qualité de leurs produits et à accélérer de manière générale leurs processus de mise sur le marché de nouveaux produits et services. Parallèlement, les systèmes d informations se sont développés pour contribuer à améliorer la productivité des traitements. Depuis deux décennies environ, l attention des entreprises s est progressivement détournée des systèmes opérationnels pour se porter sur des systèmes décisionnels qui contribuent véritablement à la différenciation stratégique de l entreprise. Les fournisseurs de solutions informatiques ont donc développé des offres nouvelles autour du concept de «Data Warehouse» ou «entrepôt de données», vastes bases de données décisionnelles détaillées, orientées sujet et historisées. Ces entrepôts de données disposent bien sûr de capacités de reporting, c est-à-dire de présentation de données ou d agrégats sous forme de tableaux ou de graphiques, mais ils permettent rarement de découvrir des associations ou des tendances qui se nichent dans les tréfonds d une base de données, d où l émergence du Data Mining. En effet, le Data Mining est une réponse au besoin croissant qu ont les entreprises d un surcroît de productivité dans l analyse de leurs données. L'objectif est alors de synthétiser des informations stockées dans une base de données relationnelle (BDR) de manière à effectuer des analyses ultérieures non pas sur les données initiales mais sur les résultats obtenus. B/ Analyse des données symboliques Résumer les bases de données de taille parfois gigantesques par leurs concepts sous-jacents de façon à en extraire des connaissances nouvelles constitue une tâche d'importance grandissante. Savoir représenter ces connaissances par des expressions à la fois symboliques et numériques, savoir manipuler et utiliser ces expressions dans le but d'aider à décider, de mieux analyser, 3

4 synthétiser et organiser les observations, tel est l'objectif que s'assigne l'analyse des données symboliques. Les concepts qu'ils soient fournis (une région, un groupe socio-économique, un type d'entreprise ) ou obtenus par classification automatique (nuées dynamiques, hiérarchie, pyramide, treillis de concepts) peuvent être modélisés par des données plus complexes dites «symboliques» où les propriétés peuvent s'exprimer par des valeurs qualitatives ou quantitatives mais aussi par des intervalles, des histogrammes ou des valeurs multiples munies de règles et de taxonomies. Ces objets symboliques booléens ou modaux permettent non seulement de décrire les concepts par leurs propriétés communes (booléennes, probabilistes...) mais aussi de calculer leur extension dans l'ensemble des individus qu'ils représentent (des habitants, des employés, des entreprises ). 1) Individus de premier ordre et de second ordre Les bases de données qui se développent partout dans le monde prenant parfois des tailles gigantesques possèdent deux niveaux d'informations. Le premier concerne les entités de base appelées parfois «tuples» ou «individus». Le second concerne des entités d'un niveau plus élevé que l'on peut appeler «concepts» pouvant représenter de grandes quantités d'informations, obtenues par classification automatique ou par une requête. 2) Le tableau de données symboliques Un «tableau de données symboliques» autorise plusieurs valeurs par case, ces valeurs étant parfois pondérées et liées entre elles par des règles et des taxonomies. Plusieurs sources d'unités statistiques («individus») munies de variation interne sont évoquées comme les bases de données, les données stochastiques, les séries chronologiques, les données confidentielles... L'Analyse des données symboliques a pour objectif d'étendre l'analyse des données traditionnelles aux tableaux de données symboliques pour en extraire des objets symboliques. Différents types d'objets symboliques sont considérés selon que les variables décrivant les individus sont à valeur «intervalle», «histogramme» ou «variable aléatoire». On propose en particulier une modélisation stochastique où pour chaque variable, chaque individu est décrit par 4

5 une variable aléatoire, ces variables aléatoires pouvant être dépendantes et de lois différentes d'un individu à l'autre. Les treillis constituent la structure sous-jacente des objets symboliques. Les «pyramides classifiantes» permettent de réduire les classes de ce treillis et d'en donner une représentation graphique. 3) Les objets symboliques Afin de résumer le contenu d une base de donnée, les méthodes d analyse de données symboliques fournissent généralement en sortie des «descriptions» de classes d individus obtenues par «généralisation». Partant de ces descriptions, il est important de pouvoir retrouver les classes qu elles résument. Les objets symboliques permettent d effectuer ce retour. Elles permettent de décrire les concepts par leurs propriétés communes mais aussi de calculer leurs extensions dans l ensemble des individus qu ils représentent. 4) Les apports de l analyse de données symboliques Par rapport aux approches classiques, l'analyse des données symboliques présente les caractéristiques et ouvertures suivantes : - Elle s'applique à des données plus complexes. En entrée, elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité ) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d'objets symboliques. - Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et spécialisation, d'ordre et de treillis, de calcul d'extension, d'intention et de mesures de ressemblance tenant compte des connaissances sous-jacentes basées sur les règles et taxonomies. - Elle fournit des représentations graphiques exprimant entre autres la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera 5

6 représenté par une zone, elle-même exprimable sous forme d'objet symbolique, et pas seulement par un point. Les principaux avantages des objets symboliques peuvent se résumer comme suit : - Ils fournissent un résumé de la base plus riche que les données agrégées habituelles car ils tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites, ainsi que des taxonomies fournies. - Ils sont explicatifs puisqu'ils s'expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels). - En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symbolique de second niveau peut s'appliquer. - Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville. - Ils peuvent être facilement transformés sous forme de requête d'une Base de Données. Ceci a au moins les deux conséquences suivantes : 1) Ils peuvent propager les concepts qu'ils représentent d'une base à une autre (par exemple, d'un pays à l'autre de la communauté européenne). 2) Les objets symboliques formés à partir de la base par les outils de l'analyse des données symboliques permettent de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes. 6

7 C/ Présentation du logiciel SODAS 1) Fonctionnement du logiciel Il s'agit d'un logiciel prototype public (accessible à Il est issu de la collaboration de 17 équipes dans le cadre d'un projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du domaine. Il permet l'extension des méthodes de l'analyse des données classiques (Statistiques descriptives, Analyse factorielle, Classification Automatique, Arbres de décisions...) à des données symboliques. Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques. Les principales étapes d'une analyse des données dans SODAS, sont les suivantes : - Partir d'une base de données relationnelle (ORACLE, ACCESS...) - Définir ensuite un contexte par des unités statistiques de premier niveau (habitants, familles, entreprises, accidents...), les variables qui les décrivent, des concepts (villes, groupes socioéconomiques, scénario d'accident...). - Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). - Ce contexte est défini par une requête de la base. - On construit alors un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées. 7

8 Le logiciel SODAS permet alors d analyser les données symboliques sous forme d histogrammes, d étoiles..., de les comparer par des calculs de dissimilarité, de les classifier, de donner une représentation graphique et une description symbolique des classes obtenues (hiérarchie divisive, hiérarchie ou pyramide ascendante de concepts), d'en donner une représentation graphique plane (analyse en composantes principales), de les discriminer (analyse factorielle discriminante, arbres de décision)... 2) Interface du logiciel Application des méthodes Les différentes méthodes proposées 8

9 II) Construction Base de données A) Structure de la base La base de donnée F1.mdb est celle qui nous servira pour notre étude. Il s agit d une base de données relationnelles sous format Access. Elle a été créée entièrement à partir de du site Internet : Cette base de donnée regroupe 22 pilotes et 11 écuries. Les informations concernant les pilotes et les écuries sont notamment le nom, l age, le nombre de victoire Dans le but d avoir une vision plus précise de cette base de données et de son organisation, le schéma suivant permet de montrer les différentes tables créées ainsi que leurs relations entre elles. Schéma relationnel de la base de données : 9

10 Notre base est donc constituée de deux tables. Nous allons donc présenter en détail chacune des tables composant la base de donnée : - La table Team pour les concepts, qui contient toutes les informations concernant les écuries de Formule 1. - La table Pilotes pour les individus, stocke le profil des pilotes. Pour définir la structure de notre base, il a fallu au préalable établir des critères qui sont susceptibles d influencer le résultat d une course tels que l expérience des pilotes et la catégorie de la voiture. Chacun des critères est évalué grâce à l un des attributs que nous avons inclus dans les tables de la base. En établissant la description des individus et des concepts, nous gardons à l esprit qu il s agit ici de déceler les facteurs qui permettent de gagner en Formule 1. B) Variables et requêtes 1) Explication des champs de description Les individus sont les pilotes et sont décrits par les variables suivantes : - Nom : c est le nom du pilote - Nationalité : pays d origine du pilote - Age : age du pilote - Début_en_F1 : année où le pilote a débuté sa carrière en Formule 1. - Expérience : caractérise l expérience du pilote en Formule 1. - NbGP : nombre de Grand Prix couru par le pilote. - NbVictoire : nombre de victoire obtenue par le pilote. - NbPoduim : nombre de fois où le pilote est monté sur le podium. - Nb_dans_les_points : nombre de fois où le pilote a terminé la course dans les points. - Nb_Pole : nombre de pole position obtenu par le pilote. - Nb_meilleur_Tour : nombre de fois où le pilote a terminé la course avec le meilleur tour. - Nb_Pts_marqués : nombre total de points marqués par le pilote durant sa carrière. 10

11 - Ratio_pts : c est le ratio points du pilotes, obtenu en divisant le nombre de points total marqués par le nombre total de Grand prix. - Champion_du_monde : Oui si le pilote a déjà été champion du monde. - Team : écurie avec lequel le pilote est sous contrat. - ClTeam : caractérise la catégorie de l écurie. La classe Expérience est déterminée en fonction du nombre de Grand Prix. On a donc réparti les pilotes selon 3 catégories : - Débutant : le pilote compte mois de 21 Grand Prix à son actif (c'est-à-dire moins d une saison complète à son actif). - Confirmé : le pilote compte plus de 21 Grand Prix à son actif (c'est-à-dire que le pilote compte plus d une saison complète à son actif). - Expérimenté : le pilote compte plus de 100 Grand Prix à son actif. La classe ClTeam est déterminée en fonction du classement des derniers championnats et du budget de l écurie. Ainsi on obtient la répartition suivante pour les 11 écuries : - Top : Ferrari, McLaren et BMW Sauber, qui sont considérés comme les favoris. - Bon : Renault, Williams et Toyota, qui sont considérés comme des outsiders. - Correct : Red Bull Racing, Honda. - Petite : Toro Rosso, Super Aguri et Force India, qui sont considérés comme les écuries les plus faibles du plateau. Les concepts sont donc les 11 écuries engagées en Formule 1. Les variables de description des concepts sont les suivantes : - Nom : nom de l écurie. - Age : ancienneté de l écurie (calculé à partir de sa date de création). - NbGP : nombre total de Grand Prix auquel l écurie a participé. - NbVictoire : nombre total de victoire de l écurie. - NbTitres : nombre de titre de champion du monde des constructeurs. - Classement2007 : classement de l écurie lors de la saison précédente (2007). 11

12 2) Création des requêtes Les requêtes utilisées sont au nombre de deux. La requête individu_concept renvoie les individus du premier ordre et leur description. Elle permet ainsi de ressortir de la base les individus, les concepts puis les caractéristiques des individus sous la forme suivante : Au travers de DB2SO et ODBC, SODAS va pouvoir transformer ces tuples en tableau symbolique. On passe ainsi au niveau du dessus en matière d information puisque SODAS présente une description des concepts en agrégeant les caractéristiques des individus (ordinal, nominal) en champ symboliques (intervalles, probabiliste...) La construction de la requête individu_concept : 12

13 La requête concept_description permet d ajouter des colonnes de description du concept dans SODAS. Elle permet ainsi de réaliser ce que l on appelle des «add single». Elle est constituée de la manière suivante : La construction de la requête concept_description : 3) Démarrage de SODAS : DB2SO DB2SO est un élément du logiciel SODAS qui permet à l utilisateur de construire un ensemble d assertions à partir de données stockées dans une base de données relationnelle. Il est supposé qu un ensemble d individus et stocké dans une base de données et que ces individus sont distribués dans des groupes. Alors, DB2SO peut construire une assertion pour chaque groupe 13

14 d individus. Dans ce processus, les variables mère/fille et les taxonomies sur des domaines de variables peuvent aussi être associées à des assertions générées. Pour que SODAS puisse exploiter les données de notre base, il convient de préparer la structure des tables en fonctions de convention propres aux données symboliques. Pour ce faire, nous avons crée deux requêtes : individu_concept et concept_description. Ces deux requêtes nous ont donc permis de disposer les données de manières exploitables pour DB2SO, et par la même SODAS. DB2SO est invoqué à partir Import dans SODAS file. 14

15 Dans DB2SO, cliquer sur new, puis Source de données machine et Ms Access Database. 15

16 Après avoir défini la base de données F1.mdb, il s agit d exécuter chaque requête, que nous avons vu précédemment, de la façon suivante : 16

17 Dans Modify, cliquer sur Add single permet ainsi d ajouter la deuxième requête qui nous donne les concepts ainsi que leurs descriptions. Après les avoir toutes exécutées, DB2SO nous fournit un récapitulatif reprenant toutes les variables et tous les concepts définis. 17

18 Il s agit ensuite d enregistrer la session en un fichier *.gaj par l intermédiaire de la commande File/Save. Ensuite, il faut exporter ce fichier (File/Export) pour créer un nouveau fichier SODAS de type *.sds. Ce fichier sera la base de toutes les applications SODAS. III) Les Méthodes A) SOE (Symbolic Objects Editors) 1) Principe La méthode SOE permet de représenter les variables sous la forme de tableaux ou de graphes selon le concept sélectionné, cet éditeur permet donc aux utilisateurs de visualiser tous les objets symboliques présents dans SODAS et éventuellement d effectuer des modifications basiques des données. Par ailleurs il permet aussi de visualiser des représentations graphiques en 2D ou en 3D, ainsi qu une représentation SOL (Symbolic Object Language) de chaque objet symbolique. 2) Application Nous avons retenu ici les 2 meilleures écuries et les 2 dernières écuries du dernier championnat (2007), afin de pouvoir déterminer ce qui les différencient le plus. Les Objets que nous analysons sont donc : Ferrari, BMW Sauber, Toro Rosso et Super Aguri. Les variables descriptives que nous analyserons pour chaque objet sont : - Age - Début_en_F1 - Expérience - NbGP - NbVictoire - NbPodium - Nb_dans_les_points 18

19 - Nb_Pts_marqués - Ratio_pts - Champion_du_monde - ClTeam Représentation 2D : une variable qualitative est représentée par un point de taille proportionnelle au nombre d occurrences rencontrées dans l étude. Si on souhaite avoir une vue plus précise de la répartition de la variable considérée, on peut faire appel à l autre représentation, le graphique en 3D. 19

20 Représentation 3D : ce graphique représente les variables qualitatives sous formes d histogrammes et les variables quantitatives par intervalle, matérialisé par un trait sur un axe. On observe que l écurie Ferrari fait partie des Top Team en Formule 1, qu elle possède un champion du monde dans ses rangs, qui plus est le tenant du tire, des pilotes ayant plus de 5 saisons de F1 dans leurs bagages, gagnant des grand prix et marquant des points (ratio point compris entre 2.4 et 3.3 points). 20

21 BMW Sauber qui est actuellement deuxième au classement des constructeurs, fait également parti des Top Team en Formule 1, avec des pilotes expérimenté et confirmé, ayant un ratio point compris entre 1.1 et 2.5 par Grand Prix. 21

22 L écurie Super Aguri fait parti des petites écuries courant au championnat du monde de Formule 1. On observe que malgré le fait que ses deux pilotes titulaires soient des pilotes confirmés, ils n ont jamais remporté de Grand Prix, marquent très peu de point voire quasiment jamais (ratio points compris entre 0 et 0.5). 22

23 On observe que Toro Rosso, l une des petites écuries du plateau, compte parmi ses rangs deux pilotes novices, et par conséquent des pilotes ayant très peu de Grand Prix à leurs actifs, mais surtout un ratio point quasi nul. 23

24 Interprétation générale : Les quatre représentations graphiques que SODAS nous fournit, présentent des éléments de similarité entre les écuries bien classées et mal classées au championnat du monde. En effet, on peut voir que les variables expérience, classement team et ratio point sont déterminantes dans la réussite en Formule 1. On constate bien que les deux premières écuries au classement des constructeurs possèdent dans leurs rangs des pilotes expérimentés ou confirmés, ayant un ratio point supérieur à un point par Grand Prix et surtout, elles sont cataloguées comme des Top Team. Alors que les deux écuries en bas du classement, catégorisées comme des petites écuries, possèdent eux en revanche, des pilotes débutants ou confirmés, ayant un ratio point nul. D après ces premières observations, on peut donc dire que pour gagner, il faut un pilote expérimenté ou confirmé, qui soient également talentueux afin d être capable de remporter des courses et une voiture capable de gagner. B) STAT La méthode STAT (Elementary Statistics On Symbolic Objects) étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. La méthode appliquée dépend du type des variables présentes dans la base et sont filtrées selon leur nature : - fréquences relatives pour les variables multi nominales : dans cette méthode, la fréquence relative des différentes modalités de la variable multi nominale est étudiée en prenant compte des éventuelles règles relatives à la base sur laquelle l étude est réalisée. - fréquences relatives pour les variables intervalles : deux paramètres sont nécessaires à l entrée de cette méthode : une variable intervalle, noté i et un nombre de classe, noté k. Un histogramme est construit pour la variable i sur un intervalle [a, b] découpé en k classes et où a représente la borne inférieure de i et b sa borne supérieure. Cette méthode permet de calculer la fréquence relative associée à la classe C k tout en tenant compte du recouvrement de cette classe C k par les valeurs intervalles de i et ceci pour tous les objets symboliques. 24

25 - capacités et min/max/mean pour variables multi nationales probabilistes : cette méthode permet de construire un histogramme des capacités des différentes modalités de la variable considérée. Dans cet histogramme, la capacité d une modalité est représentée par l union des différentes capacités. - biplot pour les variables intervalles : cette méthode permet de construire un objet symbolique par un rectangle dans le plan de deux variables sélectionnées par l utilisateur. La dimension de chaque coté du rectangle correspond à l étendue de la variation de l objet symbolique relativement à la variable de l axe considéré. STAT est donc un ensemble de méthodes permettant de voir sous forme de listing ou de graphe les statistiques élémentaires relatives à nos données symboliques. Cette méthode va nous permettre de préciser et de confirmer les interprétations de la méthode SOE. La variable étudiée ici est le ratio points. Le nombre de classes choisi est 6. On observe que la classe [0,1] prédomine et que plus le ratio point augmente, plus la fréquence des classes diminue. 25

26 La variable étudiée est le nombre de victoire et le nombre de classes choisi est 6. On peut voir qu il y a qu une poignée de pilote capable de remporter au moins 4 courses. Ces pilotes font partis des grosses écuries tels que Ferrari, McLaren, Renault On remarque que les deux écuries Super Aguri et Toro Rosso ont dans leur rang des pilotes ayant un ratio point compris entre 0 et 1. Et que Ferrari et BMW Sauber, eux possèdent des pilotes ayant un ratio point supérieur à 1. On retrouve donc bien le lien entre le ratio points et le succès en Formule 1, qui confirme les résultats obtenus avec SOE. Pour réussir en Formule 1, il faut donc une voiture qui permet aux pilotes de gagner et ainsi engranger des points. 26

27 C) DIV DIV (Divisive Clustering) est une méthode de classification hiérarchique qui commence avec tous les objets et procède par divisions successives de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l inertie. L algorithme se termine après k-1 divisions, où k représente le nombre de classes données comme inputs par l utilisateur. Application : Les variables utilisées ici sont le nombre de victoire et le ratio points. Ainsi il sera possible de voir la répartition entre le nombre de victoire et le ratio points. Le nombre de classes choisi est de 5. Le résultat obtenu est le suivant : PARTITION IN 2 CLUSTERS : : Cluster 1 (n=7) : BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India McLaren Cluster 2 (n=4) : Ferrari Renault Red Bull Racing Honda Explicated inertia : PARTITION IN 3 CLUSTERS : : 27

28 Cluster 1 (n=7) : BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India McLaren Cluster 2 (n=2) : Red Bull Racing Honda Cluster 3 (n=2) : Ferrari Renault Explicated inertia : PARTITION IN 4 CLUSTERS : : Cluster 1 (n=6) : BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India Cluster 2 (n=2) : Red Bull Racing Honda Cluster 3 (n=2) : Ferrari Renault Cluster 4 (n=1) : McLaren Explicated inertia : PARTITION IN 5 CLUSTERS : : Cluster 1 (n=6) : BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India 28

29 Cluster 2 (n=2) : Red Bull Racing Honda Cluster 3 (n=1) : Renault Cluster 4 (n=1) : McLaren Cluster 5 (n=1) : Ferrari Explicated inertia : THE CLUSTERING TREE : Classe 1 (Ng=6)!! [Ratio_pts <= ]!!! Classe 4 (Nd=1)!! [NbVictoire <= ]!! Classe 2 (Ng=2)!!! [NbVictoire <= ]!! Classe 3 (Ng=1)!!! [NbVictoire <= ]! Classe 5 (Nd=1) 29

30 On peut voir qu il y a 4 écuries (Ferrari, Renault, Red Bull Racing et Honda) dont la moyenne de victoire de leurs pilotes soit supérieur à 3.75, et que parmi ces 4 écuries, il y en a 2 (Ferrari et Renault), qui ont une moyenne supérieure à 8 victoires dont une écurie (Ferrari) où la moyenne de victoire des 2 pilotes est supérieur à Parmi les 7 autres écuries dont la moyenne du nombre de victoire de leurs pilotes est inférieure à 3.75, il y en a 6 qui ont un ratio points inférieur à 2.96 (moyenne des ratio points des 2 pilotes). D) PYR (Pyramidal Clustering on Symbolic Objects) Après avoir étudié les classes de nos variables symboliques avec STAT, nous allons utiliser la méthode PYR de SODAS qui permet de caractériser les classes en les organisant sous forme de paliers. La pyramide est outil intéressant pour représenter les classes empiétantes et situer les écuries les unes par rapport aux autres en fonction de critères définis. Les variables sélectionnées sont : le nombre de victoire, le ratio points, le classe de l écurie et l expérience des pilotes. Ces variables là sont celles qui ont été mise en avant par les méthodes précédentes comme facteur de victoire en Formule 1. 30

31 La pyramide semble bien nous indiquer que le nombre de victoire obtenu par les pilotes des écuries, le ratio points, la catégorie de l écurie et l expérience de ses pilotes sont des variables décisives dans la réussite en Formule 1. En effet, on peut voir que les trois petites écuries du plateau sont regroupées dans le bas de la pyramide alors que la plupart des écuries faisant parti du haut du classement 2008 sont regroupées dans le haut de la pyramide. 31

32 E) Synthèse Cette étude nous a permis de trouver quelques facteurs source de succès en Formule 1, tels que la performance de la voiture, l expérience et le talent des pilotes. Cependant, grâce à la pyramide, on a aussi pu voir les limites de notre étude. En effet, McLaren qui est pourtant une Top Team se retrouve en bas de cette pyramide, alors qu elle possède en ses rangs des pilotes ayant un ratio points supérieur à 2 points par Grand Prix (dont Lewis Hamilton qui possède un ratio point de 6.14). Ainsi il y a donc d autre facteur entrant en jeu. En effet, on ne tient pas compte dans cette étude des points marqués par les pilotes pour leurs écuries actuelles mais on prend en compte les points marqués dans la totalité de leurs carrières. Par le biais des transferts, on retrouve ainsi des pilotes totalisant un nombre important de point marqué durant leur carrière dans des petites écuries. Giancarlo Fisichella en est le parfait exemple. En effet, il a été longtemps pilote chez Renault, là où il a marqué la majorité de ses points, alors qu il est aujourd hui chez Force India et ne marque plus aucun point. Ainsi, on ne peut pas vraiment juger une écurie sur le total des points de ses pilotes. Pour McLaren, leurs pilotes possèdent un ratio points important, mais ont à peine une saison de Formule 1 dans leurs bagages ce qui explique ce ratio important. Ces deux pilotes que sont Lewis Hamilton et Heikki Kovalainen ont eu la chance de débuter leur carrière dans des écuries de premier rang et par conséquent, leurs probabilités de marquer des points en Grand Prix étaient donc plus grandes. On peut voir qu un pilote comme Kimi Raikkonen, le champion du monde en titre possède un ratio point inférieur de moitié à celui de Lewis Hamilton. Ceci s explique par le fait que Raikkonen a commencé sa carrière dans une petite écurie et a eu pour conséquence de lui faire participer à un certain nombre de Grand Prix sans qu il ait une chance de marquer un point. Ce qui réduit considérablement son ratio points. On peut donc dire que le plan de carrière d un pilote peut aussi influencer ce ratio et donc lui donne finalement une importance moindre. Au final, le critère qui importe le plus serait donc la voiture. Sans une bonne voiture, l écurie aura très peu de chance de gagner, peu importe le talent du pilote, qu il soit champion du monde ou non. On peut prendre par exemple Damon Hill qui a été sacrée champion du monde en 1996 et qui a ensuite rejoint en 1997 Arrows, une petite écurie qui n existe plus aujourd hui, pour ne marquer que 7 points contre 97 points lors de son sacre en

33 CONCLUSION Suite à ce projet, on constate que le logiciel SODAS est un outil très intéressant pour l extraction de données symboliques. Il permet non seulement de faire des analyses statistiques très poussées, mais en plus, permet de comparer les différents concepts enter eux. C est donc un logiciel qui peut conduire à des informations très intéressantes, à condition que la base de données de départ tienne compte de tous les paramètres pouvant influencer la problématique de notre sujet. Pour notre problématique, il s est avéré que les données utilisées étaient trop générales, et qu il aurait fallu faire une recherche plus approfondie, afin de trouver des données plus détaillées concernant les pilotes et les écuries. Ces données là nous auraient sûrement permises de faire une étude plus approfondie, et obtenir plus de certitude concernant les facteurs favorisant la réussite en Formule 1. En effet, on aurait pu rajouté dans notre base de données, des informations concernant les éléments de la voiture comme le moteur, la boîte de vitesse, 33

34 BIBLIOGRAHIE Cours Data Mining Supervisé 2008, E. Diday, Université Paris Dauphine. Site Internet :