Ingénierie d aide à la décision



Documents pareils
4.2 Unités d enseignement du M1

Introduction au datamining

Introduction au Data-Mining

Master Informatique Aix-Marseille Université

Apprentissage Automatique

Introduction au Data-Mining

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

données en connaissance et en actions?

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Agenda de la présentation

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

MABioVis. Bio-informatique et la

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Semestre 1. Objectifs Approfondissement de l environnement Java et de son interface de programmation d applications : réseaux, et processus.

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

La classification automatique de données quantitatives

Intérêt du découpage en sous-bandes pour l analyse spectrale

Coup de Projecteur sur les Réseaux de Neurones

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Débouchés professionnels

Identification de nouveaux membres dans des familles d'interleukines

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

Pourquoi l apprentissage?

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Didier MOUNIEN Samantha MOINEAUX

Big Data et Graphes : Quelques pistes de recherche

DUT Statistique et Traitement Informatique des Données (S.T.I.D.)

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Big Data et Graphes : Quelques pistes de recherche

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

DESCRIPTIF DE MODULE S4 ADG : Mathématique pour la Gestion

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Programmes des classes préparatoires aux Grandes Ecoles

Intégration de la dimension sémantique dans les réseaux sociaux

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Introduction à l approche bootstrap

L apprentissage automatique

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

Table des matières. I Mise à niveau 11. Préface

Complet Intuitif Efficace. Références

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Extraction d informations stratégiques par Analyse en Composantes Principales

Solution de stress test Moody s Analytics

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Stages de Formation en Statistique Appliquée et Logistique

Entrepôt de données 1. Introduction

Laboratoire 4 Développement d un système intelligent

CarrotAge, un logiciel pour la fouille de données agricoles

UE 8 Systèmes d information de gestion Le programme

Coheris est agréé organisme de formation, n d agrément

Modélisation aléatoire en fiabilité des logiciels

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Les Entrepôts de Données

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Spécificités, Applications et Outils

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

Diplôme de Comptabilité et de Gestion. D é c r e t N d u 2 2 d é c e m b r e A r r ê t é d u 8 m a r s

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Découvrez le portefeuille de produits IBM SPSS

Introduction à la B.I. Avec SQL Server 2008

MAÎTRISE ÈS SCIENCES EN GESTION. MICROPROGRAMMES Exploitation de données en intelligence d affaires Analytique d affaires - Énergie 2014 ANNUAIRE

Quantification des Risques

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

Programme de l option Ingénierie d Aide à la Décision (IAD)

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Résumé des communications des Intervenants

Stages de Formation en Statistique Appliquée et Logistique

Les formations en cycle ingénieur

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Observatoire Economique et Statistique d Afrique Subsaharienne

Cybermarché et analyse comportementale

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

UNIVERSITÉ MOHAMMED VI POLYTECHNIQUE MASTERE SPÉCIALISÉ MILEO

MATHEMATIQUES ET SCIENCES POUR L INGENIEUR

Arbres binaires de décision

Évaluation et implémentation des langages

Analyse de grandes bases de données en santé

MANAGEMENT DES SYSTEMES D INFORMATION ET DE PRODUCTION MSIP

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Conseil et Ingénierie des Systèmes d Information d Entreprise

Ordonnancement robuste et décision dans l'incertain

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Transcription:

Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2. L exploration de données. La Recherche Opérationnelle nous permet de proposer des méthodes scientifiques, combinant techniques de développement informatique, outils mathématiques, processus de modélisation et connaissance du Génie Industriel, afin de traiter des problèmes d optimisation, d aide à la décision et d évaluation de performances liées aux organisations et procédés du monde réel. Les principales applications concernent les transports, l aide à la mobilité, les télécommunications, les systèmes de production, les procédés industriels. Les outils et modèles associés sont ceux du développement informatique (technologies objet, systèmes d information, outils de simulation, bibliothèques d optimisation ou de gestion de contraintes, etc.), de l optimisation continue ou combinatoire (graphes, ordonnancement, complexité algorithmique, approximation, etc.), de la programmation mathématique (programmation linéaire, entière, mixte, quadratique, convexe, etc.), du calcul stochastique (files d attente, stratégies dans l incertain, etc.), de l aide à la décision (optimisation multi-critère, théorie des jeux, modélisation micro-économique, etc.). L exploration de données a pour but la découverte d informations intéressantes, utiles dans les très grandes bases de données. L énorme croissance de la taille des bases de données scientifiques et commerciales actuellement disponibles, ainsi que la croissance aussi rapide des performances des ordinateurs nécessitent des outils de traitement adaptés et performants. Le domaine de la fouille de données proposent des méthodes et des techniques mathématiques adaptées pour la résolution de ces classes de problèmes. Elles permettent de définir la précision de l énoncé de l objectif poursuivi (e.g. le critère de classification ou la mesure de discrimination) ainsi que la formulation des contraintes imposées à la solution (e.g. trouver une partition, un recouvrement ou une hiérarchie). Nous mettons en œuvre ainsi, des outils mathématiques puissants pour construire des algorithmes très performants. 1

1.1 Débouchés Professionnels 1.1 Débouchés Professionnels L objectif principal est de former des scientifiques possédant une connaissance solide sur les techniques avancées de l exploration des données ainsi que la recherche opérationnelle. Les compétences de ces scientifiques, peuvent être utilisées tout à la fois en recherche et développement ou en étude dans de nombreux secteurs d activités. Les diplômés peuvent être employés comme directeurs de projets, concepteurs d outils logiciels spécialisés, ingénieurs de recherche et de développement, ou consultants dans certains secteurs : Aéronautique, Automobile, Énergie, Laboratoires, Banques, Assurances, Informatique d applications et de services. 1.2 Métiers Les métiers pratiqués seront : Ingénieurs employés par des éditeurs de logiciels, des SSII, et des services internes à de grandes entreprises. Ingénieurs des entreprises, concepteurs ou utilisateurs d outils de calcul, d évaluation de performances, d aide à la décision, de prévision. Ingénieurs de recherche et de développement, directeurs de projets en informatique ou consultants. 1.3 Entreprises concernés Entreprises Editeurs de logiciels : SAS,Ilog, BO, Oracle,etc. SSII : Cap Gemini, Sopra, Unilog,etc. Services internes de grandes entreprises : Secteur Manufacturier, Transports, Télécommunications, Secteur pétrolier, etc. Entreprises françaises qui ont un pôle R&D en RO : Airfrance SNCF EDF/GDF France Telecom Bouygues Bouygues Telecom Amadeus 2 La recherche opérationnelle Le Recherche Opérationnelle (RO) est la discipline des méthodes scientifiques utilisables pour élaborer de meilleures décisions. Elle permet de rationaliser, de simuler et d optimiser l architecture et le fonctionnement des systèmes de production ou d organisation. La RO propose des modèles pour analyser des situations complexes et permet aux décideurs de faire les choix les plus efficaces grâce à : une meilleure compréhension des problèmes, 2

2.1 Cours fondamentaux une vision complète des données, la considération de toutes les solutions possibles, des prédictions prudentes de résultats incluant une évaluation des risques, des outils et des méthodes modernes d aide à la décision. Les apports de la RO très utiles dans les domaines les plus divers : de l organisation des lignes de production de véhicules à la planification des missions spatiales, de l optimisation des portefeuilles bancaires, etc. 2.1 Cours fondamentaux 1. Programmation linéaire - 20H. 2. Théorie de la complexité - 15H. 3. Modèles décisionnels - 20H. 4. Programmation par contraintes et ordonnancement - 30H. 5. Modélisation de préférences - aide multicritère à la décision - 30H. 6. Théorie de graphes et application - 30H. 2.1.1 Programmation linéaire - 20H Objectif Des problèmes concrets issus de domaines divers peuvent être formulés comme des programmes linéaires. Le but de ce cours est d étudier la modélisation et les méthodes de résolution de ces problèmes, basées sur la programmation linéaire et la programmation en nombres entiers. 1. Méthode du simplexe, méthode révisée du simplexe. 2. Dualité, méthode duale du simplexe, interprétation économique. 3. Modèles de programmes en nombres entiers, méthode par séparation et évaluation. 4. Relations min-max, séparation et optimisation, méthode de coupes. 2.1.2 Théorie de la complexité - 15H Objectif Les différentes classes de complexité des problèmes d optimisation combinatoire sont présentées. Les différents types d algorithmes approchés pour résoudre les problèmes ainsi que les liens entre complexité et approximation seront également étudiés. 1. Performance d un algorithme approché, algorithmes gourmands, schémas d approximation, 2. Classes de problèmes. 3

2.2 Cours spécialisés & Applications 2.1.3 Modèles décisionnels - 20H Objectif Le modèles de comportement décisionnel, individuel et collectif de la RO et de l la sont présentés, ainsi que les outils d analyse. 2.1.4 Programmation par contraintes et ordonnancement - 30H. Objectif Les modèles et Les méthodes utilisés en pratique pour résoudre des problèmes d ordonnancement d ateliers et de services sont étudiés. 1. Modélisation et résolution de problèmes à l aide de la programmation par contraintes. 2. Types de contraintes, principaux algorithmes et heuristiques de résolution. 3. La fonction ordonnancement en entreprise 4. Procédures par séparation et évaluation : application au problème d ordonnancement à cheminements multiples. 5. Modélisation mathématique et ordonnancement : application à des problèmes d emploi du temps. 2.1.5 Modélisation de préférences - aide multicritère à la décision - 30H. 1. Concepts fondamentaux en modélisation des préférences et aide multicritère à la décision. 2. Théorie du choix social, procédures de vote, résultats fondamentaux. 3. Désagrégation dans le cadre du critère unique de synthèse et des méthodes de comparaison par paires. 4. Mesurage, théorie de la signifiance. 5. Prise en compte de données ordinales, qualitatives. 6. Optimisation combinatoire multicritère, approximation de l ensemble des solutions efficaces. 2.1.6 Théorie de graphes et application - 30H 1. Graphes : concepts de théorie des graphes, 2. Etude approfondie de problèmes classiques de cheminement, arbre, flot, couplage,etc. 3. Extensions k-meilleures solutions et multi-objectifs de certains de ces problèmes. 4. etc. 2.2 Cours spécialisés & Applications 1. Prise de décision et incertitude - 20H 2. Méthodologies et application en décision - 20H 4

2.2.1 Prise de décision et incertitude - 20H 1. Rappel de la théorie des probabilités, Bayes, arbres de décision. 2. Modèles non classiques de l incertain. 3. Théorie de la décision qualitative ; 4. Réseaux bayésiens. 5. Applications. 2.2.2 Méthodologies et application en décision - 20H Objectif Le but étant de se familiariser avec des outils (programmation et manipulation de logiciels) nécessaires à la résolution sur machine des problèmes de taille réelle. Ce module est également l occasion de sensibiliser à la diversité des applications possibles. 3 L exploration des données Nous nous intéressons aux classes de problèmes suivants : La discrimination ou classification supervisée : il s agit de construire une fonction qui sépare au mieux les bonnes et les mauvaises entités d un ensemble donné, et classifie aussi correctement que possible de nouvelles entités. La classification automatique ou classification non supervisée : il s agit de trouver des sous-ensembles d un ensemble d entités donné qui soient homogènes (selon un critère de similarité) et bien séparés. Découvertes de relations : étant donné un ensemble d entités et des mesures ou observations faites sur ces entités, il s agit de trouver des relations satisfaites entre la plus grande part, d entre elles. Analyse de réseaux sociaux : étant donné un ensemble d acteurs ainsi que les relations entre eux, il s agit de découvrir les rôles associés aux acteurs, d établir les communautés au sein du réseau, etc. 3.1 Cours fondamentaux 1. Fouilles de données (Data Mining) & Application - 20H 2. Apprentissage statistique - 30H. 3. Réseaux de neurones - 30H. 4. Apprentissage automatique - 30H. 5

3.1 Cours fondamentaux 3.1.1 Analyse statistique des données - 30H 1. Description unidimensionnelle de données, Médiane, Moyenne, Mode, Étendue, Intervalle interquartile, Variance et écart-type ; 2. Description bi-dimensionnelle et mesures de liaison entre variables, Coefficient de corrélation, Matrice de corrélation ; 3. Description multi-dimensionnelle de données, Analyse en composantes principales, Analyse discriminante, Analyse des correspondances, Analyse des données temporelles et évolutives 3.1.2 Fouilles de données (Data Mining) - 20H Objectif L objectif de ce cours est de présenter les algorithmes de fouille de données et d extraction de connaissances. Une méthodologie de comparaison entre les différentes techniques est développée. 1. Introduction aux fouilles de données 2. Techniques de l extraction de connaissances à partir de données (a) Apprentissage supervisé Arbre de décision et régression. Bayésien naif. Réseaux bayésiens. (b) Apprentissage non supervisé Règle d associations et motifs fréquents. Classification ascendante hiérarchique. 3. Application : Web Mining 3.1.3 Apprentissage statistique - 30H 1. Estimation à partir de données, 2. Minimisation du risque empirique (ERM), Consistance de l approche ERM, Dimension VC, 3. Minimisation du risque structurel (SRM), 4. Machines à Vecteurs de Support (SVM), hyperplan séparateur optimal, cas non séparable, SVM comme classificateur, SVM multi-classes, SVM comme régresseur, 5. Modèles stochastiques, propriétés de Markov, modèles de Markov cachés (HMM), apprentissage. 6

3.2 Différents types de fouilles de données 3.1.4 Réseaux de neurones - 30H 1. Introduction aux Réseaux de Neurones et au logiciel SNNS. 2. Aspects Formel des Réseaux de Neurones. Régression Linéaire. 3. Perceptron : Perceptron multi-couches. 4. Les Réseaux RBF. 5. Adaline et Perceptron multi-couches. 6. Réseaux récurrents. 7. Adaptative Resonance Theorie. 8. Architecture de Hopfield. Architecture de Kohonen 9. Projet. Méthodes et moyens pédagogiques et projet. Logiciel de simulation SNNS. Cours magistraux, travaux dirigés, travaux pratiques 3.1.5 Apprentissage automatique - 30H 1. Méthodes symboliques : Formulation d un problème d apprentissage symbolique, Les solutions dans un espace partiellement ordonné : l espace des versions, Elimination des candidats, Extension au cas des données incomplètes, Biais de langage, Critères de préférence d une solution : recherche heuristique d une meilleure solution. Méthodes descendantes et opérateurs de spécialisation, Méthodes ascendantes et opérateurs de généralisation, Utilisation de connaissances et réduction de l espace de recherche. Représentations en logique de prédicats : la programmation logique inductive, Apprentissage explicatif/descriptif, Apprentissage de prédicats (FOIL). 2. Méthodes sub-symboliques : Les algorithmes génétiques. Les systèmes classifieurs. Apprentissage par renforcement et planification. 3.2 Différents types de fouilles de données 1. Fouille de données textuelles - 15H. 2. Fouille de données visuelles - 15H. 3. Analyse de réseaux sociaux - 30H. 7

3.3 Outils & Applications 3.2.1 Fouille de données textuelles - 20H 1. Choix des unités de décompte, segmentation et numérisation d un texte, fréquence, 2. mesures de la richesse du vocabulaire, les segments répétés, recherche de co-occurrences, 3. classification des éléments d un tableau lexical, classification des fichiers d enquêtes, 4. typologies, visualisation, séries textuelles chronologiques, analyse des correspondances textuelle, analyse discriminante textuelle. 3.2.2 Fouille de données visuelles - 20H 1. Acquisition et restitution de données visuelles, 2. Méthodes de base du traitement de données visuelles statiques, échantillonnage bi-dimensionnel, quantification, transformation de Fourier, filtrage et pré-traitement, 3. Restauration, Réduction de redondance, compression, compactage, 4. Extraction de contour, Segmentation, Reconnaissance d objets, Indexation et recherche par le contenu. 3.2.3 Analyse de réseaux sociaux - 30H 1. Fondements : Acteurs, Relations, Représentation par graphes et/ou matrices. 2. Exemple : le petit monde, les communautés sur internet, etc. 3. Calculs en analyse de réseaux sociaux : Centralité de degré, Centralité d intermédiarité, Centralité de Proximité. Centralité de prestige, Centralisation de pouvoir. Clustering coefficient, Degré de cohésion, Degré de densité. Longueur du chemin, Radiality, Reach. Équivalence structurale, Trou structural, Multiplexité. 3.3 Outils & Applications 1. Visualisation des données - 30H. 2. E-Commerce & CRM (Customer Relations Management)- 30H. 3.3.1 Visualisation des données - 30H 1. Outils élémentaires de visualisation en statistique descriptive, données numériques, données symboliques, données complexes ; 2. cartes factorielles, représentation de graphes, représentation tridimensionnelle ; 3. utilisation de techniques de réalité virtuelle pour la fouille de données. 8

3.3 Outils & Applications 3.3.2 E-Commerce & CRM (Customer Relations Management) - 30H 1. Cycle de vie du client : Prospect, Réactive, Client active, etc. 2. Techniques de Fouilles de données (analyse de logs) pour : Déterminer le profil utilisateur pour un cycle de vie données. Comparer les profils similaires afin d en conclure des comportements similaires. Intégration des techniques des réseaux sociaux pour la découverte de communautés. 9