Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.

Dimension: px
Commencer à balayer dès la page:

Download "Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE."

Transcription

1 Plan Data mining (partie 2) Introduction 1. Les tâches du data mining 2. Le processus de data mining Master MIAGE - ENITE Spécialité ACSI 3. Les bases de l'analyse de données 4. Les modèles du data mining Année universitaire Critères pour le choix d un logiciel Conclusion et perspectives 2 Data Mining : Cocktail de techniques Évolution des techniques de statistique + apports des SGBD, de l IA et de l apprentissage automatique Mélange de plusieurs disciplines implication de l utilisateur dans le processus Machine Learning Data Mining : Utilisateur ou Statisticien? Logiciel presse-bouton (apprentissage automatique non supervisé) Interaction avec l utilisateur au niveau de l apprentissage (paramètres) ou pendant la recherche du modèle performance et lisibilité du modèle Représentation de la Connaissance degré de transformation des données SGBD 3 Logiciel basé sur des techniques statistiques : experts requis les outils de DM intègrent des tests statistiques et des algorithmes de choix des meilleures techniques de modélisation en fonction des caractéristiques du cas 4

2 + Pouvoir de prédiction - Data Mining : Lisibilité ou Puissance Quelques techniques Compromis entre clarté du modèle et pouvoir prédictif - Compétences + réseaux neuronaux algorithmes génétiques réseaux bayésiens scores régression cluster arbres de décision analyse d association raisonnement à base de cas a) Associations b) Raisonnement à base de cas c) K-means, agglomération d) Arbres de décision e) Algorithmes génétiques f) Réseaux neuronaux g) Réseaux Bayésiens - Lisibilités des résultats a) Recherche d'associations ou analyse du panier de la ménagère Processus de découverte de connaissances non dirigée Étudier quels articles ont tendance à être achetés ensemble Issue du secteur de la distribution applicable dès que plusieurs actions faites par un même individu Utilisée pour découvrir des règles d'association but principal descriptif prédictive car résultats éventuellement situés dans le temps souvent départ d'une analyse règles claires et explicites pour l'utilisateur métier ensuite mise en œuvre d'un processus de test d'hypothèses ou de découverte dirigée Construire un modèle basé sur des règles conditionnelles à partir d un fichier de données Le modèle : Règles de la forme : Les Associations Si prédicat(x) et prédicat(y) alors prédicat(z) Pondération par une probabilité ou par une métrique de confiance Éventuellement situées dans le temps : Si action 1 ou condition à l'instant t 1 alors action 2 à l'instant t 2 Exemples de règles : Si achat de riz et de vin blanc, alors achat de poisson (84%) Si achat de téléviseur alors achat d'un enregistreur dans les 3 ans (45%) Si présence et travail alors réussite à l'examen (99,9%) 7 8

3 Les Associations Les Associations Les domaines : Analyse des tickets de caisse (mise en relation entre n produits, relation de comportement de produits) Analyse des séquences d achats détection d association de ventes pour un même client dimension temporelle et notion d antériorité Les enjeux : Optimisation des stocks, merchandising, ventes croisées (bon de réduction, promotion) Principes de construction d une association Transaction ticket de caisse une transaction T contient le détail des articles ou de leur famille chaque article est une variable binaire Une association est une implication de la forme X Y avec : X et Y T et X Y = Deux indicateurs pour apprécier une association : niveau de confiance : Card(X Y) / Card(X) niveau de support : Card(X Y) / Card(X ou Y) Extraire les associations pertinentes 9 10 Ticket 1 Ticket 2 Ticket 3 Ticket 4 farine œufs farine œufs sucre sucre œufs chocolat lait chocolat sucre thé chocolat Les Associations Ticket 1 Ticket 2 Ticket 3 Ticket 4 farine œufs farine œufs sucre sucre œufs chocolat lait chocolat sucre thé chocolat Les Associations Article Fréquence Support farine sucre lait œufs chocolat thé Article Fréquence Support farine 2 50% sucre 3 75% lait 1 25% œufs 3 75% chocolat 3 75% thé 1 25% 11 12

4 Les Associations Assoc. Niv. 2 Fréquence Confiance Support farine sucre 2 sucre farine 2 sucre œufs 2 œufs sucre 2 sucre chocolat 2 chocolat sucre 2 œufs chocolat 3 chocolat œufs 3 Assoc. Niv. 3 Fréquence Confiance Support œufs, chocolat sucre 2 sucre, œufs chocolat 2 chocolat, sucre œufs 2 Ticket 1 Ticket 2 Ticket 3 Ticket 4 farine œufs farine œufs sucre sucre œufs chocolat lait chocolat sucre thé chocolat 13 Les Associations Assoc. Niv. 2 Fréquence Confiance Support farine sucre 2 100% 67% sucre farine 2 67% 67% sucre œufs 2 67% 50% œufs sucre 2 67% 50% sucre chocolat 2 67% 50% chocolat sucre 2 67% 50% œufs chocolat 3 100% 100% chocolat œufs 3 100% 100% Assoc. Niv. 3 Fréquence Confiance Support œufs, chocolat sucre 2 67% 50% sucre, œufs chocolat 2 100% 67% chocolat, sucre œufs 2 100% 67% Ticket 1 Ticket 2 Ticket 3 Ticket 4 farine œufs farine œufs sucre sucre œufs chocolat lait chocolat sucre thé chocolat 14 Les Associations Exemple : Analyse d achats dans la grande distribution Limites de l approche : Article = code-barres Famille d articles = 100 références Volume de données : réf. élémentaires hiérarchie de concepts Niveau élémentaire pour confirmer l impact de la marque X sur les ventes de Y vérifier les associations sur des concepts de haut niveau 15 Mise en œuvre : taxinomie Un supermarché gère environ références différentes Analyse sur tous les articles : tableau de 10 milliards de cellules pour des associations de deux articles! des espaces disques importants (en téra-octets) des temps de traitements en conséquence pas très raisonnable! Solution : la taxinomie Regrouper les articles, les généraliser sous un même terme générique, une même rubrique Exemple : le terme chocolat regroupe les chocolats noirs, au lait, de différentes marques, aux noisettes, allégés, 16

5 Mise en œuvre : articles virtuels Mise en œuvre : règles de dissociation Ajout fréquent d articles virtuels pour améliorer la performance du système pour représenter des informations transversales pour regrouper les articles d'une autre manière que la taxinomie Exemple : produits allégés, marque que l'on trouve dans plusieurs rubriques pour donner des indications supplémentaires sur la transaction donnée temporelle (jour de la semaine, heure, mois, saison, ), mode de paiement, météo, si possible, données sur le client (satisfaction, type d'habitat, catégorie socioprofessionnelle, âge, statut matrimonial, ) pour fournir des règles du type : «si printemps et jardin alors achat de gants de jardinage» Analogue à une règle d'association mais fait apparaître la notion de «non» Exemple : Dans une entreprise, 5 produits (A,B,C,D,E) Si un client prend les produits A, B et D, alors il engendrera la transaction {A, B, non C, D, non E} Ce procédé engendre des règles comme : «si achat produit A et produit C alors non achat produit E» Inconvénient majeur : fournit des règles où tout est nié «si non A et non B alors non C» connaissances engendrées peu exploitables Mise en œuvre : séries temporelles L'analyse du panier de la ménagère Objectif : faire de la description et non de la prévision Outil non optimal pour étudier les séries temporelles Contrainte : avoir une information de temps et une clé d'identification de l'objet (principalement le client) Difficulté : transformer les données en transactions Plusieurs possibilités offertes : Ajouter à chaque article la notion de temps : avant, après, en même temps Créer des fenêtres temporelles : regrouper toutes les transactions effectuées dans un même intervalle de temps par un même individu permet de dégager des profils, surtout associée à des articles virtuels 19 Mise en œuvre Plusieurs indicateurs complémentaires pour évaluer La fréquence Règle vraie pour deux clients sur cinq : fréquence = 40% Le niveau (ou taux) de confiance Mesure de la probabilité dans la sous-population concernée par la condition de la règle (fréquence sur une sous-population) Ex : règle «si achat de jus d'orange, alors achat d'eau minérale» La population ayant acheté du jus d'orange (ex : 4 individus) Le nombre de fois où la règle est respectée (ex : 2) La proportion obtenue (ici 2 sur 4, soit 50 %) : niveau de confiance Permet de mesurer la force de l'association Prudence : n'intègre pas la notion d'effectif Ex : «si achat de lait, alors achat de nettoyant vitres» effectif 1 individu : très relatif malgré un très bon taux de confiance! 20

6 Le niveau de support Nombre de fois où l'association est respectée, ramenée au nombre de fois où l'un des articles est présent. Permet de mesurer la fréquence de l'association. Le taux d'amélioration Permet de mesurer la pertinence de l'association Que vaut une règle si son taux de confiance est inférieur à la fréquence du résultat sans condition? Ex : règle «si achat d'eau minérale, alors achat de jus d'orange» Règle vraie pour 2 clients sur 3 qui ont acheté de l'eau Taux de confiance pour l'achat du jus d'orange dans ces conditions : 67% Or, 4 clients sur 5 achètent du jus d'orange, soit 80%! Règle inintéressante à exploiter car ajout de condition pour taux moins bon Pour mesurer l'amélioration apportée par la règle, on divise le taux de confiance par la fréquence de l'événement Ici : 0.67 / 0.80 = 83 % Si résultat supérieur à 1, la règle apporte une amélioration sur le résultat Conclusion Points forts de l'analyse du panier de la ménagère : Résultats clairs et explicites Adaptée à l'exploitation non dirigée des données Traite des données de taille variable Technique et calculs simples à comprendre Points faibles de l'analyse du panier de la ménagère : Le volume de calculs croît au carré ou au cube du volume de données Prend mal en compte les articles rares Difficile de déterminer le bon nombre d'articles Attributs des articles (détails et quantités) souvent ignorés Sinon renoncer à l'exploiter Conclusion Technique s'appliquant aux problèmes : d'exploitation non dirigée des données contenant des articles bien définis, qui se regroupent entre eux de manière intéressante Souvent utilisé comme analyse préalable : car elle génère des règles susceptibles de soulever des interrogations ou des idées débouchera sur d'autres analyses plus fines : test d'hypothèse ou découverte de connaissance dirigée pour expliquer un phénomène révélé Quelques techniques a) Associations b) Raisonnement à base de cas c) K-means, agglomération d) Arbres de décision e) Algorithmes génétiques f) Réseaux neuronaux g) Réseaux Bayésiens 23 24

7 b) Le raisonnement à base de cas Technique de découverte de connaissances dirigée Utilisée dans un but de classification et de prédiction Bien adapté aux bases de données relationnelles Mise en œuvre simple Équivalence de l'expérience chez l'homme Processus : identification des cas similaires puis application de l'information provenant de ces cas au problème actuel Principe : on présente un nouvel enregistrement, il trouve les voisins les plus proches et positionne ce nouvel élément s'applique à tous les types de données. Utilisé pour estimer des éléments manquants, détecter des fraudes, prédire l'intérêt d'un client pour une offre, classifier les réponses en texte libre 25 Exemple : Ventes de voitures Renault ventilées en fonction de l'âge et du nombre d'enfants de l'acheteur Véhicule Âge Enfants Twingo 25 0 Espace 32 4 Twingo 28 1 Scénic 30 2 Latitude 50 1 Laguna 35 2 Espace 40 3 Twingo 30 1 Scénic 34 2 Latitude 52 2 Laguna 38 1 Espace 34 5 Véhicule Âge Enfants Twingo 27 1 Scénic 30 2 Laguna 39 0 Latitude 55 0 Twingo 24 1 Scénic 33 2 Laguna 38 2 Twingo 22 0 Scénic 35 1 Laguna 39 2 Latitude Ventes de voitures Renault Âge Espace Laguna Latitude Scénic Twingo ,5 1 1,5 2 2,5 3 3,5 4 4,5 5 Nbre d'enfants 27

8 Fonction de distance Pour les données numériques La valeur absolue de la différence : A-B Le carré de la différence : (A-B)² La valeur absolue normalisée : A-B / (différence maximale) avantage : toujours entre 0 et 1, supprime les problèmes d'échelles Libre de créer sa propre fonction Pour les autres types de données A l'utilisateur de définir sa propre fonction de distance Exemple : pour comparer le genre de deux individus, valeur 1 s'ils sont différents ou valeur 0 s'ils sont identiques pour des communes, prendre la distance entre elles ou une codification en fonction du type (urbaine, péri-urbaine, rurale) ou de la région Mais, toujours préférable d'avoir le résultat entre 0 et 1 Fonction de combinaison Consiste à combiner les n voisins les plus proches pour obtenir le résultat de la prédiction souhaitée Exemple : Soit une liste de clients ayant déjà répondu à une offre commerciale (par oui ou non). L'utilisateur métier estime que les critères les plus déterminants sont le genre, l'âge et le salaire net du dernier semestre Numéro Age Genre Salaire Acheteur A 27 F 3000 Non B 51 M Oui C 52 M Non D 33 F 8500 Oui E 45 M 7000 Oui 31 Soit un nouveau client : une femme de 45 ans ayant un revenu de euros Cette cliente sera-t-elle intéressée par l'offre? La fonction de distance est définie ainsi : Il s'agit d'une femme, donc distance de 1 avec les hommes et de 0 avec les femmes Et ajout de la distance normalisée du salaire et de l'âge Tableau des distances : Client Age Genre Salaire Distance totale A B C D E Les voisins les plus proches sont dans l'ordre : D C E B A 32

9 Utilisons maintenant la fonction de combinaison nombre de voisins retenus? Nombre de voisins retenus Numéro des voisins D DC DCE DCEB DCEBA Réponses des voisins O O,N O,N,O O,N,O,O O,N,O,O,N Décompte des Oui 1 Oui 1 Oui 2 Oui 3 Oui 3 réponses Non 0 Non 1 Non 1 Non 1 Non 2 Valeur retenue Oui? Oui Oui Oui Evaluation 100 % 50 % 66 % 75 % 60 % Si 3 voisins, réponse favorable avec une probabilité (plutôt espérance) de 66% Possible également de donner un poids à chaque contribution Ex: 1 er voisin a un poids de 3, 2 ème poids de 2, 3 ème un poids de 1 Possible de pondérer chaque variable utilisée dans la fonction de Quelques remarques Complexité en fonction de la taille de la base de cas Technique d optimisation Ajout d expertise pour guider la recherche vers les critères les plus pertinents Exemple : utilisation d un arbre de décision D où, principes suivants : Collecte des données Nombre d exemples lié au nombre de variables et de valeurs par variable Recherche des facteurs pertinents Par mots clés (mc) dist(x,y) = 1 - (nombre_mc_commun(x,y) / nombre_mc(x ou y)) Hiérarchisation de concepts Indexation des données (plus proche voisin) distance Conclusion Quelques techniques Les points forts : produit des résultats explicites s'applique à tout type de données capable de travailler sur de nombreux champs facile à mettre en œuvre et à comprendre Les points faibles : nécessite un grand volume de données pour être performant très dépendant des fonctions de distance et de combinaison 35 a) Associations b) Raisonnement à base de cas c) K-means, agglomération d) Arbres de décision e) Algorithmes génétiques f) Réseaux neuronaux g) Réseaux Bayésiens 36

10 c) Détection automatique de clusters Méthode de découverte de connaissances non dirigée (apprentissage sans supervision) Ne nécessite aucun apprentissage Principe : regrouper les éléments par similarités successives Deux grandes catégories : la méthode des K-moyennes et les méthodes par agglomération Objectif : procéder à une classification du type regroupement par similitude Un groupe est appelé cluster Utilisation classique : clusteriser une population avant une étude Prévoir une fonction de distance qui mesure l'écart entre deux enregistrements 37 K-means Permet de découper une population en K clusters K défini par l'utilisateur Principe de fonctionnement : On positionne les K premiers points (ou noyaux) au hasard Chaque enregistrement est affecté au noyau le plus proche A la fin de la première affectation, calcul de la valeur moyenne de chaque cluster Le noyau prend cette nouvelle valeur Répétition jusqu'à stabilisation des clusters 38 Exemple Personnes d'âge 27, 51, 52, 33, 45, 22, 28, 44, 40, 38, 20, 57 Exemple : K=3 Les 3 noyaux initiaux = les trois premières valeurs Distance = différence / (amplitude maximum) = différence / Noyau Noyau Noyau Minimum Affectation noyau 1 (27) : noyau 2 (51) : Calcul des centroïdes : moyenne arithmétique du cluster soit 28 pour noyau 1, 45 pour noyau 2 et 54.5 pour noyau 3 Ces valeurs = positions des nouveaux noyaux Recommençons le processus par rapport à ces valeurs Noyau Noyau Noyau Minimum Affectation L'affectation donne la répartition suivante : noyau 1 (28) : Moyenne = 26 noyau 2 (45) : Moyenne = noyau 3 (54.5) : Moyenne = En réitérant le processus, aucune modification des affectations. Les clusters sont finalisés : Cluster 1: Jeunes majeurs - Centroïde = 26 Cluster 2: Quadragénaires - Centroïde = Cluster 3: Quinquagénaires - Centroïde = noyau 3 (52) :

11 Classification hiérarchique ascendante Exemple Calcul des distances 2 à 2 Agglomération des plus proches voisins (inférieurs à un seuil) Calcul des centroïdes On itère Seuil = 7,5% (0.075) à chaque itération fixé aléatoirement en fonction du niveau de regroupement souhaité par l'utilisateur. Ensemble des valeurs ordonné en ordre croissant Valeurs ayant un seuil inférieur à 7,5%, soit : 0.03 (52-51), 0.03 (27-28), 0.03 (44-45), 0.05 (38-40), 0.05 (20-22) On recommence avec un seuil de 15% Chaque cluster est représenté par son centroïde (ici moyenne)

12 On obtient alors Soit 4 clusters : {20,22}, {27,28,33}, {38,40,44,45}, {51,52,57} Puis avec un seuil de 22,5%, regroupement des deux premiers clusters Remarque : si le seuil à chaque itération était de 10%, dès le 2 ème niveau, il n y aurait eu qu un seul cluster. 45 Conclusion Les points forts : Les résultats sont clairs Plutôt facile à mettre en œuvre Pas grosse consommatrice de ressources Application facile. Les points faibles : Difficile de trouver une bonne fonction de distance Certains clusters résultants peuvent être difficiles à expliquer 46 Quelques techniques a) Associations b) Raisonnement à base de cas c) K-means, agglomération d) Arbres de décision e) Algorithmes génétiques f) Réseaux neuronaux g) Réseaux Bayésiens d) Les arbres de décision Objectif : classification et prédiction Fonctionnement basé sur un enchaînement hiérarchique de règles en langage courant Composé : d un nœud racine 5 4 Noeuds feuilles de questions de réponses qui conditionnent la question suivante de nœuds feuilles correspondant à un classement Jeu de questions-réponses itératif jusqu à arriver à un nœud feuille Pour déterminer quelle variable affecter à chaque nœud, application d'un algorithme sur chaque paramètre et conservation du plus représentatif pour un découpage 1 Noeud racine 2 Noeud fils 3 Noeud feuille 47 48

13 Les arbres de décisions Le modèle Utiliser la valeur des attributs pour subdiviser l ensemble d exemples en sous-ensembles de plus en plus fins Réitérer la démarche jusqu à obtenir un sous-ensemble avec un nombre majoritaire de n-uplets appartenant à la même classe Les arbres de décisions Traitement des informations bruitées ou corrompues 2 classes mais plus d attributs pour subdiviser : étiquetage par la classe majoritaire ou probabilité test statistique : pour mesurer l indépendance entre attribut et classe Arbre : nœud racine = ensemble des exemples Découpage successif par une séquence de décisions Résultat : un ensemble de règles Règle : Si X=a et Y=b et alors Classe 1 Parcours de l arbre (liste d attributs dont la valeur détermine une classe d appartenance) Traitement des valeurs manquantes Valeur majoritaire (renforce l entropie) Ignorer l exemple Probabilité sur chacune des branches Les arbres de décisions Principes de calculs Algorithme de détermination de la variable significative Diminution du désordre apparent dans les données Cas de descripteur qualitatif Probabilité d appartenance ex : grand-moyen-petit - sur 100 observations 20 ont la valeur «grand» - 20% Mesure de l incertitude (désordre) : théorème de Shannon = - Σ P i log 2 (P i ) avec P i : probabilité d appartenance à la catégorie Algorithme issus du Khi 2 qui permet de vérifier la conformité d un phénomène aléatoire à une loi de probabilité posée en hypothèse (algorithme de CHAID) 51 Principes de calculs Les arbres de décisions Cas des attributs à valeur (oui, non) métrique de Hamming Hd = nombre de non coïncidences entre deux attributs pseudo-métrique de Hamming (facteur de la mesure du désordre) Pm = Min ((nbre ex - Hd), Hd) 52

14 Les arbres de décisions Exemple d application de la distance de Hamming Question E1 E2 E3 E4 E5 E6 Hd Pm Q1 Connaît l école? Oui Oui Non Oui Non Non 2 2 Q2 A eu un stagiaire? Oui Non Non Non Non Non 2 2 Q3 A embauché un étudiant? Non Oui Non Oui Non Oui 4 2 Q4 Verse la taxe? Non Oui Oui Non Non Non 1 1 Q5 Participation à un événement? Oui Oui Oui Oui Oui Oui 3 3 R Rendez-vous Oui Oui Oui Non Non Non Principes de calculs Les arbres de décisions Cas de descripteur quantitatif Méthode de grappe : partition sur la médiane pour deux classes, en déciles pour plusieurs classes ; pas de garantie pour obtenir un seuil optimal de découpage mais la méthode est rapide. Oui RDV accepté Arbre obtenu après 2 itérations verse la taxe à l école Oui RDV accepté Non A eu un stagiaire Non RDV refusé 53 Méthode exhaustive : méthode qui détermine le seuil optimal de découpage de la variable ; parcours de toutes les valeurs numériques prises par l attribut ; calcul du pouvoir discriminant pour chaque valeur, la valeur ayant le plus grand pouvoir discriminant devient seuil. 54 Enjeux La détection de variables importantes (structuration du phénomène étudié et mise en place de solutions correctrices) La construction d'un système d'information (repérage des variables déterminantes, amélioration des règles d'alimentation d'un datawarehouse, affinement d'un processus d'historisation) Les arbres de décisions Data mining de masse (formalisme très simple) Résoudre 2 types de problèmes : Segmentation d une population Affectation d une classe à un individu Domaines d application Étude de marketing (critères prépondérants dans l achat) Marketing direct (isoler les meilleurs critères explicatifs) Ventes (analyse des performances) SAV (détecter les causes de réclamation, les défauts) Contrôle de qualité (identifier les éléments du processus) Domaine médical... Les arbres de décisions 55 56

15 Les arbres de décisions Quelques techniques Avantages et limites Simplicité d utilisation Lisibilité du modèle : règles si... alors... sinon... Pas adapté à un apprentissage incrémental (base de test) Taille de l arbre : un arbre «touffu» perd son pouvoir de généralisation et de prédiction importance de l utilisateur métier a) Associations b) Raisonnement à base de cas c) K-means, agglomération d) Arbres de décision e) Algorithmes génétiques f) Réseaux neuronaux g) Réseaux Bayésiens e) Les algorithmes génétiques Principe Définition Travaux «récents» : 1975 (J. Holland) Système artificiel qui s appuie sur le principe de sélection de Darwin et les méthodes de combinaison de gènes de Mendel Description de l évolution d une population d individus en réponse à leur environnement Sélection : survie du plus adapté Reproduction Individus codés comme un ensemble de chromosomes Chaque chromosome a sa vie propre Travail sur une population nombreuse de solutions potentielles, toutes différentes Élimination des plus faibles pour reproduire les mieux adaptés Individus les plus adaptés ont une plus forte chance d'être sélectionnés et d exister à la génération suivante Reproduction par hybridation génétique des plus forts Mutation 59 Donne des individus encore plus forts (a priori) La mutation d un gène permet de conserver une certaine diversité dans la population 60

16 Remarque La population initiale cherche à peupler l'espace des solutions Succès dans les problèmes d'optimisation (proche des techniques de recherche opérationnelle) L'application successive du processus de sélection et mutation permet d'atteindre une solution optimale Codage Codage sous forme de 0 et 1 (codage du chromosome) Exemples : Ancienneté de la cmde : 1 si < 6 mois, et 0 sinon CA annuel : 1 si < , et 0 sinon Variable numérique transformée en entier puis en binaire Dépendante du problème Fonction d'évaluation Ex : taux d'impayés constatés Permet de sélectionner le taux de reproduction à la génération suivante Taille de la population constante Tirage au hasard des candidats à la survie Biaisé : ceux qui ont une fonction d'évaluation importante Manipulation génétique Hybridation échange d'un «morceau» entre 2 chromosomes Mutation changement de parité Inversion inversion de 2 caractères successifs 63 64

17 Les algorithmes génétiques Les algorithmes génétiques Principe Tri des solutions sur la fonction d évaluation Sélection des individus à conserver Hybridation Mutation Non Population Initiale Solution acceptable? Nouvelle génération Oui Solution retenue Domaines d application Domaine industriel problème d optimisation ou de contrôle de processus complexes (ex : optimisation de la température d un four, de la pression d un cylindre) Domaine spatial et géomarketing (ex : optimisation de l emplacement d automates bancaires, optimisation d une campagne d affichage) Utiliser d autres techniques en complément (RN modifier le poids des liaisons, arbre de décision en isolant les variables qui expliquent un comportement) Les algorithmes génétiques Avantages et limites Capacité à découvrir l espace : N N 3 Limite du codage (formé de 0 et 1) complexe à mettre en place problème pour représenter la proximité de valeurs numériques Dosage des mutations : problème des sous-optimums locaux Réglage subtil entre le mouvement et la stabilité taux d hybridation recombinaison des chaînes mais risque de détruire de bonnes solutions taux de mutation espace de solutions avec des risques d altération Quelques techniques a) Associations b) Raisonnement à base de cas c) K-means, agglomération d) Arbres de décision e) Algorithmes génétiques f) Réseaux neuronaux g) Réseaux Bayésiens 67 68

18 f) Les réseaux neuronaux Structure Définition 1943 McCulloch et Pitts - Perceptron, Connexionisme Analogie avec le fonctionnement du cerveau 2 catégories : supervisé : réponse connue (apprentissage à partir d'exemples) non supervisé : le réseau ne connaît pas le type de résultat Découvrir la structure sous-jacente des données par une recherche des corrélations des entrées pour les organiser en catégories Réseau non supervisé techniques statistiques (analyse de données) Les composants : Le neurone formel Une règle d activation Une organisation en couches Une règle d apprentissage Neurone formel Calcule la somme pondérée des entrées transmises par le reste du réseau Σ(X i * W i ) X 1 X 2 W 1 W 2 Σ Règle d'activation Associée à chaque neurone formel Définie avec une fréquence T une fonction généralement sigmoïde, dont le résultat est d activer ou non le neurone de sortie (selon un seuil) X 1 W 1 X 3 X 4 Variables en entrée W 3 W 4 Poids associés à chaque connexion 71 X 2 X 3 X 4 W 2 W 3 W 4 Σ Fonction Sortie 72

19 Les réseaux neuronaux Définition Organisation en couches pour résoudre des problèmes de toute complexité La couche d entrée transmet ses résultats à la couche supérieure qui, ayant de nouvelles données et de nouveaux poids retransmet ses données résultantes à la couche suivante et ainsi de suite jusqu à la couche de sortie qui fournit le neurone de sortie Couches intermédiaires = couches cachées. X 1 X 2 X 3 X 4 X 5 W 1 W 15 Les réseaux neuronaux Auto-apprentissage Capacité du réseau à changer son comportement en fonction de son expérience passée variation des poids de connexion Règle d apprentissage : minimiser l erreur entre la donnée fournie par le réseau et la donnée réelle Renforcement des connexions les plus actives (règle de Hebb) convergence rapide du réseau Possibilité d intégrer des relations complexes entre les données Matrice des poids pour chaque couche Activation du nœud en sortie U Les réseaux neuronaux Construction d un réseau de neurones Phase 1 : préparation des données Données en entrée / sortie Constitution de la base d exemples Représentativité de toutes les classes en sortie => Augmentation du pouvoir de prédiction ex : même si 3% refus, proportion de 50% refus et 50% accepté Codage des entrées Variable discrète = un neurone par type de valeur Certaines variables continues traitées comme des variables discrètes Optimisation du jeu de données Construction d un réseau de neurones Phase 2 : création des fichiers Base d exemples (80%) et base de test (20%) Répartition aléatoire Les réseaux neuronaux Phase 3 : paramètres du réseau Matrice : poids entre les connexions Logiciels : modes par défaut (mode novice ou expert) Nombreux paramètres : architecture, fonction de sommation, fonction de transformation (fonction sigmoïde), normalisation de la sortie, transmission de la sortie (sorties actives, rétro-propagation), calcul de l erreur (erreur quadratique, absolue, moyenne ) 75 76

20 Construction d un réseau de neurones Phase 4 : apprentissage (mise à jour itérative des poids) Calcul de la rétro-propagation 1. Initialisation de la matrice des poids au hasard 2. Choix d un exemple en entrée 3. Propagation du calcul de cette entrée dans le réseau 4. Calcul de la sortie de cette entrée 5. Mesure de l erreur de prédiction ( sortie réelle et sortie prévue) 6. Calcul de la sensibilité d un neurone (contribution à l erreur) 7. Détermination du gradient 8. Correction des poids des neurones 9. Retour à l étape 2 Phase 5 : performance du réseau Matrice de confusion Les réseaux neuronaux Nombreux domaines d application Reconnaissance des formes Traitement du signal domaine médical, risque cardiovasculaire domaine bancaire, risque de défaillance ou d utilisation frauduleuse Classification marketing (identification de segments de clients) industrie (détection de défauts et de pannes) Prévision Les réseaux neuronaux prévision de valeurs boursières, des ventes en marketing Contrôle adaptatif (robotique) Avantages et limites Les réseaux neuronaux Auto-apprentissage Technologie éprouvée (des réponses aux limites) Faux mythe de la boite noire Risque de trop apprendre Taille de la base d exemple ex : 256 entrées, une couche intermédiaire à 10 neurones et 3 neurones en sortie = 2590 connexions soit exemples Risque de non optimalité présence de minima locaux apprentissage sur plusieurs réseaux à partir de plusieurs matrices de poids ou variation du delta au cours de la construction du réseau Temps de calcul Quelques techniques a) Associations b) Raisonnement à base de cas c) K-means, agglomération d) Arbres de décision e) Algorithmes génétiques f) Réseaux neuronaux g) Réseaux Bayésiens 79 80

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

Leçon 4 : Typologie des SI

Leçon 4 : Typologie des SI Leçon 4 : Typologie des SI Typologie des SI Système formel Système informel Typologie des SI Chaque jour au sein d une organisation Le système d info stocke, traie ou restitue des quantités importantes

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Introduction aux S.G.B.D.

Introduction aux S.G.B.D. NFE113 Administration et configuration des bases de données - 2010 Introduction aux S.G.B.D. Eric Boniface Sommaire L origine La gestion de fichiers Les S.G.B.D. : définition, principes et architecture

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON L analytique joue un rôle désormais primordial dans la réussite d une entreprise. Les pouvoirs qu elle délivre sont incontestables, cependant

Plus en détail

Notre modèle d engagement

Notre modèle d engagement Notre modèle d engagement 1. EVALUER L évaluation des compétences que vous souhaitez améliorer implique un vrai échange entre nos deux équipes, et une étude plus approfondie des écarts et des actions préalablement

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Partie I Organisations, management et systèmes d information... 1

Partie I Organisations, management et systèmes d information... 1 Liste des cas d entreprise............................................................ Liste des figures..................................................................... Liste des tableaux...................................................................

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Analyse de données textuelles Panorama des fonctions, des méthodes et des usages

Analyse de données textuelles Panorama des fonctions, des méthodes et des usages Analyse de données textuelles Panorama des fonctions, des méthodes et des usages Sylvie Dalbin Assistance & Techniques Documentaires DocForum, Le 17 Novembre 2005 Déroulé de l'intervention (1) 1. Définition

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Glossaire GRH. Il vise à proposer un langage commun, et permet d éviter d éventuels risques de malentendus ou de confusions.

Glossaire GRH. Il vise à proposer un langage commun, et permet d éviter d éventuels risques de malentendus ou de confusions. Ce glossaire a été élaboré dans un souci de clarification des notions et concepts clés communément utilisés en Gestion des Ressources Humaines, et notamment dans le champ de la gestion prévisionnelle des

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data Approches & opportunités face aux enjeux de volume, variété et vélocité France, 2012-2014 28 mars 2013 Ce document

Plus en détail

Systèmes d information et bases de données (niveau 1)

Systèmes d information et bases de données (niveau 1) Systèmes d information et bases de données (niveau 1) Cours N 1 Violaine Prince Plan du cours 1. Bibliographie 2. Introduction aux bases de données 3. Les modèles 1. Hiérarchique 2. Réseau 3. Relationnel

Plus en détail

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE Expérience informationnelle

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

LES NOUVEAUX PROGRAMMES DE

LES NOUVEAUX PROGRAMMES DE LES NOUVEAUX PROGRAMMES DE MATHÉMATIQUES EN STS M A T H S S T S Animation académique Taverny lundi 24 mars 2014 et Savigny sur Orge vendredi 28 mars 2014 PREMIERS REPÈRES Les programmes de STS ont été

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Prévision de la demande pour la planification efficace des effectifs"

Prévision de la demande pour la planification efficace des effectifs Prévision de la demande pour la planification efficace des effectifs" Nicolas Chapados, Ph.D., CFA Directeur, modélisation statistique ApSTAT Technologies Inc." "Améliorer la satisfaction des employés"

Plus en détail

RICA, Outil d'interrogation et traitements SAS via le Web. Jean-Marc Rousselle Laboratoire d'economie Forestière, UMR INRA-AgroParisTech, NANCY

RICA, Outil d'interrogation et traitements SAS via le Web. Jean-Marc Rousselle Laboratoire d'economie Forestière, UMR INRA-AgroParisTech, NANCY RICA, Outil d'interrogation et traitements SAS via le Web. Jean-Marc Rousselle Laboratoire d'economie Forestière, UMR INRA-AgroParisTech, NANCY 2èmes journées de recherches en sciences sociales INRA SFER

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7 Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques Elec 2311 : S7 1 Plan du cours Qu est-ce l optimisation? Comment l optimisation s intègre dans la conception?

Plus en détail

Stages 2015-2016 ISOFT : 25 ANS DE RECHERCHE EN INFORMATIQUE DECISIONNELLE ET. Contact : Mme Lapedra, stage@isoft.fr ANALYSE DE DONNEES

Stages 2015-2016 ISOFT : 25 ANS DE RECHERCHE EN INFORMATIQUE DECISIONNELLE ET. Contact : Mme Lapedra, stage@isoft.fr ANALYSE DE DONNEES Stages 2015-2016 Contact : Mme Lapedra, stage@isoft.fr ISOFT : 25 ANS DE RECHERCHE EN INFORMATIQUE DECISIONNELLE ET ANALYSE DE DONNEES ISoft est un concepteur-éditeur de logiciels spécialisé dans la recherche

Plus en détail

Management des processus opérationnels

Management des processus opérationnels Ecole Nationale Supérieure de Management Master Management des organisations Management des processus opérationnels Dr TOUMI Djamila Cours n 1: La vision processus dans le management des organisations

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

La méthode des quotas

La méthode des quotas La méthode des quotas Oliviero Marchese, décembre 2006 1 La méthode des quotas Principe de la méthode Point de départ et but recherché Caractère «intuitif» de la méthode A quoi ressemble une feuille de

Plus en détail

Enquête sur l industrie des ser. vices de taxi et de limousine. Système de documentation des données statistiques Numéro de référence 4707

Enquête sur l industrie des ser. vices de taxi et de limousine. Système de documentation des données statistiques Numéro de référence 4707 Enquête sur l industrie des ser vices de taxi et de services limousine Système de documentation des données statistiques Numéro de référence 4707 Concepts Énoncé de la qualité des données Enquête unifiée

Plus en détail

PILOTER ET MESURER MAÎTRISER L ORGANISATION PAR LES TABLEAUX DE BORD RH

PILOTER ET MESURER MAÎTRISER L ORGANISATION PAR LES TABLEAUX DE BORD RH PILOTER ET MESURER MAÎTRISER L ORGANISATION PAR LES TABLEAUX DE BORD RH HR Public 9 juin 2011 INTRODUCTION Piloter = Mesurer Comment? Via les tableaux de bord RH Réduire l incertitude Stabiliser l information

Plus en détail

Évaluation et implémentation des langages

Évaluation et implémentation des langages Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le tout fichier Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché

Plus en détail

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

CONCEPTION Support de cours n 3 DE BASES DE DONNEES CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Chapitre 1 Introduction

Chapitre 1 Introduction Les éléments à télécharger sont disponibles à l'adresse suivante : http://www.editions-eni.fr Saisissez la référence ENI de l'ouvrage SOBI10SHA dans la zone de recherche et validez. Cliquez sur le titre

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation?

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation? Analyse d images, vision par ordinateur Traitement d images Segmentation : partitionner l image en ses différentes parties. Reconnaissance : étiqueter les différentes parties Partie 6: Segmentation d images

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Mallette du Dirigeant

Mallette du Dirigeant Mallette du Dirigeant Durée : Dates : Horaires : Lieu : Public : Tarif : Effectif : 3 jours (21 heures) de formation collective et 4h d individuel soit 25h au total. Jour 1 : 22 septembre 2014 (7h) Jour

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Module Mixmod pour OpenTURNS

Module Mixmod pour OpenTURNS Module Mixmod pour OpenTURNS Régis LEBRUN EADS Innovation Works 23 septembre 2013 EADS IW 2013 (EADS Innovation Work) 23 septembre 2013 1 / 21 Outline Plan 1 OpenTURNS et propagation d incertitudes 2 Mixmod

Plus en détail

GPA 789 : Analyse et Conception Orientées Objet. ETS Mickaël Gardoni Bureau A 3588 tel 84 11. Mise en Œuvre UML version du 24 avril 2009

GPA 789 : Analyse et Conception Orientées Objet. ETS Mickaël Gardoni Bureau A 3588 tel 84 11. Mise en Œuvre UML version du 24 avril 2009 GPA 789 : Analyse et Conception Orientées Objet ETS Mickaël Gardoni Bureau A 3588 tel 84 11 Mise en œuvre UML 1/ 25 Introduction Mise en œuvre d UML UML n est pas une méthode 2/ 25 1 UML n est qu un langage

Plus en détail

V ERSION EXPERIMENTALE

V ERSION EXPERIMENTALE V ERSION EXPERIMENTALE Cette version de Sipina v 3.0 n est pas, et ne sera jamais, définitive, elle sert d outil de recherche, elle a plus une vocation d outil d expérimentation que de logiciel dédié au

Plus en détail

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel PLAN DE COURS «ANALYSE DE DONNEES TEXTUELLES» Trois approches pour l analyse de textes Analyse qualitative Analyse quantitative Fouille de textes Introduction au logiciel QDA Miner Introduction et gestion

Plus en détail

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 WEKA : c est quoi? Brigitte Bigi LPL - Équipe C3I 15 février 2011 Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 Introduction 1 Introduction 2 Classification supervisée 3 WEKA

Plus en détail

Étapes du développement et de l utilisation d un modèle de simulation

Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Formulation du problème Cueillette et analyse de données Conception

Plus en détail

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES ST50 - Projet de fin d études Matthieu Leromain - Génie Informatique Systèmes temps Réel, Embarqués et informatique Mobile - REM 1 Suiveur en entreprise

Plus en détail

L ANALYSE DES DONNÉES CLIENTS AU SERVICE DE LA PRÉVISION D ACHAT DE VOYAGES

L ANALYSE DES DONNÉES CLIENTS AU SERVICE DE LA PRÉVISION D ACHAT DE VOYAGES L ANALYSE DES DONNÉES CLIENTS AU SERVICE DE LA PRÉVISION D ACHAT DE VOYAGES SAS 3 DEC 2015 1 sur 9 TRANSAT Un voyagiste international solidement installé au Canada, en France et au Royaume-Uni, qui offre

Plus en détail

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier. PRÉSENTATION PRODUIT Plus qu un logiciel, la méthode plus efficace de réconcilier. Automatiser les réconciliations permet d optimiser l utilisation des ressources et de générer plus de rentabilité dans

Plus en détail

Épreuve n 11 : contrôle de gestion

Épreuve n 11 : contrôle de gestion Épreuve n 11 : contrôle de gestion Nature : épreuve écrite portant sur l étude d une ou de plusieurs situations pratiques et/ou un ou plusieurs excercices et/ou une ou plusieurs questions. Durée : 4 heures.

Plus en détail

Les solutions SAS pour les Petites et Moyennes Entreprises

Les solutions SAS pour les Petites et Moyennes Entreprises BROCHURE SOLUTION Les solutions SAS pour les Petites et Moyennes Entreprises Sur un marché aussi compétitif que celui des Petites et Moyennes Entreprises, le temps et l efficacité sont deux valeurs prioritaires

Plus en détail

Programme détaillé des enseignements

Programme détaillé des enseignements Programme détaillé des enseignements SEMESTRE S1 STATISTIQUES Méthodes d'estimation ponctuelle (méthodes des moments, du maximum de vraisemblances, bayésienne) et par intervalles de confiance. Statistiques

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

REQUEA. v 1.0.0 PD 20 mars 2008. Mouvements d arrivée / départ de personnels Description produit

REQUEA. v 1.0.0 PD 20 mars 2008. Mouvements d arrivée / départ de personnels Description produit v 1.0.0 PD 20 mars 2008 Mouvements d arrivée / départ de personnels Description produit Fonctionnalités L application Gestion des mouvements d arrivée / départ de Requea permet la gestion collaborative

Plus en détail