Masses de données 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Rédacteurs : Mjo Huguet / N. Jozefowiez
1. Introduction : Besoins Informations et Aide à la Décision
1. Introduction : Applications Données issues de : Bases de Données d entreprises Web et Réseaux sociaux Réseaux de capteurs Expériences scientifiques Secteurs d activités : Commerce / Affaires Loisirs Sciences Bio-Médical Environnement Sciences sociales
2. Problématiques Génération de données Collecte / Stockage / Accessibilité Exploitation de données Traitement / Analyse / Visualisation Contraintes Temporelles : Fréquence de génération / d exploitation Limitations : en moyens de stockage / calcul / énergie Stockage Trait/An Visu Mais aussi : Propriétés des données, droit d usage, droit à l oubli Préservation et archivage des données
2.1. Génération de données Génération à grande échelle Collecte et intégration de données hétérogènes Accessibilité des données Apport du cloud / des data centers Virtualisation du stockage et de l accès Qualité de service Qualité et traçabilité des données Confidentialité et sécurité des données
2.2. Exploitation de données (1/2) Traitement : Calcul intensif Calcul parallèle Calcul distribué Analyse : Extraction de connaissances Datamining Apprentissage supervisé ou non supervisé Analyse statistique
2.2. Exploitation de données (2/2) Visualisation : Représentation des données / résultats d analyse Aide à la décision Interfaces Explications Confidentialité dans l exploitation des données
2.3. Contraintes Temporelles : Fréquence de génération de données Stockage des flots de données continus Fréquence des traitements / analyses demandé(e)s Analyse en «temps réel» de flots continus de données Réaction à des alertes Stockage et Exploitation : Limitation mémoire / Limitation CPU / Limitation énergie
3. Socle de formation : Génération de données (1) Modèles de données Modèles Logiques, Relationnels, Non Relationnels Modèles du Web, Ontologies Interrogation de bases de données Intégration de données hétérogènes Application (TP/BE/Projet) : Collecte, Nettoyage de données, Intégration, Interrogation Objectif : Qualité des données / Traçabilité des données
3. Socle de formation : Génération de données (2) Plateformes de stockage Entrepôt de données, Data Center, Cloud Virtualisation Architectures distribuées Architectures Orientées Services Sécurité et Confidentialité Application (TP/BE/Projet) : Sujet à définir pour concevoir une solution de stockage et de distribution des données vis à vis d un besoin Objectif 1 : Qualité de service, Intégration de contraintes spécifiques (mémoire, énergie, fréquence de génération, ) Objectif 2 : Protection des données
3. Socle de formation : Exploitation de données (1) Traitement Algorithmes numériques et non numériques Algorithmes parallèles, Algorithmes distribués Complexité Paradigmes de programmation Application (TP/BE/Projet) : Résoudre un problème spécifique sur un grand volume de données Objectif 1 : Compréhension d un problème et de méthodes Objectif 2 : Performances (Traitement) et Intégration de contraintes spécifiques (temps, mémoire, énergie,.)
3. Socle de formation : Exploitation de données (2) Analyse Approches statistiques Algorithmes d apprentissage Paradigmes de programmation Application (TP/BE/Projet) : Développer des méthodes de data-mining (sur différents types de données) Objectif 1 : Compréhension de méthodes Objectif 2 : Découverte d outils / Interprétation de résultats (Visualisation)
3. Socle de formation : Exploitation de données (3) Compléments : Crypto : algorithmes respectueux de la vie privée Explications des résultats d analyse
4. Liens avec formation INSA Stockage et Modèles de Données BD, MDSI, Web Sémantique Logique et Prog Logique Interrogation / Recherche d Information Sécurité Architectures Orientées Services Systèmes Distribués
4. Liens avec formation INSA Traitement et Analyse Structures de données linéaires, arborescentes, graphes Complexité Prog Logique, Prog. Fonctionnelle, Prog. par Contraintes Prog. Objet Algorithmes non numériques (Algo standards de parcours/tri/recherche/filtrage, Résolution de problèmes de décision ou d optimisation, Algo distribués, ) Analyse Numérique (3MIC) Statistiques (2MIC)
4. Liens avec formation INSA Visualisation : non traité Liens potentiels avec : Interfaces Informatique décisionnelle Algorithmes de graphes Algorithmes géométriques
5. Références INS2I du CNRS Projet MASTODONS Formations existantes Colloques recherche SAT / CSP and Data Mining Optimization Tools for Big Data