Prédiction et Big data



Documents pareils
Filtrage stochastique non linéaire par la théorie de représentation des martingales

MCMC et approximations en champ moyen pour les modèles de Markov

Modélisation aléatoire en fiabilité des logiciels

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

FIMA, 7 juillet 2005

Principe de symétrisation pour la construction d un test adaptatif

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Offre de thèse. Co-encadrant de thèse : HENRY Sébastien Coordonnées électroniques : Sébastien.Henry@univ-lyon1.fr Laboratoire : DISP (

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre.

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

CURRICULUM VITAE. Informations Personnelles

Jean Sykes Nereus, la collaboration européenne, et le libre accès

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Travail en collaboration avec F.Roueff M.S.Taqqu C.Tudor

Équation de Langevin avec petites perturbations browniennes ou

Quantification et hiérarchisation des incertitudes dans un processus de simulation numérique

TRAVAUX DE RECHERCHE DANS LE

Intégration des paramètres de maintenance dans la conception du Health Monitoring. Saintis Laurent Laboratoire LASQUO (futur LARIS)

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Résumé des communications des Intervenants

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

0 h(s)ds et h [t = 1 [t, [ h, t IR +. Φ L 2 (IR + ) Φ sur U par

Application de la méthode de surface de réponse stochastique à l analyse de stabilité d un tunnel pressurisé

Vers plus de responsabilités

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

4.2 Unités d enseignement du M1


Bourses d excellence pour les masters orientés vers la recherche

Business Process Management

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Mesure et gestion des risques d assurance

Echantillonnage Non uniforme

Modélisation du comportement habituel de la personne en smarthome

Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction

CURRICULUM VITAE. CHAMP DE SPÉCIALISATION Économie financière. Économétrie financière. Économétrie.

Texte Agrégation limitée par diffusion interne

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Modélisation géostatistique des débits le long des cours d eau.

Master of Science in Engineering

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Économétrie, causalité et analyse des politiques

CURRICULUM VITAE Anne de Bouard

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

La méthode des éléments finis et le contrôle des calculs

Contrôle stochastique d allocation de ressources dans le «cloud computing»

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Introduction à l approche bootstrap

Élue Correspondant le 25 avril 1994, puis Membre le 30 novembre 2004 dans la section Sciences mécaniques et informatiques

Table des matières. I Mise à niveau 11. Préface

Christian BONTEMPS né le 08 juillet 1969

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Élasticité des applications à base de services dans le Cloud

Aggregation of expert opinions and uncertainty theories

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

University of Luxembourg

If the corporation is or intends to become a registered charity as defined in the Income Tax Act, a copy of these documents must be sent to:

Gènes Diffusion - EPIC 2010

Sommaire Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7. ARC EPS Eco-microbiologie Prévisionnelle Statistique

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.



Curriculum Vitae. - Situation professionnelle : Maître de Conférences en Mathématiques à l Université de Nantes depuis septembre 2006.

10ème Congrès Français d'acoustique Lyon, Avril 2010

Improving the breakdown of the Central Credit Register data by category of enterprises

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Né le 13/06/1984 Russe Célibataire Langues : Russe, Anglais,

Introduction à la théorie des files d'attente. Claude Chaudet

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Module 7: Chaînes de Markov à temps continu

Évaluation de la régression bornée

L approche PTS Consulting

Introduction aux systèmes temps réel. Iulian Ober IRIT

Tout au long de votre cursus Quel métier futur? Dans quel secteur d activité? En fonction de vos goûts et aptitudes et du «niveau d emploi» dans ce

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

Curriculum Vitae - Emmanuel Hebrard. Emmanuel Hebrard

TP N 57. Déploiement et renouvellement d une constellation de satellites


Keywords: Probability of catastrophic events, Bivariate extreme value theory, Heavy tailed distributions, ALS methods.

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et

The impacts of m-payment on financial services Novembre 2011

Le concept cellulaire

Théorèmes de Point Fixe et Applications 1

Etude comparative de différents motifs utilisés pour le lancé de rayon

Source Coding in Sensor Networks

Maîtrise universitaire ès sciences en mathématiques

Scénarios économiques en assurance

Transcription:

Prédiction et Big data Mitra Fouladirad Institut Charles Delaunay - UMR CNRS 6281 Université de Technologie de Troyes 29 avril 2015 1

1 Sujet Motivation Le pronostic ou la prédiction du comportement futur d un phénomène aléatoire, par exemple la défaillance d une éolienne, l augmentation du prix d une action financière ou la propagation d un virus, est de grande importance et dernièrement il a attiré beaucoup d attention. Pour aborder correctement cette tâche, nous ne devons négliger aucune information disponible sur le phénomène considéré. Le progrès de la science et l apparition des ordinateurs et des capteurs puissants ont permis d avoir accès à beaucoup d information. Ces progrès ont abouti à l apparition des données hautes fréquences où à chaque seconde ou micro seconde de grandes quantités d information est disponible. Afin d être capable de profiter de toutes informations disponibles et de pouvoir faire de la prédiction, des outils efficaces et adaptés aux données de grandes tailles doivent être développés. La gestion, le traitement, l analyse et la visualisation des données sont des étapes essentielles à la compréhension du phénomène décrit par les données. Aujourd hui, le calcul intensif de données joue un rôle important dans les découvertes scientifiques. La taille des données, leur variabilité, leur rapidité d apparition et leur complexité présentent de nouveaux défis auxquels nous devons faire face de manière efficace. Désormais, nous sommes face à un besoin croissant de nouvelles approches et technologies pour analyser et traiter les données et les informations disponibles. Très souvent les données peuvent être vues comme des matrices de très grande taille et leur traitement dépassent largement les méthodes classiques de calcul matriciel. La résolution des systèmes d équation de grande dimension est souvent limitée par la taille de mémoire ainsi que la vitesse des ordinateurs. Toutefois, la vitesse de calcul, n est pas seulement mesurée par l horloge des ordinateurs mais elle dépend de la stabilité numérique des résultats et leur vitesse de convergence. La théorie des matrices aléatoires est un outils adapté pour traiter les données de grande taille. La théorie des matrices aléatoires porte aujourd hui beaucoup d intérêt et elle est appliquée dans beaucoup de domaines de sciences, ingénierie et finance. Cette théorie consiste à étudier des matrices dont les composants sont des variables aléatoires autrement dit elle étudie des variables aléatoires prenant des valeurs dans les espaces matriciels. En utilisant la théorie des matrices aléatoires, il est possible de construire des indicateurs tels que les valeurs propres des matrices pour étudier les données. L étude du comportement asymptotique de ces indicateurs permet d analyser ces données. 2

Présentation générale de la thèse Nous considérons le cadre général des données de très grande taille et les méthodes statistiques adaptées pour leur traitement. Par exemple, citons le cas des données issues des capteurs mis en place pour la surveillance d un système complexe où nous cherchons à prédire l instant de défaillance du système. Lorsque nous disposons des données de taille limitée et nous cherchons à traiter ces données afin de prédire le comportement futur du système, des méthodes statistiques classiques sont utilisées et un indicateur de santé du système est extrait. Par la suite, l indicateur est modélisé par un processus stochastique par exemple par un processus de Markov, Wiener ou Gamma voir [1, 22, 23] et à l aide des propriétés du processus choisi, le comportement futur du sytème est estimé. Dans le cadre des données à grande échelle, les méthodes statistiques classiques ne sont plus utilisables et leur efficacité sont mise en cause. Ils existent d autres outils pour traiter les données de grande taille dite big data. Ces données peuvent être présentées par une matrice aléatoire de très grande taille. Lorsque la dimension de la matrice aléatoire est suffisamment élevée, les distributions empiriques des valeurs propres de cette matrice convergent vers des lois limites connues (loi de Marcenko-Pastur ou Single Ring law) [2, 8, 9, 13, 17]. En se basant sur le comportement asymptotique de la plus grande (ou plus petite) valeur propre, nous pouvons proposer des résultats très intéressants sur le comportement du système et utiliser ces résultats à des fins de surveillance (détection et localisation de défaillance), de pronostic (proposition d intervalle de confiance pour la date de panne ou pour tout événement futur) [4]. Le but de cette thèse est d étendre les méthodes de pronostic initiées par [14 16] au cadre des données à grande échelle. Les différentes étapes de cette thèse se déclinent de la manière suivantes : 1. Le système considéré ainsi que les événements futurs à prédire sont proprement décrits et étudiés. 2. En utilisant une base de données de grande taille, le travail de modélisation et de traitement de données est initié. 3. Un ou plusieurs indicateurs de santé sont proposés et leurs propriétés sont analysées. 4. Le comportement asymptotique des indicateurs est étudié et la modélisation de leur loi limite est discutée. 3

5. Afin d estimer les paramètres ou les fonctions inconnus du modèle, des méthodes statistiques paramétriques ou non-paramétriques appropriées sont utilisés. L efficacité de ces méthodes est analysé et leur propriétés sont étudiées. 6. Des intervalles de confiance concernant les événements futurs à prédire sont proposés. 7. Nous menons ensuite une étude de sensibilité des méthodes d estimation ainsi que des choix de modèles asymptotiques sur les résultats de prédiction. 8. Les performances de la méthode de prédiction sont analysées. Les connaissances requises pour implementer les étapes précédentes sont les suivantes : 1. Algèbre linéaire 2. Calcul de probabilité pour les processus stochastiques 3. Méthodes statistiques paramétriques et non-paramétriques. Les principales collaboration sur le sujet Le(La) candidat(e) participera aux réunions et aux séminaires organisés avec les principaux partenaires industriels de l UTT à ce sujet. Le(La) candidat(e) assistera aux séminaires sur la théorie des matrices aléatoires, aux groupes de travail sur la fiabilité mécanique, sur la surveillance et sûreté des systèmes (S3) ainsi que aux journées Big data. 2 Encadrement L encadrante de cette thèse fait partie de l équipe Modélisation et Sûreté des Systèmes de l Université Technologie de Troyes. Actuellement Maître de conférence elle a travaillé ces dernières années sur le pronostic et prédiction pour la sûreté de fonctionnement (voir [5 7, 18 21]). Contacte : mitra.fouladirad@utt.fr 4

Laboratoire Le laboratoire de Modélisation et sûreté des systèmes (LM2S page web : http ://lm2s.utt.fr/en/index.html) fait partie de l institut Charles Delaunay (UMR CNRS 6281). Cet institut coordonne toutes les activities de recherche de l université. L équipe LM2S est composé de 3 axes de recherche : Outils statistique pour aide à la décision, Fiabilité et.... Le candidat fera partie des deux premiers axes. National collaborations Le (La) candidat(e) participera aux collaborations nationales avec des chercheurs de l Université Technologie de Troyes ainsi que des chercheurs de différents universités françaises Université de Marne-La-Vallée et Paris est (LIGM) and Télécom Paris-Tech (LTCI), Université de Pau et des Pays de l Adour (UPPA), Université de Grenoble. Collaborations Internationales Le candidat sera men à travailler avec les partenaires internationaux des directeurs de thèse, à savoir : R. Cont, Imperial College London, London, Uk, http ://www.proba.jussieu.fr/pageperso/ramacont/ T. Bedford, University of Strathclyde, U.K (http ://www.strath.ac.uk/mansci/staff/bedfordtimprof/) G. Pan, Nanyang Technological University, Singapore. J. Silverstein,North Carolina University, USA. Z. Bai, National University of Singapore http ://www.stat.nus.edu.sg/ stabaizd/ M. Xie, Hong Kong University, China (minxie@cityu.edu.hk) A. Barros, Norwegian University of Science and Technology (anne.barros@ntnu.no) Si nécessaire, un séjour de recherche dans une de ces universités peut être envisagé. Selon la qualité du travail fourni durant la thèse, les doctorants de l équipe participent aux conférences internationales. 5

Références [1] C. Barker and M. Newby. Optimal non-periodic inspection for multivariate degradation model. Reliability Engineering and System Safety, 94(1) :33 43, 2009. [2] A. Edelma. The probability that a random real Gaussian matrix has k real eigenvalues, related distributions, and the circular law, Journal of Multivariate Analyses 60, 203-232, 1997. [3] M. Brown and F. Proschan. Imperfect repair. Journal of Applied Probability, 20 :851 859, 1983. [4] A. Edelman and Y. Wang. Random matrix theory and its innovative applications. Advances in Applied Mathematics, Modeling, and Computation Science, 66, 91 116, 2013. [5] M. Fouladirad and A. Grall. A maintenance decision rule with embedded bayesian online change detection for gradually deteriorating systems. Journal of Risk and Reliability, 222(3) :359 369, 2008. [6] M. Fouladirad and A. Grall. Condition-based maintenance for a system subject to a nonhomogeneous wear process with a wear rate transition. Reliability Engenieering System and Safety, 96(6) :611 618, june 2011. [7] M. Fouladirad, A. Grall, and L. Dieulle. On the use of on-line detection for maintenance of gradually deteriorating systems. Reliability Engeniering Sytem and Safety, 93(12) :1814 1820, 2008. [8] A. Guionnet and M. Krishnapur and O. Zeitouni. The single ring theorem. Ann. of Math, 174, (2) 1189 1217, 2011. [9] D. Jonsson, Some limit theorems for the eigenvalues of a sample covariance matrix, Journal of Multivariate Analysis 12, 1-38,1982. [10] M. Kharouf, W. Hachem, J. Najim and J.W. Silverstein. A CLT for Information-Theoretic Statistics of non-centered Gram Random Matrices, to appear in Random Matrices and their Applications.. [11] M. Kharouf, W. Hachem, A. Kammoun and J. Najim A Central Limit Theorem for the SINR at the LMMSE Estimator Output for Large Dimensional Signals. IEEE Inf. Theory, Vol. 55 (11), nov. 2009. [12] M. Kharouf, W. Hachem, A. Kammoun and J. Najim BER et Outage Probability Approximations for LMMSE Detectors on Correlated MIMO Channels. IEEE Inf. Theory, Vol. 55 (10), oct. 2009. 6

[13] A. B. J. Kuijlaars, Which eigenvalues are found by the Lanczos method?, SIAM J. Matrix Anal. Appl. 22(1), 306-321, 2000. [14] K. Le Son, A. Barros, and M. Fouladirad. On the use of stochastic processes for RUL estimation : a case study. In Proceedings of ESREL 2010 Annual Conference, pages 1159 1166, 2010. [15] K. Le Son, A. Barros, and M. Fouladirad. An example of remaining useful life estimation and stochastic deterioration models. Reliability Engineering System and Safety, 112, 165-175, 2013. [16] K. Le Son, A. Barros, and M. Fouladirad. Deterioration model filtering by Gibbs algorithm and RUL estimation In Proceedings of Safeprocess 2012, Mexico [17] V. Marcenko and L. Pastur, Distribution of eigenvalues for some sets of random matrices, Math USSR Sbornik 1, 457-483, 1967. [18] M. Kharouf, W. Hachem, J. Najim and J.W. Silverstein. A CLT for Information-Theoretic Statistics of non-centered Gram Random Matrices, to appear in Random Matrices and their Applications.. [19] M. Kharouf, W. Hachem, A. Kammoun and J. Najim A Central Limit Theorem for the SINR at the LMMSE Estimator Output for Large Dimensional Signals. IEEE Inf. Theory, Vol. 55 (11), nov. 2009. [20] M. Kharouf, W. Hachem, A. Kammoun and J. Najim BER et Outage Probability Approximations for LMMSE Detectors on Correlated MIMO Channels. IEEE Inf. Theory, Vol. 55 (10), oct. 2009. [21] A. Ponchet, M. Fouladirad, and A. Grall. Assessment of a maintenance model for a multideteriorating mode system. Reliability Engineering and System Safety, 25(11) :1244 1254, November 2010. [22] J.M. van Noortwijk, M.D. Pandey, and X.X. Yuan. The influence of temporal uncertainty of deterioration on life-cycle management of structures. Structure and Infrastructure Engineering, 5(1) :11 24, 2009. [23] X. Zhao, M. Fouladirad, C. Bérenguer, and L. Bordes. Optimal inspection/replacement policy in presence of covariates. Reliability Engineering and System Safety, 95,(8) :921 934, 2010. 7