Prédiction et Big data Mitra Fouladirad Institut Charles Delaunay - UMR CNRS 6281 Université de Technologie de Troyes 29 avril 2015 1
1 Sujet Motivation Le pronostic ou la prédiction du comportement futur d un phénomène aléatoire, par exemple la défaillance d une éolienne, l augmentation du prix d une action financière ou la propagation d un virus, est de grande importance et dernièrement il a attiré beaucoup d attention. Pour aborder correctement cette tâche, nous ne devons négliger aucune information disponible sur le phénomène considéré. Le progrès de la science et l apparition des ordinateurs et des capteurs puissants ont permis d avoir accès à beaucoup d information. Ces progrès ont abouti à l apparition des données hautes fréquences où à chaque seconde ou micro seconde de grandes quantités d information est disponible. Afin d être capable de profiter de toutes informations disponibles et de pouvoir faire de la prédiction, des outils efficaces et adaptés aux données de grandes tailles doivent être développés. La gestion, le traitement, l analyse et la visualisation des données sont des étapes essentielles à la compréhension du phénomène décrit par les données. Aujourd hui, le calcul intensif de données joue un rôle important dans les découvertes scientifiques. La taille des données, leur variabilité, leur rapidité d apparition et leur complexité présentent de nouveaux défis auxquels nous devons faire face de manière efficace. Désormais, nous sommes face à un besoin croissant de nouvelles approches et technologies pour analyser et traiter les données et les informations disponibles. Très souvent les données peuvent être vues comme des matrices de très grande taille et leur traitement dépassent largement les méthodes classiques de calcul matriciel. La résolution des systèmes d équation de grande dimension est souvent limitée par la taille de mémoire ainsi que la vitesse des ordinateurs. Toutefois, la vitesse de calcul, n est pas seulement mesurée par l horloge des ordinateurs mais elle dépend de la stabilité numérique des résultats et leur vitesse de convergence. La théorie des matrices aléatoires est un outils adapté pour traiter les données de grande taille. La théorie des matrices aléatoires porte aujourd hui beaucoup d intérêt et elle est appliquée dans beaucoup de domaines de sciences, ingénierie et finance. Cette théorie consiste à étudier des matrices dont les composants sont des variables aléatoires autrement dit elle étudie des variables aléatoires prenant des valeurs dans les espaces matriciels. En utilisant la théorie des matrices aléatoires, il est possible de construire des indicateurs tels que les valeurs propres des matrices pour étudier les données. L étude du comportement asymptotique de ces indicateurs permet d analyser ces données. 2
Présentation générale de la thèse Nous considérons le cadre général des données de très grande taille et les méthodes statistiques adaptées pour leur traitement. Par exemple, citons le cas des données issues des capteurs mis en place pour la surveillance d un système complexe où nous cherchons à prédire l instant de défaillance du système. Lorsque nous disposons des données de taille limitée et nous cherchons à traiter ces données afin de prédire le comportement futur du système, des méthodes statistiques classiques sont utilisées et un indicateur de santé du système est extrait. Par la suite, l indicateur est modélisé par un processus stochastique par exemple par un processus de Markov, Wiener ou Gamma voir [1, 22, 23] et à l aide des propriétés du processus choisi, le comportement futur du sytème est estimé. Dans le cadre des données à grande échelle, les méthodes statistiques classiques ne sont plus utilisables et leur efficacité sont mise en cause. Ils existent d autres outils pour traiter les données de grande taille dite big data. Ces données peuvent être présentées par une matrice aléatoire de très grande taille. Lorsque la dimension de la matrice aléatoire est suffisamment élevée, les distributions empiriques des valeurs propres de cette matrice convergent vers des lois limites connues (loi de Marcenko-Pastur ou Single Ring law) [2, 8, 9, 13, 17]. En se basant sur le comportement asymptotique de la plus grande (ou plus petite) valeur propre, nous pouvons proposer des résultats très intéressants sur le comportement du système et utiliser ces résultats à des fins de surveillance (détection et localisation de défaillance), de pronostic (proposition d intervalle de confiance pour la date de panne ou pour tout événement futur) [4]. Le but de cette thèse est d étendre les méthodes de pronostic initiées par [14 16] au cadre des données à grande échelle. Les différentes étapes de cette thèse se déclinent de la manière suivantes : 1. Le système considéré ainsi que les événements futurs à prédire sont proprement décrits et étudiés. 2. En utilisant une base de données de grande taille, le travail de modélisation et de traitement de données est initié. 3. Un ou plusieurs indicateurs de santé sont proposés et leurs propriétés sont analysées. 4. Le comportement asymptotique des indicateurs est étudié et la modélisation de leur loi limite est discutée. 3
5. Afin d estimer les paramètres ou les fonctions inconnus du modèle, des méthodes statistiques paramétriques ou non-paramétriques appropriées sont utilisés. L efficacité de ces méthodes est analysé et leur propriétés sont étudiées. 6. Des intervalles de confiance concernant les événements futurs à prédire sont proposés. 7. Nous menons ensuite une étude de sensibilité des méthodes d estimation ainsi que des choix de modèles asymptotiques sur les résultats de prédiction. 8. Les performances de la méthode de prédiction sont analysées. Les connaissances requises pour implementer les étapes précédentes sont les suivantes : 1. Algèbre linéaire 2. Calcul de probabilité pour les processus stochastiques 3. Méthodes statistiques paramétriques et non-paramétriques. Les principales collaboration sur le sujet Le(La) candidat(e) participera aux réunions et aux séminaires organisés avec les principaux partenaires industriels de l UTT à ce sujet. Le(La) candidat(e) assistera aux séminaires sur la théorie des matrices aléatoires, aux groupes de travail sur la fiabilité mécanique, sur la surveillance et sûreté des systèmes (S3) ainsi que aux journées Big data. 2 Encadrement L encadrante de cette thèse fait partie de l équipe Modélisation et Sûreté des Systèmes de l Université Technologie de Troyes. Actuellement Maître de conférence elle a travaillé ces dernières années sur le pronostic et prédiction pour la sûreté de fonctionnement (voir [5 7, 18 21]). Contacte : mitra.fouladirad@utt.fr 4
Laboratoire Le laboratoire de Modélisation et sûreté des systèmes (LM2S page web : http ://lm2s.utt.fr/en/index.html) fait partie de l institut Charles Delaunay (UMR CNRS 6281). Cet institut coordonne toutes les activities de recherche de l université. L équipe LM2S est composé de 3 axes de recherche : Outils statistique pour aide à la décision, Fiabilité et.... Le candidat fera partie des deux premiers axes. National collaborations Le (La) candidat(e) participera aux collaborations nationales avec des chercheurs de l Université Technologie de Troyes ainsi que des chercheurs de différents universités françaises Université de Marne-La-Vallée et Paris est (LIGM) and Télécom Paris-Tech (LTCI), Université de Pau et des Pays de l Adour (UPPA), Université de Grenoble. Collaborations Internationales Le candidat sera men à travailler avec les partenaires internationaux des directeurs de thèse, à savoir : R. Cont, Imperial College London, London, Uk, http ://www.proba.jussieu.fr/pageperso/ramacont/ T. Bedford, University of Strathclyde, U.K (http ://www.strath.ac.uk/mansci/staff/bedfordtimprof/) G. Pan, Nanyang Technological University, Singapore. J. Silverstein,North Carolina University, USA. Z. Bai, National University of Singapore http ://www.stat.nus.edu.sg/ stabaizd/ M. Xie, Hong Kong University, China (minxie@cityu.edu.hk) A. Barros, Norwegian University of Science and Technology (anne.barros@ntnu.no) Si nécessaire, un séjour de recherche dans une de ces universités peut être envisagé. Selon la qualité du travail fourni durant la thèse, les doctorants de l équipe participent aux conférences internationales. 5
Références [1] C. Barker and M. Newby. Optimal non-periodic inspection for multivariate degradation model. Reliability Engineering and System Safety, 94(1) :33 43, 2009. [2] A. Edelma. The probability that a random real Gaussian matrix has k real eigenvalues, related distributions, and the circular law, Journal of Multivariate Analyses 60, 203-232, 1997. [3] M. Brown and F. Proschan. Imperfect repair. Journal of Applied Probability, 20 :851 859, 1983. [4] A. Edelman and Y. Wang. Random matrix theory and its innovative applications. Advances in Applied Mathematics, Modeling, and Computation Science, 66, 91 116, 2013. [5] M. Fouladirad and A. Grall. A maintenance decision rule with embedded bayesian online change detection for gradually deteriorating systems. Journal of Risk and Reliability, 222(3) :359 369, 2008. [6] M. Fouladirad and A. Grall. Condition-based maintenance for a system subject to a nonhomogeneous wear process with a wear rate transition. Reliability Engenieering System and Safety, 96(6) :611 618, june 2011. [7] M. Fouladirad, A. Grall, and L. Dieulle. On the use of on-line detection for maintenance of gradually deteriorating systems. Reliability Engeniering Sytem and Safety, 93(12) :1814 1820, 2008. [8] A. Guionnet and M. Krishnapur and O. Zeitouni. The single ring theorem. Ann. of Math, 174, (2) 1189 1217, 2011. [9] D. Jonsson, Some limit theorems for the eigenvalues of a sample covariance matrix, Journal of Multivariate Analysis 12, 1-38,1982. [10] M. Kharouf, W. Hachem, J. Najim and J.W. Silverstein. A CLT for Information-Theoretic Statistics of non-centered Gram Random Matrices, to appear in Random Matrices and their Applications.. [11] M. Kharouf, W. Hachem, A. Kammoun and J. Najim A Central Limit Theorem for the SINR at the LMMSE Estimator Output for Large Dimensional Signals. IEEE Inf. Theory, Vol. 55 (11), nov. 2009. [12] M. Kharouf, W. Hachem, A. Kammoun and J. Najim BER et Outage Probability Approximations for LMMSE Detectors on Correlated MIMO Channels. IEEE Inf. Theory, Vol. 55 (10), oct. 2009. 6
[13] A. B. J. Kuijlaars, Which eigenvalues are found by the Lanczos method?, SIAM J. Matrix Anal. Appl. 22(1), 306-321, 2000. [14] K. Le Son, A. Barros, and M. Fouladirad. On the use of stochastic processes for RUL estimation : a case study. In Proceedings of ESREL 2010 Annual Conference, pages 1159 1166, 2010. [15] K. Le Son, A. Barros, and M. Fouladirad. An example of remaining useful life estimation and stochastic deterioration models. Reliability Engineering System and Safety, 112, 165-175, 2013. [16] K. Le Son, A. Barros, and M. Fouladirad. Deterioration model filtering by Gibbs algorithm and RUL estimation In Proceedings of Safeprocess 2012, Mexico [17] V. Marcenko and L. Pastur, Distribution of eigenvalues for some sets of random matrices, Math USSR Sbornik 1, 457-483, 1967. [18] M. Kharouf, W. Hachem, J. Najim and J.W. Silverstein. A CLT for Information-Theoretic Statistics of non-centered Gram Random Matrices, to appear in Random Matrices and their Applications.. [19] M. Kharouf, W. Hachem, A. Kammoun and J. Najim A Central Limit Theorem for the SINR at the LMMSE Estimator Output for Large Dimensional Signals. IEEE Inf. Theory, Vol. 55 (11), nov. 2009. [20] M. Kharouf, W. Hachem, A. Kammoun and J. Najim BER et Outage Probability Approximations for LMMSE Detectors on Correlated MIMO Channels. IEEE Inf. Theory, Vol. 55 (10), oct. 2009. [21] A. Ponchet, M. Fouladirad, and A. Grall. Assessment of a maintenance model for a multideteriorating mode system. Reliability Engineering and System Safety, 25(11) :1244 1254, November 2010. [22] J.M. van Noortwijk, M.D. Pandey, and X.X. Yuan. The influence of temporal uncertainty of deterioration on life-cycle management of structures. Structure and Infrastructure Engineering, 5(1) :11 24, 2009. [23] X. Zhao, M. Fouladirad, C. Bérenguer, and L. Bordes. Optimal inspection/replacement policy in presence of covariates. Reliability Engineering and System Safety, 95,(8) :921 934, 2010. 7