Résumés des projets de GMM5-2014/2015



Documents pareils
Résumé des communications des Intervenants

Introduction au datamining

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Enjeux mathématiques et Statistiques du Big Data

Le modèle de Black et Scholes

Coup de Projecteur sur les Réseaux de Neurones

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

CORAC : Appels à partenariat Propulsion

Apprentissage Automatique

Le Master Mathématiques et Applications

4.2 Unités d enseignement du M1

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

La classification automatique de données quantitatives

Les équations différentielles

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

Introduction au Data-Mining

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Débouchés professionnels

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Intérêt du découpage en sous-bandes pour l analyse spectrale

PROJET MODELE DE TAUX

Méthodes d apprentissage statistique «Machine Learning»

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

Ordonnancement robuste et décision dans l'incertain

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Correction du baccalauréat ES/L Métropole 20 juin 2014

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Probabilités III Introduction à l évaluation d options

Introduction au Data-Mining

MATHÉMATIQUES ET APPLICATIONS

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

L apprentissage automatique

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Arbres binaires de décision

!-.!#- $'( 1&) &) (,' &*- %,!

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filière MMIS. Modélisation Mathématique, Images et Simulation. Responsables : Stefanie Hahmann, Valérie Perrier, Zoltan Szigeti

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://


Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Agrégation des portefeuilles de contrats d assurance vie

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Les indices à surplus constant

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

HySIO : l infogérance hybride avec le cloud sécurisé

Projet Optiperf : les ressources du calcul parallèle à destination des architectes navals

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

MCMC et approximations en champ moyen pour les modèles de Markov

TRAVAUX DE RECHERCHE DANS LE

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

LES OUTILS DU TRAVAIL COLLABORATIF

Introduction au pricing d option en finance

Le risque Idiosyncrasique

MATHS FINANCIERES. Projet OMEGA

Modèle GARCH Application à la prévision de la volatilité

La nouvelle RÉGLEMENTATION PARASISMIQUE applicable aux bâtiments

Formation à la C F D Computational Fluid Dynamics. Formation à la CFD, Ph Parnaudeau

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

CAPTEURS - CHAINES DE MESURES

Figure 3.1- Lancement du Gambit

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

MATHÉMATIQUES ET APPLICATIONS

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

G.P. DNS02 Septembre Réfraction...1 I.Préliminaires...1 II.Première partie...1 III.Deuxième partie...3. Réfraction

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Joint AAL Information and Networking Day. 21 mars 2012

Ce document synthétise les principaux aspects de DayTrader Live, le service le plus haut de gamme de DayByDay.

Introduction à la méthodologie de la recherche

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Cours IV Mise en orbite

MABioVis. Bio-informatique et la

Le montant des garanties constituées aux fins du STPGV est-il excessif?

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

DESCRIPTIF DE MODULE S4 ADG : Mathématique pour la Gestion

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

T.P. FLUENT. Cours Mécanique des Fluides. 24 février 2006 NAZIH MARZOUQY

Chapitre XIV BASES PHYSIQUES QUANTITATIVES DES LOIS DE COMPORTEMENT MÉCANIQUE. par S. CANTOURNET 1 ELASTICITÉ

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

DIPLOME D'ETUDES APPROFONDIES EN ECONOMIE ET FINANCE THEORIE DES MARCHES FINANCIERS. Semestre d hiver

Métriques de performance pour les algorithmes et programmes parallèles

Transcription:

Résumés des projets de GMM5-2014/2015 Option MMS Statistical analysis of Raman Spectra skin to evaluate the benefit of Pierre Fabre s acne treatment cream Classification appliquée à la biologie structurale Characterization of azoospermia - Diagnosis support Le but de notre projet, en collaboration avec le laboratoire Pierre Fabre, est d étudier les effets d un traitement contre l acné appliqué sur la peau d un échantillon de patients au cours de plusieurs semaines. Les données à notre disposition sont les valeurs du spectre de Raman obtenue sur la zone traitée et sur la zone nontraitée de tous les patients. Après un débruitage du signal à l aide d une décomposition en ondelettes, nous avons mis en place des méthodes statistiques (tests d égalité des moyennes, ACP, SPLS- DA...) dans le but d identifier les zones de nombre d ondes discriminantes entre la portion de peau traitée et non-traitée. Les méthodes de classification sont des célèbres techniques en statistique utilisées dans plusieurs domaines. Le domaine que nous étudions ici est la biologie structurale et particulièrement les molécules biologiques et leurs interactions. L objectif est d étudier et comparer trois algorithmes de classification sur un ensemble de conformations fourni par Mr Juan Cortès, chercheur au LAAS. Les implémentations de ces algorithmes ont été effectuées avec le langage de programmation C++. et des outils statistiques du logiciel R ont été utilisés pour comparer les résultats des différentes méthodes. L objectif principal de ce projet est de caractériser un type bien particulier d infertilité masculine : l azoospermie qui se présente sous deux formes différentes. Ainsi, à l aide de nombreuses variables cliniques et biologiques issus de patients consultant pour infertilité au CHU de Toulouse, nous avons effectué de la classification et les résultats de cette dernière ont permis d obtenir un groupe de patients caractéristiques d une azoospermie obstructive. Une grande partie de ce travail s est également concentré sur le traitement des valeurs manquantes, très présentes dans les jeux de données étudiés. 1

Effects of stochastic parametrisations in the Lorenz 96 system L estimation du climat est réalisée grâce au système de Lorenz 96. Cette méthode étant coûteuse en calcul et en temps, il existence un modèle simplifié de ce système. Le but de notre travail a donc été d utiliser des méthodes statistiques afin de modéliser de la meilleure façon possible l erreur d estimation entre le modèle complet et le modèle simplifié. Nous avons alors mis en oeuvre une méthode itérative de régressions polynomiales, un algorithme de random forest ainsi qu un algorithme de boosting. Prediction of the evolution of insulin resistance of obese individuals during diet L objectif principal de ce projet est de prédire l évolution de la résistance à l insuline chez des patients obèses et en surpoids dans le cadre d un essai de régime grâce à des données et mesures biologiques. Différents modèles de prédiction ont été obtenu à partir des données cliniques (prise de sang et analyse d urine) et de données transcriptomiques (biopsie du tissu adipeux) et d un mélange de ces deux types de données. Big Data : how to face the data volume? State of the art & applications Performance analysis of information retrieval L expression «Big Data» est employée pour faire référence au traitement de gros volumes de données, qui ne peuvent plus être stockés sur un seul ordinateur. Le but principal de ce projet est d analyser les différentes méthodes proposées pour le traitement de telles masses de données et d étudier les performances de deux algorithmes statistiques (K-means et Random Forest) sur deux jeux de données issues du site Kaggle. Nous avons travaillé en partenariat avec le département informatique de l INSA de Toulouse, dont les étudiants ont mis en place une machine virtuelle adaptée à la pratique du Big Data. Durant ce projet, nous nous sommes intéressés à la recherche d information. Nous avons étudié différentes requêtes d utilisateurs qui ont été soumises à plusieurs moteurs de recherche, pour lesquels ont été calculées six mesures de performance. Le but de ce projet consistait à classer les requêtes afin d obtenir des groupes homogènes. On pourra ensuite cibler quel moteur de recherche utiliser pour quel groupe de requêtes. Pour cela, nous avons mis en place une première étude exploratoire puis effectué une Classification Ascendante Hiérarchique basée sur les variances et les coefficients de variation associés à chaque mesure de performance. 2

Détection de gènes différentiellement exprimés à partir de données de séquençage haut-débit (RNA-Seq) Ce projet avait pour but d analyser les résultats d une nouvelle méthode permettant de réaliser de l analyse différentielle. Cette nouvelle méthode utilise la classification contrairement aux anciennes qui utilisaient des tests. Cette méthode impliquant les problèmes sous-jacents au clustering, la première étape a été de sélectionner un critère permettant le choix du nombre de classes optimal. La seconde étape a été d analyser les classes obtenues afin de comprendre le classement des gènes dans chaque classe. Enfin nous avons testé une méthode d agrégation de classes avec une règle d agrégation liée à l entropie, dans le but d obtenir des classes représentant les gènes différentiellement exprimés et les gènes non différentiellement exprimés. Cette dernière méthode n ayant pas donné de résultats fructueux, il serait intéressant pour la suite des recherches de trouver une nouvelle règle d agrégation permettant d obtenir des résultats plus performants. Data Analysis in Road Traffic Dans ce projet, nous avons pu étudier des données de trafic routier sur le périphérique parisien, à l aide de la méthode d Apprentissage appelée NMF (Non Negative Matrix Factorization). Nous avons ainsi pu résumer l information contenue dans nos données initiales, qui étaient de grande taille. Dans un deuxième temps, nous avons réussi à prédire le trafic routier pour le lendemain, à savoir les heures précises des ralentissements et embouteillages. Backward Stochastic Differential Equations with jumps analysis and application to Finance On suppose dans ce projet que nous sommes à la place d un trader sur un marché complet et dont la priorité de cet investisseur est de minimiser ses pertes. Or, la richesse d un trader (liée à son investissement initial et sa stratégie de trading) est très souvent, d un point de vue mathématiques, représentée à l aide de sur-martingales voire de martingales. Et, il a été démontré que la fonction valeur et la stratégie optimale d un investisseur sont liées aux valeurs initiales de ces sur-martingales. Une manière d obtenir ces valeurs initiales est d utiliser des Équations Différentielles Stochastiques Rétrogrades (EDSR). Le but de ce projet est d?employer ces EDSR afin de maximiser la fonction d utilité du trader avec pour but l obtention d une expression explicite de sa fonction valeur et l obtention de la valeur de sa stratégie optimale. 3

Multilevel methods for option pricing in stochastic volatility models Utility maximization with random horizon M. B. Giles a développé, au début des années 2000, une approche qui permet d améliorer la technique de Monte Carlo lorsqu elle est appliquée à des processus stochastiques. Son idée permet la diminution de la complexité des algorithmes, et l amélioration de leur performance. Ce projet consiste à expliquer puis implémenter cette méthode dans le but d évaluer le prix de différentes options, en particulier en utilisant des modèles de prix à volatilité stochastique, généralement plus réalistes que le modèle de Black Scholes dont la volatilité est constante. Suite à la crise financière de 2008, la nécessité de mieux appréhender la notion de risque s est imposée. Ce projet traite d un sujet largement connu de la littérature financière à savoir le problème de maximisation d utilité dans lequel un agent cherche un maximiser son utilité, soit sa satisfaction ou son bonheur, en dégageant des gains les plus larges possibles. Dans ce projet, on s éloigne du problème de maximisation d utilité classique où l horizon est déterministe en ajoutant une incertitude quand à la possibilité d avoir accès au marché jusqu à maturité. Autrement dit, que se passe-t-il si l on introduit une source exogène de risque comme un krach boursier entrainant alors la fin des investissements? Application du modèle de Vasicek au taux d intérêt en finance En finance, beaucoup de modèles complexes sont utilisés pour reporter les fluctuations du marché. Dans le but d obtenir une modélisation plus réalistes, des travaux ont été menés et des modèles ont été développés pour donner une représentation stochastique des taux d intérêts sur les marchés. Le principal modèle est celui de Vasicek qui correspond à une équation différentielle stochastique que nous pouvons résoudre grâce au calcul d Ito. Ainsi nous pouvons calculer les prix de produits financiers : option, futures, obligations... En particulier, nous nous intéressons ici aux obligations Zéro coupon dont nous donnons une expression explicite du prix. 4

Option MMN Conception préliminaire d assemblage de brides basée sur un modèle simplifié Isogeometric Analysis for a 2D elasticity problem Dans le contexte industriel actuel, qui cherche continuellement à réduire la durée de conception ainsi que son coût, il est fondamental de faire des choix pertinents le plus en amont possible afin d éviter de les changer ensuite. Le processus de conception préliminaire se caractérise ainsi par la levée des incertitudes et la recherche des principaux paramètres. Il existe donc un besoin important en outils de pré-dimensionnement à la fois rapide et générique qui restent encore rare. C est pourquoi une nouvelle approche pour la conception préliminaire d assemblages de brides aéronautiques a été conçue. Cette approche est basée sur le développement d un modèle à deux niveaux. Un modèle générique local focet un modèle global. Mots clés : conception préliminaire, modèle simplifié, assemblage de brides, outil de décision, fixation boulonnée, vissée, taraudée L objectif de ce projet est d utiliser l analyse isogéométrique pour résoudre un problème d élasticité linéaire 2D. Cela consiste principalement à utiliser la méthode des éléments finis en utilisant les fonctions NURBS comme fonctions de base. Ces fonctions sont très utilisées en CAO et leur utilisation dans un problème éléments finis permet d éviter l étape de maillage et de travailler avec la géométrie exacte de la pièce. Nous décrivons d abord cette méthode pour résoudre une équation différentielle 1D, puis nous l appliquons pour approximer la solution d un problème d élasticité linéaire. estimation de la solution d un modèle de sélection-mutation avec petites mutations Le développement d une tumeur de cancer correspond à l évolution d une dynamique de population sous l effet de la sélection naturelle et de mutations. Pour modéliser ce phénomène biologique, on utilise généralement des équations de type Lotka-Volterra parabolique. Ces mutations étant très petites, le modèle est alors redimensionné en temps. D autre part, un modèle de type Hamilton- Jacobi peut-être utilisé comme limite du problème Lotka-Volterra redimensionné. L objectif est de comparer les deux types d équations et leurs solutions respectives numériquement, ainsi que de vérifier des propriétés théoriques établies sur certaines variables du modèle. 5

Computing a plasticity problem with hardening Nous proposons dans ce projet d étudier le modèle mathématique associé à la traction d une éprouvette d acier plane, rectangulaire, doté d un trou en son centre : nous prendrons en compte l apparition de déformations irréversibles (plasticité) et considérerons une loi d écrouissage linéaire. La résolution de ce problème passe par l écriture d une loi de comportement et d un problème aux limites, puis se résout par une méthode éléments finis. Ce problème classique se retrouve dans la littérature scientifique récente. Waveguide Routing Optimisation du découpage de l espace aérien Articulatory inversion of consonant phonemes Dans ce projet Open Innovation proposé par Airbus Defense & Space, nous avons travaillé sur un problème de routage de guide d onde sur un satellite de télécommunications. Ce sujet axé recherche opérationnelle nous a fait manipuler la théorie des graphes, un peu de combinatoire et le principe d ordonnancement par la réorganisation des guides d ondes et la détermination d un ordre de montage de ceux-ci, étapes que l on souhaite inscrire dans la phase de design du satellite. Actuellement le découpage de l espace aérien est fait grâce à l expertise d agents de contrôle qui essaient de minimiser la coordination nécessaire entre les différents contrôleurs et d équilibrer leur charge de travail respective. Cependant devant l augmentation du trafic et de la complexité croissante du réseau il convient de chercher des alternatives plus réactives et automatisées à cette opération de sectorisation. Le travail de partitionnement de l espace aérien a été effectué sur un intervalle de temps court où le trafic est supposé constant. L objectif du projet était d étendre cette sectorisation automatique à une journée entière pour permettre une sectorisation robuste malgré les variations du trafic. Dans un contexte de rééducation orthophonique, ce projet a pour objectif d étudier l inversion articulatoire de phonèmes consonantiques afin de distinguer de fréquentes confusions faites entre deux consonnes proches. A partir de l étude spectrographique d un signal sonore phonétique, on cherche à déterminer les facteurs clés de l identification de ces consonnes, chose qui se révélera être finalement plus complexe qu il n y paraît. 6

Discontinuous Galerkin method : shape functions built with Integral Equations Un des besoins de base de l ingénierie de prospection pétrolière est de savoir résoudre avec précision et rapidité l équation des ondes se propageant sur des domaines hétérogènes où l onde parcourt des centaines de milliers de longueurs d onde. En effet, ceci permet de déterminer la composition d un sol par résolution d un problème inverse. Il est nécessaire d utiliser une méthode variationnelle du type Galerkin discontinue pour résoudre ce problème de propagation en évitant le phénomène de dispersion numérique. Notre objectif, pendant ce projet, était d améliorer la méthode de Galerkin discontinue déjà implémentée afin d obtenir de meilleurs résultats en terme d erreur. Nous sommes donc passé d approximation des équations intégrales par des méthodes d éléments finis de surface de degré 1 à une méthode allant jusqu au degré 4. 7