UNIVERSITÉ CLAUDE BERNARD LYON 1 INSTITUT DE SCIENCE FINANCIÈRE ET D ASSURANCES INGÉNIERIE DES PRODUITS STRUCTURÉS. Essais sur les méthodes de simulation numérique et sur la modélisation des données de marché. Pierre-Alain Patard Directeur de thèse : M. le professeur Jean-Claude Augros Version : 11 juillet 2008
Résumé Cette thèse regroupe un ensemble de travaux sur les problématiques de simulation numérique et de modélisation des données de marché rencontrées lors du développement d un système d évaluation des produits dérivés actions. La première partie porte sur l utilisation des méthodes de simulation Monte Carlo et Quasi-Monte Carlo pour évaluer des produits dérivés. Elle insiste plus particulièrement sur le choix et sur l implémentation des générateurs uniformes, sur les techniques de simulation des variables gaussiennes et sur l utilisation des méthodes de réduction de variance pour accélérer la convergence des estimateurs. La seconde partie porte sur la modélisation des paramètres de marché qui interviennent dans la dynamique des prix d une action. Elle aborde successivement la construction des courbes zéro-coupon et des surfaces de volatilité implicite en absence d arbitrage puis l évaluation d une option Européenne en présence de dividendes discrets dont les montants sont connus à l avance. Mots-Clefs : [à dé nir] Abstract This thesis gathers a set of studies dealing with the problematic of numerical procedures and with the problematic of market data modelling met during the development of an equity derivatives valuation tool. The rst part relates to the use of Monte Carlo and Quasi-Monte Carlo simulations in order to price derivatives. It insists more particularly on the choice and the implementation of uniform generators, on the techniques employed to simulate Gaussian variables and on the variance reduction procedures that can be applied to improve the convergence rate of the estimators. The second part relates to the modelling of the market parameters, which in- uence the stock price dynamic. The rst two chapters deal successively with the zero curve construction and the implied volatility surface tting under the noarbitrage assumption. The third chapter resolves the European option-pricing problem in the presence of discrete cash dividends. Keywords : [to be de ned] i
ii
iii
Table des matières Introduction Générale 1 I Méthodes de simulation numérique 16 1 Intégration probabiliste Monte Carlo 19 1.1 Introduction.............................. 19 1.2 Générateurs pseudo-aléatoires.................... 21 1.3 Simulation de la loi normale unidimensionnelle.......... 39 1.4 Simulation de la loi normale multidimensionnelle......... 48 1.5 Méthode de Monte Carlo...................... 55 1.6 Evaluation d options par simulation................ 60 1.7 Conclusion.............................. 66 A Méthode de Schrage......................... 69 B Méthode de Box-Muller....................... 70 C Factorisation de Cholesky...................... 71 Références.................................. 73 2 Intégration déterministe Quasi-Monte Carlo 77 2.1 Introduction.............................. 77 2.2 Intégration Quasi-Monte Carlo................... 81 2.3 Suites de Weyl............................ 93 2.4 Suites de Halton........................... 105 2.5 Comparaison des temps de calcul.................. 123 2.6 Quasi-Monte Carlo dans la pratique................ 125 2.7 Conclusion.............................. 133 A Quadratures déterministes classiques................ 136 B Démonstration du théorème 2.8................... 137 C Démonstration du théorème 2.16.................. 138 D Démonstration du lemme 2.19................... 141 Références.................................. 142 iv
II Modélisation des données de marché 146 3 Construction de la gamme des taux zéro-coupon en l absence d opportunité d arbitrage 149 3.1 Introduction.............................. 149 3.2 Eléments de théorie......................... 151 3.3 Conventions de marchés....................... 156 3.4 Choix des instruments de calibration................ 159 3.5 Extraction des facteurs d actualisation............... 163 3.6 Interpolation non-arbitrable de la courbe des taux........ 173 3.7 Comparaison des méthodes proposées............... 186 3.8 Conclusion.............................. 191 A Démonstration de la proposition 3.1................ 192 B Caractéristiques des taux IBOR.................. 192 C Démonstration de la formule (3.64)................. 193 D Calculs du paragraphe 3.6.3..................... 194 Références.................................. 196 4 Construction de la surface de volatilité implicite en l absence d opportunité d arbitrage 199 4.1 La volatilité implicite : un enjeu stratégique............ 200 4.2 Normalisation du marché...................... 209 4.3 Contraintes de non-arbitrage.................... 212 4.4 Données utilisées dans le chapitre.................. 218 4.5 Modélisations possibles pour la surface de volatilité implicite.. 229 4.6 Construction d une surface de volatilité non-arbitrable...... 243 4.7 Conclusion.............................. 263 A Démonstrations du paragraphe 4.3................. 265 B Prix normalisé d un call dans le modèle de Merton........ 270 C Démonstrations du paragraphe 4.6.3................ 272 Références.................................. 275 5 Evaluation d un call Européen en présence de dividendes discrets. 279 5.1 Introduction.............................. 279 5.2 Approximations comonotones d une somme de variables aléatoires lognormales dépendantes....................... 282 5.3 Approximations comonotones du prix d un call Européen.... 288 5.4 Applications numériques....................... 293 5.5 Conclusion.............................. 297 A Approximations du prix d un call Européen............ 300 Références.................................. 303 v
Conclusion Générale 304 Bibliographie 308 vi
Introduction Générale L émergence de la gestion collective Avant les années 70, l accès aux marchés nanciers était réservé aux personnes possédant un patrimoine important et une certaine connaissance des mécanismes boursiers. L épargnant au patrimoine plus modeste devait s orienter vers des placements tels que le Livret A ou les emprunts d Etat. Vers la n des années 70, le développement des Organismes de Placements Collectifs en Valeurs Mobilières (OPCVM) a largement modi é cette situation : l accès aux marchés nanciers s est démocratisé par le biais de gestionnaires professionnels auxquels on con e son épargne. Un OPCVM est un instrument qui permet de mutualiser d importantes sommes collectées auprès de personnes physiques ou morales pour en con er l investissement et la gestion à des professionnels. Il existe en France deux types d OPCVM dont la nature juridique est di érente : les SICAV (Société d Investissement à Capital Variable), créées par une ordonnance de 1945 et les FCP (Fonds Commun de Placement), créés en 1979, qui sont des copropriétés de valeurs mobilières. Par dé nition, une SICAV possède la personnalité morale (il s agit d une société anonyme) et elle émet des actions. Tout investisseur devient actionnaire et peut s exprimer par son vote au sein des assemblées générales. Une SICAV peut assurer elle-même la gestion de ses investissements ou con er cette fonction à une société de gestion de portefeuilles 1 française agréée par l AMF 2 (Autorité des Marchés Financiers). Un FCP n a pas de personnalité morale. Il n émet donc pas des actions, mais des parts. En achetant des parts, l investisseur devient membre d une copropriété de valeurs mobilières mais ne dispose d aucun droit de vote. Un FCP est représenté et géré, sur les plans administratif, nancier et comptable, par une société de gestion de portefeuilles agréée par l AMF. 1 Une société de gestion de portefeuilles est une société d investissement dont le but est d assurer la gestion d organismes de placements collectifs. La plupart des sociétés de gestion sont des liales de grands groupes bancaires et sont généralistes, mais il existe aussi des sociétés de gestion indépendantes, souvent spécialisées dans certaines stratégies d investissements. 2 Site Internet de l AMF : http://www.amf-france.org. 1
Les FCP sont des instruments nanciers plus exibles que les SICAV. En e et, pour créer un FCP (copropriété), il faut réunir au moins 2 porteurs qui apportent un actif minimal de 300 000 euros. En comparaison, la création d une SICAV (société anonyme) représente un engagement plus lourd : il faut réunir au moins 7 actionnaires qui apportent un actif minimal de 4 000 000 d euros 3. Pour cette raison, la plupart des sociétés de gestion préfèrent monter des FCP plutôt que des SICAV, d autant plus que les deux supports fonctionnent d une manière très similaire. Ils permettent aux investisseurs (particuliers ou institutionnels) de pro ter de la rentabilité des marchés nanciers français ou internationaux au travers d une large gamme de produits qui couvre la plupart des marchés (marchés actions, marchés monétaires, marchés obligataires, marchés émergents...) au travers de di érentes stratégies (performance absolue, réplication indicielle, stratégies diversi ées ou garanties, produits dérivés et structurés, stratégies alternatives...). Les OPCVM constituent donc une alternative attractive pour l épargnant ou l institutionnel qui ne dispose pas des moyens, des compétences ou des habilitations nécessaires pour investir en direct sur les marchés nanciers. Le marché de la gestion collective a connu un essor sans précédent au cours des quarante dernières années, comme en attestent les chi res suivants. On dénombrait en France 53 OPCVM pour un actif d environ 13 milliards de francs en 1970 (Vitrac 2002). A la n de l année 2007, l AMF recensait 8243 OPCVM pour un actif total d environ 1350 milliards d Euros 4. La France est considérée comme l un des leaders mondiaux de la gestion collective. Une activité très réglementée Compte tenu des encours gérés, l activité de gestion collective joue un rôle de premier plan dans l économie du pays. Tout d abord, elle mobilise de manière accrue l épargne des particuliers et se positionne comme une alternative sérieuse à des placements plus classiques tels que les livrets d épargne. Ensuite elle permet à un nombre croissant d institutionnels (associations ou entreprises) de gérer leur trésorerie. En n, l ensemble des fonds de la place détiennent des parts très importantes du capital ou de la dette de nombreuses entreprises françaises ou étrangères, ce qui met les sociétés de gestion en position d in uencer la stratégie des dirigeants de ces entreprises. Pour ces raisons, les pouvoirs publics ont mis en place un appareil législatif étendu qui permet de garantir la déontologie, la transparence et la sécurité des investissements nanciers et de s assurer que les organismes gestionnaires agissent dans le seul intérêt des porteurs de parts. La surveillance des activités de gestion collective par les autorités s exerce à trois niveaux. 3 Voir l article 411-14 du Livre IV du Règlement Général de l AMF (AMF 2007a). 4 Document disponible sur le site de l AMF à la rubrique : OPCVM & produits d épargne > Liste des encours. 2
Surveillance au niveau de l Etat français avec l AMF L AMF 5, est un organisme public indépendant, doté de la personnalité morale et disposant d une autonomie nancière, qui a pour mission de veiller : à la protection de l épargne investie dans les instruments nanciers et tout autre placement donnant lieu à appel public à l épargne, à l information des investisseurs, au bon fonctionnement des marchés d instruments nanciers. Elle apporte aussi son concours à la régulation des marchés européens et internationaux. L AMF réglemente et contrôle l ensemble des activités de gestion collective. 1. Elle délivre les agréments et autorise les sociétés de gestion à exercer leur activité. Elle veille au respect des règles de déontologie en vigueur. Elle impose des pratiques de marché visant à privilégier l intérêt des porteurs. Elle s assure que les sociétés de gestion mettent en œuvre les moyens nanciers, juridiques, techniques et humains nécessaires au bon déroulement de leur activité, de manière à o rir une sécurité et une transparence maximale aux investisseurs. Elle peut restreindre ou retirer les agréments de manière temporaire ou, le cas échéant, de manière dé nitive. 2. Elle délivre les agréments pour la création et la dissolution des OPCVM et procède à des véri cations au cours de la durée de vie de ces fonds. Dans un souci d information et de protection des porteurs, elle impose depuis 2004 aux sociétés de gestion d établir un prospectus pour chaque fonds créé, véritable carte d identité de l OPCVM (AMF 2004). Le prospectus présente en particulier : l objectif de gestion du fonds décrit de manière claire et précise, les règles d investissement et d évaluation des actifs, les conditions de souscription et de rachat, les frais de gestion, les droits d entrée et de sortie 6. 3. Elle s assure que les sociétés de gestion opèrent en parfaite indépendance par rapport à leurs contreparties nancières et par rapport à leurs actionnaires. En particulier, dans le cas des sociétés de gestion attachées à une banque, elle s assure que les intérêts de la maison mère (la banque ou la société d assurance) ne soient pas confondus avec les intérêts des clients. 4. Elle joue un rôle consultatif auprès des sociétés et des épargnants. En particulier, elle peut être interrogée par les sociétés de gestion concernant des questions réglementaires ou d habilitation à exercer certains types d opérations ou à réaliser certains types de montages. 5 L AMF a été créée en août 2003 par la loi n 2003-706 de sécurité nancière. Elle est issue de la fusion de la Commission des opérations de bourse créée en 1967 (COB), du Conseil des marchés nanciers créé en 1996 (CMF) et du Conseil de discipline de la gestion nancière (CDGF). L objectif de ce rapprochement était de renforcer l e cacité et la visibilité de la régulation de la place nancière française. 6 Pour une présentation du contenu et de l élaboration du prospectus, on pourra se référer au document d information AMF (2007b). 3
En outre, l AMF dispose de cinq pouvoirs : elle peut réglementer, elle peut ordonner à tout agent économique de mettre n à des pratiques qu elle juge néfastes pour le marché, elle peut enquêter (sur un délit d initié éventuellement), elle peut saisir la justice pour mettre n à des irrégularités portant atteinte aux droits des épargnants, elle peut prononcer des sanctions nancières à l encontre de personnes physiques ou morales ayant enfreint la réglementation ou la déontologie du marché. Surveillance au niveau de la profession avec l AFG L Association Française de la Gestion Financière ou AFG 7 est l organisation professionnelle de la gestion pour compte de tiers. Elle réunit tous les acteurs du métier de la gestion, qu elle soit collective ou individualisée sous mandat. L AFG assure la représentation des intérêts économiques, nanciers et moraux de ses membres, des organismes qu ils gèrent et de leurs clients. Elle est l interlocuteur des pouvoirs publics français et européens et contribue activement à l évolution de la réglementation. L AFG joue également un rôle important au niveau de la déontologie et elle veille à ce que les sociétés d investissement agissent dans le seul intérêt des porteurs de parts. En n, l AFG a un rôle consultatif : les sociétés de gestion peuvent prendre des avis ou faire part de problèmes rencontrés dus, par exemple, à l évolution de la réglementation et aux di cultés soulevées par la mise en application d un nouveau règlement. Surveillance au niveau européen avec la MIFID La directive MIFID (Market In Financial Instruments Directive, en anglais) dé nit le nouveau cadre réglementaire d exercice des activités de marché dans l ensemble de l Union Européenne. Elle poursuit trois objectifs : l ouverture à la concurrence des lieux de négociations, l harmonisation des réglementations nationales, une meilleure protection des investisseurs et une transparence accrue des négociations sur actions. La directive MIF est en vigueur en France depuis le 1 er novembre 2007, ainsi que dans la plupart des pays de l Union Européenne. Toutefois, certains états, comme la Hollande ou l Espagne, ont pris du retard dans la transposition de règles et ne seront prêts que l année prochaine. La MIFID introduit de nouvelles règles pour renforcer le devoir d information et formaliser les obligations de "meilleure exécution" des ordres sur instruments nanciers. Elle responsabilise davantage l ensemble des acteurs (établissements bancaires, intermédiaires nanciers, clients) en xant clairement les droits et devoirs de chacun : pour les intermédiaires nanciers, des règles de bonne conduite et de transparence, 7 Site Internet de l AFG : http://www.afg.asso.fr/. 4
pour les clients, l information sur leur situation patrimoniale et nancière a n de béné cier pleinement de l ensemble des protections qu elle peut o rir. La directive distingue trois catégories de clients : les "Contreparties Eligibles", qui sont essentiellement les établissements de crédit, les compagnies d assurance, les sociétés de gestion, les "Clients Professionnels", regroupant les grandes entreprises qui remplissent certains critères en terme de taille de bilan, les "Clients non Professionnels", c est-à-dire tous les autres clients. A chaque catégorie correspond un niveau de traitement et d information spéci- ques.ainsi, les Clients Professionnels (et à fortiori les Contreparties Eligibles) sont présumés avoir l expérience et la connaissance des instruments nanciers complexes et disposer d une situation nancière leur permettant de faire face aux risques nanciers liés aux transactions sur ces instruments nanciers ; ils béné cient d une protection moindre. Les épargnants, en tant que clients non professionnels, béné cient d un niveau de conseil et d information accru. D une manière générale, l intermédiaire nancier doit être en mesure de prouver qu il a agi dans l intérêt de l épargnant, en privilégiant le choix des meilleures contreparties ou qu il a traité aux coûts les plus bas. L activité de gestion est donc particulièrement contrôlée en France. Les di érentes normes réglementaires au niveau français (AMF) et au niveau européen (MIFID) militent en faveur d une plus grande sécurité nancière pour les épargnants et elles incitent les sociétés de gestion à se doter d outils performants pour mesurer et gérer les risques qu elles prennent et qu elles font prendre à leurs clients. Le marché des fonds à formule Le besoin de concilier sécurité et performance Après les krachs boursiers de la n des années 80, les épargnants recherchent des placements sécuritaires. Ils se détournent alors des fonds investis en actions et en obligations dont les rendements sont jugés trop incertains pour aller vers des supports de type monétaire. Mais la faiblesse des taux d intérêt a rendu les fonds monétaires traditionnels moins rentables qu auparavant, donc moins attractifs pour les clients. A n de conserver leur clientèle dans cette conjoncture économique di cile, de continuer d attirer de nouveaux investisseurs et de préserver leurs marges, les banques ont commencé de proposer des OPCVM dont le capital est garanti à un certain horizon et qui o rent une perspective de performance attrayante, en général indexée sur les marchés boursiers 8. Ces fonds répondent aux attentes des particuliers qui recherchent à la fois la sécurité (par l intermédiaire de la garantie 8 Les premiers fonds de ce type furent lancés au début des années 90 par La Poste, devenue aujourd hui La Banque Postale. 5
en capital totale ou partielle) et le rendement potentiel (lié à l exposition aux marchés boursiers). Ils constituent une catégorie AMF à part entière : les fonds à formule. Caractéristiques des fonds à formule Un fonds à formule a pour objectif 9 d o rir au souscripteur qui investit à la date de création du fonds : une garantie totale ou partielle du capital à l échéance du fonds, la performance d un payo exotique portant sur l évolution d un ou de plusieurs sous-jacents (actions ou indices actions dans la majorité des cas). Ces garanties s appliquent uniquement à l échéance du produit. En d autres termes on peut schématiquement écrire : Fonds à formule = Zéro-Coupon + Payo Exotique (1) Dans le cas des fonds destinés aux particuliers, la garantie en capital est le plus souvent totale, de sorte que, à l échéance du fonds, l investisseur est assuré de récupérer au minimum la somme investie. Il existe toutefois des fonds plus dynamiques qui ne garantissent qu une fraction du capital initial ou qui protègent le capital tant que le marché n est pas descendu en dessous d un certain seuil. Ces fonds o rent une espérance de rendement supérieure en compensation de l augmentation de la prise de risque. Le payo exotique (ou structuré) est acheté par l OPCVM auprès de la salle des marchés d une banque d investissement. Sa nature (option à cliquets, option sur maximum, option sur moyenne, option sur panier de valeurs...) est déterminée par la société de gestion en fonction du type de clientèle ciblé et ses caractéristiques (nombre de points dans la moyenne, fréquence d observation des sous-jacents, niveau de barrière...) sont déterminées en fonction des conditions de marché. La combinaison (1) est synthétisée par le gestionnaire qui négocie un swap structuré dans lequel l OPCVM échange les ux associés au rendement total d un certain portefeuille investi en actions ou en obligations 10 contre les ux générés par la structure optionnelle et qui constituent la rémunération promise au client. Pour une étude approfondie des techniques de montage et de gestion des fonds à formule, on pourra consulter Patard (2001). Soulignons en n que, les fonds à formule permettent de pro ter pleinement de la scalité avantageuse o erte par le PEA (Plan d Epargne en Actions) ou 9 Une dé nition o cielle des fonds à formule est donnée à l article R214-27 du code monétaire et nancier. 10 Ce portefeuille constitue l actif physique du fonds et n est en aucun cas lié aux sous-jacents du payo structuré qui représente la performance o erte au client. 6
Fonds à Formule Fonds à Vocation Générale 80 1600 70 1400 60 1200 Actif Géré (Mds EUR) 50 40 30 Actif Géré (Mds EUR) 1000 800 600 20 400 10 200 0 0 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Fig. 1 Encours annuels moyens en milliards d euros sur les fonds à formule (graphique de gauche) et sur les fonds à vocation générale (graphique de droite). Années considérées : 1994 à 2007. (Source : AFG/AMF). l assurance vie 11, ce qui a assurément contribué à la démocratisation de ces produits auprès des particuliers. Le succès incontestable des fonds à formule La gure 1 permet de comparer l évolution des encours annuels moyens 12 sur les fonds à formules (graphique de gauche) et sur les fonds à vocation générale (graphique de droite). En 1994, on estime que l ensemble des sommes placées sur les fonds à formule étaient de l ordre de 11:12 milliards d euros. En 2007, l encours sur l ensemble des fonds à formule est voisin de 74:01 milliards d euros. Les actifs sous gestion sur les fonds à formule ont donc été multipliés par 6:66 en l espace de 14 ans. Ces chi res sont à comparer avec l évolution des encours sur l ensemble des fonds à vocation générale, qui représentent l ensemble des fonds accessibles au public. De 1994 à 2007, les encours annuels sur l ensemble de ces fonds sont passés de 433:01 milliards d euros à 1423:55 milliards d euros, ce qui signi e que les encours ont été multiplié par 3:29. Le taux de croissance des encours sur les fonds à formule a donc été le double de celui des encours sur les fonds plus traditionnels au cours des 14 dernières années. La période 2000-2003 correspond à l éclatement de la bulle spéculative sur les nouvelles technologies. De nombreux investisseurs, notamment des particuliers, qui s étaient positionnés sur les marchés actions (en direct ou via des OPCVM) en espérant réaliser de fortes plus-values, ont perdu beaucoup d argent durant cette période. La chute du marché a entraîné un regain d intérêt 11 Ces enveloppes scales attractives permettent une exonération de l impôt sur les plusvalues de valeurs mobilières à condition que les sommes restent investies au-delà d un certain horizon (5 ans pour le PEA et 8 ans pour l assurance vie). 12 Sur le site de l AFG, consulter la rubrique ECONOMIE ET STATISTIQUES > Actifs mensuels Historique depuis 1993. 7
pour des supports d épargne sécurisés, représentés entre autres par les fonds à formule à capital garanti. A partir de cette période, les entreprises d investissement (banques et assurances) ont proposé de manière quasi systématique des produits garantis à leurs clients particuliers, devenus spécialement désireux de protéger leur épargne contre les aléas des marchés actions 13. Une réglementation spéci que et renforcée pour les fonds à formule Les fonds à formule représentent depuis quelques années une part signi cative des nouveaux agréments d OPCVM et de la collecte, notamment auprès des particuliers. L AMF a adopté une réglementation spéci que pour ces fonds a n de protéger les intérêts des investisseurs, très attirés par ce type de produits et mis en con ance par le sentiment de sécurité qu ils inspirent. Prévenir les risques de dérive commerciale Les fonds à formule peuvent attirer une clientèle nouvelle, non initiée aux produits nanciers. Ces produits peuvent être facilement présentés par les réseaux commerciaux comme des produits sans risque avec des perspectives de rendements très intéressants ayant toutes chances de se réaliser. S il est vrai que les fonds à formule ont des avantages indéniables (avec la garantie totale ou partielle du capital investi et de belles perspectives de rendement) et peuvent séduire une clientèle aux moyens nanciers limités, désireuse de faire prospérer son épargne sans prendre de risque sur son capital, ils ont, comme tout produit nancier, leurs inconvénients et c est de ceux-là, qu à l égal de leurs avantages, l AMF entend que les réseaux commerciaux avertissent clairement le souscripteur a n d éviter d éventuelles déconvenues. En e et : Les frais d entrée compris entre 1% et 3% du capital investi réduisent d autant le montant du capital apporté par le souscripteur. Les fonds investis ne sont pas bloqués mais, en cas de sortie anticipée, des frais s élevant entre 2% et 6% de la valeur liquidative sont pénalisants. Le souscripteur doit être conscient qu il ne doit placer que les fonds dont il est sûr de ne pas avoir l usage pendant la durée du contrat. A l échéance, le client retrouve bien le montant du capital garanti. Mais la garantie totale du capital n est pas systématique. Dans le cas où le capital n est pas garanti ou garanti partiellement, le client doit savoir que la partie non garantie, si elle peut lui apporter une forte plus value, peut aussi perdre de sa valeur selon l évolution des marchés. 13 A ce sujet, on pourra consulter le dossier du magazine Capital de mars 2008 (No. 198), intitulé : "les fonds garantis, une bonne réponse à la crise boursière". 8
Un prospectus étendu A n de prévenir toute dérive commerciale, comme cela a quelquefois pu se produire, l AMF impose dorénavant aux établissements nanciers d établir, dans le cas des fonds à formule, un prospectus spéci que, qui donne plus d informations que celui des fonds traditionnels. Le prospectus doit insister sur la durée de l investissement recommandée et sur le fait que la valeur liquidative 14 du fonds pourra évoluer di éremment des indices sous-jacents. Il contient aussi quatre rubriques permettant au souscripteur d appréhender le produit et les espérances de gains a n de faire un choix en toute connaissance (AMF 2002) : une description détaillée du payo exotique, des objectifs du produit, de ses avantages et inconvénients, une présentation et une analyse des scénarios de marché favorables et défavorables au fonds, un back-testing du fonds qui illustre les rendements que l on aurait obtenus s il avait été lancé dans le passé, une comparaison, pour la même période, avec les rendements d autres placements (placement sur le sous-jacent du payo exotique et placement au taux sans risque). Prévenir les risques de con it d intérêt La structuration nancière des fonds à formule repose exclusivement sur l utilisation de payo structurés qui sont vendus et couverts par les salles des marchés des banques d investissement. Cela conduit à deux risques potentiels. 1. Un risque de con it d intérêts entre la société de gestion, qui agit au nom et pour le compte des porteurs de parts, et les salles des marchés qui agissent pour le compte propre des banques. Il faut éviter que la société de gestion privilégie une contrepartie pour des raisons autres que le prix du produit ou la qualité de service. 2. Un risque nancier pour les porteurs de parts. En e et, les salles des marchés ont un savoir-faire en matière d évaluation, de couverture et d analyse des risques sur les produits dérivés que les sociétés de gestion ne possèdent pas. Il faut éviter qu une société de gestion engage, sur les conseils d une contrepartie bancaire, ses clients sur un produit structuré "novateur" dont elle maîtrise mal les di érents aspects. A n de garantir l autonomie des sociétés de gestion par rapport à leurs contreparties bancaires et dans le souci de protéger les intérêts des investisseurs, l AMF impose aux sociétés de gestion de pouvoir réévaluer à tout instant et de manière autonome les positions sur les produits structurés détenus par les OPCVM. Les principes et les obligations de cette contrainte réglementaire sont dé nis à l article R214-13 du code monétaire et nancier dont nous reproduisons un extrait ci-dessous. 14 La valeur liquidative désigne la valeur d une part du fonds. 9
"Un organisme de placement collectif en valeurs mobilières peut conclure des contrats constituant des instruments nanciers à terme en vue de protéger ses actifs ou de réaliser son objectif de gestion [... ] Ils font l objet d une valorisation e ectuée par l organisme de placement collectif en valeurs mobilières, qui ne se fonde pas uniquement sur des prix de marché donnés par la contrepartie et satisfait aux critères suivants : 1) La valorisation se fonde sur une valeur de marché actuelle, qui a été établie de manière able pour l instrument ou, si une telle valeur n est pas disponible, sur un modèle de valorisation utilisant une méthode reconnue et appropriée ; 2) Cette valorisation est véri ée soit par un tiers indépendant du cocontractant, de façon régulière et selon des modalités telles que l organisme de placement collectif en valeurs mobilières puisse la contrôler, soit par un service de l organisme de placement collectif en valeurs mobilières indépendant des fonctions opérationnelles et en mesure de procéder à cette véri cation." La société de gestion ne peut donc pas se contenter de négocier les produits structurés puis d utiliser les prix qui lui sont communiqués par ses contreparties pour déterminer la valeur de l actif du fonds : elle doit véri er ces prix à l aide d un modèle de marché adapté, ce qui sousentend qu elle ne peut pas utiliser un modèle aux hypothèses trop simples et qu elle doit disposer des équipes compétentes pour implémenter et comprendre des modèles complexes, cette véri cation doit être e ectuée en toute indépendance par rapport aux services de gestion, a n de limiter d éventuels con its d intérêts, ce qui sousentend qu elle doit disposer d un service capable d évaluer les produits complexes ou bien qu elle doit sous-traiter cette tâche. Des contraintes opérationnelles fortes Les exigences de l article R214-13 se traduisent par deux contraintes opérationnelles fortes pour les sociétés de gestion qui souhaitent monter et commercialiser des fonds à formule. La première contrainte pour la société de gestion est d obtenir un agrément de l AMF qui l autorise à traiter des produits structurés. Pour cela, elle doit présenter un programme d activité qui décrit les produits sur lesquels elle interviendra ainsi que les moyens humains et techniques qu elle entend mettre en œuvre pour gérer ces produits dans les meilleures conditions. Ce document doit être particulièrement précis, notamment en ce qui concerne les modèles de marché utilisés AMF (2003a, 2003b). 1. La société de gestion doit justi er le choix et la pertinence des modèles de marché qui seront mis en œuvre. Pour cela, elle présente les tests qui 10
ont été menés pour valider les modèles et elle communique les Curriculum Vitae des personnes qui ont pris les di érentes décisions. 2. Elle doit présenter les méthodes numériques retenues pour la mise en œuvre des modèles (méthode de Monte-Carlo, formules fermées, EDP...) et justi er ses choix. 3. Elle doit présenter les hypothèses retenues pour la calibration des modèles ainsi que la manière dont les paramètres de marché nécessaires à sa mise en œuvre seront construits et justi er ses choix. L obtention de l agrément n est pas systématique et, dans la pratique, seules les sociétés de gestion qui disposent de moyens importants sont capables de nancer les équipes de recherche, de gestion et de contrôle ainsi que les outils informatiques indispensables à l exercice de ce genre d activité. Les sociétés de gestion qui n obtiennent pas l agrément n ont pas d autre choix que de sous-traiter le montage de fonds à formule auprès des sociétés habilitées à les monter. Lorsque l agrément est accordé, le programme d activité doit être remis à jour au fur et à mesure que la société de gestion fait évoluer les technologies qu elle utilise ou la gamme des produits qu elle négocie. L AMF se réserve la possibilité d e ectuer à tout moment des contrôles approfondis a n de s assurer que les engagements pris dans le programme d activité sont bien tenus. A cette occasion, elle peut restreindre ou supprimer, de manière temporaire ou dé nitive, l agrément de la société de gestion sur les produits structurés. La seconde contrainte porte sur la négociation des opérations de swaps structurés des fonds à formule qui doit reposer sur le principe de concurrence (AMF 2002). Cela signi e que la société de gestion doit procéder à un appel d o res entre les di érentes contreparties bancaires susceptibles de réaliser l opération. L objectif étant de rechercher les meilleures conditions de prix et de respecter le principe fondamental de la primauté de l intérêt des porteurs. L AMF recommande de retenir plusieurs contreparties à l issu de l appel d o res a n de diversi er les risques de marché. Toutefois, la société de gestion a la possibilité de contracter avec une contrepartie unique ou avec une contrepartie liée (par exemple la salle des marchés de la banque dont elle est liale). Dans ce cas, elle engage directement sa responsabilité si elle n a pas obtenu pour ses clients des conditions similaires à celles du marché. La nécessité de diversi er les contreparties pour une même opération implique que le nombre de swaps structurés gérés par la société de gestion est nettement plus important que le nombre de fonds commercialisés (il y a en moyenne 3 swaps par fonds 15 ). Cette stratégie limite assurément les risques nanciers et les risques de contrepartie. En revanche, elle augmente considérablement la charge de travail qui pèse sur l organe de contrôle des prix des opérations et elle induit des risques opérationnels importants 16 et peut ralentir sévèrement le processus de publication de la valeur liquidative du fonds. 15 L opération de swap structuré est systématiquement divisée entre plusieurs contreparties. Le nombre de contreparties est déterminé par le montant nominal du swap. 16 En multipliant les contreparties sur une opération, on augmente mécaniquement les risques 11
Industrialisation des processus de gestion des fonds à formule L augmentation considérable du nombre de fonds sous gestion et les contraintes réglementaires particulièrement fortes auxquelles sont soumises les sociétés de gestion militent en faveur du développement de systèmes de gestion très automatisés. Autrement dit, on assiste aujourd hui à une industrialisation accélérée des processus de gestion des fonds à formule. Industrialisation du montage des fonds Le marché des fonds à formule est rémunérateur pour les réseaux placeurs, mais il est fortement concurrentiel, car ce sont des produits qui permettent d attirer de nouveaux clients. Il est donc fondamental que la société de gestion soit en mesure d innover rapidement en ce qui concerne les payo exotiques pour se distinguer des concurrents et pour entretenir l intérêt des clients potentiels pour ces produits. En n, l élaboration du prospectus d un fonds à formule nécessite de renseigner di érentes rubriques dont le contenu est similaire d un fonds à l autre. Ces di érents points incitent à mettre en place des outils automatisés pour construire et pour tester les payo et pour réaliser les simulations numériques du prospectus. Dans la phase de structuration, le gérant recherche des pro ls de payo présentant un couple rendement/risque optimal. Cela peut se faire sur la base de simulations numériques des distributions de rendement des produits, à condition toutefois de disposer d un modèle de marché réaliste (Argou 2003). Industrialisation des systèmes d évaluation des produits structurés Pour permettre les entrées et les sorties des clients durant la vie du fonds 17, la société de gestion publie périodiquement la valeur de la part du fonds (ou valeur liquidative), déterminée sur la base des cours d ouverture ou des cours de clôture des sous-jacents du produit. La fréquence de valorisation et le type de cours utilisé sont des données du prospectus 18. En principe, la valeur liquidative doit être calculée le jour prévu et une accumulation des retards de publication des valeurs liquidatives peut entraîner des rappels à l ordre de l AMF. suivants : (i) ne pas recevoir l ensemble des réévaluations des positions pour calculer la valeur liquidative en temps voulu, (ii) ne pas avoir des réévaluations e ectuées sur les bons niveaux de marché (clôture veille au lieu d ouverture par exemple), (iii) ne pas recevoir de réévaluations suite à un problème informatique de l une des contreparties. 17 Dans le cas des fonds à formule, cette opération n est pas conseillée, car les frais de sortie anticipée sont pénalisants. 18 En général, la fréquence est quotidienne ou hebdomadaire. Dans de rares cas, elle est bimensuelle. 12
Dans le cas d un fonds à formule, publier la valeur liquidative implique de réévaluer l ensemble des swaps structurés qui composent le portefeuille et de confronter les valorisations obtenues à celles envoyées par les contreparties. Il est fréquent que les contreparties envoient des valorisations éloignées de celles trouvées par la société de gestion. Dans ce cas, la abilité de l outil interne joue un rôle essentiel comme en témoignent les analyses des cas suivants. 1. Le plus souvent, la di érence de valorisation réside dans des choix di érents pour la modélisation des paramètres de marché inobservables tels que la volatilité des sous-jacents ou la structure par terme de dividendes. Après avoir identi é la cause des écarts, l organe de valorisation de la société de gestion donne son accord pour la prise en compte du prix proposé par la contrepartie. Cela suppose que la société de gestion sache modéliser les paramètres de manière consistante. 2. Dans les périodes de krach boursier comme celui du début de l année 2008, il n est pas rare que des contreparties se trouvent dans l impossibilité d envoyer une valorisation de l opération dans les délais impartis ou que les écarts de valorisation ne trouvent pas une explication mathématique ou nancière 19. Dans ce cas, il faut parfois plusieurs jours avant que le problème ne soit résolu. En pratique, la société de gestion, ne peut pas se permettre de retarder le processus de publication de la valeur liquidative au-delà d une journée. Elle peut alors prendre la décision de valoriser ellemême le produit concerné, ce qui suppose qu elle ait toute con ance en ses systèmes de valorisation. Ces di érents cas démontrent tout d abord que l autonomie imposée par l AMF n est pas uniquement une contrainte réglementaire, c est aussi et surtout une contrainte opérationnelle. Ensuite, ils signi ent qu il faut penser l architecture du processus de valorisation dans son ensemble (modèle de marché, données de marché et méthodes numériques) de manière à disposer d un système automatique, homogène et robuste (Overhaus, Rerraris et al. 2002). Soulignons que les OPCVM sont structurellement acheteurs des payo exotiques, ce qui signi e qu ils n ont pas de risque lié à la couverture du produit, contrairement à leurs contreparties. En conséquence, la société de gestion ne fait pas la même utilisation des modèles de valorisation que les salles de marché. Dans le cas des sociétés de gestion, c est la recherche du compromis entre la abilité des résultats et la rapidité des calculs qui doit guider le choix des modèles. Mise en place d une veille technologique Les salles de marché font évoluer leurs technologies en permanence, tant au niveau du service o ert qu au niveau des modèles utilisés, ce qui leur permet de 19 En général, ces écarts proviennent du fait que les contreparties choisissent des niveaux très prudentiels pour les paramètres qui sont alors très éloignés de ceux que l on peut estimer en observant le marché. 13
proposer constamment de nouveaux payo exotiques. Par ailleurs, la réglementation AMF impose aux sociétés de gestion de savoir réévaluer l ensemble des payo traités de manière consistante. En n, l industrie des fonds à formule est basée sur le caractère innovant des produits commercialisés. En conséquence, les sociétés de gestion qui désirent occuper une place de premier plan sur le marché des fonds à formule doivent innover dans les technologies de valorisation, a n de pouvoir traiter les nouveaux payo sans di culté. Cela implique la mise en place et le nancement d une veille technologique permanente a n de faire évoluer ou de remplacer les systèmes existants. L apparition depuis quelques années de sociétés telles que Reech Capital 20, Numerix 21 ou Pricing Partners 22 qui proposent des services de valorisation indépendante et qui éditent des logiciels de valorisation de produits exotiques démontrent qu il existe aujourd hui un véritable marché des problématiques de valorisation (Benhamou 2007). En faisant l acquisition d un outil de valorisation externe, une société de gestion s a ranchit des problèmes de recherche théorique et d implémentation des modèles de marché et elle peut concentrer les e orts de ses équipes sur la modélisation des données de marché utilisées pour faire fonctionner les modèles et sur l innovation produit. Périmètre de l étude Les problématiques de modélisation quantitative peuvent être réparties en trois catégories : la construction et/ou l étude de modèles de marché mathématiques, l étude et l implémentation de méthode numériques pour évaluer les actifs conditionnels, la construction des paramètres qui servent d inputs aux modèles d évaluation à partir des données de marché. Le périmètre de notre étude concerne la mise en œuvre des méthodes numériques et la modélisation des paramètres de marché. Ces deux points constituent un partie importante du travail des praticiens. L objectif est de mettre en œuvre, de tester et de faire évoluer les modèles de la littérature pour les adapter aux contraintes opérationnelles telles que la nécessité d e ectuer les calculs dans un intervalle de temps réduit et avec le maximum de précision ou la nécessité de préparer et de modéliser des données de marché incomplètes ou arbitrables pour procéder à la calibration des modèles. Cette thèse regroupe un ensemble de travaux qui ont été menés sur les problématiques de simulation numérique et de modélisation des données de marché dans le cadre d une activité de gestion et de recherche quantitative au sein du pôle de 20 Site Internet : www.sungard.com/reech. 21 Site Internet : www.numerix.com. 22 Site Internet : www.pricingpartners.com. 14
gestion quantitative de CM-CIC Asset Management, la société de gestion pour compte de tiers du groupe Crédit Mutuel CIC. Notre travail s organise en deux parties. La première partie montre comment le praticien peut mettre en œuvre les techniques de simulation Monte Carlo et Quasi-Monte Carlo, pour implémenter un outil d évaluation des produits dérivés. On y insiste plus particulièrement sur le choix et l implémentation des générateurs de nombres uniformes et sur la simulation gaussienne. La seconde partie est consacrée à la modélisation des paramètres de marché nécessaires à l évaluation des produits dérivés sur les actions et sur les indices : les courbes de taux zéro-coupon, la volatilité implicite et les dividendes. Elle met en évidence les problèmes pratiques rencontrés lors de l extraction des données de marché et propose des solutions permettant de surmonter ces di cultés. 15
Première partie Méthodes de simulation numérique 16
Depuis quelques années, on assiste à un développement très important de l industrie des produits dérivés qui se traduit par une augmentation considérable des volumes de transactions, une complexi cation notoire des stratégies (produits hybrides portant sur plusieurs classes d actifs, options sur CPPI 23... ) et une diversi cation des sous-jacents (actions et indices, taux, crédit, in ation, matières premières, fonds... ). Ce phénomène s explique principalement par une concurrence accrue entre les banques d investissement qui souhaitent préserver leurs marges et par les exigences croissantes de clients de plus en plus avertis, informés et désireux de pro ter de toutes les opportunités o ertes par les marchés mondiaux. Pour mesurer et analyser les risques qu implique cette intensi cation des échanges, les intervenants (salles de marché, sociétés de gestion, fonds d investissement) doivent développer des modèles de marché probabilistes qui capturent les caractéristiques comportementales des sous-jacents de manière toujours plus réaliste. Par exemple, on peut remplacer la volatilité constante de la di usion lognormale du modèle de Black et Scholes (1973) par une volatilité stochastique (Hull et White 1987, Heston 1993) ou bien combiner le mouvement Brownien qui perturbe l évolution des rendements avec un processus à sauts (Merton 1976, Kou 2002). Mais ces modèles ne conduisent plus à des formules analytiques telles que la formule de Black et Scholes (1973). Les méthodes de simulation numérique du type Monte Carlo ou Quasi-Monte Carlo deviennent alors un outil incontournable pour estimer la valeur des produits dérivés complexes (Bouleau et Lépingle 1993, Jäckel 2002, Glasserman 2004). Cette partie s organise en deux chapitres. Le premier chapitre 24 porte sur la méthode d intégration numérique probabiliste Monte Carlo. Nous nous attachons à identi er un générateur pseudo-aléatoire de nombres uniformes rapide et robuste. Nous proposons une technique d échantillonnage de la loi normale scalaire et vectorielle adaptée aux contraintes calculatoires de la simulation numérique intensive. Nous présentons les techniques de simulation Monte Carlo et deux solutions pour accélérer la convergence de l estimateur et nous montrons comment ces méthodes peuvent être appliquées pour évaluer une option dont le prix dépend du chemin suivi par le sous-jacent. Le second chapitre porte sur la méthode de Quasi-Monte Carlo, fréquemment considérée comme une version déterministe de la méthode de Monte Carlo, car 23 CPPI signi e Constant Proportion Portfolio Insurance. Stratégie de gestion dynamique consistant à allouer dynamiquement un portefeuille composé schématiquement d une poche risquée et d une poche sans risque, a n de maintenir un e et de levier constant sur l actif risqué, tout en sécurisant les performances déjà réalisées par le portefeuille. 24 Une version de ce chapitre a été publiée dans le Bulletin Français d Actuariat Bulletin, Vol. 8, No. 14, juillet - décembre 2007, sous le nom Outils numériques pour la simulation Monte Carlo des produits dérivés complexes. 17
elle repose sur l utilisation de suites déterministes qui présentent un très haut degré d uniformité, appelées suites à discrépance faible. Nous menons une étude complète (propriétés théoriques et implémentation) de deux familles de suites à discrépance faible classiques et nous proposons une solution pour améliorer leurs propriétés en grande dimension. Par ailleurs, en procédant à des tests numériques, nous montrons comment implémenter la méthode de Quasi-Monte Carlo pour obtenir une réduction de l erreur signi cative par rapport à la méthode de Monte Carlo. Les méthodes présentées nécessitant des calculs intensifs et répétitifs, nous avons accordé une importance particulière à la manière dont il faut implémenter les générateurs de nombres uniformes de manière à réduire les temps d échantillonnage. 18
Chapitre 1 Intégration probabiliste Monte Carlo 1.1 Introduction La simulation aléatoire consiste d une part à produire des échantillons indépendants, identiquement distribués (i.i.d.) de loi uniforme U (0; 1) par un procédé déterministe (L Ecuyer 2004a) il convient donc de porter une attention particulière sur les générateurs pseudo-aléatoires utilisés, car ce sont eux qui permettent d échantillonner les lois de probabilité sous-jacentes du modèle théorique et d autre part à déterminer une transformation de la loi uniforme pour engendrer la loi de probabilité souhaitée, sachant que la plupart des lois de probabilité se déduisent de la loi uniforme par des transformations plus ou moins triviales (Devroye 1986, Niederreiter 1992). 1.1.1 Origines de la méthode de Monte Carlo Une application majeure de la simulation de systèmes stochastiques complexes est la méthode de Monte Carlo. C est un outil d inférence statistique qui permet d approcher une quantité déterministe, telle que l espérance d une variable aléatoire. Le principe consiste (i) à simuler un grand nombre de réalisations de la variable aléatoire considérée puis (ii) à approcher l espérance de cette variable par la moyenne empirique de l échantillon ainsi construit. L utilisation systématique de la méthode de Monte Carlo pour résoudre des problèmes complexes coïncide avec l apparition des premiers ordinateurs au milieu des années 1940. On peut considérer que John von Neumann et Stanislaw Ulam sont les premiers à avoir eu l idée d utiliser des nombres aléatoires générés par un ordinateur. Leur objectif était de résoudre les problèmes rencontrés lors de la mise au point de la bombe atomique (Lemieux 2008). Le terme Monte Carlo, utilisé par Metropolis et Ulam (1949), fait référence au célèbre casino de la principauté de Monaco où l on peut pratiquer le jeu de roulette qui peut être assimilé à une 19
succession d épreuves aléatoires. La méthode de Monte Carlo a connu un essor considérable dans la période 1950-1980. Parmi les auteurs ayant contribué à son développement, nous pouvons citer Hammersley et Morton (1956), Hammersley et Handscomb (1964), Haber (1966), Kuipers et Niederreiter (1974) et Niederreiter (1978). Cette liste non exhaustive donne les principales références sur le sujet. Boyle (1977) est, à notre connaissance, le premier à avoir proposé d appliquer la méthode de Monte Carlo pour évaluer des produits optionnels. L idée sousjacente consiste à remarquer que la valeur d une option est égale à l espérance de son payo actualisé. On peut alors mettre en oeuvre la méthode de Monte Carlo en simulant un grand nombre de réalisation du payo considéré. L approche Monte Carlo est aujourd hui utilisée dans presque tous les domaines de la nance quantitative pour simuler la dynamique des variables de marché. L objectif étant d e ectuer des calculs de risques, de déterminer des allocations optimales de portefeuilles et d évaluer les contrats optionnels aux caractéristiques complexes (Jäckel 2002, Glasserman 2004). 1.1.2 Organisation du chapitre Ce chapitre s inscrit dans un contexte où les méthodes de simulation numérique sont devenues un outil indispensable pour la modélisation et la quanti cation des risques de nature nancière. Il s attache à montrer comment le praticien peut utiliser les résultats théoriques de la littérature spécialisée pour répondre au problème de l évaluation des produits dérivés par la méthode de Monte Carlo. Les sections 2, 3 et 4 sont consacrées au choix fondamental des outils de simulation, tandis que les sections 5 et 6 présentent la méthode de Monte Carlo, deux méthodes systématiques pour réduire la variance ainsi que leur implémentation pour évaluer un produit dérivé. La section 2 pose le problème de l imitation du hasard sur un ordinateur, i.e. par un procédé déterministe. A ce titre, nous comparons di érents générateurs aléatoires. En particulier, nous présentons une technologie récente dite "Mersenne Twister" (Matsumoto et Nishimura 1998) et montrons qu elle constitue une solution rapide et robuste pour simuler la loi uniforme U (0; 1). La section 3 est consacrée à la simulation de la loi normale, car cette loi de probabilité est très fréquemment utilisée pour modéliser l évolution des facteurs de risque du marché. Nous envisageons successivement deux approches pour échantillonner la loi gaussienne : la transformation non linéaire d un jeu de variables uniformes (méthode de Box-Muller), puis la méthode d inversion de la fonction de répartition (Beasley et Springer 1977, Moro 1995, Acklam 2000). Les tests pratiqués s inspirent des travaux de Neave (1973) et montrent que la première solution induit des biais d échantillonnage non négligeables, tandis que la seconde solution permet de supprimer ces biais. Dans la section 4, nous abordons le problème de la simulation de la loi normale multidimensionnelle à partir de la loi normale scalaire. Nous discutons le problème de la décomposition de la matrice de 20
covariance et nous proposons un algorithme e cace et rapide pour simuler des variables suivant une loi de Gauss multivariée. Dans la section 5, nous rappelons les principes et les propriétés de la méthode de Monte Carlo, puis nous présentons ensuite deux techniques pour réduire systématiquement la variance de l estimateur quelle que soit la forme initiale du problème : la méthode "classique" des variables antithétiques et une méthode dite "adaptative", plus récente et plus exible que la méthode antithétique (Arouna 2004, Bouchard 2006). Dans la section 6, nous appliquons les méthodes étudiées précédemment pour évaluer des produits dérivés complexes. Nous prenons comme exemple le cas d une option asiatique géométrique mono sous-jacent, pour laquelle le prix est connu sous une forme explicite 1. Nous montrons comment les méthodes de réduction de variance permettent de contrôler l incertitude sur le prix simulé et nous procédons à une analyse numérique du comportement des estimateurs mis en oeuvre. Nous donnons la conclusion du chapitre dans la section 7. 1.2 Générateurs pseudo-aléatoires En raison de leur simplicité et parce qu elles nécessitent des calculs intensifs et répétitifs, les méthodes de simulation se prêtent bien à une implémentation informatique. Cela suppose que l on soit capable de produire rapidement des nombres au hasard par un procédé déterministe. Nous discutons ce point dans la suite. 1.2.1 Considérations générales sur les nombres aléatoires Choix d une source de hasard Sources de hasard réel On connaît aujourd hui une seule méthode pour obtenir des nombres véritablement aléatoires. Elle consiste à mesurer des phénomènes physiques intrinsèquement aléatoires, comme le bruit thermique dans les semi-conducteurs ou les émissions d une source radioactive (Lachaud et Leclanche 2003). Cette approche semble particulièrement prometteuse dans le domaine de la cryptographie. Ainsi, on sait obtenir des clés de chi rement uniques et imprédictibles en exploitant les propriétés quantiques de photons polarisés (Langlois 1999). Cependant, elle nécessite des équipements spéciaux particulièrement onéreux, ce qui la rend impropre à la simulation numérique sur les systèmes courants. Sources de hasard virtuel Les spécialistes préfèrent exploiter d autres techniques, dont l objectif est d imiter le hasard le mieux possible. Pour cela, on utilise des algorithmes purement déterministes, appelés générateurs pseudoaléatoires. Les séquences construites par un tel générateur sont sensées reproduire dèlement les propriétés statistiques de suites de nombres véritablement 1 Etant donné que le prix "réel" du produit est connu, nous serons en mesure d apprécier la convergence de la méthode numérique vers son objectif théorique. 21
aléatoires. On démontre qu il ne su t pas de juxtaposer "au hasard" des instructions machine pour obtenir un bon générateur. Cette démarche peut s avérer désastreuse. En conséquence, l élaboration d un générateur doit reposer sur des fondements théoriques solides. Architecture d un générateur pseudo-aléatoire La plupart des générateurs pseudo-aléatoires fabriquent des nombres U k apparemment i.i.d. de loi U (0; 1) selon un schéma récurrent et déterministe de la forme suivante : U k = g (s k ), où s k = f (s k 1 ) et s 0 2 S: (1.1) Les fonctions f : S! S (fonction de transfert) et g : S! (0; 1) (fonction de sortie) sont déterministes. L espace des états S est un ensemble ni de symboles représentables en machine. Le symbole produit à la k-ième itération, s k, est l état interne du générateur. Cette présentation formelle des générateurs pseudoaléatoires est due à L Ecuyer (2004a). Choix de l état initial L état initial s 0, qui permet d amorcer la récurrence, est aussi appelé la graine ou encore le germe du générateur (seed en anglais). Lorsqu il est xé une fois pour toutes, on obtient invariablement la même séquence. Cela facilite le développement et la mise au point des modèles et permet de reproduire une expérience virtuelle avec les mêmes conditions initiales. En dehors de ces besoins particuliers, il est recommandé d amorcer le générateur avec des graines uniformément i.i.d. dans l espace des états, ce qui permet d envisager, équitablement et sans biais, l ensemble des évolutions possibles pour le modèle. Comme l objectif visé est l analyse d un phénomène simulé et non pas la sécurité d un système, on peut engendrer les graines successives avec un générateur pseudo-aléatoire auxiliaire (plus facile à exploiter qu une source de hasard physique). Propriétés indésirables et propriétés recherchées Défauts structurels des algorithmes pseudo-aléatoires Comme l espace des états est ni, l algorithme ne peut renvoyer qu un nombre ni de valeurs distinctes et, comme la dynamique (1.1) est déterministe, le générateur retrouve le même état interne au bout d un certain nombre d itérations. Ensuite, les mêmes séquences sont à nouveau générées. En d autres termes, les générateurs pseudo-aléatoires sont périodiques. Ces propriétés des séquences simulées ne sont pas en accord avec le fait qu une séquence véritablement aléatoire de loi U (0; 1) est par nature non-périodique et qu elle prend une in nité de valeurs. En pratique, on exige que la période T du générateur (déterminée par f et card (S)) soit largement supérieure à la longueur de toutes les séquences envisageables et que l échantillonnage du segment unité (déterminé par S et g) soit le plus n possible. Il est communément admis que pour un bon générateur on doit avoir T ' card (S) et, si possible, T 2 60 ' 1:15 10 18 : (1.2) 22
Pour cela, on peut choisir f comme une permutation imprédictible des éléments de S et construire g de façon à transformer les états internes successifs en une suite de valeurs discrètes bien équidistribuées. Propriétés statistiques recherchées Le critère (1.2) ne su t pas à dé nir un bon générateur (L Ecuyer 2004a, p. 4). Il faut aussi véri er les propriétés statistiques des séquences générées (uniformité, équidistribution, indépendance, imprédictibilité) par des tests exigeants qui permettent d identi er les algorithmes les plus e caces. De tels tests sont présentés de manière approfondie dans Knuth (1998), L Ecuyer (1998a, 1998b), Niederreiter (1992) ou Klimasauskas (2003b). Malgré tout, chaque générateur pseudo-aléatoire a des caractéristiques intrinsèques qui le rendent impropre à certains types d applications. C est pourquoi, il est recommandé d utiliser exclusivement des générateurs dont les propriétés théoriques ont été établies par des spécialistes, puis validées par un jeu de tests connus comme DIEHARD (Marsaglia 1996) ou TestU01 (L Ecuyer et Simard 2005). Propriétés non statistiques souhaitables Lorsque le générateur est utilisé pour la simulation numérique intensive, certaines propriétés, de nature non statistique, comme la rapidité des calculs, la reproductibilité des séquences (qui permet de recommencer une expérience virtuelle dans des conditions identiques) et la portabilité du code (pour la mise en oeuvre sur di érentes machines) s avèrent particulièrement intéressantes. Evolution de la technologie Les algorithmes pseudo-aléatoires les plus anciens (les plus simples aussi) sont les générateurs à congruences linéaires (Niederreiter 1978, Knuth 1998). Bien qu ils équipent la plupart des systèmes de calcul standards, leurs propriétés s avèrent souvent décevantes (L Ecuyer (2001) ou Klimasauskas (2003a, 2003b)). Les spécialistes ont su faire évoluer les techniques (Gentle 2003) parallèlement à l évolution de la puissance de calcul des ordinateurs, d abord en combinant des générateurs connus (Wichmann et Hill 1982, L Ecuyer 1988), puis en explorant des solutions nouvelles. Aussi, les générateurs récents sont-ils conçus autour de l architecture binaire des ordinateurs (L Ecuyer et Panneton 2000, Panneton 2004). 1.2.2 Générateurs linéaires congruentiels La plupart des logiciels de calcul ou de développement disposent d un générateur de nombres aléatoires. Pour des raisons principalement historiques, celui-là est souvent de type linéaire congruentiel. La méthode des congruences linéaires fut introduite par Lehmer en 1949. Elle est particulièrement bien présentée dans l ouvrage de Knuth (1998, p. 10). 23
Approche théorique Dynamique linéaire congruentielle congruentiel (LCG) est donnée par : La dynamique d un générateur linéaire X k = (ax k 1 + c) mod m et X 0 2 N; (1.3) avec m 2 N (le module), a 2 N (le multiplicateur), c 2 N (l incrément). La récurrence (1.3) est appelée suite de Lehmer et son comportement est entièrement déterminé par le triplet (m; a; c) et X 0 (L Ecuyer 2004a). Par construction, l espace des états et la période d un générateur congruentiel véri ent : S N m def = f0; : : : ; m 1g ; T m: En distinguant le cas c = 0 (générateurs congruentiels multiplicatifs) du cas c > 0 (générateurs purement a nes) on sait trouver des jeux de paramètres qui permettent de maximiser la période. Obtenir des nombres uniformes dans (0; 1) Comme 0 X k m 1, il y a trois possibilités pour construire un nombre uniforme U k entre 0 et 1 : U k = X k m ou U k = X k m 1 ou U k = X k + 0:5 = X k m m + 1 2m : La première (resp. la seconde) solution conduit à des nombres dans l intervalle semi-ouvert [0; 1[ (resp. l intervalle fermé [0; 1]), tandis que la troisième solution génère des nombres dans l intervalle ouvert ]0; 1[. Nous recommandons cette dernière approche, car elle présente deux avantages : (i) il n est pas possible d obtenir 0 ou 1 (intéressant lorsqu on applique l inverse d une fonction de répartition aux sorties du générateur), (ii) les valeurs possibles pour U k sont dans l ensemble f1=(2m); : : : ; 1 1=(2m)g, qui est symétrique autour de 1=2. Générateurs congruentiels multiplicatifs (c = 0) Dé nition et propriété Lorsque c = 0, on parle de générateur linéaire congruentiel multiplicatif (MLCG) et la récurrence (1.3) devient : 8k 2 N ; X k = (ax k 1 ) mod m: (1.4) Dans ce cas, l état 0 est absorbant : si X k = 0, alors les termes suivants dans la suite seront tous nuls. Le générateur doit donc prendre ses valeurs dans N m n f0g, de cardinal m 1. Knuth (1998, p. 20) démontre le théorème suivant. Théorème 1.1 Soit X un MLCG dé ni par (m; a) et X 0. Si m est premier, la période maximale vaut m 1. Elle est atteinte si et seulement si X 0 ^ m = 1 et a est primitif 2 modulo m. 2 Un entier a est primitif modulo m si et seulement si a m 1 mod m = 1 et a k 1 mod m 6= 1 pour k = 1; : : : ; m 1. 24
Si m = 2 n (n 4), la période maximale vaut m=4. Elle est atteinte si et seulement si X 0 mod 8 = 1 et a mod 8 = 3. Une implémentation naïve de la dynamique (1.4) suppose que le produit ax k 1 soit représentable en machine, ce qui est rarement le cas. En e et, les générateurs acceptables ont un module m voisin du plus grand entier représentable et un multiplicateur a élevé. Lorsque a 2 < m, Schrage (1979) propose une méthode e cace pour calculer ax mod m sans dépassement de capacité (voir Annexe A). Générateur Ran0 (Park et Miller, 1988) le générateur suivant : Park et Miller (1988) considèrent U k = X k 2 31 1 avec X k = (16807X k 1 ) mod 2 31 1 : (1.5) Selon les auteurs, ce générateur constitue le standard minimal utilisable par les non-spécialistes. En e et, l algorithme est convenablement testé, le code est portable sur tous les systèmes et la période (T Ran0 = 2 31 2 ' 2:15 10 9 ) est maximale au sens du théorème 1.1. Soulignons toutefois que la période de Ran0 semble un peu courte pour des simulations intensives. Générateurs congruentiels a nes (c > 0) Dé nition et propriété Lorsque c > 0, Knuth (1998, p. 17) démontre que l on peut espérer construire des générateurs de période m. Théorème 1.2 La période maximale d un générateur purement a ne vaut m. Elle est atteinte si, et seulement si : c et m sont premiers entre eux, a = 1 mod d, pour tout nombre premier d tel que m mod d = 0, a = 1 mod 4, si m mod 4 = 0. Dans ce cas, pour tout choix de X 0, chaque valeur de N m sera atteinte pour un certain k. Il n existe pas de choix privilégié pour X 0. Nous donnons ci-dessous deux exemples de générateurs congruentiels a nes. Générateur Rnd (Microsoft Visual Basic) La fonction Rnd, disponible dans Microsoft Visual Basic (Microsoft 2004, Microsoft 2005), est un générateur linéaire congruentiel dé ni par : U k = X k 2 24 avec X k = (16598013X k 1 + 12820163) mod 2 24 : (1.6) Par construction, les U k sont à valeurs dans l intervalle semi-ouvert [0; 1[ et la fonction s annule une seule fois au cours d un cycle complet, lorsque X k 1 = 13497921. Selon L Ecuyer (2001), ce générateur a de mauvaises propriétés statistiques et une période un peu courte (T Rnd = 2 24 ' 1:68 10 7 ) pour envisager de l utiliser dans des applications numériques lourdes. 25
Générateur Rand (Microsoft Visual C++) La fonction Rand, implémentée dans le compilateur C de Microsoft depuis 1985, renvoie des nombres Y k uniformément distribués dans l ensemble 0; : : : ; 2 15 1 selon l équation : Y k = Xk 2 16 mod 2 15 où X k = (214013X k 1 + 2531011) mod 2 31 ; (1.7) La suite (X k ) est un générateur congruentiel a ne à valeurs dans 0; : : : ; 2 31 1 et de période maximale : T Rand = 2 31 ' 2:15 10 9. La suite (Y k ) est formée en isolant, à chaque itération, les 16 bits les plus signi catifs du générateur X. Elle prend donc 32768 valeurs distinctes dans l ensemble 0; : : : ; 2 15 1 et l on peut montrer qu elle s annule 7 fois au cours d un cycle complet de X. Si la longueur de la période peut être considérée comme acceptable, le cardinal de l espace des états est notoirement insu sant (card (S) = 2 15 = T Rand =65536). Le générateur Rand ne respecte pas le critère (1.2) et n est pas adapté au calcul numérique intensif. 1.2.3 Générateurs linéaires combinés Une solution simple pour construire des générateurs de période longue avec de bonnes propriétés statistiques consiste à combiner plusieurs générateurs congruentiels multiplicatifs de la forme X i;k = (a i X i;k 1 ) mod m i, où i = 1; : : : ; I et m i premier. Il existe deux techniques pour combiner des générateurs linéaires, la première est due à Wichmann et Hill (1982) et la seconde à L Ecuyer (1988, 1996, 1999). Approche théorique Combinaison de Wichmann et Hill La combinaison de Wichmann et Hill (1982) admet la forme générale suivante : U k = IX i=1 X i;k m i! mod 1; (1.8) où l opérateur "mod 1" signi e que l algorithme retourne la partie décimale de la somme des quotients. Combinaison de L Ecuyer Lorsque m 1 = max fm i : i 1g, L Ecuyer (1988, 1996, 1999) propose une dynamique voisine de la précédente : U k = X k m 1 et X k =! IX ( 1) i 1 X i;k mod m 1. (1.9) i=1 26
Période d un générateur combiné Si chaque générateur élémentaire est choisi de période maximale (soit m i 1) et si les termes (m i 1) =2 sont premiers entre eux, on peut démontrer que la période maximale d un générateur dé ni par (1.8) ou par (1.9) est donnée par la formule : T = Q I i=1 (m i 1) 2 I 1 : (1.10) Le lecteur trouvera une preuve de ce résultat dans L Ecuyer (1988, 1996) ou dans Sakamoto et Morito (1995). Générateur RWH (Wichmann et Hill, 1982) Le générateur de (Wichmann et Hill 1982) est dé ni par : et U k = X k = (171X k 1 ) mod 30269; Y k = (172Y k 1 ) mod 30307; Z k = (170Z k 1 ) mod 30323; Xk 30269 + Y k 30307 + Z k mod 1: 30323 Il franchit les tests DIEHARD de Marsaglia et la période est donnée par (1.10) : T RWH = (m X 1) (m Y 1) (m Z 1) 4 ' 6:95 10 12 : Ce générateur est donc utilisable pour la plupart des applications courantes. En particulier, il est implémenté dans la fonction ALEA() du tableur Excel depuis la version 2003 (Microsoft 2006). Cela est un gage de abilité pour les utilisateurs qui souhaitent manipuler des nombres aléatoires dans les feuilles de calcul. Générateur Ran2 (L Ecuyer, 1988) L Ecuyer (1988) considère deux générateurs multiplicatifs, X et Y, de paramètres : (m X ; a X ) = 2 31 85; 40014 ; (m Y ; a Y ) = 2 31 249; 40692 qu il combine selon la convention (1.9) : U k = Z k m X, avec Z k = Xk Y k si X k > Y k X k Y k + m X 1 si X k Y k : Les paramètres permettent d atteindre une période maximale au sens de la formule (1.10) : T Ran2 = (m X 1) (m Y 1) 2 27 ' 2:31 10 18 ;
ce qui est environ 1 milliard de fois la période de chaque générateur pris indépendamment. Press et al. (2002) soulignent les excellentes propriétés statistiques de ce générateur et proposent d augmenter l imprédictibilité de l algorithme en appliquant un mélange de Bays-Durham : il s agit d un petit algorithme qui perturbe l ordre de la suite (X k ), ce qui permet de briser les corrélations sérielles entre les sorties successives du générateur. 1.2.4 Générateurs Mersenne Twister Fondements de l approche Mersenne Twister (MT) Les Mersenne Twister sont des générateurs récents 3, proposés pour la première fois par Matsumoto et Nishimura (1998). L idée originale des auteurs est de dé nir la récurrence du générateur, non pas à partir des opérations arithmétiques classiques sur les entiers (comme pour la plupart des générateurs courants), mais à partir des opérations d arithmétique matricielle dans le corps ni N 2 = f0; 1g. Cette approche nouvelle présente quatre avantages majeurs : (i) on peut écrire l algorithme avec les opérateurs de bits présentés dans le paragraphe suivant (L Ecuyer et Panneton 2000), de sorte que le générateur exploite pleinement l architecture binaire de l ordinateur (Panneton 2004), (ii) les temps de calcul sont considérablement réduits (les opérateurs de bits sont très rapides), (iii) on peut obtenir des générateurs de période arbitrairement longue (les bits alloués à la mémoire du générateur sont mélangés à chaque itération, ce qui accroît l espace des états du générateur), et (iv) on améliore l équidistribution multidimensionnelle du générateur en appliquant un ultime mélange des bits avant renvoi d un nouveau nombre uniforme (Matsumoto et Kurita 1992, 1994). Opérateurs de bits Représentation des entiers en machine L ensemble des entiers représentables en machine est de la forme N 2!, où! désigne le nombre de bits de l ordinateur 4. Tout entier X 2 N 2!, de décomposition binaire P! 1 i=0 x i2 i, est stocké sous la forme d un "vecteur de bits" : X (x! 1 ; x! 2 ; : : : ; x 0 ). Décalage de bits Soit 0 v!. On note " v" le décalage de v bits vers la droite (lire v bits right shift) dé ni par : X v def = (0; : : : ; 0; x! 1 ; : : : ; x v+1 ) = bx=2 v c : De manière symétrique, le décalage de v bits vers la gauche (v bits left shift) est noté " v" et correspond à l opération : X v def = (x! v 1 ; : : : ; x 0 ; 0; : : : ; 0) = (2 v X) mod 2! : 3 http://www.math.sci.hiroshima-u.ac.jp/~m-mat/eindex.html 4! = 32 sur une machine 32 bits et! = 64 sur une machine 64 bits. 28
Les opérateurs de décalage de bits sont donc des raccourcis pour la division (resp. la multiplication) par une puissance de 2. Ils sont particulièrement rapides, car ils agissent directement sur les bits de l entier X. Arithmétique bit à bit "bit à bit" : Soit Y = P i<! y i2 i 2 N 2!, on dé nit les opérateurs X Y def! X1 = (x i y i ) 2 i et X Y def! X1 = (x i y i ) 2 i ; i=0 avec la convention x i y i = (x i + y i ) mod 2 et x i y i = (x i y i ) mod 2. La dynamique Mersenne Twister Paramètres du Mersenne Twister Soit 0 r! 1. On note M r (resp. M r ) l entier dont les r bits d ordre inférieur (resp. les! r bits d ordre supérieur) sont égaux à 1, les autres bits étant nuls : M r = 2 r 1 et M r = 2! 2 r. Ces entiers sont appelés masques de bits du générateur. Par ailleurs, on dé nit une fonction sur l ensemble des entiers machine par 0 si x mod 2 = 0 A (x) = (x 1) a si x mod 2 = 1 ; où a 2 N 2! est une constante entière "bien choisie". Cette fonction, appelée perturbation du générateur, décale les bits de l entier x de 1 rang vers la droite et, lorsque x est impair, mélange le résultat avec les bits de la constante a. Récurrence du générateur La dynamique Mersenne Twister est basée sur un schéma récurrent d ordre n dans l ensemble des entiers machine. Pour k 0, le terme X k+n est construit à partir de X k, X k+1 et X k+m (0 m < n) de la manière suivante : i=0 X k+n = X k+m A (X k+1 M r ) (X k M r ) : L entier (X k+1 M r ) (X k M r ) est formé en concaténant les r bits d ordre inférieur de X k+1 avec les! r bits d ordre supérieur de X k+1, puis il est mélangé par la fonction A. Le nouvel entier ainsi obtenu est additionné (bit à bit) avec X k+m. Ces mélanges successifs augmentent l imprédictibilité du générateur. Notons que la séquence est initialisée en choisissant n entiers machine (X 0 ; : : : ; X n 1 ) 2 N n 2!. Opération de tempering A n d améliorer l équidistribution multidimensionnelle des sorties du générateur, les concepteurs proposent de mélanger les bits de X k+n selon l algorithme suivant : 29
Algorithme 1 Tempering de Matsumoto et Kurita (1998) Y X k+n Y Y (Y u) Y Y ((Y s) b) Y Y ((Y t) c) Y Y (Y l) Cette opération, appelée tempering, intervient avant de renvoyer un nouveau réel dans le segment unité. Di érentes techniques de tempering sont discutées dans la thèse de Panneton (2004, pp. 34-37). Sorties du générateur Le k-ième réel uniforme dans ]0; 1[ est donné par U k = Y + 0; 5 1 2! 2 2!+1 ; 3 2!+1 ; : : : ; 1 1 2!+1 et la période maximale théorique vaut : T MT = 2!n r 1: Pour certains choix de!, n et r, la période est un nombre de Mersenne (i.e. un nombre premier de la forme 2 i 1), ce qui justi e, à posteriori, le nom de cette famille de générateurs. Générateur MT19937 (Matsumoto et Nishimura, 1998) Paramètres de récurrence MT19937 sont les suivants : Les paramètres de récurrence du générateur! = 32; n = 624; r = 31; m = 397; a = 2567483615: Ce choix permet de maximiser la période : T MT19937 = 2!n r 1 = 2 19937 1 ' 4:32 10 6001 : La période obtenue est un nombre premier de Mersenne comportant environ 6000 chi res, ce qui est colossal. Paramètres de tempering Les paramètres de tempering sont : u = 11; s = 7; t = 15; l = 18; b = 2636928640 et c = 4022730752: Ils assurent à MT19937 une équidistribution optimale dans 623 dimensions 5. 5 Pour une présentation théorique de la notion d équidistribution, nous invitons le lecteur à consulter Niederreiter (1992) ou Tezuka (1995). 30
Procédure d initialisation Soulignons que le générateur MT19937 est très sensible au choix de l état initial. S il contient trop de bits nuls, la suite générée conservera cette tendance sur plus de 10000 simulations (Panneton 2004). Depuis 2002, les auteurs proposent de construire (X 0 ; : : : ; X n 1 ) selon une récurrence qui assure une bonne di usion des bits du registre : X i = 1812433253 ((X i 1 X i 1 30) + i) ; i = 1; : : : ; n 1; où X 0 2 N 2! est xé arbitrairement. 1.2.5 Choix d un générateur Le choix d un générateur pseudo-aléatoire dépend de ses propriétés intrinsèques (longueur de la période et comportement statistique) ainsi que de la machine utilisée (vitesse d exécution), l objectif étant de trouver l algorithme réalisant le meilleur compromis entre ces critères et les besoins réels de l utilisateur. Caractéristiques intrinsèques des générateurs présentés Longueur de la période Dans le tableau ci-dessous nous avons classé les générateurs étudiés en fonction de leur période, dont l ordre de grandeur est donné sous la forme d une puissance de 10. Générateur Rnd Ran0 & Rand RWH Ran2 MT19937 Période 1:68E7 2:15E9 6:95E12 2:31E18 4:32E6001 La période du générateur MT19937 est "in niment" plus grande que celle des autres générateurs étudiés. Par exemple, la période de Ran0 représente une fraction in nitésimale de la période de MT19937 : T Ran0 2:15 109 ' T MT19937 4:32 10 6001 ' 4; 97 10 5993 : Pour les applications pratiques, on considèrera que la période du Mersenne Twister est in nie. Propriétés statistiques des séquences L objectif de ce travail est d o rir au lecteur une présentation synthétique de di érentes techniques permettant de produire des nombres au hasard et non pas de procéder à des tests statistiques exhaustifs sur les di érents algorithmes. En e et, il existe pour cela des logiciels bien spéci ques (cf. paragraphe 1.2.1), développés et utilisés par les spécialistes qui ont, par ailleurs, déjà publié ce type de tests comparatifs (L Ecuyer et Simard 2005). Nous retiendrons simplement que les générateurs combinés RWH et Ran2 ainsi que le générateur à opérations binaires MT19937 passent sans di culté les tests statistiques les plus exigeants, tandis que Rnd, Rand et Ran0 échouent certains tests plus élémentaires (L Ecuyer 2001). De ce point de vue, RWH, Ran2 et MT19937 surclassent les générateurs linéaires congruentiels. 31
Equidistribution multidimensionnelle Pour simuler des vecteurs i.i.d. selon la loi uniforme sur l hypercube unité ]0; 1[ s à partir des sorties successives d un générateur pseudo-aléatoire, il su t de considérer la suite de terme général : U k def = U (k 1)s+1 ; U (k 1)s+2 ; : : : ; U ks 0 ; k 1: (1.11) D un point de vue théorique, les points construits selon la formule (1.11) doivent occuper le cube "au hasard" et, par conséquent, leur disposition ne doit présenter aucune structure déterministe apparente. Dans la suite, nous proposons deux tests utilisant des échantillons de la forme (1.11) et qui permettent de révéler le déterminisme sous-jacent des générateurs Rnd, Rand et Ran0. Examen des projections bidimensionnelles Une manière simple de mettre en évidence le déterminisme sous-jacent des générateurs Rnd et Rand consiste à représenter les projections des points de la suite dé nie par la relation (1.11) sur di érents plans du cube ]0; 1[ s. Pour les besoins de l expérience, nous avons choisi les plans de coordonnées (1; 2), (8; 9), (29; 30), (62; 63), (96; 97) et (117; 118). Les quatre premiers plans sont issus de Jäckel (2002) et nous avons choisi les deux derniers au hasard. Dans tous les cas, nous avons généré 5000 points. La - gure 1.1 représente les projections obtenues avec le générateur Rnd (dimension s = 256) et la gure 1.2 représente les projections obtenues avec le générateurs Rand (dimension s = 2 14 ). A titre de comparaison, nous avons représenté les projections obtenues avec le générateur Ran0 ( gure 1.3) et avec le générateur MT19937 ( gure 1.4). Sur la gure 1.1, sur chaque plan de projection, les nuages de points composent des formes géométriques régulières. Cela est en contradiction avec le fait que les points sont sensés se répartir dans tout le plan sans privilégier des regroupements reconnaissables comme les arcs de cercles que l on voit ici. Le générateur Rnd n a pas été capble d imiter une répartition des points au hasard. Sur la gure 1.2, les projections obtenues sont di érentes de celles de la gure 1.1, mais présentent encore des formes géométriques très régulières, ce qui montre que le générateur Rand n est pas su samment performant pour imiter une distribution des points au hasard. Dans la mesure où les générateurs Rnd et Rand ont échoué ce test empirique très simple, nous recommandons de ne pas les utiliser pour les applications numériques lourdes telle que la simulation de processus stochastiques complexes. Les gures 1.3 et 1.4 obtenues avec les générateurs Ran0 et MT19937 ne présentent aucune structure déterministe apparente 6. Les points se répartissent de manière imprédictible et uniforme, conformément à ce que l on peut attendre d un jeu de points véritablement aléatoires. 6 Nous avons choisi de ne pas faire gurer les projections obtenues avec les générateurs Ran2 et RWH, car elles sont semblables aux gures 1.3 et 1.4. 32
Le résultat est surprenant pour le générateur Ran0 qui appartient à la même famille de générateurs linéaires congruentiels que Rnd et Rand. On peut penser que cela provient du choix des paramètres. Le test graphique suivant permet de distinguer nettement les générateurs Ran0 et MT19937. Structure latticielle Etant donné que les générateurs Ran0 et MT19937 ont donné des résultats semblables lors du test des projections, nous réalisons une nouvelle expérience destinée à mettre en évidence le déterminisme de l algorithme Ran0. L idée est d étudier le comportement des points générés à une échelle miniature. Pour cela, nous avons réalisé l expérience suivante avec chacun des deux générateurs : 1. simulation de 625 millions de points "aléatoires" dans le cube unité ]0; 1[ 3, 2. observation du comportement des points dans le "petit" cube ]0; 0:02[ 3. La gure ci-dessous permet de comparer les résultats obtenus selon que le générateur utilisé est Ran0 (cube de gauche) ou MT19937 (cube de droite). Les points construits avec Ran0 se répartissent sur des plans parallèles, ce qui est en contradiction avec le fait que le générateur est sensé imiter des nombres "au hasard". Cette con guration spatiale particulière est caractéristique des générateurs linéaires congruentiels (Ran0, Rnd, Rand) : elle est appelée structure latticielle (Knuth 1998). En revanche, les points simulés avec le Mersenne Twister ne présentent pas de structure déterministe à l échelle miniature, ce qui con rme la qualité de ce générateur. Soulignons que des gures tout à fait similaires auraient été obtenues si nous avions remplacé MT19937 par l un des générateurs combinés RWH ou Ran2. Les générateurs combinés ne présentent aucune structure latticielle patente. 33
Fig. 1.1 Projections de 5000 points de la suite vectorielle (U k ), dé nie par (1.11), sur 6 plans engendrés par des couples de coordonnées consécutives. Le générateur utilisé est Rnd et la dimension de simulation est s = 256. 34
Fig. 1.2 Projections de 5000 points de la suite vectorielle (U k ), dé nie par (1.11), sur 6 plans engendrés par des couples de coordonnées consécutives. Le générateur utilisé est Rand et la dimension de simulation est s = 2 14 = 16384. 35
Fig. 1.3 Projections de 5000 points de la suite vectorielle (U k ), dé nie par (1.11), sur 6 plans engendrés par des couples de coordonnées consécutives. Le générateur utilisé est Ran0 et la dimension de simulation est s = 2 14 = 16384. 36
Fig. 1.4 Projections de 5000 points de la suite vectorielle (U k ), dé nie par (1.11), sur 6 plans engendrés par des couples de coordonnées consécutives. Le générateur utilisé est MT19937 et la dimension de simulation est s = 2 14 = 16384. 37
Conclusion Le Mersenne Twister est le seul générateur de ce comparatif qui permette de produire des points en dimension multiple sans qu aucune structure déterministe ne soit décelable, ni en examinant les projections bidimensionnelles, ni en examinant la con guration des points à l échelle miniature. Ces résultats incitent à utiliser le Mersenne Twister pour la simulation numérique multidimensionnelle. Considérations d implémentation Choix d un langage de programmation La simulation numérique nécessite des calculs intensifs, répétitifs et précis. C est pourquoi, les spécialistes recommandent de coder les générateurs pseudo-aléatoires dans un langage de programmation puissant, typiquement le C ou le C++. Ces langages sont dits "compilés", car le code d un programme est traduit une fois pour toutes en instructions machine qui s exécutent très rapidement. Toutefois, pour des tests ponctuels, il est possible d utiliser un langage interprété, comme Visual Basic Application. Dans ce cas, les lignes de code sont contrôlées puis converties en instructions machine au fur et à mesure de leur appel, ce qui ralentit l exécution mais n a ecte en rien la précision des calculs. Vitesse de calcul Nous avons procédé à un test comparatif consistant à générer 1 milliard de nombres pseudo-aléatoires sur un PC équipé d un processeur Intel Pentium IV cadencé à 3.20GhZ, de 1Go de RAM et de Microsoft Windows XP Professionnel. Le compilateur utilisé est Microsoft Visual C++ 6.0. Générateur Ran0 Rnd Rand RWH Ran2 MT19937 temps d exécution (s) 62:8 45:9 31:2 232:6 119:7 48:2 temps d exécution relatif 100% 73% 50% 370% 191% 77% Le générateur minimal standard (Ran0) est pris comme référence ; il met 62:8 secondes pour achever la simulation, ce qui signi e qu il produit environ 16 millions de nombres par seconde. Avec des temps d exécution respectifs de 232:6 et 119:7 secondes, les générateurs combinés RWH et Ran2 sont les plus lents de ce comparatif. Notons que le rapport entre la vitesse d un générateur combiné et la vitesse du générateur de référence est approximativement égal au nombre de générateurs formant la combinaison. Ainsi, RWH (resp. Ran2) est trois fois (resp. deux fois) plus lent que Ran0. Rand et Rnd sont les générateurs les plus rapides de ce comparatif avec des temps d exécution respectifs de 31:2 secondes et 45:9 secondes. Les di érences de temps de calcul par rapport au générateur minimal (qui repose pourtant sur un algorithme similaire) s expliquent essentiellement par le fait que les modules de Rand et Rnd sont des puissances de 2, ce qui accélère considérablement l exécution en langage binaire. MT19937 se classe en troisième position du comparatif : il met 48:2 secondes pour achever la simulation, ce qui correspond à un temps d exécution 30% plus court que celui du générateur de référence. Une explication est que l algorithme 38
Mersenne Twister pro te pleinement de l architecture binaire de la machine et s exécute particulièrement rapidement : il produit environ 21 millions de nombres par seconde. Conclusion Les générateurs RWH, Ran2 et MT19937 présentent des propriétés statistiques meilleures et des périodes respectives plus longues que les générateurs linéaires congruentiels. De plus, MT19937 possède une période quasi-in nie et sa vitesse de calcul est particulièrement élevée. Il est implémenté, en versions 32 et 64 bits, dans la très sérieuse bibliothèque de calcul numérique IMSL 7 (International Mathematical and Statistical Library), ce qui est un signe de son e cacité. Le générateur MT19937 semble donc répondre parfaitement aux contraintes de la simulation numérique intensive. Nous allons maintenant montrer comment utiliser les générateurs aléatoires de loi uniforme pour simuler des réalisations de la loi de Gauss. 1.3 Simulation de la loi normale unidimensionnelle La loi gaussienne est particulièrement utilisée dans les applications nancières pour représenter l aléa des variables de marché (Lamberton et Lapeyre 1997, Björk 2004). Nous allons envisager deux techniques pour simuler cette loi de probabilité : la transformation non linéaire d un jeu de variables uniformes (méthode de Box-Muller) puis l inversion de la fonction de répartition (méthode de Moro et méthode de Acklam). 1.3.1 Loi normale unidimensionnelle : rappels Soit G une variable aléatoire dé nie sur un espace probabilisé (; T ; P ), à valeurs dans (R; B R ), où B R désigne la tribu borélienne. On dit que G suit une loi normale ou gaussienne de paramètres 2 R et 2 R +, si elle admet une densité par rapport à la mesure de Lebesgue de la forme suivante :! ' ; (x) = 1 p 2 exp (x ) 2 2 2 ; x 2 R: On peut démontrer que E [G] = et Var [G] = 2 : la loi normale est entièrement déterminée par son espérance et sa variance et l on note indi éremment G N (; ) ou N ; 2. La loi N (0; 1) est appelée loi normale centrée réduite ou encore loi normale standard et sa densité sera notée '. Le théorème suivant nous montre qu il su t 7 Cette bibliothèque est éditée par Visual Numerics : http://www.visualnumerics.com/. 39
de savoir générer des variables de loi normale standard pour ensuite simuler des variables de loi N (; ). Théorème 1.3 Si G N (0; 1) et X = + G, alors X N (; ). 1.3.2 Simulation par transformation de variables uniformes Une approche classique pour simuler une loi de probabilité donnée consiste à transformer judicieusement un jeu de variables uniformes indépendantes (Devroye 1986, Niederreiter 1992). Méthode de Box-Muller La méthode de Box-Muller repose sur la transformation (Knuth 1998, pp. 122-123) : p (X; Y ) = (U; V ) def p = 2 ln (U) cos (2V ) ; 2 ln (U) sin (2V ) ; (1.12) où U et V sont indépendantes de loi U (0; 1). On peut démontrer que X et Y ainsi construites sont indépendantes de loi N (0; 1) (voir Annexe B pour une démonstration). Pour simuler une suite (X k ) de variables aléatoires i.i.d. de loi N (0; 1), il su t donc de poser : 8k 1; (X 2k 1 ; X 2k ) = (U 2k 1 ; U 2k ) ; (1.13) où U 2k 1 ; U 2k sont deux sorties consécutives d un générateur pseudo-aléatoire. Cette méthode est fréquemment présentée comme une solution simple et e - cace pour générer des échantillons gaussiens. La gure ci-dessous représente la distribution empirique des variables gaussiennes obtenues en appliquant la fomule (1.13) aux sorties de Ran0, jusqu à épuisement de la période du générateur (2 31 2 simulations). Un simple examen montre que la distribution simulée est indiscernable de la distribution gaussienne théorique. 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 4 3 2 1 0 1 2 3 4 40
E et Neave L interaction entre des systèmes non-linéaires complexes, comme les générateurs pseudo-aléatoires (Herring et Palmore 1989) et la méthode de Box-Muller, produit parfois des e ets de bord imprévisibles et indésirables. Neave (1973) a mis en évidence une déformation systématique des queues de distribution de la loi normale quand l algorithme de Box-Muller est associé avec un générateur linéaire congruentiel. Distorsion de la densité de probabilité Les résultats présentés dans la suite ont été obtenus en appliquant la formule (1.13) aux sorties de Ran0 jusqu à épuisement de la période du générateur, soit 2 31 2 simulations. Sur la gure 1.5, on observe un échantillonnage irrégulier (en "dents de scie") au niveau des queues de distribution. Cette déviation entre la distribution théorique et la distribution empirique ne peut être imputée ni au générateur, car il passe les tests standards, ni à la longueur de l échantillon, car elle correspond à la période de Ran0. Ce phénomène est donc la conséquence d une interaction non souhaitée entre l algorithme de Box-Muller et le générateur. A n de con r- distribution empirique distribution théorique distribution empirique distribution théorique 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0003 0,0003 0,0002 0,0002 0,0003 0,0003 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0000 4,5 4,4 4,3 4,2 4,1 4,0 3,9 3,8 3,7 0,0000 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4 4,5 Fig. 1.5 Queues de distribution (Box-Muller + Ran0). mer les observations précédentes, nous nous proposons d analyser les fréquences de la distribution empirique de X 1 ; : : : ; X n sur des intervalles [a; b[ arbitrairement petits. On note n [a;b[ le nombre de réalisations dans l intervalle [a; b[. Sous l hypothèse H 0 : "les X k sont i.i.d. de loi N (0; 1)", on doit avoir E n [a;b[ = np[a;b[ et Var n [a;b[ = np[a;b[ 1 p [a;b[ ; où p [a;b[ = (b) (a) et est la fonction de répartition de la loi N (0; 1). Lorsque n est su samment grand, on a l approximation gaussienne pour le 41
biais d échantillonnage sur l intervalle [a; b[ : d [a;b[ = n [a;b[ E n [a;b[ qvar N (0; 1) : n!1 n [a;b[ La p-value du test s écrit : ^ [a;b[ = 2 1 d[a;b[ et on rejette l hypothèse H 0 pour tous les seuils inférieurs à ^ (n) a;b. Le tableau cidessous donne les résultats obtenus pour di érents intervalles lorsque n = 2 31 2. intervalle observé attendu déviation p-value [a; b[ n [a;b[ np [a;b[ d [a;b[ ^ [a;b[ 3:77 : 3:76 6929 7157 2:70 6:93E 03 3:76 : 3:75 7794 7432 4:20 2:67E 05 3:75 : 3:74 7200 7716 5:87 4:36E 09 3:74 : 3:73 8516 8010 5:65 1:60E 08 3:73 : 3:72 7812 8314 5:51 3:59E 08 3:72 : 3:73 8868 8314 6:08 1:20E 09 3:73 : 3:74 7357 8010 7:30 2:88E 13 3:74 : 3:75 8156 7716 5:01 5:44E 07 3:75 : 3:76 7064 7432 4:27 1:95E 05 3:76 : 3:77 7405 7157 2:93 3:39E 03 L hypothèse d adéquation à la loi gaussienne est rejetée sur tous les intervalles testés (les p-values sont toutes voisines de zéro) : on en déduit que l e et Neave se traduit par une distorsion non négligeable de la densité de probabilité de la loi gaussienne. Distorsion de la fonction de répartitition Nous allons à présent montrer que les déformations identi ées dans l analyse précédente induisent un biais lors de l estimation de probabilités cumulées (fonction de répartition et fonction de survie) au niveau des extrêmes de la distribution. Nous reprenons les raisonnements du paragraphe 1.3.2 en travaillant sur les fréquences (et non plus sur le nombre d observations) et en remplaçant a par 1 (resp. b par +1) pour les intervalles situés dans la partie négative (resp. dans la partie positive) de la distribution. Les résultats obtenus sont présentés dans le tableau suivant. 42
probabilité probabilité probabilité déviation p-value à estimer mesurée attendue P fx < 3:8g 0:00704% 0:00723% 10:36 3:79E 25 P fx < 3:9g 0:00461% 0:00481% 13:41 5:40E 41 P fx < 4:0g 0:00298% 0:00317% 15:14 8:27E 52 P fx < 4:1g 0:00189% 0:00207% 17:83 4:39E 71 P fx < 4:2g 0:00112% 0:00133% 27:03 6:73E 161 P fx 3:8g 99:99259% 99:99277% 9:75 1:76E 22 P fx 3:9g 99:99501% 99:99519% 12:20 2:98E 34 P fx 4:0g 99:99666% 99:99683% 14:50 1:28E 47 P fx 4:1g 99:99778% 99:99793% 15:91 5:66E 57 P fx 4:2g 99:99849% 99:99867% 22:60 4:79E 113 Les déviations mesurées sont signi cativement plus élevées que celles observées dans le test de déformation de la densité. Cela suggère que les e ets des distorsions locales observées sur des intervalles d amplitude faible se cumulent lors de l estimation du poids des queues de distribution dans les régions extrêmes. On ne peut donc pas retenir l hypothèse d adéquation gaussienne pour l échantillon généré. L e et Neave avec le Mersenne Twister Tezuka (1991, 1995) observe un phénomène semblable à l e et Neave lorsque la méthode de Box-Muller est combinée avec un générateur de Tausworthe, un précurseur du Mersenne Twister. On peut donc se demander si l e et Neave se produit aussi lorsque MT19937 est associé à la méthode Box-Muller. Etant donné la longueur de la période de ce générateur (4:32 10 6001 ), on ne peut évidemment pas reproduire l expérience réalisée avec le générateur Ran0. En e et, il n est pas envisageable d épuiser la période de MT19937 dans un temps raisonnable. Ainsi, l ordinateur décrit au paragraphe 1.2.5 produit 10 7 nombres par seconde. Lorsque le soleil disparaîtra dans 5 milliards d années, la machine aura simulé environ 10 24 nombres "gaussiens", ce qui représente une fraction de l ordre de 10 5977 de la période du Mersenne Twister. Cependant, nous avons pu constater la présence de l e et Neave (parfois atténué) sur di érents jeux de 2 31 2 simulations gaussiennes (comme dans le cas de l expérience faite avec Ran0) obtenus en choisissant di érentes valeurs de la graine pour amorcer le générateur MT19937. Les statistiques déterminées sur les tests menés avec le Mersenne Twister étant très similaires à celles présentées lors de l étude de l e et Neave avec Ran0, nous avons choisi de ne pas les faire gurer. Du rôle des queues de distribution Les queues de distribution jouent un rôle fondamental dans les applications - nancières, car elles représentent les scénarios les plus extrêmes, donc les plus risqués et les plus redoutés par les opérateurs (krachs boursiers). Il est donc 43
fondamental de mettre en oeuvre une méthode numérique qui ne conduise pas à sous-estimer la probabilité d un scénario catastrophe. Les déviations calculées dans l étude du paragraphe 1.3.2 sont toutes négatives, ce qui prouve que les probabilités empiriques déterminées à partir de l échantillon sous-estiment systématiquement les poids des queues de distribution calculés en évaluant la fonction de répartition (ou la fonction de survie) de la loi normale. En conséquence, l algorithme de Box-Muller ne constitue pas la meilleure alternative pour simuler l aléa de la dynamique des cours de bourse. Dans le paragraphe suivant, nous étudions une méthode plus performante pour échantillonner la loi gaussienne à partir d un générateur aléatoire. 1.3.3 Simulation par inversion de la fonction de répartition Fonction inverse gaussienne Soit la fonction de répartition de la loi normale standard. Elle est dé nie par : (x) = P fg xg = Z x 1 ' (z) dz; x 2 R: L application est clairement bijective (continue et strictement croissante) de R vers ]0; 1[. La fonction inverse gaussienne 1 étant dé nie sur ]0; 1[, on peut construire une variable aléatoire réelle G à valeurs dans R en posant : G = 1 (U) ; U U (0; 1) : On véri e que G suit une loi normale standard, i.e. G admet pour fonction de répartition : 8x 2 R; P fg xg = P 1 (U) x = P fu (x)g = (x) : On en déduit que, pour simuler des réalisations i.i.d. de la loi N (0; 1), il su t de poser : G k = 1 (U k ) ; U k i.i.d. U (0; 1) : (1.14) Cette technique est appelée méthode de simulation par inversion de la fonction de répartition 8. Sa mise en oeuvre suppose que l on soit capable d approcher numériquement 1, car cette fonction n admet pas d expression analytique. Méthode d inversion de Beasley, Springer (1977) et Moro (1995) Beasley et Springer (1977) proposent d approcher 1 sur l intervalle [0:5; 1[ puis de considérer la symétrie de la loi normale standard, soit 1 (u) = 1 (1 u) ; 0 < u < 1; (1.15) 8 Notons que la méthode d inversion de la fonction de répartition peut être utilisée pour simuler n importe quelle loi de probabilité. 44
pour étendre l approximation à l intervalle complémentaire ]0; 0:5[ en conservant la même précision. Pour 0:5 < u 0:92, les auteurs modélisent 1 par une fonction rationnelle en u : P 3 1 k=0 (u) ' a k (u 1=2) 2k+1 1 + P 3 k=0 b : (1.16) 2k k (u 1=2) Pour 0:92 < u < 1, la queue de distribution droite est modélisée par une fonction rationnelle de (ln (1 u)) 1=2. Moro (1995) propose de remplacer la quadrature de Beasley et Springer au niveau de la queue de distribution par une approximation basée sur un développement en série de Chebyshev tronqué : 1 (u) ' 8X c k [ln ( ln (1 u))] k ; 0:92 u < 1: (1.17) k=0 Cette modi cation améliore considérablement la précision de l algorithme original au niveau des queues de distribution. Les coe cients a k, b k et c k sont donnés ci-dessous : a 0 = 2:50662823884 c 0 = 0:3374754822726147 a 1 = 18:61500062529 c 1 = 0:9761690190917186 a 2 = 41:39119773534 c 2 = 0:1607979714918209 a 3 = 25:44106049637 c 3 = 0:0276438810333863 c 4 = 0:0038405729373609 b 0 = 8:47351093090 c 5 = 0:0003951896511919 b 1 = 23:08336743743 c 6 = 0:0000321767881768 b 2 = 21:06224101826 c 7 = 0:0000002888167364 b 3 = 3:13082909833 c 8 = 0:0000003960315187 Méthode d inversion de Acklam (2000) Acklam (2000) propose d approcher 1 sur l intervalle ]0; 0:5]. La quadrature est étendue à l intervalle unité ouvert en appliquant la formule (1.15). Pour 0:02425 < u 0:5 l auteur modélise la fonction inverse gaussienne par une fonction rationnelle de q = u 1=2 et r = q 2 : 1 (u) ' q a 1r 5 + a 2 r 4 + a 3 r 3 + a 4 r 2 + a 5 r + a 6 b 1 r 5 + b 2 r 4 + b 3 r 3 + b 4 r 2 + b 5 r + 1 : Pour 0 < u < 0:02425 (queue de distribution gauche), l approximation est basée sur une fonction rationnelle de q = ( 2 ln u) 1=2 : 1 (u) ' c 1q 5 + c 2 q 4 + c 3 q 3 + c 4 q 2 + c 5 q + c 6 d 1 q 4 + d 2 q 3 + d 3 q 2 : + d 4 q + 1 Les jeux de coe cients a k, b k, c k et d k sont donnés ci-dessous : 45
a 1 = 3:969683028665376E + 01 c 1 = 7:784894002430293E 03 a 2 = 2:209460984245205E + 02 c 2 = 3:223964580411365E 01 a 3 = 2:759285104469687E + 02 c 3 = 2:400758277161838E + 00 a 4 = 1:383577518672690E + 02 c 4 = 2:549732539343734E + 00 a 5 = 3:066479806614716E + 01 c 5 = 4:374664141464968E + 00 a 6 = 2:506628277459239E + 00 c 6 = 2:938163982698783E + 00 b 1 = 5:447609879822406E + 01 d 1 = 7:784695709041462E 03 b 2 = 1:615858368580409E + 02 d 2 = 3:224671290700398E 01 b 3 = 1:556989798598866E + 02 d 3 = 2:445134137142996E + 00 b 4 = 6:680131188771972E + 01 d 4 = 3:754408661907416E + 00 b 5 = 1:328068155288572E + 01 Rapidité et précision des méthodes présentées Test de rapidité Nous avons évalué 9 chacune des deux fonctions sur un ensemble de 10 9 points, équidistribués dans le segment unité et dé nis par : u 0 = 0 et 8k 1; u k = u k 1 + 10 9 : L algorithme de Acklam a e ectué l ensemble des calculs en 375 secondes et l algorithme de Moro en 388 secondes. Les deux algorithmes ont donc des temps d exécution comparables avec un léger avantage calculatoire pour l algorithme de Acklam. Test de précision Supposons que 1 constitue une approximation précise de la fonction inverse gaussienne, alors 1 est "pratiquement" la fonction identité et l on doit avoir : ( ) def 1 (u k ) u k e 1 = max ' 0: k=1;:::;10 9 Comme la fonction de répartition gaussienne n admet pas d expression analytique, on remplace par l excellente approximation de West (2005) et l on obtient : e Moro 1 ' e Acklam 1 = 2:48 10 15 : En conséquence les deux méthodes sont extrêmement précises et elles donnent des résultats identiques. Cela con rme les conclusions de Jäckel (2002, p. 11). Pour les tests pratiqués dans la suite, nous avons retenu la méthode de Acklam car elle s avère (très légèrement) plus rapide que l algorithme de Moro tout en o rant le même degré de précision. u k 9 La machine utilisée est décrite au paragraphe 1.2.5. 46
Atténuation de l e et Neave La simulation par inversion de la fonction de répartition est une méthode plus naturelle que la méthode de Box-Muller. Une conséquence de cela est l atténuation considérable des phénomènes pathologiques identi és au paragraphe précédent (e et Neave). Nous avons reproduit l expérience du paragraphe 1.3.2 en combinant l inversion de Acklam et le générateur Ran0. Sur la gure 1.6, on distribution empirique distribution théorique distribution empirique distribution théorique 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0003 0,0003 0,0002 0,0002 0,0003 0,0003 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0000 4,5 4,4 4,3 4,2 4,1 4,0 3,9 3,8 3,7 0,0000 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4 4,5 Fig. 1.6 Queues de distribution (Acklam + Ran0). remarque que l histogramme s ajuste parfaitement avec la distribution théorique de la loi normale standard au niveau des queues de distribution. Disparition du biais d échantillonnage de la densité A n de con rmer cette observation graphique, nous donnons ci-dessous un tableau d analyse des fréquences de l échantillon. intervalle observé attendu déviation p-value [a; b[ n [a;b[ np [a;b[ d [a;b[ ^ [a;b[ 3:77 : 3:76 7157 7157 0:00 100:00% 3:76 : 3:75 7432 7432 0:00 100:00% 3:75 : 3:74 7715 7716 0:01 99:20% 3:74 : 3:73 8010 8010 0:00 100:00% 3:73 : 3:72 8314 8314 0:00 100:00% 3:72 : 3:73 8314 8314 0:00 100:00% 3:73 : 3:74 8010 8010 0:00 100:00% 3:74 : 3:75 7715 7716 0:01 99:20% 3:75 : 3:76 7432 7432 0:00 100:00% 3:76 : 3:77 7157 7157 0:00 100:00% 47
L hypothèse d adéquation à la loi gaussienne est largement retenue pour tous les intervalles testés (les p-values sont toutes voisines de 100%), ce qui prouve que le biais d échantillonnage est à présent négligeable. Disparition du biais d échantillonnage des probabilités cumulées Nous complétons notre étude en mesurant les biais d échantillonnage au niveau des probabilités cumulées dans les extrêmes des queues de distribution. Les résultats obtenus sont présentés dans le tableau ci-après. probabilité probabilité probabilité déviation p-value à estimer mesurée attendue P fx < 3:8g 0:00723475% 0:00723480% 3:15E 03 99:75% P fx < 3:9g 0:00480958% 0:00480963% 3:46E 03 99:72% P fx < 4:0g 0:00316706% 0:00316712% 5:65E 03 99:55% P fx < 4:1g 0:00206572% 0:00206575% 3:13E 03 99:75% P fx < 4:2g 0:00133454% 0:00133457% 4:59E 03 99:63% P fx 3:8g 99:99276521% 99:99276520% 6:12E 04 99:95% P fx 3:9g 99:99519037% 99:99519037% 3:49E 04 99:97% P fx 4:0g 99:99683290% 99:99683288% 1:82E 03 99:86% P fx 4:1g 99:99793423% 99:99793425% 1:62E 03 99:87% P fx 4:2g 99:99866541% 99:99866543% 1:31E 03 99:90% Les p-values calculées pour chaque intervalle testé sont toutes supérieures à 99:5% (alors qu elles sont presque nulles dans le cas de la méthode de Box- Muller), ce qui prouve que l algorithme de Acklam permet de simuler les queues de distribution avec une grande précision. Choix d une méthode de simulation La méthode d inversion de la fonction de répartition de Acklam supprime les biais d échantillonnage observés avec l algorithme de Box-Muller, ce qui est particulièrement intéressant pour les applications nancières (cf. paragraphe 1.3.2). Dans la suite, nous simulerons les variables gaussiennes scalaires en appliquant cette technique qui ne perturbe pas les queues de distribution. Nous allons à présent montrer comment générer des vecteurs gaussiens. 1.4 Simulation de la loi normale multidimensionnelle Les vecteurs gaussiens permettent de modéliser l évolution simultanée des nombreux facteurs de risque qui gouvernent le comportement d un panier de titres (Korn et Korn 2001, Björk 2004). Nous en présentons les principales propriétés ci-dessous. 48
1.4.1 Vecteurs gaussiens : rappels Dans ce paragraphe, nous adoptons les notations suivantes : X désigne une variable aléatoire réelle, tandis que X désigne un vecteur aléatoire, le symbole " 0 " désigne la transposée d une matrice ou d un vecteur. Dé nition et premières propriétés Le concept de vecteur gaussien permet d étendre de manière consistante la loi gaussienne univariée aux dimensions s 1. On dit qu un vecteur aléatoire X = (X 1 ; : : : ; X s ) 0 2 R s, est un vecteur gaussien si et seulement si sa fonction caractéristique est de la forme : 8 2 R s ; X () def = E exp i 0 X = exp i 0 1 2 0 ; (1.18) où = ( i ) 1is est un vecteur de R s et = ( ij ) 1i;js est une matrice carrée d ordre s, symétrique (i.e. = 0 ). Pour que (1.18) dé nisse bien une fonction caractéristique, il faut que j X ()j 1 ce qui implique 0 0 pour tout 2 R s. Donc est nécessairement semi-dé nie positive. Plus précisément, on peut montrer que et sont respectivement le vecteur moyen et la matrice de covariance de X (Jacod et Protter 2003) : i = E [X i ] ; ij = Cov [X i ; X j ] : La loi d un vecteur gaussien est donc entièrement déterminée par la connaissance de son vecteur moyen et de sa matrice de covariance. C est pourquoi on note X N (; ). Lorsque est inversible (i.e. symétrique dé nie positive), on dit que X est un vecteur gaussien non dégénéré et l on peut montrer que la loi de X admet une densité par rapport à la mesure de Lebesgue de la forme : 1 1 ' ; (x) = exp (2) s=2 1=2 det () 2 (x )0 1 (x ) ; x 2 R s : Inversement lorsque est singulière (i.e. ker 6= ;), la mesure image de X n admet pas de densité, elle est même étrangère à la mesure de Lebesgue sur R s et X prend ses valeurs dans le sous-espace a ne + Im (). On dit alors que la loi de X est dégénérée. Loi des composantes Chaque composante d un vecteur gaussien suit une loi gaussienne univariée. En e et, on remarque que X k = e 0 k X où e k est le k ieme vecteur de la base canonique 49
de R s. Il vient : 8 2 R; Xk () = E [exp (ix k )] = E [exp (ie 0 kx)] 2 kk = X (e k ) = exp i k ; 2 ce qui prouve que X k N ( k ; kk ) pour k = 1; : : : ; s. Dans ces conditions, a n d adopter des notations cohérentes avec celles utilisées pour la loi gaussienne univariée, on pose : 2 k def = kk = Var [X k ] ; 1 k s: Notons cependant que la réciproque est fausse : il existe des vecteurs à composantes gaussiennes qui ne sont pas des vecteurs gaussiens au sens de la dé nition précédente. Pour s en persuader, il su t de considérer le vecteur (X; "X) où X N (0; 1) et " est une loi de Bernoulli symétrique, indépendante de X, telle que P (" = 1) = P (" = 1) = 1=2. La fonction caractéristique du couple s écrit : 8 = ( 1 ; 2 ) 0 2 R 2 ; (X;"X) () = cosh ( 1 2 ) exp 2 1 + 2 2 ; 2 ce qui prouve que ce n est pas un vecteur gaussien. Pourtant on véri e facilement que "X N (0; 1), i.e. (X; "X) est bien un vecteur à composantes gaussiennes. Indépendance dans le cas gaussien Toute l information sur la dépendance entre les composantes d un vecteur gaussien est contenue dans la matrice de covariance. Plus précisément on a le résultat suivant. Proposition 1.4 Les composantes de X sont mutuellement indépendantes si et seulement si la matrice de variance-covariance est diagonale. Proof. Si les composantes de sont indépendantes, alors leurs covariances sont nulles et la matrice est diagonale. Réciproquement, si = diag 2 1; : : : ; 2 s, un simple calcul permet de véri er que : X () = sy i=1 exp i k k 2 k 2 k : 2 La fonction caractéristique de X s écrit donc comme le produit des fonctions caractéristiques des X k, ce qui prouve l indépendance des composantes. Lorsque = 0 et = I s (matrice identité d ordre s), les composantes de X sont i.i.d. de loi N (0; 1). On dit que X suit une loi gaussienne multidimensionnelle standard (ou centrée réduite) et l on note X N (0; I s ). Il est donc assez simple de simuler des variables X k i.i.d. de loi N (0; I s ), en posant : 50
X k def = X (k 1)s ; : : : ; X ks 1 0 ; k 1; (1.19) où les variables scalaires X n sont i.i.d. de loi N (0; 1) et obtenues par l une des méthodes étudiées au paragraphe 1.3. 1.4.2 Simulation d un vecteur gaussien Nous étudions dans ce qui suit la simulation d un vecteur gaussien quelconque. Stabilité par transformation linéaire On sait que si G est une variable aléatoire réelle de loi N (0; 1), alors + G N ; 2. Cette propriété, appelée invariance par transformation linéaire, peut être étendue au cas des vecteurs gaussiens de la manière suivante. Soit 2 R s, une matrice carrée d ordre s et G N (0; I s ), alors : 1. 0 est symétrique, semi-dé nie positive, 2. la variable + G suit la loi N (; 0 ). En e et, il su t de remarquer que : + G () = exp i 0 G ( 0 ) = exp i 0 1 2 0 0 : D après la formule (1.19), la simulation de la loi gaussienne standard N (0; I s ) est aisée. En conséquence, la principale di culté rencontrée lors de la simulation d un vecteur gaussien de loi N (; ) est de trouver une matrice telle que = 0. Il s agit là d un problème d algèbre linéaire. Décomposition de Cholesky Lorsque la loi de X est non dégénérée (i.e. lorsque est inversible), le théorème de Cholesky (cf. Annexe C) assure l existence d une unique matrice, triangulaire inférieure à diagonale strictement positive, telle que = 0. Comme suivante : est triangulaire inférieure, cette identité se traduit par la relation ij = jx k=1 Alors, pour tout 1 j s on a : ik jk; 1 j i s: jj = jj ij = ij Xj 1 k=1 P j 1 k=1 ik jk jj 2 jk! 1=2 ; (1.20) ; i > j: (1.21) 51
Nous en déduisons un algorithme itératif pour construire la matrice après colonne. colonne Algorithme 2 Factorisation de Cholesky Données : une matrice [ ][ ], symétrique dé nie positive. Résultat : [ ][ ], triangulaire inférieure, telle que = 0. for j = 1 to s do for i = j to s do P j 1 {calcul de s = ij s [i][j] for k = 1 to j 1 do s s [i][k] [j][k] end for k=1 ik jk} if j = i then p [j][j] s {calcul de jj selon la formule (1.20)} else [i][j] s= [j][j] {calcul de ij selon la formule (1.21)} end if end for end for La factorisation de Cholesky présente un avantage calculatoire évident, surtout si la dimension s est élevée. En e et, comme la matrice est triangulaire inférieure, la i-ième composante du vecteur est donnée par i + P i j=1 ijx j, ce qui nécessite 2i opérations élémentaires (i additions et i multiplications). Pour construire une réalisation du vecteur gaussien, il faut donc réaliser P s i=1 2i = s (s + 1) opérations élémentaires. Le temps de simulation est donc divisé quasiment par 2 par rapport au cas où la matrice serait quelconque (2s 2 opérations). Vecteur gaussien dégénéré Lorsque la loi de X est dégénérée (i.e. est "simplement" semi-dé nie positive), on ne peut plus utiliser l algorithme de Cholesky et il faut utiliser une autre méthode pour construire une matrice. Comme est symétrique (donc diagonalisable dans une base orthonormée) et semi-dé nie positive (donc ses valeurs propres i sont positives ou nulles), il existe une matrice orthonormale A (i.e. AA 0 = I s ) telle que : On dé nit alors la matrice par : = AA 0 où = diag ( 1 ; : : : ; s ) : = A 1=2 où 1=2 = diag 1=2 1 ; : : : ; 1=2 S : (1.22) 52
Par construction, cette matrice est solution du problème posé. Il n existe pas de méthode théorique systématique pour diagonaliser une matrice, mais on connaît d excellents algorithmes permettant d approcher la matrice et la matrice A avec le degré de précision souhaité (Press et al. 2002, p. 459). Notons que la technique présentée dans ce paragraphe est tout à fait générale. En particulier elle s applique aussi lorsque la matrice est inversible. Cependant, par souci d optimisation des temps de calcul, nous recommandons d utiliser la décomposition de Cholesky dès que cela est possible. En e et, la matrice donnée par la formule (1.22) ne possède pas de forme particulière, ce qui signi e que la simulation d un vecteur gaussien requiert 2s 2 opérations (contre s (s + 1) opérations avec la décomposition de Cholesky). 1.4.3 Mise en oeuvre opérationnelle Matrice de corrélation Sachant que la seule forme de dépendance "autorisée" dans le monde des vecteurs gaussiens est la dépendance linéaire, la totalité de l information sur la dépendance entre les composantes est contenue dans la matrice de corrélation R de terme général : ij = Cor [X i ; X j ] = D une part, on peut montrer que : Cov [X i ; X j ] p Var [Xi ] Var [X j ] = ij i j : (1.23) 1 ij 1 pour i 6= j et ii = 1: D autre part, la dé nition (1.23) implique que la matrice de covariance s écrit : = R avec def = diag ( 1 ; : : : ; s ) : (1.24) La matrice de corrélation hérite donc de l ensemble des propriétés algébriques de la matrice de covariance : elle est symétrique, semi-dé nie positive et inversible lorsque est inversible. La décomposition (1.24) montre qu il est équivalent de se donner une matrice de covariance ou de se donner une matrice d écarts-types et une matrice de corrélation R, qui modélisent respectivement l incertitude et la structure de dépendance du vecteur gaussien. Cela permet de contrôler séparément les "risques individuels" et la dépendance des composantes du vecteur. La loi gaussienne multidimensionnelle est donc entièrement déterminée par la donnée de 2 R s (vecteur moyen), de 2 R s (vecteur d incertitude) et d une matrice de corrélation R (matrice de dépendance). 53
Retour sur la simulation d un vecteur gaussien Pour simuler un vecteur gaussien dé ni par le triplet (; ; R), il su t d adapter légèrement les techniques présentées au paragraphe précédent. Soit L une "racine carrée" de R (i.e. R = LL 0 ). Comme est une matrice diagonale, on a 0 =, puis : = R = (LL 0 ) = (L) (L) 0 : En conséquence, on a : = L et + G = + (LG) où G N (0; I s ). En pratique, on commence par trouver L telle que R = LL 0 en appliquant la méthode de Cholesky (R dé nie positive) ou la méthode de diagonalisation (R semi-dé nie positive). Puis, autant de fois que nécessaire, on répète les étapes suivantes : 1. Simuler un vecteur standard à composantes indépendantes : G N (0; I s ). 2. Corréler les composantes du vecteur simulé : X (R) = LG, 3. Appliquer la matrice de risques individuels : X () = X (R). 4. Ajuster sur la moyenne souhaitée : X = + X (). Cette méthode, qui consiste à corréler les variables, avant de les ajuster sur leur niveau de risque individuel, peut être mise en oeuvre dans la plupart des simulations nancières. Simulation d un vecteur gaussien en dimension 2 Lorsque s = 2, la dépendance entre les composantes du vecteur est déterminée par la donnée d un unique réel 1 1. Dans ce cas, la matrice de corrélation R et sa décomposée de Cholesky L s écrivent : 1 1 0 R = ; L = 1 p 1 2 : Pour simuler un vecteur gaussien standard X = (X 1 ; X 2 ) 0 à composantes corrélées, il su t donc de poser : X 1 = G; X 2 = G + p 1 2 G? ; (1.25) où G et G? sont deux variables indépendantes de loi N (0; 1). Nous allons à présent montrer comment le coe cient de corrélation in uence la distribution jointe d un couple de variables gaussiennes. D abord, nous choisissons trois valeurs de, qui correspondent à des con gurations spéci ques : = 0 (indépendance), = 0:75 (corrélation positive) et = 0:90 (forte corrélation négative aussi appelée anticorrélation). Ensuite, nous simulons n = 5000 réalisations du couple G k ; G? k en posant : G k = 1 (U 2k 1 ) ; G? k = 1 (U 2k ) ; 54
où U 2k 1 et U 2k sont les sorties successives du générateur MT19937 et 1 désigne la fonction inverse gaussienne de Acklam. En n, pour chaque valeur du paramètre, nous construisons des copies indépendantes du vecteur X en appliquant la formule (1.25) à l échantillon précédent : X k;1 = G k ; X k;2 = G k + p 1 2 G? k ; k 1: Le fait d utiliser les mêmes points G k ; G? k pour produire les trois jeux de données permet d isoler l e et de la corrélation sur le comportement du nuage de points. Les résultats obtenus sont représentés dans les graphiques suivants, ce qui nous permet d illustrer la manière dont la corrélation linéaire contrôle le comportement d un jeu de variables gaussiennes. La gure de gauche représente le nuage de points obtenu lorsque = 0, c est-àdire lorsque les composantes du vecteur sont indépendantes. La gure du milieu (cas > 0) et la gure de droite (cas < 0) montrent comment le nuage se déforme lorsque l on introduit une corrélation non nulle. Dans le cas = 0 ( - gure de gauche), le nuage de points est isotrope, centré sur l origine. La densité des points décroît au fur et à mesure que l on s éloigne du centre du repère, ce qui re ète le caractère gaussien centré des composantes. Dans le cas = 0:75 (composantes corrélées positivement), les deux variables évoluent statistiquement dans le même sens et le nuage de points se concentre sur l axe d équation y = 0:75x. Dans le cas = 0:90 (composantes corrélées négativement), les deux variables évoluent clairement dans des sens contraires et le nuage de points est concentré sur la droite d équation y = 0:90x. D une manière générale, lorsque jj! 1 (relation linéaire parfaite), la formule (1.25) nous donne l approximation X 2 ' G = X 1 : le nuage de points se contracte pour former un agrégat très dense qui nit par se confondre localement avec la droite d équation y = x. C est ce phénomène que nous avons observé en comparant la gure du milieu avec la gure de droite. Nous possédons maintenant tous les éléments nécessaires pour présenter la méthode de Monte Carlo et la mettre en oeuvre. 55
1.5 Méthode de Monte Carlo Soit (; T ; P ) un espace probabilisé, X une variable aléatoire à valeurs dans R s muni de la tribu borélienne B R s et h : R s! R une application mesurable. Le problème est d évaluer numériquement l intégrale : Z I def = E [h (X)] = h (X) dp; (1.26) lorsque h (X) est P -intégrable, i.e. h (X) 2 L 1 (; T ; P ). 1.5.1 Calcul d espérance par simulation La méthode de Monte Carlo consiste à générer N copies indépendantes de X (notées X 1 ; : : : ; X N ) puis à former l approximation : I def ' ^IN ; ^IN = 1 N!1 N NX h(x n ): (1.27) Un simple calcul d espérance montre que ^I N est un estimateur sans biais de I et la loi forte des grands nombres garantit que cet estimateur est fortement consistant (i.e. ^I N converge presque sûrement vers I lorsque N! 1). n=1 Construction d un intervalle de con ance pour le résultat Majoration probabiliste de l erreur d intégration Dès que h (X) 2 L 2 (; T ; P ), le théorème de la limite centrale s applique : p loi N ^IN I! N 0; 2 où 2 def = Var [h (X)] : N!1 On peut alors construire un intervalle de con ance au niveau 1 : P ^IN I < q 1 =2 pn = 1 ; (1.28) N!1 où q 1 =2 désigne le quantile d ordre 1 =2 de la loi normale standard. L erreur d intégration est donc majorée par la quantité : " N = q 1 =2 pn (1.29) avec une probabilité de 1 au seuil " N.. Il subsiste un risque que l erreur soit supérieure Estimation de l erreur d intégration Dans la plupart des cas pratiques, 2 est inconnue. On calcule alors la variance empirique modi ée de l échantillon : ^ 2 N = 1 N 1 NX n=1 56 h(x n ) ^IN 2 : (1.30)
Cette quantité est un estimateur fortement consistant de la variance de h (X) et, dès que N est su samment grand, on estime l erreur d intégration (1.29) en remplaçant par ^ N : ^" N = q 1 =2 ^ N p N : (1.31) Cette quantité permet de mesurer la qualité de l approximation de I. Avantages et inconvénients de l approche Monte Carlo La méthode de Monte Carlo possède trois avantages : (i) elle est très facile à implémenter pour peu que l on sache simuler la loi de X, (ii) elle permet d intégrer des fonctions irrégulières et de construire une estimation réaliste de l erreur commise, (iii) elle converge en O N 1=2 indépendamment de la dimension s du problème, ce qui constitue un atout incontestable par rapport aux quadratures classiques qui convergent en O N 2=s et deviennent impraticables dès que s 5. Toutefois, cette approche présente deux défauts majeurs : (i) la majoration de l erreur est probabiliste, de sorte qu il subsiste toujours une incertitude (faible) quant à la valeur exacte de l intégrale et (ii) la vitesse de convergence en N 1=2 s avère "relativement lente". En e et, si l on souhaite une précision de l ordre de 10 2, on doit choisir N ' 10 4 et pour espérer réduire l erreur d un facteur 10, il faut multiplier la taille de l échantillon par 100, ce qui induit un accroissement des temps de calcul signi catif, inacceptable pour nos applications nancières. 1.5.2 Techniques de réduction de variance E cacité d un estimateur Supposons que l on dispose de deux fonctions h et g telles que E [h (X)] = E [g (X)] = I. Nous allons répondre à la question suivante : est-il préférable d utiliser des copies de h (X) (méthode H) ou des copies de g (X) (méthode G) pour construire l estimateur Monte Carlo de I? Intuitivement, la méthode G sera préférée à la méthode H si G conduit systématiquement à une erreur plus faible que H dans le temps T ( xé arbitrairement). Soit c h le temps de calcul pour générer une seule copie de h (X), alors dans l intervalle de temps T, on peut simuler N h (T ) = T=c h exemplaires de h (X). De la même manière, N g (T ) = T=c g. On dit que G est plus e cace que H si : 8T > 0; " Ng(T ) < " Nh (T ); (1.32) où " Ng(T ) et " Nh (T ) sont obtenus en remplaçant N par N h (T ) ou N g (T ) dans la formule (1.29) : " Nh (T ) = q 1 =2 p T h p ch ; " Ng(T ) = q 1 =2 p T g p cg : 57
Alors, le critère d e cacité (1.32) est équivalent à : c g 2 g < c h 2 h: (1.33) La quantité c h 2 h est donc une mesure de la qualité de la méthode H. La relation (1.33) montre que l on ne peut pas conclure que la méthode G est meilleure que la méthode H sur le simple critère 2 g < 2 h, car on doit aussi tenir compte du temps de calcul nécessaire pour simuler une copie de chaque variable. Cependant, dans la majorité des cas où deux méthodes d estimation H et G seront envisagées, on aura c g ' c h et 2 g << 2 h ou bien 2 g >> 2 h. Il est clair qu il faudra mettre en oeuvre l estimateur de faible variance pour améliorer la convergence de l algorithme. L objectif des méthodes dites de réduction de variance (Glasserman 2004) est précisément de déterminer un autre estimateur de I, plus e cace que l estimateur naturel au sens du critère (1.33). Si l on considère que l accroissement du temps de calcul induit par le choix d un autre estimateur est marginal, le problème revient à déterminer une fonction g telle que : E [g (X)] = I et Var [g (X)] < Var [h (X)] : (1.34) La plupart des techniques de réduction de variance sont étroitement liées à l expression analytique de h et à la loi de X, de sorte que chaque intégrale doit être traitée comme un cas particulier et il n est pas possible d envisager une approche universelle pour réduire la variance de façon systématique. Nous présentons la méthode des variables antithétiques et la méthode adaptative, car elles reposent sur des hypothèses su samment générales pour être mises en oeuvre de manière quasi-systématique, en particulier lorsque le vecteur X est à composantes gaussiennes. Méthode des variables antithétiques Description de la méthode Cette technique, due à Hammersley et Morton (1956), consiste à exploiter les symétries de la loi de X pour réduire la variance. L idée est de trouver une transformation : R s! R s telle que : (i) (X) ait même loi que X et (ii) h (X) et h ( (X)) soient négativement corrélées, i.e. Cor [h (X) ; h ( (X))] < 0 (on parle de variables antithétiques). Dans ces conditions, l estimateur Monte Carlo basé sur l application g : R s! R dé nie par : h (x) + h ( (x)) g (x) = ; x 2 R s ; 2 est un estimateur sans biais et fortement consistant de l intégrale (1.26) et sa variance est plus faible que celle de l estimateur naturel (1.27). En e et, comme X (X) on a : E [g (X)] = 1 E [h (X) + h ( (X))] = I 2 58
et 2 1 + Cor [h (X) ; h ( (X))] g = 2 2 h: (1.35) Etant donné que la corrélation est inférieure à 1, on a 2 g 2 h, de sorte que la variance de l estimateur antithétique sera toujours inférieure à la variance de l estimateur naturel. Comme Cor [h (X) ; h ( (X))] < 0, on a 2 g < 2 h =2. Dans ce cas, le gain sur la variance est au moins égal à 50%. Variables antithétiques dans le cas gaussien Si les composantes de X sont des variables gaussiennes centrées, alors X X et l on peut poser (X) = X. Si de plus h est une fonction monotone en chacun de ses arguments, alors h ( X) est décroissante lorsque h (X) est croissante et inversement. Les deux variables uctuent dans des sens opposés et elles forment une paire antithétique (Glasserman 2004, p. 207). Pour une généralisation de la méthode des variables antithétiques à des lois non gaussiennes, le lecteur pourra consulter Fishman et Huang (1983). Méthode de Monte Carlo adaptative On suppose que X est un vecteur centré. Sous cette hypothèse, les variables aléatoires de la forme g (; X) = h (X) h; Xi avec 2 R s sont des estimateurs sans biais de I. La notation h; i désigne le produit scalaire euclidien sur R s. Un problème d optimisation Parmi les candidats de la forme précédente, l idée est de retenir celui qui minimise la variance de g (; X). On doit donc déterminer : = arg min fvar [g (; X)] : 2 R s g (1.36) en espérant que Var [g ( ; X)] < 2 h. Si tel est le cas, il devient intéressant d intégrer g ( ; X) plutôt que h (X). On note X 1 ; : : : ; X s (resp. 1 ; : : : ; s ) les composantes de X (resp. de ) et l on pose H () = Var [g (; X)]. La condition du premier ordre du problème de minimisation (1.36) s écrit : @H @ i = 2 ( i E [X i h (X)]) = 0; i = 1; : : : ; s: Alors, les coe cients du vecteur sont donnés par : i = E [X i h (X)] ; i = 1; : : : ; s: Les i s exprimant sous la forme d une espérance, ils peuvent être approchés par la méthode de Monte Carlo classique : si X n = (X 1;n ; : : : ; X s;n ) 0 est une suite de variables i.i.d. selon la loi de X, alors : ^ i;n = 1 N NX X i;n h (X n ) (1.37) n=1 est un estimateur sans biais et fortement consistant de i. 59
Construction de l estimateur adaptatif La mise en oeuvre naturelle de la méthode adaptative consiste à lancer deux simulations Monte Carlo : (i) la première simulation permet d approcher le vecteur par ^ N = ^ 1;N ; : : : ; ^ 0, s;n (ii) la seconde simulation consiste à former l approximation I ' 1 N P N n=1 g (^ N ; X n ). Cela n est pas envisageable dans la mesure où l on souhaite conserver des temps de calcul raisonnables. Bouchard (2006) propose de contourner ce problème, en estimant simultanément l intégrale et le vecteur optimal. Pour cela, il considère l estimateur adaptatif dé ni par : ^I AD N def = 1 N NX g ^ n 1; X n ; (1.38) n=1 où l on a pris la convention 0 = 0. L idée est d utiliser le vecteur optimal obtenu à l étape n 1 (i.e. ^ n 1) pour simuler le terme ^ n 1; X n à l étape n puis d estimer une nouvelle approximation ^ n qui servira aux calculs de l étape n+1 et ainsi de suite. Cette approche est adaptative, dans le sens où les paramètres de l estimateur sont modi és d une étape à l autre en fonction des simulations. Notons que la suite de terme général g ^ n 1; X n n est plus i.i.d. car ^ n 1 dépend de toutes les simulations précédentes. On ne peut donc plus appliquer directement la loi forte des grands nombres pour justi er la convergence de l estimateur (1.38) et le théorème de la limite centrale pour mesurer l erreur d intégration. Justi cation de la convergence Lorsque h est au plus à croissance exponentielle, Arouna (2004) démontre le résultat suivant. Proposition 1.5 La suite de terme général ^IAD N est un estimateur sans biais et fortement consistant de I. De plus, on a un résultat équivalent au théorème de la limite centrale : p N ^IAD N En n, la "variance empirique" dé nie par loi I! N (0; Var [g N!1 ( ; X)]) : 2 ^ AD def N = 1 N 1 NX g ^ n 1; X n n=1 2 ^I N AD (1.39) est un estimateur fortement consistant de Var [g (! ; X)]. Cette proposition montre que l on peut construire un intervalle de con ance pour I comme dans la méthode de Monte Carlo classique et procéder ainsi à une analyse pertinente de l erreur d estimation. 60
1.6 Evaluation d options par simulation Dans cette dernière partie nous appliquons les outils de simulation présentés dans les sections précédentes pour évaluer une option exotique portant sur la trajectoire d un sous-jacent de type action ou indice. 1.6.1 Présentation du problème L approche risque-neutre On se place dans le cadre d analyse de Black et Scholes (1973). Le sous-jacent ne détache pas de dividende et sa dynamique dans l univers risque-neutre est donnée par : S t = S 0 exp r 2 t + W t ; t 0; (1.40) 2 où S 0 (le cours de l actif observé à l instant 0), r (le taux sans risque de l économie) et (la volatilité de l actif) sont des constantes positives. fw t : t 0g est un mouvement Brownien standard sous la mesure risque-neutre. On considère le problème de l évaluation d un call européen de type asiatique géométrique : C = E e rt T où T = max S T K; 0 : (1.41) T et K désignent respectivement la date d expiration et le prix d exercice de l option, ST = ( Q m k=1 S t k ) 1=m est la moyenne géométrique des cours du sousjacent aux dates d observation 0 t 1 < < t m T. Notre objectif est d estimer C en appliquant les méthodes de simulation présentées dans ce travail. Formule analytique pour l option asiatique géométrique Lorsque le sous-jacent suit une loi lognormale (ce qui est le cas dans le modèle retenu), le prix d une option asiatique géométrique peut être déterminé de manière analytique (Bruno 1991) : a C = e S rt 0 e a+b2 =2 ln K b + b a K ln K ; (1.42) b où a = r 2 2 m X k=1 1 k 1 h k ; m v ux b = t m 1 i=1 2 k 1 h k : m Les termes h k sont dé nis par h k = t k t k 1. Etant donné que nous connaissons le prix de l option sous une forme explicite, nous pouvons quanti er l erreur d estimation et ainsi comparer les performances des méthodes proposées. 61
1.6.2 Simulation du sous-jacent Simulation incrémentale A partir de la formule (1.40) on obtient très facilement la relation suivante : S tk = S tk 1 exp r 2 (t k 2 t k 1 ) + W tk W tk 1 ; k = 1; : : : ; m: (1.43) On rappelle que les incréments du mouvement Brownien sont mutuellement indépendants et que W tk W tk 1 N (0; p t k t k 1 ). On peut donc les simuler en posant W tk W tk 1 = p t k t k 1 G k ; k = 1; : : : ; m; (1.44) où G 1 ; : : : ; G m sont i.i.d. de loi N (0; 1). En injectant la formule (1.44) dans la relation (1.43), on obtient une procédure récursive pour simuler le cours du sous-jacent aux dates t 1 ; : : : ; t m : ~S 0 = S 0 ; Sk ~ = S ~ 2 k 1 exp r h k + p h k G k ; (1.45) 2 où h k = t k t k 1. Ce schéma de simulation est exact dans la mesure où le m-uplet ~S1 ; : : : ; S ~ m suit la même loi de probabilité que (S t1 ; : : : ; S tm ). L estimateur Monte Carlo naturel est simplement dé ni comme le payo actualisé : Simulation antithétique X MC = e rt T ( ~ S 1 ; : : : ; ~ S m ): Pour obtenir une trajectoire antithétique, on remplace G k par G k dans la formule (1.45) : ~S 0 = S 0 ; Sk ~ = S ~ k 1 exp r 2 h k p h k G k : (1.46) 2 Il est donc facile d obtenir une trajectoire antithétique du sous-jacent en réutilisant les points déjà simulés. L estimateur Monte Carlo antithétique s écrit X MC AV = e rt T ( ~ S 1 ; : : : ; ~ S m ) + T ( ~ S 1 ; : : : ; ~ S m ) 2 = X MC + X AV ; 2 où X AV def = e rt T ( ~ S 1 ; : : : ; ~ S m ) désigne le payo actualisé obtenu à partir de la trajectoire antithétique. 62
Simulation adaptative L estimateur Monte Carlo adaptatif est de la forme suivante : X MC AD = e rt T ( ~ S 1 ; : : : ; ~ S m ) mx ^ k 1G k = X MC X AD ; k=1 def où X AD = P m k=1 ^ k 1G k représente le terme de correction adaptative. Les poids optimaux ^ k 1 est réestimé à chaque itération selon le processus décrit au paragraphe 1.5.2. 1.6.3 Tests comparatifs Mise en oeuvre des tests Les paramètres retenus pour les applications numériques sont les suivants : r = 4%, = 20%, T = 10 et S 0 = K = 100. Les dates t 1 ; : : : ; t m sont dé nies par t k = kt=m avec m = 120, ce qui correspond à une fréquence d observation mensuelle. La formule analytique (1.42) nous donne C ' 17:8958. Nous avons mis en oeuvre la méthode de Monte Carlo classique (MC), la méthode antithétique (MC-AV) et la méthode adaptative (MC-AD) pour les valeurs de N suivantes : 5000n, n = 1; : : : ; 50. Les variables gaussiennes ont été simulées en appliquant la méthode d inversion de Acklam aux sorties du générateur Mersenne Twister. La gure 1.7 présente deux graphes de convergence des estimateurs obtenus pour deux choix di érents de l état initial. Une simple com- prix th. MC MC AV MC AD prix th. MC MC AV MC AD prix estimé 18,20 18,00 17,80 17,60 17,40 17,20 17,00 16,80 0 25 50 75 100 125 150 175 200 225 250 N (x 10 3 ) prix estimé 18,70 18,60 18,50 18,40 18,30 18,20 18,10 18,00 17,90 17,80 17,70 0 25 50 75 100 125 150 175 200 225 250 N (x 10 3 ) Fig. 1.7 Diagrammes de convergence des estimateurs vers le prix théorique C ' 17:8958. Les deux gures ont été construites à partir de deux graines di érentes. paraison de la gure de gauche et de la gure de droite montre que deux graines 63
distinctes peuvent conduire à des courbes d approximation très di érentes (les courbes de gauche présentent une tendance croissante, tandis que les courbes de droite ont une tendance globalement décroissante). Par ailleurs, sur la gure de gauche, les estimateurs MC-AV et MC-AD convergent vers le prix cherché au bout de 70000 itérations environ, tandis que la convergence de ces mêmes estimateurs a lieu au bout de 160000 simulations sur la gure de droite. Cela montre que la vitesse de convergence observée dépend fortement de l amorce du générateur. En pratique, il existe deux solutions équivalentes pour s a ranchir du "risque d amorce" : (i) choisir une seule graine mais augmenter le nombre d itérations ou (ii) lancer di érents jeux de simulations à partir de graines distinctes 10 et prendre la moyenne des résultats obtenus comme approximation de la valeur cherchée. Remarque 1.6.1 Dans les deux exemples présentés, l estimateur naturel (MC) converge plus lentement vers la solution du problème que les deux autres estimateurs. Soulignons également que les courbes de convergence des estimateurs MC-AV et MC-AD ont la même forme, quel que soit l état initial choisi. Ce phénomène s explique par le fait que ces méthodes d estimation reposent toutes deux sur l utilisation d une variable auxiliaire anticorrélée avec l estimateur naturel (voir paragraphe suivant). Explication de la réduction de variance par la corrélation entre les estimateurs En utilisant les di érentes réalisations des variables X MC, X AV et X AD obtenues lors des simulations qui ont permis de générer le graphique de droite, nous avons estimé les coe cients de corrélation empiriques suivants : MC AV = Cor [X MC ; X AV ] = 0:5026; MC AD = Cor [X MC ; X AD ] = 0:8634: En appliquant la formule (1.35) on obtient 2 MC AV = 1 + MC AV 2 MC ' 0; 249 2 MC ' 2 2 MC=4; où 2 MC désigne la variance de l estimateur naturel X MC. La méthode antithétique doit donc diviser la variance par 4 environ. De même en considérant que les estimateurs X MC et X AD ont des variances comparables (i.e. 2 MC ' 2 AD ), on peut écrire : 2 MC AD = 2 MC + 2 AD 2 MC AD MC AD ' 2 2 MC 1 MC AD ' 0; 273 2 MC ' 2 MC=4: 10 Pour une discussion sur le choix de la graine dans les applications scienti ques, le lecteur pourra consulter l article de (Marsaglia 2003). 64
Ce second résultat montre que l estimateur adaptatif doit réduire la variance d un facteur voisin de 4 (dans l exemple choisi). Nous con rmons cette analyse préliminaire en étudiant le comportement des intervalles de con ance, dans le paragraphe suivant. E et de la réduction de variance sur la précision asymptotique On désigne par ^C N et ^ 2 N le prix estimé et la variance empirique de l estimateur au bout de N itérations. Alors, l intervalle de con ance pour le prix au seuil de 95% est dé ni par : ^I N = ^C N 1:96 ^ N p ; ^C N + 1:96 ^ N p : N N Comme nous l avons exposé au paragraphe 1.5.1, le prix théorique appartient à cet intervalle avec une probabilité de 95% et l amplitude de l intervalle de con ance, i.e. l incertitude autour du prix cherché, diminue proportionnellement à 1= p N. La gure 1.8 illustre ce phénomène pour les trois estimateurs 11. prix th. MC prix th. MC AV prix th. MC AD 19,50 19,50 19,50 19,25 19,25 19,25 19,00 19,00 19,00 prix estimé & intervalle de confiance 18,75 18,50 18,25 18,00 17,75 prix estimé & intervalle de confiance 18,75 18,50 18,25 18,00 17,75 prix estimé & intervalle de confiance 18,75 18,50 18,25 18,00 17,75 17,50 17,50 17,50 17,25 17,25 17,25 17,00 0 25 50 75 100 125 150 175 200 225 250 17,00 0 25 50 75 100 125 150 175 200 225 250 17,00 0 25 50 75 100 125 150 175 200 225 250 N (x 10 3 ) N (x 10 3 ) N (x 10 3 ) Fig. 1.8 Réduction de l amplitude de l intervalle de con ance (donc de l incertitude) sur le prix cherché pour l estimateur naturel (à gauche), l estimateur antithétique (au milieu) et l estimateur adaptatif (à droite). Comme attendu, lorsque N augmente, les bornes de l intervalle de con ance de chacun des estimateurs se resserrent. Les e ets de la réduction de variance sont particulièrement nets sur les deux derniers graphiques où les intervalles de con ance sont environ moitié moins larges que sur le premier graphique qui représente l estimateur naturel MC. A n d appréhender l impact des méthodes de réduction de variance proposées, nous donnons ci-dessous les prix estimés, 11 Les courbes de convergence utilisées sont celles du graphique de droite dans la gure 1.7. 65
l intervalle de con ance associé et la largeur de l intervalle de con ance au bout de N = 250000 simulations. estimateur prix estimé intervalle de con ance largeur MC 17:9176 [17:8198; 18:0155] 0:1957 MC-AV 17:8823 [17:8336; 17:9311] 0:0975 MC-AD 17:8709 [17:8206; 17:9212] 0:1006 La largeur de l intervalle de con ance avec la méthode MC est 0:1957, tandis qu elle est environ moitié moindre avec les méthodes MC-AV et MC-AD. Cela con rme que les techniques de réduction de variance mises en oeuvre ont bien atteint leur objectif en réduisant la variabilité de l estimateur (i.e. l incertitude sur le prix cherché) d un facteur 2, soit la variance par 4. Remarque 1.6.2 En pratique, on met en oeuvre une méthode de simulation numérique quand on ne sait pas déterminer le prix sous une forme analytique. Nous avons choisi un exemple où la solution du problème est connue (C ' 17:8958), ce qui permet de déterminer l erreur d approximation (^" = j ^C N =C 1j) pour chaque estimateur testé. En utilisant les résultats du tableau précédent, on trouve ^" MC ' 0:12% pour l estimateur MC, ^" MC AV ' 0:08% pour l estimateur MC-AV et ^" MC AD ' 0:14% pour l estimateur MC-AD. Ces valeurs montrent que les méthodes de réduction de variance ne donnent pas obligatoirement une approximation plus précise que l estimateur naturel. Par contre, elles permettent de diminuer l incertitude autour de la valeur estimée, ce qui accroît la probabilité de trouver un résultat plus proche de la solution du problème. E cacité des méthodes de réduction de variance Pour chaque estimateur, nous avons déterminé l e ort calculatoire c = T N =N (où T N est le temps nécessaire pour construire l échantillon de taille N) et l indice d e cacité c^ 2 N tel que dé ni au paragraphe 1.5.2. Les résultats obtenus pour N = 250000 sont indiqués dans le tableau ci-dessous. estimateur variance (^ 2 N ) e ort calculatoire (c) e cacité (c^ 2 N) MC 622:90 1:4060E 04 8:76E 02 MC-AV 154:60 1:7441E 04 2:70E 02 MC-AD 158:56 1:9372E 04 3:07E 02 L estimateur MC-AV présente un indice d e cacité légèrement meilleur que celui de l estimateur MC-AD (2:70E 02 pour MC-AV contre 3:07E 02 pour MC- AD), ce qui prouve que la méthode des variables antithétiques est préférable à la méthode adaptative pour l exemple choisi. Dans tous les cas, les méthodes de réduction de variance sont plus e caces que la méthode naturelle, au sens du critère (1.33). Il est donc particulièrement intéressant de les mettre en oeuvre. 66
1.7 Conclusion Les profondes modi cations de l environnement nancier au cours des dernières années (explosion des marchés de produits dérivés de toutes natures, entrée en vigueur de nouvelles normes comptables et réglementaires) ont fait des méthodes de simulation numérique un outil incontournable pour la gestion des risques. Dans ce contexte, nous nous sommes attachés à montrer comment élaborer une solution complète pour évaluer des produits dérivés par la méthode de Monte Carlo à partir des solutions théoriques proposées dans la littérature. Dans la seconde section, nous avons envisagé le problème de la simulation du hasard par des moyens déterministes en comparant trois familles de générateurs pseudo-aléatoires uniformes, les générateurs linéaires congruentiels, les générateurs linéaires combinés et les générateurs Mersenne Twister, plus récents et conçus pour exploiter l architecture binaire des ordinateurs. Notre étude a con rmé que cette nouvelle famille de générateurs présentait de solides atouts pour la simulation numérique intensive : le Mersenne Twister MT19937 possède une période in nie (à l échelle informatique), il produit des séquences bien équidistribuées que l on obtient rapidement sur les machines standards. Dans la troisième section, nous avons étudié les méthodes de simulation de la loi gaussienne unidimensionnelle. Nous avons montré comment les transformations non-linéaires d un jeu de variables uniformes (Box-Muller) pouvaient conduire à des e ets de bord indésirables (e et Neave). C est pourquoi nous avons choisi de simuler la loi normale standard en inversant la fonction de répartition. Cela nécessite d approcher la fonction inverse gaussienne par un algorithme robuste. Nous avons présenté la méthode proposée par Beasley et Springer (1977) et Moro (1995), puis nous l avons comparée avec la méthode proposée par Acklam (2000). Les deux approches atténuent considérablement les artefacts de simulations et elles se sont avérées aussi précises l une que l autre. Pour une mise en oeuvre opérationnelle, c est l inversion de Acklam que nous avons retenue, car elle s est montrée légèrement plus rapide que l inversion de Beasley et Springer et Moro. La quatrième section est consacrée à l étude de la loi normale multidimensionnelle. Nous avons montré comment utiliser les algorithmes de simulation de la loi normale univariée pour simuler un vecteur gaussien quelconque. L élément fondamental lors de la simulation d un vecteur gaussien consiste à déterminer une racine carrée de la matrice de covariance. Pour e ectuer cette tâche, l algorithme de Cholesky s avère particulièrement e cace. En e et, il construit une matrice triangulaire et nous avons démontré que cela permettait de réduire d un facteur 2 le nombre de calculs nécessaires pour générer les composantes du vecteur gaussien considéré. Dans la cinquième section, nous avons présenté la méthode de Monte Carlo qui, en raison de sa simplicité et parce qu elle nécessite des calculs intensifs et répétitifs, se prête particulièrement bien à une implémentation informatique. Nous 67
avons par ailleurs étudié la technique des variables antithétiques et la technique adaptative. Ces deux méthodes de réduction de variance reposent sur des hypothèses très générales et peuvent être mises en oeuvre de manière systématique. Cela est un atout considérable lorsqu on envisage d évaluer des produits dérivés aux payo s très di érents, car il n est pas nécessaire de modi er l algorithme de simulation pour l adapter aux caractéristiques de chaque produit. L application nancière de la section 6 a permis de mettre en oeuvre les di érents algorithmes étudiés dans ce travail pour évaluer une option exotique en simulant l évolution des cours boursiers dans le cadre du modèle de Black et Scholes. Les tests réalisés ont montré comment les méthodes de réduction de variance permettent (i) de contrôler l incertitude sur l erreur commise, (ii) d accélérer la convergence de l algorithme vers la valeur cherchée. Soulignons en n que la méthode adaptative, qui permet d ajuster les caractéristiques de l estimateur en fonction des simulations réalisées, est une technique avantageuse. En e et, elle repose sur des hypothèses moins contraignantes que la technique antithétique. Ces résultats dans le cadre de notre étude se sont révélés très satisfaisants et prometteurs. Les recherches dans le domaine de la simulation numérique sur ordinateur restent ouvertes, car l accroissement de la puissance de calcul des machines permet d envisager des solutions toujours plus performantes, comme la simulation en parallèle. Une solution consiste à générer simultanément plusieurs trajectoires du sous-jacent sur di érents processeurs pour multiplier le nombre de réplications du payo par le nombre de processeurs sur la grille de calcul (Pauletto 2001). Une autre solution plus récente est de générer plusieurs nombres aléatoires simultanément sur un seul processeur "multi-coeurs" avec la technologie SIMD (Single Instruction Multiple Data). En utilisant cette technologie, Saito (2007) a développé une version optimisée du Mersenne Twister, deux fois plus rapide que l algorithme original, MT19937. 68
A Méthode de Schrage L ensemble des entiers représentables sur une machine à "! bits" est N 2!. L objectif est de calculer ax mod m pour a 2 N 2!, m 2 N 2! et x 2 N 2!. Comme ax mod m = a (x mod m) mod m, on peut se limiter aux x 2 N m. Une implémentation directe de la fonction x! ax mod m sera très instable pour les couples (a; x) tels que ax > 2!. Certains compilateurs renvoient une erreur, tandis que d autres évaluent la quantité ax mod 2!. Dans le premier cas, il y a dépassement de capacité et le programme s arrête. Dans le second cas, le calcul se poursuit et le résultat nal est (ax mod 2! ) mod m, à priori di érent de ax mod m, sauf pour m = 2 avec <!. Tout semble fonctionner normalement, mais le résultat nal est faux. Schrage (1979) démontre la proposition ci-dessous qui permet de contourner ce problème. Proposition 1.6 Soient a et m deux entiers tels que : 0 < a 2 < m et m = aq + r avec r 2 N a : Alors, pour tout x 2 N m, on a : a (x mod q) r bx=qc si a (x mod q) r bx=qc ax mod m = a (x mod q) r bx=qc + m si a (x mod q) < r bx=qc : Proof. En utilisant l identité x = q bx=qc + (x mod q), on a : ax = aq bx=qc + a (x mod q) = (m r) bx=qc + a (x mod q) : Regroupons les termes : puis Comme x mod q < q, on a ax = m bx=qc + (a (x mod q) r bx=qc) ; ax mod m = (a (x mod q) r bx=qc) mod m: (1.47) De plus, 0 x < m et a 2 < m, donc 0 a (x mod q) < aq m: (1.48) 0 bx=qc r < bm=qc r = ar < a 2 < m: (1.49) En retranchant (1.48) et (1.49) membre à membre, il vient : m < a (x mod q) r bx=qc < m: (1.50) Si a (x mod q) r bx=qc, l inégalité (1.50) devient 0 a (x mod q) r bx=qc < m, ce qui implique : (a (x mod q) r bx=qc) mod m = a (x mod q) r bx=qc : Dans le cas contraire, on remarque que 0 < a (x mod q) l on déduit : r bx=qc + m < m, d où (a (x mod q) r bx=qc) mod m = a (x mod q) r bx=qc + m; ce qui établit la formule annoncée. 69
B Méthode de Box-Muller Soit (X; Y ) un couple de variables aléatoires indépendantes, de loi N (0; 1). On dé nit un changement de variables en coordonnées polaires ' : (x; y)! (r; ) en posant :! r = x 2 + y 2 1=2 y et = 2 arctan : (x 2 + y 2 ) 1=2 x Par construction, ' est un C 1 -di éomorphisme de R 2 nf(x; 0) : x 0g vers R + ]0; 2[ (qui sont des ouverts) et, de plus, P X;Y R 2 nf(x; 0) : x 0g = P X;Y R 2 = 1: Alors, par le théorème de changement de variables, le couple (R; ) = ' (X; Y ) admet une densité f R; par rapport à la mesure de Lebesgue sur R 2 : f R; (r; ) = f X;Y (r cos ; r sin ) det J' 1 (r; ) 1]0;1[ (r) 1 ]0;2[ () ; où J ' 1 (r; ) est la matrice jacobienne de ' 1 (r; ) = (r cos ; r sin ). On a cos J ' 1 (r; ) = sin r sin r cos ; ce qui implique det J ' 1 (r; ) = r > 0 puis : f R; (r; ) = re r2 =2 1 ]0;1[ (r) 1 2 1 ]0;2[ () : La densité du couple (R; ) s écrit comme le produit d une fonction de r et d une fonction de, donc R et sont indépendantes (ce qui n était pas évident à priori) et l on peut voir que suit une loi uniforme sur ]0; 2[ et que R suit une loi de Rayleigh. On dé nit un C 1 -di éomorphisme, de R + ]0; 2[ dans ]0; 1[ 2, en posant : u = e r2 =2 ; v = =2: Le couple (U; V ) = (R; ) admet une densité par rapport à la mesure de Lebesgue sur R 2 dé nie par : f U;V (u; v) = f R; p 2 ln u; 2v det J 1 (u; v) 1]0;1[ 2 (u; v) ; où p 1 (u; v) = 2 ln u; 2v p 1= u 2 ln u 0 et J 1 (u; v) = 0 2 : 70
Alors, det J 1 (u; v) = 2= u p 2 ln u > 0 puis, après calcul, f U;V (u; v) = 1 ]0;1[ (u) 1 ]0;1[ (v) ce qui prouve que (U; V ) est un couple de variables uniformes indépendantes. On achève la démonstration en remarquant que : (X; Y ) = ' 1 (R; ) = ' 1 1 (U; V ) p p = 2 ln U cos (2V ) ; 2 ln U sin (2V ) : C Factorisation de Cholesky Théorème 1.7 (Cholesky) Soit une matrice carrée d ordre s, symétrique dé nie positive. Il existe une unique matrice, triangulaire inférieure à coe - cients diagonaux strictement positifs, telle que = 0. La matrice est appelée racine carrée de Cholesky de. Proof. L unicité et l existence se démontrent simultanément par récurrence sur la dimension s. Si s = 1 alors, = [ 11 ] avec 11 > 0, car est dé nie positive. Alors la seule solution du problème est = p 11. Supposons l hypothèse vraie au rang s 1 et considérons, une matrice carrée symétrique dé nie positive d ordre s + 1 qui s écrit : s Rs = 0 ; R s où s est la sous-matrice principale d ordre s de (elle aussi symétrique dé - nie positive), R s est un vecteur ligne de taille s et est le coe cient d ordre (s + 1; s + 1) de. Il faut montrer l existence et l unicité de, triangulaire inférieure à coe cients diagonaux strictement positifs, telle que = 0. On doit donc chercher sous la forme : = s 0 T s où s est la sous-matrice principale d ordre s de, T s est un vecteur ligne de taille s et est le coe cient d ordre (s + 1; s + 1) de. L égalité = 0 est véri ée si et seulement si : ; s = s 0 s; (1.51) R s = T s 0 s ; (1.52) = T s T 0 s + 2 ; (1.53) En appliquant l hypothèse de récurrence à la matrice s (symétrique dé nie positive d ordre s), on déduit qu il existe une unique matrice s, triangulaire inférieure à diagonale strictement positive, solution de (1.51). En remarquant que s est inversible (le déterminant d une matrice triangulaire est égal au produit des éléments diagonaux, tous strictement positifs dans le cas présent) 71
l égalité (1.52) admet une unique solution T s = R s ( 0 s) 1. En n, l égalité (1.53) implique 2 = T s Ts 0 (T s est à présent connu). Alors est nécessairement l une des racines carrées du scalaire T s Ts 0 (on ne connaît pas le signe de T s Ts, 0 donc est éventuellement complexe). La matrice ainsi construite véri e bien = 0. Il ne reste qu à prouver que peut être choisi strictement positif pour conclure. est triangulaire par blocs, donc det = det 0 = det s ) det = det 0 = (det ) 2 = 2 (det s) 2 : Or det > 0 ( est dé nie positive) et det s > 0 ( s est à diagonale strictement positive) donc 2 = T s Ts 0 est strictement positif. On peut donc choisir > 0 ce qui achève la récurrence. Remarque C.1 La condition dé nie positive est une condition su sante (mais non nécessaire) pour garantir l existence d une racine carrée de Cholesky. En e et, il existe des matrices non dé nies positives admettant une factorisation de Cholesky. Par exemple la matrice de terme général ij = 1 (1 i; j s) s écrit 0 où est dé nie par : 1 si j = 1 ij = 0 si j > 1 : Mais on observe, dans la pratique, que lorsque n est pas dé nie positive, la décomposition de Cholesky échoue presque toujours. 72
Références Acklam P.J. (2000). An algorithm for computing the inverse normal cumulative distribution function, Technical Paper, http://home.online.no/~pjacklam/ notes/invnorm/. Arouna B. (2004). Adaptative Monte Carlo Method, A Variance Reduction Technique, Monte Carlo Methods and Applications, Vol. 10, No. 1, pp. 1-24. Beasley J.D., Springer S.G. (1977). Algorithm AS 111. The percentage points of the normal distribution, Applied Statistics, 26, pp. 118-121. Björk T. (2004). Arbitrage Theory in Continuous Time, Second Edition, Oxford University Press. Black F., Scholes M. (1973). The Pricing of Options And Corporate Liabilities, Journal of Political Economy, Vol. 81, pp. 36-72. Bouchard-Denize B. (2006). Méthodes de Monte Carlo en Finance, Notes de cours, Université de Paris VI. Boyle P.P. (1977). Option : a Monte Carlo approach, Journal of Financial Economics, Vol. 4, pp. 323-338. Bruno M.G. (1991). Calculation methods for evaluating asian options, Working Paper. Devroye L. (1986). Non-Uniform Random Variate Generation, Springer-Verlag, New York. Fishman G.S., Huang B.D. (1983). Antithetic Variates Revisited, Communications of the ACM, 26, pp. 964-971. Gentle J.E. (2003). Random Number Generation and Monte Carlo Methods, Second Edition, Springer-Verlag. Glasserman P. (2004). Monte Carlo methods in nancial engineering, Springer. Haber S. (1966). A Modi ed Monte-Carlo Quadrature, Mathematics of Computation, Vol. 20, No. 95, pp. 361-368. Hammersley J. M., Handscomb D.C. (1964). Monte Carlo Methods, Methuen, London. Hammersley J.M., Morton K.W. (1956). A New Monte Carlo Technique : Antithetic Variates, Proceedings of the Cambridge Philosophical Society, 52, pp. 449-475. Herring C., Palmore J.I. (1989). Random Number Generators Are Chaotic, Communications of the ACM, 38, pp. 121-127. Jäckel P. (2002). Monte Carlo methods in nance, John Wiley & Sons. Jacod J., Protter P. (2003). L essentiel en théorie des probabilités, Cassini. Klimasauskas C. (2003a). Not Knowing Your Random Number Generator Could Be Costly : Random Generators - Why Are They Important, Information Article, Advanced Technology For Developers Group, http://www.klimasauskas. com/pub_rng.php. Klimasauskas C. (2003b). Testing Your Random Number Generator, Information Article, Advanced Technology For Developers Group, http://www.klimasauskas. com/pub_rng.php. Knuth D.E. (1998). The Art of Computer Programming, Volume 2 : Seminumerical Algorithms, Third edition, Addison-Wesley. 73
Korn R., Korn E. (2001). Option Pricing and Portfolio Optimization : Modern Methods of Financial Mathematics, Graduate Studies in Mathematics, Vol. 31, American Mathematical Society. Kuipers L., Niederreiter H. (1974). Uniform Distribution of Sequences, John Wiley & Sons. Lachaud A., Leclanche G. (2003). Génération de nombres aléatoires par numérisation d impulsions radiatives, Rapport de n d études, Maîtrise d Electronique, Université de Limoges. Lamberton D., Lapeyre B. (1997). Introduction au calcul stochastique appliqué à la nance, Ellipse. Langlois M. (1999). Cryptographie quantique - solution au problème de distribution de clefs secrètes, Papier de recherche, Université d Ottawa. Lemieux C. (2008). Monte Carlo and Quasi-Monte Carlo Sampling, Springer (to appear). L Ecuyer P. (1988). E cient and Portable Combined Random Number Generators, Communications of the ACM, 31, pp. 742-749 and 774. L Ecuyer P. (1996). Combined Multiple Recursive Generators, Operations Research, Vol. 44, No. 5, pp. 816-822. L Ecuyer P. (1998a). Random Number Generators and Empirical Tests, Lecture Notes in Statistics 127, Springer-Verlag, pp. 124-138. L Ecuyer P. (1998b). Uniform Random Number Generators, Proceedings of the 1998 Winter Simulation Conference, IEEE Press, pp. 97-104. L Ecuyer P. (1999). Good parameters and implementations for combined multiple recursive random number generators, Research Paper, Université de Montréal - DIRO. L Ecuyer P. (2001). Software for uniform random number generation : distinguishing the good and the bad, Proceedings of the 2001 Winter Simulation Conference, IEEE Press, pp. 95-105. L Ecuyer P. (2004a). Random Number Generation, Chapter 2 of the Handbook of Computational Statistics, (J.E. Gentle, W. Haerdle, and Y. Mori Eds.), Springer-Verlag, pp. 35-70. L Ecuyer P., Panneton F. (2000). A New Class of Linear Feedback Shift Register Generators, Proceedings of the 2000 Winter Simulation Conference, pp. 690-696. L Ecuyer P., Simard R. (2005). TestU01 - A software Library in ANSI C for Empirical Testing of Random Number Generators, User s guide (compact version), Université de Montréal - DIRO, http://www.iro.umontreal.ca/~simardr/. Marsaglia G. (1996). DIEHARD, a battery of tests of randomness, http: //www.stat.fsu.edu/pub/diehard/. Marsaglia G. (2003). Seeds for random number generators, Communications of the ACM, 46, pp. 90-93. Matsumoto M., Kurita Y. (1992). Twisted GFSR generators, ACM Transactions on Modeling and Computer Simulation, 2, pp. 179-194. Matsumoto M., Kurita Y. (1994). Twisted GFSR generators II, ACM Transactions on Modeling and Computer Simulation, 4, pp. 254-266. 74
Matsumoto M., Nishimura T. (1998). Mersenne Twister : A 623-dimensionally equidistributed uniform pseudorandom number generator, ACM Transactions on Modeling and Computer Simulation, 8, pp. 3-30. Metropolis N., Ulam S.M. (1949). The Monte Carlo method, Journal of the American Statistical Association, Vol. 44, No. 247, pp. 335-341. Microsoft (2004). How Visual Basic Generates Pseudo-Random Numbers for the Rnd Function, Knowledge Base Article 231847, http://support.microsoft. com/default.aspx?scid=kb;en-us;231847. Microsoft (2005). Rnd and Randomize Alternatives for Generating Random Numbers, Knowledge Base Article 28150, http://support.microsoft.com/ default.aspx?scid=kb;en-us;28150. Microsoft (2006). Description of the RAND function in Excel 2003, Knowledge Base Article 828795, http://support.microsoft.com/default.aspx? scid=kb;en-us;828795. Moro B. (1995). The Full Monte, Risk Magazine, Vol. 8, pp. 57-58. Neave H.R. (1973). On using the Box-Muller tranformation with multiplicative congruential pseudo-random number generators, Applied Statistics, 22, pp. 92-97. Niederreiter H. (1978). Quasi-Monte Carlo methods and pseudo-random numbers, Bulletin of the American Mathematical Society, Vol. 84, No. 6, pp. 957-1041. Niederreiter H. (1992). Random Number Generation and Quasi-Monte Carlo Methods, SIAM-CBMS Lecture Notes 63. Panneton F. (2004). Construction d ensembles de points basée sur des récurrences linéaires dans un corps ni de caractéristique 2 pour la simulation Monte Carlo et l intégration quasi-monte Carlo, Thèse de Doctorat, Université de Montréal. Park S.K., Miller K.W. (1988). Random Number Generators : Good Ones Are Hard To Find, Communications of the ACM, 31, pp. 1192-1201. Pauletto P. (2001). Parallel Monte Carlo Methods for Derivative Security Pricing, in Numerical Analysis and Its Applications (L. Vulkov, J. Wasnievski and P. Yalamov Eds.), Lecture Notes in Computer Science, Vol. 1988, Springer- Verlag, pp. 650-657. Press W.H., Teukolsky S.A., Vetterling W.T., Flannery B.P. (2002). Numerical Recipes in C++, the art of scienti c computing, Second Edition, Cambridge University Press. Saito M. (2007). An Application of Finite Field : Design and Implementation of 128-bit Instruction-Based Fast Pseudorandom Number Generator, Research Paper, Department of Mathematics, Graduate School of Science, Hiroshima University, http://www.math.sci.hiroshima-u.ac.jp/~m-mat/jsps-coretocore/ index.html. Sakamoto M., Morito S. (1995). Combination of Multiplicative Congruential Random-Number Generators With Safe Prime Modulus, Proceedings of the 1995 Winter Simulation Conference (C. Alexopoulos, K. Kang, W. R. Lilegdon, and D. Goldsman Eds.), pp. 309-315. 75
Schrage L. (1979). A More Portable Fortran Random Number Generator, ACM Transactions on Mathematical Software, 5, pp. 132-138. Tezuka S. (1991). Neave E ect Also Occurs With Tausworthe Sequences, Proceedings of the 1991 Winter Simulation Conference, pp. 1030-1034. Tezuka S. (1995). Uniform Random Numbers : Theory and Practice, Kluwer Academics Publishers. West G. (2005). Better approximations to cumulative normal functions, Wilmott Magazine, pp. 70-76. Wichmann B., Hill I. (1982). Algorithm AS 183. An E cient and Portable Pseudo-random Number Generator, Applied Statistics, 31, pp. 188-190. 76
Chapitre 2 Intégration déterministe Quasi-Monte Carlo 2.1 Introduction La méthode de Monte Carlo présentée dans le chapitre précédent permet d estimer la valeur d une espérance en formant l approximation : I = E [h (X)] ' N!+1 1 N NX h(x n ); où les X n sont des variables aléatoires i.i.d. de même loi que X. Pour échantillonner la loi de X, on utilise le fait que la plupart des lois de probabilités se déduisent de la loi uniforme par des transformations plus où moins complexes (voir Devroye 1986 et Niederreiter 1992). On note C le segment unité ouvert ]0; 1[, de sorte que C s désigne le cube unité ouvert ]0; 1[ s. Si T est une transformation telle que X = T (U) avec U U C s, alors l espérance I peut être vue comme l intégrale de la fonction f def = h T sur le cube unité : Z I = E [h (X)] = E [h T (U)] = E [f (U)] = f(u)du C s et l estimateur Monte Carlo se réécrit : ^I N = 1 NX f(u n ); (2.1) N n=1 où les U n sont des variables aléatoires mutuellement indépendantes de loi uniforme U I s. A n de simpli er les raisonnements, nous ne considérerons dorénavant que des espérances (ou des intégrales) dé nies sur le cube unité C s. La méthode de Monte Carlo est particulièrement simple à mettre en oeuvre dès que l on s est doté d un bon générateur de variables uniformes. Elle s applique n=1 77
à une large classe de fonctions (l ensemble des fonctions Lebesgue intégrables) et elle permet d obtenir facilement une estimation probabiliste de l erreur d intégration lorsque f est de carré intégrable. La vitesse de convergence de l algorithme, de l ordre de N 1=2 où N désigne le nombre de points de l échantillon, est indépendante de la dimension, ce qui est un atout incontestable par rapport aux quadratures déterministes dont la qualité d approximation de l ordre de O N 2=s se dégrade considérablement lorsque la dimension du problème augmente et qui deviennent impraticables 1 pour s 5. 2.1.1 Idée sous-jacente de l approche Quasi-Monte Carlo La vitesse de convergence en N 1=2 est une caractéristique intrinsèque des méthodes d échantillonnage probabilistes du type Monte Carlo. Elle provient de la nature stochastique de l échantillon utilisé. En e et, chaque point est construit indépendamment des points déjà générés, de sorte que l on observe la formation d agrégats dans certaines régions du domaine d intégration (phénomène de sur-échantillonnage), tandis que d autres régions restent entièrement vides (phénomène de sous-échantillonnage). En d autres termes, les points aléatoires n échantillonnent pas le domaine d intégration de manière optimale et un grand nombre d itérations est nécessaire avant d obtenir une couverture "uniforme" du domaine d intégration. Cependant, on connaît des suites complètement déterministes, appelées suites équiréparties, dont les points se distribuent dans le cube unité avec une plus grande régularité que des points aléatoires. La gure ci-dessous permet d illustrer nos propos : nous avons représenté 5000 points bidimensionnels obtenus avec le générateur pseudo-aléatoire Mersenne Twister MT19937 (plan de gauche) et avec la suite équirépartie de Halton ( gure de droite) dont les propriétés seront étudiées en détail dans la suite du chapitre. 1 Voir Annexe A pour une présentation succincte de tels algorithmes. 78
Une simple comparaison des deux jeux de points soulève la question suivante : quelle serait la nature de la convergence obtenue si l on remplaçait les points aléatoires dans l estimateur (2.1) par les points d une suite équirépartie telle que la suite de Halton? Cette démarche est envisageable dans la mesure où ce n est pas le caractère imprédictible de la suite échantillonnante que l on cherche à exploiter dans l intégration Monte Carlo, mais sa capacité à recouvrir le domaine d intégration de la fonction étudiée 2. C est précisément sur cette observation que repose la méthode d intégration déterministe dite de Quasi-Monte Carlo. 2.1.2 Approximation Quasi-Monte Carlo L idée est de remplacer les points aléatoires U n dans la quadrature Monte Carlo (2.1) par les points d une suite équirépartie déterministe. On obtient alors l estimateur Quasi-Monte Carlo de l intégrale I : ^Q N = 1 N NX f(u n ); (2.2) n=1 où u 1 ; : : : ; u N désignent les N premiers points d une suite équirépartie. Etant donné que les u n réalisent un échantillonnage hautement uniforme du domaine d intégration, on peut espérer que l estimateur Quasi-Monte Carlo ^Q N convergera plus rapidement que l estimateur Monte Carlo ^I N. L échantillon que nous envisageons d utiliser ayant perdu toute caractéristique aléatoire, il n est plus possible de justi er l approche Quasi-Monte Carlo à partir des théorèmes fondamentaux des probabilités comme c est le cas dans l approche Monte Carlo. En conséquence, nous devrons introduire de nouveaux outils mathématiques a n d apporter une réponse théorique solide aux questions suivantes. 1. Comment mesurer l équirépartition d une suite et comment identi er les suites équiréparties candidates à l intégration Quasi-Monte Carlo? 2. Sous quelles hypothèses sur la fonction f et sur la suite (u n ) l estimateur ^Q N converge-t-il vers l intégrale I? 3. Dispose-t-on encore d un outil e cace pour estimer l erreur d intégration ^" N = ^Q N I? 4. Quelle est la vitesse de convergence de la quadrature Quasi-Monte Carlo? En particulier, est-elle meilleure que la vitesse de convergence de l intégration Monte Carlo? 2 Dans l intégration Monte Carlo, la nature stochastique de l échantillon ne nous intéresse que dans la mesure où elle conduit au remplissage asymptotique du domaine d intégration et qu elle permet d appliquer les théorèmes de probabilité pour justi er la convergence de l estimateur et pour majorer l erreur commise. 79
2.1.3 Origine et intérêt de la méthode Quasi-Monte Carlo Les méthodes de Monte Carlo ont été développées puis utilisées pour des projets secrets de la défense américaine à partir du milieu du 20 ieme siècle. Le terme "Quasi-Monte Carlo" est apparu pour la première fois dans un rapport de Richtmyer (1951). A l origine, les méthodes de Quasi-Monte Carlo devaient permettre d accélérer les simulations numériques sur des ordinateurs dont la puissance de calcul était relativement limitée. Les fondements théoriques de cette approche, jugée très prometteuse, ont été développés à partir des années 1960 jusqu à la n des années 1980, notamment grâce aux travaux de Halton (1960), Hammersley et Handscomb (1964), Haber (1966, 1970), Niederreiter (1972, 1978), Kuipers et Niederreiter (1974), Cranley et Patterson (1976), Faure (1981, 1982) ou Zinterhof (1987). Cette liste n est pas exhaustive, mais elle donne les références majeures sur le sujet. Le principal avantage de la méthode de Quasi-Monte Carlo est qu elle converge plus rapidement que la méthode de Monte Carlo (cf. Finschi 1996, Pagès et Xiao 1997, Tu n 1997). Par contre, elle comporte deux inconvénients qui n existent pas avec la méthode de Monte Carlo : la vitesse de convergence dépend de la dimension du problème (i.e. la méthode perd de son e cacité lorsque la dimension augmente) et surtout il est di cile, voire impossible, de produire e cacement une estimation de l erreur d intégration (Thiémard 2000a, 2000b). La plupart des travaux menés depuis les années 1990 ont eu pour objectif de proposer des solutions a n d améliorer l équidistribution des suites utilisées (Tu n 1996a, Kocis et Whiten 1997, Wang et Hickernell 2000) ou de proposer une mesure e cace de l erreur commise (Moroko et Ca isch 1994, Snyder 2000, Warnock 2001). Depuis le début des années 2000, la solution privilégiée par les spécialistes consiste à randomiser la méthode de Quasi-Monte Carlo a n de pouvoir estimer l erreur d intégration par des moyens probabilistes. A ce sujet, le lecteur pourra consulter Ökten (1997), Tu n (1996b, 2005), L Ecuyer (2004b), Ökten, Tu n et Burago (2005) ou Lemieux (2008). L utilisation des méthodes de Quasi-Monte Carlo en nance est relativement récente. En e et, les travaux de Paskov (1994), Boyle, Broadie et Glasserman (1995), Papageorgiou et Traub (1996, 1997), Galanti et Jung (1997) ou Boyle et Tan (1997), qui peuvent être considérés comme les premières publications sur le sujet, datent du milieu des années 1990. Les problèmes rencontrés en nance quantitative sont extrêmement variés (calculs d espérance, calculs de quantiles, simulation de processus stochastiques, etc.) et les modèles sous-jacents sont particulièrement complexes et de grande dimension (Da Silva et Barbe 2005). Dans ce contexte, les méthodes de simulation numérique sont devenues aujourd hui un outil incontournable pour les spécialistes de la nance quantitative (Jäckel 2002, Glasserman 2004). 80
2.1.4 Organisation du chapitre L objectif de ce chapitre est de montrer comment le praticien peut mettre en oeuvre la méthode de Quasi-Monte Carlo pour évaluer des produits dérivés complexes avec une précision accrue par rapport à la méthode de Monte Carlo. Dans la seconde section, nous introduisons les outils théoriques nécessaires à la bonne compréhension des mécanismes de l intégration Quasi-Monte Carlo en insistant sur les di érences fondamentales avec la méthode de Monte Carlo, notamment la di culté à mesurer l erreur d intégration. Dans les sections 3 et 4, nous étudions les suites de Weyl et les suites de Halton, deux familles de suites équiréparties performantes. Nous montrons comment améliorer les propriétés de ces suites en vue d une intégration numérique en grande dimension et nous proposons des algorithmes extrêmement rapides pour les générer. Dans la cinquième section, nous discutons le problème des temps de calcul, qui sont un élément déterminant dans le choix d une méthode numérique. Dans la sixième section, nous appliquons la méthode de Quasi-Monte Carlo pour évaluer des produits optionnels : nous commençons par véri er que la méthode de Quasi-Monte Carlo converge plus rapidement que la méthode de Monte Carlo sur une intégrale test, puis nous montrons comment combiner l approche Monte Carlo avec l approche Quasi-Monte Carlo pour obtenir une estimation de l erreur systématique et une réduction de variance importante. La conclusion du chapitre est donnée dans la section 7. 2.2 Intégration Quasi-Monte Carlo La méthode de Quasi-Monte Carlo est parfois considérée comme une version déterministe de la quadrature Monte Carlo. Cette a rmation peut prêter à confusion car, s il est vrai que les estimateurs (2.1) et (2.2) ont la même forme et qu ils s implémentent de manière identique, les fondements théoriques des deux approches sont fondamentalement di érents. Notons cependant, qu il est possible d établir certaines analogies entre les deux méthodes : en e et, chaque concept ou résultat de nature probabiliste développé pour les besoins de l analyse Monte Carlo possède un "équivalent de nature déterministe" dans le cadre de l analyse Quasi-Monte Carlo. Dans cette section, nous présentons les principaux résultats mathématiques sur lesquels repose l intégration Quasi-Monte Carlo et nous discutons les points délicats liés à cette approche. Dans le premier paragraphe, nous formalisons le concept de suite équirépartie, nous énonçons un théorème fondamental qui permet d identi er les classes de fonctions pour lesquelles l estimateur (2.2) converge, puis nous dé nissons la discrépance qui est un outil statistique pour mesurer la non-uniformité des suites (plus la discrépance d une suite est faible, plus elle est uniformément répartie). Dans le second paragraphe, nous introduisons une généralisation déterministe de la notion de variance, appelée variation d une fonction au sens de Hardy et Krause ; nous énonçons l inégalité de Koksma-Hlawka qui est une majoration de l erreur d intégration par le produit 81
de la discrépance de la suite échantillonnante et de la variation de la fonction intégrée. Ce résultat incite à rechercher les meilleures suites uniformes au sens de la discrépance. Dans le dernier paragraphe, nous montrons que la discrépance des suites est bornée inférieurement et qu il existe des suites équiréparties, appelées suites à discrépance faible, pour lesquelles la discrépance asymptotique coïncide avec cette borne inférieure. Ces suites présentent un intérêt évident pour l intégration Quasi-Monte Carlo, car leur très haut degré d uniformité est la garantie d une convergence rapide pour l estimateur (2.2). Pour une démonstration des résultats énoncés, nous renvoyons le lecteur à Niederreiter (1978, 1992) et Drmota et Tichy (1997). 2.2.1 Suites équiréparties, intégration numérique, discrépance L objectif de ce paragraphe est : (i) de traduire en termes mathématiques les propriétés "visuelles" des suites équiréparties (ce sont des suites dont les points se distribuent dans le cube unité de manière homogène et uniforme), (ii) d identi er les fonctions intégrables à l aide de telles suites et (iii) de proposer un "instrument" pour mesurer et comparer l équirépartition des suites : la discrépance. Dé nition d une suite équirépartie Dans cette section, (u n ) n1 désigne une suite à valeurs dans le cube unité fermé C s = [0; 1] s. La mesure de probabilité empirique induite par les N premiers points de u est dé nie par u N = 1 N P N n=1 u n, où un est la mesure de Dirac au point u n. Pour tout A R s on a : u N (A) = 1 N NX n=1 1 A (u n ) = Card fn 2 f1; : : : ; Ng : u n 2 Ag ; N où 1 A (:) est la fonction indicatrice de l ensemble A dé nie par : 8x 2 R s 1 si x 2 A ; 1 A (x) = 0 si x =2 A : Par construction, u N (A) est la proportion de points appartenant à A parmi fu 1 ; : : : ; u N g. Pour tout x 2 C s, on désigne par Jx le pavé semi-ouvert, d extrémité x, ancré en 0 : sy def = [0; x[ = [0; x i [ ; x = (x 1 ; : : : x s ) 0 avec 0 x i 1: J x i=1 Nous donnons ci-dessous la dé nition d une suite équirépartie (Kuipers et Niederreiter 1974). 82
Dé nition 2.1 Une suite u à valeurs dans C s est équirépartie (ou uniformément distribuée) si et seulement si : 8x 2 C s ; lim N!+1 u N (Jx) = s (Jx) ; (2.3) où s désigne la mesure de loi uniforme sur C s de densité de probabilité d s (x) = 1 C s (x) dx. Cette dé nition signi e que la suite des mesures empiriques u N "converge" vers la mesure de loi uniforme sur tous les sous-pavés du cube unité ancrés à l origine. Une conséquence de la relation (2.3) est que les suites équiréparties intègrent les fonctions en escalier sur C s, donc les fonctions Riemann-intégrables (car toute fonction Riemann-intégrable est limite d une suite de fonctions en escalier). Nous détaillons ce point ci-dessous. Classes de fonctions intégrables Dans la méthode de Monte Carlo, l estimateur (2.1) converge dès que f est Lebesgue-intégrable sur le cube unité. Cela est une conséquence directe de la loi des grands nombres. L approche Quasi-Monte Carlo étant basée sur des suites déterministes, il n est plus possible d appliquer ce résultat pour justi er la convergence de l estimateur : ^Q N! N!+1 Z C s f (u) du: (2.4) Le théorème suivant donne les familles de fonctions intégrables à l aide des suites équiréparties (voir Drmota et Tichy (1997) pour une démonstration). Théorème 2.1 Les propositions suivantes sont équivalentes : 1. la suite u est équirépartie, 2. (2.4) est véri ée pour toute fonction f continue sur C s, 3. (2.4) est véri ée pour toute fonction f Riemann-intégrable sur C s. L approche Quasi-Monte Carlo est donc limitée aux fonctions Riemann-intégrables. L exemple suivant montre qu il n est pas possible d étendre (2.4) à l ensemble des fonctions Lebesgue-intégrables sur C s. Posons U def = fu n : n 2 N g l ensemble des points de la suite u et considérons la fonction 1 U. Cette fonction est intégrable sur le cube unité au sens de Lebesgue, mais pas au sens de Riemann et son intégrale est nulle. Etant donné que 1 P N N n=1 1 U (u n ) = 1 pour tout N 2 N, on en déduit que lim N!+1 ^QN = 1. En conséquence, la moyenne empirique de l échantillon ne converge pas vers la moyenne théorique de la fonction. Remarque 2.2.1 Le point 2 du théorème 2.1 signi e que la suite ( u N ) N2N converge étroitement vers la mesure de loi uniforme C s. Il permet d étendre le concept de suites équiréparties aux espaces topologiques compacts, alors que la dé nition 2.1 ne peut pas être directement transposée. Sur ce sujet, le lecteur est invité à consulter Drmota et Tichy (1997). 83
Nous énonçons à présent un théorème de Weyl (1916) qui est aussi connu sous le nom de "critère de Weyl" (Kuipers et Niederreiter 1974). Ce théorème est fondamental, car il montre que pour établir qu une suite est équirépartie, il su t de véri er qu elle permet d intégrer une classe de fonctions particulières de la forme x! e 2ihm;xi avec m 2 Z s n f0g. Théorème 2.2 La suite u à valeurs dans C s est équirépartie si et seulement si pour tout m 2 Z s n f0g on a : 1 N NX n=1 e 2ihm;uni! 0; (2.5) N!+1 où hx; yi = P s k=1 x ky k désigne le produit scalaire euclidien sur R s. La démonstration de la formule (2.5) repose sur le théorème de Fejér multidimensionnel (Bachman, Narici et Beckenstein 2000, p. 259) qui montre que toute fonction continue sur C s peut être approchée uniformément par une suite de polynômes trigonométriques, c est-à-dire par des combinaisons linéaires de fonctions de la forme x! e 2ihm;xi avec m 2 Z s n f0g. L idée est de considérer une suite qui véri e (2.5). Elle intègre donc les polynômes trigonométriques puis, par "passage à la limite", on en déduit qu elle intègre les fonctions continues (point 2 du théorème 2.1). Cela prouve que toute suite qui véri e (2.5) est équirépartie. Réciproquement, pour montrer que toute suite équirépartie véri e (2.5), il su t de remarquer que les fonctions x! e 2ihm;xi avec m 2 Z s n f0g sont continues sur C s, d intégrale nulle et l on conclut avec le point 2 du théorème 2.1. Nous renvoyons le lecteur à Kuipers et Niederreiter (1974) ou Drmota et Tichy (1997) pour les détails de la démonstration. Discrépance d une suite Les suites de points éligibles à l intégration Monte Carlo doivent passer une batterie de tests statistiques d indépendance et d uniformité plus ou moins exigeants. Dans le cas de l intégration Quasi-Monte Carlo, c est uniquement la haute uniformité multidimensionnelle des points de la suite échantillonnante qui nous intéresse, car plus les points sont uniformément distribués, plus l on espère obtenir une convergence rapide dans la relation (2.4). Pour mesurer l uniformité des suites en dimensions multiples, l idée est de généraliser la distance de Kolmogorov-Smirnov qui est utilisée en statistiques pour tester l adéquation de la loi empirique d un échantillon à valeurs dans R avec une loi de probabilité donnée. Cette distance de Kolmogorov généralisée est appelée la discrépance : elle mesure la déviation de la distribution empirique des points de la suite candidate par rapport à la mesure de la loi uniforme sur le cube unité. Le mot "discrépance" dérive du verbe latin "discrepare" qui signi e "être di érent de". La discrépance est donc une mesure de non-uniformité, ce qui signi e que plus la discrépance d une suite est faible, plus la suite est uniforme. Dans ce qui suit, u 1 ; : : : ; u N désignent les N premiers points de la suite u. 84
Dé nition 2.2 Pour tout x 2 C s, la quantité D N (J x; u) def = j u N (J x) s (J x)j (2.6) est appelée discrépance locale de u 1 ; : : : ; u N relativement au pavé J x. La discrépance locale mesure l écart entre la mesure uniforme (i.e. le volume) d un pavé ancré à l origine et la proportion de points de la suite qui se situent dans le même pavé. Notons que, d après la dé nition 2.1, la suite u est équirépartie si et seulement si lim N!+1 D N (J x; u) = 0 pour tout x 2 C s. On montre facilement 3 que D N (J x; u) prend ses valeurs dans [0; 1]. En conséquence, l application x! D N (J x; u) appartient à L 1 C s. En prenant la norme L 1 de la discrépance locale, on dé nit une mesure globale de l écart entre la distribution induite par le positionnement u 1 ; : : : ; u N dans le cube unité et la distribution uniforme (voir Drmota et Tichy 1997). Dé nition 2.3 On appelle discrépance à l origine de u 1 ; : : : ; u N la quantité : D N (u) = sup x2 C s D N (J x; u) = sup x2 C s j u N (J x) s (J x)j : (2.7) La détermination de cette grandeur revient à identi er l intervalle ancré à l origine qui contient la proportion de points la plus anormalement faible ou la plus anormalement dense relativement à son volume. Etant donné que la discrépance locale est majorée par 1, on a : 8N 2 N ; 0 < D N (u) 1 (2.8) Par ailleurs, il est clair que plus la discrépance est petite, plus la séquence formée par u 1 ; : : : ; u N est uniforme. La proposition ci-dessous montre que les suites équiréparties sont les suites dont la discrépance est asymptotiquement nulle. Proposition 2.3 La suite u est équirépartie si et seulement si : DN (u)! 0: (2.9) N!+1 La discrépance à l origine est une généralisation de la distance de Kolmogorov- Smirnov aux suites multidimensionnelles : en e et, lorsque s = 1, on a la formule (Niederreiter 1992) : DN (u) = max u(n) max 1nN = 1 2N + max 1nN u (n) n ; N u (n) 2n 1 N ; n 1 N 3 D une part, 0 u N (J x) 1, d autre part 0 s (J x) 1, donc 1 u N (J x) s (J x ) 1. 85
où u (1) < : : : < u (N) sont les N premières valeurs de la suite classées dans l ordre croissant. Le calcul de la discrépance à l origine dans le cas s = 1 ne pose donc aucun problème particulier. En revanche, dès que s 2, l estimation de DN (u) devient particulièrement délicate (Thiémard 2000a, 2000b). Montrons maintenant que la discrépance conditionne la vitesse de convergence de la quadrature Quasi-Monte Carlo. 2.2.2 Majoration de l erreur d intégration Dans l approche Monte Carlo, l erreur d intégration est proportionnelle à la quantité Var [f(u)], la variance de f(u), qui constitue une mesure du degré de variabilité de la fonction que l on intègre. Pour analyser l erreur d intégration de la quadrature Quasi-Monte Carlo, considérer la variance de la fonction est d un intérêt limité, car cette grandeur est de nature probabiliste. Pour cette raison, nous devons introduire une nouvelle mesure d irrégularité pour la fonction f, appelée variation au sens de Hardy et Krause. Ce nouvel outil étant dé ni, nous pourrons énoncer l inégalité de Koksma-Hlawka, qui est l une des seules formules connues pour la majoration de l erreur d intégration dans l approche Quasi-Monte Carlo. Nous suivons la démarche de Niederreiter (1992). Inégalité de Koksma-Hlawka Soit I s l ensemble des sous-pavés de C s de la forme Q s i=1 a (i) 1 < a (i) 2 1. Pour tout A 2 I s on note : (f; A) = 2X 2X : : : l 1=1 l 2=1 2X l s=1 h ( 1) l1++ls f a (1) l 1 h i a (i) 1 ; a(i) 2 avec 0 i ; : : : ; a (s) l s : (2.10) Soit P l ensemble des partitions de C s constituées d éléments de I s. Dé nition 2.4 (Variation au sens de Vitali) La variation au sens de Vitali d une fonction f : C s! R est dé nie par : X V (s) [f] = sup j (f; A)j : (2.11) P 2P A2P Lorsque V (s) (f) < +1, on dit que f est à variation bornée au sens de Vitali. @ Lorsque la dérivée partielle s f @u 1:::@u s existe et est continue, Niederreiter (1992) démontre la relation suivante : Z V (s) [f] = @ s f C @u s 1 : : : @u s du 1 : : : du s : 86
Soulignons qu une fonction peut être à variation bornée au sens de Vitali sans pour autant être di érentiable. Pour tout 1 k s et pour tout jeu d indices 1 i 1 < i 2 < < i k s, on dé nit une fonction sur C k = [0; 1] k en considérant la restriction de f aux points (u 1 ; : : : ; u s ) 2 C s tels que u j = 1 pour j =2 fi 1 ; : : : ; i k g. On note V (k) [f; i 1 ; : : : ; i k ] la variation au sens de Vitali de cette nouvelle fonction. Cette quantité est appelée variation k-dimensionnelle de f au sens de Vitali. Dé nition 2.5 (Variation au sens de Hardy et Krause) La variation au sens de Hardy et Krause d une fonction f : C s! R est dé nie par : V HK [f] = sx X k=1 1i 1<:::<i ss V (k) [f; i 1 ; : : : ; i k ] : (2.12) Lorsque jv HK [f]j < +1, on dit que f est à variation bornée au sens de Hardy et Krause. Nous disposons de tous les éléments pour énoncer le théorème de Koksma- Hlawka. Théorème 2.4 (Inégalité de Koksma-Hlawka) Si f : C s! R est à variation bornée au sens de Hardy et Krause alors, pour toute suite (u n ) n1 à valeurs dans C s, on a la relation : 1 NX Z f (u n ) f (u) du N C V HK [f] DN (u) ; (2.13) s n=1 où D N (u) désigne la discrépance à l origine de fu 1; : : : ; u N g dé nie par (2.7). L inégalité (2.13) est fondamentale, car elle nous donne une indication précise sur le rôle essentiel de la discrépance des suites échantillonnantes dans l approche Quasi-Monte Carlo. Plus précisément, il ressort que la vitesse de convergence de la méthode de Quasi-Monte Carlo dépend exclusivement des propriétés d uniformité (i.e. de la discrépance) de la suite échantillonnante utilisée. Cet argument nous incite à rechercher parmi les suites équiréparties, celles dont la discrépance est arbitrairement faible. De telles suites, si elles existent, devraient permettre d obtenir une vitesse de convergence élevée pour la quadrature (2.4). Cette question sera abordée dans le dernier paragraphe. Auparavant, nous discutons la portée opérationnelle de l inégalité de Koksma- Hlawka en la comparant avec la majoration de l erreur disponible dans la quadrature Monte Carlo. 87
Comparaison avec l approche Monte Carlo Dans la méthode de Monte Carlo, la majoration de l erreur obtenue en appliquant le théorème de la limite centrale : 1 NX Z f (U n ) f (u) du N C q [f] 1 =2 p ; (2.14) s N n=1 où U n est une suite de points i.i.d. de loi U C s et [f] def = p Var [f(u)] désigne l écart-type de la fonction f, q 1 =2 étant le quantile d ordre 1 =2 de la loi normale standard. En comparant les formules (2.13) et (2.14) on s aperçoit que les deux inégalités ont la même structure mathématique, dans le sens où les propriétés de la fonction à intégrer et les propriétés de la suite échantillonnante sont séparées. En e et, l erreur d approximation donnée par (2.13) est le produit de V HK [f], qui mesure l irrégularité de la fonction f, par DN (u), qui mesure l irrégularité de la suite échantillonnante. De manière analogue, l erreur d intégration donnée par (2.14) est le produit de [f] qui mesure l écart-type (donc l irrégularité dans un sens probabiliste) de la fonction f par q 1 =2 = p N qui mesure la vitesse de convergence d un échantillonnage basé sur une suite aléatoire. Supériorité théorique de l approche Quasi-Monte Carlo D un point de vue théorique, la majoration de l erreur fournie par l inégalité de Koksma- Hlawka présente deux avantages incontestables sur la formule (2.14) : La formule (2.13) constitue une majoration à priori de l erreur commise qui est e ective et déterministe, tandis que (2.14) est une majoration probabiliste, vraie avec une probabilité 1 seulement. En d autres termes, il subsiste toujours une incertitude quant à l erreur commise dans l approche Monte Carlo, alors que l erreur est connue de manière certaine dans l approche Quasi- Monte Carlo. La vitesse de convergence de la quadrature Monte-Carlo est voisine de 1= p N quelle que soit la qualité du générateur pseudo-aléatoire choisi pour e ectuer les calculs, tandis que la vitesse de convergence de la quadrature Quasi-Monte Carlo dépend de la qualité de la suite échantillonnante utilisée. Cela signi e que l on peut espérer "accélérer" la quadrature Quasi-Monte Carlo en utilisant des suites toujours mieux équiréparties. Cependant, l intérêt de l inégalité (2.13) reste essentiellement théorique comme nous le discutons ci-après. De la di culté opérationnelle pour estimer l erreur d intégration Déterminer l erreur commise dans l intégration Quasi-Monte Carlo revient à calculer le produit V HK [f] DN (u). En pratique, il s avère que cette estimation de 88
la variation d une fonction 4 et le calcul de la discrépance à l origine d une suite sont des tâches impossibles à réaliser avec des temps de calcul raisonnables. Cela est un désavantage par rapport à la méthode de Monte Carlo dans laquelle l estimation de l erreur est rapide et systématique (il su t de calculer la variance empirique de la fonction f à partir de l échantillon simulé). Par ailleurs, l expérience montre que la majoration (2.13) surestime fortement l erreur commise (cf. Ökten 1997), tandis que la relation (2.14) donne une estimation pertinente de l erreur d intégration de la quadrature Monte Carlo. En n, la condition jv HK (f)j < +1 est restrictive, car elle impose en particulier que f soit bornée. Owen (2004) montre que cette condition est rarement véri ée par les fonctions qui interviennent dans l évaluation des produits optionnels. On déduit de ces observations que, contrairement à la méthode Monte Carlo, on ne sait pas calculer e cacement l erreur commise dans une quadrature de type Quasi-Monte Carlo (Snyder 2000, Warnock 2001, Owen 2005). Ce problème constitue le principal obstacle à la mise en oeuvre opérationnelle de la méthode de Quasi-Monte Carlo. Toutefois, comme nous le verrons dans la dernière section, il est possible d utiliser l approche Quasi-Monte Carlo comme une méthode de réduction de variance dans l approche Monte Carlo, ce qui permet de combiner les avantages théoriques et opérationnels des deux méthodes et, en particulier, de calculer l erreur d intégration. 2.2.3 Suites à discrépance faible Comme nous l avons souligné, la discrépance correspond au taux de convergence théorique de la méthode de Quasi-Monte Carlo. Dans ce paragraphe, nous envisageons la possibilité de construire des suites de discrépance arbitrairement faible. Dé nition Pour espèrer "battre" la quadrature Monte Carlo, il nous faut rechercher des suites de points déterministes dont la discrépance soit au moins inférieure à la discrépance d une suite aléatoire (U n ) n1 de loi uniforme sur le cube unité. La discrépance d une telle suite véri e ce que l on appelle "la loi du logarithme itéré" (cf. Tezuka 1995, p. 52) : lim sup N!+1 r 2N ln ln N D N (U) p:s: = 1 ) D N (U) p:s: = O r! ln ln N : (2.15) N La relation (2.15) prouve que les suites aléatoires uniformes sont équiréparties presque-sûrement, ce qui nous permet de proposer une première dé nition (empirique) du concept de suite à discrépance faible. 4 Pour une ré exion approfondie sur le calcul de la variation d une fonction multidimensionnelle, le lecteur pourra consulter Bouleau et Lépingle (1993), Owen (2004) ou Tu n (1997, 2005). 89
Dé nition 2.6 On dit qu une suite équirépartie est à discrépance faible si sa discrépance est asymptotiquement meilleure que la discrépance d une suite aléatoire. La dé nition précédente donne un premier critère pour sélectionner les suites équiréparties susceptibles de donner satisfaction dans la quadrature Quasi-Monte Carlo. En revanche, elle n indique pas s il existe des suites dont la discrépance est inférieure à p N 1 ln ln N. Le résultat suivant, démontré par Halton (1960), répond à cette interrogation. Théorème 2.5 Pour toute dimension s 1, il existe une suite u à valeurs dans C s telle que : s (ln N) DN (u) = O : (2.16) N Notons que le théorème précédent repose sur une preuve constructive : l auteur a explicité une famille de suites multidimensionnelles véri ant (2.16). Ces suites sont appelées les suites de Halton et elles seront présentées en détail dans la section 2.4. On connaît aujourd hui d autres suites équiréparties dont la discrépance est de l ordre de O ((ln N) s =N). Elles portent généralement le nom de leur auteur. Les plus connues sont les suites de Faure, les suites de Sobol et les suites de Niederreiter. Pour une analyse détaillée de la construction de ces suites, nous renvoyons le lecteur à Faure (1982), Niederreiter (1992), Thiémard (2000a), Jäckel (2002) et Glasserman (2004). La conjecture suivante montre que la relation (2.16) dé nit un ordre de grandeur optimal pour la discrépance d une suite équirépartie (Drmota et Tichy 1997, p. 40). Conjecture 2.6 Pour toute dimension s 1, il existe une constante C s > 0, telle que pour toute suite u à valeurs dans C s on a l inégalité : D N (u) C s (ln N) s N pour une in nité de valeurs de N. (2.17) Cette conjecture a été prouvée dans le cas s = 1. Il est communément admis par les spécialistes qu elle est vraie pour s 2. Cela nous amène à proposer une seconde dé nition pour la notion de suite à discrépance faible, plus précise que la dé nition 2.6. Dé nition 2.7 Une suite u à valeurs dans C s est dite à discrépance faible, si DN (u) = O (ln N) s N. Etant donné que la discrépance mesure la vitesse de convergence de la quadrature (2.4), les suites à discrépance faible (au sens de la dé nition précédente) sont les meilleures suites équiréparties envisageables pour réaliser l approximation Quasi-Monte Carlo. Pour cette raison et a n de souligner les analogies entre 90
l approche Monte Carlo et l approche Quasi-Monte Carlo, elles sont fréquemment appelées "générateurs quasi-aléatoires" par les spécialistes. Dans la suite de ce travail, nous emploierons indi éremment les termes "suites à discrépance faible" et "générateurs quasi-aléatoires" bien que cette désignation puisse prêter à confusion : en e et, les suites à discrépance faible n ont absolument rien d aléatoire. Elles reposent sur des schémas de construction déterministes qui visent à optimiser la distribution hautement uniforme des points dans le cube unité. Malédiction de la dimension La borne optimale (2.16) pour la vitesse de convergence est une fonction croissante de la dimension s du problème par la présence du terme (ln N) s. Cela suggère que la quadrature Quasi-Monte Carlo perd de son e cacité lorsque la dimension du problème augmente. En conséquence, il faut augmenter le nombre de simulations pour maintenir l erreur d intégration au-dessous d un certain seuil lorsque la dimension augmente. Il est communément admis que pour les dimensions supérieures à 20, la supériorité de l approche Quasi-Monte Carlo sur l approche Monte Carlo devient discutable (cf. Tu n 1996b, Snyder 2000). Ce phénomène bien connu des spécialistes de l analyse numérique est appelé la "malédiction de la dimension" (Judd 2006). Il s explique par le fait que le schéma de construction déterministe des points hautement uniformes des suites à discrépance faible perd de son ef- cacité dans les dimensions élevées, ce qui ralentit l obtention de la propriété d équirépartition lorsque s devient arbitrairement grand. Nous reviendrons sur ce point lorsque nous mettrons en oeuvre les générateurs quasi-aléatoires présentés dans les sections 2.3 et 2.4. En particulier, nous montrerons comment utiliser l intégration Quasi-Monte Carlo pour traiter des problèmes en dimension élevée. De l intérêt pratique de la borne optimale L équation (2.16) donne un ordre de grandeur asymptotique pour la discrépance, c est-à-dire valide lorsque N! +1. En pratique, elle n a aucune utilité pour les valeurs de N utilisées qui sont tout au plus de l ordre quelques dizaines de milliers. La gure 2.1 représente le comportement de la fonction DQMC : N! (ln N) s =N pour di érentes valeurs de s. A n de faciliter les comparaisons, nous p avons fait gurer sur le même graphique la courbe d équation DMC : N! N 1 ln ln N qui correspond à la discrépance d une suite aléatoire uniforme. La comparaison des di érentes courbes amène plusieurs remarques : (i) la fonction DQMC est croissante dans un premier temps, puis elle décroît vers 0 de plus en plus lentement quand la dimension augmente, (ii) elle peut atteindre des valeurs très élevées (de l ordre de 10 11 pour s = 15 au point maximum de la courbe rouge) et (iii) pour les valeurs de N raisonnables (inférieures à 10 6 ), DQMC est presque toujours supérieure à la discrépance d une suite aléatoire sauf pour s = 1 et s = 2. Concernant le point (i), un calcul de @D QMC @N = (ln N)s 1 N (s ln N) con rme la 91
1,0E+15 1,0E+11 1,0E+07 Discrépance Optimale 1,0E+03 1,0E 01 1,0E 05 1,0E 09 s=1 s=2 s=5 s=7 s=10 s=15 rand 1,0E 13 1,0E 17 1,0E 21 1,0E+00 1,0E+02 1,0E+04 1,0E+06 1,0E+08 1,0E+10 1,0E+12 1,0E+14 1,0E+16 1,0E+18 1,0E+20 1,0E+22 Nombre de simulations = N = (ln N)s N Fig. 2.1 Discrépance optimale d un générateur quasi-aléatoire DQMC pour s = q1; 2; 5; 7; 10 et 15. A comparer avec la discrépance d une suite aléatoire DMC = ln ln N N (courbe noire intitulée rand). forme observée pour les courbes (croissante puis décroissance) et montre que D QMC est maximale pour N ' es qui augmente très rapidement avec s. Concernant le point (ii), en appliquant la formule de Stirling (i.e. s! s s e sp 2s lorsque s! +1) on obtient un équivalent du maximum atteint par D QMC : D QMC (e s ) = ss e s s! p 2s! s!+1 +1: Le maximum de la borne optimale pour la discrépance devient très rapidement in niment grand. En n le point (iii) montre que, pour des valeurs de N raisonnables les générateurs aléatoires ont un meilleur comportement que les générateurs quasi-aléatoires dès que la dimension est supérieure à 2. Ces di érentes remarques montrent que la borne DQMC n a aucune utilité pour les valeurs raisonnables de N, car d après la formule (2.8), la discrépance doit toujours être inférieure à 1. En conséquence, une comparaison des générateurs quasi-aléatoires basée exclusivement sur l ordre de grandeur asymptotique de leur discrépance n a qu un intérêt théorique. En e et, la plupart des applications pratiques exigent des temps de calculs relativement courts (quelques minutes à quelques heures), ce qui impose de travailler dans un régime non-asymptotique 92
et avec des valeurs de N de l ordre O 10 6. Pour de telles valeurs de N, on ne dispose aujourd hui d aucun résultat théorique permettant d appréhender le comportement des suites équiréparties. On connaît aussi des suites, telles que la suite SQRT de Richtmyer, dont la discrépance asymptotique ne satisfait pas la dé nition 2.7 et qui permettent cependant d obtenir une convergence très rapide de la quadrature Quasi-Monte Carlo (Pagès et Xiao 1997, Takhtamyshev, Vandewoestyne et Cools 2007), ce qui soulève le problème de la mesure de la discrépance dans les régimes nonasymptotiques. Mesure de la discrépance en régime non-asymptotique Les études empiriques menées par Schlier (2004a, 2004b) puis Takhtamyshev et al. (2007) ont montré que l ordre de grandeur moyen de la discrépance dans les régimes non-asymptotiques est de l ordre de : 1 DN = O N ; 0:6 1; (2.18) y compris pour les grandes valeurs de s. Ces résultats montrent que l approche Quasi-Monte Carlo conduit rapidement à des taux de convergence meilleurs que l approche Monte Carlo dans de nombreux cas. Ils illustrent le fait que : (i) les outils disponibles actuellement ne sont pas adaptés pour décrire le comportement de la discrépance pour les "petites" valeurs de N et (ii) qu ils ne permettent pas d expliquer les bonnes performances de l approche Quasi-Monte Carlo. On peut penser que la recherche mathématique donnera des résultats théoriques qui viendront éclairer les résultats obtenus dans les travaux cités précédemment. Dans les deux sections suivantes nous présentons deux familles de générateurs quasi-aléatoires dont nous discutons les propriétés. Ces générateurs seront testés dans l avant dernière section, ce qui permettra d en évaluer les performances. 2.3 Suites de Weyl Les suites de Weyl sont vraisemblablement les plus anciennes suites équiréparties connues. Leur construction a été proposée par Weyl (1916) dans le même essai que celui où il donne une démonstration du théorème 2.2. Ces suites interviennent dans de nombreuses applications autres que l intégration numérique (Chen, Bhatia et Sinha 2003). Elles existent sous d autres noms dans la littérature : suites de Kronecker (Larcher 1988, Drmota et Tichy 1997), suites de Translations Irrationnelles du Tore (Bouleau et Lépingle 1993, Patard 2001), suites fng (lire "n alpha modulo 1") (Coulibaly 1997), suites SQRT (Pagès et Xiao 1997, Tu n 1997, Lebrere et al. 2001) ou encore suites de Richtmyer (James, Hoogland et Kleiss 1997, Takhtamyshev et al. 2007). Notons que la 93
suite de Richtmyer et la suite SQRT sont une seule et même suite particulière de Weyl que nous étudierons ultérieurement. Les suites de Weyl sont des suites à discrépance faible au sens de la dé nition 2.6 : en e et, leur discrépance est nettement meilleure que celle d une suite de nombres aléatoires sans pour autant atteindre la borne optimale O ((ln N) s =N). Leur construction repose sur certaines propriétés des nombres irrationnels. Elles ont suscité beaucoup d attention dans la littérature spécialisée des années 1960-1980 (Haber 1966, 1970, Niederreiter 1972, 1978, Kuipers et Niederreiter 1974). Depuis le début des années 1980, les spécialistes, en utilisant les propriétés des nombres rationnels, ont développé de nouvelles suites ou amélioré celles qui existaient, obtenant ainsi des suites à discrépance encore plus faible comme les suites de Halton, de Sobol ou de Faure. Cette démarche peut s expliquer par le fait que : les nombres irrationnels ne peuvent pas être représentés exactement sur les ordinateurs 5, ce qui a sans doute dissuadé certains spécialistes d utiliser les suites de Weyl pour résoudre des problèmes numériques, il est délicat de trouver des jeux de paramètres optimaux pour les suites de Weyl, de sorte que la découverte de "bonnes" suites tient essentiellement à l intuition du chercheur, certaines suites de Weyl sont impliquées dans l élaboration de générateurs pseudo-aléatoires (Haber 1966, Heng, Qinghua et Fengshan 2005), ce qui peut introduire une confusion dans l esprit des utilisateurs potentiels qui ne savent plus vraiment si les suites de Weyl sont déterministes ou aléatoires. Cependant, les suites de Weyl possèdent plusieurs atouts incontestables : 1. elles sont faciles à implémenter et s exécutent rapidement sur les machines actuelles, 2. elles se prêtent particulièrement bien au calcul parallèle (Hofbauer, Uhl et Zinterhof 2006a, 2006b), 3. elles sont équiréparties pour presque tous les jeux de paramètres (au sens de la mesure de Lebesgue), ce qui signi e qu il n existe pas de "mauvaises" suites de Weyl, alors qu il existe de mauvais générateurs aléatoires ou de mauvaises suites à discrépance faible (Pagès et Xiao 1997, Lebrere et al. 2001), 4. certaines d entre elles (la suite de Richtmyer par exemple) ont une excellente équidistribution multidimensionnelle (James et al. 1997). Les tests démontrent qu elles rivalisent sans di culté avec les meilleures suites connues, telle que la suite de Sobol, pour intégrer des fonctions en dimension très élevée (Pagès et Xiao 1997, Takhtamyshev et al. 2007). Les points énoncés précédemment expliquent le regain d intérêt, que l on constate dans la littérature depuis la moitié des années 1990, pour ce type de suites équirépartie. Nous commençons par présenter les suites de Weyl de manière générale, 5 La précision est de l ordre de 15 chi res signi catifs sur les machines actuelles. 94
puis nous proposons une étude comparative inédite basée sur les projections bidimensionnelles de quelques suites citées dans la littérature. Nous terminons cette section en présentant un algorithme original qui permet de générer très rapidement, sur une machine standard, les termes successifs d une suite de Weyl. 2.3.1 Eléments de théorie des nombres Partie entière, partie décimale On rappelle que pour tout x 2 R, il existe un unique entier relatif, appelé partie entière de x et noté bxc, tel que bxc x < bxc + 1. On peut alors dé nir fxg def = x bxc 2 [0; 1[, la partie décimale de x. On étend ces dé nitions aux vecteurs x = (x 1 ; : : : ; x s ) avec s 2 en posant : bxc = (bx 1 c ; : : : ; bx s c) 2 Z s ; fxg = (fx 1 g ; : : : ; fx s g) 2 [0; 1[ s ; de sorte que la décomposition x = bxc + fxg soit maintenue. Comme x = bxc 1 + fxg avec 0 fxg < 1, on peut considérer que fxg est le reste de la division euclidienne (étendue aux réels ou aux vecteurs) de x par 1. C est pourquoi, on trouve dans la littérature la notation : fxg def = x mod 1. Nous utiliserons indi éremment l une ou l autre des deux notations a n de faciliter la lecture en fonction du contexte. Rationnels, Irrationnels, Indépendance On rappelle qu un nombre réel x est rationnel s il peut s écrire sous la forme x = p q avec p 2 Z et q 2 N. On dit que x est irrationnel, si x n est pas rationnel, i.e. si pour tout m 2 Z on a mx =2 Z. On note Q l ensemble des nombres rationnels et RnQ l ensemble des nombres irrationnels. Le concept de nombre rationnel ou irrationnel s étend sans di culté aux vecteurs : on dit que le vecteur x = (x 1 ; : : : ; x s ) 0 2 R s est rationnel, si x 1 ; : : : ; x s sont tous rationnels et qu il est irrationnel dans le cas contraire. La proposition suivante se démontre aisément. Proposition 2.7 x 2 R s est irrationnel si et seulement si pour tout m 2 Z s n f0g on a hm; xi =2 Z. Nous attirons l attention du lecteur sur le fait que les vecteurs irrationnels sont les vecteurs dont au moins l une des coordonnées est un nombre irrationnel. La dé nition suivante nous servira dans la suite. Dé nition 2.8 On dit que les nombres 1; x 1 ; : : : ; x s sont linéairement indépendants sur Q si pour tout (r 0 ; ; r s ) 2 Q s+1 on a : sx r 0 + r i x i = 0 ) (r 0 ; ; r s ) = 0 R s+1: i=1 95
Dé nition 2.9 On dit qu un nombre x 2 R est algébrique s il est racine d un polynôme à coe cients dans Q. D après la dé nition précédente, les nombres rationnels sont algébriques (si x = p q 2 Q alors x est solution de l équation x p=q = 0) et les nombres de la forme x = p p avec p 2 N sont algébriques (si x = p p alors x est solution de l équation x 2 p = 0). Pour une discussion approfondie sur les nombres rationnels, irrationnels et sur leurs propriétés, nous invitons le lecteur à consulter l ouvrage de Niven (1956). Nous disposons à présent des outils nécessaires pour présenter les suites de Weyl. 2.3.2 Dé nition et premières propriétés D une manière générale, on appelle suite de Weyl toute suite à valeurs dans [0; 1] s dont le terme général u n (n 1) est donné par une relation de la forme : u n = fn + g = (fn 1 + 1 g; : : : ; fn s + s g) ; (2.19) où le multiplicateur def = ( 1 ; : : : ; s ) et l incrément def = ( 1 ; : : : ; s ) sont deux vecteurs de R s. C est exclusivement le choix de qui conditionne la propriété d équirépartition de la suite. Plus précisément, Weyl (1916) établit le résultat ci-dessous (voir démonstration en Annexe B). Théorème 2.8 Les propositions suivantes sont équivalentes : 1. la suite dé nie par (2.19) est équirépartie, 2. le multiplicateur est irrationnel dans R s, 3. les nombres 1; 1 ; : : : ; s sont linéairement indépendants sur Q. Il découle de ce théorème que les suites de Weyl à multiplicateur rationnel ne sont pas équiréparties. Or, l ensemble des vecteurs rationnels est Lebesguenégligeable. On peut donc supposer que pour presque tout 2 R s la suite de Weyl de multiplicateur sera équirépartie. Le résultat suivant con rme cette hypothèse (Coulibaly 1997, Niederreiter 1978). Théorème 2.9 Pour tout " > 0, la discrépance de la suite dé nie par (2.19) est de l ordre de :! D N (u) = O (ln N)s+1+" pour presque tout 2 R s au sens de la mesure de Lebesgue sur R s. N (2.20) D après ce théorème presque toutes les suites de Weyl sont à discrépance faible au sens de la dé nition 2.6. On pense qu il n existe pas de suite de Weyl à discrépance faible au sens de la dé nition 2.7. Toutefois, comme nous l avons souligné 96
dans la discussion du paragraphe 2.2.3, l ordre de grandeur asymptotique de la discrépance n est qu une indication sur la qualité d une suite équirépartie. En pratique, on ne connaît pas de vecteur irrationnel pour lequel la discrépance de la suite est donnée par la formule (2.20). La proposition suivante donne la discrépance des suites de Weyl pour certaines familles de nombres irrationnels que l on sait construire (Niederreiter 1978, pp. 995-996). Toutefois, l ordre de grandeur obtenu est moins bon que (2.20). Théorème 2.10 La discrépance d une suite de Weyl est de l ordre de : 1 DN (u) = O N 1 " (2.21) pour tout " > 0, dès que les nombres 1 ; : : : ; s véri ent l une ou l autre des conditions suivantes : 1. les i sont des nombres irrationnels algébriques, 2. les i s écrivent i = e ri avec r 1 ; : : : ; r s rationnels distincts non nuls. La borne dé nie par (2.21) est asymptotiquement moins bonne que (2.20). Cependant, la fonction N! 1=N 1 " décroît plus vite que la fonction N! p N 1 ln ln N qui dé nit la discrépance d une suite aléatoire. Cela con rme que les suites de Weyl dé nies par le théorème 2.10 sont de bonnes candidates pour l intégration Quasi-Monte Carlo. Nous étudions ci-dessous quelques exemples de suites de Weyl construites sur la base du théorème 2.10. 2.3.3 Exemples de suites de Weyl Dans ce paragraphe, nous présentons di érents jeux de paramètres proposés dans la littérature. Nous analysons le comportement des suites associées en examinant l uniformité des projections de di érents couples de coordonnées choisis au hasard. Soulignons que toutes les suites évoquées ici ont une discrépance dont l ordre de grandeur asymptotique est D N (u) = O 1=N 1 ". Suites basées sur une famille d irrationnels algébriques Nous nous intéressons ici aux suites qui véri ent la condition 1 du théorème 2.10. Suite SQRT (Richtmyer, 1951) Richtmyer (1951) propose de choisir : = ( p p 1 ; : : : ; p p s ) ; (2.22) où p 1 < < p s sont les s premiers nombres premiers. Cette suite est parfois appelée suite SQRT à cause de la forme de son multiplicateur (Tu n 1997). Les nombres p p i sont algébriques ( p p i est solution de l équation x 2 = p i ) et l on peut démontrer qu ils sont linéairement indépendants sur Q. 97
La gure 2.2 représente les projections des 5000 premiers points de la suite de Richtmyer en dimension s = 120 sur les plans de coordonnées (1; 2), (8; 9), (29; 30), (62; 63), (96; 97) et (117; 118). Les quatre premiers plans sont issus de Jäckel (2002) et nous avons choisi les deux derniers au hasard. Un examen des di érents plans de projection montre que la suite de Richtmyer a un comportement tout à fait satisfaisant : les points sont distribués avec une grande uniformité quelle que soit les coordonnées considérées. Cela con rme les très bonnes propriétés de ce générateur, soulignées par di érents auteurs (Haber 1970, James et al. 1997). La suite de Richtmyer est même considérée par certains auteurs comme la suite de Weyl la plus performante connue à ce jour (Pagès et Xiao 1997), notamment pour l intégration Quasi-Monte Carlo en grande dimension (Takhtamyshev et al. 2007). Suite NDR2 (Niederreiter, 1972) Niederreiter (1972) démontre que pour minimiser l erreur d intégration de certaines classes de fonctions dont les coe - cients de Fourier sont bornés dans un sens dé ni par l auteur, il est souhaitable de choisir le vecteur de sorte que les nombres 1; 1 ; : : : ; s forment la base d une extension de corps de degré s + 1 sur Q. En considérant ce critère, le multiplicateur dé ni par (2.22) n est pas optimal, car le corps Q[ p p 1 ; : : : ; p p s ] est de dimension 2 s sur Q. C est pourquoi il propose de choisir le multiplicateur suivant : = 2 1=(1+s) ; : : : ; 2 s=(1+s) : (2.23) Par construction, Q[2 1=(1+s) ; : : : ; 2 s=(1+s) ] est bien un corps de degré s+1 sur Q et les composantes de sont indépendantes sur Q. Notons que l on peut étendre ce raisonnement à tout multiplicateur de la forme : = p 1=(1+s) ; : : : ; p s=(1+s) ; (2.24) où p est un nombre premier (Niederreiter 1978). Le choix p = 2 facilite l implémentation en langage binaire. La gure 2.3 représente di érentes projections bi-dimensionnelles de la suite de Niederreiter en base 2. Les plans de projection sont les mêmes que ceux utilisés pour la suite de Richtmyer, ce qui permet de comparer le comportement des deux suites. La dimension s utilisée pour la simulation est 120. Sur le premier plan de projection (plan (1; 2)) on observe de larges bandes parallèles. Notons que les bandes seraient plus étroites si nous avions considéré les deux premières coordonnées de la suite de Niederreiter en dimension plus élevée (par exemple s = 500 ou s = 1000 ), ce qui s explique de la manière suivante : les coe cients des deux premières coordonnées sont 1 = 2 1=(1+s) et 2 = 2 2=(1+s). Lorsque s devient arbitrairement grand, on peut former l approximation : 1 ' 1 + ln 2 s + 1 ; 2 ' 1 + 2 ln 2 s + 1 ; de sorte que les premiers termes de la suite sont donnés (pour n < s+1 2 ln 2 ) par : u n;1 = fn 1 g ' ln 2 s + 1 n; u n;2 = fn 2 g ' 2 ln 2 s + 1 n: 98
Fig. 2.2 Projections des 5000 premiers points de la suite de Richtmyer sur 6 plans engendrés par di érents couples d irrationnels ( i ; i+1 ) donnés ci-après : premier plan ( 1 = p 2; 2 = p 3), second plan ( 8 = p 19; 9 = p 23), troisième plan ( 29 = p 109; 30 = p 113), quatrième plan ( 62 = p 293; 63 = p 307), cinquième plan ( 96 = p 503; 97 = p 509), sixième plan ( 117 = p 643; 118 = p 647). 99
Fig. 2.3 Projections des 5000 premiers points de la suite de Niederreiter en base 2 sur 6 plans correspondant à di érents couples d irrationnels ( i ; i+1 ) : premier plan ( 1 = 2 1=121 ; 2 = 2 2=121 ), second plan ( 8 = 2 8=121 ; 9 = 2 9=121 ), troisième plan ( 29 = 2 29=121 ; 30 = 2 30=121 ), quatrième plan ( 62 = 2 62=121 ; 63 = 2 63=121 ), cinquième plan ( 96 = 2 96=121 ; 97 = 2 97=121 ), sixième plan ( 117 = 2 117=121 ; 118 = 2 118=121 ). 100
Cela implique une relation de la forme u n;2 ' 2u n;1, où u n;i désigne la i ieme coordonnée du point u n. La pente des bandes observées est donc de l ordre de 2. Cette disposition est assez fréquente avec les suites équiréparties dont les paramètres "optimaux" dépendent de la dimension du problème. Dans le cas de la suite de Niederreiter, cela ne constitue pas un handicap majeur, car l expérience montre que les coordonnées sont très rapidement uniformément distribuées. Suites basées sur une famille d exponentielles Les suites présentées ici véri ent la condition 2 du théorème 2.10. Leur multiplicateur s écrit = (e r1 ; : : : ; e rs ) où r 1 ; : : : ; r s sont des nombres rationnels distincts et non nuls. Elles sont connues sous le nom de suites de Baker, depuis que A. Baker en a établi les propriétés théoriques (Niederreiter 1978, p. 993). Zinterhof (1987) propose di érents choix pour les coe cients r i selon la dimension du problème. Lorsque s est inférieur à 8, il pose : Lorsque s est supérieur à 8 les coe cients r i sont : r i = r i = i; (2.25) p i p s+1 ; i = 1; : : : ; s; (2.26) où p i désigne le i ieme nombre premier. Ces familles de coe cients sont très simples à construire. On peut toutefois choisir d autres valeurs pour les r i. Zinterhof (1994) propose une famille de coe cients qui se prêtent bien à une parallélisation des calculs : r (k) i = k + i ; k 2 N; i = 1; : : : ; s: (2.27) s L entier k dé nit le numéro du processeur utilisé. Les projections obtenues avec les suites (2.26) et (2.27) ressemblent fortement aux projections de la gure 2.3, ce qui nous a conduit à ne pas les présenter. La raison en est que les coe cients du multiplicateur dépendent de la dimension du problème. Judd (1998) propose de choisir : r i = 1 p i ; i = 1; : : : ; s; (2.28) où p i désigne le i ieme nombre premier. Plus récemment, Hofbauer, Uhl et Zinterhof (2006a, 2006b) utilisent la suite dé nie par : r i = 1 ; i = 1; : : : ; s: (2.29) i 101
Selon les auteurs, cette suite se prête elle aussi particulièrement bien au calcul distribué. Ces deux suites ont un comportement très similaire : les projections en dimension élevée ont tendance à former des bandes de plus en plus denses, parallèles entre elles. Cela provient du fait que r i! 0 lorsque i! +1. Prenons l exemple de la suite dé nie par (2.28) : pour i su samment grand, on peut former l approximation : i ' 1 + 1 p i ; i+1 ' 1 + 1 p i+1 : Alors, pour toutes les valeurs de n < p i on obtient : u n;i ' n ; u n;i+1 ' n ) u n;i+1 ' p i u n;i : p i p i+1 p i+1 Cela signi e que les jeux de coordonnées consécutives tendent à s ajuster sur des droites parallèles de pente pi p i+1. A n de véri er cette analyse, nous donnons sur la gure 2.4 les plans de projection de la suite de Judd pour les couples de coordonnées utilisés dans les exemples précédents. Le lecteur remarquera que la qualité des projections se dégrade très rapidement lorsque i augmente. Nous avons remarqué au cours de di érents tests que nous ne présentons pas ici, que la performance des suites basées sur des coe cients de la forme e ri avec r i 2 Q était moins bonne en comparaison des performances des suites SQRT et NDR2. Plus généralement, le comportement des suites de Weyl est très sensible au choix des coe cients du multiplicateur. Nous discutons dans la suite les problèmes liés à l implémentation des suites de Weyl. 2.3.4 Implémentation des suites de Weyl Considérons la suite réelle de terme général : v n = fna + bg = (na + b) mod 1; (2.30) où a est un nombre irrationnel et b est un réel quelconque. Une implémentation naïve de cette suite consiste à calculer directement les termes fna + bg ce qui implique une multiplication par n (cette opération peut être assez lente lorsque l on opère sur des variables de type double) et un appel à l opérateur partie entière b:c (noté floor(.) en langage C/C++) qui est, lui aussi, assez lent. De plus, étant donné que les nombres sont représentés avec une précision nie (15 chi res signi catifs pour le type double en langage C/C++), il y a une perte de précision dans les calculs lorsque n devient arbitrairement grand. Nous allons montrer ci-dessous qu il est possible de générer les termes successifs de manière extrêmement rapide et en minimisant la perte de précision. A n de faciliter la lecture on utilise la notation x mod 1 pour fxg. 102
Fig. 2.4 Projections des 5000 premiers points de la suite dé nie par (2.28) sur 6 plans engendrés par di érents couples d irrationnels ( i ; i+1 ) donnés ciaprès : premier plan ( 1 = e 1=2 ; 2 = e 1=3 ), second plan ( 8 = e 1=19 ; 9 = e 1=23 ), troisième plan ( 29 = e 1=109 ; 30 = e 1=113 ), quatrième plan ( 62 = e 1=293 ; 63 = e 1=307 ), cinquième plan ( 96 = e 1=503 ; 97 = e 1=509 ), sixième plan ( 117 = e 1=643 ; 118 = e 1=647 ). 103
Proposition 2.11 Soit x et y deux réels, alors Proof. Ecrivons (x + y) mod 1 = (x mod 1 + y mod 1) mod 1: (2.31) x + y = bxc + byc + x mod 1 + y mod 1 = bxc + byc + bx mod 1 + y mod 1c + (x mod 1 + y mod 1) mod 1: {z } {z } 2Z 2[0;1[ Par unicité de la partie décimale, on déduit le résultat annoncé. Tout d abord, en faisant n = 0 dans (2.30) on obtient : v 0 = b mod 1; ce qui prouve que b n intervient que par l intermédiaire de sa partie décimale. Par ailleurs, pour n 1, la relation (2.31) nous permet d écrire : v n = (na + b) mod 1 = ((n 1) a + b + a) mod 1 = (((n 1) a + b) mod 1 + a mod 1) mod 1 = (v n 1 + a mod 1) mod 1: (2.32) Nous remarquons que le coe cient a n intervient, lui aussi, que par l intermédiaire de sa partie décimale dans (2.32). Donc, la suite de terme général v n est entièrement déterminée par les parties décimales de a et de b. Par ailleurs, on déduit de (2.30) et (2.32) que les termes successifs de la suite véri ent la récurrence suivante : v 0 = ~ b; v n = (v n 1 + ~a) mod 1; (2.33) où l on a posé ~a def = a mod 1 2 ]0; 1[ et ~ b def = b mod 1 2 [0; 1[. Notons que la partie décimale de a est strictement positive, car a est irrationnel. On comprend à présent pourquoi les suites de Weyl portent le nom de "translations irrationnelles" : en e et, le terme de rang n se déduit du terme de rang n 1 par une translation dont le paramètre (le nombre ~a dans le cas considéré) est un irrationnel. La récurrence obtenue permet de construire les termes de la suite de proche en proche en utilisant une seule addition pour chaque terme et non plus une multiplication et une addition, ce qui accélère un peu l algorithme. En revanche, (2.33) fait appel à la fonction partie décimale à chaque étape. Le lemme suivant montre qu il est encore possible d accélérer les calculs. Lemme 2.12 Soit 0 x < 1 et 0 y < 1, alors : x + y si x < 1 y (x + y) mod 1 = x + y 1 si x 1 y : (2.34) 104
Proof. Il su t de distinguer des cas. Si 0 x < 1 y, donc 0 x + y < 1 = (x + y) mod 1 par unicité de la partie décimale. Si maintenant on a 1 y x < 1, alors 1 x + y < 1 + y, puis 0 x + y 1 < y < 1, ce qui prouve que x + y 1 est bien la partie décimale de x + y. On peut formuler une récurrence sur les termes de la suite qui ne fait plus intervenir la fonction partie décimale : v 0 = ~ b; vn v n = 1 + ~a si u n 1 < a v n 1 a si u n 1 a ; (2.35) où l on a posé a def = 1 ~a 2 ]0; 1[. A n d illustrer la réduction du temps de calcul obtenue grâce aux transformations proposées auparavant, nous donnons ci-dessous les temps d exécution relatifs des méthodes (2.30), (2.33) et (2.35). Le nombre de simulations est 10 9. Méthode (2.30) (2.33) (2.35) Temps d exécution relatif 100:00% 73:00% 68:62% Réduction de temps 27:00% 31:38% Par rapport à une implémentation naïve de la formule (2.30), le gain en terme de temps de calcul est voisin de 27% avec la méthode (2.33) et de l ordre de 32%, lorsque l on utilise la récurrence (2.35). Ces résultats valident l étude menée dans le paragraphe. Nous donnons ci-dessous un algorithme basé sur la récurrence (2.35) permettant de générer de proche en proche les termes d une suite de Weyl vectorielle dé nie par (2.19). Algorithme 3 Construction par récurrence d une suite de Weyl Données : les tableaux a[ ], aa[ ] et u[ ] dé nis par : a[i] = i mod 1; aa[i] = 1 a[i]; u[i] = u n 1;i ; i = 1; : : : ; s: Résultat : le tableau u[ ] mis à jour. for i = 1 to s do if (u[i] < aa[i]) then u[i] u[i] + a[i] else u[i] u[i] aa[i] end if end for 105
Conclusion Comme le soulignent James et al. (1997), les générateurs quasi-aléatoires de Weyl ne semblent pas avoir suscité beaucoup d attention dans la littérature - nancière. Bien souvent, les auteurs préfèrent utiliser des suites à discrépance faible telles que les suites de Halton, de Sobol ou de Faure. Cela provient sans doute du fait que certains spécialistes se sont détournés de ce type de générateurs, redoutant des problèmes d arrondis ou de propagation d erreurs. Une autre explication à ce manque d intérêt pour l échantillonnage de Weyl est peutêtre la di culté pour déterminer des familles d irrationnels permettant d obtenir une excellente équidistribution dans toutes les dimensions. En cela, le générateur SQRT de Richtmyer est remarquable. 2.4 Suites de Halton La famille de suites étudiées dans cette section a été proposée par Halton (1960). Ce sont les plus anciennes suites à discrépance faible connues et elles sont encore très utilisées. Dans leur forme originale, elles donnent des résultats très satisfaisants lorsqu il s agit d évaluer des intégrales en dimension modérée (s 20). Par contre, leur performance se dégrade signi cativement lorsque s augmente (Moroko et Ca isch 1994, Tu n 1996a, Kocis et Whiten 1997). Ce phénomène est dû à une corrélation indésirable entre les coordonnées d indices élevés (Chi 2004). Pour cette raison, certains praticiens préfèrent utiliser d autres suites à discrépance faible, telles que les suites de Sobol, réputées pour leur capacité à intégrer des fonctions en dimension élevée (Jäckel 2002, Da Silva et Barbe 2005). Toutefois, il est possible d améliorer considérablement la perfomance des suites de Halton en perturbant judicieusement le processus de construction des termes de la suite. A ce sujet Faure et Lemieux (2007) donnent une présentation exhaustive des techniques de perturbation proposées depuis une trentaine d années et ils procèdent à des comparaisons entre les di érentes solutions. Certains résultats obtenus sont très encourageants et ils montrent que l on sait aujourd hui construire des suites de Halton, dites généralisées, dont la performance rivalise avec celle des meilleures suites à discrépance faible connues. Dans un premier temps, nous présentons les suites de Halton dans leur forme originale, puis nous présentons une généralisation possible de ces suites, basée sur un procédé proposé par Chi, Mascagni et Warnock (2005), qui permet d accroître considérablement leurs performances. En n, dans le dernier paragraphe, nous abordons les problèmes d implémentation : en e et, il ne faudrait pas que les temps de calcul soient un frein à l utilisation de ces suites. Nous présentons un algorithme particulièrement rapide pour générer les suites de Halton originales, basé sur les travaux de Struckmeier (1995), puis nous démontrons un résultat original qui permet d étendre le résultat précédent aux suites de Halton généralisées. Les gains en terme de performance, de l ordre de 65%, sont considérables. 106
2.4.1 Préliminaires : écritures b-adique Dans ce paragraphe, nous xons un entier b 2. Nous commençons par dé nir le développement b-adique d un entier comme son écriture dans le système de numération en base b, puis nous considérons l opération de renversement du nombre par rapport à la virgule décimale, appelée opération radicale inverse. def On pose N b = f0; 1; : : : ; b 1g l ensemble des entiers strictement inférieurs à b et S b l ensemble des suites à valeurs dans N b, nulles à partir d un certain rang. Développement b-adique d un entier On rappelle que tout entier n 2 N peut s écrire sous la forme : n = +1X i=0 a i b i ; a i 2 N b : (2.36) Cette écriture est unique et on l appelle le développement (ou la décomposition) b-adique de n. Les a i sont appelés les chi res (digits en anglais) de n en base b. L égalité (2.36) suppose que le terme de droite ait une valeur nie, ce qui signi e que les a i sont tous nuls à partir d un certain rang! def = min fi : a i = 0g. Lorsque n est strictement positif,! véri e : de sorte que (2.36) se réécrit : b! 1 k < b!,! = 1 + bln k= ln bc ;! X1 n = a i b i : (2.37) i=0 On dit que (a 0 ; : : : ; a! 1 ) sont les chi res signi catifs de l écriture de n en base b et l on note : n (a! 1 : : : a 1 a 0 ) b : Cette écriture est l expression de n dans le système de numération en base b. Remarque 2.4.1 Les nombres 0 et 1 sont les seuls nombres qui ont la même écriture dans n importe quelle base : 8b 2; (0) b = 0; (1) b = 1: En toute rigueur, il faudrait noter a i a i (n; b) et!! (n; b), pour marquer la dépendance des coe cients de la décomposition par rapport à n et b. Cependant, la base b étant implicitement xée dans ce paragraphe, nous décidons d alléger les notations. 107
Détermination des a i def Si l on note q i = n=b i, on peut démontrer que les a i sont donnés par la formule suivante : a i = q i bq i+1 = q i mod b; i 2 N: (2.38) En remarquant que les q i véri ent la récurrence q 0 = n; q i = bq i 1 =bc ; (2.39) on en déduit un algorithme simple pour déterminer les a i de proche en proche : étant donné un entier n 0 et une base b 2, l algorithme calcule les a i et les stocke dans un tableau a[ ]. On suppose que n < b (partiquement = 32 sur une machine 32 bits), de sorte qu il su t de prendre a[ ] de taille + 1 pour stocker tous les chi res signi catifs. Algorithme 4 Construction des a i de proche en proche Données : n 0, b 2, le tableau a[ ] initialisé à 0. Résultat : le tableau a[ ] avec a[i] = a i, pour 0 i. {Obtention des coe cients par divisions euclidiennes successives} i 0; q k while q > 0 do a[i] q mod b i i + 1 q bq=bc end while On passe! (n) = 1 + bln n= ln bc dans la boucle, donc la complexité de cet algorithme est O (ln n). Fonction radical-inverse On appelle fonction radical-inverse en base b l application b dé nie par : b (n) = 1X i=0 où les a i sont les chi res de n dans la base b. On note : a i ; n 2 N; (2.40) bi+1 U b def = f b (n) : n 2 Ng (2.41) l image de N par b. Par construction, U b Q\ [0; 1[. L application b réalise une bijection de N vers U b. Remarque 2.4.2 Si l on écrit n (a! 1 ; : : : ; a 0 ) b, alors on voit que b (n) est le nombre obtenu en renversant les chi res de n par rapport à la virgule décimale. On écrit b (n) (0; a 0 a 1 a 2 : : : a! 1 ) b. 108
L algorithme présenté ci-dessous évalue b (n) en O (ln n) opérations. Il construit les a i de proche en proche (selon le principe de l algorithme 4) et en les recombine simultanément pour former b (n). Algorithme 5 Evaluation directe de b (k) Données : n 0; b 2 Résultat : u = b (n) q k; u 0; invb 1=b while q > 0 do u u + (q mod b) invb invb invb=b q bq=bc end while Nous disposons à présent de tous les éléments nécessaires à la bonne compréhension des mécanismes des suites de Halton. 2.4.2 Suites de Halton originales Dé nition On appelle suite de Van Der Corput en base b, la suite réelle dont le terme général est donné par u n = b (n) ; n 2 N: (2.42) Les suites de Van Der Corput sont des suites à discrépance faible D N (u) = O (ln N=N) (voir Faure (1981) pour une discussion à ce sujet). Les suites de Halton généralisent les suites de Van Der Corput pour les dimensions s 2. L idée est de considérer simultanément plusieurs suites de Van Der Corput 2.42 dans des bases di érentes. Soit b 1 ; : : : ; b s des entiers positifs premiers entre eux deux à deux. La suite de Halton de bases b 1 ; : : : ; b s a pour terme général (Halton 1960) : u n = b1 (n) ; : : : ; bs (n) ; n 1: (2.43) Par construction, cette suite prend ses valeurs dans l ensemble U b1 U bs, où U bi Q\ [0; 1[ désigne l image de N par la fonction bi. Notons que dans notre dé nition nous avons supposé n 1, de sorte que les composantes de (u n ) ne prennent que des valeurs strictement positives. Proposition 2.13 Pour tout N 1, la discrépance d une suite de Halton véri e : D N (u) < s N + 1 N sy i=1 bi 1 ln N + b i + 1 = O 2 ln b i 2 (ln N) s N : (2.44) 109
Nous renvoyons à Niederreiter (1992) pour une démonstration de ce résultat. Les suites de Halton sont donc des suites à discrépance faible et l on peut démontrer que le choix optimal pour b 1 ; : : : ; b s consiste à poser b i = p i où p 1 < < p s désignent les s premiers nombres premiers. En e et, ce choix est celui qui minimise la constante Q s b i 1 i=1 du terme dominant Q s 2 ln b i devant le terme (ln N) s =N. Souligons que le coe cient b i 1 i=1 2 ln b i tend vers l in ni quand la dimension augmente. Cela incite à étudier le comportement des suites de Halton en dimension élevée. Nous discutons ce point dans le paragraphe suivant. De la nécessité d optimiser les suites de Halton Examen des projections bidimensionnelles Pour illustrer le comportement de la suite dé nie par (2.43), nous considérons les projections des 5000 premiers points générés sur les plans de coordonnées (1; 2), (8; 9), (29; 30), (62; 63), (96; 97) et (117; 118) (voir gure 2.5). En examinant successivement les di érents plans, on observe une dégradation notable de la qualité des projections. Sur les deux premiers plans (coordonnées (1; 2) et (8; 9)), la couverture du carré unité est homogène et uniforme, ce qui est conforme à ce que l on attend d un générateur quasi-aléatoire. Les plans intermédiaires (coordonnées (29; 30) et (62; 63)) font apparaître des stries parallèles à la diagonale du carré. En particulier, sur le plan de coordonnées (62; 63) on observe une dégradation substentielle de l échantillonnage, car certaines zones du plan (bandes blanches parallèles à la diagonale du carré) ne contiennent aucun point. Sur les plans de coordonnées (96; 97) et (117; 118), le phénomène identifé auparavant s accentue : la totalité des points est concentrée sur deux bandes étroites et parallèles à la diagonale du carré. La majorité du plan de projection est vide, ce qui signi e que l échantillonnage est de très mauvaise qualité. La qualité d un générateur quasi-aléatoire réside dans sa capacité à engendrer des points dans le cube unité dont la distribution soit la plus uniforme et la plus homogène possible. Dans le cas de la suite de Halton, nous constatons que, lorsque la dimension augmente, l échantillonnage du cube unité est de plus en plus mauvais (au niveau des coordonnées élevées), ce qui rend cette suite impropre à intégrer e cacement des fonctions comportant un grand nombre de variables. C est la malédiction de la dimension évoquée en introduction. Notons toutefois que, la suite de Halton étant équirépartie, nous sommes certains qu en augmentant le nombre de simulations, les points de la suite niraient par couvrir l intégralité des plans de projections quel que soit le couple de coordonnées considéré. Pour une analyse approfondie des projections bidimensionnelles de la suite de Halton, nous invitons le lecteur à se reporter aux travaux de Moroko et Ca isch (1994) ou de Kocis et Whiten (1997). Analyse des corrélations intra-coordonnées Pour expliquer l apparition de bandes parallèles à la diagonale du carré de pente 1 lorsque la dimension augmente, nous procédons à une analyse succincte des corrélations entre les coordonnées des points projetés. Notre raisonnement s inspire des travaux de 110
Fig. 2.5 Projections des 5000 premiers points de la suite de Halton sur les 6 plans engendrés par les couples de bases (b i ; b i+1 ) donnés ci-après : premier plan (b 1 = 2; b 2 = 3), second plan (b 8 = 19; b 9 = 23), troisième plan (b 29 = 109; b 30 = 113), quatrième plan (b 62 = 293; b 63 = 307), cinquième plan (b 96 = 503; b 97 = 509), sixième plan (b 117 = 643; b 118 = 647). 111
Chi (2004) repris par Chi et al. (2005). Soit b i < b i+1 les bases associées au plan de projection (i; i + 1). On suppose i su samment grand pour que b i le soit aussi (par exemple b i 100). On note u n;i (resp. u n;i+1 ) la i ieme (resp. la (i + 1) ieme ) coordonnée du point u n. L idée est de calculer la corrélation def def entre les suites u ;i = (u n;i ) n1 et u ;i+1 = (u n;i+1 ) n1 lorsque n parcourt l ensemble f1; : : : ; b i 1g. Comme b i est su samment grand, ce calcul a un sens. On remarque sans di culté que pour 1 n b i 1 on a : u n;i = bi (n) = n b i ; u n;i+1 = bi+1 (n) = n b i+1 : (2.45) Donc, les suites u ;i ; u ;i+1 sont liées par la relation : u ;i+1 = b i b i+1 u ;i ; 1 n b i 1: (2.46) En utilisant (2.46) il vient : Cov[u ;i ; u ;i+1 ] = b i Var[u ;i ]; b i+1 2 bi Var[u ;i+1 ] = Var[u ;i]: b i+1 (2.47) Alors, le coe cient de corrélation linéaire entre u ;i et u ;i+1 est donné par : Cor[u ;i ; u ;i+1 ] = = Cov[u ;i ; u ;i+1 ] (Var[u ;i+1 ]Var[u ;i ]) 1=2 b i b i+1 Var[u ;i ] 2 b i b Var[u;i i+1 ] Var[u ;i ] 1=2 = 1: (2.48) Ce résultat montre que sur un jeu de b i 1 simulations, les coordonnées u ;i et u ;i+1 sont parfaitement corrélées, ce qui explique que les premiers points simulés s alignent sur une bande de pente 1 (voir gure 2.5, sixième projection). La raison pour laquelle plusieurs bandes parallèles apparaissent provient du fait que chaque coordonnée est translatée chaque fois que n atteint une valeur multiple de b i (pour la coordonnée u ;i ) ou de b i+1 (pour la coordonnée u ;i+1 ). Une analyse approfondie de ce phénomène est proposée par Chi (2004, pp. 21-23). 2.4.3 Suites de Halton généralisées Les résultats du paragraphe précédent nous donnent une indication sur la manière dont on peut procéder pour améliorer la distribution multidimensionnelle des suites de Halton. L idée est de briser les corrélations entre les fonctions radical-inverses qui déterminent les di érentes coordonnées. Nous présentons quelques solutions ci-dessous avant de choisir celle qui nous paraît la plus e - cace. 112
Quelques solutions envisagées dans la littérature Depuis une trentaine d années, di érents auteurs ont imaginé des techniques plus ou moins complexes ou faciles à mettre en oeuvre. 1. Faure (1981) considère une suite de Van Der Corput généralisée, dé nie par u n = P +1 i=0 (a i (n)) =b i+1 où les a i sont les chi res de n en base b et est une permutation de f0; 1; : : : ; b 1g. En choisissant judicieusement la permutation, il parvient à réduire sensiblement discrépance de la suite de Van Der Corput. 2. Tu n (1996a) considère une suite de Halton dont chaque composante est une suite de Van Der Corput généralisée (au sens du point 1). Les permutations sont choisies de manière à minimiser la discrépance de la suite dimension par dimension. L auteur ne fournit pas les permutations utilisées, il donne simplement les résultats obtenus en terme de discrépance jusqu à la dimension 16. 3. Kocis et Whiten (1997) proposent de remplacer l indice de simulation n dans (2.43), par ml, où L est un nombre premier distinct de b 1 ; : : : ; b s et m décrit N. Cela revient à ne considérer que les termes d ordre ml de la suite originale et, lorsque L est bien choisi, cela permet aussi de réduire la corrélation entre les di érentes composantes de la suite. Ce type de suite est appelé suite de Halton à sauts (Leaped-Halton sequence en anglais). Les auteurs déterminent la valeur de L optimale en minimisant l erreur d intégration sur un jeu de fonctions tests. Cette technique présente selon nous un inconvénient : en e et, il est toujours possible d optimiser une suite de points de manière à ce qu elle "intègre" une fonction bien choisie. Mais il reste un doute sur la capacité de la suite à intégrer d autres familles de fonctions. 4. Wang et Hickernell (2000) proposent de choisir le point de départ de la suite de Halton au hasard, ce qui revient à considérer la suite de terme général : u n = b1 (n + N 1 ); : : : ; bs (n + N s ); où N 1 ; : : : ; N s sont des entiers choisis au hasard. Une telle suite est appelée suite de Halton à départ aléatoire (Random-Start Halton Sequence en anglais). Cette méthode ne permet pas de briser la corrélation entre les composantes de la suite (Chi 2004), mais elle performe mieux que la suite de Halton originale. 5. Chi (2004), puis Chi et al. (2005) considèrent des suites de Halton généralisées au sens du point 1. avec des permutations de la forme i (k) =! i k mod b i, où les! i sont choisis de manière à minimiser la discrépance d un générateur linéaire congruentiel multiplicatif. Le critère utilisé pour la détermination de! i est une majoration de la discrépance bidimensionnelle d un générateur congruentiel établie par Niederreiter (1978, p. 1025). Les tests numériques pratiqués par Faure et Lemieux (2007) montrent que cette suite est très performante. 113
6. Vandewoestyne et Cools (2006) discutent les di érentes techniques existantes et proposent d utiliser la permutation i (k) = (b i k) mod b i. Ils montrent que cette nouvelle suite présente une discrépance meilleure que la suite de Halton originale. Selon les tests pratiqués par Faure et Lemieux (2007), cette suite ne performe pas mieux que la suite originale, ce qui tend à prouver que la discrépance n est pas un indicateur su sant pour mesurer la qualité d une suite équirépartie. 7. Faure et Lemieux (2007) ont proposé d utiliser des permutations de la forme i (k) =! i k mod b i, où les! i sont choisis de manière à optimiser toutes les projections bidimensionnelles de la suite. Ils procèdent selon une méthode itérative pour déterminer les paramètres optimaux : le multiplicateur sélectionné pour la j ieme coordonnée (soit! j ) est celui qui minimise la discrépance des suites bidimensionnelles (u ;i ; u ;j ) pour i = 1; : : : ; j 1. Lorsque le multiplicateur optimal! j est trouvé, on passe au rang j + 1. La suite ainsi obtenue donne des résultats très prometteurs selon les tests pratiqués par les auteurs. Les solutions envisagées peuvent être regroupées principalement en deux catégories : (i) celles qui consistent à introduire une permutation des chi res de l indice de simulation dans les di érentes bases et (ii) celles qui consistent à randomiser la suite originale. Les résultats obtenus par Chi (2004), Chi et al. (2005) ou Faure et Lemieux (2007) incitent à choisir l approche (i). Ci-dessous, nous présentons en détail la solution de Chi et al. (2005). Fonction radical-inverse généralisée Soit b 2 et une permutation de N b = f0; 1; : : : ; b radical-inverse généralisée () b en posant : +1X () b (n) = b ( (n)) = i=0 1g. On dé nit la fonction (a i (n)) b i+1 : (2.49) Une permutation étant choisie, on appelle suite de Van Der Corput généralisée en base b la suite de terme général () b (n). Nous pouvons à présent dé nir les suites de Halton généralisées comme étant les suites dont le terme général est dé ni par : u n = (1) b 1 (n) ; : : : ; (s) b s (n) ; n 1; (2.50) où 1 ; : : : ; s sont des permutations opérant sur les ensembles N b1 ; : : : ; N bs et b 1 ; : : : ; b s sont des entiers premiers entre eux. Lorsque chaque permutation est l identité on retrouve la suite de Halton dans sa forme originale (2.43). Choix de la forme des permutations Il existe b! permutations de l ensemble N b. Parmi ces permutations, on ne considère que celles qui laissent 0 invariant. La raison de ce choix est que les permutations qui ne laissent pas 0 invariant introduisent un biais dans la suite de 114
Halton (Chi 2004, Vandewoestyne et Cools 2006). Un choix commode consiste à retenir les permutations linéaires de la forme : b (k) =!k mod b; où! est une racine primitive de l unité 6. Dans ce cas, b est un générateur linéaire congruentiel multiplicatif (de multiplicateur! et de module b) de période maximale b 1. A présent, il nous faut déterminer un jeu de multiplicateurs optimaux! 1; : : : ;! s pour l ensemble des coordonnées de la suite de Halton généralisée. Détermination du multiplicateur optimal par minimisation de la discrépance Chi (2004) propose de choisir le multiplicateur optimal! associé à la base b en optimisant un critère donné par Niederreiter (1978, p. 1025). Le principe est le suivant. Soit v la suite bidimensionnelle de terme général : k!k mod b v k = ; ; 0 k b 1; b b où! est une racine primitive de l unité. Niederreiter montre que la discrépance de (v 0 ; : : : ; v b 1 ) véri e : (b 1) D b 1 (v) 2 + lx q j ; (2.51) où q 1 ; : : : ; q l sont les quotients partiels du développement du rationel!=b en fraction continue 7. Chi recherche parmi toutes les racines primitives de l unité modulo b, celle dont la somme des quotients partiels est minimale. On la note!. Il fournit un tableau des racines trouvées jusqu en dimension 40. Les résultats obtenus sur une intégrale test particulièrement délicate sont très encourageants. Toutefois, cette approche présente un inconvénient car, au niveau de certaines coordonnées, les multiplicateurs optimaux ne sont pas su samment éloignés de sorte qu il subsiste des corrélations indésirables. Par exemple, pour les dimensions 13 et 14, les bases sont b 13 = 41, b 14 = 43 et les multiplicateurs trouvés sont! 13 = 17,! 14 = 18 (Chi 2004, p. 29). Détermination du multiplicateur par hybridation avec la suite de Richtmyer Selon Vandewoestyne et Cools (2006), une idée proposée par T.T. Warnock est de combiner le comportement initial de la suite de Richtmyer dé- nie par (2.22) avec le comportement asymptotique de la suite de Halton. La motivation de l auteur provient du fait que la suite de Richtmyer présente une bonne équidistribution dans toutes les dimensions ( gure 2.2). Le raisonnement 6 Un entier! est primitif modulo b si et seulement si! b 1 mod b = 1 et a k 1 mod b 6= 1 pour k = 1; : : : ; b 1. 7 On rappelle que les q j sont des entiers supérieurs ou égaux à 1 et que, pour des raisons d unicité du développement, q l = 1 (Niederreiter 1992, p. 219). j=1 115
est le suivant. Soit b (k) =!k mod b l image de l entier k par la permutation b. Lorsque k décrit 0; 1; : : : ; b 1, la division euclidienne de!k par b s écrit :!k = bq k;b +!k mod b )!k b = q k;b + où q k;b 2 N désigne le quotient de la division. Alors,!k b!k mod b ; b!k mod b mod 1 = ; 0 k b 1: b La suite de terme général!k b mod 1 se comporte comme la suite de Richtmyer de base p b dès que :!k b mod 1 ' (kp b) mod 1 0 k b 1: En faisant k = 1 dans l approximation précédente, on obtient :! b ' p b mod 1 = f p bg )! ' bf p bg: Comme! doit être un nombre entier, il su t de choisir l une ou l autre des deux valeurs suivantes : j! def = bf p k l bg ;! + def = bf p m bg ; (2.52) où dxe def = 1+bxc est le plus petit entier strictement supérieur à x. Pour e ectuer le choix, les auteurs proposent : (i) de déterminer les développements en fraction continue de! =b = [q 1 ; : : : ; q l ] et! + =b = [q 1 + ; : : : ; q+ l ], (ii) de calculer les + sommes : lx Xl + Q = q j ; Q + = j=1 et (iii) de retenir la racine associée à la plus petite des deux sommes. En d autres termes, on choisit! =! si Q < Q + et sinon! =! +. En appliquant cet algorithme pour chaque dimension, on obtient ainsi un jeu de coe cients optimaux qui confèrent à la suite de Halton des propriétés d équirépartition de la suite de Richtmyer. Dans cette approche, on ne teste pas si le multiplicateur! trouvé est une racine primitive de l unité. Construction d une suite de Halton optimale Chi et al. (2005) proposent de mélanger les deux approches décrites auparavant. Le processus de sélection du multiplicateur associé à chaque dimension est le suivant : pour chaque base b i, on détermine le mutiplicateur! richt: i qui confère à la suite les propriétés de la suite de Richtmyer selon le procédé précédent. Ensuite deux cas peuvent se présenter : si! richt: i est une racine primitive de l unité modulo b i, on pose! i =!richt: i, j=1 q + j 116
si! richt: i n est pas une racine primitive de l unité modulo b i, on détermine la racine primitive de l unité modulo b i la plus proche de! richt: i selon le critère (2.51). Cette technique présente deux atouts majeurs : (i) elle nous assure que les permutations utilisées forment toutes des cycles de longueur maximal (car le multiplicateur est une racine de l unité) et (ii) la suite obtenue doit avoir un comportement voisin de la suite de Richtmyer, c est-à-dire une bonne équidistribution multidimensionnelle. Nous donnons dans le tableau ci-dessous les coe cients optimaux pour les dimensions 1 i 50. i b i! i i b i! i i b i! i i b i! i i b i! i 1 2 1 11 31 17 21 73 40 31 127 39 41 179 69 2 3 2 12 37 5 22 79 70 32 131 57 42 181 83 3 5 2 13 41 17 23 83 8 33 137 97 43 191 157 4 7 5 14 43 26 24 89 38 34 139 109 44 193 174 5 11 6 15 47 40 25 97 82 35 149 32 45 197 8 6 13 7 16 53 14 26 101 7 36 151 48 46 199 22 7 17 3 17 59 42 27 103 20 37 157 84 47 211 112 8 19 10 18 61 51 28 107 38 38 163 124 48 223 205 9 23 19 19 67 12 29 109 47 39 167 155 49 227 17 10 29 11 20 71 31 30 113 70 40 173 27 50 229 31 Notons que certains des multiplicateurs indiqués par Chi et al. (2005, p. 18) ne sont pas des racines primitives de l unité modulo la base correspondante. Nous en avons recensés trois qui sont consignés dans le tableau ci-dessous. La colonne intulée CMW contient les nombres originaux proposés par les auteurs. i b i CMW! i 5 11 3 6 9 23 18 19 46 199 32 22 Examen des projections bidimensionnelles Pour conclure ce paragraphe, nous avons représenté ( gure 2.6) les projections bidimensionnelles de la suite de Halton optimale obtenue selon le procédé du paragraphe précédent. Les plans de projection sont identiques à ceux de la gure 2.5. Pour l ensemble des plans considérés, la couverture du carré unité est homogène et uniforme. On observe sur les plans de coordonnées (62; 63), (96; 97) et (117; 118) que les bandes parallèles à la diagonale principale du carré ont disparu. Cela con rme que nous avons brisé les corrélations intra-coordonnées. Le comportement de la suite est conforme à ce que l on attend d un générateur quasi-aléatoire. On peut donc considérer que l optimisation a réussi. Des tests calculatoires viendront con rmer ce que nous avons constaté visuellement. 117
Fig. 2.6 Projections des 5000 premiers points de la suite de Halton optimale. Les 6 plans sont les suivants : premier plan (b 1 = 2; b 2 = 3), second plan (b 8 = 19; b 9 = 23), troisième plan (b 29 = 109; b 30 = 113), quatrième plan (b 62 = 293; b 63 = 307), cinquième plan (b 96 = 503; b 97 = 509), sixième plan (b 117 = 643; b 118 = 647). 118
2.4.4 Implémentation des suites de Halton Une solution simple pour implémenter les suites de Halton consiste à mettre en oeuvre l algorithme 5 pour déterminer la valeur de chacune des coordonnées. Notons que cet algorithme peut s avérer assez lent (environ deux fois plus lent que le Mersenne Twister MT19937), ce qui incite à rechercher une implémentation plus e cace. Struckmeier (1995) propose d utiliser une transformation dite de Van-Neumann-Kakutani pour construire la suite de Van Der Corput par récurrence. Nous en présentons une variante dans ce paragraphe. Récurrence sur les écritures b-adiques La proposition suivante nous montre comment déduire les chi res de l écriture b-adique de n + 1 à partir des chi res de l écriture b-adique de n. Proposition 2.14 Soit n 2 N, de développement b-adique P +1 i=0 a i (n) b i avec (a i (n)) i2n 2 S b. On pose : q n = min fi : a i (n) < b 1g ; (2.53) l indice du premier chi re strictement inférieur à b 1 dans l écriture de n. Les chi res de l écriture b-adique de n + 1 sont donnés par 8 < 0 pour i < q n a i (n + 1) = 1 + a qn (n) pour i = q n (2.54) : a i (n) pour i > q n Proof. Comme (a i (n)) i2n est nulle à partir d un certain rang, alors q n tel que dé ni dans (2.53) existe et est ni. Ecrivons : n = qx n 1 i=0 a i (n) b i + a qn (n) b qn + +1X i>q n a i (n) b i : Par dé nition de q n, on a P q n 1 i=0 a i (n) b i = P q n 1 i=0 (b 1) b i = b qn 1. Injectons ce résultat dans l écriture précédente et simpli ons, il vient : n + 1 = (1 + a qn (n)) b qn + +1X i>q n a i (n) b i : Comme 1 + a qn (n) < b, l égalité précédente est l écriture de n + 1 en base b. En identi ant les coe cients ci-dessus avec les a i (n + 1) on obtient (2.54). Nous donnons ci-dessous un algorithme qui met à jour les a i (n), par détermination de q n. Comme pour l algorithme 4, les a i (n) sont stockés dans un tableau a[ ] de taille + 1. Donc l algorithme fonctionne pour les entiers n < b. 119
Algorithme 6 Mise à jour des a i par détermination de q n Données : b 2 et le tableau a[ ] avec a[i] = a i (n), pour 0 i. Résultat : q = q n, a[i] = a i (n + 1) pour 0 i. q 0; bb b 1 while a[q] = bb do a[q] 0; q q + 1 end while Lorsque n est xé, on teste a[0]; : : : ; a[q n ] en entrée de boucle : un calcul naïf de la complexité de l algorithme n est pas pertinent, car le résultat dépend du choix de k. En revanche, lorsque n parcourt f0; : : : ; b 1g, on peut évaluer la complexité moyenne qui dépend de b et de b. Pour 0 i 1, l élément a[i] du tableau est testé en entrée de boucle si, et seulement si, a[0] = = a[i 1] = b 1 et (a[i]; : : : ; a[ 1]) 2 N i b. Donc, il existe b i con gurations possibles. Lorsque k prend les valeurs 0; : : : ; b 1, le nombre total de tests e ectués en entrée de boucle est donc : X 1 b i=0 i = b 1 + 1 b 1 b b 1 ; et la complexité moyenne sur b appels consécutifs vaut : C b; = 1 + 1 b b 1 b 1 b = O 1 + 1 b 1 La procédure présentée est donc en temps constant à b xé. Implémentation de la suite de Halton originale Notre objectif est de construire directement b (n + 1) connaissant b (n). En utilisant la proposition 2.14, on montre que les termes successifs de la suite de Van Der Corput véri ent une relation linéaire. Proposition 2.15 Soit n 2 N, de développement b-adique P +1 i=0 a i (n) b i et q n dé ni par la relation (2.53). Alors, b (n + 1) se déduit de b (n) selon la relation de récurrence : b (n + 1) = b (n) + 1 + b b 1+qn 1: (2.55) : 120
Proof. Avec (2.54) et par dé nition de b, on a : b (n + 1) = +1X i=0 a i (n) =b i+1 = (1 + a qn (n)) =b 1+qn + = 1=b 1+qn + Ce qui établit la formule (2.55). +1X = 1=b 1+qn + b (n) +1X i=q n a i (n) =b i+1 q n 1 i=1+q n a i (n) =b i+1 X (b 1)=b i+1 i=0 = b (n) + 1=b 1+qn (1 1=b qn ) = b (n) + (b + 1) =b 1+qn 1: De ce résultat, nous déduisons un algorithme très simple qui détermine b (n + 1) connaissant b (n) et le tableau a[ ]. Le tableau a[ ] est mis à jour par l algorithme 6. Le tableau auxiliaire b[ ] est a ecté une fois pour toute : b[q] = b + 1 ; q = 0; : : : ; : bq+1 Algorithme 7 Evaluation de b (n + 1) après mise à jour des a i Données : b 2, le tableau a[ ] avec a[i] = a i (n), pour 0 i et u = b (n). Résultat : q = q n, a[i] = a i (n + 1) pour 0 i et u = b (n + 1). {Recherche de l indice q n } bb b 1; q 0 while a[q] = bb do a[q] 0; q q + 1 end while {Calcul de a qn (n + 1) puis de b (n + 1)} a[q] 1 + a[q]; u u + b[q] La complexité totale sur b appels consécutifs est O (b ). A titre de comparaison, b appels consécutifs de l algorithme 5 ont une complexité en O (b ln b ), ce qui est nettement moins bon. Remarque 2.4.3 Les calculs sont e ectués en virgule ottante, ce qui entraîne immanquablement des erreurs d arrondi à chaque étape. Celles-ci se propagent et s ampli ent puisque la variable u est réutilisée pour calculer chaque nouvelle 121
sortie. En conséquence, il est important de mesurer l erreur commise par rapport à un calcul direct en fonction du compilateur utilisé. Nous recommandons de travailler avec des variables de type double, dès que le compilateur le permet. Sinon, une bibliothèque multiprécision permettra de résoudre ce problème au détriment de la rapidité de calcul. A n d illustrer la réduction du temps de calcul obtenue grâce à l algorithme présenté ci-dessus, nous donnons les temps d exécution relatifs des algorithmes 5 et 7. Le nombre de simulations est 10 9. Algorithme 5 7 Complexité sur N appels O (N ln N) O (N) Temps d exécution relatif 100:00% 4:55% Réduction de temps 95:45% Par rapport à l algorithme naïf 5, le gain de temps de calcul est voisin de 95%, ce qui est considérable. Ces résultats valident l étude menée dans le paragraphe. Nous allons tenter de les étendre pour optimiser de manière similaire la suite de Halton généralisée. Implémentation de la suite de Halton généralisée A présent, nous montrons comment modi er l algorithme précédent pour générer e cacement les termes successifs d une suite de Van Der Corput généralisée dé nie par (2.49). La permutation utilisée est de la forme b (k) =!k mod b où! est une racine primitive de l unité modulo b. Une solution immédiate pour implémenter les suites de Halton généralisées consiste à modi er légèrement l algorithme 5. On obtient l algorithme ci-dessous qui évalue ( b) b (n) en O (ln n) opérations. Il construit les a i de proche en proche et applique la permutation b à chacun d entre eux. Il recombine simultanément les coe cients pour former ( b) b (n). Algorithme 8 Evaluation directe de ( b) b (n) Données : n 0; b 2; 1! < b Résultat : u = ( b) b (n) q k; u 0; invb 1=b while q > 0 do u u + (! (q mod b)) mod b invb invb invb=b q bq=bc end while Etant donné le gain de temps considérable obtenu lorsque nous avons décidé d implémenter la suite de Halton par récurrence, il est intéressant de chercher 122
à mettre en oeuvre la même technique avec la suite de Halton généralisée. Pour cela, nous utilisons le résultat original ci-dessous : il donne la relation de récurrence entre ( b) b (n + 1) et ( b) b (n). Nous donnons une démonstration de la formule (2.56) en Annexe C. Théorème 2.16 Soit n 2 N, alors ( b) b (n + 1) et ( b) b (n) sont liées par la relation suivante : ( b) b (n + 1) = ( b) b (n) + b! 1 b 1 b qn+1 1 + 1 f~a qn (n)<b!g ; (2.56) b qn où q n est dé ni par (2.53) et où l on a posé ~a i (n) def = b (a i (n)). Supposons à présent que les coe cients ~a i (n) soient connus. Pour appliquer la récurrence (2.56) il nous faut : (i) déterminer q n à partir des ~a i (n), puis (ii) calculer les ~a i (n + 1) à partir des ~a i (n). Les résultats suivants nous permettent de traiter ces deux points. Proposition 2.17 Soit q n dé ni par (2.53), alors : q n = min fi : ~a i (n) 6= b!g : (2.57) Proof. b est bijective de N b = f0; 1; : : : ; b 1g dans lui-même, donc : a i (n) = b 1, ~a i (n) = b (b 1) : Pour conclure, il ne reste qu à remarquer que b (b 1) = b! (formule (2.86) établie en Annexe au paragraphe C). Proposition 2.18 Les termes ~a i (n + 1) sont donnés par la relation : 8 < 0 pour i < q n ~a i (n + 1) = (! b + ~a qn (n)) + b1 : f~aqn (n)<b!g pour i = q n : (2.58) ~a i (n) pour i > q n Proof. La relation (2.58) est une reformulation des résultats (2.87) et (2.91). Les résultats précédents permettent d écrire un algorithme qui calcule ( b) b (n + 1) à partir de ( b) b (n). L algorithme utilise un tableau auxiliaire b[ ][ ], a ecté une fois pour toutes et dé ni par : b[q][1] = b! 1 b 1 b q+1 1 + 1 b q ; b[q][2] = b[q][1] 1 ; q = 0; : : : ; : bq 123
Algorithme 9 Evaluation de ( b) b (n + 1) et mise à jour des ~a i (n + 1) Données : b 2, 1! < b, le tableau a[ ] avec a[i] = ~a i (n), pour 0 i et u = ( b) b (n). Résultat : q = q n, a[i] = ~a i (n + 1) et u = ( b) b (n + 1). {Recherche de l indice q n } bb b!; q 0 while a[q] = bb do a[q] 0; q q + 1 end while {Calcul de ( b) b (n + 1) puis de ~a qn (n + 1)} if a[q] < bb then u u + b[q][1]; a[q] a[q] +! else u u + b[q][2]; a[q] a[q] bb end if La complexité de cet algorithme sur b appels consécutifs est O (b ), ce qui est équivalent à la complexité de l algorithme 7. Comme pour les suites de Halton originales, on constate que l algorithme 9 apporte un gain de temps signi catif par rapport à l algorithme direct 8. Nous donnons dans le tableau suivant les temps d exécution relatifs des deux algorithmes. Le nombre de simulations est 10 9. Algorithme 8 9 Complexité sur N appels O (N ln N) O (N) Temps d exécution relatif 100:00% 4:17% Ecart de temps 95:83% L algorithme 9 est considérablement plus rapide que l algorithme naïf 8 puisque la réduction du temps de calcul est de l ordre de 96%. Notons que la réduction des temps de calcul est du même ordre de grandeur que celle obtenue avec la suite de Halton originale. Nous avons donc atteint notre objectif : les temps de calcul ne constituent plus un obstable à l utilisation de la suite de Halton généralisée. 2.5 Comparaison des temps de calcul Nous disposons à présent de tous les éléments nécessaires pour tester l e cacité opérationnelle de la méthode de Quasi-Monte Carlo. Dans cette section, nous comparons les temps de calcul des générateurs étudiés dans ce chapitre à celui du Mersenne Twister MT19937 qui est l un des générateurs pseudo-aléatoires les plus rapides. En e et, le temps de calcul est un élément déterminant lorsque l on envisage la mise en oeuvre opérationnelle d une méthode numérique et il 124
ne faudrait pas que le gain en terme d uniformité soit obtenu au prix d une dégradation importante de la vitesse de simulation. Les générateurs utilisés dans les tests ont été codés en C++ (compilateur : Microsoft Visual C++ 6.0) et la machine utilisée est la même que celle qui a permis de réaliser les tests sur les générateurs pseudo-aléatoires (PC équipé d un processeur Intel Pentium IV cadencé à 3:20GhZ, de 1Go de RAM et de Microsoft Windows XP). Les valeurs de N (nombre d itérations) et de s (dimension du problème) sont les suivantes : N = 2 10 6 ; s = 500: Pour ces valeurs des paramètres, les di érents générateurs produisent Ns = 10 9 nombres uniformes au total. Les générateurs testés sont la suite SQRT de Richtmyer, la suite de Halton originale (notée HALT) et la suite de Halton généralisée de Chi, Mascagni et Warnock (notée HCMW). Les deux suites de Halton sont implémentées à l aide des algorithmes rapides 7 et 9 obtenus auparavant. Les résultats sont donnés ci-dessous. Générateur MT19937 SQRT HALT HCMW temps d exécution (s) 48:6 58:2 46:0 65:8 temps d exécution relatif 100% 119:7% 94:7% 135:3% Le générateur MT19937 est pris comme référence dans ce comparatif : il met 48:6 secondes pour e ectuer l ensemble des simulations 8. Un rapide examen des résultats obtenus montre que toutes les suites considérées (à l exception de la suite HALT) ont des temps de calcul légèrement supérieurs à ceux du générateur de référence. D une manière générale, les résultats obtenus pour l ensemble des suites testées sont très encourageants, car les temps de calcul sont très proches de ceux du générateur de référence qui est l un des générateurs pseudo-aléatoires les plus rapides. Avec un temps d exécution de l ordre de 46 secondes (inférieur d environ 5:3% au temps de calcul du générateur de référence), le générateur de Halton (HALT) est le plus rapide du comparatif. La suite HCMW est la plus lente du comparatif : elle réalise les simulations en 65:8 secondes, ce qui correspond à un temps d exécution environ 35% supérieur à celui du générateur de référence et environ 42% supérieur à la suite de Halton. Ce phénomène provient du fait que l algorithme de la suite HCMW nécessite plus de calculs que celui de la suite de Halton. Notons que cette performance ne constitue cependant pas un frein à l utilisation de cette suite pour les applications opérationnelles. La suite SQRT prend la seconde position du comparatif : elle est environ 19:7% plus lente que le générateur de référence. Cela s explique par le fait que l algorithme 3 opère directement sur des variables réelles en double précision (type 8 Nous avions trouvé 48:2 secondes dans le test comparatif entre les générateurs pseudoaléatoires. L écart observé provient du fait que les deux séries de tests n ont pas été réalisées simultanément. En e et, les temps de calcul d une machine non spéci quement dédiée aux tests sont susceptibles de uctuer légèrement d une utilisation à l autre en fonction des processus lancés sur la machine. 125
double dans la plupart des langages), ce qui "ralentit" les calculs. Si l on tient compte du fait que la suite de Halton n est pas adaptée aux calculs en grande dimension, alors la suite SQRT est la meilleure du comparatif. 2.6 Quasi-Monte Carlo dans la pratique D un point de vue théorique, la méthode de Quasi-Monte Carlo est plus e cace que la méthode de Monte Carlo, car son taux de convergence est asymptotiquement meilleur que le taux de convergence obtenu en réalisant un échantillonnage aléatoire du domaine d intégration. Cependant, cette "supériorité" reste essentiellement théorique car, en pratique, on rencontre deux di cultés lorsque l on met en oeuvre la méthode de Quasi-Monte Carlo : (i) on ne dispose pas d une méthode systématique et pertinente pour estimer l erreur commise (voir la discussion du paragraphe 2.2.2) et (ii) on est conduit à réaliser un nombre de simulations toujours plus grand pour que la quadrature reste précise quand la dimension augmente (voir paragraphe 2.2.3). Dans cette dernière partie, nous discutons ces deux di cultés et nous montrons comment résoudre les problèmes soulevés précédemment en combinant l approche Monte Carlo avec l approche Quasi-Monte Carlo. L idée est d introduire une perturbation aléatoire dans la suite à discrépance faible que l on envisage d utiliser, sans en changer les propriétés de haute uniformité (Tu n 1996b, 2005). Cela permet de pro ter de la convergence rapide de la méthode de Quasi-Monte Carlo (car la qualité de l échantillonnage reste inchangée) et d estimer l erreur d intégration comme dans la méthode de Monte Carlo (car les suites sont devenues aléatoires). Cette approche est appelée méthode de Quasi-Monte Carlo Randomisée (RQMC). Pour une discussion approfondie sur les techniques RQMC, on peut se reporter à Ökten (1997), Ökten et al. (2005) ou Lemieux (2008). 2.6.1 Randomisation des générateurs quasi-aléatoires La randomisation d une suite à discrépance faible est une tâche délicate : en e et il ne faut pas changer les propriétés de la suite en introduisant la perturbation aléatoire. Nous présentons ci-dessous deux méthodes de randomisation. La première méthode, due à Cranley et Patterson (1976), s applique à tous les générateurs quasi-aléatoires, tandis que la seconde est spéci que aux suites de Halton (Wang et Hickernell 2000). Dans tous les cas, la technique de randomisation proposée est choisie de manière à ne pas dégrader les temps de calcul des générateurs. 126
Méthode du décalage aléatoire Soit (u n ) n1 une suite à discrépance faible dans le cube unité [0; 1] s. L idée est de considérer les suites (~u n ) dont le terme général est de la forme : ~u n = fu n + V g = (u n + V ) mod 1 2 [0; 1[ s ; (2.59) où V est une variable aléatoire de loi uniforme sur le cube unité et fxg = x mod 1 désigne la partie fractionnaire du vecteur x 2 R s. Ce procédé est appelé la méthode du décalage aléatoire (random shift en anglais). On peut démontrer que la méthode du décalage aléatoire possède les deux propriétés suivantes. 1. Pour chaque réalisation v du vecteur aléatoire V, la suite (fu n + vg) n1 est une suite à discrépance faible (voir Tu n 1996b). Autrement dit, la méthode du décalage aléatoire permet de construire une in nité de suites à discrépance faible à partir d une suite à discrépance faible donnée. 2. Comme V U [0;1[ s, chaque terme ~u n de la suite randomisée suit la loi uniforme sur [0; 1[ s, soit ~u n U [0;1[ s (Lemieux 2008). Cette propriété ne signi e pas que les termes successifs de la suite sont des réalisations mutuellement indépendantes de la loi uniforme sur le cube unité, elle signi e simplement que chaque terme est une réalisation de la loi uniforme. Dégradation des temps de calcul Considérons que le calcul de la fonction x! fx + yg (x et y réels) se décompose en trois opérations élémentaires : l addition a x + y, le calcul de b bac et la soustraction c a b. Alors, pour générer le terme ~u n de la suite randomisée, il faut ajouter 3s opérations au nombre d opérations nécessaires pour générer le point u n de la suite originale. En conséquence, si C N;s est la complexité de l algorithme permettant de générer u 1 ; : : : ; u N, alors la complexité de l algorithme permettant de générer ~u 1 ; : : : ; ~u N est donnée par : ~C N;s = C N;s + 3Ns: En pratique, cela se traduit par une dégradation des temps de calcul lorsque la dimension et le nombre de simulations augmentent : par exemple, simuler N = 10 5 termes de la suite randomisée en dimension s = 100, implique de réaliser 30 millions d opérations supplémentaires. La durée des calculs supplémentaires sera d autant plus évidente que les temps de calcul des générateurs avec lesquels nous travaillons sont très faibles (i.e. C N;s << 3Ns). Suites de Weyl à départ aléatoire Dans le cas des suites de Weyl, la méthode du décalage aléatoire est particulièrement facile à implémenter et elle n entraîne aucun temps de calcul supplémentaire. Cela provient du fait que les suites de Weyl sont dé nies par des congruences modulo 1. Considérons le lemme suivant, dont nous donnons la démonstration dans l Annexe D. Lemme 2.19 Pour tout x 2 R s et V U [0;1[ s on a (x + V ) mod 1 U [0;1[ s. 127
Soit V U [0;1[ s et (u n ) n1 une suite de Weyl dé nie par u n = (n + ) mod 1 avec (; ) 2 R s. Alors, en appliquant la formule (2.31) il vient : ~u n = (u n + V ) mod 1 = ((n + ) mod 1 + V ) mod 1 = (n + + V ) mod 1 = (n + ( + V ) mod 1) mod 1 = (n + Y ) mod 1; où l on a posé Y def = ( + V ) mod 1. D après le lemme précédent, Y suit une loi uniforme sur le cube unité. En conséquence, pour randomiser une suite de Weyl de paramètres (; ) 2 R s, il su t : 1. de remplacer l incrément 2 R s par une variable aléatoire Y de loi uniforme sur [0; 1[ s, 2. de générer les termes successifs de la suite randomisée à l aide de l algorithme rapide 3. On remarque que les suites ainsi obtenues sont des suites de Weyl à incrément aléatoire ou encore à départ aléatoire (par construction, ~u 0 = Y ). Par ailleurs, nous avons obtenu le résultat annoncé en début de paragraphe : la méthode du décalage aléatoire n induit aucun calcul supplémentaire dans le cas de ces suites. Suites de Halton à départ aléatoire Dans le cas des suites de Halton, il n est pas possible d implémenter la méthode du décalage aléatoire aussi e cacement que pour les suites de Weyl. Si l on souhaite réduire les temps de calcul au maximum, il faut envisager une autre approche. Wang et Hickernell (2000) proposent de choisir au hasard l indice de départ de chaque coordonnée de la suite : ils obtiennent ainsi une famille de suites de Halton randomisées dont le terme général est de la forme : ~u n = ( b1 (n + N 1 ); : : : ; bs (n + N s )); (2.60) où N 1 ; : : : ; N s sont des entiers choisis au hasard. Les suites de Halton obtenues par ce procédé sont appelées suites de Halton à départ aléatoire. Cette méthode présente un double intérêt : (i) elle ne modi e pas les propriétés intrinsèques de la suite originale (Bouleau et Lépingle 1993) et (ii) elle ne dégrade pas les temps de calcul, car on peut encore appliquer l algorithme rapide 7 pour générer les termes de la suite de proche en proche. Un autre aspect positif est qu elle se transpose facilement aux suites de Halton généralisées en considérant : ~u n = ( (1) b 1 (n + N 1 ); : : : ; (s) b s (n + N s )); (2.61) avec N 1 ; : : : ; N s aléatoires. Dans ce cas également, on peut continuer d utiliser l algorithme rapide 9 pour construire les points de la suite. 128
2.6.2 Méthode de Quasi-Monte Carlo Randomisée Dans ce paragraphe, nous montrons comment utiliser les générateurs quasialéatoires randomisés pour déterminer l erreur d intégration dans l approche Quasi-Monte Carlo. Construction de l estimateur L idée est de construire des réalisations aléatoires et indépendantes de l estimateur Quasi-Monte Carlo. Plus précisément, on considère la variable aléatoire suivante : ^Q N (X) def = 1 N NX f (~u n (X)) ; (2.62) n=1 où (~u n (X)) désigne un générateur quasi-aléatoire randomisé par le vecteur X. Dans le cas où le générateur est une suite de Weyl, les termes ~u n (X) sont donnés par la formule (2.59) et X U [0;1[ s. Dans le cas des suites de Halton, ils sont donnés par l une ou l autre des formules (2.60) ou (2.61) et X = (N 1 ; : : : ; N s ) 0 où les N i sont des entiers aléatoires et indépendants. Dans tous les cas, ~u n (X) U [0;1[ s; n = 1; : : : ; N: (2.63) La variable ^Q N (X) est appelée estimateur Quasi-Monte Carlo Randomisé (RQMC) de l intégrale de f. Par construction, cet estimateur est sans biais : E[ ^Q N (X)] = 1 N NX Z E[f (~u n (X))] = f (u) du = I: C s n=1 L avant-dernière égalité provient du fait que, d après la relation (2.63), on a E[f (~u n (X))] = R C s f (u) du. On peut alors former l estimateur Monte Carlo de l intégrale cherchée en posant : ^Q L;N def = 1 L LX ^Q N (X l ); (2.64) où X 1 ; : : : ; X L sont des copies i.i.d. de la variable X. Par construction, ^QL;N est un estimateur sans biais et fortement consistant de I. Estimation de l erreur d intégration Dans la pratique, on approche la variance de ^Q N (X), qui est une quantité inconnue du problème, par son estimateur sans biais : ^ 2 L[ ^Q N (X)] = 1 L 1 l=1 LX ( ^Q N (X l ) ^QL;N ) 2 : (2.65) l=1 129
On peut alors construire un intervalle de con ance de l intégrale cherchée au niveau 1 : ( ^ 2 P ^QL;N I < q L[ ^Q ) N (X)] 1 =2 p = 1 ; (2.66) L M!1 où q 1 =2 désigne le quantile d ordre 1 =2 de la loi normale standard. L erreur d intégration est donc majorée par la quantité : ^" M;N = q 1 =2 ^ 2 L[ ^Q N (X)] p L : (2.67) Comme la suite (~u n (X)) possède les propriétés de haute uniformité de la suite (u n ), l estimateur ^Q N (X) prend des valeurs aléatoires très proches de l intégrale cherchée dès que N est su samment grand. Cela signi e que la variance de ^Q N (X) doit être particulièrement faible. On peut donc espérer obtenir une réduction de variance signi cative par rapport à l estimateur Monte Carlo classique basé sur LN réalisations i.i.d. de la variable f (U), où U U [0;1[ s. E cacité de l estimateur Nous pouvons déterminer l e cacité de l estimateur RQMC de la même manière que nous l avons fait pour l estimateur Monte Carlo dans le Chapitre 1. L indice d e cacité de l estimateur est donné par : E (X; N) = Var[ ^Q N (X)] ~c N ; (2.68) où Var[ ^Q N (X)] désigne la variance de ^Q N (X) et ~c N est le temps nécessaire pour calculer ^Q N (X). En pratique, pour déterminer le temps de calcul ~c N, on peut procéder de la manière suivante. Soit ~ T LN le temps total nécessaire pour déterminer ^Q L;N. En remarquant que ~ T LN correspond au temps qu il faut pour construire L réalisations i.i.d. de l estimateur ^Q N (X) on déduit : ~c N = ~ T LN L : (2.69) En conséquence, pour estimer l e cacité de l estimateur Quasi-Monte Carlo Randomisé sur un jeu de simulations, on applique la formule suivante : ce (X; N) ' ^ 2 L[ ^Q N (X)] ~ T LN L : (2.70) A titre de comparaison, l e cacité de l estimateur Monte Carlo classique basé sur LN réalisations i.i.d. de la variable f (U) est donnée par la formule : ce MC ' ^ 2 LN[f] T LN LN ; 130
où ^ 2 LN[f] désigne la variance empirique de f (U) et T LN est le temps nécessaire pour calculer l estimation Monte Carlo de l intégrale. Les temps de calcul sont donc une composante à part entière de l e cacité des estimateurs. Cela justi e à posteriori que nous ayons cherché à améliorer la vitesse d exécution des générateurs quasi-aléatoires. Dans le paragraphe suivant, nous mettons en oeuvre la méthode RQMC pour estimer le prix de l option asiatique géométrique étudiée au Chapitre 1. 2.6.3 Evaluation d un call asiatique géométrique Les hypothèses sur la dynamique du sous-jacent et les caractéristiques de l option étudiée sont les mêmes que celles du Chapitre 1. Le problème est de déterminer la quantité suivante : C = E e rt T où T = max S T K; 0 ; (2.71) où r est le taux sans risque instantané, T et K désignent respectivement la date d expiration et le prix d exercice de l option, ST = ( Q m k=1 S t k ) 1=m est la moyenne géométrique des cours du sous-jacent aux dates d observation 0 t 1 < < t m T. Dans un premier temps, nous montrons comment construire un estimateur Quasi-Monte Carlo de la valeur de l option. Dans un second temps, nous testons la méthode de Quasi-Monte Carlo Randomisée pour évaluer l option considérée. Ecriture du prix de l option sous la forme d une intégrale On note h k = t k t k 1 et S k le cours du sous-jacent à la date t k. D après les résultats obtenus au Chapitre 1, on sait que les cours aux dates d observation véri ent le schéma récurrent suivant : S k = S k 1 exp((r 2 =2)h k + p h k G k ); k = 1; : : : ; m; (2.72) où les variables G 1 ; : : : ; G m sont i.i.d. de loi N (0; 1). En appliquant cette formule de proche en proche à partir de S 0 on obtient immédiatement :! mx p S k = S 0 exp (r 2 def =2)t k + hk G k = k (G 1 ; : : : ; G k ) : (2.73) k=1 En d autres termes, le cours à la date t k est une fonction de G 1 ; ; G k. En utilisant la formule (2.73) on a : T = T (S 1 ; : : : ; S m ) = T ( 1 (G 1 ) ; : : : ; m (G 1 ; : : : ; G m )) = (G 1 ; : : : ; G m ) : (2.74) 131
Notons que la relation obtenue est indépendante de la formule mathématique du payo. Posons U k = (G k ) où est la fonction de répartition de la loi normale standard. Alors U k U (0; 1). La formule (2.74) se réécrit : T = 1 (U 1 ) ; : : : ; 1 (U m ) ; (2.75) où U 1 ; : : : ; U m sont i.i.d. de loi U (0; 1). En injectant la formule (2.75) dans (2.71) on obtient : C = E e rt 1 (U 1 ) ; : : : ; 1 (U m ) Z = e rt 1 (u 1 ) ; : : : ; 1 (u m ) du 1 : : : du m : (2.76) C m Donc la valeur de l option peut s exprimer comme une intégrale sur le cube unité C m que l on peut approcher par la méthode de Quasi-Monte Carlo : C ' e rt N NX 1 (u n;1 ) ; : : : ; 1 (u n;m ) ; (2.77) n=1 où (u n ) est un générateur quasi-aléatoire. Tests comparatifs Les paramètres du modèle sont les mêmes que ceux utilisés au Chapitre 1 : r = 4%, = 20%, T = 10 et S 0 = K = 100. Les dates t 1 ; : : : ; t m sont dé nies par t k = kt=m avec m = 120, ce qui correspond à une fréquence d observation mensuelle. La valeur théorique de l option est C ' 17:8958. Nous utilisons ci-dessous la méthode de Quasi-Monte Carlo Randomisée pour approcher la valeur de l option avec les trois générateurs suivants : SQRT, HALT, HCMW. A n de comparer l e cacité de l approche RQMC avec celle de l approche Monte Carlo, nous faisons gurer les résultats obtenus avec les estimateurs Monte Carlo (MC), Monte Carlo Antithétique (MC-AV) et Monte Carlo Adaptatif (MC-AD) étudiés au Chapitre 1. Le générateur pseudo-aléatoire est le Mersenne Twister MT19937. Pour l ensemble des simulations réalisées, nous avons utilisé la fonction inverse gaussienne de Acklam. Résultats obtenus Les valeurs de N (nombre de termes de l estimateur RQMC) et de L (nombre de randomisations) sont les suivantes : N = 5 10 4 ; L = 10: Pour ces valeurs des paramètres, les di érents générateurs produisent N L = 5 10 5 nombres uniformes au total. Dans les deux tableaux ci-dessous, la colonne intitulée Err% donne l erreur relative d approximation, donnée par la formule Err%= j ^C=C 1j où ^C est le prix 132
estimé par simulation. La colonne intitulée Variance donne la variance empirique de l estimateur calculée sur les simulations. La colonne intitulée E cacité fournit l e cacité de l estimateur, calculée selon les règles du paragraphe 2.6.2. E cacité MC E cacité XX En n, la colonne intitulée Gain donne le ratio où XX désigne l une des autres méthodes envisagées. Ce ratio mesure le gain en terme d e cacité de la méthode XX par rapport à la méthode de Monte Carlo. Monte Carlo (LN=500000) Estimateur Prix Est. Int. Con ance Err% Variance E cacité Gain MC 17.8842 [17.8149,17.9534] 0.065% 624.27 6.64E-02 MC-AV 17.9268 [17.8922,17.9613] 0.173% 155.38 2.33E-02 2.86 MC-AD 17.9250 [17.8897,17.9602] 0.163% 161.53 2.53E-02 2.62 Quasi-Monte Carlo Randomisé (L=10, N=50000) Générateur Prix Est. Int. Con ance Err% Variance E cacité Gain SQRT 17.8812 [17.8624,17.9000] 0.081% 9.225E-04 4.64E-03 14.32 HALT 17.8822 [17.8535,17.9108] 0.076% 2.140E-03 1.08E-02 6.18 HCMW 17.8937 [17.8862,17.9013] 0.011% 1.471E-04 7.46E-04 89.11 Les méthodes testées ont toutes un indice d e cacité plus faible que celui de la méthode de Monte Carlo classique. Le gain d e cacité apporté par les méthodes de réduction de variance classiques (MC-AV et MC-AD) se situe entre 2:6 et 2:9. En comparaison, le gain d e cacité apporté par la méthode RQMC est supérieur à 6:1, quel que soit le générateur quasi-aléatoire employé. La méthode RQMC est donc plus e cace que les méthodes de réduction de variance classiques et le facteur d amélioration est supérieur à 2(' 6:18 2:86 ). Nous comparons ci-dessous les indices d e cacité des générateurs quasi-aléatoires. Le générateur de Halton (HALT) s avère le moins performant, puisque le gain d e cacité par rapport à la méthode MC est "seulement" de 6:18. Le générateur SQRT prend la seconde place du comparatif avec un gain de l ordre de 14:32 par rapport à la méthode MC. Ce qui représente une amélioration de l e cacité de l ordre de 2:32(' 14:32 6:18 ) par rapport au générateur HALT. En n, le générateur HCMW est le plus performant, car le gain en e cacité est de l ordre de 89:11 par rapport à la méthode MC. Cela correspond à une multiplication de l e cacité par un facteur égal à 6:22(' 89:11 14:32 ) par rapport au générateur SQRT et par un facteur égal à 14:42(' 89:11 6:18 ) par rapport au générateur de Halton classique. Par ailleurs, l erreur relative est inférieure à 0:1% pour l ensemble des générateurs quasi-aléatoires testés, alors qu elle est supérieure à 0:1% avec les méthodes de réduction de variance MC-AV et MC-AD. Cela prouve que la méthode RQMC est non seulement plus e cace que l approche Monte Carlo mais aussi plus précise. L erreur minimale est égale à 0:011%. Elle est atteinte avec le générateur HCMW, ce qui con rme la grande qualité de ce générateur quasi-aléatoire. Cette étude démontre que l approche RQMC constitue une méthode d intégration numérique e cace qui permet de déterminer la valeur d une option avec une grande précision. Par ailleurs, les temps de calcul avec la méthode RQMC sont 133
légèrement inférieurs à ceux des méthodes MC-AV et MC-AD. La méthode de Quasi-Monte Carlo Randomisée constitue donc une alternative intéressante aux méthodes de réduction de variance classiques pour évaluer des produits dérivés complexes. Choix optimal de L et N Dans la pratique, le nombre maximal de simulations réalisables, i.e. le produit LN, dépend exclusivement du temps de calcul total que l on peut allouer à l évaluation du produit. Ainsi, dans l exemple précédent, nous avons réalisé 5 10 5 simulations au total et nous avons choisi L = 10 et N = 5 10 4. On peut toutefois se demander s il existe une manière optimale de choisir L et N, pour obtenir une réduction de variance maximale, sachant le nombre total de simulations que l on peut réaliser. Cette question est un problème ouvert et il n existe pas de méthode systématique pour choisir L et N (Tu n 2005). Les analyses suivantes permettent d apporter un éclairage sur l in uence exercée par chacun des paramètres. Lorsque N augmente, on privilégie l échantillonnage quasi-aléatoire ce qui permet d obtenir une estimation plus précise de l intégrale à chaque randomisation. En conséquence, L diminue, de sorte que l intervalle de con ance estimé n est pas signi catif. Pour cette raison, on recommande de choisir L 10. Inversement, lorsque L augmente, on privilégie la composante Monte Carlo de l approche. L estimation de l intervalle de con ance est plus pertinente, car elle repose sur un "grand" nombre de randomisations. En contrepartie, l estimateur RQMC comporte moins de termes (N diminue), donc sa variance augmente et l on perd en précision de calcul. L utilisateur doit donc procéder à di érents tests, jusqu à ce qu il trouve un couple (L; N) qui permette de minimiser l intervalle de con ance autour du prix cherché. 2.7 Conclusion Dans ce chapitre, nous avons étudié la méthode d intégration numérique de Quasi-Monte Carlo (QMC), qui peut être considérée comme une version déterministe de la méthode de Monte Carlo et nous avons montré comment mettre en oeuvre cette approche pour évaluer des produits dérivés. Dans la seconde section, nous avons donné les fondements et propriétés théoriques de l approche Quasi-Monte Carlo. Elle repose sur un échantillonnage déterministe du domaine d intégration de la fonction étudiée par des suites de points hautement uniformes, appelées suites à discrépance faible ou générateurs quasi-aléatoires. L utilisation de ces suites garantit un taux de convergence asymptotique théorique de l ordre de O((ln N) s =N) où s est la dimension du problème et N est le nombre de simulations e ectuées, ce qui est nettement meilleur que le taux de convergence de la méthode de Monte Carlo qui est de l ordre de O(1= p N). Le principal inconvénient de la méthode de Quasi-Monte 134
Carlo est qu il n est pas possible d estimer l erreur d intégration commise à partir des simulations réalisées, comme c est le cas dans la méthode de Monte Carlo. La raison en est que les points utilisés sont déterministes et l on ne dispose plus d un outil tel que le théorème de la limite centrale pour construire un intervalle de con ance autour de la valeur de l intégrale cherchée. Par ailleurs, la méthode QMC perd de son e cacité lorsque la dimension du problème augmente, contrairement à la méthode de Monte Carlo dont la vitesse de convergence ne dépend que du nombre de simulations réalisées. Dans la troisième section, nous avons étudié la famille des suites de Weyl (1916), encore appelées suites de translations irrationnelles du Tore, qui reposent sur les propriétés des nombres irrationnels. Nous avons présenté di érentes suites de Weyl proposées dans la littérature et nous avons comparé leur comportement en projetant les points qu elles génèrent sur di érentes faces du cube unité. La suite SQRT de Richtmyer (1951) présente de très bonnes propriétés d équidistribution y compris en dimension élevée. En n, nous avons proposé un algorithme original pour générer les termes successifs d une suite de Weyl par récurrence. Les tests pratiqués montrent qu il réduit les temps de calcul d environ 30% par rapport à une implémentation naïve du générateur. Dans la quatrième section, nous avons étudié la famille des suites de Halton (1960), dont la construction repose sur les propriétés des nombres rationnels. En étudiant les projections des points de ces suites sur di érents plans, nous avons observé qu elles avaient une mauvaise équidistribution en dimension élevée. Nous avons alors envisagé di érentes approches pour améliorer leur équidistribution. Le générateur HCMW proposé par Chi et al. (2005), qui combine les propriétés de la suite SQRT de Richtmyer avec les propriétés des suites de Halton, donne des résultats particulièrement satisfaisants. En n, nous avons proposé deux algorithmes originaux pour générer par récurrence les suites de Halton classiques et généralisées. Ces algorithmes permettent de réduire les temps de calcul d environ 95% par rapport à une implémentation naïve de ces générateurs. Dans la cinquième section, nous avons comparé les temps de calcul des di érents générateurs étudiés en utilisant comme référence ceux du générateur pseudoaléatoire Mersenne Twister MT19937. Les résultats obtenus montrent que la suite de Halton est légèrement plus rapide que le Mersenne Twister, tandis que la suite SQRT et la suite HCMW sont légèrement plus lentes. Dans tous les cas, les temps de calcul des générateurs sont du même ordre de grandeur que celui du Mersenne Twister, donc ils peuvent être utilisés pour les simulations numériques intensives. Dans la sixième section, nous avons présenté la méthode dite de Quasi-Monte Carlo Randomisée (RQMC). Cette approche consiste à initialiser aléatoirement une suite à discrépance faible pour construire une série d estimateurs Quasi- Monte Carlo aléatoires. En calculant la moyenne empirique de ces estimateurs, 135
on obtient une approximation non biaisée de l intégrale cherchée. Le principal avantage de la méthode RQMC est qu elle converge rapidement comme la méthode de Quasi-Monte Carlo et que l on peut construire un intervalle de con ance pour le résultat obtenu comme dans la méthode de Monte Carlo. Nous avons appliqué la méthode RQMC au problème consistant à évaluer l option asiatique géométrique étudiée dans les tests du Chapitre 1. Les résultats obtenus ont montré que cette nouvelle approche est nettement plus e cace que les méthodes de réduction de variance classiques : elle permet de construire des intervalles de con ance étroits autour du prix cherché et l erreur d intégration est particulièrement faible. 136
A Quadratures déterministes classiques En dimension 1, les quadratures classiques consistent à approcher I en calculant la moyenne pondérée des valeurs prises par la fonction aux n+1 points u k = k=n pour k = 0; : : : ; n. On fait alors l approximation : Z 1 0 f(u)du ' nx k f (u k ) k=0 et l erreur commise est : " n = Z 1 0 f(u)du nx k f (u k ) : k=0 Dans la méthode des rectangles, on prend k = 1=n pour k = 0; : : : ; n n = 0. Si f est de classe C 1 sur [0; 1], alors 1 et j" n j kf 0 k 1 n, où kf 0 k 1 = sup fjf 0 (x)j : x 2 [0; 1]g : Dans la méthode des trapèzes, on prend 0 = n = 1=2n et k = 1=n pour k = 1; : : : ; n 1. Si f est de classe C 2 sur [0; 1], alors j" n j kf 00 k 1 12n 2, où kf 00 k 1 = sup fjf 00 (x)j : x 2 [0; 1]g : L extension des quadratures précédentes aux dimensions s 2 implique d évaluer f aux n = (m + 1) s points u k1;:::;k s = k1 m ; : : : ; ks m où chaque kd décrit f0; : : : ; mg. Ensuite, on construit une approximation de la forme : Z C s f(u)du ' mx k 1=0 mx! k1! ks f (u k1;:::;k s ) : k s=0 En dimension s, dès que la fonction f admet des dérivées partielles d ordre 2, l erreur d approximation avec la méthode des trapèzes devient O n 2=s, ce qui restreint considérablement la portée de la quadrature. Le nombre de nœuds croît exponentiellement avec la dimension et la méthode atteint vite ses limites quand s augmente : si 100 noeuds sont nécessaires pour obtenir le seuil de précision souhaité en dimension 1, alors pour maintenir le même degré de précision sur l estimation d une intégrale en dimension s = 5, il faudra évaluer la fonction en 100 5 = 10 10 points (soit dix milliards de points à calculer). Ce phénomène est appelé la "malédiction de la dimension". Il rend ces méthodes de quadrature impraticables en dimension élevée. 137
B Démonstration du théorème 2.8 La démonstration repose sur l utilisation du théorème 2.2. A n de simpli er les raisonnements, nous e ectuons un calcul préliminaire : En utilisant le fait que : il vient : hm; u n i = hm; fn + gi = hm; n + bn + ci = hm; n + i hm; bn + ci = n hm; i + hm; i hm; bn + ci : m 2 Z s n f0g ) hm; bn + ci 2 Z ) e 2ihm;bn+ci = 1; e 2ihm;uni = e 2ihm;in e 2ihm;i ; m 2 Z s n f0g : Alors, la somme de Weyl associée à u 1 ; : : : ; u N (cf. théorème 2.2) s écrit : S N (; ; m) def = 1 N NX n=1 e 2ihm;uni = e2ihm;i N NX e 2ihm;in : (2.78) Nous pouvons à présent établir l équivalence. L ordre de la démonstration est le suivant : (1))(2))(3))(1). (1))(2) : supposons la suite u équirépartie. Si n est pas irrationnel, alors il existe m 2 Z s n f0g tel que hm; i 2 Z. Dans ce cas, on a e 2ihm;in = 1 pour toute valeur de n 2 N, de sorte que : n=1 8N 2 N ; S N (; ; m) = e 2ihm;i 6= 0: Par ailleurs, la suite étant équirépartie, elle véri e (2.5), i.e. lim N!+1 S N (; ; m) = 0. Il y a contradiction, donc est nécessairement irrationnel. (2))(3) : supposons irrationnel. Soit r 0 ; r 1 ; : : : ; r s 2 Q s+1 tels que r 0 + P s i=1 r i i = 0. Notons r i = p i =q i avec q i 2 N Q et posons R = s q i 2 N, ~r 0 = Rr 0 et ~r = (Rr 1 ; ; Rr s ) 0. Par construction, on a ~r 0 2 Z et ~r 2 Z s et h~r; i = ~r 0. Si ~r 6= 0, alors h~r; xi =2 Z car est irrationnel. Ce cas est exclu étant donné que ~r 0 2 Z. Donc ~r est le vecteur nul puis ~r 0 = h~r; i = 0. (3))(1) : supposons 1; 1 ; : : : ; s linéairement indépendants sur Q. Soit m 2 Z s n f0g, alors hm; i 6= 0 (sinon, on aurait trouvé une combinaison linéaire nulle de 1; 1 ; : : : ; s avec des coe cients non tous nuls). Dans ce cas, les termes e 2ihm;in dans (2.78) forment une suite géométrique de raison e 2ihm;i 6= 1 et l on peut simpli er l expression de S N (; ; m). On obtient tous calculs faits : S N (; ; m) = e2ihm;+i N 138 i=0 1 e 2ihm;iN : (2.79) 1 e2ihm;i
En prenant la norme de chaque membre de (2.79) et en remarquant que e 2ihm;+i = 1 et que 1 e 2ihm;iN 1 + e 2ihm;iN = 2, il vient : js N (; ; m)j = e 2ihm;+i N 1 e 2ihm;iN 1 e 2ihm;i 1 2 N 1 e 2ihm;i : (2.80) En passant à la limite dans (2.80) il vient lim N!+1 S N (; ; m) = 0. Donc la suite u véri e (2.5), ce qui prouve qu elle est équirépartie. C Démonstration du théorème 2.16 Nous commençons par énoncer une série de propositions qui simpli eront la démonstration. On rappelle que b est une permutation de N b dé nie par la relation : b (k) =!k mod b; 0 k b 1; (2.81) où! est une racine primitive de l unité di érente de 1, ce qui impose : 1! b 1: (2.82) Proposition 2.20 Pour 0 k b 1, on a la relation suivante : (! + k) mod b = (! + k b) + b1 fk<b!g : (2.83) Proof. Comme 0 k b 1 et avec (2.82) on a : 1! + k 2b 2: Il su t alors de distinguer des cas. si k < b!, alors 0! + k b 1, puis (! + k) mod b =! + k. si k b!, alors b! + k 2b 2, puis 0! + k b b 2, i.e. (! + k) mod b =! + k b. Alors, on a : (! + k) mod b = (! + k) 1 fk<b!g + (! + k b) 1 fkb!g = (! + k b) + b1 fk<b!g : Proposition 2.21 Pour 1 k b 1, on a la relation suivante : b (k + 1) = (! + b (k)) mod b (2.84) = (! b + b (k)) + b1 fb (k)<b!g (2.85) 139
Proof. Il su t d écrire : b (k + 1) = (! (k + 1)) mod b = (! +!k) mod b = (! + b (k)) mod b: On conclut en remarquant que 1 b (k) b (2.83). 1 et en appliquant la formule Proposition 2.22 On a la formule suivante : Proof. Ecrivons : b (b 1) = b!: (2.86) b (b 1) = (! (b 1)) mod b = ((! 1) b + (b!)) mod b = (b!) mod b: Avec (2.82) il vient 1 b! b 1, ce qui prouve que b! = (b!) mod b puis (2.86). Proposition 2.23 Les chi res ~a i (n + 1) sont donnés par la règle suivante : 8 < 0 pour i < q n ~a i (n + 1) = (! + ~a qn (n)) mod b pour i = q n ; (2.87) : ~a i (n) pour i > q n où q n est dé ni par (2.53). Proof. Pour i < q n alors, a i (n + 1) = 0 puis ~a i (n + 1) = b (a i (n + 1)) = (0) = 0: Pour i > q n alors, a i (n + 1) = a i (n) d où ~a i (n + 1) = b (a i (n + 1)) = b (a i (n)) = ~a i (n) : Pour i = q n, en appliquant (2.84) il vient : ~a qn (n + 1) = b (a qn (n + 1)) = b (1 + a qn (n)) = (! + ~a qn (n)) mod b: 140
La formule (2.87) nous permet d écrire la relation liant ( b) b (n + 1) et ( b) b (n) : ( b) b (n + 1) = +1X i=0 ~a i (n + 1) b i+1 = ~a q n (n + 1) b qn+1 + +1X ~a i (n + 1) b i+1 i>q n = ~a q n (n + 1) +1X ~a i (n) b qn+1 + b i+1 i>q n = ( b) b (n) + ~a q n (n + 1) ~a qn (n) b qn+1 Or, pour tout i < q n en utilisant (2.86) on a : qx n 1 i=0 ~a i (n) : (2.88) bi+1 Alors : qx n 1 i=0 a i (n) = b 1, ~a i (n) = b (b 1) = b!: qn 1 ~a i (n) b i+1 = (b!) X 1 b i+1 = b! 1 b 1 i=0 En injectant (2.89) dans (2.88), il vient : ( b) b (n + 1) = ( b) b (n) + ~a q n (n + 1) ~a qn (n) b! b qn+1 b 1 D après (2.87) et avec (2.85) on a : Alors, ~a qn (n + 1) = (~a qn (n) +!) mod b 1 b qn 1 : (2.89) 1 b qn : (2.90) = (! b + ~a qn (n)) + b1 f~aqn (n)<b!g: (2.91) ~a qn (n + 1) ~a qn (n) b qn+1 = (! b) + b1 f~a qn b qn+1 En injectant cette relation dans (2.90) on obtient : (n)<b!g = 1 f~a qn (n)<b!g b! : (2.92) b qn bqn+1 ( b) b (n + 1) = ( b) b (n) + 1 f~a qn (n)<b!g b! b! b qn b qn+1 b 1 1 b 1 = ( b) b (n) + b! b 1 = ( b) b (n) + b! b 1 1 b qn 1 b qn+1 1 Ce dernier point établit la formule annoncée. b qn+1 1 1 b qn + 1 f~a qn (n)<b!g b qn + 1 f~a qn (n)<b!g b qn : (2.93) 141
D Démonstration du lemme 2.19 On pose Y = (x + V ) mod 1. Il su t de prouver la relation : P = fy 1 y 1 ; : : : ; Y s y s g = sy y i ; y 2 [0; 1] s : Etant donné que les coordonnées de V sont mutuellement indépendantes, on a déjà : sy P = fy 1 y 1 ; : : : ; Y s y s g = P fy i y i g : En appliquant le résultat (2.31), on peut écrire Y i = (~x i + V i ) mod 1, où ~x i def = x i mod 1 2 [0; 1[. On peut alors appliquer la formule (2.34) en remplaçant x i par ~x i : i=1 i=1 P fy i y i g = P f(~x i + V i ) mod 1 y i g = P ~x i + V i 1 fvi1 x ig y i = P (f~x i + V i y i g \ fv i < 1 ~x i g) +P (f~x i + V i 1 y i g \ fv i 1 ~x i g) = P fv i y i ~x i g + P f1 ~x i V i 1g = y i ~x i + 1 (1 ~x i ) = y i : Ce dernier point achève la démonstration. 142
Références Bachman G., Narici L., Beckenstein E. (2000). Fourier and Wavelet Analysis, Springer-Verlag, New York. Bouleau N., Lépingle D. (1993). Numerical methods for stochastic processes, John Wiley & Sons Ltd. Boyle P.P., Broadie M., Glasserman P. (1995). Recent Advances in Simulation For Security Pricing, Proceedings of the 1995 Winter Simulation Conference. Boyle P.P., Tan K.S. (1997). Quasi-Monte Carlo Methods, Proceeding of AFIR Conference in Cairns, Australia. Chen C.-M., Bhatia R., Sinha R.K. (2003). Multidimensional Declustering Schemes using Golden Ratio and Kronecker Sequences, IEEE Transactions on Knowledge and Data Engineering, pp. 659-670. Chi H. (2004). Scrambled Quasirandom Sequences And Their Applications, PhD Thesis, The Florida State University. Chi H., Mascagni M., Warnock T. (2005). On the optimal Halton sequence, Mathematics and Computers in Simulation 70, pp. 9-21. Coulibaly I. (1997). Contributions à l analyse numérique des méthodes quasi- Monte Carlo, Thèse de Doctorat, Université Joseph Fourier-Grenoble 1. Cranley R., Patterson T.N.L. (1976). Randomization of Number Theoretic Methods for Multiple Integration, SIAM Journal on Numerical Analysis, Vol. 13, No. 6, pp. 904-914. Da Silva M.E., Barbe T. (2005). Quasi Monte Carlo in Finance : Extending for High Dimensional Problems, Economia Aplicada, Vol. 9, No. 4, pp. 577-594. Devroye L. (1986). Non-Uniform Random Variate Generation, Springer-Verlag, New York. Drmota M., Tichy R.F. (1997). Sequences, Discrepancies, and Applications, Lecture Notes in Mathematics 1651, Springer-Verlag. Faure H. (1981). Discrépance de suites associées à un système de numération (en dimension 1), Bulletin de la S.M.F., Tome 109, pp. 143-182. Faure H. (1982). Discrépance de suites associées à un système de numération (en dimension s), Acta Arithmetica, Vol. 41, pp. 337-351. Faure H., Lemieux C. (2007). Generalized Halton Sequences in 2007 : A Comparative Study, Papier de Recherche, Institut Mathématique de Luminy, http: //iml.univ-mrs.fr/editions/preprint2007/files/faure_hfl.pdf. Finschi L. (1996). Quasi-Monte Carlo : An Empirical Study on Low-Discrepancy Sequences, Working Paper, Eidgenössische Technische Hochschule Zürich. Galanti S., Jung L. (1997). Low Discrepancy Sequences : Monte Carlo Simulation of Option Prices, The Journal Of Derivatives, pp. 63-83. Glasserman P. (2004). Monte Carlo methods in nancial engineering, Springer. Haber S. (1966). A Modi ed Monte-Carlo Quadrature, Mathematics of Computation, Vol. 20, No. 95, pp. 361-368. Haber S. (1970). Numerical Evaluation of Multiple Integrals, SIAM Review, Vol. 12, No. 4, pp. 481-526. Halton J.H. (1960). On the e ciency of certain quasi-random sequences of points in evaluating multi-dimensional integrals, Numerische Mathematik 2, 143
pp. 84-90. Hammersley J.M., Handscomb D.C. (1964). Monte Carlo Methods, Methuen, London. Heng L., Qinghua L., Fengshan B. (2005). A Class of Random Number Generators Based on Weyl Sequence, Applied Mathematics-A Journal of Chinese Universities, Vol. 20, No. 4, pp. 483-490. Hofbauer H., Uhl A., Zinterhof P. (2006a). Zinterhof Sequences in GRID-Based Numerical Integration, Monte Carlo and Quasi-Monte Carlo Methods 2006 (A. Keller, S. Heinrich, H. Niederreiter Eds.), Springer, pp. 495-510. Hofbauer H., Uhl A., Zinterhof P. (2006b). A Pragmatic View on Numerical Integration of Unbounded Functions, Monte Carlo and Quasi-Monte Carlo Methods 2006 (A. Keller, S. Heinrich, H. Niederreiter Eds.), Springer, pp. 511-528. Jäckel P. (2002). Monte Carlo methods in nance, John Wiley & Sons. James F., Hoogland, J., Kleiss R. (1997). Multidimensional sampling for simulation and integration : measures, discrepancies, and quasi-random numbers, Computer Physics Communications, Vol. 99, No. 2, pp-180-220. Judd K.L. (1998). Numerical Methods in Economics, The MIT Press. Judd K.L. (2006). O Curse of Dimensionality, Where is Thy Sting?, Proceedings of CEF2006, Cyprus. Kocis L., Whiten W.J. (1997). Computational investigations of low-discrepancy sequences, ACM Transactions on Mathematical Software 23, No. 2, pp. 266-294. Kuipers L., Niederreiter H. (1974). Uniform Distribution of Sequences, John Wiley & Sons. Larcher G. (1988). On the distribution of s-dimensional Kronecker sequences, Acta Arithmetica, Vol. 51, pp. 335-347. Lebrere A., Talhi R., Tripathy M., Pyée M. (2001). A quick and easy improvement of Monte Carlo codes for simulation, Proceedings of ISSS-6. L Ecuyer P. (2004b). Quasi-Monte Carlo Methods in Finance, Proceedings of the 2004 Winter Simulation Conference. Lemieux C. (2008). Monte Carlo and Quasi-Monte Carlo Sampling, Springer (to appear). Moroko W.J., Ca isch R.E. (1994). Quasi-random sequences and their discrepancies, SIAM Journal on Scienti c Computing, Vol. 15, pp. 1251-1279. Niederreiter H. (1972). On a number-theoretical integration method, Aequationes Mathematicae 8, pp. 304-311. Niederreiter H. (1978). Quasi-Monte Carlo methods and pseudo-random numbers, Bulletin of the American Mathematical Society, Vol. 84, No. 6, pp. 957-1041. Niederreiter H. (1992). Random Number Generation and Quasi-Monte Carlo Methods, SIAM-CBMS Lecture Notes 63. Niven I. (1956). Irrational Numbers, The Mathematical Association of America. Ökten G. (1997). Contributions to the Theory of Monte Carlo and Quasi-Monte Carlo Methods, PhD Thesis, Claremont Graduate University. 144
Ökten G.,Tu n B., Burago V. (2005). A Central Limit Theorem and improved error bounds for a hybrid-monte Carlo sequence with applications in computational nance, Inria, Rapport de recherche No. 5600. Owen A.B. (2004). Multidimensional variation for quasi-monte Carlo, Research Paper, http://www-stat.stanford.edu/~owen/reports/. Owen A.B. (2005). On the Warnock-Halton quasi-standard error, Research Paper, http://www-stat.stanford.edu/~owen/reports/. Pagès G., Xiao Y.-J. (1997). Sequences with low discrepancy and pseudorandom numbers : theoretical results and numerical tests, Journal of Statistical Computation and Simulation, Vol. 56, pp. 163-188. Papageorgiou A., Traub J.F. (1996). Beating Monte Carlo, Risk Magazine, Vol. 9, pp. 63-65. Papageorgiou A., Traub J.F. (1997). Faster Evaluation of Multidimensional Integrals, Working Paper, Department of Computer Science, Columbia University New-York. Paskov S.H. (1994). Computing High Dimensional Integrals with Applications to Finance, Technical Report CUCS-023-94, Department of Computer Science Columbia University. Patard P.-A. (2001). Evaluation de Swaps Structurés sur Actions et Indices, Mémoire d actuaire, Institut de Science Financière et d Assurances, Université Claude Bernard Lyon 1. Richtmyer R.D. (1951). On the evaluation of de nite integrals and a quasi- Monte Carlo method based on properties of algebraic numbers, Report LA- 1342, Los Alamos Scienti c Laboratories. Schlier C. (2004a). Discrepancy behaviour in the non-asymptotic regime, Applied Numerical Mathematics 50, pp. 227-238. Schlier C. (2004b). Error trends in Quasi-Monte Carlo integration, Computer Physics Communications 159, pp. 93-105. Snyder W.C. (2000). Accuracy estimation for quasi-monte Carlo simulations, Mathematics and Computers in Simulation 54, pp. 131-143. Struckmeier J. (1995). Fast generation of low-discrepancy sequences, Journal of Computational and Applied Mathematics, Vol. 91, pp. 29-41. Takhtamyshev G., Vandewoestyne B., Cools R. (2007). Quasi-random integration in high dimensions, Mathematics and Computers in Simulation 73, pp. 309-319. Tezuka S. (1995). Uniform Random Numbers : Theory and Practice, Kluwer Academics Publishers. Thiémard E. (2000a). Sur le calcul et la majoration de la discrépance à l origine, Thèse de Doctorat, EPFL. Thiémard E. (2000b). An algorithm to compute bounds for the star discrepancy, Research Paper, EPFL. Tu n B. (1996a). Improvement of Halton Sequences distribution, Irisa, Publication interne 998. Tu n B. (1996b). On the Use of low discrepancy sequences in Monte-Carlo methods, Irisa, Publication interne 1060. 145
Tu n B. (1997). Simulation accélérée par les méthodes de Monte Carlo et quasi-monte Carlo : théorie et applications, Thèse de Doctorat, Université Rennes 1. Tu n B. (2005). Randomization of Quasi-Monte Carlo Methods for Error Estimation Survey and Normal Approximation, Irisa-Inria, Research Paper. Vandewoestyne B., Cools R. (2006). Good permutations for deterministic scrambled Halton sequences in terms of L 2 discrepancy, Journal of Computational and Applied Mathematics, Vol. 189, pp. 341-361. Wang X., Hickernell F.J. (2000). Randomized Halton sequences, Mathematical and Computer Modelling, Vol. 32, pp. 887-899. Warnock T.T. (2001). E ective error estimates for quasi-monte Carlo computations, Technical Report LA-UR-01-1950, Los Alamos National Labs, http: //lib-www.lanl.gov/la-pubs/00367143.pdf. Weyl H. (1916). Über die Gleichverteilung von Zahlen mod. Eins, Mathematische Annalen 77, pp. 313-352. Zinterhof P. (1987). Gratis Lattice Points for Multidimensional Integration, Computing, Vol. 38, No. 4, pp347-353. Zinterhof P. (1994). Parallel Generation and Evaluation of Weyl Sequences, Report R5Z-4, PACT Project. 146
Deuxième partie Modélisation des données de marché 147
Le principal avantage des modèles de marché mathématiques est qu ils permettent d attribuer une valeur à un produit dérivé qui soit consistante avec les prix des actifs observés sur le marché à l instant de l évaluation. Cela suppose toutefois de choisir les paramètres du modèle de manière à ce que celui-là retrouve (ou approche avec une grande précision) les prix des actifs utilisés pour la couverture du produit considéré à un instant donné. C est ce que l on appelle la calibration du modèle. Elaborer un procédé de calibration est une tâche délicate, qui soulève de nombreuses di cultés opérationnelles. La première di culté est le choix des instruments utilisés pour la calibration, car les valeurs des paramètres dépendent complètement de cette sélection. La seconde di culté provient du fait que les marchés "réels" ne sont pas parfaits : les données observées (prix d options, taux cotés...) sont en général incomplètes, bruitées et présentent des opportunités d arbitrage (McIntyre 2001). Si l utilisateur ne prend pas garde à leur appliquer un retraitement préliminaire pour les régulariser, il risque d obtenir des paramètres inconsistants pour le modèle, ce qui peut induire des problèmes de convergence des algorithmes et des prix faux ou arbitrables pour les produits dérivés considérés. Par ailleurs, les modèles de marché existants ne sont pas su samment performants pour que l on puisse se contenter de les calibrer une fois pour toutes. En pratique, les paramètres du modèle doivent être réestimés périodiquement, de manière à prendre en compte l évolution de la con guration du marché depuis la dernière date d évaluation du produit. L expérience montre que le fait de travailler sur des données non-arbitrables permet d accroître la stabilité des paramètres estimés au cours du temps (Bekker et Bouwman 2007). Etant donné que la calibration est une tâche répétitive, il faut accorder une importance particulière à l automatisation du traitement des données de marché, de manière à réduire l intervention de l utilisateur. On peut alors envisager de calibrer les modèles pendant la nuit ce qui permet de gagner du temps pour procéder à la valorisation des di érents produits dérivés dès le lendemain matin. La qualité des prix et des paramètres de couverture des produits dérivés dépend étroitement de la manière dont les données de marché sont modélisées et de l implémentation des procédures de calibration. Pour cette raison, les entreprises d investissement entretiennent la plus grande con dentialité autour des technologies qu elles ont développées dans ce domaine. On ne peut donc pas considérer qu il existe une pratique de place pour la modélisation des données de marché, chaque institution ayant développé des solutions qui lui sont propres. Cette partie est consacrée à la modélisation des données de marché qui interviennent dans les modèles de type action : les taux d intérêt, les dividendes et la volatilité implicite. Les deux premiers paramètres sont des variables économiques que l on peut observer directement. Le troisième paramètre est inobservable et il faut l estimer à partir des prix des options cotées. 148
La partie est constituée de trois chapitres. Dans le premier chapitre nous étudions la construction d une courbe de taux zéro-coupon sous l hypothèse d absence d opportunité d arbitrage. Nous discutons le choix des instruments de calibration et nous présentons une méthode pour extraire les facteurs d actualisation associés aux maturités des instruments choisis. En n, nous proposons deux méthodes d interpolation des taux zéro-coupon (dont une nouvelle) qui permettent d obtenir une courbe non-arbitrable. Dans le second chapitre, nous proposons une étude complète des problématiques opérationnelles soulevées par la construction d une surface de volatilité implicite non-arbitrable. Nous envisageons di érentes modélisations de la surface de volatilité et nous montrons qu elles ne parviennent pas à capturer correctement la forme des données ou qu elles ne permettent pas d extrapoler les volatilités implicites manquantes. Nous présentons alors une nouvelle méthode qui permet d interpoler et d extrapoler la surface de volatilité implicite avec précision et de supprimer les arbitrages de manière systématique. Dans le troisième chapitre 9, nous envisageons la problématique de l évaluation d une option Européenne en présence de dividendes discrets dont les montants sont connus à l avance. Nous appliquons les résultats de la théorie actuarielle des risques comonotones pour construire une formule fermée qui permet d approcher le prix de l option avec une précision accrue par rapport aux approximations existantes. 9 Une version de ce chapitre a été publiée dans les Cahiers de Recherche de l ISFA (février 2008) et a été soumise à la revue Banque et Marchés sous le titre Approximations comonotones pour la valeur d une option d achat Européenne en présence de dividendes discrets. 149
Chapitre 3 Construction de la gamme des taux zéro-coupon en l absence d opportunité d arbitrage 3.1 Introduction La construction des gammes de taux zéro-coupon est une étape préliminaire indispensable du processus d évaluation des produits dérivés, quelle que soit la nature des sous-jacents utilisés 1. Les deux principales raisons sont les suivantes : le processus de taux sans risque instantané, noté (r t ) t0, contrôle la tendance de la dynamique des prix dans l univers risque-neutre, R T les facteurs d actualisation B (t; T ) = exp r t s ds, permettent de "convertir" tout ux payé à une date T > t, en un ux équivalent à la date t. Formellement, la gamme (ou courbe) des taux zéro-coupon à la date t est la fonction R (t; ) qui à toute date T > t associe le taux continu zéro-coupon R (t; T ) tel que : B (t; T ) = exp ( R (t; T ) (t; T )) ; où (t; T ) désigne le nombre d années entre la date t et la date T. Le choix de travailler avec des taux continus est une convention standard lorsque l on s intéresse à l évaluation des produits dérivés, car la plupart des modèles classiques supposent une dynamique des prix en temps continu. La fonction T! R (t; T ) 1 Dans le cadre de ce travail, nous nous intéressons à l évaluation des produits dérivés écrits sur des actifs de type action. Dans ce cas précis, l usage veut que l on néglige la volatilité des taux par rapport à la volatilité de l actif risqué. Cela signi e que l on travaille avec des taux déterministes. 150
n est pas un paramètre de marché directement observable : en pratique on doit l estimer à partir des prix d un panier d instruments de marché bien choisis. Principe de la construction d une courbe zéro-coupon La construction de la courbe en tant que telle comporte quelques di cultés mathématiques mais, ce sont surtout le choix et le retraitement des données à partir desquelles seront menés les calculs, qui peuvent s avérer particulièrement délicats. En e et, si l on n est pas assez attentif à la qualité des données et aux conventions de marché utilisées, le risque est d obtenir des inconsistances dans la gamme de taux estimée, ce qui pourrait introduire des biais lors de l évaluation des produits dérivés. Les di érentes étapes de la construction d une courbe de taux sont les suivantes. 1. Choix d une famille d instruments de calibration liquides, dont les dates d échéances couvrent une plage de maturité allant de quelques jours à au moins dix ans. 2. Extraction de taux zéro-coupon R (t; T 1 ) ; : : : ; R (t; T n ) à partir des prix observés pour les instruments du panier. En général, T 1 : : : T n correspondent aux dates d échéances des instruments considérés. 3. Choix d une famille de fonctions d interpolation ou de lissage su samment régulières qui permettent de calculer la valeur du taux zéro-coupon R (t; T ) pour toute date t T T n. 4. Calibration de la fonction choisie sur les taux zéro-coupon obtenus à l étape 2 du processus. Observations Au niveau des étapes 1 et 2 du processus précédent, les deux principales di cultés rencontrées par le praticien sont (i) de sélectionner des instruments de calibration liquides, appartenant à une classe de risques homogènes et (ii) d intégrer dans les calculs les conventions de marché associées aux produits du panier de calibration qui dépendent de la devise considérée et de la nature de l instrument utilisé. Les étapes 3 et 4 soulèvent des problématiques de nature mathématique. On peut choisir d interpoler ou bien de lisser les taux zéro-coupon obtenus. Il n existe pas d approche optimale, les deux solutions comportant des avantages et des inconvénients que nous discuterons dans la suite. La dernière étape est un problème d optimisation : il s agit d ajuster une fonction paramétrique ou non paramétrique sur un ensemble de points discrets. L objectif de ce chapitre est de proposer une méthodologie robuste pour construire la gamme de taux zéro-coupon dans n importe quelle économie. Notre travail est organisé selon le schéma suivant : dans la seconde section, nous donnons les principaux résultats théoriques sur les courbes zéro-coupon et nous démontrons les contraintes que doit véri er une telle courbe en l absence d opportunité d arbitrage. Dans la troisième section, nous présentons les conventions de marché utilisées pour gérer les dates et les échéanciers de ux. Dans la quatrième 151
section, nous posons le problème de la reconstruction de la courbe des taux d intérêts dans le cadre de l évaluation de produits optionnels et nous discutons le choix des instruments de calibration. Dans la cinquième section, nous montrons comment extraire les facteurs d actualisation associés aux maturités des instruments du panier de calibration. Dans la sixième section, nous répondons à la question : est-il préférable de lisser ou d interpoler les taux obtenus lors de l estimation des facteurs d actualisation, puis nous proposons deux méthodes robustes et simples à mettre en oeuvre pour obtenir des courbes de taux zéro-coupon non-arbitrables ; la seconde méthode, basée sur les splines cubiques contraints, est inédite. Dans la septième section, nous démontrons l e cacité des méthodes proposées sur un exemple pour lequel les approches classiques ne permettent pas d obtenir une courbe non-arbitrable. La conclusion est donnée dans la huitième section. 3.2 Eléments de théorie Dans cette section, nous donnons les concepts théoriques qui seront utilisés lors de la construction de la courbe zéro-coupon et nous démontrons que l hypothèse d absence d opportunité d arbitrage (AOA) induit des contraintes sur la forme de la courbe des taux, qu il faut impérativement prendre en compte lors de la procédure de reconstruction. La lettre t désigne la date courante (aujourd hui). 3.2.1 Autour de la notion de zéro-coupon Obligation zéro-coupon On appelle obligation zéro-coupon (ou plus simplement zéro-coupon) d échéance T un instrument nancier qui paye une unité monétaire (u.m.) à la date T et qui ne détache aucun ux avant la date T. On note B (t; T ) le prix en date t de l obligation d échéance T : B (t; T ) = prix en date t de 1 u.m. payée en date T. Par dé nition, on a B (t; t) = 1. Lorsque les taux sont déterministes, la quantité B (t; T ) est appelée facteur d actualisation à la date t et la fonction T! B (t; T ) est appelée fonction d actualisation à la date t. Dans la suite, nous emploierons indi éremment l expression "facteur d actualisation" ou "zéro-coupon". Taux zéro-coupon Il existe plusieurs manières de dé nir le taux de rendement d un zéro-coupon. 152
Taux zéro-coupon annuel continu Le taux zéro-coupon annuel continu qui prévaut entre les dates t et T, noté R (t; T ), est dé ni par la relation : B (t; T ) = exp ( R (t; T ) (t; T )), R (t; T ) = ln B (t; T ) (t; T ) ; (3.1) où (t; T ) désigne le nombre d années entre la date t et la date T, c est-à-dire la maturité du zéro-coupon. La fonction T! R (t; T ) est appelée la gamme (ou courbe ou structure par terme) des taux zéro-coupon à la date t. C est précisément cette fonction que nous cherchons à obtenir. Taux zéro-coupon continu at On appelle taux zéro-coupon continu at ou, plus simplement, taux zéro-coupon at la quantité dé nie par : ~R (t; T ) = R (t; T ) (t; T ) = ln B (t; T ) : (3.2) Etant donné que B (t; t) = 1, on a ~ R (t; t) = 0. Taux zéro-coupon annuel linéaire Le taux zéro-coupon annuel linéaire qui prévaut entre les dates t et T, noté L (t; T ), est dé ni par la relation : 1 B (t; T ) = 1 + L (t; T ) L (t; T ), L (t; T ) = 1 1 1 : (3.3) L (t; T ) B (t; T ) La quantité L (t; T ) désigne le nombre d années entre la date t et la date T. L indice "L" signi e simplement que l on ne mesure pas nécessairement les années de la même manière lorsque le taux considéré est linéaire et lorsque le taux considéré est continu. Ce point sera discuté dans la suite. Nous pouvons maintenant introduire la notion de taux forward. 3.2.2 Taux forward D une manière générale, le terme "forward" désigne tout instrument ou toute grandeur nancière relative à une période dont la date de départ T est supérieure à la date courante t. Zéro-coupon forward-start Un zéro-coupon forward-start est un zéro coupon dont la date de départ T est supérieure à la date t. On note B (T; U) le prix qu il faudra payer à la date T pour détenir le zéro-coupon forward-start d échéance U T : B (T; U) = prix en date T de 1 u.m. payée en date U. Il est possible de xer à la date t le prix futur B (T; U). Le principe est d acheter le zéro-coupon d échéance U et de vendre simultanément B (t; U) =B (t; T ) zérocoupons d échéance T. La stratégie donne lieu à deux ux : un ux sortant à la 153
date T (égal à B (t; U) =B (t; T )) et un ux entrant à la date U (égal à 1 u.m.). On reconnaît un zéro-coupon synthétique de départ T et d échéance U dont le prix est donné par la formule : B t (T; U) def = B (t; U) ; T U: (3.4) B (t; T ) L indice "t" signi e qu il s agit d une quantité "vue de t". En faisant T = t et U = T dans la formule ci-dessus on retrouve le prix d un zéro-coupon départ t : i.e. B t (t; T ) = B (t; T ). Donc la dé nition (3.4) est consistante. Taux zéro-coupon forward Comme dans le cas des opérations départ t, il existe plusieurs manières de dé nir le taux de rendement associé à un zéro-coupon forward-start. Taux zéro-coupon forward annuel continu Le taux de rendement associé au zéro-coupon forward-start est noté R t (T; U) et dé ni par : R t (T; U) = ln B t (T; U) (T; U) = ln B (t; T ) ln B (t; U) ; (3.5) (T; U) où (T; U) est le nombre d années entre la date T et la date U, c est-à-dire la maturité de l obligation. Taux zéro-coupon forward continu at Le taux de rendement associé au zéro-coupon forward-start est noté R ~ t (T; U) et dé ni par : ~R t (T; U) = ln B t (T; U) = ln B (t; T ) ln B (t; U) : (3.6) Taux zéro-coupon forward annuel linéaire Le taux de rendement forward linéaire entre la date T et la date U est dé ni par la relation : B t (T; U) = 1 1 + L t (T; U) L (T; U) : (3.7) Un simple calcul nous donne : L t (T; U) = 1 B (t; U) L (t; T ) B (t; T ) 1 : (3.8) Nous disposons de tous les éléments pour dé nir le concept de taux instantané. 154
3.2.3 Taux instantané Taux forward instantané On suppose que la fonction U! R t (T; U) est continue. On peut alors dé nir pour chaque date T la quantité : r t (T ) def = lim U!T + R t (T; U) : (3.9) r t (T ) est appelé taux forward implicite instantané ou plus simplement taux forward instantané. Il s agit du taux court qui prévaudra entre les dates futures T et T +dt, vu de t. Nous en donnons une interprétation au paragraphe suivant. En remplaçant R t (T; U) par son expression (3.5) on véri e facilement que : r t (T ) = @ ln B t (T; U) @ ln B (t; U) @U = U=T @U : (3.10) U=T D après (3.2), on peut remplacer ln B (t; U) par R ~ (t; U) dans la formule précédente, ce qui nous donne une troisième expression pour le taux forward instantané : r t (T ) = @ R ~ (t; U) : (3.11) @U U=T A partir de (3.10), on peut exprimer très simplement les prix zéro-coupon en fonction du taux forward instantané :!! B (t; T ) = exp Z T t r t (s) ds, B t (T; U) = exp Z U T r t (s) ds : (3.12) Nous donnons ci-dessous une interprétation simple du taux forward instantané lorsque l économie est stochastique. Interprétation du taux forward instantané On suppose que, en plus des zéro-coupons, il est possible d investir dans un actif monétaire "sans risque", dont les intérêts sont capitalisés continûment au taux court de l économie r t, supposé stochastique. Soit t;t, la valeur à la date T, de 1 u.m. investie dans l actif monétaire à la date t. On a clairement :! t;t = exp Z T t r s ds : (3.13) A n d éviter toute opportunité d arbitrage entre l actif monétaire et le zérocoupon, il faut imposer la condition suivante : un investissement de B (t; T ) u.m. dans le zéro-coupon d échéance T et un investissement de B (t; T ) u.m. dans l actif monétaire doivent tous deux générer 1 u.m. à la date T. Etant donné 155
que le taux court évolue de manière stochastique, cette condition se traduit par la relation (Rebonato 2002) : Z! # T B (t; T ) = E Q "exp r s ds jf t ; (3.14) où E Q [ jf t ] est l opérateur "espérance sous Q conditionnellement à l information disponible en t" et Q désigne une mesure de probabilité risque-neutre (Harrison et Kreps 1979, Harrison et Pliska 1981). Par un raisonnement analogue, on démontre aussi la relation : Z! # U B t (T; U) = E Q "exp r s ds jf t : (3.15) En nous basant sur (3.15), on peut écrire 2 : t T @ ln B t (T; U) @U = = = @B t (T; U) =@U B t (T; U) " 1 B t (T; U) E Q @ exp " 1 B t (T; U) E Q r U exp Z U T Z U T! # r s ds =@U jf t r s ds! # jf t : (3.16) En faisant U = T dans (3.16) on obtient : @ ln B t (T; U) @U En identi ant le résultat obtenu avec (3.10) il vient : = E Q [r T jf t ] : (3.17) r t (T ) = E Q [r T jf t ] ; T t: (3.18) La relation précédente montre que, lorsque les taux sont stochastiques, le taux forward instantané est la meilleure estimation possible du taux court futur. Lorsque l on suppose que les taux sont déterministes, on peut supprimer l opérateur espérance dans la formule (3.18) qui s écrit alors : r t (T ) = r T : (3.19) Dans ce cas, le taux forward instantané est égal au taux court qui prévaudra dans le futur. Les concepts introduits jusqu ici reposent implicitement sur l hypothèse d absence d opportunité d arbitrage (ou AOA) dont nous analysons les conséquences ci-dessous. 2 Pour une présentation détaillée, le lecteur pourra consulter Muselia et Rutkowski (1997). 156
3.2.4 Courbe de taux admissible L AOA induit des contraintes sur la forme de la courbe des taux, qu il faut impérativement prendre en compte lors de la procédure de construction. Nous énonçons ces contraintes ci-dessous (voir démonstration en Annexe A). Proposition 3.1 Lorsque la courbe des taux ne présente pas d opportunité d arbitrage, alors les trois propositions équivalentes suivantes sont véri ées : 1. la fonction d actualisation est décroissante, 2. les taux continus ats sont croissants, 3. les taux forwards instantanés sont positifs. Nous donnons ci-dessous la dé nition d une courbe de taux admissible, au sens de l AOA. Dé nition 3.1 On dit que la courbe des taux zéro-coupon est admissible si et seulement si l un des trois points de la proposition (3.1) est véri é. Pour pouvoir mettre en oeuvre les outils théoriques introduits dans cette section, il est indispensable de connaître les conventions et les termes techniques utilisés par les intervenants qui opèrent sur les marchés de taux. Cela fait l objet de la section suivante. 3.3 Conventions de marchés Dans un premier temps, nous présentons les conventions de calcul permettant de déterminer le nombre d années entre deux dates. Ensuite, nous donnons les termes techniques utilisés pour la gestion des échéanciers. En n nous présentons les placements dits "au jour-le-jour" dont les caractéristiques sont standardisées sur tous les marchés. 3.3.1 Mesure du nombre d années entre deux dates Dans le paragraphe précédent, nous avons introduit les quantités (t; T ) et L (t; T ) qui sont des mesures du nombre d années entre les dates t et T. La mesure du nombre d années séparant deux dates peut dans certains cas s avérer problématique, car l année est une unité de mesure non constante (365 jours ou 366 jours lorsque l année est bissextile). Pour répondre à ce problème, les intervenants qui opèrent sur les marchés de taux ont dé ni di érentes conventions, appelées bases de calcul, pour mesurer le nombre d années d un placement. Les conventions utilisées varient en fonction des instruments et des zones géographiques considérées. Nous présentons ci-dessous les bases de calcul qui seront mentionnées ou utilisées dans ce travail. Cette liste n est pas exhaustive et pour une présentation 157
complète des conventions en vigueur sur les marchés de taux, nous invitons le lecteur à consulter Christie (2003) et ISDA (2006). Nombre de jours d un placement Soit t et T deux dates avec t T. On rappelle qu un placement entre t et T est supposé inclure la date t et exclure la date T. Cette convention provient du fait que le dernier jour de placement (i.e. la date T ) est consacré au calcul des intérêts à payer ou à recevoir et au règlement des ux. Durant ce dernier jour, les sommes investies ne peuvent donc pas porter intérêt. Dans la suite, on note n (t; T ) le nombre de jours calendaires entre la date t (incluse) et la date T (exclue). Bases de calcul Base Act/360 Cette base est utilisée pour les opérations de courte durée (maturité inférieure à un an). Le nombre d années du placement est donné par : (t; T ) = n (t; T ) 360 : (3.20) La formule (3.20) suppose implicitement que le nombre de jours dans une année pleine est égal à 360. Ainsi, un placement du 06=04=2006 au 06=04=2007 (365 jours) a une durée égale à 365=360 ' 1:01389 années dans la base "Act/360". Base Act/365 Le nombre d années du placement est donné par la formule : (t; T ) = n (t; T ) 365 : (3.21) Cette base est utilisée pour les deposits libellés en Livre Sterling (GBP) et pour les swaps contre LIBOR libellés en Yen (JPY). Base Act/365.25 Etant donné qu une année normale comporte 365 jours et qu une année sur 4 comporte 366 jours, on peut considérer que le nombre moyen de jours dans une année est égal à : 3 365 + 366 4 = 365:25: La convention Act/365.25 revient donc à supposer que la longueur de l année est 365:25 jours, de sorte que le nombre d années entre la date t et la date T est donné par la formule : (t; T ) = n (t; T ) 365:25 : (3.22) Nous avons retenu cette base pour exprimer les durées associées aux taux zérocoupon continus. 158
Base 30/360 Cette base est utilisée principalement sur les marchés obligataires. Les mois entiers sont supposés avoir une durée de 30 jours. Une année complète comporte donc 12 mois de 30 jours, soit 360 jours. Cette base est parfois appelée Bond Basis ou Annual Bond Basis. On note T 1 = D 1 :M 1 :Y 1 et T 2 = D 2 :M 2 :Y 2, où 1 D i 31 désigne le jour du mois (Day), 1 M i 12 est le mois de l année (Month) et Y i 0 représente l année (Year). Le nombre d années entre T 1 et T 2 (T 1 T 2 ) est donné par la formule (Brigo et Mercurio 2006) : (T 1 ; T 2 ) = min (D 2; 30) min (D 1 ; 30) + 30 (M 2 M 1 ) + 360 (Y 2 Y 1 ) 360 (3.23) La base 30/360 admet de nombreuses variantes en fonction des zones géographiques (ISDA 2006). 3.3.2 Termes techniques relatifs aux échéanciers Désignation des dates Jour Ouvré Pour un marché donné, ce terme désigne toute date où la bourse de référence est ouverte, c est-à-dire toute date à laquelle des transactions et des échanges de ux ont lieu. Le calendrier des jours ouvrés est di érent en fonction des devises considérées. Date de Négociation La date de négociation (encore appelée date de transaction) d une opération est la date à laquelle les modalités de l opération (taux applicables, échéanciers... ) sont xées par les parties. Date de Départ/Date de Valeur On appelle indi éremment date de départ ou date de valeur ("value date" en anglais) la date du commencement e ectif d une opération. La date de départ coïncide rarement avec la date de négociation de l opération : elle est en général située entre un et trois jours ouvrés (le plus souvent deux jours ouvrés) après la date de négociation. Date de Fixing On appelle date de xing (" xing date" en anglais) toute date à laquelle on observe un des paramètres d une opération nancière (en général, le niveau d un taux variable). Date de Paiement Le terme date de paiement ("payment date" en anglais), désigne toute date à laquelle un ux ou plusieurs ux d une opération nancière sont payés. Date Spot On appelle date spot ("spot date" en anglais) la date située deux jours ouvrés après la date courante. 159
Gestion des jours non-ouvrés Tous les produits de taux d intérêt (obligations, swaps, deposits... ) comportent un échéancier d intérêts, c est-à-dire un ensemble de dates auxquelles interviennent des paiements intermédiaires. La fréquence des dates de paiement des ux est souvent régulière et multiple d un nombre entier de mois 3. Lorsque l on détermine l échéancier, il faut s assurer que chaque date de paiement ou de xing soit un jour ouvré. Lorsque la date théorique tombe un jour non-ouvré, il est convenu d ajuster la date au jour ouvré le plus proche, selon l une des trois conventions suivantes (ISDA 2006) : convention "Following" : la date théorique est ajustée au premier jour ouvré suivant dans le calendrier, convention "Preceding" : la date est ajustée au premier jour ouvré précédent dans le calendrier, convention "Modi ed Following" ou "Modi ed" : la date théorique est ajustée selon la convention Following, sauf si cet ajustement fait changer de mois calendaire, auquel cas la date est ajustée selon la convention Preceding. La convention "Modi ed Following" est la plus utilisée. Dans la section suivante, nous nous intéressons au choix des instruments utilisés pour l extraction de la courbe de taux sans risque. 3.4 Choix des instruments de calibration Dans le premier paragraphe, nous montrons que dans le contexte de l évaluation des produits dérivés, la notion de taux sans risque fait référence aux transactions interbancaires. Dans le second paragraphe, nous donnons les principales caractéristiques des références de taux interbancaires utilisées en Europe. Dans le troisième paragraphe, nous présentons les trois sortes d opérations interbancaires les plus courantes, les plus standardisés et les plus liquides : les deposits, les futures de taux et les swaps vanilles. 3.4.1 Notion de taux sans risque Une dé nition imprécise Le concept de taux sans risque est imprécis. En e et, les taux d intérêt uctuent aléatoirement en fonction de l o re et de la demande, en fonction des anticipations économiques, en fonction des annonces ou des interventions des banques centrales (Cherif 2000). Ainsi, quels que soient les instruments de taux considérés (obligations d états, taux interbancaires, obligations corporates... ), il n existe pas d investissement présentant un risque nul. Par ailleurs, le taux sans risque est associé à une zone économique donnée : dans la zone Euro, il correspond à des opérations libellées en Euros (EUR), tandis que dans la zone Dollar, il correspond à des opérations libellées en Dollars (USD) et ainsi de suite. 3 Les fréquences les plus utilisées sont les fréquences trimestrielles, semestrielles et annuelles. 160
Les taux d états comme taux sans risque L idée première conduirait à choisir comme taux sans risque le taux instantané associé aux obligations d état dans une économie donnée, celles-là étant réputées présenter le risque de défaut le plus faible parmi tous les produits de taux existants sur le marché. Dans une zone géographique telle que la zone Euro, cette approche soulève la question du choix des "meilleures" obligations d états dans la mesure où plusieurs pays (par exemple l Allemagne et la France) sont des émetteurs de qualité. Les taux interbancaires comme taux sans risque Lorsque l on s intéresse à l évaluation des produits dérivés, l utilisation d une courbe de taux d état comme courbe de taux sans risque n est sans doute pas la solution la mieux adaptée. Nous le démontrons ci-après. Le principe fondamental d évaluation des produits dérivés repose sur le fait que le prix d un actif optionnel est égal à la valeur de son portefeuille de couverture à chaque instant. Le portefeuille de couverture d une option Européenne portant sur une action ou sur un indice boursier, est composé schématiquement d une position longue (ou courte) sur l actif risqué qui est nancée par un emprunt (ou qui nance un prêt) rémunéré au taux sans risque. En d autres termes, la gamme de taux sans risque correspond à la gamme de taux sur laquelle les traders peuvent intervenir, ce qui signi e qu elle doit être construite à partir d instruments indexés sur les taux de référence interbancaires. 3.4.2 Produits de taux interbancaires La sélection des instruments de calibration repose principalement sur des critères de liquidité 4. En e et, les marchés liquides sont biens arbitrés et les taux des instruments que l on peut négocier n incluent ni prime de risque, ni prime de liquidité. En utilisant des instruments de calibration liquides nous sommes donc assurés d obtenir une courbe de taux sans risque consistante qui re ète véritablement le niveau des taux sous-jacents. Les trois familles d instruments les plus liquides sur le marché interbancaire sont : les deposits, les futures de taux et les swaps de taux vanilles. Nous présentons ces produits ci-dessous. Deposits Un deposit (ou dépôt en français) est une opération de prêt ou d emprunt in ne dont la maturité est comprise entre 1 jour et 1 an. Les deux parties s engagent sur un taux d intérêt, sur une durée et sur un montant notionnel dans une devise donnée. L emprunteur reçoit le montant notionnel à la date de départ et, à la n, il le restitue majoré des intérêts calculés sur la période. Un deposit peut donc être assimilé à un zéro-coupon. 4 Un marché liquide peut être décrit comme un marché où les transactions de taille importante sont exécutées rapidement avec un impact négligeable sur les prix. Les trois caractéristiques d un marché liquide sont les suivantes : (i) des fourchettes de prix serrées, (ii) des volumes de transaction élevés et (iii) la vitesse à laquelle les prix reviennent à la normale après des ordres déséquilibrants. 161
Mode de cotation Les deposits sont cotés en taux et non pas en prix. Par convention, les taux de deposits sont des taux linéaires dé nis par les formules (3.3) et (3.7). Deposits au jour-le-jour Les deposits au jour-le-jour sont des opérations de prêt/emprunt in ne d un jour ouvré au jour ouvré suivant. Il existe trois types de deposits au jour-le-jour dont les caractéristiques sont normalisées : le deposit "OverNight" (noté ON) qui correspond à un prêt/emprunt entre aujourd hui et demain ouvré, le deposit "Tom-Next" (noté TN) qui correspond à un prêt/emprunt entre demain ouvré (Tomorrow) et après-demain ouvré (Next), le deposit "Spot-Next" (noté SN) qui correspond à un prêt/emprunt entre après-demain ouvré et le jour ouvré suivant. Notons que le terme "après-demain ouvré" désigne la date spot : les placements ON et TN correspondent aux opérations que l on peut réaliser avant la date spot. Par ailleurs, le placement SN est le placement de maturité la plus courte commençant à la date spot. Taux IBOR Les deposits de maturité supérieure à 1 semaine sont fondamentaux, car ils permettent de calculer les taux IBOR, qui sont les taux de référence du marché interbancaire sur les places Européennes. Le terme IBOR signi e InterBank O ered Rate (en français, Taux Interbancaire O ert) et désigne un ensemble de taux de référence pour les opérations de deposits entre banques, publiés pour 15 maturités standardisées allant de 1 semaine à 1 an et appelées "ténors" : 1 semaine (1W), 2 semaines (2W), 3 semaines (3W), 1 mois (1M), 2 mois (2M), 3 mois (3M),..., 12 mois (12M). Le taux IBOR de maturité dans la devise X correspond à la moyenne des taux de deposits de maturité, libellés dans la devise X, pratiqués par un échantillon d établissements bancaires de première catégorie. Les taux les plus extrêmes sont écartés des calculs, a n de protéger les indices d éventuelles erreurs ou d une crise de liquidité qui pourrait a ecter certaines banques de l échantillon. La composition de l échantillon est stable et connue à l avance. Les principaux taux IBOR sont : les taux LIBOR 5 (London InterBank O ered Rate), qui couvrent plusieurs devises, l EURIBOR (EURo InterBank O ered Rate) qui correspond à des deposits libellés en Euros uniquement 6. Les taux LIBOR sont calculés et publiés par la British Bankers Association (BBA) en collaboration avec Reuters à 12H (GMT) à partir des contributions fournies par des banques établies à Londres. Les taux EURIBOR sont calculés 5 Site o cel de la BBA : http://www.bba.org.uk/bba/ 6 Site o cel de l EURIBOR : http://www.euribor.org 162
et publiés par Reuters à 11H (CET) à partir des contributions fournies par les banques (non nécessairement situées à Londres) considérées comme les plus représentatives sur le marché de l Euro. Les caractéristiques des taux IBOR sont données en Annexe B. Contrats Futures Les futures de taux sont des contrats standardisés écrits sur des références interbancaires de type IBOR, négociés sur des marchés organisés. Ce type de contrat permet de garantir un niveau de taux d intérêt dans le futur. L avantage principal de ces produits est assurément leur grande liquidité. Ils permettent de couvrir une plage de maturités allant de quelques semaines à 2 ans, c est-à-dire les maturités moyennes. Les principaux contrats futures sur taux IBOR sont : le contrat USD-LIBOR3M, coté sur le CME 7 et sur le LIFFE 8, le contrat EURIBOR3M, coté sur le LIFFE, le contrat GBP-LIBOR3M, coté sur le LIFFE. Swaps de taux vanilles Un swap de taux vanille est une opération de gré-à-gré dans laquelle deux contreparties conviennent d échanger une série de ux à taux xe contre une série de ux indexés sur un taux variable de type IBOR, les deux séries de ux étant libellées dans la même devise. Les ux d intérêts sont calculés en appliquant d une part le taux xe, et d autre part, le taux variable sur un montant nominal identique. Il n y a pas d échange de nominal, ni au début, ni au terme de l opération, seuls les intérêts sur le nominal sont échangés. Lors de sa mise en place, l opération d échange doit être nancièrement équitable pour les deux parties. En d autres termes, à la date départ, les deux chroniques de ux ont la même valeur de marché. Les swaps de taux vanilles couvrent une plage de maturités allant de 1 an à 30 ans 9, c est-à-dire les maturités moyennes et longues. Ils sont cotés en fourchette de taux Bid/Ask, le taux coté correspondant au taux xe de l opération. Le taux Bid (resp. le taux Ask) représente le taux xe qui sera payé (resp. reçu) par le market-maker qui recevra (resp. payera) en échange les ux variables. De l utilisation des futures de taux Certains auteurs recommandent d utiliser les cotations des futures de taux pour extraire les taux zéro-coupon sur la partie court-terme/moyen-terme de la gamme des taux (Martellini et Priaulet 2004). Nous considérons que ce choix 7 CME est l abréviation de Chicago Mercantile Exchange. Site du CME : http://www.cme. com/. 8 LIFFE signi e London International Financial Futures and options Exchange. Site du LIFFE : http://www.euronext.com/landing/liffelanding-12601-en.html. 9 Notons que sur certains marchés, comme celui de l EURIBOR, les swaps sont cotés pour des maturités allant jusqu à 50 ans. 163
est discutable et nous expliquons notre position dans la suite. Les contrats futures ne sont pas de même nature que les dépôts ou les swaps. Tout d abord, la négociation des contrats futures est essentiellement électronique (à l exception du marché de Chicago), donc très rapide, ce qui n est pas le cas des dépôts et des swaps qui se négocient par téléphone. Ensuite, la vente ou l achat d un contrat future n entraîne aucun paiement immédiat (à l exception du paiement d un dépôt de garantie) contrairement aux deposits qui entraînent le décaissement de la somme empruntée. En n, la négociation des futures ne nécessite pas la mise en place d un contrat de gré à gré comme les opérations de swaps. En d autres termes, la négociation des contrats futures est très souple (pas de contrat) et peu coûteuse (pas de décaissement d argent à la mise en place). Pour ces di érentes raisons, les contrats futures sont les instruments privilégiés des arbitragistes et des spéculateurs qui peuvent ainsi prendre une position sur le marché et l annuler dans un intervalle de temps très court. Une conséquence en est que les cotations des contrats futures peuvent être très instables : il n est pas rare de voir le prix d un contrat donné s écarter brusquement de son niveau d équilibre simplement parce que des opérateurs viennent d intervenir sur ce contrat pour des tailles importantes. Dans ces conditions, on ne peut pas considérer que les cotations des contrats futures re ètent le niveau intrinsèque des taux, car elles incluent une prime spéculative non négligeable. Pour les di érentes raisons que nous venons d évoquer, nous proposons de construire la courbe zéro-coupon seulement à partir des taux de deposits et des taux de swaps. Dans la section suivante, nous montrons comment utiliser les deposits et les swaps de taux vanilles pour extraire les facteurs d actualisation aux maturités discrètes pour lesquelles nous avons une cotation. 3.5 Extraction des facteurs d actualisation Les marchés des deposits et des swaps sont des marchés de gré à gré. Cela signi e que les parties à l opération doivent s entendre au préalable sur les modalités du calendrier des ux et sur les conventions de calcul à appliquer. A n de rendre les transactions plus e caces et plus rapides, les intervenants se sont attachés à normaliser les caractéristiques des opérations les plus courantes, notamment en ce qui concerne : (i) les règles de détermination des dates de commencement et d échéance, (ii) la construction des échéanciers d intérêts et (iii) les règles de calcul des coupons. Une conséquence de cette standardisation est que de nombreuses clauses sont implicitement contenues dans les cotations des produits standards. La principale di culté rencontrée par le praticien est donc d inclure les conventions de marché implicites dans le processus d extraction des taux zéro-coupon. Ces conventions varient non seulement en fonction de la devise considérée, mais aussi en fonction de la nature de l instrument (deposit ou swap). Les deposits couvrent une plage de maturités allant de 1 jour à 1 an (maturités courtes) et les swaps couvrent une plage de maturités allant de 2 ans à 30 ans 164
(maturités moyennes et longues). Dans un premier temps, nous démontrons les formules qu il faut appliquer pour reconstruire les facteurs d actualisation à partir des deposits. Dans un second temps, nous proposons un algorithme récursif qui permet de déterminer les facteurs d actualisation pour les swaps. 3.5.1 Facteurs d actualisation associés aux deposits Préliminaires Données disponibles On utilise 11 maturités représentatives, appelées les ténors de la courbe. Deposits de maturité 1 jour ouvré : ON, TN, SN (voir paragraphe 3.4.2 pour une description de ces taux particuliers). Deposits de maturité inférieure à 1 mois : 1W, 2W, 3W. Deposits de maturité inférieure à 1 an : 1M, 3M, 6M, 9M, 12M. Quelle que soit la devise considérée, les deposits ON (OverNight) et TN (Tomdef def Next) couvrent respectivement les périodes t! t ON = t 1 et t ON! t SN = t 2, où la notation i signi e que l on ajoute i jours ouvrés à la date t. Le dépôt SN (Spot-Next) couvre la période t SN! t 3. Pour toutes les devises, sauf pour la devise GBP (Livre Sterling), les deposits de maturité supérieure à une semaine commencent à la date spot t SN, qui est située deux jours ouvrés après la date t (voir Annexe B). Pour la devise GBP, les deposits commencent en t. Taux cotés Les deposits sont cotés en fourchette de taux Bid/Ask. Etant donné que nous ne souhaitons pas privilégier un sens pour les opérations, nous raisonnons sur les taux milieu de fourchette (ou taux "Mid") dé nis par : x Mid def = x Bid + x Ask : 2 Le taux x Mid peut être vu comme le taux théorique d équilibre de l opération considérée et l intervalle [x Bid ; x Ask ] comme l intervalle de con ance appliqué par le market-maker autour du taux x Mid. La di érence x Ask x Bid, appelée Bid/Ask spread, mesure le degré d incertitude autour du prix théorique. Sur les deposits, le Bid/Ask spread est en moyenne de l ordre de 0:05%, ce qui traduit la con ance des market-makers dans les prix proposés. Correction des facteurs d actualisation Notre objectif est d obtenir une courbe de taux zéro-coupon dont la date de départ est égale à t (la date de calibration). Cela signi e que, lorsque les ténors cotés ont pour date de départ t SN = t 2, il faut apporter une correction aux facteurs d actualisation trouvés a n de les convertir en facteurs d actualisation dont la date de départ est égale à t. Le terme correcteur est déterminé en combinant les facteurs d actualisation ON et TN qui couvrent respectivement les périodes t! t ON et t ON! t SN. Le graphique ci-dessous illustre le fonctionnement de l ajustement proposé dans 165
le cas du deposit 1M. Les notations sont les suivantes : B ON est le facteur d actualisation ON, B TN est le facteur d actualisation TN et B 1M est le facteur d actualisation associé au ténor 1M. t B ON B TN B 1M t Spot+1M t ON t Spot L idée est de multiplier le facteur B 1M par B ON et B TN a n d obtenir un facteur d actualisation qui couvre la période comprise entre la date courante t (incluse) et la date d échéance correspondant au ténor 1M (exclue). Nous justi erons ces calculs dans la suite. Facteur d actualisation associé à un ténor quelconque Formule générale par la formule : Un deposit est un zéro-coupon, donc son prix est donné B t (t Val ; T ) = 1 1 + x T Dep (t Val ; T ) ; (3.24) où t Val est la date de départ du dépôt, T sa date d échéance, Dep (t Val ; T ) désigne le nombre d années entre la date t Val (incluse) et la date T (exclue) dans la base de calcul du dépôt considéré et x T est le taux milieu de fourchette coté 10. Cette formule générale permet d obtenir le facteur d actualisation correspondant à chaque ténor. Détermination de la date d échéance La date T est obtenue en ajoutant la maturité du deposit considéré (1 jour ouvré, 1W, 2W, 3W, 1M, 3M,... ) à la date de valeur t Val. Quand la date ainsi obtenue ne correspond pas à un jour ouvré, elle est ajustée selon la convention Modi ed Following. Facteur d actualisation Pré-Spot Ténor OverNight Le ténor ON correspond à un placement sur un jour ouvré entre la date t et la date t ON. Le facteur d actualisation associé au dépôt ON est obtenu en remplaçant t Val par t et T par t ON dans la formule (3.24) : B (t; t ON ) = 1 1 + x ON ON (t; t ON ) ; (3.25) où x ON est le taux OverNight milieu de fourchette et ON (t; t ON ) est le nombre d années entre la date t et la date t ON. 10 On rappelle que pour toutes les devises, le taux coté est un taux linéaire annualisé. 166
Ténor Tom-Next Le ténor TN correspond à un placement sur un jour ouvré entre la date t ON et la date t SN. Le facteur d actualisation associé au dépôt ON est obtenu en remplaçant t Val par t ON et T par t SN dans la formule (3.24) : B t (t ON ; t SN ) = 1 1 + x TN TN (t ON ; t SN ) ; (3.26) où x TN est le taux Tom-Next milieu de fourchette et TN (t ON ; t SN ) est le nombre d années entre la date t ON et la date t SN. Obtention d un facteur d actualisation en départ t Lorsque la date de départ d un deposit quelconque (i.e. t Val ) est égale à la date spot, il faut corriger le facteur d actualisation donné par (3.24) en le multipliant par B (t; t ON ) et B t (t ON ; t SN ). Soit T > t SN la date d échéance du ténor considéré, alors en utilisant la formule (3.4) on a : La quantité : B (t; T ) = B (t; t SN ) B t (t SN ; T ) = B (t; t ON ) B t (t ON ; t SN ) B t (t SN ; T ) : B (t; t SN ) def = B (t; t ON ) B t (t ON ; t SN ) ; (3.27) est appelée facteur d actualisation pré-spot. Elle correspond au facteur d actualisation entre la date t et la date t SN. 3.5.2 Facteurs d actualisation associés aux swaps Préliminaires La construction de la courbe zéro-coupon est e ectuée selon un processus itératif, appelé méthode du "bootstrap" : chaque nouveau point de la courbe est calculé à partir des points précédemment construits. Comme nous le verrons dans la suite, cette approche suppose que nous disposons d une cotation pour toutes les maturités multiples de la fréquence des paiements de la jambe xe du swap. Lorsque ce n est pas le cas, nous proposons une solution nouvelle qui permet d extraire les facteurs d actualisation isolés sans interpoler les taux manquants. Les hypothèses sur lesquelles reposent nos raisonne- Hypothèses de travail ments sont les suivantes. 1. Les swaps cotés obéissent aux mêmes conventions de marché. En particulier, la période entre deux paiements de la jambe xe (notée PF) et la période entre deux paiements de la jambe variable (notée PV) sont les mêmes pour tous les swaps. 2. Tous les swaps cotés ont la même date de départ. 167
3. La date de départ de chaque jambe coïncide avec la date de départ du swap. 4. Les dates d échéance des deux jambes sont les mêmes. 5. On dispose d un taux coté pour toutes les maturités de la forme T n def = n PF avec 1 n N. La première hypothèse est vraie pour presque toutes les devises. En général, la fréquence de paiement de la jambe xe est semestrielle (PF = 6M) ou annuelle (PF = 1Y). La fréquence de la jambe variable est toujours inférieure ou égale à la fréquence de paiement de la jambe xe : PV = 3M, 6M ou 1Y. L hypothèse 2 est toujours vraie. En général, la date de départ est la date courante t ou la date spot t SN = t 2. Les hypothèses 3 et 4 sont toujours véri ées en pratique. L hypothèse 5 n est pas toujours véri ée, car les cotations sont espacées irrégulièrement. On doit donc interpoler les cotations manquantes. Le procédé utilisé est décrit au paragraphe 3.5.2. Démarche générale La démarche générale est la suivante. Le premier facteur d actualisation T 1 est connu : il s agit du facteur d actualisation 6M ou 1Y obtenu à partir des taux de dépôt. Ensuite, on construit les facteurs d actualisation de proche en proche, le facteur d actualisation d échéance T i étant obtenu à partir du facteur d actualisation d échéance T i 1. Evaluation d un swap quelconque Par dé nition, une opération de swap est équitable, ce qui signi e que les deux jambes du swap ont la même valeur de marché lors de la mise en place. Dans ce qui suit nous démontrons la formule d évaluation de la jambe variable. Notations On note ft j : j = 1; : : : ; mg les dates de paiement de la jambe variable du swap et ft i : i = 1; : : : ; ng les dates de paiement de la jambe xe. Soit t 0 (resp. T 0 ), la date de départ de la jambe variable (resp. de la jambe xe). D après les hypothèses 2 et 3, t Val = t 0 = T 0 : (3.28) Soit T la date d échéance du swap, d après l hypothèse 4, on a : On pose : T = t m = T n : (3.29) j = V (t j 1 ; t j ) ; j = 1; : : : ; m; (3.30) i = F (T i 1 ; T i ) ; i = 1; : : : ; n: (3.31) Les notations V et F indiquent que les bases de calcul sont propres à chaque jambe. En n, le taux variable (EURIBOR ou LIBOR) payé en date t j est noté 168
L j (ce taux est xé en t j 1 ). Le taux xe du swap (taux milieu de fourchette) est noté x n. Le graphique ci-dessous illustre le fonctionnement du swap présenté (la période des paiements de la jambe xe est le double de la période des paiements de la jambe variable). Branche Fixe x n 1 x n 2 x n 3 T 1 T 2 T 3 t 1 t 2 t 3 t 4 t 5 t 6 L 1 δ 1 L 2 δ 2 L 3 δ 3 L 4 δ 4 L 5 δ 5 L 6 δ 6 Branche Variable Evaluation de la jambe variable Soit JV n 0 la valeur de marché de la jambe variable à la date de départ t 0 > t. En AOA, elle est égale à la somme des ux variables actualisés sur la courbe de taux sans risque : JV n 0 = mx L j j B t (t 0 ; t j ) : (3.32) j=1 Les taux forwards L j sont donnés par la formule (3.8) : L j = 1 j Bt (t 0 ; t j 1 ) B t (t 0 ; t j ) j=1 1 : (3.33) En injectant (3.33) dans (3.32) et en utilisant la relation B t (t 0 ; t 0 ) = 1, on peut écrire : mx JV n Bt (t 0 ; t j 1 ) 0 = 1 B t (t 0 ; t j ) B t (t 0 ; t j ) = mx (B t (t 0 ; t j 1 ) B t (t 0 ; t j )) j=1 = 1 B t (t 0 ; t m ) : (3.34) D après (3.29) on a : JV n 0 = 1 B t (t 0 ; T n ) : (3.35) 169
Evaluation de la jambe xe Soit JF n 0, la valeur de marché de la branche xe à la date de départ t 0. Un simple calcul d actualisation permet d écrire :! nx nx 1 JF n 0 = x n i B t (t 0 ; T i ) = x n n B t (t 0 ; T n ) + x n i B t (t 0 ; T i ) : (3.36) i=1 D après l hypothèse 4, les dates T 0 ; T 1 ; : : : ; T n 1 sont communes aux échéanciers des swaps d échéance T n 1 et d échéance T n. Alors on a : nx 1 JF n 0 1 = x n 1 i B t (t 0 ; T i ), i=1 En injectant (3.37) dans (3.36) il vient : nx 1 i=1 JF n 0 = x n n B t (t 0 ; T n ) + i=1 i B t (t 0 ; T i ) = JFn 0 1 : (3.37) x n 1 x n x n 1 JF n 1 0 : (3.38) Nous disposons à présent de tous les éléments pour établir la formule de récurrence entre les facteurs d actualisation. Détermination des facteurs d actualisation par récurrence Les deux branches du swap ont la même valeur à la date t 0. En appliquant ce résultat aux swaps d échéances T n 1 et T n il vient : JF n 0 = JV n 0 ; JF n 1 0 = JV n 1 0 : (3.39) Alors, en injectant ces relations dans (3.38) on peut écrire : JV n 0 = x n n B t (t 0 ; T n ) + x n x n 1 JV n 1 0 : (3.40) En appliquant la relation (3.35) avec les dates T n 1 et T n on a : JV n 0 = 1 B t (t 0 ; T n ) ; JV n 1 0 = 1 B t (t 0 ; T n 1 ) : (3.41) On remplace JV n 0 et JV n 1 0 par leur valeur respective dans (3.40) et l on obtient tous calculs faits : B t (t 0 ; T n ) = 1 x n x n 1 (1 B t (t 0 ; T n 1 )) 1 + x n n : (3.42) Cette formule permet de déterminer le facteur d actualisation entre t 0 et T n à partir du facteur d actualisation d échéance T n 1. Le facteur d actualisation d échéance T 1 étant connu, on peut alors déterminer tous les facteurs d actualisation de proche en proche jusqu à la dernière maturité T N. Contrairement aux formules habituellement proposées dans la littérature qui sont valables uniquement pour une fréquence de coupon xe égale à 1Y, la formule établie ici est complètement indépendante de la fréquence des paiements de la jambe xe et elle s applique à tous les swaps rencontrés sur le marché. 170
Obtention de facteurs d actualisation en départ t Comme dans le cas des facteurs d actualisation associés aux opérations de dépôt, si la date t 0 est égale à la date spot, on corrige les facteurs d actualisation trouvés en les multipliant par le facteur pré-spot B (t; t SN ). Dans le cas où t 0 est égale à la date courante, aucun ajustement n est nécessaire. Détermination des facteurs d actualisation isolés La méthode décrite au paragraphe précédent permet de déterminer très rapidement les facteurs d actualisation, à condition (hypothèse 5) que l on connaisse le taux de swap associé à chaque maturité de la forme T n = n PF. Par exemple, pour les swaps contre EURIBOR, cette propriété est véri ée jusqu au ténor 15Y. Au-delà de cette maturité, on dispose d un taux coté tous les 5 ans (20Y, 25Y, 30Y), de sorte qu il n est plus possible d appliquer la formule récursive (3.42) pour construire les facteurs d actualisation cherchés. Une approche fréquemment utilisée par les praticiens consiste à interpoler linéairement les taux de swap cotés pour les maturités non disponibles. On dispose ainsi d un jeu de données complet et l on applique la méthode précédente. Cette approche très simple donne en général de bons résultats, mais elle revient à ajouter de l information arti cielle, là où il n y en avait pas (Hagan et West 2006). Nous proposons ci-dessous une méthode qui permet de déterminer directement le taux zéro-coupon cherché sans procéder à une construction des taux aux maturités manquantes. Transformation du problème On suppose que l on cherche à déterminer le facteur d actualisation du ténor T n, dont le taux de swap coté est x n. Le dernier ténor coté est T n k (taux de swap x n k ). Les taux des dates T n k+1 ; : : : ; T n 1 sont inconnus. Les notations sont les mêmes que celles du paragraphe précédent. L égalité de la jambe xe et de la jambe variable du swap d échéance T n s écrit : X n 1 B t (t 0 ; T n ) = x n i B t (t 0 ; T i ) i=1 nx k = x n i B t (t 0 ; T i ) + = i=1 x n x n k JF n k 0 + x n nx i=n k+1 nx i=n k+1 i B t (t 0 ; T i )! i B t (t 0 ; T i ) : (3.43) La dernière égalité provient du fait que les swaps de maturités T n k et T n partagent le même échéancier jusqu à la date T n k. En utilisant les identités (3.39) et (3.35) au rang n k, il vient : JF n 0 k = JV n 0 k = 1 B t (t 0 ; T n k ) : (3.44) 171
Injectons (3.44) dans (3.43) : 1 B t (t 0 ; T n ) = x n x n k (1 B t (t 0 ; T n k )) + x n nx i=n k+1 i B t (t 0 ; T i ) : (3.45) Par ailleurs, la relation (3.4) entre les zéro-coupons forward-starts nous donne : B t (t 0 ; T i ) = B t (t 0 ; T n k ) B t (T n k ; T i ) ; n k + 1 i n: (3.46) En convenant de noter B n k à la place de B t (t 0 ; T n k ) et B n k;i à la place de B t (T n k ; T i ), l égalité (3.45) devient : 1 B n k B n k;n = x n x n k (1 B n k ) + x n B n k nx i=n k+1 i B n k;i : (3.47) En regroupant les termes connus à droite et les termes inconnus B n k;i à gauche on a : X n x n i B n k;i + B n k;n = 1 x n x n k (1 B n k ) : (3.48) B n k i=n k+1 Ci-dessous, nous utilisons l expression obtenue pour déterminer le facteur d actualisation manquant. Calcul du facteur d actualisation à la date T n L idée est d exploiter les propriétés de la méthode d interpolation RT-Linéaire des taux zéro-coupon qui est présentée en détail au paragraphe 3.6.3. Dans cette approche, les taux continus ats sont interpolés linéairement entre deux dates d observation consécutives : ~R (t; T ) = a (T n k ; T ) + b; T n k T T n ; (3.49) où (T n k ; T ) est le nombre d années entre T n k et T dé ni par (3.58). Les coe cients a et b sont déterminés en imposant la continuité en T n k et T n : b = ~ R (t; T n k ) ; (3.50) R a = ~ (t; T n ) R ~ (t; Tn k ) : (3.51) (T n k ; T n ) Le coe cient a dépend du taux ~ R (t; T n ) qui est inconnu. En l absence d opportunité d arbitrage, les taux ~ R (t; T ) sont croissants, donc on doit avoir a 0. En appliquant (3.2), il vient : B (t; T ) = e ~ R(t;T ) = e ( ~ R(t;T n k )+a(t n k ;T )) = B (t; T n k ) e a(t n k;t ) : (3.52) 172
En divisant par B (t; T n k ) les deux membres de l égalité on a : B t (T n k ; T ) = e a(t n k;t ) T n k T T n : (3.53) En réécrivant (3.53) aux dates T i (i = n k; : : : ; n) on obtient : où l on a posé i def = (T n k ; T i ). B n k;i = e a(t n k;t i) = e a i ; (3.54) Remplaçons les termes B n k;i par (3.54) dans (3.48) : x n n X i=n k+1 i e a i + e a n = 1 x n x n k (1 B n k ) B n k : (3.55) La fonction f : a! x n P n i=n k+1 ie a i + e a n est continue, strictement décroissante de R + dans lui-même, donc l équation (3.55) admet une unique solution, notée a, que l on peut déterminer par la méthode de Newton (Judd 1998). Une manière d initialiser l algorithme est de choisir : a 0 = (t; T n) x n R ~ (t; Tn k ) ; (3.56) (T n k ; T n ) où x n est le taux de swap associé au ténor T n. En l absence d opportunité d arbitrage, l algorithme converge en quelques itérations vers la valeur cherchée a 0. Si la convergence n a pas lieu dans R +, c est que la courbe présente un arbitrage en T n et, dans ce cas, on pose : a = (t; T n) R (t; T n k ) R ~ (t; Tn k ) : (T n k ; T n ) Cela revient à cristalliser le dernier taux zéro-coupon connu R (t; T n k ). Lorsque a est estimé, il ne reste qu à écrire la relation (3.52) avec T = T n pour obtenir le facteur d actualisation cherché : B (t; T n ) = B (t; T n k ) e a n : En procédant ainsi avec tous les ténors "isolés", on obtient des facteurs d actualisation consistants, sans introduire de l information au niveau des données observées. 3.5.3 Calcul des taux zéro-coupon associés aux di érents ténors Nous calculons les taux zéro-coupon annualisés associés aux di érents facteurs d actualisation en appliquant la relation (3.1). Les taux cherchés sont exprimés en base Act/365.25 et sont donnés par les formules suivantes : R (t; T ) = 365:25 ln B (t; T ) ; (3.57) n (t; T ) 173
où n (t; T ) désigne le nombre de jours calendaires entre la date courante t (incluse) et la date T (exclue). On dispose à présent des facteurs d actualisation et des taux zéro-coupon aux dates d échéances T 1 T N des instruments de calibration. On suppose que les données sont non-arbitrables 11, ce qui signi e que la suite des facteurs d actualisation est décroissante ou que la suite des taux continus ats est croissante (voir proposition 3.1). Dans la suite, nous montrons comment reconstituer une courbe de taux zéro-coupons continus à partir des points observés. 3.6 Interpolation non-arbitrable de la courbe des taux Il existe principalement deux approches pour ajuster une courbe sur des données. La première approche consiste à procéder à un lissage. Ce qui revient à déterminer une courbe régulière passant le plus près possible des points observés (au sens d une distance à dé nir). La seconde approche consiste à interpoler les données : on recherche une courbe régulière qui passe par tous les points observés. Dans le cas de la construction des courbes de taux, les deux approches sont, à priori, envisageables. Il n existe pas de méthode optimale, tout dépend des besoins de l utilisateur (Ron 2000). Après avoir posé le problème en termes mathématiques, nous discutons les avantages et les inconvénients de pratiquer un lissage sur les données. Nous en arrivons à la conclusion que cette solution n est pas pleinement satisfaisante, lorsque l on souhaite utiliser la courbe des taux pour évaluer des produits dérivés. Nous présentons alors deux méthodes d interpolation qui permettent d obtenir une courbe zéro-coupon non-arbitrable, l une classique l autre originale, dont l implémentation est aisée. 3.6.1 Position du problème Pour pouvoir mettre en oeuvre un algorithme numérique, nous devons convertir les dates en maturités. On pose donc : i = n (t; T i) ; i = 1; : : : ; N; (3.58) 365:25 où n (t; T i ) est le nombre de jours calendaires entre la date t (incluse) et la date T i (exclue). Notre objectif est de déterminer le taux R () pour 2 [ 1 ; N ]. Dans la suite, nous notons B i le facteur d actualisation de maturité i. R i = ln B i = i et R ~ i = R i i désignent respectivement le taux zéro-coupon annualisé et le taux at de maturité i. Les données ne sont pas arbitrables 11 Le marché interbancaire est très bien arbitré ; il est donc rare que les facteurs d actualisation associés aux di érents ténors présentent des opportunités d arbitrage. 174
donc les B i forment une suite décroissante et les ~ R i forment une suite croissante. La méthode retenue (lissage ou interpolation) doit garantir que la courbe reconstituée présente les mêmes propriétés. 3.6.2 Lissages de la courbe zéro-coupon L avantage principal des méthodes de lissage est qu elles permettent de capturer la forme de la courbe des taux sans pour autant passer par des points qui pourraient être jugés comme aberrants. On distingue les méthodes de lissage paramétriques et les méthodes de lissage non-paramétriques. Nous en présentons ci-dessous les avantages et les inconvénients. Lissage paramétrique de type Nelson-Siegel Principe Le lissage paramétrique consiste : (i) à postuler une famille de courbes qui dépendent d un certain nombre de paramètres en général interprétables (paramètre de niveau, paramètre de pente, paramètre de courbure... ) et (ii) à trouver le jeu de paramètres qui minimisent la distance entre les points observés et la courbe théorique. Nelson et Siegel (1987) ont proposé une fonction de lissage paramétrique pour les courbes de taux, qui est une combinaison de fonctions polynomiales pondérées par des coe cients à décroissance exponentielle. La fonctionnelle de Nelson-Siegel peut se mettre sous la forme : 1 e = 1 e = R () = 1 + 2 + = 3 e = ; 0: (3.59) = Le paramètre est un paramètre de retour à la moyenne. Les paramètres 1 ; 2 ; 3 contrôlent respectivement le comportement de la courbe sur le longterme, sur le moyen-terme et sur le court-terme. Le modèle est calibré aux données observées en résolvant un problème de minimisation non linéaire : ( N ) X ( 1; 2; 3; ) = arg min (R ( n ) R n ) 2 : ( 1 ; 2 ; 3 ; ) 2 R 4 : (3.60) n=1 A n de simpli er la procédure de calibration, certains auteurs proposent de xer la valeur de à priori et, dans ce cas, le problème (3.60) devient un problème d optimisation linéaire (Martellini et Priaulet 2004, Diebold et Li 2006). Propriétés On peut montrer que cette famille de fonctions permet d obtenir les quatre formes de courbes classiques (ascendante, descendante, plate et inversée). En revanche, elle présente deux inconvénients majeurs. 1. Elle ne permet pas de capturer les formes de courbes plus complexes que l on peut rencontrer dans certaines con gurations de marché, notamment les courbes possédant un creux et une bosse (Martellini et Priaulet 2004). 2. Elle peut introduire des opportunités d arbitrage sur la courbe (Bekker et Bouwman 2007). 175
Concernant la première observation, certains auteurs ont proposé des variantes de la fonctionnelle (3.59) qui o rent un ajustement de meilleure qualité sur les données (Svensson 1994, Bliss 1997, Björk et Christensen 1999). Le gain en exibilité est obtenu en augmentant le nombre de paramètres du modèle, mais cela se fait au détriment de la procédure de calibration qui devient alors fortement non linéaire (Geyer et Mader 1999, Ramponi et Lucca 2003). Pour une étude comparative détaillée des propriétés de la fonctionnelle (3.59) et de ses variantes, le lecteur pourra consulter Kalev (2004) ou De Pooter (2007). Concernant la seconde observation, Bekker et Bouwman (2007) proposent une méthode pour calibrer le modèle en intégrant des contraintes de non-arbitrage sur les paramètres. Coroneo, Nyholm et Vidova-Koleva (2008) montrent que le modèle (3.59) est statistiquement non-arbitrable. Les paramètres obtenus en e ectuant l optimisation classique (3.60), conduisent dans la plupart des con - gurations à une courbe de taux non-arbitrable. Discussion L avantage principal des approches paramétriques du type Nelson- Siegel est que les paramètres sont interprétables 12 et qu ils sont relativement stables dans le temps. C est pourquoi ces modèles sont utilisés : (i) par les banques centrales pour reconstruire les courbes de taux d états étalons (Ricart et Sicsic 1995, BIS 2005, Diebold, Li et Yue 2006, ECB 2007) et (ii) par les analystes économiques pour prédire l évolution des taux dans le futur (Bernadell, Coche et Nyholm 2005, Diebold et Li 2006, Almeida et Vicente 2007, De Pooter, Ravazzolo et Van Dijk 2007). En revanche, leur incapacité à restituer dèlement certaines formes de courbes les rend impropres à lisser les courbes de taux qui interviennent dans l évaluation et la couverture des produits dérivés. En e et, les opérateurs cherchent avant tout à obtenir des prix qui re ètent le coût de leur portefeuille de couverture avec exactitude. On comprend dès lors que, si l on utilise un modèle qui donne une approximation imprécise de la courbe zéro-coupon, le risque est d introduire des biais lors de l évaluation du produit dérivé et des paramètres de risques. Lissage non-paramétrique par splines cubiques Les méthodes de lissage paramétrique manquent de exibilité et elles ne permettent pas de reconstituer toutes les formes de courbes rencontrées en pratique. Pour résoudre ce problème, on peut alors envisager d utiliser une méthode nonparamétrique basée sur des fonctions splines. McCulloch (1971, 1975) propose d utiliser des splines cubiques polynomiaux. Smirnov et Zakharov (2003) étudient la possibilité de reconstruire la courbe des taux en utilisant des splines exponentiels. Ils montrent comment tenir compte explicitement des contraintes 12 Plus précisément, les paramètres peuvent être identi és aux facteurs de risque qui contrôlent les déformations de la courbe des taux. Ce résultat peut être mis en évidence en procédant à une Analyse en Composantes Principales de l évolution de la courbe (Martellini et Priaulet 2004, pp. 57-63). 176
de non-arbitrage lors de la calibration. Cette seconde approche est particulièrement délicate à mettre en oeuvre, car elle nécessite de résoudre des problèmes d optimisation fortement non-linéaires. Nous présentons ci-dessous le lissage par splines cubiques de McCulloch. Principe Le principe est de diviser le segment [ 1 ; N ] en di érents sousintervalles et d approcher la fonction cherchée par un polynôme de degré 3 sur chacun des intervalles. Les coe cients de chaque polynôme sont déterminés en imposant des conditions de continuité de la fonction et de ses dérivées d ordres 1 et 2 aux extrémités de chaque sous-intervalle. Soit 1 = 1 k = N le partage de l intervalle [ 1 ; N ]. Les i sont appelés les noeuds de la fonction spline. L approximation par splines cubiques consiste à écrire la fonction R sous la forme suivante : nx 1 R () = f i () 1 fi i+1 g ; (3.61) i=1 où les f i sont des polynômes de degré 3 dé nis par : f i () = a i 3 + b i 2 + c i + d i : (3.62) A n de garantir un maximum de régularité, on impose les conditions suivantes en chaque noeud : f i ( i ) = f i 1 ( i ) (continuité) fi 0 ( i) = fi 0 1 ( i) (continuité de la dérivée première) fi 00 ( i) = fi 00 1 ( i) (continuité de la dérivée seconde) (3.63) En écrivant les relations (3.63) on obtient des relations linéaires entre les coe - cients des polynômes sur chaque intervalle i ; i+1, ce qui réduit la dimension du problème. Plus précisément, lorsque les contraintes (3.63) sont véri ées, la fonction cherchée peut se réécrire sous la forme (voir Annexe C pour une démonstration) : k 1 R () = 0 + 1 ( 1 ) + + 2 ( 1 ) 2 + + X i+2 ( i ) 3 + ; (3.64) def où x + = max (x; 0) et def = ( 0 ; : : : ; k+1 ) 0 2 R k+2 sont des coe cients à déterminer. Le vecteur de coe cients optimaux, noté, est solution du problème de minimisation quadratique : ( N ) X = arg min (R ( n ) R n ) 2 : 2 R k+2 : (3.65) n=1 La résolution de (3.65) est un problème d algèbre linéaire qui ne pose aucune dif- culté. Pour une présentation approfondie des fonctions splines, on peut consulter Lyche et Mørken (2006). i=1 177
Choix de la position des noeuds La principale di culté avec cette méthode est de choisir le nombre de noeuds k et les valeurs des coe cients ( i ) 1ik. Pour s en convaincre, il su t de tenir le raisonnement suivant : en augmentant le nombre de noeuds on améliore mécaniquement la qualité de l ajustement, le risque étant que la fonction obtenue oscille entre les noeuds, inversement, en diminuant le nombre de noeuds, on obtient un e et de lissage plus important, le risque étant que la fonction obtenue représente mal les données. Il n existe pas de méthode systématique pour choisir les noeuds. McCulloch suggère de choisir k comme l entier le plus proche de p N et de dé nir les coe cients i en posant : i = hi + i ( 1+hi hi ) ; (3.66) où h i = bin=kc (le symbole bc désigne l opérateur partie entière) et i = in=k h i. Martellini et Priaulet (2004) proposent de placer les noeuds aux maturités remarquables de la courbe : par exemple 1 an, 5 ans, 10 ans, 20 ans et ainsi de suite. Dans ces conditions, on peut considérer que les di érents segments i ; i+1 correspondent aux parties court-terme, moyen-terme et long-terme de la courbe. Discussion Les méthodes de lissage par splines sont utilisées par de nombreuses institutions pour reconstruire les courbes de taux zéro-coupon sur le marché interbancaire (Waggoner 1997, Ron 2000, Bolder et Gusba 2002). Mais, nous avons pu observer que dans les périodes où les marchés sont perturbés (krach), ce type d approche ne donnait pas des résultats totalement satisfaisants. En e et, dans de telles périodes, la courbe des taux peut prendre des formes particulièrement complexes (double creux, double bosse) qui traduisent le manque de sérénité des intervenants. La position des noeuds prend alors une importance considérable et il devient très di cile d obtenir une courbe qui restitue dèlement la forme des données observées, notamment sur les maturités courtes (inférieures à un an). De plus, les lissages par splines cubiques ne permettent pas de garantir que la courbe sera non-arbitrable, même si les données observées ne sont pas arbitrables (Hagan et West 2006). Conclusion Les méthodes de lissage permettent d obtenir des courbes de taux lisses et régulières. Toutefois elles soulèvent deux problèmes. 1. Il se peut que les données observées ne soient pas restituées dèlement, ce qui est particulièrement le cas pour les méthodes paramétriques. Les méthodes de lissage par splines cubiques corrigent ce défaut dans la mesure où elles n imposent pas une forme déterminée pour la courbe. En contrepartie, elles sont très sensibles au choix des noeuds qui relient les polynômes entre eux. 178
2. Il n existe pas de méthode de lissage qui soit à la fois simple à mettre en oeuvre et qui donne des courbes de taux non-arbitrables. En pratique les contraintes de non-arbitrage doivent être intégrées explicitement dans le problème de calibration qui devient alors non-linéaire. Compte tenu de l analyse précédente et dans la mesure où l objectif du modèle n est pas d imposer une forme théorique "idéale" à la courbe des taux, mais de produire une courbe non-arbitrable qui soit cohérente avec les données observées, nous allons montrer qu il est préférable d interpoler les données observées, plutôt que de procéder à un lissage. 3.6.3 Interpolations de la courbe zéro-coupon Nous commençons par discuter di érentes solutions proposées dans la littérature. Ensuite, nous présentons deux méthodes d interpolation "classiques" de la courbe zéro-coupon et nous introduisons une nouvelle méthode qui permet de corriger les inconvénients des deux méthodes précédentes. Quelques solutions présentées dans la littérature Il n existe pas de méthode optimale pour l interpolation de la courbe des taux. En pratique, il faut choisir une solution qui réalise un compromis entre facilité de mise en oeuvre et robustesse des résultats. Chazot et Claude (1995) proposent de travailler avec les taux zéro-coupon annualisés et de procéder soit à une interpolation linéaire, soit à une interpolation par splines cubiques naturels. Ron (2000) souligne que, lorsque la courbe des taux présente des changements de pente fréquents et/ou importants, l interpolation linéaire produit des cassures inacceptables au niveau des di érents noeuds de la courbe, ce qui conduit à éviter cette approche. Par ailleurs, Kruger (2003) démontre que l interpolation par splines cubiques naturels produit des courbes qui oscillent entre les données, ce qui n est pas souhaitable quand on doit reconstituer des courbes de taux. Adams (2001) modélise la fonction de taux instantané par des splines quartiques (polynômes d ordre 4). Cette méthode permet d obtenir la fonction de taux instantané la plus régulière possible, mais elle présente deux inconvénients : (i) le nombre de contraintes à prendre en compte lors de la calibration est très important et surtout (ii) elle ne permet pas de garantir la positivité des taux forwards instantanés. Hagan et West (2006) procèdent à une étude comparative exhaustive des méthodes d interpolation envisageables pour la construction de la courbe des taux. Ils distinguent les méthodes d interpolation simples, qui consistent à interpoler linéairement une quantité à préciser (taux zéro-coupon, facteurs d actualisation, taux ats... ), des méthodes d interpolation complexes, qui sont essentiellement des variantes de l interpolation par splines cubiques (splines cubiques contraints). Les auteurs démontrent sur un exemple que la plupart des méthodes étudiées ne permettent pas d obtenir systématiquement une courbe non-arbitrable. Ils proposent alors deux nouvelles méthodes d interpolation pour résoudre ce problème. Mais elles sont particulièrement lourdes à 179
mettre en oeuvre, car il faut tenir compte, lors de la calibration, d un grand nombre de contraintes. Nous exposons ci-dessous les trois méthodes suivantes. 1. L interpolation par splines cubiques naturels sur les taux zéro-coupon : la courbe obtenue est régulière (de classe C 2 ), mais elle peut présenter des opportunités d arbitrage. 2. L interpolation RT-Linéaire (RTL), employée par de nombreux praticiens. Elle garantit l obtention d une courbe non-arbitrable, mais elle présente un inconvénient : les taux forwards sont discontinus. 3. L interpolation RT-Cubique-Monotone (RTCM). C est une méthode originale dont nous proposons l utilisation. Elle combine les avantages des deux méthodes précédentes : la courbe zéro-coupon est systématiquement non-arbitrable et les taux forwards instantanés sont continus. Interpolation par splines cubiques naturels L interpolation par splines cubiques naturels est un cas particulier de la méthode de lissage du paragraphe 3.6.2 dans lequel on fait coïncider les points de raccordement des splines avec les dates d observations : k = N; i = i : (3.67) La fonction de taux zéro-coupon est dé nie par la formule (3.64) : N 1 R () = 0 + 1 ( 1 ) + + 2 ( 1 ) 2 + + X i=1 i+2 ( i ) 3 + : (3.68) Pour déterminer les inconnues du problème ( 0 ; : : : ; N+1 ) 2 R N+1, on impose à la fonction de passer par les taux observés R 1 ; : : : ; R N : R ( i ) = R i ; i = 1; : : : ; N: (3.69) La relation (3.69) nous donne N contraintes, or il y a N + 2 inconnues à déterminer. Il faut donc introduire deux contraintes supplémentaires. La méthode dite des splines cubiques naturels consiste à poser : R 00 ( 1 ) = R 00 ( N ) = 0: (3.70) Dans ce cas, la convexité de la courbe est minimale aux extrémités 13. En écrivant les di érentes contraintes, on peut déterminer un système linéaire dont la solution correspond aux coe cients cherchés. 13 Une autre solution, appelée splines cubiques nanciers, consiste à remplacer la contrainte (3.70) par la relation R 0 ( 1 ) = R 0 ( N ) = 0. Cette condition impose que la courbe soit plate aux points extrêmes, ce qui permet d extrapoler les données au-delà de la maturité la plus grande. Hagan et West (2006) discutent de nombreuses variantes de l interpolation par splines cubiques. 180
Discussion La courbe obtenue est de classe C 2, ce qui est un avantage certain. Par contre, l interpolation par splines cubiques présente deux inconvénients majeurs 14 : elle peut produire des courbes de taux arbitrables, alors que les données d entrée ne sont pas arbitrables, l interpolation est globale, ce qui signi e qu en modi ant un point d entrée, on déforme toute la courbe. La méthode s avère malgré tout relativement performante lorsque l on dispose d un grand nombre de points observés. Dans ce cas, la courbe obtenue est lisse et régulière. En revanche, dès que le nombre de points est peu important (5 ou 6 points), la courbe obtenue ampli e les tendances que l on peut observer au niveau des données. Interpolation RT-Linéaire (RTL) Cette méthode est fréquemment utilisée par les opérateurs de marché. L idée est de procéder à une interpolation linéaire, non pas sur les taux zéro-coupon annualisés R i, mais sur les taux ats ~ R i = R i i (appelés "taux RT" dans la pratique). Cette méthode est très simple à implémenter, elle est très stable (la fonction de taux forwards instantanés est peu sensible à une modi cation de l un des taux observés) et surtout, elle garantit que la courbe obtenue sera nonarbitrable (Hagan et West 2006, West 2006). Taux zéro-coupon dé ni par : Sur chaque intervalle [ i ; i+1 ], le taux continu at est ~R () = a i + b i ; (3.71) où a i et b i sont donnés par les formules : a i = i+1r i+1 i R i ; (3.72) i+1 i i i+1 b i = (R i R i+1 ) : (3.73) i+1 i La relation (3.2) nous donne l expression du taux annualisé : R () = a i + b i : (3.74) Etant donné que l on a la relation R ~ () = ln B (), où B () est le facteur d actualisation de maturité, cette méthode est parfois appelée interpolation log-linéaire. 14 On retrouve ces inconvénients pour les splines cubiques dits " nanciers", qui reposent sur le même principe d interpolation. 181
Taux forward instantané donnés par la formule (3.11) : Les taux forwards instantanés, notés r (), sont La fonction! r () est donc en escalier. r () = ~ R 0 () = a i ; i i+1 : (3.75) Une conséquence intéressante de (3.75) est la suivante : r () > 0, a i > 0, ~ R i+1 > ~ R i : (3.76) Autrement dit, les taux forwards instantanés sont positifs, dès que les taux ats observés sont croissants (ce qui est le cas par hypothèse, car les données observées ne présentent pas d opportunité d arbitrage). Localité de l interpolation Les formules (3.72) et (3.73) montrent que si l on change la valeur d entrée R i alors la fonction! R () n est modi ée que sur les intervalles [ i 1 ; i ] et [ i ; i+1 ], le reste de la courbe est inchangé. En termes mathématiques, on dit que l interpolation est locale, car les déformations sur les données observées ne sont répercutées que localement (Hagan et West 2006). Stabilité de l interpolation En dérivant successivement la formule (3.75) par rapport à R i et R i+1 il vient : @r @R i = @r @R i+1 = i = Cste; (3.77) i+1 i i+1 = Cste 0 : (3.78) i+1 i La méthode d interpolation est particulièrement stable, car la sensibilité de la fonction r aux taux observés ne dépend que de la position initiale des maturités observées. Commentaires La méthode RTL est une méthode d interpolation particulièrement attractive pour plusieurs raisons : la courbe obtenue est, par construction, non-arbitrable, l interpolation est locale (la courbe ne se déforme que localement), l interpolation est stable (les sensibilités du taux instantané aux données d entrée sont constantes). Cette méthode présente cependant un inconvénient : les taux forwards instantanés sont discontinus (West 2006). C est pourquoi nous envisageons une autre approche qui permet de construire une fonction interpolante de classe C 1. Interpolation RT-Cubique-Monotone (RTCM) Nous souhaitons construire une fonction interpolante continûment dérivable, de sorte que les taux forwards instantanés soient continus. A n de préserver les 182
propriétés de non-arbitrage de la courbe, nous imposons la contrainte r () 0, pour 0 N. Une solution envisagée par Hagan et West (2006) consiste à modéliser la fonction r en imposant de nombreuses contraintes de positivité. Cette méthode conduit à des calculs particulièrement lourds, c est pourquoi nous envisageons une autre approche, plus simple à mettre en oeuvre et dont nous exposons la démarche ci-dessous. Interpoler en préservant la monotonie On sait que les taux instantanés sont toujours positifs si et seulement si la fonction! R ~ () est croissante avec la maturité. Or, nous avons supposé que les taux ats observés R ~ i formaient une suite croissante. L idée est donc d interpoler les R ~ i par une fonction de classe C 1 qui préserve la monotonie du jeu de données. La fonction R ~ ainsi reconstituée sera dérivable et sa dérivée sera positive et continue. Fritsch et Carslon (1980) proposent d utiliser des splines cubiques contraints pour e ectuer ce type d interpolation. Le principe est de remplacer l hypothèse de continuité de la dérivée seconde par une hypothèse de monotonie sur chaque segment [ i ; i+1 ]. Les auteurs démontrent que la monotonie sur chaque segment est entièrement déterminée par les valeurs des dérivées R ~ i 0 = r i et R ~ i+1 0 = r i+1 aux extrémités i et i+1. Ils proposent un algorithme qui permet de construire les r i à partir de l ensemble des données observées, ce qui signi e que l interpolation est globale. En d autres termes, toute modi cation sur une seule valeur d entrée, par exemple ~R i, est répercutée sur toute la courbe. Nous utilisons une variante de l algorithme de Fritsch et Carslon, due à Fritsch et Butland (1984), dans laquelle le calcul des dérivées est immédiat et qui produit une interpolation locale. L algorithme retenu est présenté dans la suite 15. Interpolation de Hermite de la manière suivante : Le principe est d écrire la fonction cherchée ~ R nx 1 ~R () = f i () 1 f i i+1g; 1 n ; (3.79) i=1 où chaque f i est un polynôme de degré 3 dé ni par l équation : f i () = a i ( i ) 3 + b i ( i ) 2 + c i ( i ) + d i ; i i+1 : (3.80) Dans l interpolation dite de Hermite, les coe cients (a i ; b i ; c i ; d i ) sont déterminés par les quatre conditions suivantes : le polynôme f i passe par les points observés i ; R ~ i et i+1 ; R ~ i+1 : fi ( i ) = ~ R i f i ( i+1 ) = ~ R i+1 (interpolation à gauche) (interpolation à droite) ; (3.81) 15 Il existe d autres approches pour construire des splines cubiques monotones interpolants, mais leur mise en oeuvre nécessite d introduire des points de contrôle intermédiaires pour "corriger" la forme de la courbe, ce qui complexi e les calculs (Gasparo et Morandi 1991). 183
la dérivée du polynôme f i interpole le taux forward instantané à chaque borne : f 0 i ( i ) = r i (interpolation à gauche) fi 0 ( ; (3.82) i+1) = r i+1 (interpolation à droite) où r i et r i+1 désignent les valeurs du taux forward instantané aux points i et i+1. Les coe cients cherchés sont donnés par les formules suivantes : a i = 1 h 2 i (r i + r i+1 2m i ) ; (3.83) b i = 1 h i (3m i 2r i r i+1 ) ; (3.84) c i = r i ; (3.85) d i = ~ R i ; (3.86) où m i def = ( ~ R i+1 ~ Ri )=h i désigne la pente entre les points ( i ; ~ R i ) et ( i+1 ; ~ R i+1 ). Les calculs gurent en Annexe D.1. Garantir la monotonie de la courbe Par construction, la fonction dé nie précédemment est de classe C 1 sur l intervalle [ 1 ; n ] et sa forme est entièrement déterminée par les triplets ( i ; R ~ i ; r i ). Dans notre problème, les seules données observées sont les couples ( i ; R ~ i ). L idée est de xer les inconnues r 1 ; : : : ; r n, qui représentent les valeurs du taux forward instantané aux dates d observations, de manière à ce que le polynôme f i soit monotone sur l intervalle [ i ; i+1 ]. Fritsch et Carslon (1980) considèrent la dérivée de f i qui est donnée par la formule : f 0 i () = 3a i ( i ) 2 + 2b i ( i ) + c i ; (3.87) puis ils étudient son signe en fonction des coe cients. A n de simpli er les raisonnements, ils posent : i = r i m i ; i = r i+1 m i : (3.88) Une condition nécessaire (mais non su sante) pour que la courbe soit monotone sur l intervalle [ i ; i+1 ] est que les dérivées aux bornes de l intervalle soient de même signe que la pente entre les points ( i ; ~ R i ) et ( i+1 ; ~ R i+1 ). Cela implique une première condition : i 0; i 0: (3.89) Les coe cients a i, b i et c i se réécrivent sous la forme suivante : a i = m i h 2 i ( i + i 2) ; (3.90) b i = m i h i (3 2 i i ) ; (3.91) c i = m i i : (3.92) 184
En injectant ces formules dans (3.87) on obtient : f 0 i () = m i 3 ( i + i 2) x 2 + 2 (3 2 i i ) x + i ; def où l on a posé x = ( i ) =h i 2 [0; 1]. En conséquence, pour connaître le signe de fi 0 (), il su t d étudier le polynôme dé ni par : g(x) = 3 ( i + i 2) x 2 + 2 (3 2 i i ) x + i ; 0 x 1: Pour le détail des calculs, on peut consulter Fritsch et Carslon (1980). Les contraintes de monotonie sont données par les règles ci-dessous. 1. Si i + i 2 0, alors f i est monotone si et seulement si la condition (3.89) est réalisée. 2. Si i + i 2 > 0, alors f i est monotone si et seulement si la condition (3.89) est réalisée et si l une des conditions suivantes est véri ée : (a) 2 i + i 3 0; (b) i + 2 i 3 0; (c) 2 i + i ( i 6) + ( i 3) 2 < 0: Fritsch et Carslon (1980) donnent un algorithme pour construire les dérivées r i à partir de l ensemble des points de la courbe, ce qui signi e que l interpolation qu ils proposent est globale. Nous montrons ci-dessous comment choisir les dérivées de manière à ce que l interpolation soit la plus locale possible. Choix des dérivées Fritsch et Carslon démontrent que les règles précédentes dé nissent une région D du plan dont la forme est relativement complexe et que le plus grand carré contenu dans D est le pavé [0; 3] [0; 3]. Pour cette raison et par soucis de simplicité, Fritsch et Butland (1984) proposent de restreindre la recherche des coe cients (r i ; r i+1 ) à l ensemble des couples tels que ( i ; i ) 2 [0; 3] [0; 3]. Ils proposent aussi de calculer les dérivées cherchées avec la formule suivante : m i 1m i r i = im i+(1 i)m i 1 si m i 1 m i > 0 ; 2 i n 1; (3.93) 0 si m i 1 m i 0 où i est dé ni par : Véri ons que ( i ; i ) 2 [0; 3] [0; 3] : i = h i + 2h i+1 1 3 (h i + h i+1 ) 2 3 ; 1 : (3.94) i = r i 1 = m i i m i =m i 1 + (1 i ) 1 (1 i ) < 3; i = r i+1 1 = 1 < 3: m i i+1 + (1 i+1 ) m i =m i+1 i+1 185
Donc ce choix des dérivées convient. Il ne reste qu à xer les dérivées aux points extrêmes 1 et N pour que la courbe soit entièrement paramétrée. Pour cela, nous imposons que la dérivée seconde de la fonction soit nulle aux extrémités du segment [ 1 ; N ] : On obtient alors (voir calcul en Annexe D.2) : f 00 1 ( 1 ) = f 00 N 1 ( N ) = 0: (3.95) r 1 = 3m 1 r 2 ; (3.96) 2 r N = 3m N 1 r N 1 : (3.97) 2 On véri e sans di culté que (3.96) implique 2 1 + 1 3 = 0, donc la condition 2(a) est véri ée. Par ailleurs, (3.97) implique 2 N 1 + N 1 3 = 0, donc la condition 2(b) est véri ée. En conséquence, la fonction interpolante est monotone sur le premier et sur le dernier segment. Taux zéro-coupon Sur chaque intervalle [ i ; i+1 ], le taux zéro-coupon annualisé est dé ni par : R () = a i ( i ) 3 + b i ( i ) 2 + r i ( i ) + R ~ i ; 1 n : (3.98) Taux forward instantané La fonction de taux forwards instantanés est obtenue en dérivant l expression (3.80) membre à membre : r () = 3a i ( i ) 2 + 2b i ( i ) + r i ; 1 n : (3.99) Par construction, elle est continue et toujours positive. Localité de l interpolation Les quantités m i 1 ; m i ; r i ; r i+1 dépendent du taux ~ R i. Alors, si l on change la valeur de ~ R i les coe cients des polynômes f i 1 ; f i et f i+1 sont modi és. Cela signi e que toute modi cation du taux R ~ i induit une déformation de la fonction R ~ sur l intervalle [ i ; i+1 ] et sur les deux intervalles adjacents : [ i 1 ; i ] et [ i+1 ; i+2 ]. On en conclut que l interpolation RTCM est locale. Stabilité de l interpolation L étude de la stabilité de l interpolation RTCM est plus délicate que dans le modèle RTL car, au travers des formules (3.93), (3.96) et (3.97), les coe cients du polynôme interpolant dépendent de manière non-linéaire des données observées. Toutefois, il est possible d encadrer la déformation des taux forwards instantanés en calculant les dérivées de r () par rapport aux données d entrée m i, r i et r i+1. @r @m i = 3 @a i @m i ( i ) 2 + 2 @b i @m i ( i ) = 6x (1 x) ; 186
où x def = ( i ) =h i 2 [0; 1]. La fonction x! 6x (1 x) est bornée sur [0; 1], minorée par 0 et majorée par 1=3. On en déduit que : Calculons : @r @r i = 3 @a i @r i ( 0 @r @m i 1 3 : (3.100) i ) 2 + 2 @b i @r i ( i ) + 1 = 3x 2 4x + 1; où x est dé ni comme précédemment. La fonction sur x! 3x 2 4x+1 est bornée sur l intervalle [0; 1], minorée par 1=3 et majorée par 1. Alors, on obtient : En n, on a : @r @r i+1 = 3 @a i @r i+1 ( 1 3 @r 1: (3.101) @r i i ) 2 + 2 @b i @r i+1 ( i ) + 1 = 3x 2 2x: La fonction sur x! 3x 2 2x est bornée sur l intervalle [0; 1], minorée par 1=3 et majorée par 1, d où l on déduit : 1 3 @r 1: (3.102) @r i+1 Les formules (3.100), (3.101) et (3.102) signi ent que les déformations de la fonction r sont bornées, donc l interpolation RTCM est stable. Commentaire L interpolation RTCM présente les mêmes atouts que l interpolation RTL mais, en plus, elle garantit la continuité des taux forwards instantanés. 3.7 Comparaison des méthodes proposées Dans cette section, nous illustrons les performances des méthodes d interpolation RTL et RTCM que nous comparons à l interpolation par splines cubiques naturels. Nous prenons deux exemples : le premier établit la nécessité d utiliser une méthode d interpolation qui garantit la positivité des taux forwards instantanés, le second montre comment les méthodes proposées permettent de construire la courbe zéro-coupon EURIBOR. 3.7.1 Splines cubiques naturels et taux instantanés négatifs L exemple présenté est issu de Hagan et West (2006). On considère la courbe de taux zéro-coupon donnée dans le tableau ci-dessous. 187
R() R() ~ B () 0:1 8:10% 0:81% 0:99193 1:0 7:00% 7:00% 0:93239 4:0 4:40% 17:60% 0:83862 9:0 7:00% 63:00% 0:53259 20:0 4:00% 80:00% 0:44933 30:0 3:00% 90:00% 0:40657 Les taux ats observés sont croissants (3 ieme colonne), donc la courbe ne devrait pas présenter d opportunité d arbitrage. Pourtant, comme l illustre la gure 3.1, les taux forwards instantanés obtenus avec l interpolation par splines cubiques naturels sont négatifs dans certaines régions. En comparaison, les méthodes d interpolation RTL et RTCM préservent la structure non-arbitrable des données observées. Le graphique du haut représente les courbes zéro-coupon (en vert) et de taux forward instantané (en pointillé rouge) lorsque les données sont interpolées par la méthode des splines cubiques naturels. Le graphique du milieu donne les mêmes courbes obtenues avec l interpolation RTL et le graphique du bas avec l interpolation RTCM. La courbe des taux zéro-coupon est très régulière avec les splines cubiques naturels, mais elle présente des opportunités d arbitrage. En e et, les taux forwards instantanés sont négatifs dans l intervalle de maturités [15; 25] avec un taux forward minimal d environ 5:10%. Ce résultat démontre que l interpolation par splines cubiques naturels peut s avérer décevante lorsqu il s agit de reconstruire les courbes des taux à partir de peu de points. En revanche, les taux forwards instantanés restent positifs avec les méthodes RTL et RTCM, ce qui con rme que ces deux approches préservent la structure non-arbitrable des données observées. Sur cet exemple, l interpolation RTCM se montre la plus performante pour deux raisons : (i) la courbe de taux zéro-coupon est parfaitement régulière et elle n accentue pas les tendances entre les données, (ii) la courbe des taux forwards est, elle aussi, très régulière, alors qu elle est discontinue avec la méthode RTL. Nous allons maintenant appliquer les méthodes proposées à des données réelles. 3.7.2 Construction de la courbe EURIBOR Les données utilisées sont celles du vendredi 09 mai 2008 et la courbe reconstituée est la courbe EURIBOR. Les jours ouvrés sont gérés selon le calendrier TARGET 16 et les dates de départ des di érentes opérations sont les suivantes : 16 Voir Annexe B. t = 09=05=2008; t ON = 12=05=2008; t SN = 13=05=2008: 188
Interpolation Splines Cubiques Naturels 13,00% 11,00% 9,00% 7,00% Taux 5,00% 3,00% 1,00% Taux Obs. Taux ZC Taux Inst. 1,00% 0 2,5 5 7,5 10 12,5 15 17,5 20 22,5 25 27,5 30 3,00% 5,00% 7,00% Maturités Interpolation RTL 12% 10% Taux 8% 6% 4% Taux Obs. Taux ZC Taux Inst. 2% 0% 0 2,5 5 7,5 10 12,5 15 17,5 20 22,5 25 27,5 30 Maturités Interpolation RTCM 12% 10% Taux 8% 6% 4% Taux Obs. Taux ZC Taux Inst. 2% 0% 0 2,5 5 7,5 10 12,5 15 17,5 20 22,5 25 27,5 30 Maturités Fig. 3.1 Interpolations d une courbe de taux, où les splines cubiques naturels donnent des taux forwards négatifs. Graphique du haut : splines cubiques naturels ; graphique du milieu : méthode RTL ; graphique du bas : méthode RTCM. Sur chaque graphique, la courbe zéro-coupon est représentée en vert et la courbe de taux forwards instantanés est représentée en pointillé rouge. 189
Les deposits couvrent la plage des maturités allant de 1 jour ouvré (ON) à 1 an. Les swaps couvrent les maturités allant de 2 ans à 30 ans. Il existe deux types de swaps sur le marché de l EURIBOR : les swaps contre EURIBOR 3 mois et les swaps contre EURIBOR 6 mois qui sont les plus liquides et que nous utilisons ici. Par convention, tous les swaps contre EURIBOR sont en départ Spot. Les dates d échéances sont ajustées suivant la convention Modi ed Following. La base de calcul de la jambe xe est 30/360 et la base de calcul de la jambe variable est Act/360. La méthode utilisée pour l extraction des facteurs d actualisation est celle décrite dans la section 3.5. Les facteurs d actualisation et les taux zérocoupon associés aux di érents ténors sont donnés dans le tableau ci-dessous. Inst. Type Tenor Bid Ask Mid Start End DF ZC rate D ON 3,660 3,780 3,720 09/05/08 12/05/08 0,999690 3,774 D TN 3,770 3,890 3,830 12/05/08 13/05/08 0,999584 3,802 D SN 3,790 3,910 3,850 13/05/08 14/05/08 0,999477 3,823 D 1W 3,980 4,100 4,040 13/05/08 20/05/08 0,998799 3,990 D 2W 4,200 4,320 4,260 13/05/08 27/05/08 0,997931 4,204 D 3W 4,225 4,345 4,285 13/05/08 03/06/08 0,997091 4,256 D 1M 4,270 4,390 4,330 13/05/08 13/06/08 0,995871 4,318 D 3M 4,740 4,860 4,800 13/05/08 13/08/08 0,987471 4,797 D 6M 4,820 4,940 4,880 13/05/08 13/11/08 0,975259 4,867 D 9M 4,810 4,930 4,870 13/05/08 13/02/09 0,963606 4,836 D 1Y 4,701 4,821 4,761 13/05/08 13/05/09 0,954156 4,645 S 2Y 4,407 4,437 4,422 13/05/08 13/05/10 0,916848 4,320 S 3Y 4,297 4,327 4,312 13/05/08 13/05/11 0,880921 4,214 S 4Y 4,256 4,286 4,271 13/05/08 14/05/12 0,845824 4,172 S 5Y 4,248 4,278 4,263 13/05/08 13/05/13 0,811609 4,166 S 6Y 4,269 4,299 4,284 13/05/08 13/05/14 0,777380 4,190 S 7Y 4,309 4,339 4,324 13/05/08 13/05/15 0,743170 4,235 S 8Y 4,356 4,386 4,371 13/05/08 13/05/16 0,709376 4,286 S 9Y 4,409 4,439 4,424 13/05/08 15/05/17 0,675794 4,346 S 10Y 4,462 4,492 4,477 13/05/08 14/05/18 0,643199 4,408 S 11Y 4,510 4,540 4,525 13/05/08 13/05/19 0,611773 4,464 S 12Y 4,555 4,585 4,570 13/05/08 13/05/20 0,581348 4,516 S 13Y 4,594 4,624 4,609 13/05/08 13/05/21 0,552322 4,563 S 14Y 4,627 4,657 4,642 13/05/08 13/05/22 0,524761 4,603 S 15Y 4,655 4,685 4,670 13/05/08 15/05/23 0,498488 4,637 S 20Y 4,721 4,751 4,736 13/05/08 15/05/28 0,389372 4,712 S 25Y 4,716 4,746 4,731 13/05/08 13/05/33 0,309659 4,687 S 30Y 4,689 4,719 4,704 13/05/08 13/05/38 0,249501 4,626 La gure 3.2 représente les courbes de taux zéro-coupon (en vert) et les courbes de taux forwards instantanés (en pointillé rouge) obtenues avec les trois méthodes d interpolation : splines cubiques naturels (graphique du haut), RTL (graphique du milieu) et RTCM (graphique du bas). On constate que l interpolation par splines cubiques naturels ne conduit pas à des taux forwards négatifs. La raison en est que le jeu de points utilisé est su samment dense pour que les splines cubiques opèrent une reconstruction des données manquantes dèle aux données observées. Comme attendu, la courbe de taux forwards instantanés est en escalier dans l interpolation RTL, tandis qu elle est continue et régulière 190
Interpolation Splines Cubiques Naturels 5,50% 5,00% Taux 4,50% 4,00% Taux Obs. Taux ZC Taux Inst. 3,50% 3,00% 0 2,5 5 7,5 10 12,5 15 17,5 20 22,5 25 27,5 30 Maturités Interpolation RTL 5,5% 5,0% Taux 4,5% 4,0% Taux Obs. Taux ZC Taux Inst. 3,5% 3,0% 0 2,5 5 7,5 10 12,5 15 17,5 20 22,5 25 27,5 30 Maturités Interpolation RTCM 5,5% 5,0% Taux 4,5% 4,0% Taux Obs. Taux ZC Taux Inst. 3,5% 3,0% 0 2,5 5 7,5 10 12,5 15 17,5 20 22,5 25 27,5 30 Maturités Fig. 3.2 Courbe de taux EURIBOR au 09/05/2008 construite selon trois méthodes : la méthode des splines cubiques naturels (graphique du haut), la méthode RTL (graphique du milieu) et la méthode RTCM (graphique du bas). Sur chaque graphique, la courbe zéro-coupon est représentée en vert et la courbe de taux forwards instantanés est représentée en pointillé rouge. 191
dans l interpolation RTCM. En particulier, la courbe de taux forwards est plus régulière avec la méthode RTCM qu avec l interpolation par splines cubiques naturels sur le court-terme (maturités inférieures à 2:5 ans). Ces résultats sont très encourageants et nous conseillons d utiliser systématiquement les méthodes RTL ou RTCM. Le choix d utiliser une méthode plutôt que l autre dépend du type d application que l on envisage et du nombre de données disponibles. Si l on souhaite privilégier la régularité de la courbe de taux forwards instantanés, il faut mettre en oeuvre la méthode RTCM. 3.8 Conclusion Les courbes zéro-coupon sont les piliers sur lesquels reposent les systèmes d évaluation des actifs dérivés complexes actuels. Il faut donc les construire avec soin, en tenant compte des conventions de marché et en veillant à ce qu elles ne présentent pas d opportunité d arbitrage. Dans la seconde section, nous avons donné les principaux concepts théoriques sur lesquels repose la construction d une courbe de taux zéro-coupon et nous avons démontré les propriétés qu une telle courbe doit véri er lorsque le marché fonctionne en l absence d opportunité d arbitrage. Dans la troisième section, nous avons présenté les conventions en vigueur sur les marchés de taux d intérêt pour calculer les dates et pour gérer les échéanciers de ux. Dans la quatrième section, nous avons montré que, pour construire les courbes de taux destinées à l évaluation des produits nanciers, il fallait utiliser des instruments du marché interbancaire et nous avons présenté les di érents types d instruments pour lesquels on dispose de cotations ables. Dans la section cinq, nous avons démontré comment extraire les facteurs d actualisation zéro-coupon à partir des taux de deposits et des taux de swaps vanilles en tenant compte des conventions de marché. Dans la sixième section, nous avons envisagé deux approches pour reconstituer une courbe de taux complète et non-arbitrable : le lissage ou l interpolation. Après avoir écarté les techniques de lissage (qui ne donnent pas une reconstitution dèle des données), nous avons présenté la méthode des splines cubiques naturels (qui ne permet pas de préserver les propriétés de non-arbitrage de la courbe), ainsi que deux méthodes d interpolation très e caces, l interpolation RT-Linéaire (RTL) et l interpolation RT-Cubique-Monotone (RTCM) avec lesquelles on obtient systématiquement une courbe non-arbitrable. Dans la section sept, nous avons comparé les méthodes proposées, d abord sur un jeu de données spécialement choisi, puis sur des données réelles (courbe EURIBOR). L étude a montré que la méthode des splines cubiques naturels pouvait engendrer des taux forwards négatifs, tandis que les deux autres méthodes donnent toujours des taux forwards positifs. L interpolation RTCM combine les avantages de l interpolation par splines cubiques (la courbe obtenue est de classe C 1, donc lisse) avec les avantages de l interpolation RTL (localité, stabilité, positivité des taux forwards instantanés). Pour les applications pratiques, nous recommandons d utiliser la méthode 192
RTL lorsque la continuité des taux forwards n est pas indispensable et la méthode RTCM dès que le problème nécessite de travailler avec des taux forwards continus. Une extension possible de l approche RTCM est d imposer la continuité de la dérivée seconde de la courbe zéro-coupon a n d obtenir une courbe de taux forwards encore plus régulière. Dans ce cas, déterminer la courbe des taux devient un problème d optimisation sous contraintes dont la calibration peut être arbitrairement longue (Turlach 1997, Wolberg et Itzik 1999). 193
A Démonstration de la proposition 3.1 L équivalence entre les points 1 et 2 est une conséquence directe de la dé nition (3.2). L équivalence entre les points 2 et 3 provient de la formule (3.11). Il su t donc d établir le point 1. Supposons qu il existe un zéro-coupon d échéance U tel que : B (t; T ) < B (t; U) et T < U. Alors, à la date t, on met en place la stratégie suivante : vente du zéro-coupon d échéance U et achat de B (t; U) =B (t; T ) zérocoupons d échéance T. Par construction, la mise en place de l opération ne donne lieu à aucun ux. A la date T, on reçoit un ux égal à B (t; U) =B (t; T ) et à la date U, on décaisse un ux égal à 1. En supposant que l on ne fasse rien entre la date T et la date U, on réalise un gain systématique égal à B (t; U) =B (t; T ) 1 > 0. Donc la stratégie proposée constitue un arbitrage, ce qui est exclu par hypothèse. B Caractéristiques des taux IBOR Nous donnons dans le tableau ci-dessous les devises pour lesquelles il existe des taux IBOR. Pour chaque devise, nous faisons gurer la base, la date de Valeur et le calendrier des taux associés. Référence Devise Base Date de Valeur Calendrier LIBOR USD Act/360 Spot GBP+USD JPY Act/360 Spot GBP+JPY GBP Act/365 Jour GBP CHF Act/360 Spot GBP+CHF CAD Act/360 Spot GBP+CAD AUD Act/360 Spot GBP+AUD DKK Act/360 Spot GBP+DKK SEK Act/360 Spot GBP+SEK NZD Act/360 Spot GBP+NZD EUR Act/360 Spot TARGET EURIBOR EUR Act/360 Spot TARGET A l exception des taux GBP-LIBOR, qui sont en date de Valeur "Jour" (le départ a lieu le jour de publication), tous les taux de la famille IBOR sont en date de Valeur "Spot" (le départ a lieu 2 jours ouvrés après la publication). Les taux EUR-LIBOR sont très peu utilisés et il ne faut pas les confondre avec les taux EURIBOR. Ces deux taux partagent le calendrier TARGET (Transeuropean Automated Real-time Gross settlement Express Tranfer). Les jours non-ouvrés du système TARGET sont : les week-ends, le jour de l An, le vendredi Saint, le lundi de Pâques, le premier mai (fête du travail), le 25 décembre (jour de Noël) et le 26 décembre. Pour les taux, dont la devise n est pas l Euro, le calendrier est de la forme GBP+XXX, ce qui signi e que l on considère les dates qui sont des jours ouvrés pour la place de Londres et pour la principale place de cotation de la devise XXX. 194
C Démonstration de la formule (3.64) Les conditions (3.63) s écrivent : d i + c i i + b i i + a i 3 i = d i 1 + c i 1 i + b i 1 2 i + a i 1 3 i ; (3.103) c i + 2b i i + 3a i 2 i = c i 1 + 2b i 1 i + 3a i 1 2 i ; (3.104) La relation (3.105) se réécrit : 2b i + 6a i i = 2b i 1 + 6a i 1 i : (3.105) b i def = b i b i 1 = 3a i i ; (3.106) où a i def = a i a i 1. En combinant (3.106) et (3.104) il vient : c i def = c i c i 1 = 2b i i 3a i 2 i = 3a i 2 i : (3.107) En injectant (3.106) et (3.107) dans (3.103) on a : d i def = d i d i 1 = a i 3 i b i 2 i c i i = a i 3 i : (3.108) Soit 2 R, avec les relations précédentes, on peut écrire : f i () f i 1 () = a i 3 + b i 2 + c i + d i = a i 3 3a i i 2 + 3a i 2 i a i 3 i = a i ( i ) 3 : (3.109) En sommant l égalité (3.109) membre à membre pour i = 2; : : : ; l, on obtient : f l () = f 1 () + lx a i ( i ) 3 ; 2 R: (3.110) i=2 195
Alors, pour tout 2 R, on a : R () = kx 1 f l () 1 fl l+1 g l=1 kx 1 = f 1 () 1 f1 2 g + l=2 f 1 () + kx 1 k 1 = f 1 () 1 fl l+1 g + X l=1 i=2 l=2 i=2! lx a i ( i ) 3 1 fl l+1 g i=2 lx a i ( l=i i ) 3 1 fl l+1 g kx 1 kx 1 = f 1 () 1 f1 k g + a i ( i ) 3 1 fl l+1 g i=2 l=i! kx 1 kx 1 = f 1 () 1 f1 k g + a i ( i ) 3 1 fl l+1 g kx 1 = f 1 () 1 f1 k g + a i ( i=2 kx 1 = f 1 () 1 f1 g + a i ( i=2 i ) 3 1 fi k g i ) 3 1 fi g Le premier polynôme f 1 peut toujours s écrire sous la forme :! 1 f0k g: (3.111) f 1 () = 0 + 1 ( 1 ) + 2 ( 1 ) 2 + 3 ( 1 ) 3 ; (3.112) où les coe cients ( 0 ; 1 ; 2 ; 3 ) sont obtenus en e ectuant un développement limité à l ordre 3 au voisinage de 1. On pose alors : a i = i+2 ; i = 2; : : : ; k 1: (3.113) En injectant les formules (3.112) et (3.113) dans (3.111) et en posant x + def = max (x; 0) = x1 fx0g on obtient l expression cherchée :! k 1 R () = 0 + 1 ( 1 ) + + 2 ( 1 ) 2 + + X i+2 ( i ) 3 + 1 f0k g: i=1 (3.114) D Calculs du paragraphe 3.6.3 D.1 Calcul des coe cients du polynôme de Hermite Commençons par écrire f i et sa dérivée fi 0 : f i () = a i ( i ) 3 + b i ( i ) 2 + c i ( i ) + d i ; (3.115) fi 0 () = 3a i ( i ) 2 + 2b i ( i ) + c i : (3.116) 196
En faisant = i dans l équation (3.115) il vient : ~R i = f i ( i ) = d i : (3.117) De manière analogue, on obtient c i en faisant = i dans l équation (3.116) : r i = f 0 i ( i ) = c i : (3.118) Les coe cients a i et b i sont obtenus en écrivant les condition d interpolation en i+1 : ~R i+1 = f i ( i+1 ) = a i h 3 i + b i h 2 i + r i h i + ~ R i ; (3.119) r i+1 = f 0 i ( i+1 ) = 3a i h 2 i + 2b i h i + r i ; (3.120) En résolvant le système d équations (3.119) et (3.120) on obtient : où l on a posé m i = ( ~ R i+1 ~ Ri )=h i. a i = r i + r i+1 2m i h 2 ; (3.121) i b i = 3m i 2r i r i+1 h i ; (3.122) D.2 Calcul des dérivées aux points extrêmes En dérivant l expression (3.116) membre à membre, il vient : La condition f 00 1 ( 1 ) = 0 nous donne : f 00 i () = 6a i ( i ) + 2b i : (3.123) b 1 = 0 = 3m 1 2r 1 r 2, r 1 = 3m 1 r 2 : (3.124) h 1 2 La condition f 00 n 1 ( n ) = 0 nous donne : 6a n 1 h n 1 + 2b n 1 = 0, r n 1 = 3m n 1 r n 1 : (3.125) 2 197
Références Adams K. (2001). Smooth Interpolation of Zero Curves, Algo Research Quarterly, Vol. 4, pp. 11-22. Almeida C., Vicente J. (2007). The Role of No-Arbitrage on Forecasting Lessons from a Parametric Term Structure Model, Working Paper, No. 657, Graduate School of Economics, Rio de Janeiro. Bekker P.A., Bouwman K.E. (2007). Arbitrage Smoothing in Fitting a Sequence of Yield Curves, Working Paper, Department of Economics, University of Groningen. Bernadell C., Coche J., Nyholm K. (2005). Yield Curve Prediction for The Strategic Investor, ECB Working Paper Series, No. 472, European Central Bank, Frankfurt am Main. BIS (2005). Zero-Coupon Yield Curves : Technical Documentation, Bank for International Settlements, Basle. Björk T., Christensen B. (1999). Interest Rate Dynamics and Consistent Forward Rate Curves, Mathematical Finance, pp. 323-348. Bliss R.R. (1997). Testing Term Structure Estimation Methods, Advances in Futures and Options Research, Vol. 9, pp. 197-231. Bolder D.J., Gusba S. (2002). Exponentials, Polynomials, and Fourier Series : More Yield Curve Modelling at the Bank of Canada, Working Paper 2002-29, Bank of Canada. Brigo D., Mercurio F. (2006). Interest Rate Models - Theory and Practice, With Smile, In ation and Credit, Springer. Chazot C., Claude P. (1995). Les swaps, Concepts et Applications, Seconde Edition, Economica. Cherif M. (2000). Les taux d intérêt, Banqueéditeur. Christie D. (2003). Accrued Interest & Yield Calculations and Determination of Holiday Calendars, Technical Document, SWX Swiss Exchange. Coroneo L., Nyholm K., Vidova-Koleva R. (2008). How Arbitrage-Free Is The Nelson-Siegel Model?, ECB Working Paper Series, No. 874, European Central Bank, Frankfurt am Main. De Pooter M. (2007). Examining the Nelson-Siegel Class of Term Structure Models, Tinbergen Institute Discussion Paper, Faculty of Economics, Erasmus University, Rotterdam. De Pooter M., Ravazzolo F., Van Dijk D. (2007). Predicting the Term Structure of Interest Rates, Working Paper, Econometric Institute and Tinbergen Institute, Erasmus University, Rotterdam. Diebold F., Li C. (2006). Forecasting the term structure of government bond yields, Journal of Econometrics 130, pp. 337-364. Diebold F., Li C., Yue V.Z. (2006). Global Yield Curve Dynamics and Interactions : A Generalized Nelson-Siegel Approach, Working Paper, http: //www.ssc.upenn.edu/~fdiebold. ECB (2007). General description of ECB yield curve methodology, European Central Bank, Frankfurt am Main. 198
Fritsch F.N., Butland J. (1984). A Method For Constructing Local Monotone Piecewise Cubic Interpolation, SIAM Journal on Scienti c Computing, Vol. 5, No. 2, pp. 300-304. Fritsch F.N., Carslon R.E. (1980). Monotone Piecewise Cubic Interpolation, SIAM Journal on Numerical Analysis, Vol. 17, No. 2, pp. 238-246. Gasparo M.G., Morandi R. (1991). Piecewise Cubic Monotone Interpolation with Assigned Slopes, Computing, Vol. 46, pp. 355-365. Geyer A., Mader R. (1999). Estimation of the Term Structure of Interest Rates : A Parametric Approach, OeNB Working Paper Series, No. 37, Oesterreichische Nationalbank. Hagan P.S., West G. (2006). Interpolation Methods For Curve Construction, Applied Mathematical Finance, Vol. 13, No. 2, pp. 89-129. Harrison J., Kreps D. (1979). Martingales and arbitrage in multiperiod securities markets, Journal of Economic Theory, Vol. 20, pp. 381-408. Harrison J., Pliska S. (1981). Martingales and stochastic integral in the theory of continuous trading, Stochastic Processes and their Applications, Vol. 11, pp. 215-260. ISDA (2006). 2006 ISDA De nitions, International Swaps And Derivatives Association, http://www.isda.org/. Judd K.L. (1998). Numerical Methods in Economics, The MIT Press. Kalev P. (2004). Estimating and Interpreting Zero Coupon and Forward Rates : Australia 1992-2001, Working Paper, Department of Accounting and Finance, Monash University. Kruger C.J.C. (2003). Constrained Cubic Spline Interpolation for Chemical Engineering Applications, http://www.korf.co.uk/spline.pdf. Lyche T., Mørken K. (2006). Spline Methods, Lecture Notes, Department of Informatics, University of Oslo http://home.ifi.uio.no/tom. Martellini L., Priaulet P. (2004). Produits de taux d intérêt, Méthodes dynamiques d évaluation et de couverture, Seconde Edition, Economica. McCulloch J.H. (1971). Measuring the term structure of interest rates, The Journal of Business, Vol. 44, pp. 19-31. McCulloch J.H. (1975). The tax-adjusted yield curve, The Journal of Finance, Vol. 30, pp. 811-830. Muselia M., Rutkowski M. (1997). Continuous-time term structure models : Forward measure approach, Finance and Stochastics, Vol. 1, No. 4, pp. 261-291. Nelson C.R., Siegel A.F. (1987). A parsimonious modeling of yield curve, Journal of Business, Vol. 60, No. 4, pp. 473-489. Ramponi A., Lucca K. (2003). On a generalized Vasicek-Svensson model for the estimation of the term structure of interest rates, IV Workshop Finanza Quantitativa, Torino. Rebonato R. (2002). Modern Pricing of Interest-Rate Derivatives : The LIBOR Market Model and Beyond, Princeton University Press. Ricart R., Sicsic P. (1995). Estimation d une Structure par Terme des Taux d Intérêt sur Données Françaises, Bulletin de la Banque De France, No. 22, pp. 117-129. 199
Ron U. (2000). A Practical Guide to Swap Curve Construction, Working Paper 2000-17, Bank of Canada. Smirnov S.N., Zakharov A.V. (2003). A Liquidity-Based Robust Spline Fitting of Spot Yield Curve Providing Positive Forward Rates, Working Paper, Department of Risk Management and Insurance, State University - Higher School of Economics, Moscow. Svensson L.E.O. (1994). Estimating and Interpreting Forward Interest Rates : Sweden 1992-1994, Centre for Economic Policy Research, Discussion Paper, No. 1051. Turlach B.A. (1997). Constrained Smoothing Splines Revisited, Technical Report, Australian National University, Canberra. Waggoner D.F. (1997). Spline Methods for Extracting Interest Rate Curves from Coupon Bond Prices, Working Paper 97-10, Federal Reserve Bank of Atlanta. West G. (2006). A Brief Comparison of Interpolation Methods For Yield Curve Construction, Working Paper, Financial Modelling Agency, http://www.finmod. co.za/interpolationsummary.pdf. Wolberg G., Itzik A. (1999). Monotonic Cubic Spline Interpolation, Proceedings of the International Conference on Computer Graphics, pp. 188-195. 200
Chapitre 4 Construction de la surface de volatilité implicite en l absence d opportunité d arbitrage Ce chapitre traite de la construction des surfaces de volatilité implicite des grands indices boursiers à partir des prix d options disponibles sur les marchés listés. Notre objectif est de proposer une méthodologie pour construire une surface de volatilité implicite complète et non-arbitrable à partir des prix des options observées. Ce travail est organisé selon le schéma suivant. Dans la première section, nous montrons que la construction de la surface de volatilité implicite est un enjeu stratégique pour les acteurs des marchés de produits dérivés. Dans la seconde section, nous proposons une méthode pour simpli er le problème de la construction de la surface de volatilité implicite en transformant les données de manière à travailler dans un espace de prix normalisés où les taux d intérêt sont nuls et les actifs ne détachent pas de dividende. Dans la troisième section nous donnons les contraintes imposées par l hypothèse d absence d opportunité d arbitrage sur les prix des calls Européens et sur les volatilités implicites. Dans la quatrième section nous présentons les données de marché (les options Européennes sur l indice DJ EuroStoxx 50 cotées sur l Eurex) qui seront utilisées pour les tests de calibration et nous proposons une procédure pour retraiter les prix des options cotées a n d éliminer les données fausses ou non-signi catives. Dans la cinquième section, nous mettons en oeuvre deux méthodes proposées dans la littérature et utilisées par certains praticiens pour contruire la surface de volatilité et nous montrons qu elles ne donnent pas des résultats tout à fait satisfaisants. Dans la sixième section nous proposons un procédé original pour construire une 201
surface de volatilité lisse et non-arbitrable de manière systématique. L approche envisagée combine des techniques de modélisation paramétrique du smile, pour extrapoler les volatilités manquantes au niveau des strikes extrêmes, avec des méthodes d interpolation et de lissage non-paramétrique, pour générer une surface de volatilité complète et éliminer les arbitrages éventuels. La conclusion est donnée dans la septième section. Les démonstrations des résultats sont données en Annexe. 4.1 La volatilité implicite : un enjeu stratégique 4.1.1 Contrats Européens Options Européennes Un call Européen est un contrat qui donne le droit à son détenteur d acheter une unité d un certain actif S (l actif sous-jacent), à un prix prédé ni K (le strike ou prix d exercice), à une date prédé nie T (la date d échéance ou date d expiration). Le payo d un call Européen correspond à la somme encaissée par le détenteur du contrat lorsqu il exerce son droit : où (x) + def = max(x; 0). C (S T ) = (S T K) + ; (4.1) Un put Européen est un contrat qui donne le droit de vendre le sous-jacent et son payo est donné par : Contrat forward P (S T ) = (K S T ) + : (4.2) Un contrat forward est un contrat qui donne l obligation à son détenteur d acheter une unité d un certain actif S (l actif sous-jacent), à un prix prédé ni K (le strike ou prix d exercice de l option), à une date prédé nie T (la date d échéance ou date d expiration du contrat). Le payo d un contrat forward est donné par : Relation de parité call-put F (S T ) = S T K: (4.3) Sous l hypothèse d absence d opportunité d arbitrage, les prix d un call et d un put Européens de même strike K et de même date d échéance T sont liés par la relation suivante : C t (K; T ) P t (K; T ) = F t (K; T ) ; (4.4) 202
où C t (K; T ), P t (K; T ) et F t (K; T ) désignent respectivement le prix du call, le prix du put et le prix du contrat forward d échéance T et de strike K à la date t. Cette relation est indépendante du modèle retenu pour la dynamique du sous-jacent. 4.1.2 Le modèle de Black-Scholes-Merton (1973) Dynamique des prix Dans le modèle de Black et Scholes (1973) étendu par Merton (1973), le cours de l actif sous-jacent est modélisé par un mouvement Brownien géométrique de la forme : ds t S t = (r t q t )dt + t dw t ; S 0 > 0; (4.5) où S 0 est le cours de l actif à l instant de l évaluation, r t 0 est le taux court (déterministe) de l économie, q t 0 est le taux de dividende instantané (déterministe) de l actif et fw t : t 0g est un mouvement Brownien standard sous la mesure de probabilité risque-neutre Q. La fonction t, appelée volatilité instantanée de l actif, est déterministe et à valeurs strictement positives. La volatilité module l amplitude des variations de cours : lorsque t augmente, elles deviennent de plus en plus fortes et imprédictibles ; lorsque t diminue, elles deviennent de plus en plus faibles ; dans le cas extrême où t = 0, il n y a plus aucune incertitude quant à l évolution des prix. La volatilité est donc le paramètre de risque du modèle. L équation (4.5) implique que les rendements instantanés de l actif suivent une loi gaussienne de paramètres : E[dS t =S t ] = (r t q t )dt; Var[dS t =S t ] = 2 t dt: (4.6) Par ailleurs, on peut démontrer que le cours du sous-jacent à une date T quelconque suit une loi lognormale de la forme : Z T 2 Z! T t S T = S 0 exp (r t q t 0 2 )dt + t dw t : (4.7) 0 Prix des contrats Européens L un des principaux avantages du modèle de Black-Scholes-Merton (BSM en abrégé) 1 est que l on peut déterminer analytiquement la valeur des options Européennes. Plus précisément, si C BS désigne la valeur d un call et P BS celle d un put, on a : C BS (K; T; S 0 ; r; q; ) = S 0 e q T T D + Ke r T T D ; (4.8) P BS (K; T; S 0 ; r; q; ) = Ke r T T D S 0 e q T T D + ; (4.9) 1 Dans la pratique, les opérateurs omettant souvent Merton, parlent du modèle Black- Scholes, d où l abréviation BS ou lieu de BSM. 203
où K et T sont le strike et la date d échéance de l option. () est la fonction de répartition de la loi normale standard. Les quantités r T et q T désignent respectivement le taux zéro-coupon annualisé de l économie du produit et le taux de dividende annualisé du sous-jacent qui prévalent entre 0 et T. Elles sont dé nies par : def r T = 1 Z T r t dt; T 0 def q T = 1 Z T q t dt: (4.10) T 0 Les coe cients D + et D sont donnés par les formules : D = ln (S 0=K) + (r p T T T q T ) T p T T ; (4.11) 2 où T,qui représente le niveau moyen de la volatilité instantanée sur la période [0; T ], est dé ni de la manière suivante 2 : T def = s Z 1 T 2 t dt: (4.12) T 0 L ensemble des paramètres nécessaires à l évaluation des formules (4.8) et (4.9) - le strike K, la maturité T, le cours spot S 0, le taux zéro-coupon r T, le taux de dividende q T - sont observables directement sur le marché, à l exception du paramètre de volatilité T qui doit être estimé. Le succès du modèle BSM Ce n est pas l existence de formules analytiques pour les contrats Européens qui est à l origine du succès du modèle Black-Scholes-Merton (ces formules avaient été proposées quelques années auparavant par Samuelson (1965)), mais c est plutôt la façon dont les auteurs sont parvenus à les obtenir qui a rendu le modèle si important. Black et Scholes (1973) démontrent par des raisonnements d arbitrage que l on peut répliquer un payo conditionnel avec un portefeuille auto nancé, composé du sous-jacent et d un zéro-coupon, et rebalancé continûment. En l absence d opportunité d arbitrage, la valeur d une option doit coïncider à tout instant avec la valeur de son portefeuille de couverture. Le risque lié à la vente d une option peut donc être annulé en totalité en constituant un portefeuille de couverture que l on gère dynamiquement jusqu à l échéance du contrat. Cette approche, appelée principe de réplication, permet de synthétiser le contrat optionnel tout en lui attribuant une valeur de marché. Elle est, dans une large mesure, à l origine du développement sans précédent de l industrie des produits dérivés. 2 En anglais, T est appelé Root-Mean-Square Volatility. 204
4.1.3 La volatilité implicite Dé nition Comme les fonctions C BS et P BS sont continues et strictement croissantes par rapport au paramètre de volatilité (les autres paramètres étant xés), on en déduit qu il existe une bijection entre le prix d une option et la volatilité du sous-jacent T > 0. En conséquence, à chaque prix d option observé sur le marché, C obs K;T ou P obs K;T, correspond une unique valeur du paramètre de volatilité que l on appelle volatilité implicite et que l on note ^. Cela signi e que les marchés d options sont en fait des marchés de volatilité. La relation de parité call-put implique que le call et le put de même strike et de même maturité ont la même volatilité implicite. Elle est obtenue en résolvant l une ou l autre des deux équations suivantes : Smile et structure par terme C BS (K; T; S 0 ; r; q; ^) = C obs K;T ; (4.13) P BS (K; T; S 0 ; r; q; ^) = P obs K;T : (4.14) Dans la pratique, on observe que la volatilité implicite dépend (fortement) du strike à maturité xée. Ce phénomène est appelé le smile (ou skew ou smirk) de volatilité 3. Parallèlement, on constate que la forme du smile se modi e d une maturité sur l autre. Plus précisément, le smile tend à s aplatir lorsque la maturité augmente. Ce phénomène est illustré à la gure 4.1. La dépendance au temps de la volatilité implicite n est pas vraiment problématique, puisque le modèle BSM suppose que la volatilité instantanée est une fonction du temps. En revanche, l existence du smile de volatilité souligne les limites de l hypothèse d une di usion lognormale pour les cours du sous-jacent. En e et, si cette hypothèse était exacte, la volatilité implicite devrait être identique pour toutes les options de même maturité. Cela doit inciter à rechercher des modèles de marché plus e caces qui permettent : de trouver des prix d options vanilles consistants avec les volatilités implicites observées, d évaluer et de mettre en place des stratégies de couverture e caces pour les produits dérivés complexes qui font intervenir le sous-jacent considéré. 3 Lorsque la volatilité implicite est monotone en fonction du strike, on parle de skew ou de smirk (sourire grimaçant en anglais). Lorsqu elle prend la forme d une courbe en "U", semblable à un "sourire", on parle de smile. Dans la suite de ce chapitre, nous emploierons indi éremment les di érentes terminologies en gardant à l esprit que "skew" est le terme le plus adapté dans le cas des indices boursiers. 205
Smiles observés sur les options OESX le 23/05/2008 45% 40% Volatilité Implicite 35% 30% 25% 20% maturité = 0.08Y maturité = 0.33Y maturité = 1.07Y maturité = 2.07Y maturité = 3.56Y 15% 10% 0 2 000 4 000 6 000 8 000 10 000 12 000 Strikes Fig. 4.1 Smiles de volatilité implicite sur les options OESX le 23/05/2008. Les options OESX sont les options sur l indice DJ EuroStoxx 50 cotées par Eurex (voir section 4.4). Nous présentons ci-dessous di érentes voies de modélisation envisagées dans la littérature et que l on peut considérer comme des extensions ou des alternatives au modèle BSM. 4.1.4 Voies de modélisation alternatives Les modèles de marché se divisent en trois grandes catégories : les modèles paramétriques, les modèles à volatilité locale et les modèles empiriques. Modèles paramétriques Les modèles paramétriques sont essentiellement des extensions paramétriques de la dynamique (4.5). Le modèle de Merton (1976), qui combine la di usion Brownienne avec un processus à sauts et le modèle de Heston (1993), qui suppose que la volatilité instantanée suit un processus stochastique corrélé au niveau du sous-jacent, sont deux exemples classiques d approches paramétriques appréciées des praticiens car elles conduisent à des formules analytiques pour évaluer les options vanilles. L avantage de ces modèles est qu ils engendrent un smile de volatilité implicite et que les paramètres sont interprétables. En revanche, ils sont di ciles à calibrer, ils manquent de exibilité pour capturer avec précision la forme du smile de volatilité observé et surtout ils nécessitent 206
d introduire une ou plusieurs sources de risques que l on ne peut pas couvrir (risque de sauts, risque sur la volatilité). Cela signi e que l on sort du cadre des marchés complets : la mesure de probabilité risque-neutre n est plus unique et il existe plusieurs stratégies de couverture envisageables pour une même option. Modèles à volatilité locale Les modèles à volatilité locale, aussi appelés modèles de di usion implicite, ont été introduits simultanément par Dupire (1994), Derman et Kani (1994a, 1994b) et Rubinstein (1994). L idée est de considérer la volatilité instantanée comme une fonction déterministe du temps et du prix du sous-jacent. Ainsi la volatilité est-elle stochastique par nature (elle dépend du sous-jacent qui est aléatoire), mais déterministe conditionnellement au niveau du sous-jacent. La dynamique du sous-jacent dans l univers risque-neutre est régie par une équation di érentielle stochastique de la forme : ds t S t = (r t q t )dt + (t; S t ) dw t ; S 0 > 0: (4.15) Les modèles à volatilité locale présentent deux avantages certains. 1. Ils permettent de préserver l hypothèse de marché complet. En e et, l évolution de l actif ne dépend que d une seule source d incertitude, le mouvement Brownien (W t ). Cela signi e qu il existe une unique stratégie de couverture et donc un unique prix de marché pour un payo donné. 2. Ils permettent de reproduire exactement la surface de volatilité implicite observée. En e et, on peut démontrer que la fonction de volatilité locale se déduit de la volatilité implicite ^ par la formule (Fengler 2005a, p. 56) : (T; K) = K 2 ^ T + 2 @ ^ @T + 2K(r T 1 K 2 ^T + 2D+ K ~ p T où D + et D sont donnés par (4.11). @ ^ @K + D+ D ~ q T ) @ ^ @K @ ^ @K 2 + @ 2 ^ @K 2 ; (4.16) Pour les raisons que nous venons d évoquer, ces modèles sont très utilisés par les praticiens. Notons cependant qu ils présentent certains inconvénients. 1. Contrairement aux modèles paramétriques, ils n expliquent pas l existence du smile de volatilité. Ils se limitent à le reproduire. 2. La surface de volatilité locale est très instable au cours du temps, elle dépend étroitement de la qualité des données utilisées pour la calibration. 3. La procédure de calibration est particulièrement délicate à implémenter (Andersen et Brotherton-Ratcli e 1997). A n de lisser la surface de volatilité locale, certains auteurs choisissent une forme paramétrique pour la fonction (t; S t ), puis ils procédent à la calibration. Brown 207
et Randall (1999) combinent des fonctions de trigonométrie hyperbolique pour capturer les e ets de skew, de smile et la structure par terme des volatilités. Dumas, Fleming et Whaley (1998) modélisent la surface de volatilité locale par des polynômes de degré au plus égal à 2 par rapport S t et dont les coe cients dépendent linéairement du temps. Coleman, Li et Verma (1999) utilisent des splines cubiques bi-dimensionnels. McIntyre (2001) modélise la surface de volatilité locale avec des polynômes de Hermite. Modèles empiriques Les modèles à volatilité locale supposent que l actif suit une di usion de Itô dont la volatilité n est pas spéci ée : elle est ajustée de manière à retrouver les prix des options cotées. Une généralisation de ces modèles consiste à supprimer l hypothèse d une di usion de Itô pour le processus de prix du sous-jacent. Ce sont les modèles de marché empiriques. L idée est d inférer la dynamique du sous-jacent anticipée par le marché à partir des prix d options observés. En e et, on sait que, sous l hypothèse d absence d opportunité d arbitrage et lorsque les marchés sont complets, il existe une unique mesure risque-neutre sous laquelle les prix des actifs sont des martingales (Harrison et Kreps 1979, Harrison et Pliska 1981). Le problème est donc le suivant : on observe un jeu de prix d options qui ne présente pas d opportunité d arbitrage et l on cherche à déterminer une martingale à valeurs positives qui réévalue simultanément toutes les options observées (Laurent et Leisen 1998, Buehler 2006). Cette approche permet de s a ranchir complètement des contraintes imposées par un modèle (semi-)paramétrique et, par construction, elle garantit une calibration extrêmement précise du modèle sur les données. En contrepartie, le praticien ne peut plus s appuyer sur des paramètres interprétables pour analyser et expliquer le comportement du modèle de marché. Les exemples donnés auparavant montrent qu il existe des alternatives intéressantes au modèle de di usion lognormale à coe cients déterministes. On peut donc se demander dans quelle mesure la connaissance de la surface de volatilité implicite, qui est intrinséquement liée au modèle BSM, est fondamentale pour les spécialistes des marchés de produits dérivés. Nous répondons à cette question dans le paragraphe suivant. 4.1.5 Utilisations de la volatilité implicite La volatilité implicite est un langage Les relations (4.13) et (4.14) établissent une correspondance non-linéaire entre le prix d une option et la volatilité implicite. En d autres termes, la volatilité implicite peut être vue comme un langage pour exprimer les prix des options. D ailleurs, les opérateurs qui interviennent sur les marchés d options négocient les transactions en terme de volatilité implicite et non pas en terme de prix. 208
Lee (2005) établit une analogie intéressante entre la notion de volatilité implicite et la notion de taux de rendement actuariel, utilisée par les opérateurs des marchés obligataires. Le taux de rendement actuariel d un placement est le taux constant auquel il faut actualiser tous les ux du placement pour retrouver son prix de marché. Cela ne signi e pas pour autant que les taux d intérêt sont plats ou constants. Il s agit d une manière d exprimer le prix d une obligation, qui permet notamment de comparer entre elles plusieurs obligations dont les coupons, les montants faciaux et les échéanciers sont di érents. De manière analogue, la volatilité implicite permet de comparer entre elles des options de strike, de maturité et de sous-jacents di érents. Elle donne également une information sur la manière dont est perçu le risque du sous-jacent. Evaluer et couvrir un payo Européen non-vanille On suppose dans ce paragraphe que nous connaissons l ensemble du smile de volatilité pour une maturité donnée, par exemple T. Alors, les formules (4.8) et (4.9) nous donnent les prix de marché de toutes les options Européennes vanilles de maturité T. On peut démontrer que toute fonction f : R +! R qui est deux fois di érentiable peut s écrire sous la forme suivante (Overhaus, Bermúdez et al. 2007) : f(x) = f(x ) + f 0 (x )(x x ) + + où x 2 R + est un réel quelconque. Z x 0 Z +1 f 00 (u)(u x) + du x f 00 (u)(x u) + du; Considérons une option Européenne non-vanille d échéance T, c est-à-dire une option dont le payo nal ne dépend que de S T. Si est deux fois di érentiable par rapport à S T, on peut écrire le payo de l option considérée en appliquant la relation précédente : où K est choisi arbitrairement. (S T ) = (K ) + 0 (K )(S T K ) + + Z K 0 Z +1 00 (K)(K S T ) + dk K 00 (K)(S T K) + dk; Un examen de la formule obtenue montre que le payo de l option se compose : 209
d une position longue de (K ) zéro-coupons, d une position longue de 0 (K ) contrats forwards de strike K, d une position longue de 00 (K) puts Européens pour tous les strikes compris entre 0 et K, d une position longue de 00 (K) calls Européens pour tous les strikes compris entre K et +1. En prenant l espérance de chaque membre et en actualisant les ux avec le facteur zéro-coupon noté B t;t, on obtient la valeur de l option à l instant t que l on note t : t = (K )B t;t + 0 (K )F t (K ; T ) + + Z K 0 Z +1 K 00 (K)P t (K; T ) dk 00 (K)C t (K; T ) dk; où F t (K ; T ), P t (K; T ) et C t (K; T ) sont dé nis comme au paragraphe 4.1.1. Cette technique est utilisée pour évaluer et pour construire la couverture statique des variances swaps (Demeter, Derman, Kamal et Zou 1999). Si l on connaît le smile de volatilité implicite pour la maturité T : K! ^ (K; T ), on peut déterminer la valeur des options qui composent le portefeuille de couverture et donc attribuer un prix au produit. La connaissance du smile de volatilité implicite permet donc d évaluer et de couvrir tout payo Européen non-vanille, mais su samment régulier. Déterminer la distribution des rendements du sous-jacent Breeden et Litzenberger (1978) ont démontré que la densité de probabilité risque-neutre du sous-jacent à l horizon T, notée h T, est liée à la dérivée seconde des prix de calls par l égalité suivante : h T (K js 0 ) = e r T T @2 C @K 2 : (4.17) Supposons que la fonction K! ~ (K; T ) soit deux fois dérivable par rapport à K. En partant de la relation C (K; T ) = C BS (K; T; ^ (K; T )) on peut déterminer @ 2 C=@K 2 en utilisant la règle de la di érenciation en chaîne. Dérivons une première fois par rapport à K, il vient : dérivons de nouveau par rapport à K : @C @K = @C BS @K + @^ @C @K @~ ; (4.18) @ 2 2 C @K 2 = @2 C BS @K 2 + 2 @2 C BS @^ @K@~ @K + @2 C BS @^ @~ 2 + @C BS @ 2^ @K @~ @K 2 : (4.19) 210
En remplaçant les dérivées partielles de C BS par rapport à K et par rapport à ^ on obtient le résultat suivant (Fengler 2005b) :! h T (K js 0 ) = S 0 e q T T p T '(D + ) 1 K 2 ^T + 2D+ K ^ p @ ^ T @K @ ^ @K + D+ D ^ 2 + @ 2 ^ @K 2 où ' est la densité de la loi normale standard. Le terme devant la parenthèse est appelé "véga" de l option. Il correspond à la sensibilité du prix BSM par rapport à la volatilité implicite. Calibrer un modèle de marché Supposons en n que l on connaisse la surface de volatilité implicite complète, pour tous les strikes et pour toutes les maturités. On peut appliquer la formule (4.16) pour déterminer la surface de volatilité locale. Cela suppose que la volatilité implicite dont nous disposons soit de classe C 2 par rapport à K et de classe C 1 par rapport à T. Plus généralement, si l on connaît la surface de volatilité implicite, on peut reconstruire la surface des prix d options et calibrer un modèle de marché paramétrique ou empirique sur les prix observés. Nous terminons cette section en discutant la nécessité d éliminer systématiquement les arbitrages lors de la construction de la surface de volatilité. 4.1.6 Prévenir les arbitrages lors du processus de construction Construire une surface de volatilité implicite est ce que l on a coutume d appeler un problème inverse "mal-posé", car on ne dispose que de quelques prix d options, répartis irrégulièrement sur une grille de strikes et de maturités, qui peuvent présenter des opportunités d arbitrage. A partir de ces données on doit générer une surface de volatilité implicite, continue, si possible di érentiable et qui ne présente pas d opportunité d arbitrage. En e et, si la surface de volatilité implicite présente des opportunités d arbitrage, on risque d obtenir des densités de probabilité ou des volatilités locales négatives pour le sous-jacent. Cette situation fâcheuse introduit des biais systématiques dans les prix des produits dérivés portant sur le sous-jacent (Fengler 2005b, Laurini 2007). De plus, il est recommandé d utiliser des données non-arbitrables pour calibrer les modèles paramétriques. L expérience montre que les paramètres ainsi obtenus sont plus stables dans le temps que lorsque le modèle est calibré sur des données présentant des arbitrages. Les discussions et les di érents exemples d utilisation présentés dans cette section illustrent l importance stratégique de la surface de volatilité implicite pour ; 211
les acteurs des marchés de produits dérivés. Dans la section suivante, nous montrons comment simpli er le problème de la modélisation des volatilités implicites en l absence d opportunité d arbitrage. 4.2 Normalisation du marché Nous démontrons qu il est possible, tout en préservant la généralité des résultats, de nous placer dans une économie normalisée dans laquelle l actif ne détache ni taux d intérêt, ni dividende (Buehler 2006). 4.2.1 Hypothèses de travail Dans l ensemble de ce chapitre, on suppose que le taux sans risque instantané et le taux de dividende instantané sont des fonctions déterministes du temps. La première hypothèse peut être justi ée de la manière suivante : la volatilité des taux d intérêt étant négligeable par rapport à la volatilité des actions, on peut la considérer comme nulle. D un point de vue théorique, les dividendes anticipés sont aléatoires : ils dépendent en e et de nombreux paramètres di ciles à appréhender tels que les résultats futurs ou la politique de distribution des dividendes de la société. Toutefois, on observe que leurs uctuations sont négligeables par rapport à la volatilité de l actif risqué, ce qui justi e la seconde hypothèse (Patard 2003). On note B t le prix d un zéro-coupon d échéance t. Comme le taux instantané est déterministe, B t coïncide avec le facteur d actualisation de l économie : B t = e R t 0 rudu : (4.20) De plus, comme les dividendes sont déterministes, on peut calculer explicitement le prix forward du sous-jacent, noté F t : F t def = E Q [S t ] = S 0 e R t 0 (ru qu)du ; (4.21) où E Q [] est l opérateur "espérance sous Q" et Q la mesure risque-neutre. 4.2.2 Normalisation du sous-jacent Sous l hypothèse d absence d opportunité d arbitrage, le processus de gain normalisé de l actif S, noté (M t ), est une martingale sous la mesure risque-neutre (Björk 2004). En supposant des dividendes déterministes, proportionnels au cours du sous-jacent, on a : Par construction, M véri e : M t def = B t S t e R t 0 qudu = S t F t : (4.22) M 0 = 1 = E Q [M t ] ; t 0: (4.23) 212
Le processus (M t ) s interprète comme le processus de prix d un actif de valeur initiale égale à 1 qui ne détache pas de dividende, dans une économie sans taux d intérêt. Pour cette raison, nous l appelons processus de prix normalisé. Nous montrons ci-dessous qu il existe une correspondance entre les options sur le sous-jacent S et les options sur le sous-jacent M. 4.2.3 Normalisation des prix d options En remplaçant S T par le produit F T M T on peut réécrire le payo d un call d échéance T et de strike K de la manière suivante : (S T K) + = F T (M T T ) + ; T def = K F T : (4.24) La quantité T est appelée la moneyness-forward ou encore le strike relatif de l option. Elle indique dans quelle mesure l option est à la monnaie forward à la date d évaluation. En prenant l espérance de chaque membre de l égalité (4.24) et en actualisant, il vient : C (K; T ) = B T F T c ( T ; T ), c ( T ; T ) = C (K; T ) B T F T ; (4.25) où C (K; T ) est la valeur d un call de strike K et d échéance T sur le sousjacent S et c ( T ; T ) est la valeur d un call de strike T et d échéance T sur le sous-jacent M. La quantité c ( T ; T ) est appelée prix de call normalisé. L équivalence (4.25) montre qu il existe une correspondance bijective entre les prix des calls sur S et les prix des calls sur M, lorsque les prix zéro-coupon et les prix forwards sont déterministes. On peut donc, en préservant la généralité des résultats, étudier les options sur le sous-jacent normalisé M. 4.2.4 Application au modèle BSM Dans le cas du modèle BSM, l évolution des prix du sous-jacent est décrite par l équation (4.7), de sorte que le processus de prix normalisé est donné par : M t = S 0 exp Z t 0 2 u 2 du + Z t 0 u dw u ; t 0: (4.26) Le processus (M t ) ne dépend que de la volatilité qui est précisément le paramètre que nous cherchons à modéliser. Pour obtenir le prix d un call normalisé, noté c BS, il su t de transformer la formule (4.8) pour faire apparaître le prix forward F T, le prix zéro-coupon B T 213
et la moneyness T, puis de diviser par le produit B T F T. On obtient tous calculs faits : c BS = D + T D ; D = ln T p p T T : (4.27) T T 2 Notons que c BS dépend uniquement de la moneyness de l option, de la maturité et de la volatilité du sous-jacent. 4.2.5 Observations Travailler avec un modèle de marché normalisé présente plusieurs avantages. 1. Les prix des options ne dépendent que de la volatilité qui est le paramètre que nous souhaitons modéliser. 2. La dépendance aux taux d intérêt et aux taux de dividende a disparue, ce qui limite le risque d introduire des biais lors de l estimation de la volatilité implicite. 3. Les calculs et les raisonnements sont facilités, car les fonctions manipulées ne font intervenir que trois paramètres : le temps T, la volatilité implicite et la moneyness. Pour les raisons que nous venons d évoquer, nous nous plaçons dans le modèle de marché normalisé. Nous pourrons à tout moment revenir sous le modèle de marché réel en utilisant la formule (4.22) et l équivalence (4.25). Dans la section suivante, nous étudions les contraintes imposées par l hypothèse d absence d opportunité d arbitrage sur les prix d options et sur les volatilités implicites. 4.3 Contraintes de non-arbitrage L hypothèse d absence d opportunité d arbitrage (AOA) induit des contraintes sur les prix des options Européennes et, par conséquent, sur la forme de la nappe de volatilité implicite. Toute modélisation consistante des volatilités implicites doit tenir compte de ces contraintes pour aboutir à une surface de volatilité non-arbitrable. Notons que les résultats obtenus sont indépendants du modèle choisi pour le sous-jacent, car ils reposent sur des raisonnements d arbitrage généraux. 4.3.1 Formalisation du problème Marché normalisé non-arbitrable Dans cette section, nous travaillons avec le modèle de marché normalisé dé ni par les 3 hypothèses suivantes. 214
1. Le marché est représenté par un espace probabilisé complet (; T ; Q), muni de la ltration (F t ) t0 de l information des prix. Q est l unique mesure de probabilité risque-neutre. 2. Il n y a pas de taux d intérêt et pas de dividende. 3. Le processus de prix de l actif risqué (M t ) t0 est une F t -martingale strictement positive d espérance égale à 1. Les hypothèses 1,2,3 dé nissent ce que l on appelle un modèle de marché strictement non-arbitrable (Buehler 2006, Overhaus, Bermúdez et al. 2007). Dans la suite, nous supprimerons le terme "strictement" et non dirons simplement que le marché est non-arbitrable ou qu il fonctionne en l absence d opportunité d arbitrage. Options sur l actif normalisé Le prix à l instant t d un call (resp. d un put) Européen écrit sur l actif M, de moneyness et d échéance T, est noté c t (; T ) (resp. p t (; T )). En l absence d opportunité d arbitrage, on a (Augros et Moreno 2002) : c t (; T ) = E Q [(M T ) + jf t ]; p t (; T ) = E Q [( M T ) + jf t ]: (4.28) Lorsque t = 0, on ne fait plus apparaître l indice t et l on note simplement c (; T ) et p (; T ). Les applications c : (; T ) 2 R + R +! c (; T ) et p : (; T ) 2 R + R +! p (; T ) sont appelées respectivement fonctions de pricing des calls et fonction de pricing des puts à la date 0. Leurs représentations graphiques respectives sont appelées surface de prix de calls et surface de prix de puts. Identités remarquables Lorsque t = T, le prix de l option coïncide avec son payo : c T (; T ) = (M T ) + ; p T (; T ) = ( M T ) + ; (4.29) Le prix d une option d échéance T = 0 coïncide avec son payo : c (; 0) = (1 ) + ; p (; 0) = ( 1) + : (4.30) Ces quantités sont appelées valeur intrinsèque du call et valeur intrinsèque du put. Les prix d un call et d un put de moneyness = 0 et d échéance T quelconque véri ent : c (0; T ) = 1; p (0; T ) = 0: (4.31) Notons que les formules présentées dans ce paragraphe sont indépendantes du modèle choisi pour représenter la dynamique des prix. 215
La proposition 4.1 ci-dessous montre qu il est possible de raisonner uniquement sur les prix des calls. Elle est suivie de la proposition 4.2 qui donne un encadrement du prix d un call Européen. On trouvera une démonstration de ces propositions en Annexe A. Proposition 4.1 (Parité call-put) En l absence d opportunité d arbitrage, on a : c t (; T ) p t (; T ) = M t ; t T: (4.32) La formule (4.32), appelée relation de parité call-put, est indépendante du modèle choisi pour la dynamique du sous-jacent. Elle montre que lorsque l on connaît le prix d un call, on peut en déduire le prix du put associé et inversement. Pour cette raison, nous pouvons nous contenter de travailler exclusivement sur les prix des calls Européens. Proposition 4.2 En l absence d opportunité d arbitrage, le prix d un call Européen est minoré par sa valeur intrinsèque et majoré par 1 : 0 (1 ) + c (; T ) 1: (4.33) Dans le paragraphe suivant, nous démontrons l existence d une unique surface de volatilité implicite. 4.3.2 Existence de la surface de volatilité implicite La volatilité implicite de moneyness et de maturité T, notée ^ (; T ), est dé nie comme l unique solution positive de l équation : c BS (; T; ^ (; T )) = c (; T ) : (4.34) L application (; T )! ^ (; T ) est appelée surface (ou nappe) de volatilité implicite. La proposition suivante est démontrée en Annexe A. Proposition 4.3 L encadrement (4.33) garantit l existence d une unique volatilité implicite ^ (; T ) > 0 pour tout couple (; T ) 2 R + R +. En d autres termes, sous les hypothèses 1-2-3, la surface de volatilité implicite existe et elle est unique. Nous pouvons à présent établir les contraintes induites par les hypothèses 1, 2 et 3 sur les prix d options et sur les volatilités implicites. 4.3.3 Conditions de non-arbitrage La proposition suivante est fondamentale : elle donne les propriétés des prix de calls Européens lorsque le marché est non-arbitrable. Nous donnons une démonstration de cette proposition en Annexe A, basée sur les propriétés mathématiques de la dynamique des prix. Pour une démonstration fondée sur des raisonnements d arbitrages, le lecteur pourra consulter Crozet (2007). 216
Proposition 4.4 En l absence d opportunité d arbitrage, les prix des calls Européens véri ent les trois propriétés suivantes. 1. La fonction! c (; T ) est strictement décroissante par rapport à la moneyness ; la dérivée partielle de c par rapport à est bornée et véri e : 1 @c 0: (4.35) @ 2. La fonction! c (; T ) est convexe par rapport à la moneyness ; la dérivée partielle d ordre 2 de c par rapport à est donnée par la formule : @ 2 c @ 2 = h T () 0; (4.36) où h T () désigne la densité de probabilité de M T sous la mesure risqueneutre Q : h T () def = Q f M T < + dg ; 0: (4.37) 3. La fonction T! c (; T ) est croissante par rapport à la maturité : c (; T 1 ) c (; T 2 ) ; 0 T 1 T 2 : (4.38) La relation (4.36) est connue sous le nom de formule de Breeden et Litzenberger (1978). Ce résultat remarquable montre que la densité de probabilité risqueneutre de la partie martingale des cours est égale à la dérivée seconde des prix réduits par rapport à la moneyness (la maturité étant xée). De plus, il est valable quel que soit le modèle retenu pour le sous-jacent. La formule (4.38) est, à notre connaissance, la seule condition établie qui concerne l absence d opportunité d arbitrage entre des options de di érentes maturités encore appelée absence d opportunité d arbitrage calendaire (Rebonato 2004, Fengler 2005b). Etant donné qu il existe une bijection entre la surface de prix des calls Européens et la surface de volatilité implicite, il est possible d exprimer les conditions de non-arbitrage de la proposition précédente en terme de volatilité implicite (démonstration en Annexe A). Proposition 4.5 En l absence d opportunité d arbitrage, les volatilités implicites véri ent les trois propriétés suivantes. 1. La dérivée de la fonction! ^ (; T ), appelée skew de volatilité, véri e l encadrement : ( D + ) p T ' (D + ) @^ @ (D ) p T ' (D ) ; (4.39) où D + et D sont dé nis à la relation (4.27) et ' est la densité de la loi normale standard. 217
2. La dérivée partielle d ordre 2 de ^ par rapport à véri e l inégalité nonlinéaire : 1 2D+ + 2^T K ^ p @^ T @ + D 2 D+ @^ + @2^ 0: (4.40) ^ @ @2 3. La fonction T! ^ 2 (; T ) def = ^ 2 (; T ) T, appelée variance totale, est croissante par rapport à la maturité : ^ 2 (; T 1 ) ^ 2 (; T 2 ) ; 0 T 1 T 2 : (4.41) Comme le souligne Fengler (2005a, 2005b), les contraintes d absence d opportunité d arbitrage en moneyness (contraintes 1 et 2) se traduisent simplement lorsque l on raisonne sur les prix de calls et elles deviennent fortement non linéaires lorsque l on raisonne sur les volatilités implicites. Seule la contrainte d arbitrage calendaire (contrainte 3) s exprime simplement, que l on raisonne sur les prix d options ou sur les volatilités implicites. Pour ces raisons, nous utiliserons les contraintes sur les prix d options (proposition 4.4) pour éliminer les arbitrages lors de la construction de la surface de volatilité implicite. Les deux propositions précédentes sont de bons outils pour véri er qu une surface de prix d options (ou de volatilité) ne présente pas d opportunité d arbitrage. En revanche, elles ne donnent aucune information directement exploitable sur la forme du smile de volatilité implicite en fonction de la moneyness, ce qui peut être problématique quand on travaille sur des données réelles. En e et, les prix observés sont concentrés autour de la monnaie ( ' 1), de sorte qu il est indispensable d extrapoler la surface de volatilité vers les strikes faibles (! 0 + ) et vers les strikes élevés (! +1) de manière à obtenir une surface de volatilité implicite complète. Le paragraphe suivant est consacré à l analyse du smile au niveau des moneyness extrêmes. 4.3.4 Smile de volatilité aux moneyness extrêmes Nous énonçons ci-dessous deux résultats démontrés par Lee (2004). Ils établissent un lien entre les moments de la loi du sous-jacent et la forme asymptotique du smile aux moneyness extrêmes. Nous introduisons la log-moneyness : ~ def = ln (4.42) et l on note abusivement ^ (~; T ) la volatilité implicite en fonction de la logmoneyness. Les zones de moneyness extrêmes sont appelées les ailes de la volatilité (ou de la variance) implicite. L aile gauche correspond aux moneyness nulles (! 0 +, ~! 1) et l aile droite correspond aux moneyness in nies (! +1, ~! +1). 218
Théorème 4.6 (Smile lorsque! +1) On pose : Alors et p = supfp : E Q [M 1+p T ] < 1g; ^ 2 (~; T ) T = lim sup j~j p = 1 2 1 p où l on a pris la convention = 0, p = +1. ~!+1 : (4.43) 0 2 (4.44) p 2, = 2 4( p p 2 + p p ); (4.45) Théorème 4.7 (Smile lorsque! 0 + ) On pose : 2 q = supfq : E Q [M q T ] < +1g; ^ 2 (~; T ) T = lim sup j~j ~! 1 : (4.46) Alors 0 2 (4.47) et q = 1 2 1 p p! 2, = 2 4( p q 2 2 + q q ); (4.48) où l on a pris la convention = 0, q = +1. Dans sa démonstration, Lee ne fait aucune hypothèse sur la loi de probabilité du sous-jacent : les résultats sont donc complètement indépendants du modèle retenu pour la dynamique des prix. Les formules de Lee sont appelées formules des moments car elles relient l ordre maximal des moments de la loi du sous-jacent avec les quantités et que l on peut interpréter comme les pentes des asymptotes de la variance implicite, prise comme fonction de la log-moneyness ~. Les théorèmes que nous venons d énoncer montrent que ces pentes sont nies, ce qui signi e que la variance implicite est linéaire aux ailes. Plus précisément, quand la moneyness devient arbitrairement grande (aile droite), le théorème 4.6 donne une relation de la forme : ^ 2 (~; T ) T ~; 0 2; et, quand la moneyness devient arbitrairement faible (aile gauche), le théorème 4.7 donne une relation de la forme : ^ 2 (~; T ) T ~; 0 2; 219
où = 0 (resp. = 0) lorsque le prix (resp. l inverse du prix) du sous-jacent admet des moments de tous ordres. Lorsque T! +1, on a =T! 0 et =T! 0, donc les variances implicites ont des asymptotes horizontales lorsque la maturité devient arbitrairement élevée. Cela signi e que le smile de volatilité s aplatit au niveau des maturités lointaines. Ce résultat peut être démontré par des considérations purement mathématiques (Rogers et Tehranchi 2008). On trouve fréquemment dans la littérature des méthodes de reconstruction du smile de volatilité implicite basées sur des polynômes. D après les théorèmes précédents, il ne faut en aucun cas les utiliser pour extrapoler la volatilité au niveau des ailes. Plus précisément, la variance implicite doit être extrapolée linéairement par rapport à la log-moneyness. Ce point sera étudié au paragraphe 4.5.2. Pour conclure ce paragraphe, rappelons que dans le cas du modèle BSM, le prix de l actif risqué suit une loi lognormale, donc p = q = +1. D après les théorèmes précédents, les asymptotes de la variance implicite sont horizontales au niveau des deux ailes : on retrouve le fait que la volatilité est constante dans ce modèle. Pour pouvoir mettre en oeuvre les résultats théoriques présentés dans cette section, il faut, au préalable, analyser et éventuellement préparer les données de marché. Ce point est discuté dans la section suivante. 4.4 Données utilisées dans le chapitre Pour les besoins de ce chapitre, nous utilisons les prix des options Européennes sur l indice DJ EuroStoxx 50, cotées sur l Eurex. Dans cette section, nous procédons à une analyse des données disponibles. Ensuite, nous proposons une procédure qui permet de les retraiter a n de nous placer dans le cadre du modèle de marché normalisé décrit précédemment. Cela nous donne une indication sur la manière dont il faut procéder pour reconstruire la surface de volatilité implicite. 4.4.1 Les options sur l indice DJ EuroStoxx 50 L indice DJ EuroStoxx 50 L indice DJ EuroStoxx 50 (abréviation de Dow Jones EURO STOXX 50) est composé des 50 actions les plus représentatives de la zone Euro. Les actions entrant dans la composition de l indice sont sélectionnées sur des critères de capitalisation et de liquidité. Le poids de chaque action est déterminé en fonction de sa capitalisation boursière ottante et il est plafonné à 10%. L indice est calculé et publié par Stoxx Limited, une société conjointe entre Deutsche Börse 220
AG (bourse Allemande), Dow Jones & Company (fournisseur de données nancières) et SWX group (bourse Suisse). Le système de cotation est entièrement électronique et le cours de l indice est recalculé toutes les 15 secondes 4. La plateforme électronique Eurex L Eurex (EURopean EXchange) est l un des plus grands marchés électroniques de produits dérivés au monde, géré par Deutsche Börse AG et SWX group. Il o re aux investisseurs un grand choix de produits dérivés sur les taux d intérêt, sur les actions et sur les indices actions, sur l in ation et sur le carbone 5. Nous nous intéressons plus particulièrement aux options portant sur l indice DJ EuroStoxx 50. Les options OESX OESX est le code des options sur l indice DJ EuroStoxx 50 cotées par l Eurex. Le marché des options OESX est très actif : les volumes de transaction sont élevés et les contrats sont très liquides. Les options, de type Européen, sont négociables pour des maturités standardisées allant jusqu à 119 mois (soit 10 ans environ). Le dernier jour de négociation est le troisième vendredi du mois d expiration du contrat. Les options sont cotées en points d indice avec un chi re après la virgule et l échelon de cotation ou tick 6 est de 0:1 point d indice 7. 4.4.2 Choix des données Nous pouvons envisager de travailler sur des cours "en temps réel", relevés à un instant donné durant une journée de bourse, ou bien à partir des cours de compensation, publiés après la clôture du marché. Nous discutons ces deux possibilités ci-dessous. Cours en "temps réel" Le principal avantage lorsque l on utilise des données en "temps réel" est que les prix observés correspondent à des transactions qui ont eu lieu. On peut s attendre à ce qu ils correspondent parfaitement aux anticipations de marché des investisseurs mais ce serait sans tenir compte des inconvénients suivants. Les prix observés résultent de l o re et de la demande, donc ils ne re ètent pas nécessairement le niveau intrinsèque de la volatilité, mais plutôt les intérêts ponctuels de certains investisseurs. 4 Pour obtenir des informations détaillées sur la constitution et sur le calcul de l indice, on pourra consulter le site internet de Stoxx Limited : http://www.stoxx.com. 5 Site internet : www.eurexchange.com. 6 L échelon de cotation est la plus petite unité de cotation d un contrat sur les marchés de produits dérivés standardisés. 7 Pour les caractéristiques détaillées des contrats OESX voir : http://www.eurexchange. com>trading>products>equityindexderivatives>dowsjonesstoxx>bluechip. 221
Les prix observés présentent des asynchronicités : certaines options sont cotées avec un prix ancien, car elles n ont pas été traitées à l instant de l observation. Les fourchettes Bid/Ask des options cotées traduisent l incertitude autour du prix "théorique" et peuvent biaiser l estimation de la "vraie" valeur de la volatilité implicite. Une analyse des volumes de transactions montre que les options de maturités courtes sont plus liquides que les options de maturités lointaines, ce qui signi e que la qualité de l information disponible se dégrade avec la maturité des contrats. Les options les plus liquides et les plus négociées sont les options à la monnaie et les options en dehors de la monnaie, car elles o rent un e et de levier supérieur pour la spéculation et un moindre coût de couverture. Hentschel (2003) propose une analyse approfondie des sources d incertitude et des distorsions induites par le choix du jeu de données. Cours de compensation Les cours de compensation sont calculés en n de séance par l organisateur du marché (Eurex) selon le procédé ci-dessous. Des market-makers d options vanilles fournissent des fourchettes Bid/Ask sur les calls et les puts qu ils sont prêts à traiter pour chaque maturité T i. A partir des fourchettes de prix fournies par les market-makers, l organisateur de marché calibre un modèle interne décrivant le skew de volatilité pour chaque échéance, puis il publie l ensemble des cours de compensation. L utilisation des prix de compensation permet d obtenir des prix d options pour la plupart des strikes ouverts à la négociation, toutes maturités confondues. L utilisation des cours de compensation présente di érents avantages : la matrice des prix de compensation contient plus de données que la matrice des prix en "temps réel" que l on pourrait obtenir durant une scéance de bourse ; en particulier pour couple (K; T ) coté, on dispose systématiquement du prix de call et du prix du put associé, les prix ont été donnés et contrôlés par des market-makers, donc ils re ètent véritablement les anticipations des opérateurs à la clôture du marché, les prix sont synchrones puisqu ils sont calculés sur la base du cours de clôture du sous-jacent. Les inconvénients liés à cette approche sont : le processus détaillé de construction des cours de compensation est tenu secret, la surface de volatilité implicite obtenue dépend du modèle utilisé par la société organisant le marché 8. 8 Au sujet de la modélisation des volatilités implicites, Eurex propose de télécharger le travail de Weizmann (2007), réalisé en partenariat avec Eurex. Il s agit d une étude approfondie du modèle Vanna-Volga et de sa mise en oeuvre pour modéliser les volatilités implicites sur l indice DJ EuroStoxx 50. On peut donc penser que Eurex utilise une méthode voisine de celle décrite dans le document. 222
Toutefois, la crédibilité des prix est assurée par le fait qu ils sont donnés par des market-makers. Pour les di érentes raisons que nous venons d évoquer, nous décidons d utiliser les cours de compensation fournis par Eurex. Données disponibles Les cours de compensation sont ceux du vendredi 23/05/2008. Le cours de clôture de l indice DJ EuroStoxx 50 est S 0 = 3725:82. Nous disposons de 902 prix de calls répartis sur 17 échéances. Nous disposons aussi des prix de puts pour les mêmes échéances et les mêmes strikes. Le tableau ci-dessous donne pour chaque échéance ouverte à la négociation le nombre de calls cotés ainsi que la plage de strikes disponibles. Echéances Maturités Nombre Strike Strike des contrats en années de calls Min Max 20=06=2008 0:08 66 1600 6000 18=07=2008 0:15 64 2000 6000 15=08=2008 0:23 29 2950 4350 19=09=2008 0:33 83 600 6000 19=12=2008 0:57 83 600 8000 20=03=2009 0:82 55 1600 5000 19=06=2009 1:07 71 1200 8000 18=12=2009 1:57 77 600 8000 18=06=2010 2:07 42 2100 5000 17=12=2010 2:57 72 1000 8000 16=12=2011 3:56 47 1000 10000 21=12=2012 4:58 45 1000 10000 20=12=2013 5:58 38 1000 10000 19=12=2014 6:57 42 1000 10000 18=12=2015 7:57 38 1000 10000 16=12=2016 8:57 35 1000 10000 15=12=2017 9:56 15 3000 4400 Un simple calcul montre que la moitié des cotations est concentrée au niveau des maturités inférieures à 1 an (du 20=06=2008 au 19=06=2009 exactement) et seulement 10% des prix observés sont situés au niveau des 3 dernières maturités, ce qui montre que l essentiel des cotations disponibles est localisé sur les maturités courtes. 4.4.3 Préparation des données Facteurs d actualisation et prix futures implicites Pour construire les prix d options normalisés dé nis par la formule (4.25), nous avons besoin des facteurs d actualisation B Ti et des prix futures F Ti pour les 223
échéances cotées T 1 T n. Une première solution consiste à calculer ces quantités avec un modèle interne mais, dans ce cas, les valeurs obtenues seront vraissemblablement di érentes de celles utilisées par l organisateur du marché pour déterminer les cours de compensation des options. Pour cette raison, il est préférable d extraire B Ti et F Ti par une inférence statistique sur les prix observés. On parle alors de facteurs d actualisation et de prix futures implicites. Soit K 1 < < K mi les strikes des options cotées pour la i ieme échéance. On note : Cm;i obs def = C (K m ; T i ) ; Pm;i obs def = P (K m ; T i ) ; 1 m m i : (4.49) En appliquant la relation de parité call-put aux options observées, il vient : où l on a posé : C obs m;i P obs m;i = B Ti (F Ti K m ) = i + i K m : (4.50) i def = B Ti F Ti ; i def = B Ti : (4.51) Il su t alors d e ectuer une régression linéaire de C obs m;i Pm;i obs par rapport aux strikes K m pour obtenir les estimations ^ i et ^ i des coe cients i et i. Le facteur d actualisation et le prix forward estimés pour l échéance T i sont donnés par : ^B Ti = ^ i ; ^FTi = ^ i ^ i : (4.52) Nous présentons dans le tableau ci-dessous les facteurs d actualisation et les prix futures obtenus à partir des données du 23=05=2008, ainsi que le coe cient de détermination R 2 de la régression linéaire. i Echéances Maturités T i ^BTi ^FTi R 2 1 20=06=2008 0:08 0:99676 3722:94 0:999999999977167 2 18=07=2008 0:15 0:99323 3730:33 0:999999999998768 3 15=08=2008 0:23 0:98936 3735:91 0:999999999917812 4 19=09=2008 0:33 0:98492 3751:88 0:999999999993374 5 19=12=2008 0:57 0:97311 3779:03 0:999999999926510 6 20=03=2009 0:82 0:96132 3816:26 0:999999999675557 7 19=06=2009 1:07 0:95001 3748:21 0:999999999877321 8 18=12=2009 1:57 0:92862 3806:2 0:999999999967162 9 18=06=2010 2:07 0:90857 3775:91 0:999999999995664 10 17=12=2010 2:57 0:88938 3824:65 0:999999999998165 11 16=12=2011 3:56 0:85275 3838:91 0:999999999940167 12 21=12=2012 4:58 0:81713 3856:63 0:999999999973364 13 20=12=2013 5:58 0:78318 3869:79 0:999999999521267 14 19=12=2014 6:57 0:74901 3889:29 0:999999999134564 15 18=12=2015 7:57 0:71409 3916:38 0:999999999561761 16 16=12=2016 8:57 0:67855 3951:44 0:999999999135162 17 15=12=2017 9:56 0:64286 3993:96 0:999999999947164 224
Le coe cient R 2 est quasiment égal à 1 pour chaque échéance traitée, ce qui traduit la qualité de la régression. D une manière générale la méthode que nous proposons s avère particulièrement robuste et elle permet de s a ranchir des problèmes liés à l incertitude sur les taux d intérêt et sur les dividendes. A n de limiter au maximum les distorsions lors de l extraction des volatilités implicites, nous procédons à un retraitement préliminaire des cours de compensation a n d éliminer les prix faux ou non-signi catifs. Filtrage des prix faux et des prix non-signi catifs Elimination des prix faux Pour chaque maturité T i, nous supprimons les options pour lesquelles il n est pas possible de calculer une volatilité implicite. D après la proposition 4.3, cela revient à ne conserver que les prix Cm;i obs qui véri ent : ^B Ti ( ^F Ti K m ) + Cm;i obs ^B Ti ^FTi ; 1 m m i : (4.53) Elimination des prix non-signi catifs Le tick de cotation représente la précision avec laquelle les prix d options sont exprimés (0:1 point d indice dans le cas présent). Donc, on ne peut tirer aucune information pertinente des prix d options situés à 1 tick de cotation des bornes de l encadrement (4.53) et nous considérons qu il ne faut pas en tenir compte. En pratique, nous appliquons un ltre plus restrictif qui consiste à éliminer les prix situés à moins de 2 ticks de cotation 9 des bornes de l inégalité (4.53). Cela revient à conserver les cours de compensation qui vérifent l encadrement : ^B Ti ( ^F Ti K m ) + + 2 ticks < C obs m;i < ^B Ti ^FTi 2 ticks: (4.54) Allure de la matrice des cours de compensation La gure 4.2 illustre la matrice des prix de compensation et elle permet d identi er les options éliminées par les deux ltres décrits précédemment. Un examen de cette gure montre que les options dont les prix (représentés en rouge) ne respectent pas l encadrement (4.53), se situent au niveau des premières maturités et des strikes les plus faibles. Les options dont les prix (représentés en bleu) ne respectent pas l encadrement (4.54), se situent au niveau des premières maturités et des strikes les plus élevés. A partir de la 9 ieme maturité (2 ans environ) tous les prix d options sont considérés comme valides au sens des deux ltres proposés. Nous donnons ci-dessous un tableau qui permet de quanti er le ltrage que nous avons pratiqué sur les données initiales. Nb. Options Pourcentage Total 902 100:00% Filtre 1 19 2:11% Filtre 2 116 12:86% Restant 767 85:03% 9 Kermiche (2007) applique un ltre similaire, mais moins restrictif, puisqu elle élimine uniquement les options dont le prix est inférieur à un échelon de cotation. 225
Strikes 600 1 1 2 800 1 1 2 1 000 1 1 3 3 3 3 3 3 3 3 1 200 1 1 3 3 3 3 3 3 3 1 400 1 1 3 3 3 3 3 3 3 1 500 1 2 1 600 1 1 3 3 3 3 3 3 3 3 3 1 700 1 3 3 3 1 800 1 2 3 3 3 3 3 3 3 3 3 3 3 1 900 2 3 3 3 3 2 000 2 1 3 3 3 3 3 3 3 3 3 3 3 3 2 100 3 3 3 3 3 3 2 200 1 1 3 3 3 3 3 3 3 3 3 3 3 3 2 300 3 3 3 3 3 3 3 2 400 2 2 3 3 3 3 3 3 3 3 3 3 3 3 2 500 2 3 3 3 3 3 3 3 3 3 3 2 600 2 3 3 3 3 3 3 3 3 3 3 3 3 3 2 700 3 3 3 3 3 3 3 3 3 3 3 2 800 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2 850 3 3 3 3 2 900 3 3 3 3 3 3 3 3 3 3 3 3 2 950 3 3 1 3 3 3 3 000 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 050 3 3 3 3 3 3 3 3 3 3 3 100 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 150 3 3 3 3 3 3 3 3 3 3 3 200 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 250 3 3 3 3 3 3 3 3 3 3 3 300 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 350 3 3 3 3 3 3 3 3 3 3 3 3 400 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 450 3 3 3 3 3 3 3 3 3 3 3 500 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 550 3 3 3 3 3 3 3 3 3 3 3 600 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 650 3 3 3 3 3 3 3 3 3 3 3 3 700 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 750 3 3 3 3 3 3 3 3 3 3 3 3 800 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 850 3 3 3 3 3 3 3 3 3 3 3 900 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 950 3 3 3 3 3 3 3 3 3 3 4 000 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 050 3 3 3 3 3 3 3 3 3 3 4 100 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 150 3 3 3 3 3 3 3 3 3 3 4 200 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 250 2 3 3 3 3 3 3 3 3 3 4 300 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 350 2 3 3 3 3 3 3 3 3 3 4 400 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 450 2 2 3 3 3 3 3 3 3 4 500 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 4 550 2 2 3 3 3 3 3 3 3 4 600 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 4 650 2 2 3 3 3 3 3 3 3 4 700 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 4 750 2 2 3 3 3 3 3 3 3 4 800 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 4 850 2 2 2 3 3 3 3 3 3 4 900 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 4 950 2 2 2 3 3 3 3 3 5 000 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 5 050 2 2 2 5 100 2 2 2 3 3 3 5 150 2 2 2 5 200 2 2 2 3 3 3 3 3 3 3 3 5 250 2 2 2 5 300 2 2 2 3 3 3 5 350 2 5 400 2 2 2 3 3 3 3 3 3 3 3 3 5 450 2 5 500 2 2 2 2 3 3 3 5 550 2 5 600 2 2 2 2 3 3 3 3 3 3 3 5 650 2 5 700 2 2 2 2 3 3 5 750 2 5 800 2 2 2 2 3 3 3 3 3 3 3 5 850 2 5 900 2 2 2 2 3 3 5 950 2 6 000 2 2 2 2 3 3 3 3 3 3 3 3 3 6 200 2 2 3 3 3 6 400 2 2 3 3 6 600 2 3 3 3 3 3 6 800 2 2 3 3 7 000 2 2 3 3 3 3 3 3 3 3 7 200 2 2 3 3 7 400 2 2 3 3 7 600 2 2 3 3 7 800 2 2 2 3 8 000 2 2 2 3 3 3 3 3 3 3 10 000 3 3 3 3 3 3 Maturités : 0,08 0,15 0,23 0,33 0,57 0,82 1,07 1,57 2,07 2,57 3,56 4,58 5,58 6,57 7,57 8,57 9,56 Fig. 4.2 Illustration de la matrice des cours de compensation du 23=05=2008 sur les options OESX. Gris clair : prix non renseignés ; gris sombre : prix valides ; bleu : prix non-signi catifs ne respectant pas l encadrement (4.54) ; rouge : prix faux ne respectant pas l encadrement (4.53). 226
0,00 0,50 1,00 Moneyness 1,50 2,00 2,50 3,00 0 1 2 3 4 5 6 7 8 9 10 Maturités (Y) Fig. 4.3 Moneyness des options cotées en fonction de la maturité. Pointillé bleu : moneyness ; droite rouge : monnaie forward ; losanges jaunes : arbitrages en moneyness. Le premier ltre a supprimé environ 2% des données et le second ltre environ 13%. Cela signi e que 85% des données initiales contiennent une information utilisable pour modéliser la surface de volatilité implicite. Nous avons pu véri er que ces proportions étaient relativement stables au cours du temps. Pour conclure cette section, nous analysons la con guration des données ltrées. Répartition des cotations Pour chaque échéance, nous pouvons calculer la moneyness forward des options retenues après le ltrage à partir du prix future estimé soit obs def m;i = K m = ^F Ti. La gure 4.3 représente (pointillé bleu) les moneyness des options en fonction des échéances de contrats. La droite horizontale rouge correspond aux options à la monnaie forward ( = 1) et les losanges jaunes représentent les prix arbitrables 10. Un simple examen des données montre qu il y a pratiquement autant d options dont la moneyness est inférieure à 1 que d options dont la moneyness est supérieure à 1. Sur les premières maturités les prix observés sont associés à 10 Voir le paragraphe 4.4.3 pour la détection des prix arbitrables. 227
des niveaux de moneyness compris entre 0:50 et 1:50. A partir de la 7 ieme maturité, les prix disponibles sont associés à des niveaux de moneyness compris entre 0:25 et 2:5 environ. Le tableau ci-dessous donne la proportion d options dans chaque intervalle de moneyness, toutes maturités confondues (il y a n total = 767 options). Intervalles Nb. Options Proportion 2 [a; b[ n [a;b[ n [a;b[ =n total 0:00 : 0:50 48 6:37% 0:50 : 0:75 98 13:01% 0:75 : 1:00 249 33:07% 1:00 : 1:25 231 30:68% 1:25 : 1:50 84 11:16% 1:50 : 2:00 43 5:71% 2:00 : 2:50 8 1:06% 2:50 : 3:00 6 0:80% On constate qu environ 63:75%(' 33:07% + 30:68%) des options sont situées dans l intervalle de moneyness [0:75; 1:25[, ce qui signi e que l essentiel de l information disponible est concentrée autour de la monnaie. Les options de moneyness inférieure à 0:75 représentent environ 19:38%(' 6:37% + 13:01%) des prix disponibles et les options de moneyness supérieure à 1:25 représentent environ 18:73%(' 11:16% + 5:71% + 1:06% + 0:80%) des prix disponibles. On dispose donc d une quantité d information non négligeable au niveau des moneyness extrêmes dont il faudra tenir compte lors de la construction de la surface de volatilité implicite. Détection des arbitrages en moneyness Nous terminons l analyse des données disponibles en présentant une méthode simple pour détecter la présence d arbitrages entre les prix cotés pour une même échéance 11. Les données ltrées véri ent la proposition 4.2. Pour contrôler la présence d arbitrages en moneyness, il nous su t de véri er les points 1 et 2 de la proposition 4.4. Etant donné que l on dispose de données discrètes, nous devons traduire les formules (4.35) et (4.36) en leurs équivalents discrets. Les prix de calls normalisés observés sont donnés par la formule c obs m;i = Cobs m;i =( ^B Ti ^FTi ). La formule (4.35) signi e que la pente des prix de calls normalisés est comprise entre 1 et 0, de sorte que son équivalent discret s écrit : 1 cobs m;i obs m;i c obs m 1;i obs m 1;i 0: (4.55) 11 La détection des arbitrages calendaires suppose que l on dispose des prix d options pour les mêmes moneyness à chaque maturité, ce qui n est pas le cas lorsque l on considère les prix d options observés. 228
La formule (4.36) signi e que la pente entre les prix observés doit être croissante à maturité xée. On en déduit que l équivalent de (4.36) s écrit : c obs m+1;i obs m+1;i c obs m;i obs m;i cobs m;i obs m;i c obs m 1;i obs m 1;i : (4.56) On retrouve les conditions de non-arbitrage démontrées par Carr et Madan (2005). Nous avons détecté 4 violations de la relation (4.56) sur les données observées. La moneyness des options associées est représentée par des losanges jaunes sur la gure 4.3. En revanche, la relation (4.55) a toujours été respectée. Les prix observés présentent peu d opportunités d arbitrage. Cela con rme le fait que le marché des options listées sur le DJ EuroStoxx 50 est bien arbitré. Surface de prix, surface de volatilité implicite Pour conclure cette section, nous présentons les prix de calls normalisés c obs m;i ( gure 4.4, graphique du haut) ainsi que les volatilités implicites ^ obs m;i ( gure 4.4, graphique du bas), obtenues en résolvant l équation suivante 12 : c BS ( obs m;i; T i ; ^ obs m;i) = c obs m;i: (4.57) Un examen du graphique supérieur de la gure 4.4 montre que les prix normalisés semblent véri er les hypothèses de non-arbitrage (décroissance et convexité par rapport à la moneyness, croissance par rapport à la maturité). On constate qu il n y a pas de prix pour les options de moneyness arbitrairement faible ou arbitrairement élevée au niveau des premières échéances et à la dernière échéance. Cette con guration des données rend l inférence statistique particulièrement dif- cile, car il faut extrapoler les prix qui n existent pas de manière cohérente par rapport à l information disponible aux maturités intermédiaires. Sur le graphique inférieur de la gure 4.4, on retrouve les principales caractéristiques de la volatilité sur les marchés actions : le skew est plus prononcé pour la première échéance (appelée échéance front) et il s aplatit au niveau des maturités longues. Pour construire la surface de volatilité implicite, on peut choisir de travailler sur les prix normalisés ou sur les volatilités. Nous considérons qu il est préférable de modéliser les volatilités pour les deux raisons suivantes. Les prix normalisés peuvent prendre des valeurs très proches de zéro (de l ordre de 1:0E 07). Etant donné que les ordinateurs représentent les nombres avec une précision nie, il n est pas souhaitable de travailler sur des quantités arbitrairement faibles qui deviennent rapidement indiscernables. 12 Nous déterminons les volatilités implicites par dichotomie. Cette méthode simple permet d obtenir les volatilités avec le degré de précision désiré. Son principal inconvénient est le temps de calcul nécessaire. A ce sujet, on pourra consulter Jäckel (2006) qui discute les problèmes liés à l inversion numérique de la fonction c bs, considérée comme une fonction de la volatilité implicite. 229
Fig. 4.4 Données extraites des cours de compensation du 23/05/2008 des options OESX sur l indice DJ EuroStoxx 50. Graphique du haut : prix de calls normalisés. Graphique du bas : volatilités implicites extraites à partir des prix de calls normalisés. 230
Les volatilités au contraire ont un ordre de grandeur voisin de 1:0E 01, ce qui permet de les traiter avec précision sur l ordinateur. Dans la section suivante, nous présentons quelques voies de modélisation des surfaces de volatilité envisagées dans la littérature et fréquemment utilisées par les praticiens. 4.5 Modélisations possibles pour la surface de volatilité implicite Nous envisageons successivement deux approches pour construire la surface de volatilité implicite et nous montrons pourquoi elles ne donnent pas des résultats pleinement satisfaisants. La première approche consiste à calibrer sur les prix d options observés un modèle de marché consistant qui "explique" l existence du smile de volatilité en tenant compte, par exemple, de la nature stochastique de la volatilité ou de la présence de sauts dans la dynamique du sous-jacent. La seconde approche, dite descriptive, consiste à modéliser les volatilités observées par une méthode paramétrique ou non-paramétrique. Dans ce cas, l idée n est pas d expliquer l existence du smile de volatilité, mais plutôt de reproduire sa forme. 4.5.1 Modèles de marchés explicatifs du smile Le modèle de Black et Scholes (1973) suppose que le prix de l actif risqué suit un mouvement Brownien géométrique : la volatilité des rendements est déterministe, les trajectoires du sous-jacent sont continues presque-sûrement et les prix suivent une loi lognormale. Or les études empiriques montrent que : (i) la volatilité évolue de manière aléatoire au cours du temps et qu elle est corrélée au cours du sous-jacent, (ii) les cours boursiers sont soumis à des variations violentes, de sorte que les rendements sont discontinus (présence de sauts). L existence du smile de volatilité est une conséquence du fait que le modèle de di usion lognormale de Black et Scholes n est pas su samment réaliste, car il ne tient pas compte des phénomènes évoqués ci-dessus. Les spécialistes ont donc tenté d enrichir le modèle original de manière à lui donner les caractéristiques (volatilité stochastique et/ou sauts) mises en évidence par l expérience, l objectif étant d expliquer et d analyser le smile de volatilité (Aboura 2005). Quelques solutions envisagées dans la littérature Modèles à volatilité stochastique Certains auteurs ont fait le choix de remplacer la volatilité constante de la di usion lognormale par une volatilité stochastique qui peut être une fonction du sous-jacent, comme dans le modèle CEV (Cox et Ross 1976, Cox 1996), ou un processus stochastique corrélé à l évolution du sous-jacent (Hull et White 1987, Scott 1987, Heston 1993). Par nature, les modèles à volatilité stochastique tiennent compte du caractère hétéroscédastique de la volatilité du sous-jacent. L expérience montre qu ils peuvent 231
reproduire les di érentes formes de smiles observées dans la réalité et qu ils engendrent une structure par terme de volatilité implicite consistante (Corrado et Su 1998, Lewis 2000). En revanche, ils ne parviennent pas à restituer dèlement le smile de volatilité sur les maturités courtes. Ce phénomène provient du fait que les prix des options d échéances courtes sont expliqués essentiellement par la présence de sauts dans la dynamique du sous-jacent (Gatheral 2006). Modèles de di usion à sauts Une autre alternative envisagée par Merton (1976) ou Cox et Ross (1976) consiste à combiner la dynamique Brownienne avec un processus de Poisson composé. On parle alors de di usion à sauts (jump-di usion en anglais). Les sauts peuvent avoir une amplitude constante ou suivre une loi de probabilité spéci que. Merton travaille avec des sauts de loi lognormale, Kou (2002) modélise l amplitude des sauts par une loi de Laplace asymétrique, Zhu et Hanson (2005) supposent que les sauts suivent une loi uniforme. Comme les modèles à volatilité stochastique, les modèles de di usion à sauts permettent d engendrer un smile et une structure par terme de volatilité implicite. Gatheral (2006) démontre que ce type de processus est capable de capturer le smile de volatilité sur les maturités courtes, mais que la structure par terme des volatilités s aplatit beaucoup trop rapidement par rapport à ce que l on observe dans la réalité. Modèles hybrides Dans la réalité des marchés nanciers, les uctuations des prix résultent de la combinaison du caractère hétéroscédastique de la volatilité et de la présence de sauts dans les rendements. Pour cette raison, certains auteurs ont proposé d intégrer des processus à sauts dans les modèles à volatilité stochastique (Bates 1996, 2000). On obtient ainsi une dynamique des prix réaliste. La surface de volatilité implicite obtenue par cette méthode combine les caractéristiques des modèles à volatilité stochastique (structure par terme consistante et bonne représentation du smile sur le long terme) avec les caractéristiques des modèles à sauts (bonne représentation du smile sur les maturités courtes) ; elle est relativement proche de celle observée empiriquement (Bakshi, Cao et Chen 1997, Gatheral 2006). Toutefois, ce type de modèle est particulièrement di cile à calibrer et les paramètres sont très instables dans le temps (Lempereur 2004). Pour une discussion approfondie sur les modèles à volatilité stochastique et sauts, on pourra consulter la thèse de Sy (2003). Avantages et inconvénients des modèles explicatifs Les modèles explicatifs présentent plusieurs avantages : la dynamique de l actif risqué possède des caractéristiques statistiques proches de celles des rentabilités boursières, ils expliquent simultanément le smile et la structure par terme de la surface de volatilité implicite, ils o rent un cadre d analyse consistant pour évaluer et couvrir les produits dérivés complexes. 232
On peut donc les utiliser pour reconstruire une surface de volatilité implicite complète à partir des prix d options observés à un instant donné. En particulier, ils permettent d extrapoler les données manquantes en préservant la surface d éventuelles opportunités d arbitrage (Randjiou 2002). Toutefois, ce type d approche sou re des inconvénients communs à toutes les méthodes paramétriques : la calibration, particulièrement complexe, induit des résolutions numériquement très lourdes (problèmes non-linéaires d optimisation multidimensionnelle sous contraintes), le modèle est capable d imiter les formes de surfaces de volatilité rencontrées dans la pratique, mais la qualité de l ajustement sur les données réelles est discutable. Par exemple, les modèles combinant une volatilité stochastique et des sauts surévaluent systématiquement les options à la monnaie (Sy 2003). Ce dernier point provient du fait que l on cherche à imposer, par des considérations empiriques, une forme prédé nie aux données observées (Kermiche 2007). Pour les raisons que nous venons d évoquer, nous conseillons d utiliser une approche paramétrique lorsque l on travaille avec peu de données : une fois les paramètres estimés, on reconstruit l ensemble des données manquantes à l aide du modèle. En revanche, lorsque nous disposons d un grand nombre de données, ce qui est le cas sur le marché de l indice DJ EuroStoxx 50, il est préférable d envisager une autre approche, plus exible, qui sera à même de capturer l ensemble de l information contenue dans les prix observés. Avant de présenter les méthodes de capture du smile de volatilité implicite, nous donnons les résultats obtenus en calibrant le modèle de Merton (1976) sur les données utilisées dans le chapitre. Volatilités implicites engendrées par le modèle M76 de Merton L intérêt du modèle de Merton est que l on dispose d une formule analytique pour évaluer les options Européennes et qu il est consistant avec l hypothèse d absence d opportunité d arbitrage. Hypothèses du modèle Nous travaillons avec le processus de prix normalisés (M t ) qui est une martingale positive d espérance égale à 1. Nous supposons que le processus (M t ) présente des sauts aléatoires (Y i ) i1 à des instants aléatoires discrets ( i ) i1 qui sont les instants de sauts d un processus de Poisson homogène (N t ), d intensité > 0. Entre deux sauts consécutifs, les prix M t évoluent selon un mouvement Brownien géométrique de volatilité > 0. On suppose de plus que les processus (W t ) t0, (N t ) t0 et la suite de variables aléatoires (Y i ) i1 sont mutuellement indépendants. A n de simpli er les calculs, Merton (1976) impose que les variables Y i soient identiquement distribuées selon une loi lognormale de paramètres " 2 R et > 0 : ln Y i N "; 2 : (4.58) 233
La dynamique des prix est régie par l équation di érentielle stochastique suivante : dm t M t = dw t + (Y t 1) dn t dt; (4.59) où def = E[Y i ] 1 = exp(" + 2 =2) 1 et M t désigne le prix normalisé immédiatement avant la date t. Sous ces hypothèses, le cours du sous-jacent à une date t quelconque est de la forme (Matsuda 2004) : M t = M B t M P t ; où (Mt B ) est une martingale Brownienne dé nie par : Mt B 2 = exp 2 t + W t et (M P t ) est une martingale Poissonienne dé nie par : (4.60)! XN t Mt B = exp t + ln Y i : (4.61) Prix d un call Européen Le prix normalisé d un call Européen de moneyness et d échéance T, noté c M76 (; T ), est donné par la formule (démonstration en Annexe B) : c M76 (; T ) = +1X n=0 i=1 T e ( T ) n c n! BS ( n ; T; n ) ; (4.62) où c BS ( n ; T; n ) est le prix Black et Scholes normalisé d un call de moneyness n, d échéance T, de volatilité n et = (1 + ) ; n = (1 + ) n e T ; 2 n = 2 + 2 n T : (4.63) Calibration Avec la formule fermée pour les prix de calls normalisés (4.62), nous pouvons calibrer le modèle sur les prix d options observés en résolvant le problème de minimisation non-linéaire ci-dessous : ( ; ; " ; ) = arg min nx Xm i i=1 m=1 c M76 ( m ; T i ; ; ; "; ) c obs m;i 2 : (4.64) Les paramètres obtenus sont les suivants : ' 0:15646; ' 0:08749; " ' 0:80288; ' 0:41170: (4.65) On remarque que l espérance de la taille des sauts, ", est voisine de 80%, alors qu elle devrait être comprise entre 5% et 15%. Ce résultat, surprenant, 234
s explique par le fait que nous avons cherché un jeu de paramètres qui explique simultanément les prix des options de maturité courte (1 mois) et des options de maturité longue (9:5 ans environ). La valeur trouvée pour " signi e que nous avons utilisé le modèle au-delà de sa capacité explicative en cherchant à lui faire reproduire la forme du smile long-terme. Ce résultat con rme les modèles de di usion à sauts, comme celui présenté ici, ne permettent pas de reproduire avec précision une surface de volatilité implicite complète. Qualité de l ajustement La gure 4.5 représente, en rouge, les volatilités implicites obtenues avec le modèle M76 lorsque les paramètres sont donnés par (4.65) et avec des cercles noirs les volatilités observées. Un examen des cinq premiers graphiques (maturités inférieures à 1 an) montre que le smile court-terme est particulièrement mal représenté. En revanche, le smile moyen/long-terme est mieux représenté (cinq derniers graphiques). La qualité d ajustement augmente avec la maturité, ce qui tend à con rmer le fait que ce sont les prix des options long-termes qui ont in uencé la calibration du modèle. Quanti cation des erreurs de calibration A n de con rmer les observations faites à partir des graphiques, nous calculons pour chaque maturité T i : la moyenne des écarts entre les volatilités implicites données par le modèle et les volatilités observées, notée ErrV, la moyenne des écarts relatifs entre les prix donnés par le modèle et les prix observés, notée ErrC. Dans les deux cas, les écarts sont pris en valeur absolue, ce qui évite les phénomènes de compensation. Les quantités ErrV et ErrC sont dé nies par les formules suivantes : ErrV (T i ) = 1 Xm i ^ M76 (~ m ; T i ) m i m=1 ErrC (T i ) = 1 Xm i c M76 (~ m ; T i ) m i c obs m;i m=1 ^ obs m;i Les résultats des calculs sont donnés dans le tableau ci-dessous. ; (4.66) 1 : (4.67) 235
Maturité 1 = 0,08Y / Smile M76 Maturité 2 = 0,15Y / Smile M76 Volatilité Implicite 90% 80% 70% 60% 50% 40% 30% 20% 10% 0,4 0,6 0,8 1 1,2 1,4 Moneyness Volatilité Implicite 90% 80% 70% 60% 50% 40% 30% 20% 10% 0,4 0,6 0,8 1 1,2 1,4 Moneyness Volatilité Implicite Maturité 3 = 0,23Y / Smile M76 50% 45% 40% 35% 30% 25% 20% 15% 10% 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 Moneyness Volatilité Implicite Maturité 5 = 0,57Y / Smile M76 70% 60% 50% 40% 30% 20% 10% 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 Moneyness Volatilité Implicite Maturité 7 = 1,07Y / Smile M76 60% 55% 50% 45% 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 Moneyness Volatilité Implicite Maturité 9 = 2,07Y / Smile M76 45% 40% 35% 30% 25% 20% 15% 10% 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 Moneyness Volatilité Implicite Maturité 11 = 3,56Y / Smile M76 50% 45% 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 2,5 3 Moneyness Volatilité Implicite Maturité 13 = 5,58Y / Smile M76 45% 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 2,5 3 Moneyness Volatilité Implicite Maturité 15 = 7,57Y / Smile M76 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 2,5 3 Moneyness Volatilité Implicite Maturité 17 = 9,56Y / Smile M76 30% 28% 26% 24% 22% 20% 18% 16% 14% 12% 10% 0,4 0,6 0,8 1 1,2 1,4 Moneyness Fig. 4.5 Smiles de volatilité implicite obtenus pour 10 échéances cotées avec le modèle M76 de Merton. Echéances représentées : 1; 2; 3; 5; 7; 9; 11; 13; 15; 17. Courbe rouge : volatilités données par le modèle ; cercles noirs : volatilités observées. 236
i T i ErrV (T i ) ErrC (T i ) 1 0:08 5:55% 5:69% 2 0:15 4:15% 11:24% 3 0:23 1:97% 10:61% 4 0:33 3:85% 13:15% 5 0:57 3:39% 12:56% 6 0:82 2:63% 6:47% 7 1:07 1:83% 17:86% 8 1:57 1:33% 8:08% 9 2:07 0:42% 2:86% 10 2:57 0:84% 4:65% 11 3:56 0:56% 3:93% 12 4:58 0:25% 1:86% 13 5:58 0:21% 1:97% 14 6:57 0:31% 1:81% 15 7:57 0:36% 1:58% 16 8:57 0:36% 1:10% 17 9:56 0:25% 0:72% Moyenne : 1:66% 6:24% Dans la troisième colonne, on voit que la moyenne des écarts, entre les volatilités observées et les volatilités modélisées, diminue globalement lorsque la maturité augmente. De même, dans la quatrième colonne, on voit que la moyenne des écarts relatifs, entre les prix donnés par le modèle et les prix observés, présente une tendance globalement décroissante. La quantité ErrV est nettement inférieure à 1% à partir de la 9 ieme échéance (2 ans) : on peut donc considérer que les volatilités moyen/long-termes sont correctement représentées. En revanche, les volatilités des options de maturité inférieure à 2 ans (1 i 8) sont mal représentées. Pour ces échéances, ErrV est supérieure à 1:3% et elle atteint même 5:55% pour la première maturité. Les écarts sur les volatilités expliquent le comportement des écarts de prix relatifs mesurés par la quantité ErrC. Entre la 1 ere et la 8 ieme échéance, les écarts de prix ont un ordre de grandeur voisin de 10% et, à partir de la 9 ieme échéance, ils sont voisins de 2%. La 9 ieme échéance constitue donc une frontière à partir de laquelle on peut considérer que le modèle explique correctement les prix observés. Toutefois, ce résultat n est pas acceptable car, le modèle devrait reproduire dèlement les prix des options de maturités courtes pour lesquelles on dispose d un maximum d information. Pour terminer cette analyse, soulignons que la moyenne des écarts en volatilité, toutes échéances confondues, est voisine est de 1:66% et que la moyenne des écarts de prix relatifs sur l ensemble des données observées est de 6:24%. Ces chi res démontrent que le modèle ne permet pas d expliquer correctement les prix d options observés et par conséquent la forme de la surface de volatilité implicite associée. 237
Etant donné que les modèles de marché paramétriques ne sont pas su samment exibles pour reproduire dèlement les volatilités implicites observées, certains auteurs proposent de modéliser les volatilités implicites, sans chercher à expliquer les mécanismes de formation du smile et de la structure par terme des volatilités implicites. 4.5.2 Modèles descriptifs du smile Nous cherchons à déterminer une fonction qui serait capable de reproduire les di érentes formes de smiles et de structures par termes que l on peut observer dans la réalité. Construire une telle fonction revient à trouver une modélisation paramétrique d une variable à deux dimensions (la surface de volatilité implicite vue comme une fonction de la moneyness et de la maturité). Cette tâche est particulièrement délicate et elle repose essentiellement sur un examen minutieux de la forme du smile de volatilité, vu comme une fonction de la moneyness ou comme une fonction de la log-moneyness (Hafner et Wallmeier 2001). Au voisinage de la monnaie (~ ' 0), on observe que le smile de volatilité a une forme convexe que l on peut assimiler à une portion de parabole ou, plus généralement, à une portion de courbe polynomiale. Partant de cette constatation, di érents auteurs ont proposé de représenter le smile à une maturité donnée par un polynôme de degré inférieur ou égal à 4. Dans un premier temps, nous présentons di érentes modélisations des volatilités implicites basées sur des polynômes et proposées dans la littérature. Dans un second temps, nous testons un modèle dans lequel la variance implicite est une fonction quadratique de la log-moneyness. Modélisations du smile par des polynômes Modèles de Sepp (2002) Sepp (2002) envisage deux paramétrisations de la surface de volatilité dans lesquelles le smile est un polynôme de degré 3 ou 4 par rapport à la log-moneyness : et ^ 1 (~; T ) = a 0 + a 1 T + a 2 T 2 + (a 3 + a 4 T )~ + a 5 ~ 2 + a 6 ~ 3 (4.68) ^ 2 (~; T ) = a 0 + a 1 e a2t + a 3 ~ + a 4 ~ 2 + a 5 ~ 3 + a 6 ~ 4 : (4.69) Selon l auteur, le modèle (4.69) est plus réaliste que le modèle (4.68), car les coe cients ont une interprétation nancière : a 0 représente la volatilité à la monnaie lorsque T! +1, a 1 mesure l écart entre la volatilité à la monnaie de maturité T et la volatilité à l in ni, a 2 > 0 représente la vitesse de convergence des volatilités à la monnaie vers la volatilité limite a 0. Les paramètres a 3 ; : : : ; a 6 contrôlent la forme du smile de volatilité au voisinage de la monnaie. 238
Modèle de Alentorn (2004) Alentorn (2004) propose de modéliser le smile de volatilité comme une fonction quadratique de la log-moneyness dont les coe cients se déforment avec la maturité : a3 p ^ (~; T ) = (a 0 + a 1 T ) + p + a 4 T ~ + a 5 p ~ 2 : (4.70) T T La fonction a 0 + a 1 T représente la structure par terme des volatilités à la monnaie, la fonction a 3 = p T +a 4 p T représente la pente de la volatilité à la monnaie (encore appelée skewness) et le coe cient a 5 = p T représente la convexité de la volatilité à la monnaie (encore appelée smileness). Selon les tests pratiqués par l auteur, le modèle (4.70) permet de capturer correctement la forme de la surface de volatilité implicite. Soulignons que l équation choisie pour dé nir le skewness n est pas conforme à ce que l on observe dans la réalité : lorsque T! +1, on a a 3 = p T + a 4 p T! 1 selon le signe de a4, ce qui contredit le fait que le smile tend à s aplatir au niveau des maturités lointaines. Modélisations de Daglish, Hull et Suo (2007) Daglish, Hull et Suo (2007) analysent di érents modèles de volatilité fréquemment utilisés par les traders sur options. Ils envisagent tout d abord un modèle inspiré des travaux de Dumas, Fleming et Whaley (1998) : ^ (~; T ) = ^ (0; T ) + a 0 + a 1 T + a 2 T 2 + (a 3 + a 4 T )~ + a 5 ~ 2 : (4.71) Les auteurs testent aussi le modèle suivant, dans lequel les coe cients des termes en ~ sont des puissances de T 1=2 : ^ (~; T ) = ^ (0; T ) + a 1 T 1=2 ~ + a 2 T ~2 + a 3 T 3=2 ~3 + a 4 T 2 ~4 : (4.72) En n, ils généralisent le modèle (4.72) en remplaçant les puissances successives de T 1=2 par des termes de la forme T k où > 0 est di érent de 1=2 : ^ (~; T ) = ^ (0; T ) + a 1 T ~ + a 2 T 2 ~2 + a 3 T 3 ~3 + a 4 T 4 ~4 : (4.73) Les di érents tests de calibration montrent que est voisin de 0:44. Modèle de Zhang et Xiang (2008) Zhang et Xiang (2008) considèrent une volatilité implicite quadratique de la forme suivante : ^ (~; T ) = 0 1 + 1 p ~ + 2 T T ~2 ; (4.74) où 0 représente la volatilité à la monnaie, 1 contrôle la pente de la volatilité à la monnaie et 2 contrôle la convexité de la volatilité à la monnaie. Les auteurs démontrent que ces paramètres sont reliés aux moments d ordre 3 (skewness) et 4 (kurtosis) de la loi de probabilité des rendements du sous-jacent. Ils calibrent le modèle sur les prix d options sur l indice S&P 500 en minimisant la distance 239
entre les volatilités observées et les volatilités données par (4.74), mais en pondérant les observations en fonction des volumes des transactions sur les di érentes options. En procédant ainsi, ils démontrent que la fonctionnelle (4.74) permet de capturer les caractéristiques intrinsèques de la forme de la surface de volatilité implicite. Avantages et inconvénients des modèles polynomiaux Les modèles présentés ci-dessus donnent une équation paramétrique simple pour la surface de volatilité et il est aisé de les calibrer sur les données observées, ce qui les rend attractifs. Ils présentent toutefois deux inconvénients majeurs : ils ne garantissent pas que la surface obtenue sera non-arbitrable, les théorèmes 4.6 et 4.7 montrent qu il ne faut en aucun cas les utiliser pour extrapoler les volatilités implicites au niveau des moneyness extrêmes (j~j! +1), car la variance implicite est asymptotiquement une fonction linéaire de la log-moneyness. Nous présentons dans la suite les résultats obtenus en calibrant un modèle de smile polynomial sur les volatilités implicites des options OESX au 23/05/2008. Volatilités implicites engendrées à partir d une variance quartique Les modèles de smile quadratiques sont des approximations de la surface de volatilité au voisinage de la monnaie (~ ' 0) dont la qualité se dégrade très rapidement dès que l on sort de l intervalle 0:9 1:1 (Argou 2006). Or, pour certaines maturités, on dispose de volatilités implicites pour des moneyness comprises entre 0:25 et 2:6, comme on peut le voir sur la gure 4.3 avec la 11 ieme maturité qui correspond aux options d échéance 3:56 ans. En représentant le smile par un polynôme de degré 4 (smile quartique) qui o re deux degrés de liberté supplémentaires par rapport à une représentation quadratique, on a un gain de exibilité permettant d obtenir un lissage précis quelle que soit la largeur de l intervalle des moneyness cotées. Nous pouvons encore améliorer un peu la qualité de la régression en modélisant la variance et non pas la volatilité par un polynôme de degré 4. C est ce que nous avons pu observer en reconstruisant les surfaces de volatilité implicite utilisées dans le cadre de notre activité de gestion sur les produits structurés. Variance implicite quartique La variance implicite ^ 2 (~; T ) est un polynôme de degré 4 par rapport à la log-moneyness ~ dé ni par : ^ 2 (~; T ) = a T ~ 4 + b T ~ 3 + c T ~ 2 + d T ~ + e T ; (4.75) où e T représente la variance implicite à la monnaie (e T > 0 et p e T = ^ (0; T )), d T représente la pente de la variance implicite à la monnaie et c T contrôle la convexité de la variance implicite à la monnaie. Les paramètres a T et b T permettent de capturer la forme du smile au niveau des volatilités éloignées de la monnaie. 240
La volatilité implicite de maturité T est obtenue en prenant la racine carrée de l expression précédente : ^ (~; T ) = a T ~ 4 + b T ~ 3 + c T ~ 2 + d T ~ + e T 1=2 : (4.76) Qualité de l ajustement Pour chaque maturité, nous avons calibré la fonction (4.75) sur les variances implicites cotées. Les smiles de volatilité implicite, donnés par la formule (4.76), sont présentés à la gure 4.6. Un examen des di érentes courbes montre que le modèle s ajuste parfaitement aux données observées pour toutes les maturités. Une simple comparaison entre les smiles obtenus à partir des variances quartiques et les smiles obtenus avec le modèle de Merton M76 ( gure 4.5) con rme la supériorité du modèle descriptif sur le modèle explicatif, qui ne restitue pas dèlement la forme des volatilités observées. Nous poursuivons l analyse en étudiant les écarts entre les volatilités et les prix d options donnés par le modèle et les volatilités et les prix d options observés. Quanti cation des erreurs de calibration Dans le tableau ci-dessous, nous fournissons pour chacune des 17 maturités cotées, le coe cient R 2 de la régression de la fonction (4.75) sur les variances observées, la moyenne des écarts entre les volatilités implicites estimées et les volatilités observées (ErrV) et la moyenne des écarts relatifs entre les prix donnés par le modèle et les prix observés (ErrC). i T i R 2 ErrV (T i ) ErrC (T i ) 1 0:08 0:999816 0:09% 0:57% 2 0:15 0:999912 0:06% 1:16% 3 0:23 0:999935 0:04% 0:63% 4 0:33 0:999716 0:12% 2:29% 5 0:57 0:999458 0:17% 3:11% 6 0:82 0:999987 0:02% 0:24% 7 1:07 0:999575 0:13% 3:29% 8 1:57 0:998732 0:21% 5:40% 9 2:07 0:999987 0:01% 0:08% 10 2:57 0:999659 0:09% 1:61% 11 3:56 0:999524 0:10% 1:37% 12 4:58 0:999771 0:06% 0:67% 13 5:58 0:999546 0:07% 0:64% 14 6:57 0:999726 0:05% 0:39% 15 7:57 0:999864 0:03% 0:26% 16 8:57 0:999920 0:02% 0:15% 17 9:56 0:999981 0:00% 0:01% Moyenne : 0:999712 0:07% 1:29% Le coe cient R 2 est quasiment égal à 1 pour chaque échéance traitée, ce qui traduit la qualité de la régression et con rme le choix du modèle. 241
Volatilité Implicite Maturité 1 = 0,08Y / Smile Quartic 70% 60% 50% 40% 30% 20% 10% 0,4 0,6 0,8 1 1,2 1,4 Moneyness Volatilité Implicite Maturité 2 = 0,15Y / Smile Quartic 55% 50% 45% 40% 35% 30% 25% 20% 15% 10% 0,4 0,6 0,8 1 1,2 1,4 Moneyness Volatilité Implicite Maturité 3 = 0,23Y / Smile Quartic 40% 35% 30% 25% 20% 15% 10% 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 Moneyness Volatilité Implicite Maturité 5 = 0,57Y / Smile Quartic 45% 40% 35% 30% 25% 20% 15% 10% 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 Moneyness Volatilité Implicite Maturité 7 = 1,07Y / Smile Quartic 50% 45% 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 Moneyness Volatilité Implicite Maturité 9 = 2,07Y / Smile Quartic 40% 35% 30% 25% 20% 15% 10% 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 Moneyness Volatilité Implicite Maturité 11 = 3,56Y / Smile Quartic 45% 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 2,5 3 Moneyness Volatilité Implicite Maturité 13 = 5,58Y / Smile Quartic 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 2,5 3 Moneyness Volatilité Implicite Maturité 15 = 7,57Y / Smile Quartic 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 2,5 3 Moneyness Volatilité Implicite Maturité 17 = 9,56Y / Smile Quartic 30% 28% 26% 24% 22% 20% 18% 16% 14% 12% 10% 0,4 0,6 0,8 1 1,2 1,4 Moneyness Fig. 4.6 Smiles de volatilité implicite obtenus pour 10 échéances cotées avec le modèle de variance quartique dé ni par (4.75) et (4.76). Echéances représentées : 1; 2; 3; 5; 7; 9; 11; 13; 15; 17. Courbe rouge : volatilités données par le modèle ; cercles noirs : volatilités observées. 242
Les écarts entre volatilités estimées et volatilités observées évoluent dans l intervalle [0:00%; 0:21%] et leur niveau moyen est voisin de 0:07%, ce qui correspond à une réduction de l erreur d approximation de l ordre de 23:71(' 1:66% 0:07% ) par rapport au modèle M76. Ce résultat très satisfaisant est complètement cohérent avec les conclusions de l examen de la gure 4.6. L écart le plus important (0:21%) est observé au niveau de la 8 ieme échéance, pour laquelle le coe cient R 2 est le plus "faible" (R 2 ' 0:998732). A titre de comparaison, les écarts ErrV (T i ) sont toujours supérieurs à 0:21% avec le modèle M76. Autrement dit, les erreurs de calibration avec le modèle de variance quartique sont toujours inférieures aux erreurs de calibration observées avec le modèle de M76. La réduction de l erreur d approximation sur les volatilités s accompagne d une réduction de la moyenne des écarts relatifs entre prix estimés et prix observés pour chaque maturité. Les écarts de prix relatifs sont compris entre 0:01% pour la dernière maturité et 5:40% pour la 8 ieme maturité. La moyenne des écarts de prix relatifs sur l ensemble des données ressort à 1:29%, soit une réduction de l erreur de l ordre de 4:84(' 6:24% 1:29% ) par rapport au modèle M76. Notons que le facteur de réduction de l erreur est moins important lorsque l on raisonne sur les prix d options, car ils dépendent de la volatilité implicite d une manière fortement non-linéaire. Conclusion L étude précédente établit la supériorité des modèles descriptifs du smile sur les modèles explicatifs, lorsqu il s agit de construire la surface de volatilité implicite. Les modèles explicatifs parviennent à saisir les caractéristiques principales de la dynamique des cours, mais ne permettent pas d intégrer les contraintes secondaires, ce qui explique que la forme de la surface de volatilité observée di ère de la forme théorique "parfaite" imposée par le modèle. Les modèles descriptifs du smile tentent de reproduire le plus dèlement possible les données observées, sans chercher à les expliquer. Dans ce cadre, le modèle de smile à quartique que nous avons proposé s avère particulièrement e cace pour lisser et interpoler les volatilités manquantes. Il s implémente facilement et il donne des résultats très satisfaisants, y compris lorsque l on travaille avec des volatilités très éloignées de la monnaie. Cette dernière modélisation présente toutefois deux désavantages : elle ne préserve pas des opportunités d arbitrage, elle ne permet pas d extrapoler correctement les volatilités en dehors de l intervalle des moneyness cotées pour une maturité donnée (voir gure 4.7). En ce qui concerne le premier point, au cours de notre expérience, nous avons observé que le modèle n introduit en général pas d arbitrage lorsque les données sont issues de marchés liquides et bien arbitrés. Le second point signi e que pour construire une surface de volatilité implicite complète, non-arbitrable et qui soit su samment lisse il faut envisager une autre approche que celles présentées jusqu ici. 243
40% 30% Volatilité Implicite 20% 10% 0% 0 0,5 1 1,5 2 2,5 3 Moneyness Fig. 4.7 Extrapolation du smile de volatilité associé à la dernière échéance cotée. Courbe rouge : modèle (4.75) ; pointillé bleu : extrapolation attendue ; cercles noirs : volatilités observées. 244
Dans la section suivante, nous proposons une méthodologie qui permet de construire la surface de volatilité en intégrant l ensemble des contraintes évoquées. 4.6 Construction d une surface de volatilité nonarbitrable Dans un premier temps, nous étudions une méthode paramétrique pour lisser et extrapoler au niveau des moneyness extrêmes le smile de la première maturité. Dans un second temps, nous mettons en oeuvre une méthode non-paramétrique pour reconstruire l ensemble de la surface de volatilité implicite. Dans un troisième temps, nous présentons un algorithme non-paramétrique qui permet d imposer les contraintes de non-arbitrage de la proposition (4.4). Dans un quatrième temps, les algorithmes sont appliqués au jeu de données utilisé dans ce chapitre (voir section 4.4) et nous comparons les résultats avec les méthodes proposées à la section précédente. 4.6.1 Le modèle de smile paramétrique SVI Les résultats du paragraphe 4.3.4 montrent que le smile de variance implicite est approximativement une fonction a ne de la log-moneyness au niveau des moneyness extrêmes. En analysant le comportement du smile engendré par le modèle à volatilité stochastique de Heston, Gatheral(2004, 2006) est parvenu à construire une fonction paramétrique du smile, appelée modèle SVI (Stochastic Volatility Inspired), qui intègre la contrainte de linéarité aux ailes. Nous présentons ce modèle ci-dessous et nous montrons comment l utiliser. Dé nition du modèle Dans le modèle SVI, la variance implicite ^ 2 (~; T ) est dé nie par la fonction suivante qui dépend de 5 paramètres : q ^ 2 (~; T ) = # T (~) def = a T + b T T (~ m T ) + (~ m T ) 2 + 2 T ; (4.77) où ~ représente la log-moneyness. Dans la suite, pour alléger les notations, nous ne ferons plus gurer la dépendance en T des paramètres du modèle. Linéarité aux ailes Le principal avantage du modèle SVI réside dans son comportement au niveau des strikes extrêmes. En e et, la fonction # T présente deux asymptotes linéaires # T (à gauche) et # + T (à droite) dont les équations sont les suivantes : # T (~) = b ( 1) (~ m); ~! 1; (4.78) # + T (~) = b ( + 1) (~ m); ~! +1: (4.79) 245
Cette propriété signi e que l on pourra utiliser le modèle SVI pour extrapoler les volatilités au niveau des ailes, car # T est approximativement linéaire lorsque ~! 1. Interprétation des paramètres Les paramètres de la fonction # T sont aisément interprétables et ils ont chacun une in uence bien précise sur la forme du smile obtenu. Une illustration du rôle de chaque paramètre est donnée à la gure 4.8. Les graphiques se lisent de gauche à droite. Chaque graphique illustre l in uence de l un des paramètres. La courbe rouge représente le smile de variance implicite pour les valeurs des paramètres suivants : a = 0:04, b = 0:4, = 0:4, m = 0, = 0:1. La courbe en pointillé vert représente le smile de variance obtenu en modi ant l un des paramètres concernés (a; b; ; m ou ) et en laissant les autres inchangés. a donne le niveau général de la variance implicite : une augmentation de a translate la courbe vers le haut, une diminution de a translate la courbe vers le bas ( gure 4.8, graphique en haut à gauche). b contrôle l angle entre les asymptotes gauche et droite : une augmentation de b réduit l angle entre les asymptotes, une diminution de b augmente l angle entre les asymptotes ( gure 4.8, graphique en haut à droite). contrôle l orientation générale du smile : augmenter fait pivoter la courbe vers la droite, diminuer fait pivoter la courbe vers la gauche ( gure 4.8, graphique du milieu à gauche). m contrôle la position horizontale de la courbe : augmenter m translate la courbe vers la droite, diminuer m translate la courbe vers la gauche ( gure 4.8, graphique du milieu à droite). contrôle la convexité du smile autour du minimum observé : plus est élevé, plus le raccordement entre les ailes est lisse ( gure 4.8, graphique du bas). A n de mieux appréhender le comportement du modèle, nous établissons des bornes pour les paramètres. Bornes pour les paramètres Bornes pour le paramètre Le paramètre est le plus simple à étudier. En e et, il apparaît par l intermédiaire de son carré dans la formule (4.77). Donc, changer en ne modi e pas la fonction # T. On peut donc supposer > 0 sans perte de généralité. Par ailleurs, l expérience montre que est presque toujours inférieur à 1, d où l on déduit : 0 < < 1: (4.80) Bornes pour le paramètre On note + et les pentes des asymptotes droite (~! +1) et gauche (~! 1). D après les formules (4.78) et (4.79) on a : + = b ( + 1) ; = b ( 1) : (4.81) 246
Influence de a (paramètre de niveau) Influence de b (angle entre les asymptotes) 0,6 1 0,8 Variance Implicite 0,4 0,2 a=0.04 a=0.12 Variance Implicite 0,6 0,4 b=0.4 b=1.2 0,2 0 0 1 0,5 0 0,5 1 1 0,5 0 0,5 1 Log Moneyness Log Moneyness Influence de ρ (rotation du graphe) Influence de m (translation du graphe) 0,6 0,6 Variance Implicite 0,4 0,2 ρ= 0.4 ρ= 0.8 Variance Implicite 0,4 0,2 m=0 m=0.25 0 0 1 0,5 0 0,5 1 1 0,5 0 0,5 1 Log Moneyness Log Moneyness Influence de λ (lissage du raccordement entre les asymptotes) 0,6 Variance Implicite 0,4 0,2 λ=0.1 λ=0.3 0 1 0,5 0 0,5 1 Log Moneyness Fig. 4.8 In uence des paramètres du modèle SVI. Courbe rouge : smile de référence correspondant aux paramètres a = 0:04, b = 0:4, = 0:4, m = 0, = 0:1. Courbe en pointillé vert : smile obtenu en modi ant la valeur de l un des paramètres, les autres restant xes. 247
Les deux asymptotes doivent avoir des pentes de signes opposés, i.e. + < 0. On en déduit : b 2 2 1 < 0 ) 2 ] 1; 1[ : (4.82) De plus, les smiles de variance implicite sur les "actions" sont en général asymétriques (on parle de smirk), ce qui signi e, en raisonnant en valeur absolue, que la pente de l asymptote gauche est plus importante que la pente de l asymptote droite. Cette condition s écrit : +, jbj (1 ) jbj (1 + ), 0: (4.83) En combinant les deux inégalités précédentes, on a : 1 < 0: (4.84) Bornes pour le paramètre b La pente de l asymptote gauche doit être négative. Avec (4.84), on en déduit que la seule possibilité est d avoir : b > 0: (4.85) Les formules (4.44) et (4.47) des théorèmes des moments impliquent j j < 2=T et j + j < 2=T. En combinant ces deux relations il vient : b < 2 1 T min 1 ; 1 : 1 + (4.86) Comme 1 < 0, on a min (1 ) 1 ; (1 + ) 1 = (1 ) 1. Donc b véri e l encadrement : 0 < b < 2 T (1 ) : (4.87) Les autres conditions sur les paramètres sont obtenues en étudiant le minimum de # T. Minimum de la variance implicite dans le modèle SVI On véri e que # T est deux fois dérivable par rapport à ~ et ses dérivées sont données par les formules : 0 1 # 0 ~ m T (~) = b @ + q A ; # 00 2 (~ m) 2 + 2 T (~) = b (~ m) 2 + 2 : (4.88) 3=2 Etant donné que b > 0, la fonction # 00 T est strictement positive. Cela implique que # 0 T est strictement croissante. Un simple calcul montre que : lim ~! 1 #0 T (~) = b ( 1) < 0; lim ~!+1 #0 T (~) = b ( + 1) > 0: (4.89) 248
Comme de plus # 0 T est continue, on en déduit que # T admet un unique minimum # T sur R. Soit ~ la valeur de la log-moneyness pour laquelle le minimum est atteint, alors # 0 T (~ ) = 0. Après calculs on obtient : ~ = m p 1 2 ; # T = a + b p 1 2 : (4.90) Bornes pour le paramètre m D une manière générale, les smiles de variance implicite sur les actions présentent un minimum qui est atteint à droite de la monnaie forward, donc ~ 0. On en déduit : m p 1 2 : (4.91) Par ailleurs, l expérience montre que l on a m < 1. En combinant les deux inégalités trouvées, on obtient l encadrement suivant pour m : p m < 1: (4.92) 1 2 Bornes sur le paramètre a Le paramètre a contrôle le niveau global pour la courbe. On pourrait penser qu il doit être du même signe que la variance, c està-dire positif. Cela n est pas le cas en général. Dans la pratique, on s aperçoit qu il est préférable de laisser le signe de a quelconque. Mais, on peut établir des bornes pour a. En e et, le minimum de # T doit être strictement positif (pour que la volatilité implicite soit bien dé nie) et inférieur à la variance à la monnaie ^ 2 ATM. Donc, 0 < # T ^ 2 ATM. Cet encadrement entraîne : b p 1 2 < a ^ 2 ATM b p 1 2 : (4.93) Nous avons obtenu les inégalités permettant de quanti er les paramètres, nous pouvons maintenant proposer une procédure de calibration. Calibration du modèle SVI La procédure d ajustement consiste à déterminer le vecteur des paramètres optimaux, noté (a ; b ; ; m ; ), qui minimise la distance quadratique entre les variances observées et la fonction paramétrique # T. Il s agit d un problème d optimisation non-linéaire que l on peut écrire sous la forme : ( X M (a ; b ; ; m ; ) = arg min # T ~ obs m m=1 ) (^ obs m;t ) 2 2 ; (4.94) où (a; b; ; m; ) 2 D, D étant le domaine dé ni par les encadrements (4.93), (4.87), (4.84), (4.92) et (4.80). 249
Détermination des coe cients optimaux Pour résoudre le problème (4.94), on peut utiliser l algorithme de Levenberg-Marquardt ou tout autre algorithme d optimisation non-linéaire tels que ceux proposés dans les logiciels de calcul numérique standards (Judd 1998). La principale di culté étant, avec ce type d algorithme, de choisir un point de départ pertinent, sinon le risque de convergence vers un minimum local est très élevé. Pour déterminer le point de départ de l algorithme de minimisation, on met en oeuvre un algorithme de localisation quasi-aléatoire 13. L idée est de balayer uniformément le domaine D avec une suite à discrépance faible pour obtenir un grand nombre de jeux de paramètres candidats. On calcule alors, pour chaque candidat, la distance quadratique entre la fonction et les points observés et l on choisit le jeu de paramètres pour lequel cette distance est minimale. Une façon e cace de procéder est de répéter cette optimisation plusieurs fois en réduisant à chaque itération la taille des intervalles autour des paramètres optimaux trouvés. Nous obtenons ainsi un jeu de paramètres qui est utilisé comme point de départ dans l algorithme des moindres carrés. En pratique, le modèle SVI se calibre facilement lorsque le minimum des variances implicites est observable. Il est donc bien adapté au lissage et à l extrapolation du smile sur les premières maturités. En e et, les smiles observés sur les maturités courtes présentent généralement un minimum observable, alors que ce n est pas le cas pour les smiles long-termes 14. Calibration sur la première maturité La gure 4.9 illustre le comportement du modèle SVI. Elle représente le smile de volatilité obtenu en calibrant la fonctionnelle (4.77) sur les données de la première maturité. Le graphique du haut montre de quelle manière le modèle capture la forme des données observées (lissage) et la gure du bas montre comment il permet d extrapoler les volatilités au niveau des ailes. La moyenne des écarts entre les volatilités observées et les volatilité données par le modèle est ErrV (T 1 ) ' 0:20%. Le résultat est donc légèrement moins précis que la régression quartique. Cela s explique par le fait que le modèle SVI est basé sur une fonction paramétrique, ce qui signi e qu il est moins " exible" qu un polynôme. Cependant, il permet d extrapoler les données de manière consistante (linéarité de la variance au niveau des ailes), ce que ne permet pas le modèle de smile polynomial. La méthode SVI nous a permis de lisser et d extrapoler le smile de volatilité implicite au niveau de la première maturité. Pour reconstituer la surface de volatilité complète, Gatheral (2006) propose d ajuster la fonctionnelle SVI sur les autres maturités cotées, puis d interpoler les di érents smiles obtenus. On 13 Pour une présentation approfondie des méthodes d optimisation quasi-aléatoire, on pourra consulter Niederreiter (1992). 14 Lorsque le minimum n est pas observable, on peut au préalable préparer les données en ajustant le modèle quartique (4.75) présenté dans la section précédente. 250
Maturité 1 = 0,08Y / Smile SVI (lissage) 50% 40% Volatilité Implicite 30% 20% IV obs SVI 10% 0% 0,7 0,8 0,9 1 1,1 1,2 1,3 Moneyness Maturité 1 = 0,08Y / Smile SVI (extrapolation) Volatilité Implicite 110% 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 0 0,5 1 1,5 2 2,5 3 Moneyness IV obs SVI Fig. 4.9 Calibration du modèle SVI sur les volatilités de la première échéance. Graphique du haut : détail sur le lissage des données observées. Graphique du bas : détail sur l extrapolation au niveau des ailes. 251
s aperçoit à l usage que cette approche ne donne pas des résultats satisfaisants. En e et, le modèle SVI permet de bien reconstituer le smile de volatilité correspondant à une maturité donnée, mais il n est pas assez exible pour capturer la déformation du smile d une maturité sur l autre, de sorte que l on introduit des arbitrages inter-maturités. Pour cette raison, nous proposons de construire le reste de la surface de volatilité par une méthode non-paramétrique que nous présentons ci-dessous. 4.6.2 Construction d une pré-surface de volatilité implicite par les Thin Plate Splines (TPS) Nous disposons d un smile complet pour la première maturité (obtenu avec le modèle SVI) et des volatilités implicites observées aux maturités suivantes. Notre objectif est de générer une surface de volatilité complète et régulière à partir de ces données ( gure 4.10, graphique du haut). La méthode utilisée doit permettre de "propager" le smile de la première maturité aux maturités suivantes en l atténuant progressivement (phénomène d évanouissement du smile), tout en préservant la propriété de linéarité au niveau des ailes. Nous pourrions envisager de réaliser une interpolation avec des splines bicubiques (Planchet et Winter 2007) mais, étant donné la con guration irrégulière des observations 15, il est préférable d utiliser les Thin Plate Splines, car ces splines sont spécialement conçus pour modéliser des données disposées de manière quelconque (Eberly 2002). Les Thin Plate Splines (TPS) ont été introduits par Duchon (1976) dans le but de traiter des problèmes soulevés par le reconstruction de surfaces ou de volumes incomplets. Les TPS sont fréquemment considérés comme la généralisation bidimensionnelle des splines cubiques naturels en dimension 1, car ils dé nissent la surface de courbure minimale qui interpole un ensemble de points bidimensionnels 16. Une manière commode d appréhender le comportement d un TPS est de considérer qu il s agit d une feuille métallique qui passerait par les points observés. Cela signi e en particulier que les TPS possèdent un e et de "mémoire" qui va nous permettre de propager le smile de la première maturité à toutes les autres maturités cotées de manière consistante. Nous donnons ci-dessous le schéma général de l interpolation TPS. Pour une présentation détaillée, on pourra consulter Wahba (1990). 15 Nous disposons de quelques volatilités observées par maturité et les moneyness associées à ces volatilités sont di érentes d une maturité à l autre. Pour procéder à une interpolation bicubique, il serait préférable que les données soient réparties sur une grille régulière. 16 Rappelons une particularité des splines cubiques naturels : le spline cubique naturel est la courbe de convexité minimale qui interpole un jeu de données en dimension 1. 252
Interpolation TPS (Thin Plate Splines) On note (x i ; y i ; z i ) i=1;:::;n le jeu de données que l on souhaite interpoler. Le principe de l interpolation TPS est de déterminer une fonction (x; y)! f(x; y) qui passe par les points observés, i.e. f(x i ; y i ) = z i, et dont l énergie est minimale. L énergie d une surface est dé nie par 17 : I f def = Z R 2 fxx 2 + 2fxy 2 + fyy 2 dxdy; (4.95) où f xx, f yy et f xy désignent les dérivées partielles secondes de f. On peut démontrer qu il existe une unique fonction solution du problème précédent et qu elle s écrit sous la forme : f(x; y) = nx a j (kx x j ; y y j k) + b 0 + b 1 x + b 2 y; (4.96) j=1 où est la fonction dé nie par (r) = r 2 ln(r 2 ) et kk désigne la norme euclidienne d un vecteur, i.e. ku; vk = p u 2 + v 2. La fonction est appelée fonction radiale. Détermination des coe cients Les coe cients a j et b j sont déterminés en imposant que la fonction passe par les points observés. Cette condition s écrit : z i = où l on a posé ij nx j=1 ija j + b 0 + b 1 x i + b 2 y i ; i = 1; : : : ; n; (4.97) def = (kx i x j ; y i y j k). Soit a = (a 1 ; : : : ; a n ) et b = (b 0 ; b 1 ; b 2 ) les vecteurs des coe cients cherchés (le symbole " " désigne l opérateur de transposition). En termes matriciels, l équation (4.97) devient : Aa + Bb = z; (4.98) où A def = [ ij] est une matrice carrée n n et B est la matrice n 3 dont les lignes sont [1; x i ; y i ]. Pour calculer les coe cients, il nous faut introduire une contrainte supplémentaire, car le système dé ni par (4.98) est sous-déterminé (nous avons n + 3 inconnues et seulement n équations). La contrainte manquante est donnée par la condition suivante (Duchon 1976) : B a = 0: (4.99) 17 La quantité (4.95) est appelée énergie de courbure de la surface (bending energy) par les physiciens. 253
On peut démontrer que la matrice A est inversible, ce qui nous permet d en déduire les vecteurs a et b : a = A 1 (z Bb) ; b = B A 1 B 1 B A 1 z: (4.100) La détermination des coe cients du TPS requiert la manipulation de matrices de taille importante. Dans l exemple traité ici, nous avons n ' 1000. Pour e ectuer des calculs précis et rapides avec des matrices aussi volumineuses, nous recommandons d utiliser un logiciel de calcul numérique tel que MATLAB 18 ou la suite IMSL 19. L interpolation par les TPS nous a permis de construire une surface de volatilité implicite complète ( gure 4.10, graphique du bas). Cependant, nous n avons introduit aucune contrainte de non-arbitrage au cours du processus de construction, ce qui signi e que la surface est susceptible de présenter des opportunités d arbitrage. Dans le paragraphe suivant, nous proposons une méthode pour éliminer ces arbitrages de manière systématique. 4.6.3 Lissage non-arbitrable des prix d options avec le modèle de Fengler (2005) L algorithme que nous présentons ici est dû à Fengler (2005b). Il consiste à lisser les prix normalisés avec des splines cubiques en introduisant les contraintes de la proposition 4.4. Il présente deux avantages. L estimation des splines se résume en une procédure d optimisation quadratique, dont la solution est unique. Les conditions d absence d opportunité d arbitrage se traduisent par des contraintes linéaires sur les coe cients que l on cherche à estimer. Le problème peut être résolu facilement avec la routine d optimisation quadratique sous contraintes linéaires d un package statistique standard (par exemple, la procédure quadprog en MATLAB). Les courbes obtenues sont, par construction, de classe C 2, de sorte que l on pourra déterminer la densité de probabilité du sous-jacent. Pour une étude approfondie des méthodes de lissage par splines cubiques contraints, on pourra consulter Turlach (1997). Dans un premier temps, nous présentons le problème de lissage des prix d options pour une même maturité sans contrainte d arbitrage. Ensuite nous montrons comment modi er l algorithme de lissage pour intégrer les contraintes de nonarbitrage en moneyness. En n, nous étendons les résultats pour tenir compte des contraintes d arbitrage intertemporel. Préparation des données Nous avons vu au paragraphe 4.3.3 que les contraintes de non-arbitrage sur les volatilités implicites sont fortement non-linéaires (proposition 4.5), tandis 18 http://www.mathworks.com/. 19 http://www.visualnumerics.com/. 254
Fig. 4.10 Lissage des volatilités implicites avec les TPS. Graphique du haut : données utilisées pour la calibration des TPS. (points bleus : volatilités observées ; ligne rouge : smile SVI). Graphique du bas : surface de volatilité implicite obtenue avec les TPS. 255
qu elles s expriment de manière simple lorsque l on raisonne sur les prix normalisés (proposition 4.4). Pour cette raison, nous décidons de travailler sur les prix d options normalisés. Soit [ min ; max ] l intervalle de moneyness sur lequel est dé nie la surface de volatilité obtenue avec les TPS. En pratique, on a min = 0:1 et max = 2:7. On divise cet intervalle en m sous-intervalles de longueur h def = ( max min )=m et l on pose : def i = min + (i 1)h; i = 1; : : : ; m: (4.101) On peut alors calculer les prix de calls normalisés sur une grille régulière ( gure 4.11, graphique du haut) : c i;j def = c BS ( i ; T j ; ^( i ; T j )); 1 i m; 1 j n; (4.102) où T 1 ; : : : ; T n sont les maturités des options cotées. Prix de calls normalisés calculés à partir de la surface de volatilité implicite obtenue avec l interpolation par les TPS. A n de simpli er les raisonnements, on ne fait pas apparaître l indice j lorsque l on s intéresse aux prix d options pour une seule maturité. Modélisation des prix à maturité xée Le principe du lissage par splines cubiques consiste à approcher les données observées (ici les prix normalisés) par une fonction de la forme suivante : g () = mx 1 i=1 où les g i sont des polynômes de degré 3 dé nis par : g i () 1 fi i+1g; (4.103) g i () = i ( i ) 3 + i ( i ) 2 + i ( i ) + i ; i i+1 : (4.104) A n de garantir un maximum de régularité à la fonction g, on impose les conditions de continuité de la fonction et de ses dérivées première et seconde à chaque noeud : où i = 1; : : : ; m 1. g i ( i+1 ) = g i+1 ( i+1 ) ; (4.105) gi 0 ( i+1 ) = gi+1 0 ( i+1 ) ; (4.106) gi 00 ( i+1 ) = gi+1 00 ( i+1 ) ; (4.107) Nous travaillons avec des splines cubiques naturels, donc la dérivée seconde de g est nulle aux extrémités de l intervalle de travail. Cela nous donne deux conditions supplémentaires : g 00 ( 1 ) = 0; (4.108) g 00 ( m ) = 0: (4.109) Cela garantit que la courbe présente une convexité minimale aux extrémités. 256
Représentation valeurs-dérivées secondes Selon Fengler (2005b), la représentation (4.104) n est pas la plus adéquate pour résoudre le problème que nous avons à traiter. C est pourquoi, il suggère d utiliser une autre formulation de la fonction spline, dans laquelle les coe cients ( i ; i ; i ; i ) sont exprimés def def en fonction de g i = g( i ), i = g 00 ( i ) avec 1 i m 1, qui sont respectivement la valeur du polynôme et la valeur de sa dérivée seconde au noeud i. Cette autre représentation du spline cubique est appelée représentation valeursdérivées secondes. En utilisant les relations (4.105) et (4.107), on démontre (voir Annexe C) que les coe cients du i ieme polynôme sont donnés par : i = i+1 i ; 6h i = i 2 ; i = g i+1 g i ( i+1 + 2 i )h ; i = g i : h 6 (4.110) Le spline cubique naturel g est donc complètement dé ni par les deux vecteurs suivants : g def = (g 1 ; : : : ; g m ) ; def = 2 ; : : : ; m 1 : (4.111) A n de faciliter la lecture des raisonnements, nous avons volontairement employé le symbole "g" pour désigner la fonction spline et le vecteur de coe cients g i. Les coe cients 1 et m n apparaissent pas dans la dé nition du vecteur car, d après (4.108) et (4.109), on a 1 = m = 0. Le spline est donc caractérisé par 2m 2 paramètres. Splines cubiques valides Pour déterminer la forme des coe cients des polynômes en fonction de g i et i, nous n avons utilisé que les conditions (4.105) et (4.107), qui imposent la continuité de la fonction et la continuité de sa dérivée seconde. En conséquence, les formules (4.110) dé nissent une fonction polynomiale par morceaux, continue, dont la dérivée seconde est continue. Mais rien ne garantit que cette fonction possède une dérivée première continue, car nous n avons pas utilisé la condition de continuité de la dérivée première (4.106). Autrement dit, la donnée de g, de et de (4.110) ne su t pas à dé nir un spline cubique naturel valide. En écrivant la condition de continuité de la dérivée première (4.106) on obtient la relation (voir démonstration en Annexe C) : où Q et R sont les matrices dé nies ci-dessous. Q g = R; (4.112) La matrice Q, de taille m (m 2), a pour terme général : Q j 1;j = 1 h ; Q j;j = 2 h ; Q j+1;j = 1 ; 2 j m 1; (4.113) h et Q i;j = 0 pour ji jj 2. 257
La matrice R, de taille (m 2)(m 2) est tridiagonale et a pour terme général : R i;i = 2h 3 ; R i;i+1 = R i+1;i = h ; 2 i m 1; (4.114) 6 et R i;j = 0 pour ji jj 2. Soulignons que les matrices Q et R ne sont pas indicées de manière standard, comme le vecteur. Ce choix facilite la présentation des raisonnements. Nous disposons à présent de tous les éléments pour présenter le problème du lissage de prix par un spline cubique naturel. Lissage simple des prix de calls normalisés Dans ce paragraphe, nous montrons que la détermination des coe cients du spline qui lisse les prix d options est un problème de minimisation quadratique. Lissage simple, sans contrainte d arbitrage Lisser les prix d options observés par un spline cubique naturel revient à déterminer les vecteurs g et, solutions du problème suivant : ( X m Z ) m (g ; ) = arg min (c i g( i )) 2 + (g 00 ()) 2 d ; (4.115) i=1 où est le coe cient de lissage que l on doit choisir pour équilibrer l erreur d approximation, représentée par la quantité P m i=1 (c i g( i )) 2 et la rugosité de la courbe, représentée par la quantité R m 1 (g 00 ()) 2 d. Lorsque! 0, le spline obtenu interpole les points observés. Lorsque! +1, le spline coïncide avec la droite de régression linéaire des prix de calls normalisés sur les moneyness. Formulation du problème sous forme matricielle Les résultats obtenus dans le paragraphe précédent permettent d exprimer le problème (4.115) sous forme matricielle. La forme matricielle de la rugosité d un spline cubique est donnée par la formule (voir Annexe C) : Z m 1 (g 00 ()) 2 d = R: (4.116) Considèrons les vecteurs de taille 2m 2 dé nis par : 1 x = (g ; ) ; y = (c 1 ; : : : ; c m ; 0; : : : ; 0) ; (4.117) et les matrices suivantes : A = Q R Im 0 ; B = 0 R ; (4.118) 258
où I m est la matrice identité d ordre m. En utilisant (4.116), (4.117) et (4.118), le problème de lissage (4.115) se réécrit : min x y x + 1 2 x Bx sous la contrainte A x = 0: (4.119) On peut montrer que B est une matrice dé nie positive, ce qui implique que (4.119) admet une unique solution. En résolvant le problème (4.119), on obtient un spline cubique naturel qui lisse les prix d options observés pour une maturité donnée, mais ceux-là peuvent présenter des opportunités d arbitrage en moneyness. Nous discutons ci-dessous la prise en compte des contraintes de non-arbitrage en moneyness. Elimination des arbitrages en moneyness On rappelle les contraintes d arbitrage en moneyness données au paragraphe 4.3.3 : les prix de calls sont bornés : (1 ) + g 1, les prix de calls sont décroissants par rapport à la moneyness et leur dérivée est bornée : 1 g 0 0, les prix de calls sont convexes : g 00 0. Tout d abord, nous explicitons la contrainte de convexité. Cela nous permet de dé nir facilement les contraintes portant sur la dérivée première des prix. En n, nous utilisons ces deux contraintes pour établir les contraintes sur les prix eux-mêmes. Convexité en moneyness Lorsque l on travaille avec les splines cubiques naturels, la convexité est une condition facile à imposer. En e et, il su t de remarquer que g 00 est une fonction linéaire par morceaux : g 00 () = 6 i ( i ) + 2 i ; i i+1 : (4.120) Par conséquent, g 00 est positive sur l intervalle [ i ; i+1 ] si et seulement si g 00 ( i ) 0 et g 00 ( i+1 ) 0. Autrement dit, on obtient la convexité de la fonction g en imposant : i 0; 2 i m 1: (4.121) On rappelle que 1 = m = 0, donc la fonction est bien convexe sur tout le segment [ 1 ; m ]. Décroissance par rapport à la moneyness Comme g 00 est positive, la dérivée première du spline est croissante. Donc, pour imposer la condition 1 g 0 0 sur tout l intervalle [ 1 ; m ], il su t d avoir g 0 ( 1 ) 1 et g 0 ( m ) 0: En dérivant (4.104) par rapport à on a : g 0 () = 3 i ( i ) 2 + i ( i ) + i ; i i+1 : (4.122) 259
En faisant i = m 1 dans la relation précédente, en remplaçant les coe cients m 1 ; m 1 et m 1 par leurs expressions valeurs-dérivées secondes et en utilisant le fait que m = 0, on obtient tous calculs faits : g 0 ( m ) = 3 m 1 h 2 + m 1 h + m 1 = m 1 6 On en déduit que la condition g 0 ( m ) 0 est équivalente à : h + g m g m 1 : (4.123) h g m g m 1 h2 6 m 1: (4.124) Par ailleurs, en faisant i = 1 dans (4.122) et en utilisant le fait que 1 = 0, il vient : g1 0 ( 1 ) = 1 = g 2 g 1 2 h: (4.125) h 6 On en déduit que la condition g 0 1 ( 1 ) 1 est équivalente à : g 2 g 1 h2 6 2 h: (4.126) Positivité des prix On a maintenant une fonction convexe et décroissante. Il reste à imposer les contraintes de niveau de manière à garantir que g véri e (1 ) + g 1. Nous imposons : 1 1 g 1 : (4.127) La convexité du spline su t à garantir qu il reste au-dessus de la droite d équation y = 1 x. Pour assurer la majoration du spline on impose : La décroissance du spline assure qu il reste inférieur à 1. Pour assurer la positivité, on impose : Le spline étant décroissant, il reste positif. g 1 1: (4.128) g m 0: (4.129) Résoudre le problème (4.119) sous les contraintes (4.121), (4.124), (4.126), (4.127), (4.128) et (4.129) permet d obtenir, pour xé, le spline optimal respectant les conditions de non-arbitrage en moneyness. Il reste alors à introduire les contraintes de non-arbitrage calendaires. C est l objet du paragraphe suivant. 260
Elimination des arbitrages calendaires Nous considérons à présent qu il y a plusieurs maturités T 1 T n. L absence d arbitrage calendaire impose que le prix des calls, à moneyness constante, soit une fonction croissante du temps : c ij c ij+1 ; j = 1; : : : ; m 1: Cette condition se traduit immédiatement en terme de spline par : g (j) g (j+1) ; où l on a noté g (j) le spline estimé à la maturité T j. On en déduit la méthode suivante pour éliminer les arbitrages calendaires. 1. A la maturité T n, estimer le spline solution de (4.119) sous les contraintes (4.121), (4.124), (4.126), (4.127), (4.128) et (4.129). 2. Pour chaque maturité T j, j = n 1; : : : ; 1, estimer le spline solution de (4.119) sous les contraintes (4.121), (4.124), (4.126), (4.127) et (4.129). La majoration (4.128) étant remplacée par : g (j) i g (j+1) i ; i = 1; : : : ; m: (4.130) La contrainte (4.130) revient à imposer que le spline de la maturité T j soit inférieur au spline de la maturité T j+1 pour toutes les moneyness. Le spline à la maturité T j se déduit par récurrence du spline à la maturité T j+1. Autrement dit, nous avons choisi un schéma d itération backward (l algorithme opère de la plus grande maturité vers la plus petite maturité). La raison de ce choix est que les prix court-termes ont une plus forte probabilité de présenter des arbitrages calendaires que les prix long-termes. En choisissant une itération forward (l algorithme opère de la plus petite maturité vers la plus grande maturité), on risque de propager ces arbitrages à toute la surface de prix. Pour conclure ce parapgraphe, nous présentons les résultats obtenus après mise en oeuvre des di érentes techniques qui viennent d être exposées. 4.6.4 Volatilités implicites obtenues en combinant les algorithmes étudiés Nous rappelons brièvement la démarche retenue. La construction de la surface de volatilité implicite se déroule en 3 étapes. 1. Lissage et extrapolation du smile de volatilité au niveau de la première maturité avec le modèle SVI de Gatheral (2004). Cette étape donne la forme globale du smile. 261
2. Interpolation des volatilités observées et extrapolation des volatilités manquantes au niveau des ailes avec des Thin Plate Splines qui "propagent" le smile SVI à l ensemble des maturités. 3. Elimination des arbitrages en moneyness et des arbitrages calendaires par un lissage sous contraintes des prix de calls normalisés obtenus à partir de la surface de volatilité précédente en utilisant l algorithme de Fengler (2005b). Etant donné que le procédé combine di érentes méthodes proposées dans la littérature, nous l appelons algorithme GSF pour Gatheral, Splines, Fengler. Cet acronyme rappelle les di érentes étapes de la construction de la surface de volatilité implicite. Le graphique inférieur de la gure 4.11 représente la surface de volatilité implicite obtenue en appliquant cet l algorithme aux données du 23/05/2008. En examinant le graphique, on observe que la surface construite est ajustée sur les points observés. Qualité de l ajustement Les smiles de volatilité implicite, obtenus avec l algorithme GSF sont présentés à la gure 4.12. L algorithme permet de reconstituer parfaitement les smiles observés pour toutes les maturités. Une simple comparaison avec les smiles obtenus avec le modèle quartique ( gure 4.6) ne permet pas de distinguer les deux approches. Nous analysons ci-dessous les écarts entre les volatilités et les prix d options donnés par l algorithme GSF et les volatilités et les prix d options observés. Quanti cation des erreurs de calibration Dans le tableau ci-dessous, nous fournissons pour chacune des 17 maturités cotées, la moyenne des écarts entre les volatilités implicites estimées et les volatilités observées (ErrV) ainsi que la moyenne des écarts relatifs entre les prix donnés par le modèle et les prix observés (ErrC). 262
Fig. 4.11 Suppression des arbitrages avec l algorithme de Fengler. Graphique du haut : prix de calls normalisés calculés à partir de la surface de volatilité implicite TPS. Graphique du bas : surface de volatilité implicite non-arbitrable obtenue après lissage des prix de calls (points bleus : volatilités observées). 263
Volatilité Implicite Maturité 1 = 0,08Y / Smile GSF 55% 50% 45% 40% 35% 30% 25% 20% 15% 10% 0,4 0,6 0,8 1 1,2 1,4 Moneyness Volatilité Implicite Maturité 2 = 0,15Y / Smile GSF 50% 45% 40% 35% 30% 25% 20% 15% 10% 0,4 0,6 0,8 1 1,2 1,4 Moneyness Volatilité Implicite Maturité 3 = 0,23Y / Smile GSF 40% 35% 30% 25% 20% 15% 10% 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 Moneyness Volatilité Implicite Maturité 5 = 0,57Y / Smile GSF 45% 40% 35% 30% 25% 20% 15% 10% 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 Moneyness Volatilité Implicite Maturité 7 = 1,07Y / Smile GSF 45% 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 Moneyness Volatilité Implicite Maturité 9 = 2,07Y / Smile GSF 35% 30% 25% 20% 15% 10% 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 Moneyness Volatilité Implicite Maturité 11 = 3,56Y / Smile GSF 45% 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 2,5 3 Moneyness Volatilité Implicite Maturité 13 = 5,58Y / Smile GSF 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 2,5 3 Moneyness Volatilité Implicite Maturité 15 = 7,57Y / Smile GSF 40% 35% 30% 25% 20% 15% 10% 0 0,5 1 1,5 2 2,5 3 Moneyness Volatilité Implicite Maturité 17 = 9,56Y / Smile GSF 30% 28% 26% 24% 22% 20% 18% 16% 14% 12% 10% 0,4 0,6 0,8 1 1,2 1,4 Moneyness Fig. 4.12 Smiles de volatilité implicite obtenus pour 10 échéances cotées avec l algorithme GSF. Echéances représentées : 1; 2; 3; 5; 7; 9; 11; 13; 15; 17. Courbe rouge : volatilités données par le modèle ; cercles noirs : volatilités observées. 264
i T i ErrV (T i ) ErrC (T i ) 1 0:08 0:20% 1:68% 2 0:15 0:09% 1:56% 3 0:23 0:03% 0:56% 4 0:33 0:04% 0:68% 5 0:57 0:05% 0:62% 6 0:82 0:02% 0:20% 7 1:07 0:02% 0:42% 8 1:57 0:02% 0:55% 9 2:07 0:01% 0:12% 10 2:57 0:01% 0:10% 11 3:56 0:01% 0:15% 12 4:58 0:01% 0:08% 13 5:58 0:01% 0:08% 14 6:57 0:01% 0:05% 15 7:57 0:01% 0:05% 16 8:57 0:01% 0:05% 17 9:56 0:00% 0:01% Moyenne : 0:03% 0:41% Les écarts entre volatilités estimées et volatilités observées évoluent dans l intervalle [0:00%; 0:20%] et leur niveau moyen est 0:03%, ce qui correspond à une réduction de l erreur d approximation de l ordre de 2:33(' 0:07% 0:03% ) par rapport au modèle à variance quartique et de l ordre de 55:33(' 1:66% 0:03% ) par rapport au modèle M76. Ce résultat très satisfaisant montre que le modèle capture avec une grande précision la forme des volatilités implicites observées. L écart le plus important (0:20%) est observé au niveau de la 1 ere échéance, pour laquelle nous avons utilisé le modèle de smile paramétrique SVI. Cet écart provient du fait qu à l instar de nombreux modèles paramétriques, le modèle SVI n est pas su samment exible pour reproduire la courbe observée. Il faut toutefois noter que l ordre de grandeur de l écart est tout à fait acceptable. Les écarts de prix relatifs sont compris entre 0:01%, pour la dernière maturité, et 1:68% pour la première maturité. La moyenne des écarts de prix relatifs sur l ensemble des données ressort à 0:41%, soit une réduction de l erreur de l ordre de 3:15(' 1:29% 0:41% ) par rapport au modèle à variance quartique et de l ordre de 15:22(' 6:24%: 0:41% ) par rapport au modèle M76. Le modèle GSF apporte donc une amélioration considérable de la qualité de l ajustement. Comme nous l avons déjà observé lors de l étude du modèle à variance quartique, le facteur de réduction de l erreur est plus faible lorsque l on raisonne sur les prix d options que lorsque l on raisonne sur les volatilités. La raison en est que les prix d options et les volatilités sont liés de manière fortement non-linéaire. L algorithme GSF permet donc de lisser les volatilités observées avec une grande précision. Si l on tient compte du fait qu il permet aussi d extrapoler les volatilités au niveau des moneyness extrêmes puis d éliminer les arbitrages, on en déduit qu il constitue une alternative extrêmement intéressante par rapport aux approches classiques envisagées dans la littérature. 265
4.7 Conclusion L objectif de ce chapitre a été de proposer une méthode permettant de construire une surface de volatilité implicite lisse et non-arbitrable. Dans la première section, nous avons montré que la connaissance de la surface de volatilité implicite est un enjeu stratégique pour les spécialistes des marchés de produits dérivés, car elle donne une information précieuse sur la dynamique du sous-jacent qui est anticipée par le marché. En particulier, elle permet de déterminer la densité risque-neutre de l actif et la surface de volatilité locale. Dans la seconde section, nous avons simpli é le problème de la modélisation de la surface de volatilité implicite en nous plaçant dans une économie normalisée où les taux d intérêt sont nuls et dans laquelle l actif risqué ne détache pas de dividende. Dans la troisième section, nous avons établi que l hypothèse d absence d opportunité d arbitrage impose des contraintes sur la forme de la surface des prix d options et sur la forme de la surface de volatilité implicite. Par ailleurs, nous avons énoncé un résultat important qui montre que le smile de volatilité implicite est une fonction approximativement linéaire de la log-moneyness au niveau des moneyness extrêmes. Dans la quatrième section, nous avons présenté les données de marché utilisées pour les tests de calibration e ectués dans le chapitre. Il s agit des cours de compensation des options Européennes OESX sur l indice DJ EuroStoxx 50, cotées sur l Eurex. Nous avons montré comment retraiter ces données pour éliminer les prix faux ou non-signi catifs. Un examen des données a con rmé que déterminer la surface de volatilité implicite est un problème "mal-posé", dans la mesure où l on cherche à construire une surface à partir d un jeu de prix d options incomplet, bruité et qui présente des opportunités d arbitrage. Dans la cinquième section, nous avons envisagé successivement deux approches fréquemment utilisées par les praticiens pour construire la surface de volatilité. La première consiste à calibrer un modèle de marché paramétrique qui explique l existence du smile de volatilité sur les prix observés. Les tests pratiqués avec le modèle de Merton (1976) ont démontré que ce type de modèle n était pas su samment exible pour capturer avec précision la con guration des volatilités cotées. La seconde approche ne cherche pas à expliquer l existence du smile, mais à le reproduire avec précision. Le principe est d ajuster une fonction polynomiale sur le smile observé à chaque maturité. Nous avons proposé puis testé un modèle dans lequel la variance implicite est un polynôme de degré 4 (variance quartique). Les résultats obtenus sont nettement meilleurs qu avec le modèle paramétrique. En revanche, le modèle ne permet pas d extrapoler linéairement les volatilités au niveau des ailes. Dans la sixième section, nous avons proposé une méthode nouvelle qui permet d obtenir une surface de volatilité complète, non-arbitrable et qui s ajuste sur les données observées avec une grande précision. Le procédé envisagé, appelé méthode GSF, combine trois méthodes de la littérature qui sont mises en oeuvre dans un certain ordre. La première étape consiste à construire un smile de volatilité complet au niveau de la première maturité avec le modèle paramétrique 266
SVI de Gatheral (2004). La seconde étape repose sur l utilisation des Thin Plate Splines pour générer une surface de volatilité complète à partir du smile SVI de la première maturité et des volatilités observées aux autres maturités. La dernière étape consiste à appliquer le lissage non-paramétrique de Fengler (2005b) qui permet de supprimer les opportunités d arbitrage et de lisser les prix d options. Les résultats obtenus sont particulièrement satisfaisants : l ajustement sur les données observées est plus précis qu avec les deux méthodes envisagées auparavant et l extrapolation des volatilités implicites au niveau des ailes est consistante avec ce que prédit la théorie. De surcroît, cette méthode est facile à mettre en oeuvre avec n importe quel logiciel de calcul numérique. 267
A Démonstrations du paragraphe 4.3 A.1 Démonstration de la proposition 4.1 Il su t de remarquer que : (M T ) + ( M T ) + = M T : (4.131) En appliquant l opérateur E Q [ jf t ] à chaque membre de (4.131) il vient : c t (; T ) p t (; T ) = E Q [M T jf t ] = M t : (4.132) A.2 Démonstration de la proposition 4.2 La fonction x! (x Jensen, il vient : ) + est convexe et positive. En appliquant l inégalité de 0 (1 ) + = (E Q [M T ] ) + E Q [(M T ) + ] = c(; T ): (4.133) Cela établit la borne inférieure de l encadrement. Par ailleurs, le payo nal d un call est toujours inférieur au cours du sous-jacent à l échéance : (M T ) + M T =) c(; T ) = E Q [(M T ) + ] E Q [M T ] = 1; (4.134) ce qui achève la démonstration. A.3 Démonstration de la proposition 4.3 Considérons la fonction c BS comme une fonction de uniquement ^ ( et T sont xés). En dérivant par rapport à ^ l expression (4.27) on obtient le véga du call : @c BS @^ = p T ' D + > 0; (4.135) où ' est la densité de la loi normale standard. De plus, on a : lim c = (1!0 + BS )+ ; lim c = 1: (4.136) BS!+1 On déduit de (4.135) et (4.136) que c BS est bijective de R + dans l intervalle ] (1 ) + ; 1[. Donc l équation (4.34) admet une solution unique si et seulement si c(; T ) 2] (1 ) + ; 1[, ce qui est toujours le cas en AOA (d après la proposition 4.2). A.4 Démonstration de la proposition 4.4 Démonstration des points 1 et 2 (arbitrage en moneyness) Soit h T la densité de probabilité de M T dé nie par (4.37). Alors le prix du call Européen 268
de moneyness et d échéance T est donné par la formule : c(; T ) = E Q [(M T Z ) + ] = (x R + ) + h T (x) dx = Z +1 xh T (x) dx En dérivant (4.137) par rapport à il vient : Or, @c @ = Z +1 Avec (4.138) on établit (4.35) : Z +1 h T (x) dx: (4.137) h T (x) dx = Q fm T g : (4.138) 0 Q fm T g 1: En dérivant (4.138) par rapport à, on obtient (4.36) : 1 @c 0: (4.139) @ @ 2 c @ 2 = h T () 0: (4.140) Démonstration du point 3 (arbitrage calendaire) F t -martingale sous Q on peut écrire : Comme M t est une M T1 = E Q [M T2 jf T1 ]; (4.141) puis ) + est convexe alors, d après l inégalité de Jensen condi- La fonction x! (x tionnelle, on a : (M T1 ) + = (E Q [M T2 jf T1 ] ) + : (4.142) (E Q [M T2 jf T1 ] ) + E Q [(M T2 ) + jf T1 ]: (4.143) En injectant (4.143) dans (4.142), il vient : (M T1 ) + E Q [(M T2 ) + jf T1 ]: (4.144) En appliquant l opérateur E Q [] aux deux membres de l inégalité précédente et en utilisant le théorème des espérances itérées, on obtient : c(; T 1 ) = E Q [(M T1 ) + ] E Q [E Q [(M T2 ) + jf T1 ]] = E Q [(M T2 ) + ] = c(; T 2 ): (4.145) 269
A.5 Démonstration de la proposition 4.5 Résultats préliminaires La dérivée par rapport à la moneyness (encore appelée dual-delta) et le véga de c BS sont donnés par les formules : @c BS @ @c BS @ = D ; (4.146) = p T ' D + : (4.147) Les quantités ' (D + ) et ' (D ) sont liées par la relation : ' D + = ' D : (4.148) Les dérivées partielles de D + et D par rapport à sont égales : @D + @ = @D @ = 1 p T : (4.149) Les dérivées partielles de D + et D par rapport à véri ent : @D + @ @D @ = = ln 2p T + 1 p D T = 2 (4.150) ln 1p D + T = 2p T 2 : (4.151) Démonstration du point 1 En admettant la dépendance explicite de la volatilité par rapport à la moneyness et en utilisant la règle de la di érenciation en chaîne, on a : @c @ = @c BS @ + @c @^ BS @^ @ = Avec (4.148), la formule précédente devient : @c @ = D + p T ' D + @^ @ : (4.152) D + p T ' D @^ @ : (4.153) D après la formule (4.35), on a @c=@ 0 d où l on déduit : ce qui établit la borne supérieure de l inégalité. @^ @ (D ) p T ' (D ) ; (4.154) Pour établir la borne inférieure, nous utiliserons le lemme suivant. Lemme 4.8 A maturité xée, la fonction! p (; T ) = est strictement croissante par rapport à la moneyness. 270
Proof. Il su t d écrire : p (; T ) = 1 E Q[( M T ) + ] = 1 Z ( x) + h T (x) dx R Z + Z 1 = h T (x) dx xh T (x) dx: 0 En dérivant cette égalité membre à membre on obtient tous calculs faits : @p= @ = 1 2 Z 0 0 xh T (x) dx 0: Nous pouvons procéder à la démonstration. En utilisant la relation de parité call-put, on peut écrire : En dérivant membre à membre, il vient : p = c + 1 =) p = c + 1 1 : (4.155) @p= @ = c 2 + 1 D après le lemme précédent, on a @p= @ @c @ + 1 2 : (4.156) 0 ; (4.156) conduit à l inégalité : On remarque que : @c c 1: (4.157) @ c 1 = D + 1 D = D + D (4.158) En utilisant (4.152) on obtient : @c @ = D + p T ' D + @^ @ ; (4.159) En injectant (4.158) et (4.159) dans (4.157) on observe que les termes en (D ) se simpli ent et l on trouve : p T ' D + @^ @ D+ () @^ @ ( D+ ) p T ' (D + ) ; (4.160) ce qui établit la borne inférieure de l inégalité annoncée. 271
Démonstration du point 2 Appliquons la règle de di érentiation en chaîne à (4.153) : @ 2 c @ 2 = A + p T B; (4.161) avec A def = @D @^ ^0 + @D @ @D + B def = ^ 00 ' D + + ^ 0 ' D ; (4.162) @^ ^0 + @D+ @ ' 0 D + ; (4.163) où l on a posé ^ 0 def = @^ @ ; ^00 def = @2^ @ 2 : Détermination de A. Avec (4.149) et (4.151), l égalité (4.162) devient : A = En combinant (4.148) et (4.147) on a : 1 ^ p T + D+^ 0 ' D : (4.164) ^ ' D = ' (D+ ) = 1 p @c BS T @ : (4.165) En injectant (4.165) dans (4.164), on trouve tous calculs faits : A = 1 2^T + D+^ 0 ^ p @cbs T @ : (4.166) Détermination de B. Avec (4.149) et (4.150), l égalité (4.163) s écrit : B = ^ 00 ' D + D^ Or ' 0 (x) = x' (x), d où l on déduit : B = ^ 00 + D D+ ^ En remplaçant ' (D + ) par 1 p T @c BS @ ^ 0 ^ 0 2 ^ 0 + p ' 0 D + : (4.167) T 2 D +^ 0 + p T dans (4.168), on trouve : ' D + : (4.168) B = ^ 00 + D D+ ^ ^ 0 2 D +^ 0 + p T 1 p T @c BS @ : (4.169) 272
Simpli cation de (4.161) En injectant (4.166) et (4.169) dans (4.161) il vient : @ 2 c @ 2 = @c BS 1 @ 2^T + D+^ 0 ^ p T + ^00 + D D+ ^ 0 2 D +^ 0 + ^ p : T En simpli ant et en regroupant les termes, on obtient : @ 2 c @ 2 = @c BS 1 2D+ + @ 2^T ^ p T ^0 + D D+ ^ 0 2 + ^ 00 : (4.170) ^ Il ne reste qu à rappeler que @c BS @ nécessairement : 0 et @2 c @ 2 1 2 T ^ + 2D+ ^ p T ^0 + D D+ ^ 0 pour conclure que l on a ^ 0 2 + ^ 00 0: (4.171) Démonstration du point 3 Soit la fonction dé nie sur R + par : (x) = ln p x + p x 2 ln p x p x 2 : (4.172) On véri e sans di culté que est strictement croissante de R +! ]0; 1[ et que : c (; T ) = c BS (; T; ^ (; T )) = ^ 2 (; T ) ; (4.173) où ^ 2 (; T ) = ^ 2 (; T ) T désigne la variance totale. Soient T 1 et T 2 deux dates telles que T 1 T 2. Supposons ^ 2 (; T 1 ) > ^ 2 (; T 2 ). Alors, comme est une fonction strictement croissante on a : ^ 2 (; T 1 ) > ^ 2 (; T 2 ) =) c (; T 1 ) > c (; T 2 ) ; (4.174) ce qui contredit l hypothèse d absence d opportunité d arbitrage calendaire sur les prix de calls. Donc, la seule possibilité est d avoir ^ 2 (; T 1 ) ^ 2 (; T 2 ). B Prix normalisé d un call dans le modèle de Merton En utilisant le théorème des espérances itérées on peut écrire : c M76 (; T ) = E[(M T ) + ] = E[E[(M T ) + jn T = n]]; (4.175) où E [] est l opérateur espérance sous Q et E [ jn T = n] est l opérateur espérance sous la mesure conditionnelle Q f jn T = ng. 273
Conditionnellement à l évènement fn T = ng, on a : ln M T = 2 2 T + W T T + nx ln Y i : (4.176) i=1 Comme les variables W T et ln Y i sont gaussiennes, on en déduit que ln M T suit une loi gaussienne de paramètres : def n = E [ln M T jn T = n] ; 2 def n = Var [ln M T jn T = n] : En utilisant le fait que les variables considérées sont mutuellement indépendantes, on obtient tous calculs faits : n = n" ( + 2 )T; (4.177) 2 2 n = 2 T + 2 n: (4.178) On peut alors exprimer M T en fonction des paramètres n et n : où G N (0; 1) sous la mesure Q f jn T = ng. M T = exp( n + n G); (4.179) Soit F n def = E [M T jn T = n]. En utilisant la relation (4.179), on a immédiatement : F n = exp( n + 2 n=2) = exp( " + 2 =2 n T ) = (1 + ) n exp ( T ) : (4.180) En injectant la formule (4.180) dans (4.179), on en déduit : M T = F n M n;t ; M n;t def = exp( 2 n=2 + n G): (4.181) Posons : En faisant intervenir n dans (4.181) il vient : n def = n p T = 2 + 2 n T : (4.182) M n;t = exp( 2 nt=2 + n p T G): (4.183) En remarquant que p T G Z T, où Z T est la valeur en T d un mouvement Brownien standard (Z t ) t0 sous la probabilité conditionnelle Q f jn T = ng on peut écrire : M n;t = exp( 2 nt=2 + n Z T ): (4.184) 274
La formule (4.184) montre que M n;t peut être considéré comme la partie martingale d une di usion lognormale Black-Scholes sous la mesure risque-neutre conditionnelle Q f jn T = ng, dont la volatilité serait n. Par ailleurs, F n s interprète comme le prix forward de l actif M. En utilisant cette analogie, on peut écrire : E[(M T ) + jn T = n] = E[(F n M n;t ) + ] = F n E[(M n;t =F n ) + ] = F n c BS ( n ; T; n ) ; (4.185) def où n = =F n est la moneyness forward du call de strike et c BS ( n ; T; n ) = D n + n D n ; (4.186) Dn ln n = p 1 n T 2 p n T : (4.187) En injectant (4.185) dans (4.175) il vient : c M76 (; T ) = = +1X n=0 +1X n=0 La formule (4.180) nous permet d écrire : e Q fn T = ng E[(M T ) + jn T = n] e T (T )n F n = e n! T (T )n F n c n! BS ( n ; T; n ) : (4.188) T (T )n n! (1 + ) n exp ( T ) (1+)T ( (1 + ) T )n = e n! T = e T n ; (4.189) n! où l on a posé def = (1 + ). En injectant (4.189) dans (4.188) on obtient la formule annoncée : c M76 (; T ) = +1X T e n=0 T n c n! BS ( n ; T; n ) : (4.190) C Démonstrations du paragraphe 4.6.3 C.1 Coe cients valeurs-dérivées secondes On pose g i = g( i ) et i = g 00 ( i ) pour i = 1; : : : ; m. La dérivée seconde du spline sur l intervalle [ i ; i+1 ] est donnée par : g 00 () = 6 i ( i ) + 2 i : (4.191) 275
En faisant = i, il vient : i = i =2: (4.192) En utilisant la relation de continuité de la dérivée seconde (4.107) au noeud i+1, il vient : i+1 = 6 i h + i, i = i+1 : (4.193) 6h Par ailleurs, en faisant = i dans la dé nition de g i on a immédiatement : i i = g i : (4.194) En n, en écrivant la condition de continuité de g (4.105) au noeud i+1, on obtient : On en déduit : i = g i+1 h ce qui achève la démonstration. g i+1 = i h 3 + i h 2 + i h + i C.2 Spline cubique valide = i+1 i h 3 + i 6h 2 h + ih + g i = i+1 + 2 i h 2 + 6 i h + g i : g i i+1 + 2 i h; (4.195) 6 Ecrivons la condition de continuité de la dérivée première du spline au noeud i, i = 2; : : : ; m 1 : 3 i 1 h 2 + 2 i 1 h + i 1 = i : (4.196) En remplaçant les coe cients par leurs valeurs-dérivées secondes, on obtient tous calculs faits : 1 h g i 1 On pose Q la matrice de terme général : 2 h g i + 1 h g i+1 = h 6 i 1 + 2h 3 i + h 6 i+1: (4.197) Q j 1;j = 1 h ; Q j;j = 2 h ; Q j+1;j = 1 ; 2 j m 1; (4.198) h et Q i;j = 0 sinon. Par construction, la matrice Q est de taille m (m 2). Le premier membre de l égalité (4.197) s écrit : 1 h g i 1 2 h g i + 1 h g i+1 = Q i 1;i g i 1 + Q i;i g i + Q i+1;i g i+1 mx mx = Q j;i g j = (Q ) i;j g j j=1 j=1 = (Q g) i : (4.199) 276
On pose R la matrice tridiagonale de terme général : R i;i = 2h 3 ; R i;i+1 = R i+1;i = h ; 2 i m 1; (4.200) 6 et R i;j = 0 sinon. Alors, le second membre de l égalité (4.197) s écrit : h 6 i 1 + 2h 3 i + h m 6 X1 i+1 = R i;j j = (R) i : (4.201) En injectant (4.199) et (4.201) dans (4.197) on obtient : Q g = R. j=2 C.3 Expression matricielle de la rugosité En élevant les deux membres de (4.191) au carré, il vient : (g 00 ()) 2 = 36 2 i ( i ) 2 + 24 i i ( i ) + 4 2 i ; i i+1 (4.202) Intégrons membre à membre la relation (4.202) entre i et i+1 : Z i+1 i (g 00 ()) 2 d = 12 2 i h 3 + 12 i i h 2 + 4 2 i h: (4.203) où h = i+1 i. En remplaçant i et i par les formules (4.110), on obtient tous calculs faits : Z i+1 i (g 00 ()) 2 d = h 3 2 i+1 + h 3 2 i + h 3 i i+1 : (4.204) Alors, la rugosité du spline cubique est donnée par : Z m 1 (g 00 ()) 2 d = mx 1 = 2h 3 Z i+1 i=1 i mx 1 i=2 (g 00 ()) 2 d 2 i + h 3 mx 2 i=2 i i+1 : (4.205) 277
Par ailleurs, en utilisant la dé nition de la matrice R on a : R = mx 1 i=2 i (R) i 2h = 2 3 2 + h m 6 X2 h 3 + i 6 i 1 + 2h 3 i + h 6 i+1 i=3 + m 1 h 6 m 2 + 2h 3 m 1 = 2h 3 2 2 + h 6 2 3 + h 6 + h 6 = 2h 3 mx 2 i=3 mx 1 i=2 mx 3 i=2 i i+1 + 2h 3 mx 2 i=3 i i+1 + h 6 m 1 m 2 + 2h 3 2 m 1 2 i + h 3 mx 2 i=2 i i+1 : (4.206) Il ne reste qu à comparer les égalités (4.205) et (4.206) pour conclure : Z m 1 (g 00 ()) 2 d = R: (4.207) 2 i 278
Références Aboura S. (2005). Les Modèles de volatilité et d options, Publibook. Alentorn A. (2004). Modelling the implied volatility surface : an empirical study for FTSE options, Working Paper, Centre of Computational Finance and Economic Agents, University of Essex, http://privatewww.essex.ac.uk/ ~aalent/. Andersen L., Brotherton-Ratcli e R. (1997). The equity option volatility smile : an implicit nite-di erence approach, Journal of Computational Finance, Vol. 1, No. 2, pp. 5-38. Argou P. (2006). Construction de Surfaces de Volatilité pour l Evaluation de Produits Structurés Complexes et Introduction aux Nouveaux Instruments Dérivés de Volatilité, Mémoire de DEA, Institut de Science Financière et d Assurances, Université Claude Bernard Lyon 1. Augros J.-C., Moreno M. (2002). Les Dérivés Financiers et d Assurance, Economica. Bates D.S. (1996). Jumps and Stochastic Volatility : Exchange Rate Process Implicit in Deutsche Mark Option, Review of Financial Studies, Vol.9, No. 1, pp. 69-107. Bates D.S. (2000). Post- 87 crash fears in the S&P500 futures option market, Journal of Econometrics, Vol. 94, pp. 181-238. Bakshi G., Cao C., Chen Z. (1997). Empirical Performance of Alternative Option Pricing Models, Journal of Finance, Vol. 52, pp. 2003-2049. Benko M. (2006). Functional Data Analysis with Applications in Finance, Ph.D. Thesis, Humboldt-Universität, Berlin. Björk T. (2004). Arbitrage Theory in Continuous Time, Second Edition, Oxford University Press. Black F., Scholes M. (1973). The Pricing of Options And Corporate Liabilities, Journal of Political Economy, Vol. 81, pp. 36-72. Breeden D.T., Litzenberger R.H. (1978). Price of contingent claims implicit in options prices, Journal of Business, Vol. 51, pp. 621-651. Brown G., Randall C. (1999). If the skew ts, Risk Magazine, Vol. 12, pp. 62-65. Buehler H. (2006). Expensive Martingales, Quantitative Finance, Vol. 6, No. 2, pp. 207-218. Carr P., Madan D.P. (2005). A note on su cient conditions for no arbitrage, Finance Research Letters, Vol. 2, No. 3, pp. 125-130. Coleman T.F., Li Y., Verma A. (1999). Reconstructing The Unknown Local Volatility Function, Journal of Computational Finance, Vol. 2, No. 3, pp. 77-102. Corrado C.J., Su T. (1998). An Empirical Test of Hull-White Option Pricing Model, Journal of Futures Markets, Vol. 4, pp. 363-378. Cox J.C., Ross S.A. (1976). The valuation of options for alternative stochastic processes, Journal of Financial Economics, Vol. 3, Issues 1-2, pp. 145-166. Cox J.C. (1996). The constant elasticity of variance option pricing model, Journal of Portfolio Management, pp. 15-17. 279
Crozet M. (2007). Reconstruction de nappes de volatilité implicite, Mémoire d Actuariat, Université Paris Dauphine. Daglish T., Hull J.C., Suo W. (2007). Volatility Surfaces : Theory, Rules of Thumb, and Empirical Evidence, Quantitative Finance, Vol. 7, No. 5, pp. 507-524. Demeter K., Derman E., Kamal M., Zou J. (1999). More Than You Ever Wanted To Know About Volatility Swaps, Quantitative Strategies Research Notes, Goldman Sachs. Derman E., Kani I. (1994a). The Volatility Smile and Its Implied Tree, Quantitative Strategies Research Notes, Goldman Sachs. Derman E., Kani I. (1994b). Riding On a Smile, Risk Magazine, Vol. 7, pp. 32-39. Duchon J. (1976). Splines Mimizing Rotation-Invariant Semi-Norms In Sobolev Spaces, Constructive Theory of Functions of Several Variables, Vol. 1, pp. 85-100. Dumas B., Fleming J., Whaley R.E. (1998). Implied volatility functions : empirical tests, Journal of Finance, Vol. 53, No. 6, pp. 2059-2106. Dupire B. (1994). Pricing with a smile, Risk Magazine, Vol. 7, pp. 18-20. Eberly D. (2002). Thin Plate Splines, Technical Paper, Geometric Tools, Inc., http://www.geometrictools.com. Fengler M.R. (2005a). Semiparametric Modeling of Implied Volatility, Springer- Verlag. Fengler M.R. (2005b). Arbitrage-Free Smoothing of the Implied Volatility Surface, SFB 649 Discussion Paper 2005-019, Humboldt-Universität, Berlin. Gatheral J. (2004). A parsimonious arbitrage-free implied volatility parameterisation with application to the valuation of volatility derivatives. In TDTF Derivatives Day, Amsterdam. Gatheral J. (2006). The Volatility Surface : A Practitioner s Guide, Wiley Finance. Hafner R., Wallmeier M. (2001). The Dynamics of DAX Implied Volatilities, International Quarterly Journal of Finance, Vol. 1, No. 1, pp. 1-27. Harrison J., Kreps D. (1979). Martingales and arbitrage in multiperiod securities markets, Journal of Economic Theory, Vol. 20, pp. 381-408. Harrison J., Pliska S. (1981). Martingales and stochastic integral in the theory of continuous trading, Stochastic Processes and their Applications, Vol. 11, pp. 215-260. Hentschel L. (2003). Errors in Implied Volatility Estimation, Journal of Financial and Quantitative Analysis, Vol. 38, Issue 4, pp. 779-810. Heston S. (1993). A Closed-Form Solution for Options with Stochastic Volatility with Applications to Bond and Currency Options, The Review of Financial Studies, Vol. 6, No. 2, pp. 327-343. Hofstetter E., Selby M.J.P. (2001). The Logistic Function and Implied Volatility : Quadratic Approximation and Beyond, Working Paper, Warwick Business School, University of Warwick, United Kingdom. Hull J., White A. (1987). The Pricing of Options on Assets with Stochastic Volatilities, The Journal of Finance, Vol. 42, pp. 281-300. 280
Jäckel P. (2006). By Implication, Working Paper, http://www.jaeckel.org/ ByImplication.pdf. Judd K.L. (1998). Numerical Methods in Economics, The MIT Press. Kermiche L. (2007). Une modélisation de la surface de volatilité implicite par processus à sauts, Communication, AFFI 2007. Kou S. (2002). A jump di usion model for option pricing, Management Science, Vol. 48, pp. 1086-1101. Laurent J.-P., Leisen D. (1998). Building a Consistent Pricing Model from Observed Option Prices, Stanford University, Hoover Institution, Discussion Paper No. B-443. Laurini M.P. (2007). Imposing No-Arbitrage Conditions In Implied Volatility Surfaces Using Constrained Smoothing Splines, Ibmec Working Paper, wpe_87, Ibmec São Paulo. Lee R.W. (2004). The Moment Formula for Implied Volatility at Extreme Strikes, Mathematical Finance, Vol. 14, No. 3, pp. 469-480. Lee R.W. (2005). Implied Volatility : Statics, Dynamics, and Probabilistic Interpretation, Recent Advances in Applied Probability (R. Baeza-Yates, J. Glaz, H. H. Gzyl, J. Hüsler, J.L. Palacios Eds.), Springer, pp. 241-268. Lempereur P. (2004). Pricing et couverture dans un modèle de Bates, Mémoire d Actuariat, Ecole Nationale de la Statistique et de l Administration Economique. Lewis A. (2000). Option Valuation under stochastic Volatility (With Mathematica Code), Finance Press, Newport Beach, Califormia, USA. Matsuda K. (2004). Introduction to Merton Jump Di usion Model, Working Paper, Department of Economics, The Graduate Center, New York, http:// www.maxmatsuda.com/. McIntyre M.L. (2001). Performance of Dupire s implied di usion approach under sparse and incomplete data, Journal of Computational Finance, Vol 4., No. 4, pp. 33-84. Merton R.C. (1973). Theory of Rational Option Pricing, Bell Journal Of Economics and Management Science, Vol. 4, pp. 141-183. Merton R.C. (1976). Option pricing when underlying stock returns are discontinuous, Journal of Financial Economics, Vol. 3, pp. 125-144. Niederreiter H. (1992). Random Number Generation and Quasi-Monte Carlo Methods, SIAM-CBMS Lecture Notes 63. Overhaus M., Bermúdez A., Buehler H., Ferraris A., Jordinson C., Lamnouar A. (2007). Equity hybrid derivatives, Wiley Finance. Patard P.-A. (2003). Modélisation des Dividendes sur Actions et Indices, Mémoire de DEA, Institut de Science Financière et d Assurances, Université Claude Bernard Lyon 1. Planchet F., Winter J. (2007). L utilisation des splines bidimensionnels pour l estimation de lois de maintien en arrêt de travail, Bulletin Français d Actuariat, Vol. 7, No. 13, pp. 83-106. Randjiou Y. (2002). Jump Di usion Processes Applied to Exotics Pricing and the Market Model, Présentation, Séminaire Bachelier, Global Quantitative Research, Deutsche Bank Global Equities. 281
Rebonato R. (2004). Volatility and Correlation : The Perfect Hedger and the Fox, Second edition, Wiley Finance. Rogers L.C.G., Tehranchi M.R. (2008). The Implied Volatility Surface Does Not Move By Parallel Shifts, Working Paper, University Of Cambridge, http: //www.statlab.cam.ac.uk/~mike/implied-vol.pdf. Rubinstein M. (1994). Implied binomial trees, The Journal of Finance, Vol. 49, pp. 771-818. Samuelson P. (1965). Rational theory of warrant pricing, Industrial Management Review, Vol. 6, pp. 13-31. Scott L.O. (1987). Option Pricing when the Variance Changes Randomly : Theory, Estimation, and an Application, The Journal of Financial and Quantitative Analysis, Vol. 22, No. 4, pp. 419-438. Sepp A. (2002). Pricing Barrier Options under Local Volatility, PrePrint, http://math.ut.ee/~spartak/papers/locvols.pdf. Sy A.S. (2003). La volatilité stochastiques des marchés nanciers : une application aux modèles d évaluation d instruments en temps continu, Thèse de doctorat, Université d Aix-Marseille. Turlach B.A. (1997). Constrained Smoothing Splines Revisited, Technical Report, Australian National University, Canberra. Wahba G. (1990). Spline Functions for Observational Data, CBMS-NSF Regional Conference series, SIAM, Philadelphia. Weizmann A. (2007). Construction Of the Implied Volatility Smile, Thesis, Goethe University, Frankfurt am Main. Zhang J.E., Xiang Y. (2008). Implied Volatility Smirk, Quantitative Finance, Vol. 8, No. 3, pp. 263-284. Zhu Z., Hanson F.B. (2005). Risk-neutral option pricing for log-uniform jumpamplitude jump-di usion model, Working Paper, University of Illinois, Chicago. 282
Chapitre 5 Evaluation d un call Européen en présence de dividendes discrets. 5.1 Introduction Les actions procurent deux types de revenus à leurs détenteurs : la plus-value, matérialisée par la di érence positive entre l achat et la vente de titres, et le dividende qui représente la part des béné ces (ou des réserves) de l entreprise versée avec une certaine fréquence (trimestrielle, semestrielle, annuelle ou irrégulière) aux actionnaires. Le dividende est un moyen pour une société de rémunérer et de déliser les investisseurs qui ont pris le risque de participer au capital sur le long terme. Lors de la distribution d un dividende, le cours de bourse de l action chute d un montant égal au dividende unitaire mis en paiement par la société, et l actionnaire est crédité de ce même montant. En conséquence, le versement d un dividende ne modi e pas la richesse globale de l actionnaire. En revanche, le prix d une option sur action est modi é par les versements de dividendes au cours de la vie du produit, car son payo nal ne dépend que de l évolution (ou du niveau) du cours de bourse. Il est donc nécessaire de tenir compte des dividendes dans les modèles de marché utilisés pour évaluer les produits dérivés écrits sur des actions ou des indices boursiers. Dans la littérature académique, la question des dividendes est généralement résolue en introduisant un taux de dividende déterministe, continu (Merton 1973) ou discret (Björk 2004), dans le terme de dérive du processus de prix du sousjacent, ce qui revient à considérer que les montants de dividendes futurs sont proportionnels au cours de l actif. Cette approche, initiée par Merton simultanément aux travaux de Black et Scholes (1973), était à l origine un arti ce calculatoire permettant d incorporer les dividendes futurs dans le modèle de Black et Scholes tout en préservant l hypothèse d une di usion lognormale des 283
prix futurs du sous-jacent, hypothèse fondamentale sur laquelle repose l existence des formules analytiques pour le prix et les paramètres de couverture des options Européennes. Dans la réalité des marchés nanciers, les dates de distribution et les montants de dividendes futurs sont connus plusieurs mois à l avance, de sorte que les intervenants (traders, market-makers, gérants de fonds) préfèrent raisonner, non pas en termes de taux de dividende, mais plutôt en termes de montants de dividende distribués à des dates discrètes, ce qui revient à introduire des sauts déterministes dans le processus de prix, chaque saut représentant une distribution de dividende. Supposons que l actif détache m dividendes (notés D 1 ; : : : ; D m ) aux dates discrètes t 1 < < t m dans la période ]0; T [. Une méthode naturelle pour incorporer cette chronique de dividendes discrets dans l évolution des cours consiste à supposer que le processus de prix chute d un montant égal au dividende mis en paiement aux dates t i et qu il suit un mouvement Brownien géométrique entre deux dividendes consécutifs. Autrement dit, les prix futurs de l actif évoluent sous la probabilité risque-neutre Q selon l équation di érentielle stochastique suivante (Frishling 2002) : ds t = rs t dt + S t dw t m X i=1 D i (t t i ) ; S 0 > 0; (5.1) où r 0 et > 0 désignent respectivement le taux sans risque dans l économie du produit et la volatilité du sous-jacent (supposés constants), (W t ) est un mouvement Brownien standard sous la mesure Q et (t t i ) est la mesure de Dirac en t i. Ce modèle donne une représentation réaliste du comportement des prix ; par contre, il ne permet pas d évaluer facilement les options vanilles de type Européen. En e et, on démontre que le cours de l actif à la date d échéance de l option T est une combinaison linéaire de variables aléatoires lognormales (Frishling 2002) : X m S T = S 0 e (r 2 =2)T +W T D i e (r 2 =2)(T t i)+(w T W ti ) : (5.2) i=1 La loi lognormale ne possédant aucune propriété d additivité, la distribution de S T n admet pas de forme explicite et, dans ces conditions, on ne sait pas résoudre analytiquement la formule générale du prix d un call Européen d échéance T et de strike K : h C = e rt E (S T K) +i ; (x) + def = max (x; 0) ; (5.3) où E [:] désigne l opérateur espérance sous la mesure risque-neutre Q. Dans ce cas, le prix de l option doit être estimé par une méthode d intégration numérique telle que la méthode de Monte Carlo, qui nécessite un temps de calcul d autant plus important que l on souhaite obtenir un résultat précis. Malgré cet inconvénient, le modèle dé ni par (5.1) reste un choix privilégié pour les praticiens. C est pourquoi les spécialistes ont développé di érentes formules pour 284
approcher le prix des options vanilles sans devoir implémenter une résolution numérique lourde. La plupart des approximations proposées dans les publications consistent à appliquer la formule de Black et Scholes (1973) et Merton (1973) pour les options Européennes en l absence de dividende 1, mais en modi ant certains paramètres en fonction de la chronique des dividendes futurs. Black (1975, p. 41) suggère d appliquer la formule (5.52) en corrigeant le cours initial S 0 d un montant égal à la valeur actuelle des dividendes futurs. Cette approche a l avantage d être simple, mais elle sous-estime les prix des calls Européens de manière systématique et conduit à des erreurs signi catives (voir Frishling 2002, Haug 2007). Dans une série de publications datant du début des années 2000, certains auteurs ont envisagé la possibilité d améliorer l approche de Black jugée insatisfaisante. Beneder et Vorst (2001) puis Bos, Gairat et Shepeleva (2003) combinent l ajustement proposé par Black avec une correction du paramètre de volatilité, tandis que Bos et Vandermark (2002) corrigent simultanément le cours initial S 0 et le prix d exercice K par des sommes pondérées des dividendes futurs actualisés. Dans l ensemble, les formules obtenues par ces di érents procédés 2 donnent des résultats plus précis que l ajustement envisagé par Black, mais étant donné qu elles reposent essentiellement sur des considérations empiriques, elles peuvent conduire à des prix arbitrables ou trop éloignés des prix observés et ne permettent pas de contrôler l erreur commise (voir Haug, Haug et Lewis (2003) pour une discussion sur ce sujet). Partant de cette observation, Haug et al. (2003) ont proposé un cadre d analyse rigoureux pour le traitement des options en présence de dividendes discrets. Leur approche repose sur une modélisation consistante de la dynamique des cours qui intègre la politique de dividende de la rme. Cependant, elle ne permet pas d obtenir des formules analytiques fermées pour les options Européennes et les auteurs donnent un algorithme permettant d approcher le prix cherché par des intégrations numériques successives. Ce point restreint, selon nous, la portée opérationnelle du modèle. Ce chapitre s inscrit dans un contexte où les approximations existantes ne constituent que des solutions partiellement satisfaisantes du traitement des options Européennes en présence de dividendes discrets et notre objectif est d obtenir, par des raisonnements mathématiques rigoureux, une formule fermée qui permette (i) d approcher le prix de l option avec une précision accrue par rapport aux méthodes discutées auparavant et (ii) de déterminer les sensibilités de l option par rapport au sous-jacent (i.e. le Delta et le Gamma) sous une forme explicite, ce dernier point n étant pratiquement jamais abordé par les concepteurs des modèles existants. Nous supposons que la dynamique du sous-jacent est dé nie par (5.1), ce qui implique que le cours à l échéance S T est donné par la formule (5.2) et, sous cette hypothèse, nous montrons que le problème initial consistant à résoudre l équation (5.3) revient à calculer la transformée stop-loss d une somme de variables aléatoires lognormales dépendantes. Nous pouvons 1 Voir annexe A, paragraphe A.1. 2 Voir annexe A pour une description détaillée des formules. 285
alors appliquer les résultats de la théorie actuarielle des risques comonotones pour établir des bornes déterministes qui encadrent le prix de l option (voir Dhaene, Denuit, Goovaerts, Kaas et Vyncke 2000a, 2000b ou Vandu el 2005) puis, en combinant ces bornes selon un procédé suggéré par Vyncke, Goovaerts et Dhaene (2004), nous obtenons une nouvelle approximation particulièrement précise. Le chapitre est organisé selon le schéma suivant : dans la section 2, nous rappelons quelques résultats de la théorie des risques comonotones nécessaires pour mener notre étude, puis nous les utilisons pour approcher les transformées stoploss d une somme de variables aléatoires lognormales dépendantes. Dans la section 3, nous transformons le problème initial pour pouvoir appliquer les formules de la section précédente et obtenir ainsi trois approximations analytiques pour le prix du call Européen. Nous en déduisons par ailleurs les expressions du Delta et du Gamma associés à chacune des approximations proposées. Dans la section 4, nous e ectuons des tests numériques pour mesurer la qualité des approximations construites dans la section précédente, puis nous comparons les résultats obtenus avec les autres méthodes de la littérature. La conclusion du chapitre est donnée dans la section 5. 5.2 Approximations comonotones d une somme de variables aléatoires lognormales dépendantes Dans ce paragraphe nous montrons comment approcher la loi de probabilité d une somme de variables aléatoires lognormales dépendantes. 5.2.1 Ordre convexe sur les variables aléatoires Soit X une variable aléatoire réelle intégrable (i.e. E [jxj] < +1). On appelle transformées stop-loss de X au seuil d les quantités suivantes : SL c X (d) = E h(x d) +i h et SL px (d) = E (d X) +i ; d 2 R: Les exposants "c" et "p" signi ent respectivement que la transformation est de type "call" ou de type "put". En e ectuant une intégration par parties (cf. Dhaene et al. 2000a), on peut établir les formules suivantes : SL c X (d) = Z +1 d F X (x) dx; SL p X (d) = Z d 1 F X (x) dx; (5.4) où F X et F X = 1 F X désignent respectivement la fonction de répartition et la fonction de survie de X. Ces formules prouvent que SL c X et SL p X quanti ent respectivement les poids des queues de distribution droite et gauche de X, c està-dire les risques associés à X. Une conséquence de cela est qu il est possible de comparer des variables entre elles par l intermédiaire des transformées stop-loss. 286
Dé nition 5.1 Soit X et Y deux variables aléatoires réelles. On dit que X est inférieure à Y au sens de l ordre convexe et l on note X cx Y, si et seulement si pour tout d 2 R on a : SL c X (d) SL c Y (d) et SL p X (d) SLp Y (d) : (5.5) D après cette dé nition, X cx Y signi e que X présente des queues de distribution moins épaisses que Y, i.e. X est moins "risquée" que Y. On peut montrer que la relation (5.5) implique E [X] = E [Y ] ; en revanche, elle n implique pas l égalité des moments du second ordre (voir Dhaene et al. 2000a). Plus précisément, on a le résultat suivant (cf. Kaas, Dhaene et Goovaerts 2000) : X cx Y si et seulement si E [h (X)] E [h (Y )] pour toute fonction convexe h telle que h (X) et h (Y ) soient intégrables. En appliquant cette proposition à la fonction convexe x! x 2, on en déduit que si X cx Y, alors E X 2 E Y 2. Comme E [X] = E [Y ], il vient Var [X] Var [Y ]. 5.2.2 Sommes comonotones Dé nition 5.2 Des variables aléatoires réelles X 1 ; : : : ; X s de fonctions de répartitions respectives F 1 ; : : : ; F s sont dites comonotones si et seulement si (X 1 ; : : : ; X s ) 0 F 1 1 (U) ; : : : ; F 1 s (U) 0 avec U U (0; 1) : (5.6) Le symbole "" signi e "a même loi que" et F 1 i désigne la fonction quantile de X i. Dans ce cas, la somme X = X 1 + + X s est appelée somme comonotone. La comonotonie est une structure d extrême dépendance positive entre des variables. En e et, les risques individuels des composantes sont contrôlés par une source de hasard unique (la variable uniforme U) et les marginales F 1 i (U) varient dans le même sens lorsque U est modi ée, ce qui explique le sens du terme comonotone (monotonie commune). Les sommes comonotones possèdent des propriétés intéressantes que nous donnons ci-dessous et dont on peut trouver les démonstrations dans les travaux de Dhaene et al. (2000a) ou de Vandu el (2005). Dans ce qui suit, X est une somme comonotone de fonctions de répartition marginales F i. Proposition 5.1 La fonction quantile de X est donnée par la formule : F 1 X (u) = sx i=1 F 1 i (u) ; 0 < u < 1: (5.7) De plus, lorsque les F i sont bijectives, alors F 1 X est bijective et, dans ce cas, la fonction de répartition de X est entièrement déterminée par la relation : F 1 X (F X (x)) = x () sx i=1 F 1 i (F X (x)) = x; x 2 R: (5.8) 287
Etant donné que la fonction x! max (x; 0) n est pas une fonction linéaire de x, la transformée stop-loss (SL c ou SL p ) n est pas un opérateur linéaire sur l ensemble des variables aléatoires. Toutefois, dans le cas des sommes comonotones, on a le résultat suivant : Proposition 5.2 Lorsque les fonctions de répartition marginales F i sont bijectives, les transformées stop-loss de X sont données par les formules suivantes : SL c X (d) = sx sx SL c F 1 i (U) (d i) ; SL p X (d) = SL p (d F 1 i (U) i) ; (5.9) i=1 où d i = F 1 i (F X (d)), i = 1; : : : ; s. La transformée stop-loss d une somme comonotone est donc égale à la somme des transformées stop-loss de ses composantes évaluées en des seuils d i spéci ques. Notons que la formule (5.8) implique la relation suivante : sx d i = i=1 sx i=1 i=1 F 1 i (F X (d)) = d: (5.10) 5.2.3 Approximations au sens de l ordre convexe Encadrements comonotones La proposition suivante montre comment encadrer les transformées stop-loss d une somme de variables aléatoires quelconques. Le lecteur en trouvera une démonstration dans Kaas et al. (2000), Dhaene et al. (2000a) ou Vandu el (2005). Proposition 5.3 Soit X = P s i=1 X i une somme de variables aléatoires éventuellement dépendantes et dé nies par leurs fonctions de répartition marginales F i. On pose 3 : X ub = sx i=1 F 1 i (U) ; X lb = sx E [X i j Z] ; (5.11) où U U (0; 1) et Z est une variable aléatoire quelconque, indépendante de U. Alors on a les encadrements suivants : X lb cx X cx X ub () SL c=p lb i=1 (d) SL c=p X (d) SLc=p ub (d) ; où la notation "c=p" signi e que l encadrement s applique aux transformées de type "c" et de type "p" et SL c=p lb et SL c=p ub sont des notations abrégées pour SL c=p X lb et SL c=p X ub. 3 Les indices "lb" et "ub" signi ent respectivement "lower bound" et "upper bound". 288
Par construction, X ub est une somme comonotone, donc ses transformées stoploss sont déterminées par (5.9). Par contre, X lb n est pas nécessairement une somme comonotone mais, dans certains cas, on peut identi er des variables Z qui permettent d obtenir la propriété de comonotonie pour cette borne et il devient alors très facile d évaluer SL c=p lb. Approximation convexe basée sur les moments Vyncke et al. (2004) proposent de construire une nouvelle approximation de X en posant 4 : F mb = F lb + (1 ) F ub ; 2 [0; 1] ; où F lb et F ub sont les fonctions de répartition des bornes X lb et X ub. Par construction, la variable aléatoire X mb de fonction de répartition F mb véri e : E [X mb ] = E [X] et SL c=p mb (d) = SLc=p lb (d) + (1 ) SL c=p ub (d) : (5.12) Une conséquence de (5.12) est que les transformées stop-loss de X mb sont comprises entre les transformées stop-loss de X lb et de X ub, ce qui implique : SL c=p X (d) SLc=p mb (d) c=p SL ub (d) SLc=p lb (d) : Cela prouve que les quantités SL c mb (d) et SL p mb (d) sont de nouvelles approximations de SL c X (d) et SL p X (d). L approximation optimale est obtenue en imposant l égalité des moments d ordre 2, i.e. Var [X mb ] = Var [X]. Vyncke et al. (2004) démontrent que la valeur de (notée ) qui réalise cette égalité est donnée par la formule : = Var [X] Var [X lb] Var [X ub ] Var [X lb ] : (5.13) Par construction la variable X mb (obtenue pour = ) a les mêmes premiers moments que X, ce qui laisse entrevoir que les transformées stop-loss de X mb approcheront les transformées stop-loss de X avec une certaine précision. 5.2.4 Application aux sommes de variables lognormales dépendantes Nous considérons à présent que X est une somme de s variables lognormales dépendantes telle que : sx X = e Yi ; (5.14) i=1 où (Y 1 ; : : : ; Y s ) 0 est un vecteur gaussien multivarié dé ni par i = E [Y i ] et ij = Cov [Y i ; Y j ] 0. Nous prenons la convention 2 i = Var [Y i] = ii. Etant 4 L indice "mb" signi e "moment bound". 289
donné que la loi lognormale ne possède aucune propriété d additivité, la fonction de répartition de X ne peut pas être déterminée analytiquement. Toutefois, les résultats du paragraphe précédent sont applicables et nous pouvons établir des approximations comonotones pour la loi de X. Pour une démonstration et une étude approfondie des résultats énoncés dans la suite, nous invitons le lecteur à consulter Kaas et al. (2000), Vandu el, Hoedemakers et Dhaene (2005) ou Vandu el, Chen et al. (2007). Transformées stop-loss d une variable aléatoire lognormale Soit Y N (; ), on rappelle que la fonction de répartition et la fonction quantile de e Y sont données par : ln x F e Y (x) = () F 1 (u) = e + 1 (u) ; (5.15) e Y où et 1 désignent respectivement la fonction de répartition et la fonction quantile de la loi normale standard. De plus, un simple calcul d espérances permet d obtenir les transformées stop-loss de e Y (Dhaene et al. 2000a) : SL c 2 ey (d) = e+ 2 ln d SL p e Y (d) = d + ln d d 2 + ln d e 2 ln d ; (5.16) : (5.17) Borne comonotone supérieure Lorsque X est dé nie par (5.14), la borne supérieure comonotone dé nie à la proposition 5.3 s écrit : sx X ub = e i +i 1 (U) ; U U (0; 1) : (5.18) i=1 Comme les F i sont bijectives, la fonction de répartition F ub de X ub est donnée par la formule (5.8) : sx e i +i 1 (F ub (x)) = x; x 2 R +: (5.19) i=1 En injectant (5.16) et (5.17) dans les formules de la proposition 5.2 et en posant F ub = 1 F ub on obtient tous calculs faits : sx SL c ub (d) = e i + 2 i 2 i 1 F ub (d) d F ub (d) ; (5.20) i=1 SL p ub (d) = d F ub (d) sx i=1 e i + 2 i 2 1 F ub (d) i : (5.21) 290
Construction de la borne inférieure Lorsque les composantes de X sont lognormales, Vandu el et al. (2005) ou Vandu el, Chen et al. (2007) montrent que le choix optimal pour Z est le suivant : Z = sx i Y i avec i = e i +2 i =2 0: (5.22) i=1 La variable Z ainsi construite suit une loi gaussienne 5 ; donc l espérance de e Yi conditionnellement à Z est donnée par : En posant E e Yi Z = e E[ YijZ]+ 1 2 Var[ YijZ]) : (5.23) Z = Z + Z 1 (V ) ; V U (0; 1) et i = Cor [Y i ; Z] = Cov [Y P s i; Z] j=1 = j ij ; (5.24) i Z i Z on peut établir les formules suivantes (cf. Vandu el et al. 2005) : E [Y i j Z] = i + i i 1 (V ) ; Var [Y i j Z]) = 2 i 1 2 i : On en déduit que la borne inférieure X lb s écrit : sx X lb = e i + 1 2 (1 2 i )2 i + i i 1 (V ) : (5.25) i=1 Les fonctions v! e i + 1 2 (1 2 i )2 i + i i 1 (v) sont les fonctions quantiles de variables aléatoires lognormales de paramètres i + 1 2 (1 2 i )2 i et i i, ce qui implique que X lb est une somme comonotone. Pour obtenir la fonction de répartition et les transformées stop-loss de X lb, on peut donc utiliser directement les résultats du paragraphe 5.2.4 en remplaçant i par i + 1 2 (1 2 i )2 i et i par i i. En procédant ainsi, on obtient la fonction de répartition F lb à partir de l équation (5.19) : sx e i + 1 2 (1 2 i )2 i + i i 1 (F lb (x)) = x; x 2 R +: (5.26) i=1 Les transformées stop-loss de X lb se déduisent des formules (5.20) et (5.21) et admettent les expressions suivantes (on note F lb = 1 F lb ) : SL c lb (d) = sx i=1 SL p lb (d) = d F lb (d) e i + 2 i 2 i i 1 F lb (d) d F lb (d) ; (5.27) sx i=1 e i + 2 i 2 1 F lb (d) i i : (5.28) 5 Toute combinaison linéaire des composantes d un vecteur gaussien est une variable gaussienne. 291
Moments des bornes de l encadrement convexe Par propriété de la relation d ordre convexe, les moments des variables X, X lb et X ub véri ent : E [X] = E [X lb ] = E [X ub ] ; Var [X lb ] Var [X] Var [X ub ] : Vandu el et al. (2005) établissent les formules suivantes : E [X] = Var [X] = Var [X lb ] = Var [X ub ] = sx i=1 sx i=1 j=1 sx i=1 j=1 sx i=1 j=1 e i + 2 i 2 ; (5.29) sx e i + j + 1 2 (2 i +2 j ) (e ij ij 1) ; (5.30) sx e i + j + 1 2 (2 i +2 j ) (e i j ij 1) ; (5.31) sx e i + j + 1 2 (2 i +2 j ) (e ij 1) : (5.32) 5.3 Approximations comonotones du prix d un call Européen Dans cette section, nous appliquons les résultats des paragraphes 5.2.3 et 5.2.4 pour approcher le prix d un call Européen lorsque le sous-jacent suit la dynamique (5.1). 5.3.1 Transformations préliminaires On remarque que la formule fondamentale d évaluation (5.3), peut s écrire comme la transformée stop-loss de la variable S def T = e rt S T au seuil K def = e rt K : h C = e rt E (S T K) +i h = E e rt S T e rt K i + = SL c ST K : La variable S T est d après (5.2) une combinaison linéaire de variables lognormales à coe cients positifs et négatifs. A n de faire apparaître une somme de def termes à coe cients tous positifs, on met T = e W T 2 T=2 en facteur commun dans S T K : S T K = S0 e W T 2 T 2 mx X m = T S 0 D i e i=1 D i e (W T W ti ) rt 2 (T t i ) i 2 e rt K i=1 2 2 r t i W ti Ke! 2 2 r T W T : 292
On dé nit alors ~S = mx D i e (2 =2 r)t i W ti + Ke ( 2 =2 r)t W T ; (5.33) i=1 de sorte que le prix du call devient : + C = E T S 0 S ~ : (5.34) La variable aléatoire T est strictement positive et elle véri e E [ T ] = 1, c est donc la densité de Radon-Nikodym d une mesure ~ Q équivalente à Q et l on peut écrire : d ~ Q dq = T = e W T La formule (5.34) devient : " d Q C = E ~ # + S 0 S ~ = E dq ~ S 0 2 T=2 : (5.35) + S ~ = SL p S ~ (S 0 ) : (5.36) Le prix du call Européen C s exprime donc comme la transformée stop-loss de type put au seuil S 0 de la variable ~ S sous la nouvelle mesure ~ Q. D après le théorème de Girsanov, le processus de terme général ~ Wt def = W t t est un mouvement Brownien standard sous ~ Q. Alors, en faisant apparaître ~ W dans (5.33), on obtient la loi de ~ S sous ~ Q : ~S = mx D i e (r+2 =2)t i W ~ ti + Ke (r+ 2 =2)T W ~ T : (5.37) i=1 La variable alternative S ~ est donc de la forme P m+1 i=1 où (Y eyi 1 ; : : : ; Y m+1 ) 0 est un vecteur gaussien (sous Q) ~ d espérances : ln (Di ) r + i = 2 =2 t i si 1 i m ln (K) r + 2 =2 T si i = m + 1 ; (5.38) et de covariances dé nies par la relation (cf. Glasserman 2004) : ij = Cov [Y i ; Y j ] = 2 min (t i ; t j ) : (5.39) Nous avons donc démontré que le prix du call est la transformée stop-loss d une combinaison linéaire à coe cients tous positifs de m + 1 variables lognormales dépendantes, ce qui permet d appliquer les résultats des paragraphes 5.2.3 et 5.2.4. 293
5.3.2 Construction des bornes comonotones D après la proposition 5.3, on sait construire deux sommes comonotones notées ~S ub et ~ S lb, telles que : ~S lb cx ~ S cx ~ Sub =) SL p lb (S 0) C SL p ub (S 0) ; où SL p lb et SLp ub sont obtenues en remplaçant i et ij par les expressions données en (5.38) et (5.39) dans les formules des paragraphes 5.2.4 et 5.2.4. Borne comonotone supérieure En appliquant les résultats du paragraphe 5.2.4 on obtient tous calculs faits : ~S ub = m+1 X i=1 i e i 1 (U) 2 i =2 ; U U (0; 1) : (5.40) Les paramètres i et i sont dé nis par : p Di e i = si 1 i m Ke rt si i = m + 1 ; ti si 1 i m i = p T si i = m + 1 : (5.41) La fonction de répartition associée (notée ~ F ub ) est solution de l équation : x = m+1 X i=1 i e i 1 ( ~ F ub (x)) 2 i =2 ; x 2 R +: (5.42) En n, la transformée stop-loss de ~ S ub est donnée par : SL p ub (S 0) = S 0 ~ Fub (S 0 ) Borne comonotone inférieure m+1 X i=1 i 1 F ~ ub (S 0 ) i : (5.43) La borne inférieure est obtenue en injectant les paramètres de notre problème dans la formule (5.25) : ~S lb = m+1 X i=1 i e i i 1 (V ) 2 i 2 i =2 ; V U (0; 1) : (5.44) Les coe cients i sont dé nis par : P m+1 j=1 i = j min (t i ; t j ) q P ; 1 i m + 1: m+1 t i j;k=1 j k min (t j ; t k ) La fonction de répartition ~ F lb est solution de l équation : x = m+1 X i=1 i e i i 1 ( ~ F lb (x)) 2 i 2 i =2 ; x 2 R +: (5.45) 294
La borne inférieure étant comonotone, la transformée stop-loss ~ S lb est obtenue en appliquant la formule (5.28) : SL p lb (S 0) = S 0 ~ Flb (S 0 ) m+1 X i=1 i 1 F ~ lb (S 0 ) i i : (5.46) Approximation basée sur les moments Avec les notations introduites, l espérance des variables considérées est ~E[ ~ S] = ~ E[ ~ S ub ] = ~ E[ ~ S lb ] = et les formules (5.30), (5.31) et (5.32) deviennent : m+1 X i=1 i Var[ ~ S] = Var[ ~ S lb ] = Var[ ~ S ub ] = m+1 X i;j=1 m+1 X i;j=1 m+1 X i;j=1 i j e 2 ij 1 ; i j (e ij i j 1) ; i j (e ij 1) : Le raisonnement du paragraphe 5.2.3 permet de construire une approximation de ~ S (notée ~ S mb ) basée sur l identi cation des deux premiers moments et dé nie par sa fonction de répartition ~ F mb : ~F mb = ~ Flb + (1 ) ~ F ub avec = Var[ ~ S] Var[ ~ S lb ] Var[ ~ S ub ] Var[ ~ S lb ] : (5.47) La transformée stop-loss de seuil S 0 associée à ~ S mb s écrit : C ' SL p mb (S 0) = SL p lb (S 0) + (1 ) SL p ub (S 0) : (5.48) Par construction ~ S mb et ~ S ont la même espérance et la même variance. On peut donc supposer que SL p mb (S 0) constitue une bonne approximation du prix de l option. Calcul du Delta et du Gamma Les approximations proposées dans ce travail sont de la forme suivante C ' SL p xb (S 0), où l indice "xb" est une notation symbolique qui désigne indi éremment "lb", "ub" ou "mb". En conséquence, on peut obtenir une forme générale pour le Delta et le Gamma de l option en utilisant la notation "xb" : xb = @ S0 C ' @ S0 SL p xb (S 0) ; xb = @ 2 S 0 C ' @ 2 S 0 SL p xb (S 0) ; 295
où @ S0 et @ 2 S 0 désignent les dérivées partielles d ordre 1 et 2 par rapport à S 0. Pour calculer ces dérivées, nous écrivons SL p xb (S 0) en utilisant la formule (5.4) : SL p xb (S 0) = Z S0 0 ~F xb (z) dz; où ~ F xb est la fonction de répartition de la variable approchante ~ S xb. Par construction, les variables ~ S lb, ~ Sub et ~ S mb ne dépendent pas du cours à l origine S 0. Alors, la fonction ~ F xb est indépendante de S 0 et l on peut dériver l intégrale précédente par rapport à sa borne supérieure : xb = @ S0 SL p xb (S 0) = ~ F xb (S 0 ) ; xb = @ 2 S 0 SL p xb (S 0) = ~ F 0 xb (S 0 ) ; où ~ F 0 xb est la densité de probabilité de la variable ~ S xb. Le calcul du Delta associé à chaque approximation ne comporte aucune di - culté, car les équations (5.42), (5.45) et (5.47) permettent d évaluer directement les fonctions de répartition des variables ~ S ub, ~ S lb et ~ S mb. Nous allons maintenant déterminer la densité de probabilité de F ~ ub 0 (donc le Gamma) de la borne supérieure S ~ ub. En dérivant les deux membres de l équation (5.42) en x = S 0 il vient : 1 = m+1 X i=1 F ~ 0 i ub (S 0 ) i e i 1 ( F ~ ub (S 0)) 2 i =2 : 0 1 ~Fub (S 0 ) En isolant le terme F ~ ub 0 (S 0) et en remplaçant 0 par ' (la densité de la loi normale standard) on obtient : ' 1 ~Fub (S 0 ) ~F ub 0 (S 0 ) = P m+1 i=1 i i e i 1 ( F ~ = ub (S 0)) 2 i =2 ub (S 0 ) : (5.49) Un raisonnement analogue nous permet de déterminer lb à partir de (5.45) : ' 1 ~Flb (S 0 ) lb (S 0 ) = P m+1 i=1 i i i e i i 1 ( F ~ : (5.50) lb (S 0)) 2 i 2 i =2 En n, mb (S 0 ) est obtenu en dérivant (5.47) membre à membre : mb (S 0 ) = mb (S 0 ) + (1 ) mb (S 0 ) : (5.51) Notons que, dans le cas où les dividendes sont tous nuls (i.e. 1 = 2 = = m = 0), les formules établies pour le prix et pour les Grecques sont identiques aux formules de Black et Scholes (cf. annexe A.1). 296
Les trois approximations comonotones construites dans ce travail présentent un avantage calculatoire par rapport aux méthodes présentées dans l annexe A. En e et, nous avons non seulement obtenu des formules théoriques pour estimer le prix de l option, mais nous avons aussi montré que ces formules permettaient de calculer le Delta et le Gamma sous une forme explicite. 5.4 Applications numériques Dans cette dernière section, nous évaluons les performances des trois approximations proposées. Elles sont notées CUB (Comonotonic Upper Bound) pour celle basée sur la borne supérieure, CLB (Comonotonic Lower Bound) pour celle basée sur la borne inférieure et MBA (Moment Based Approximation) pour celle basée sur les moments. Les paramètres communs utilisés dans les tests numériques réalisés sont les suivants : r = 6%, T = 2 et S 0 = 100. Par ailleurs, on suppose que le titre détache quatre dividendes sur la période ; la chronique de dividendes est donnée dans le tableau ci-dessous : Date 0:25 0:75 1:25 1:75 Dividende 2:5 3:0 2:5 3:0 5.4.1 Test d adéquation sur les fonctions de répartition La volatilité et le strike retenus pour ce test sont = 30% et K = 100. La gure 5.1 représente les fonctions de répartition F ~ ub, F ~ lb, F ~ mb (à gauche) et les densités F ~ ub 0, F ~ 0 lb, F ~ 0 mb (à droite). Les points de la fonction de répartition empirique de S, ~ notés MC, sont désignés par des losanges sur la gure de gauche. Ils sont construits sur la base d un échantillon comportant 10 5 réalisations indépendantes de la variable S ~ obtenues par la méthode de Monte Carlo (cf. Glasserman 2004). Les fonctions de répartition comonotones s ajustent parfaitement sur la distribution empirique de S, ~ ce qui laisse supposer que les variables construites approchent la loi cherchée avec précision. Par ailleurs, on observe sur la gure de droite que (i) les densités CLB et MBA sont indiscernables et que (ii) la densité de la borne supérieure di ère légèrement des densités CLB et MBA au niveau du mode et de la queue de distribution gauche. En conséquence, on peut penser que les distributions des variables S ~ lb et S ~ mb sont plus proches de la loi théorique de S ~ que la distribution de la borne supérieure S ~ ub. A n de con rmer ces hypothèses faites à partir de l observation des graphiques, nous appliquons le test d ajustement de Kolmogorov-Smirnov 6 aux fonctions de répartition F ~ ub, ~F lb, Fmb ~, l objectif étant de valider quantitativement l adéquation à la loi S. ~ Le principe du test consiste à calculer la distance de la norme uniforme (notée ^D n ) entre la fonction de répartition empirique de l échantillon (notée ^F n ) et la fonction de répartition théorique testée (notée ~ F xb comme au paragraphe 5.3.2). 6 Le test de Kolmogorov-Smirnov est un test d ajustement à une loi continue qui utilise toute l information disponible. A ce propos, on pourra se référer aux ouvrages de Saporta (1990) ou de Lecoutre (1998). 297
CUB CLB MBA MC CUB CLB MBA cdf 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 25 50 75 100 125 150 175 200 225 x Density 0,012 0,010 0,008 0,006 0,004 0,002 0,000 25 50 75 100 125 150 175 200 225 x Fig. 5.1 Fonctions de répartition ( gure de gauche) et densités ( gure de droite) des approximations comonotones. ^D n est donnée par ^D n = sup x2r ^Fn (x) Fxb ~ (x), où x (1) < : : : < x (n) sont les observations classées dans l ordre croissant. Sous l hypothèse d adéquation entre ^F n et F ~ xb on démontre que la suite de variables aléatoires positives de terme général p n ^D n converge vers une variable aléatoire dont la fonction de répartition est dé nie par : +1X H (x) = 1 2 ( 1) k+1 exp 2k 2 x 2 ; x > 0: k=1 Le test est rejeté pour tout seuil supérieur à la p-value ^ n def = 1 H Les résultats obtenus sont présentés dans le tableau ci-après. pn ^Dn. borne CUB ( ~ F ub ) CLB ( ~ F lb ) MBA ( ~ F mb ) distance observée ( ^D n ) 7:623E 03 1:112E 03 1:102E 03 statistique observée ( p n ^D n ) 2:410615 0:351737 0:348385 p-value (^ n ) 0:00% 99:97% 99:97% La p-value du test associé à la fonction de répartition ~ F ub est nulle, ce qui signi e que la borne supérieure ne constitue pas une bonne approximation de la variable ~S. Par contre, les p-values calculées pour les fonctions de répartition ~ F lb et ~ F mb sont égales à 99:97%, ce qui prouve que ~ S lb et ~ S mb constituent d excellentes approximations de la variable initiale ~ S. Les prix d options obtenus à partir des approximations CLB et MBA seront donc plus précis que les prix obtenus à partir de l approximation CUB. Nous allons con rmer cela dans le paragraphe suivant. 298
5.4.2 Evaluation d un call Européen Nous considérons à présent trois valeurs de la volatilité (20%, 40%, 60%) et cinq valeurs du prix d exercice K (50, 75, 100, 125, 150). La chronique de dividendes est la même que celle utilisée au paragraphe précédent. Pour chaque option associée au couple (; K), nous estimons un prix étalon (noté QMC) par la méthode de Quasi-Monte Carlo 7 ainsi que les prix CUB, CLB et MBA. Les prix étalons sont déterminés sur la base de 100 millions de chemins quasialéatoires, ce qui permet d obtenir une précision de 4 chi res après la virgule. Nous associons à chaque prix estimé une erreur relative d approximation par rapport à la méthode QMC et dé nie par Err%= obtenus gurent dans le tableau suivant. Prix Estimé Prix QMC 1. Les résultats K QMC CUB CLB MBA prix prix Err% prix Err% prix Err% 20% 50 45.3701 45.3846 0.032% 45.3700-2.20E-06 45.3700-2.20E-06 75 25.0916 25.2125 0.482% 25.0915-3.99E-06 25.0916 0.00E+00 100 11.1030 11.2985 1.761% 11.1030 0.00E+00 11.1032 1.80E-05 125 4.1387 4.2916 3.694% 4.1386-2.42E-05 4.1387 0.00E+00 150 1.3854 1.4682 5.977% 1.3854 0.00E+00 1.3854 0.00E+00 40% 50 47.6003 47.8031 0.426% 47.5992-2.31E-05 47.6004 2.10E-06 75 32.2197 32.5638 1.068% 32.2193-1.24E-05 32.2208 3.41E-05 100 21.5082 21.8966 1.806% 21.5080-9.30E-06 21.5093 5.11E-05 125 14.3592 14.7253 2.550% 14.3588-2.79E-05 14.3598 4.18E-05 150 9.6531 9.9681 3.263% 9.6526-5.18E-05 9.6533 2.07E-05 60% 50 52.2370 52.6683 0.826% 52.2345-4.79E-05 52.2410 7.66E-05 75 40.2545 40.7994 1.354% 40.2533-2.98E-05 40.2592 1.17E-04 100 31.5098 32.0855 1.827% 31.5087-3.49E-05 31.5136 1.21E-04 125 25.0358 25.5978 2.245% 25.0345-5.19E-05 25.0385 1.08E-04 150 20.1615 20.6884 2.613% 20.1600-7.44E-05 20.1631 7.94E-05 On constate que l approximation CUB surestime systématiquement le prix benchmark de chaque option. Les méthodes CLB et MBA conduisent à des résultats nettement plus précis. Le tableau ci-dessous donne une indication sur la variabilité et l ordre de grandeur de l erreur commise avec chaque méthode. Pour chacune des méthodes testées, les quantités Err%(min), Err%(max) et Err%(moy) correspondent respectivement au minimum, au maximum et à la moyenne des erreurs relatives prises en valeur absolue. méthode CUB CLB MBA Err%(min) 0:03196% 0:00000% 0:00000% Err%(max) 5:97661% 0:00744% 0:01206% Err%(moy) 1:99485% 0:00262% 0:00447% 7 La méthode de Quasi-Monte Carlo permet de réduire l erreur d intégration par rapport à la méthode de Monte Carlo classique, notamment lorsque la dimension d intégration est faible (voir Glasserman 2004), ce qui est le cas dans notre exemple. 299
L erreur moyenne avec l approximation CUB est de l ordre de 2%, tandis qu elle ressort autour de 0:002% avec la méthode CLB (soit une réduction de l erreur d un facteur 1000) et de 0:004% avec la méthode MBA (ce qui correspond à une réduction de l erreur de l ordre de 500). En conséquence, avec une erreur dont l ordre de grandeur est le millième de pourcent, les méthodes CLB et MBA s avèrent considérablement plus performantes que l approximation CUB basée sur la borne comonotone supérieure. Dans le paragraphe suivant, nous comparons les approximations CLB et MBA aux méthodes présentées dans l introduction. 5.4.3 Etude comparative avec d autres approches courantes La volatilité est à présent xée à = 30%. Le strike K varie de 50 à 150 comme dans l exemple numérique précédent. Pour chacune des méthodes testées, i.e. B75, BV01, BoV02, BGS03, HHL03 (cf. Annexe A pour les formules) et CLB et MBA dé nies précédemment on désigne par Err% l écart relatif entre le prix obtenu avec la méthode considérée et le prix obtenu par simulation Quasi-Monte Carlo (QMC). Les résultats ainsi que les erreurs commises sont présentés dans le tableau suivant. La dernière ligne du tableau donne pour chaque méthode le minimum, le maximum et la moyenne des erreurs relatives prises en valeur absolue. K QMC B75 BV01 BoV02 BGS03 HHL03 CLB MBA 50 46.0585 45.8341 45.9945 46.0844 46.0546 46.0668 46.05799 46.0582-0.487% -0.139% 0.056% -0.008% 0.018% -0.001% -0.001% 75 28.3956 27.7255 28.2971 28.4204 28.3910 28.4056 28.3953 28.3959-2.360% -0.347% 0.087% -0.016% 0.035% -0.001% 0.001% 100 16.3439 15.4634 16.2972 16.3361 16.3431 16.3465 16.3439 16.3444-5.387% -0.286% -0.048% -0.005% 0.016% 0.000% 0.003% 125 9.0728 8.2623 9.0904 9.0386 9.0754 9.0686 9.0727 9.0731-8.933% 0.194% -0.377% 0.029% -0.046% -0.001% 0.003% 150 4.9631 4.3389 5.0171 4.9200 4.9672 4.9560 4.9628 4.9631-12.577% 1.088% -0.868% 0.083% -0.143% -0.006% 0.000% Err%(min) 0.487% 0.139% 0.048% 0.005% 0.016% 0.000% 0.000% Err%(max) 12.577% 1.088% 0.868% 0.083% 0.143% 0.006% 0.003% Err%(moy) 5.949% 0.411% 0.287% 0.028% 0.052% 0.002% 0.002% L approximation de Black (B75) est la moins satisfaisante de ce comparatif : l erreur relative varie de 0:487% pour les strikes les plus faibles à 12:577% pour les strikes les plus élevés et un simple calcul montre que la moyenne des erreurs relatives (en valeur absolue) est de l ordre 5:949%. Notons par ailleurs qu elle sous-estime les prix de calls de manière systématique. L ajustement de la volatilité proposé par Beneder et Vorst (BV01) permet d obtenir une erreur moyenne de 0:411%, ce qui correspond à une réduction de 300
l erreur d un facteur 14:5(' 5:949% 0:411% ) par rapport à la méthode B75. L amélioration porte essentiellement sur les options en dehors de la monnaie. Par ailleurs, le phénomène de sous-estimation systématique a disparu. La méthode de Bos et Vandermark (BoV02) est plus précise que les méthodes précédemment analysées : l erreur commise est inférieure au seuil de 1% en valeur absolue (elle est comprise entre 0:868% et 0:087%) et la moyenne des erreurs ressort à 0:287%. Notons que les options en dehors de la monnaie sont celles pour lesquelles l approximation est la moins performante (Err% = 0:868%). L approximation de Bos et al. (BGS03) occupe la quatrième place de ce comparatif : l erreur prise en valeur absolue est inférieure à 0:083% sur l ensemble des tests réalisés. La moyenne des erreurs est 0:028%, ce qui correspond à une réduction de l incertitude par rapport à la méthode de Bos et Vandermark d un facteur 10:2(' 0:287% 0:028% ). Le modèle de Haug et al. (HHL03) conduit lui aussi à des résultats précis : l erreur varie entre 0:143% pour les options en dehors de la monnaie et 0:018% pour les options dans la monnaie. La moyenne des erreurs ressort à 0:052%. Une partie des erreurs mesurées provient vraisemblablement du fait que la dynamique (5.62) utilisée par Haug et al. di ère légèrement de la dynamique (5.1) sur laquelle sont basées les autres approximations. Par ailleurs le prix de l option devant être approché par des intégrations numériques successives, il subsiste une incertitude quant à la précision des résultats obtenus. Les approximations comonotones CLB et MBA sont les plus précises de ce comparatif. Par ailleurs, les résultats obtenus avec les deux méthodes sont très proches. La moyenne des erreurs relatives (prises en valeur absolue) ressort à 0:002% dans les deux cas, ce qui correspond à une amélioration d un facteur 14(' 0:028% 5:949% 0:002% ) par rapport à la méthode BGS03 et d un facteur 3000(' 0:002% ) par rapport à l ajustement B75 de Black. Les méthodes CLB et MBA performent de manière identique pour les options dans la monnaie avec une erreur de l ordre de 0:001% (en valeur absolue). Avec la méthode CLB l erreur commise est voisine de zéro pour le call à la monnaie et elle est maximale pour les calls très en dehors de la monnaie ( 0:006%). Inversement, avec l approximation MBA, l erreur est maximale pour les options à la monnaie (0:003%) et vaut zéro pour les options en dehors de la monnaie. On en déduit que l approximation CLB sera plus performante au voisinage de la monnaie, tandis que l approximation MBA sera plus précise pour évaluer les calls très en dehors de la monnaie. En pratique, étant donné la grande précision des résultats obtenus (de l ordre du millième de pourcent), on pourra utiliser indi éremment l une ou l autre des deux méthodes proposées. Toutefois, si l on tient compte de l e ort calculatoire supplémentaire induit pour évaluer la formule (5.48), on peut considérer que la méthode CLB est la solution la plus e cace pour approcher le prix du call Européen. 5.5 Conclusion L intégration des dividendes dans les modèles de marché utilisés pour évaluer et couvrir les produits optionnels sur action(s) est un problème particulièrement 301
délicat, notamment lorsque les dates et les montants des dividendes futurs sont connus à l avance. Dans ce cas, la dynamique du sous-jacent est un processus à sauts déterministes et il n est plus possible d obtenir des formules analytiques fermées pour le prix et les paramètres de couverture des options Européennes, comme c est le cas lorsque les dividendes sont supposés proportionnels au cours du sous-jacent. Il faut alors traiter le problème par une méthode numérique telle que la méthode de Monte Carlo. Une telle approche est particulièrement consommatrice en temps de calcul, ce qui est di cilement envisageable pour une mise en oeuvre opérationnelle. Les spécialistes ont donc développé di érentes formules d approximation pour évaluer les options Européennes en présence de dividendes discrets. La plupart des solutions existantes sont construites à partir de considérations empiriques et consistent à modi er en fonction de la chronique des dividendes futurs les paramètres de la formule originale de Black-Scholes- Merton (1973) pour les options Européennes en l absence de dividende, mais elles conduisent à des résultats biaisés avec des niveaux d erreur parfois élevés. Dans ce chapitre, nous avons proposé trois nouvelles formules d approximation du prix d un call Européen en présence de dividendes discrets en nous appuyant sur les résultats de la théorie actuarielle des risques comonotones. Cette approche permet de remplacer la variable aléatoire considérée (dont on ne maîtrise pas la loi de probabilité) par une variable aléatoire "voisine" (au sens de l ordre convexe) à la structure interne plus simple et pour laquelle on sait déterminer la distribution et e ectuer les calculs. La méthode présentée dans ce chapitre se décompose en trois étapes : (i) tout d abord, nous avons écrit le prix de l option comme la transformée stop-loss d une somme de variables aléatoires lognormales dépendantes, ensuite (ii) nous avons encadré (au sens de l ordre convexe) la variable précédente par deux sommes comonotones de variables lognormales, en n (iii) nous avons déterminé les primes stop-loss des deux bornes sous une forme explicite. Par construction, les formules établies dans la dernière étape du raisonnement encadrent le prix de l option. Nous les avons appelées approximation CLB (Comonotonic Lower Bound) et approximation CUB (Comonotonic Upper Bound). Par ailleurs, en combinant les fonctions de répartition de ces bornes, nous avons construit une nouvelle approximation appelée MBA (Moment Based Approximation) qui possède la même espérance et la même variance que la variable initiale. Les approximations CLB et MBA conduisent à un niveau d erreur relative voisin de 0:002% sur l ensemble des tests réalisés, ce qui est nettement meilleur que l ensemble des approximations existantes pour lesquelles l ordre de grandeur de l erreur est supérieur à 0:1%. De plus, l erreur commise varie peu avec le niveau de strike de l option considérée. Autrement dit, les approximations CLB et MBA permettent d évaluer avec le même degré de précision les options dans la monnaie, les options à la monnaie et les options en dehors de la monnaie. Nous avons pu observer que ce n était pas le cas avec les autres approches testées dans ce travail. 302
En dérivant les formules d approximation comonotones, nous avons pu déterminer le Delta et le Gamma de l option sous une forme explicite. L existence de formules fermées pour les paramètres de couverture de l option permet d envisager l utilisation des formules du chapitre non seulement pour évaluer, mais aussi pour répliquer les payo s optionnels. Ce point constitue un avantage particulièrement intéressant de l approche comonotone par rapport aux autres solutions proposées dans la littérature : en e et, étant donné que les approximations existantes reposent sur des considérations essentiellement empiriques et conduisent à des biais importants, on peut douter de leur capacité à restituer précisément les sensibilités de l option. L approche comonotone nous a donc permis d évaluer le prix d une option d achat Européenne avec une précision supérieure aux approximations existantes. L approximation basée sur l identi cation des moments (MBA) induit une erreur très similaire à l erreur commise avec l approximation basée sur la borne inférieure CLB. Si l on tient compte de l e ort calculatoire supplémentaire induit pour évaluer la formule (5.48), on peut considérer que la méthode CLB est l approximation analytique la plus e cace pour déterminer le prix d une option Européenne en présence de dividendes discrets. 303
A Approximations du prix d un call Européen A.1 Formules de Black-Scholes-Merton (1973) Le prix d un call Européen en l absence de dividende est donné par la formule de Black et Scholes (1973) et Merton (1973) : C BSM (S 0 ; ; r; K; T ) = S 0 D + Ke rt D ; (5.52) où est la fonction de répartition de la loi normale standard et D = ln (S 0=K) + rt p T 1 2 p T : (5.53) En calculant les dérivées partielles de C BSM par rapport à S 0 on obtient le Delta et le Gamma de l option (Hull 2003) : BSM = @ S0 C BSM = D + ; BSM = @ 2 S 0 C BSM = ' (D+ ) S 0 p T ; (5.54) où ' est la densité de la loi normale standard, dé nie sur R par ' (x) = e x2 =2 = p 2. A.2 Ajustements du cours spot et/ou du strike Approximation "B75" (Black, 1975) Black (1975) suggère d évaluer le call Européen avec la formule (5.52) en remplaçant S 0 par S 0 D où D def = P m i=1 D ie rti est la valeur actuelle des dividendes futurs : C B75 (S 0 ; ; K; r; T ) = C BSM S 0 D; ; K; r; T : (5.55) Cette approche sous-estime les prix des calls de manière systématique. Approximation "BoV02" (Bos et Vandermark, 2002) Bos et Vandermark (2002) décomposent la valeur actuelle des dividendes futurs (i.e. D = P m i=1 D ie rti ) sous la forme D = ^D + D, où ^D et D sont des sommes pondérées des dividendes futurs actualisés dé nies par : ^D = mx i=1 t i T D ie rti ; X m D T = T i=1 t i D i e rti : (5.56) Par construction, ^D donne un poids plus important aux dividendes proches de la maturité T de l option, tandis que D surpondère les dividendes proches de la date d évaluation. Le prix d un call Européen est obtenu à partir de la formule (5.52) en remplaçant S 0 par S 0 D et K par K + ^De rt : C BoV02 (S 0 ; ; K; r; T ) = C BSM S 0 D; ; K + ^De rt ; r; T : (5.57) 304
Cette formule permet de réduire les biais d évaluation de manière signi cative par rapport à la formule (5.55). Toutefois, lorsque les dividendes deviennent arbitrairement élevés elle peut conduire à des erreurs non négligeables. A.3 Ajustements du cours spot et de la volatilité Approximation "BV01" (Beneder et Vorst, 2001) Beneder et Vorst (2001) ajustent le cours S 0 selon le procédé de Black et remplacent la volatilité par une volatilité ^, corrigée en fonction des dividendes attendus : C BV01 (S 0 ; ; K; r; T ) = C BSM S 0 D; ^; K; r; T : (5.58) La nouvelle volatilité est dé nie par la relation suivante 0! 2 ^ 2 = 1 mx @ S P 0 T m j=i D (t i t i 1) + 2 (T t m )1 A : (5.59) je rtj i=1 S 0 On constate que cette méthode est plus performante que la formule (5.55). Toutefois, cette solution repose sur des considérations empiriques, de sorte qu il n est pas possible de garantir la précision des résultats dans toutes les situations que l on peut rencontrer. Approximation "BGS03" (Bos, Gairat et Shepeleva, 2003) Cette approche repose sur le même principe que celle de Beneder et Vorst : l idée est de remplacer la volatilité dans la formule (5.55) par une volatilité ~ qui dépend des dividendes attendus et d ajuster simultanément le cours initial : C BGS03 (S 0 ; ; K; r; T ) = C BSM S 0 D; ~; K; r; T : (5.60) La variance modi ée ~ 2 est obtenue par la méthode des perturbations et admet la forme suivante : r h i ~ 2 ' 2 + 4e a2 =2 s 1 (a) + e b2 =2 2s 2 (b) ; (5.61) 2T avec a = ln S 0= Ke p T rt Les termes 1 (a) et 2 (b) sont donnés par : 1 (a) = 2 (b) = mx i=1 mx i;j=1 D i e rti (a) a + p T 2 ; b = a + p T 2 : t p i ; T D i D j e r(ti+tj) (b) b 2 min (t i ; t j ) p : T 305
Selon Haug et al. (2003), cette formule donne des résultats précis dans la plupart des situations rencontrées. Par contre, elle peut conduire à des erreurs signi catives lorsque les dividendes sont trop nombreux ou trop élevés. A.4 Modèle "HHL03" (Haug, Haug et Lewis, 2003) Les travaux de Haug et al. (2003) partent de l observation suivante : la plupart des approximations proposées dans la littérature sont obtenues à partir de considérations essentiellement empiriques et elles peuvent, dans certains cas, conduire à des prix arbitrables ou trop éloignés des prix observés. Les auteurs proposent alors un cadre d analyse rigoureux pour évaluer des options en présence de dividendes discrets. Pour cela, ils introduisent des dividendes dynamiques de la forme D i = (S i ; D i ), où S i est le cours avant le détachement, D i est le dividende attendu à la date t i et est une fonction qui dé nit la politique de dividende de la rme. La fonction est construite de la manière suivante : si le cours avant le détachement est supérieur au dividende attendu D i, alors le dividende est payé en intégralité et, dans le cas contraire, le montant du dividende est "revu à la baisse" de manière à ce que le cours après détachement reste positif : (x; Di ) = D i si x > D i ; : (x; D i ) D i si x D i La dynamique (5.1) doit être modi ée pour tenir compte de la politique de dividende : les termes déterministes D i sont remplacés par la fonction aléatoire (S i ; D i ) : m! X ds t = rs t (S i ; D i ) (t t i ) dt + S t dw t : (5.62) i=1 L approche précédente garantit (par construction) la survie du processus de prix à chaque date de dividende, ce qui permet de modéliser la dynamique des cours sur des horizons T arbitrairement longs. En contrepartie, elle rend la gestion des dividendes discrets relativement délicate, car chaque dividende devient une fonction de la trajectoire de l actif risqué. Ce modèle "benchmark" pour les dividendes constitue une analyse pertinente du problème posé par la présence de dividendes discrets et peut être étendu à des processus de prix plus complexes incluant des sauts ou une volatilité stochastique. Les auteurs n obtiennent pas de formule analytique pour le prix d une option Européenne, ce qui restreint la portée opérationnelle du modèle. Par contre, ils proposent un algorithme qui permet d approcher le prix cherché par des intégrations numériques successives (cf. Haug et al. 2003, Haug 2007). 306
Références Björk T. (2004). Arbitrage Theory in Continuous Time, Second Edition, Oxford University Press. Black F. (1975). Fact and Fantasy In The Use of Options, Financial Analysts Journal, pp. 36-72. Black F., Scholes M. (1973). The Pricing of Options And Corporate Liabilities, Journal of Political Economy, Vol. 81, pp. 36-72. Beneder R., Vorst T. (2001). Options on Dividend Paying Stocks, Proceedings of the International Conference on Mathematical Finance, Shanghai. Bos M., Vandermark S. (2002). Finessing xed dividends, Risk Magazine, Vol. 9, pp. 157-158. Bos R., Gairat A., Shepeleva A. (2003). Dealing with discrete dividends, Risk Magazine, Vol. 1, pp. 109-112. Dhaene J., Denuit M., Goovaerts M.J., Kaas R., Vyncke D. (2000a). The concept of comonotonicity in actuarial science and nance : Theory, Insurance : Mathematics And Economics, 31(1), pp. 3-33. Dhaene J., Denuit M., Goovaerts M.J., Kaas R., Vyncke D. (2000b). The concept of comonotonicity in actuarial science and nance : Applications, Insurance : Mathematics And Economics, 31(2), pp. 133-161. Frishling V. (2002). A discrete question, Risk Magazine, Vol. 15, pp. 115-116. Glasserman P. (2004). Monte Carlo methods in nancial engineering, Springer. Haug E.G., Haug J., Lewis A. (2003). Back to Basics : a New Approach to the Discrete Dividend Problem, Wilmott Magazine, pp. 37-47. Haug E.G. (2007). The Complete Guide to Option Pricing Formulas, Second Edition, McGraw-Hill. Hull J. (2003). Options, Futures, and Other Derivatives, Fifth Edition, Prentice Hall. Kaas R., Dhaene J., Goovaerts M.J. (2000). Upper and lower bounds for sums of random variables, Insurance : Mathematics And Economics, 27, pp. 151-158. Lecoutre J.-P. (1998). Statistiques et probabilités, Dunod. Merton R.C. (1973). Theory of Rational Option Pricing, Bell Journal Of Economics and Management Science, Vol. 4, pp. 141-183. Saporta G. (1990). Probabilités, Statistiques, Analyse des données, Technip. Vandu el S. (2005). Comonotonicity : From risk measurement to risk management, PhD Thesis, University of Amsterdam. Vandu el S., Chen X., Dhaene J., Goovaerts M., Henrard L., Kaas R. (2007). Optimal Approximations for Risk Measures of Sums of Lognormals based on Conditional Expectations, Journal of Computational and Applied Mathematics, to be published. Vandu el S., Hoedemakers T., Dhaene J. (2005). Comparing approximations for sums of non-independent lognormal random variables, North American Actuarial Journal, Vol. 9(4), pp. 71-82. Vyncke D., Goovaerts M., Dhaene J. (2004). An accurate analytical approximation for the price of a European-style arithmetic Asian option, Finance, Vol. 25, pp. 121-139. 307
Conclusion Générale Dans cette thèse nous avons étudié deux problématiques rencontrées par le praticien qui souhaite développer un système d évaluation des produits dérivés sur actions : la mise en œuvre des méthodes numériques et la modélisation des paramètres de marché. La première partie, divisée en deux chapitres, est consacrée à la mise en oeuvre des méthodes de simulation numérique Monte Carlo et Quasi-Monte Carlo pour évaluer des produits dérivés complexes. Elle insiste plus particulièrement sur le choix et sur l implémentation des générateurs uniformes, sur les techniques de simulation des variables gaussiennes scalaires et vectorielles et sur l utilisation des méthodes de réduction de variance pour accélérer la convergence des estimateurs. La seconde partie porte sur la modélisation des paramètres de marché qui interviennent dans la dynamique des prix d une action. Les deux premiers chapitres abordent respectivement la construction de la courbe des taux zéro-coupon et la construction de la surface de volatilité implicite sous l hypothèse d absence d opportunité d arbitrage. Le troisième chapitre porte sur l évaluation d une option Européenne en présence de dividendes discrets dont les montants sont connus à l avance. Synthèse des principaux résultats Nous rappelons ci-dessous les principaux résultats obtenus dans cette étude. Intégration probabiliste Monte Carlo Le générateur à opérations binaires Mersenne Twister MT19937 est tout à fait adapté à la simulation numérique intensive (Matsumoto et Nishimura 1998). En le combinant avec l approximation de la fonction inverse gaussienne proposée par Acklam (2000), on peut générer e cacement des réalisations indépendantes de la loi normale standard. Pour simuler des vecteurs gaussiens à composantes corrélées, nous conseillons de décomposer la matrice des corrélations avec l algorithme de triangulation de Cholesky. En n, la technique des variables anti- 308
thétiques et la technique de Monte Carlo adaptative peuvent être utilisées de manière systématique pour réduire la variance de l estimateur Monte Carlo. Intégration déterministe Quasi-Monte Carlo La suite de Richtmyer (1951) et la suite de Halton (1960) modi ée par Chi et al. (2005) sont deux générateurs quasi-aléatoires e caces qui permettent de traiter des problèmes d intégration numérique en dimension élevée. En randomisant ces suites à l aide d un générateur aléatoire, on peut mettre en œuvre la méthode dite de Quasi-Monte Carlo Randomisée, de pro ter de la convergence rapide de la méthode de Quasi-Monte Carlo et d estimer l erreur d intégration comme dans la méthode de Monte Carlo. Cette approche utilisée comme technique pour réduire la variance de l estimateur Monte Carlo s avère largement plus e cace que les méthodes de réduction de variance classiques. Construction d une courbe zéro-coupon Les courbes de taux zéro-coupon utilisées pour l évaluation des produits dérivés peuvent être construites à partir des taux de deposits et des taux de swaps, indexés sur des références de taux interbancaires. Lorsque l on interpole les taux zéro-coupon, il faut veiller à ne pas introduire d opportunité d arbitrage dans les données. L interpolation par splines cubiques naturels, fréquemment présentée dans la littérature, peut conduire à des courbes de taux arbitrables. Pour obtenir des courbes de taux non-arbitrables de manière systématique, on peut utiliser la méthode d interpolation RT-Linéaire (RTL) ou la méthode d interpolation RT-Cubique-Monotone (RTCM). La méthode RTL, bien connue des praticiens, conduit à des taux forwards instantanés discontinus. La méthode RTCM est une approche nouvelle basée sur les splines cubiques contraints. Elle permet d obtenir des taux forwards continus. Construction de la surface de volatilité implicite La surface de volatilité implicite contient une information précieuse sur la dynamique du sous-jacent. Construire cette surface est un problème "mal-posé", car on dispose de quelques prix d options pouvant présenter des arbitrages à partir desquels on doit générer une surface de volatilité complète et non-arbitrable. La procédure GSF proposée dans le chapitre permet d accomplir cette tâche en trois étapes. La première étape consiste à lisser et à extrapoler le smile de volatilité sur la première maturité avec le modèle SVI de Gatheral (2004). La seconde étape utilise les Thin Plate Splines (TPS) pour générer une surface de volatilité complète à partir du smile de la première maturité et des données observées aux autres maturités. La troisième étape permet de supprimer les arbitrages en opérant un lissage sous contraintes des prix d options (Fengler 2005b). 309
Evaluation d un call Européen en présence de dividendes discrets Lorsque les montants des dividendes sont connus à l avance, la détermination du prix d une option Européenne revient à calculer la transformée stop-loss d une somme de variables aléatoires lognormales dépendantes. En appliquant les résultats de la théorie actuarielle des risques comonotones nous avons obtenu une formule fermée qui permet : (i) d approcher le prix de l option avec une précision accrue par rapport aux approximations existantes et (ii) de déterminer le Delta et le Gamma de l option sous une forme explicite. La formule se généralise lorsque les montants de dividendes sont des fonctions a nes du sous-jacent. Perspectives et ouvertures Les produits dérivés comme source de diversi cation des portefeuilles Le montage de fonds à formule ne constitue pas la seule manière d investir sur des produits dérivés. On peut aussi envisager d utiliser les produits dérivés comme une classe d actifs à part entière permettant de diversi er des portefeuilles plus conventionnels. Une première façon consiste à investir sur des produits tels que les variance swaps ou les correlation swaps. Ce qui revient à parier non pas sur l évolution du cours d un titre (action ou obligation), mais sur l évolution d un paramètre statistique du marché qui, par dé nition, n est pas un actif négociable. Dans les périodes où les marchés ne présentent aucune tendance, les investissements classiques ne procurent que des rendements modestes, tandis que les investissements sur la volatilité ou la corrélation peuvent s avérer très rémunérateurs. Une seconde façon consiste à intégrer les produits structurés sur action/indice dans les stratégies d allocation de portefeuille. On peut alors chercher à déterminer un portefeuille optimal composé de titres purs et de produits dérivés sur ces titres qui introduisent une exposition non-linéaire à l évolution des marchés. Certaines banques d investissement ont commencé à travailler sur les problématiques soulevées par ce type d allocation hybride, notamment sur le choix de la mesure de risque (variance, Value-at-Risk... ) qui exerce une in uence considérable sur la composition du portefeuille optimal. Les techniques de simulation numérique L augmentation de la puissance de calcul des ordinateurs (généralisation des processeurs multi-cœurs) milite en faveur d un recours systématique aux techniques de simulation numérique. Cela va permettra aux spécialistes des produits dérivés de travailler sur des modèles de marché toujours plus réalistes et d évaluer avec précision des payo exotiques de plus en plus complexes. 310
On peut penser que les techniques de simulation aléatoire vont, elles aussi, évoluer au cours des années à venir. Au sujet des générateurs de nombres aléatoires, deux évolutions semblent se dessiner. La première concerne la conception des générateurs qui sera de plus en plus élaborée autour de l architecture interne des ordinateurs. La thèse de Panneton (2004) donne une idée de ce que seront les générateurs du futur. La seconde évolution se situe au niveau de la nature même des générateurs. Certains spécialistes envisagent en e et de réaliser les simulations numériques avec des générateurs cryptographiques, aujourd hui utilisés pour sécuriser des données sensibles (Sugita 2004). Cela représente un véritable dé, car si ces générateurs sont plus imprédictibles que les générateurs "classiques", ils sont, pour l instant, nettement plus lents. Les modèles de marché Les modèles de marché que l on utilise aujourd hui sont particulièrement complexes et pourtant ils ne parviennent pas à capturer certaines propriétés des séries nancières telles que la présence de mémoire longue dans la volatilité (Cont 2001). A ce propos, les processus multifractals tels que le modèle MMAR (Multifractal Model of Asset Returns) proposé par Calvet et Fisher (2001, 2002) semblent donner des résultats très réalistes. Mais ces modèles ne permettent pas encore d évaluer les produits optionnels. Une autre voie de modélisation envisageable est celle des modèles à facteurs de risques. On sait que certains chi res économiques (taux de chômage, variation des taux directeurs des banques centrales, taux d in ation... ) peuvent avoir un impact non négligeable sur l évolution des taux d intérêt ainsi que sur les cours boursiers. Intégrer de manière exhaustive l ensemble de ces facteurs de risques dans un modèle de marché est une tâche irréalisable. En revanche, on peut tenter d isoler les principaux facteurs de risques qui in uencent l évolution de la variable qui nous intéresse par une méthode statistique telle que l Analyse en Composantes Principales. Cette approche donne des résultats prometteurs pour identi er les facteurs de risques qui expliquent les déformations de la courbe de taux (Martellini et Priaulet 2004) ou de la surface de volatilité implicite (Hafner 2004, Fengler 2005a). Les modèles de marché à facteurs de risques semblent constituer une voie de modélisation intéressante, car ils permettent de s a ranchir des contraintes imposées par les modèles paramétriques. 311
Bibliographie [1] Aboura S. (2005). Les Modèles de volatilité et d options, Publibook. [2] Acklam P.J. (2000). An algorithm for computing the inverse normal cumulative distribution function, Technical Paper, http://home.online. no/~pjacklam/notes/invnorm/. [3] Adams K. (2001). Smooth Interpolation of Zero Curves, Algo Research Quarterly, Vol. 4, pp. 11-22. [4] Alentorn A. (2004). Modelling the implied volatility surface : an empirical study for FTSE options, Working Paper, Centre of Computational Finance and Economic Agents, University of Essex, http://privatewww. essex.ac.uk/~aalent/. [5] Almeida C., Vicente J. (2007). The Role of No-Arbitrage on Forecasting Lessons from a Parametric Term Structure Model, Working Paper, No. 657, Graduate School of Economics, Rio de Janeiro. [6] AMF (2002). La régulation des OPCVM à formule, Bulletin Mensuel COB, No. 374, Décembre, http://www.amf-france.org/documents/ general/4423_1.pdf. [7] AMF (2003a). Valorisation des instruments dérivés complexes utilisés en gestion pour compte de tiers, Bulletin Mensuel COB, No. 381, Juillet Août, http://www.amf-france.org/documents/general/4755_1.pdf. [8] AMF (2003b). La valorisation des instruments dérivés complexes - Point sur les moyens à mettre en œuvre, Document d Information, Autorité des Marchés Financiers, http://www.amf-france.org/documents/ general/5078_1.pdf. [9] AMF (2004). Présentation règlement de l AMF modi ant le règlement de la COB n 2003-08, Revue Mensuelle de l Autorité des Marchés Financiers, No. 1, http://www.amf-france.org/documents/general/5311_ 1.pdf. [10] AMF (2007a). Règlement Général De l Autorité des Marchés Financiers Livre IV Produits d Epargne Collective, Autorité des Marchés Financiers, http://www.amf-france.org/documents/general/8091_1.pdf. [11] AMF (2007b). Le Prospectus, Document d Information, Autorité des Marchés Financiers, http://www.amf-france.org/documents/ general/7709_1.pdf. 312
[12] Andersen L., Brotherton-Ratcli e R. (1997). The equity option volatility smile : an implicit nite-di erence approach, Journal of Computational Finance, Vol. 1, No. 2, pp. 5-38. [13] Argou P. (2003). Construction des Distributions de Rendements de Produits Structurés Complexes, Mémoire d actuaire, Institut de Science Financière et d Assurances, Université Claude Bernard Lyon 1. [14] Argou P. (2006). Construction de Surfaces de Volatilité pour l Evaluation de Produits Structurés Complexes et Introduction aux Nouveaux Instruments Dérivés de Volatilité, Mémoire de DEA, Institut de Science Financière et d Assurances, Université Claude Bernard Lyon 1. [15] Arouna B. (2004). Adaptative Monte Carlo Method, A Variance Reduction Technique, Monte Carlo Methods and Applications, Vol. 10, No. 1, pp. 1-24. [16] Augros J.-C., Moreno M. (2002). Les Dérivés Financiers et d Assurance, Economica. [17] Bachman G., Narici L., Beckenstein E. (2000). Fourier and Wavelet Analysis, Springer-Verlag, New York. [18] Bakshi G., Cao C., Chen Z. (1997). Empirical Performance of Alternative Option Pricing Models, Journal of Finance, Vol. 52, pp. 2003-2049. [19] Bates D.S. (1996). Jumps and Stochastic Volatility : Exchange Rate Process Implicit in Deutsche Mark Option, Review of Financial Studies, Vol.9, No. 1, pp. 69-107. [20] Bates D.S. (2000). Post- 87 crash fears in the S&P500 futures option market, Journal of Econometrics, Vol. 94, pp. 181-238. [21] Beasley J.D., Springer S.G. (1977). Algorithm AS 111. The percentage points of the normal distribution, Applied Statistics, 26, pp. 118-121. [22] Bekker P.A., Bouwman K.E. (2007). Arbitrage Smoothing in Fitting a Sequence of Yield Curves, Working Paper, Department of Economics, University of Groningen. [23] Beneder R., Vorst T. (2001). Options on Dividend Paying Stocks, Proceedings of the International Conference on Mathematical Finance, Shanghai. [24] Benhamou E. (2007). Global Derivatives Products, Theory and Practice, World Scienti c. [25] Benko M. (2006). Functional Data Analysis with Applications in Finance, Ph.D. Thesis, Humboldt-Universität, Berlin. [26] Bernadell C., Coche J., Nyholm K. (2005). Yield Curve Prediction for The Strategic Investor, ECB Working Paper Series, No. 472, European Central Bank, Frankfurt am Main. [27] BIS (2005). Zero-Coupon Yield Curves : Technical Documentation, Bank for International Settlements, Basle. 313
[28] Björk T. (2004). Arbitrage Theory in Continuous Time, Second Edition, Oxford University Press. [29] Björk T., Christensen B. (1999). Interest Rate Dynamics and Consistent Forward Rate Curves, Mathematical Finance, pp. 323-348. [30] Black F. (1975). Fact and Fantasy In The Use of Options, Financial Analysts Journal, pp. 36-72. [31] Black F., Scholes M. (1973). The Pricing of Options And Corporate Liabilities, Journal of Political Economy, Vol. 81, pp. 36-72. [32] Bliss R.R. (1997). Testing Term Structure Estimation Methods, Advances in Futures and Options Research, Vol. 9, pp. 197-231. [33] Bolder D.J., Gusba S. (2002). Exponentials, Polynomials, and Fourier Series : More Yield Curve Modelling at the Bank of Canada, Working Paper 2002-29, Bank of Canada. [34] Bos M., Vandermark S. (2002). Finessing xed dividends, Risk Magazine, Vol. 9, pp. 157-158. [35] Bos R., Gairat A., Shepeleva A. (2003). Dealing with discrete dividends, Risk Magazine, Vol. 1, pp. 109-112. [36] Bouchard-Denize B. (2006). Méthodes de Monte Carlo en Finance, Notes de cours, Université de Paris VI. [37] Bouleau N., Lépingle D. (1993). Numerical methods for stochastic processes, John Wiley & Sons Ltd. [38] Boyle P.P. (1977). Option : a Monte Carlo approach, Journal of Financial Economics, Vol. 4, pp. 323-338. [39] Boyle P.P., Broadie M., Glasserman P. (1995). Recent Advances in Simulation For Security Pricing, Proceedings of the 1995 Winter Simulation Conference. [40] Boyle P.P., Tan K.S. (1997). Quasi-Monte Carlo Methods, Proceeding of AFIR Conference in Cairns, Australia. [41] Breeden D.T., Litzenberger R.H. (1978). Price of contingent claims implicit in options prices, Journal of Business, Vol. 51, pp. 621-651. [42] Brigo D., Mercurio F. (2006). Interest Rate Models - Theory and Practice, With Smile, In ation and Credit, Springer. [43] Brown G., Randall C. (1999). If the skew ts, Risk Magazine, Vol. 12, pp. 62-65. [44] Bruno M.G. (1991). Calculation methods for evaluating asian options, Working Paper. [45] Buehler H. (2006). Expensive Martingales, Quantitative Finance, Vol. 6, No. 2, pp. 207-218. [46] Calvet L., Fisher A. (2001). Forecasting multifractal volatility, Journal of Econometrics 105 (1), pp. 27-58. 314
[47] Calvet L., Fisher A. (2002). Multifractality in asset returns : Theory and evidence, The Review of Economics and Statistics, Vol. 84, No. 3, pp. 381-406. [48] Carr P., Madan D.P. (2005). A note on su cient conditions for no arbitrage, Finance Research Letters, Vol. 2, No. 3, pp. 125-130. [49] Chazot C., Claude P. (1995). Les swaps, Concepts et Applications, Seconde Edition, Economica. [50] Chen C.-M., Bhatia R., Sinha R.K. (2003). Multidimensional Declustering Schemes using Golden Ratio and Kronecker Sequences, IEEE Transactions on Knowledge and Data Engineering, pp. 659-670. [51] Cherif M. (2000). Les taux d intérêt, Banqueéditeur. [52] Chi H. (2004). Scrambled Quasirandom Sequences And Their Applications, PhD Thesis, The Florida State University. [53] Chi H., Mascagni M., Warnock T. (2005). On the optimal Halton sequence, Mathematics and Computers in Simulation 70, pp. 9-21. [54] Christie D. (2003). Accrued Interest & Yield Calculations and Determination of Holiday Calendars, Technical Document, SWX Swiss Exchange. [55] Coleman T.F., Li Y., Verma A. (1999). Reconstructing The Unknown Local Volatility Function, Journal of Computational Finance, Vol. 2, No. 3, pp. 77-102. [56] Cont R. (2001). Empirical properties of asset returns : Stylized facts and statistical issues, Quantitative Finance, Vol. 1, No. 2, pp. 223-236. [57] Coroneo L., Nyholm K., Vidova-Koleva R. (2008). How Arbitrage-Free Is The Nelson-Siegel Model?, ECB Working Paper Series, No. 874, European Central Bank, Frankfurt am Main. [58] Corrado C.J., Su T. (1998). An Empirical Test of Hull-White Option Pricing Model, Journal of Futures Markets, Vol. 4, pp. 363-378. [59] Coulibaly I. (1997). Contributions à l analyse numérique des méthodes quasi-monte Carlo, Thèse de Doctorat, Université Joseph Fourier- Grenoble 1. [60] Cox J.C., Ross S.A. (1976). The valuation of options for alternative stochastic processes, Journal of Financial Economics, Vol. 3, Issues 1-2, pp. 145-166. [61] Cox J.C. (1996). The constant elasticity of variance option pricing model, Journal of Portfolio Management, pp. 15-17. [62] Cranley R., Patterson T.N.L. (1976). Randomization of Number Theoretic Methods for Multiple Integration, SIAM Journal on Numerical Analysis, Vol. 13, No. 6, pp. 904-914. [63] Crozet M. (2007). Reconstruction de nappes de volatilité implicite, Mémoire d Actuariat, Université Paris Dauphine. 315
[64] Daglish T., Hull J.C., Suo W. (2007). Volatility Surfaces : Theory, Rules of Thumb, and Empirical Evidence, Quantitative Finance, Vol. 7, No. 5, pp. 507-524. [65] Da Silva M.E., Barbe T. (2005). Quasi Monte Carlo in Finance : Extending for High Dimensional Problems, Economia Aplicada, Vol. 9, No. 4, pp. 577-594. [66] Demeter K., Derman E., Kamal M., Zou J. (1999). More Than You Ever Wanted To Know About Volatility Swaps, Quantitative Strategies Research Notes, Goldman Sachs. [67] De Pooter M. (2007). Examining the Nelson-Siegel Class of Term Structure Models, Tinbergen Institute Discussion Paper, Faculty of Economics, Erasmus University, Rotterdam. [68] De Pooter M., Ravazzolo F., Van Dijk D. (2007). Predicting the Term Structure of Interest Rates, Working Paper, Econometric Institute and Tinbergen Institute, Erasmus University, Rotterdam. [69] Derman E., Kani I. (1994a). The Volatility Smile and Its Implied Tree, Quantitative Strategies Research Notes, Goldman Sachs. [70] Derman E., Kani I. (1994b). Riding On a Smile, Risk Magazine, Vol. 7, pp. 32-39. [71] Devroye L. (1986). Non-Uniform Random Variate Generation, Springer- Verlag, New York. [72] Dhaene J., Denuit M., Goovaerts M.J., Kaas R., Vyncke D. (2000a). The concept of comonotonicity in actuarial science and nance : Theory, Insurance : Mathematics And Economics, 31(1), pp. 3-33. [73] Dhaene J., Denuit M., Goovaerts M.J., Kaas R., Vyncke D. (2000b). The concept of comonotonicity in actuarial science and nance : Applications, Insurance : Mathematics And Economics, 31(2), pp. 133-161. [74] Diebold F., Li C. (2006). Forecasting the term structure of government bond yields, Journal of Econometrics 130, pp. 337-364. [75] Diebold F., Li C., Yue V.Z. (2006). Global Yield Curve Dynamics and Interactions : A Generalized Nelson-Siegel Approach, Working Paper, http://www.ssc.upenn.edu/~fdiebold. [76] Drmota M., Tichy R.F. (1997). Sequences, Discrepancies, and Applications, Lecture Notes in Mathematics 1651, Springer-Verlag. [77] Duchon J. (1976). Splines Mimizing Rotation-Invariant Semi-Norms In Sobolev Spaces, Constructive Theory of Functions of Several Variables, Vol. 1, pp. 85-100. [78] Dumas B., Fleming J., Whaley R.E. (1998). Implied volatility functions : empirical tests, Journal of Finance, Vol. 53, No. 6, pp. 2059-2106. [79] Dupire B. (1994). Pricing with a smile, Risk Magazine, Vol. 7, pp. 18-20. [80] Eberly D. (2002). Thin Plate Splines, Technical Paper, Geometric Tools, Inc., http://www.geometrictools.com. 316
[81] ECB (2007). General description of ECB yield curve methodology, European Central Bank, Frankfurt am Main. [82] Faure H. (1981). Discrépance de suites associées à un système de numération (en dimension 1), Bulletin de la S.M.F., Tome 109, pp. 143-182. [83] Faure H. (1982). Discrépance de suites associées à un système de numération (en dimension s), Acta Arithmetica, Vol. 41, pp. 337-351. [84] Faure H., Lemieux C. (2007). Generalized Halton Sequences in 2007 : A Comparative Study, Papier de Recherche, Institut Mathématique de Luminy, http://iml.univ-mrs.fr/editions/preprint2007/files/ faure_hfl.pdf. [85] Fengler M.R. (2005a). Semiparametric Modeling of Implied Volatility, Springer-Verlag. [86] Fengler M.R. (2005b). Arbitrage-Free Smoothing of the Implied Volatility Surface, SFB 649 Discussion Paper 2005-019, Humboldt-Universität, Berlin. [87] Finschi L. (1996). Quasi-Monte Carlo : An Empirical Study on Low-Discrepancy Sequences, Working Paper, Eidgenössische Technische Hochschule Zürich. [88] Fishman G.S., Huang B.D. (1983). Antithetic Variates Revisited, Communications of the ACM, 26, pp. 964-971. [89] Frishling V. (2002). A discrete question, Risk Magazine, Vol. 15, pp. 115-116. [90] Fritsch F.N., Butland J. (1984). A Method For Constructing Local Monotone Piecewise Cubic Interpolation, SIAM Journal on Scienti c Computing, Vol. 5, No. 2, pp. 300-304. [91] Fritsch F.N., Carslon R.E. (1980). Monotone Piecewise Cubic Interpolation, SIAM Journal on Numerical Analysis, Vol. 17, No. 2, pp. 238-246. [92] Galanti S., Jung L. (1997). Low Discrepancy Sequences : Monte Carlo Simulation of Option Prices, The Journal Of Derivatives, pp. 63-83. [93] Gasparo M.G., Morandi R. (1991). Piecewise Cubic Monotone Interpolation with Assigned Slopes, Computing, Vol. 46, pp. 355-365. [94] Gatheral J. (2004). A parsimonious arbitrage-free implied volatility parameterisation with application to the valuation of volatility derivatives. In TDTF Derivatives Day, Amsterdam. [95] Gatheral J. (2006). The Volatility Surface : A Practitioner s Guide, Wiley Finance. [96] Gentle J.E. (2003). Random Number Generation and Monte Carlo Methods, Second Edition, Springer-Verlag. [97] Geyer A., Mader R. (1999). Estimation of the Term Structure of Interest Rates : A Parametric Approach, OeNB Working Paper Series, No. 37, Oesterreichische Nationalbank. 317
[98] Glasserman P. (2004). Monte Carlo methods in nancial engineering, Springer. [99] Haber S. (1966). A Modi ed Monte-Carlo Quadrature, Mathematics of Computation, Vol. 20, No. 95, pp. 361-368. [100] Haber S. (1970). Numerical Evaluation of Multiple Integrals, SIAM Review, Vol. 12, No. 4, pp. 481-526. [101] Hafner R. (2004). Stochastic Implied Volatility : A Factor-Based Model, Springer-Verlag. [102] Hafner R., Wallmeier M. (2001). The Dynamics of DAX Implied Volatilities, International Quarterly Journal of Finance, Vol. 1, No. 1, pp. 1-27. [103] Hagan P.S., West G. (2006). Interpolation Methods For Curve Construction, Applied Mathematical Finance, Vol. 13, No. 2, pp. 89-129. [104] Halton J.H. (1960). On the e ciency of certain quasi-random sequences of points in evaluating multi-dimensional integrals, Numerische Mathematik 2, pp. 84-90. [105] Hammersley J.M., Handscomb D.C. (1964). Monte Carlo Methods, Methuen, London. [106] Hammersley J.M., Morton K.W. (1956). A New Monte Carlo Technique : Antithetic Variates, Proceedings of the Cambridge Philosophical Society, 52, pp. 449-475. [107] Harrison J., Kreps D. (1979). Martingales and arbitrage in multiperiod securities markets, Journal of Economic Theory, Vol. 20, pp. 381-408. [108] Harrison J., Pliska S. (1981). Martingales and stochastic integral in the theory of continuous trading, Stochastic Processes and their Applications, Vol. 11, pp. 215-260. [109] Haug E.G., Haug J., Lewis A. (2003). Back to Basics : a New Approach to the Discrete Dividend Problem, Wilmott Magazine, pp. 37-47. [110] Haug E.G. (2007). The Complete Guide to Option Pricing Formulas, Second Edition, McGraw-Hill. [111] Heng L., Qinghua L., Fengshan B. (2005). A Class of Random Number Generators Based on Weyl Sequence, Applied Mathematics-A Journal of Chinese Universities, Vol. 20, No. 4, pp. 483-490. [112] Hentschel L. (2003). Errors in Implied Volatility Estimation, Journal of Financial and Quantitative Analysis, Vol. 38, Issue 4, pp. 779-810. [113] Herring C., Palmore J.I. (1989). Random Number Generators Are Chaotic, Communications of the ACM, 38, pp. 121-127. [114] Heston S. (1993). A Closed-Form Solution for Options with Stochastic Volatility with Applications to Bond and Currency Options, The Review of Financial Studies, Vol. 6, No. 2, pp. 327-343. 318
[115] Hofbauer H., Uhl A., Zinterhof P. (2006a). Zinterhof Sequences in GRID- Based Numerical Integration, Monte Carlo and Quasi-Monte Carlo Methods 2006 (A. Keller, S. Heinrich, H. Niederreiter Eds.), Springer, pp. 495-510. [116] Hofbauer H., Uhl A., Zinterhof P. (2006b). A Pragmatic View on Numerical Integration of Unbounded Functions, Monte Carlo and Quasi-Monte Carlo Methods 2006 (A. Keller, S. Heinrich, H. Niederreiter Eds.), Springer, pp. 511-528. [117] Hofstetter E., Selby M.J.P. (2001). The Logistic Function and Implied Volatility : Quadratic Approximation and Beyond, Working Paper, Warwick Business School, University of Warwick, United Kingdom. [118] Hull J. (2003). Options, Futures, and Other Derivatives, Fifth Edition, Prentice Hall. [119] Hull J., White A. (1987). The Pricing of Options on Assets with Stochastic Volatilities, The Journal of Finance, Vol. 42, pp. 281-300. [120] ISDA (2006). 2006 ISDA De nitions, International Swaps And Derivatives Association, http://www.isda.org/. [121] Jäckel P. (2002). Monte Carlo methods in nance, John Wiley & Sons. [122] Jäckel P. (2006). By Implication, Working Paper, http://www.jaeckel. org/byimplication.pdf. [123] Jacod J., Protter P. (2003). L essentiel en théorie des probabilités, Cassini. [124] James F., Hoogland, J., Kleiss R. (1997). Multidimensional sampling for simulation and integration : measures, discrepancies, and quasi-random numbers, Computer Physics Communications, Vol. 99, No. 2, pp-180-220. [125] Judd K.L. (1998). Numerical Methods in Economics, The MIT Press. [126] Judd K.L. (2006). O Curse of Dimensionality, Where is Thy Sting?, Proceedings of CEF2006, Cyprus. [127] Kaas R., Dhaene J., Goovaerts M.J. (2000). Upper and lower bounds for sums of random variables, Insurance : Mathematics And Economics, 27, pp. 151-158. [128] Kalev P. (2004). Estimating and Interpreting Zero Coupon and Forward Rates : Australia 1992-2001, Working Paper, Department of Accounting and Finance, Monash University. [129] Kermiche L. (2007). Une modélisation de la surface de volatilité implicite par processus à sauts, Communication, AFFI 2007. [130] Klimasauskas C. (2003a). Not Knowing Your Random Number Generator Could Be Costly : Random Generators - Why Are They Important, Information Article, Advanced Technology For Developers Group, http://www.klimasauskas.com/pub_rng.php. [131] Klimasauskas C. (2003b). Testing Your Random Number Generator, Information Article, Advanced Technology For Developers Group, http: //www.klimasauskas.com/pub_rng.php. 319
[132] Knuth D.E. (1998). The Art of Computer Programming, Volume 2 : Seminumerical Algorithms, Third edition, Addison-Wesley. [133] Kocis L., Whiten W.J. (1997). Computational investigations of lowdiscrepancy sequences, ACM Transactions on Mathematical Software 23, No. 2, pp. 266-294. [134] Korn R., Korn E. (2001). Option Pricing and Portfolio Optimization : Modern Methods of Financial Mathematics, Graduate Studies in Mathematics, Vol. 31, American Mathematical Society. [135] Kou S. (2002). A jump di usion model for option pricing, Management Science, Vol. 48, pp. 1086-1101. [136] Kruger C.J.C. (2003). Constrained Cubic Spline Interpolation for Chemical Engineering Applications, http://www.korf.co.uk/spline.pdf. [137] Kuipers L., Niederreiter H. (1974). Uniform Distribution of Sequences, John Wiley & Sons. [138] Lachaud A., Leclanche G. (2003). Génération de nombres aléatoires par numérisation d impulsions radiatives, Rapport de n d études, Maîtrise d Electronique, Université de Limoges. [139] Lamberton D., Lapeyre B. (1997). Introduction au calcul stochastique appliqué à la nance, Ellipse. [140] Langlois M. (1999). Cryptographie quantique - solution au problème de distribution de clefs secrètes, Papier de recherche, Université d Ottawa. [141] Larcher G. (1988). On the distribution of s-dimensional Kronecker sequences, Acta Arithmetica, Vol. 51, pp. 335-347. [142] Laurent J.-P., Leisen D. (1998). Building a Consistent Pricing Model from Observed Option Prices, Stanford University, Hoover Institution, Discussion Paper No. B-443. [143] Laurini M.P. (2007). Imposing No-Arbitrage Conditions In Implied Volatility Surfaces Using Constrained Smoothing Splines, Ibmec Working Paper, wpe_87, Ibmec São Paulo. [144] Lebrere A., Talhi R., Tripathy M., Pyée M. (2001). A quick and easy improvement of Monte Carlo codes for simulation, Proceedings of ISSS- 6. [145] Lecoutre J.-P. (1998). Statistiques et probabilités, Dunod. [146] Lee R.W. (2004). The Moment Formula for Implied Volatility at Extreme Strikes, Mathematical Finance, Vol. 14, No. 3, pp. 469-480. [147] Lee R.W. (2005). Implied Volatility : Statics, Dynamics, and Probabilistic Interpretation, Recent Advances in Applied Probability (R. Baeza-Yates, J. Glaz, H. H. Gzyl, J. Hüsler, J.L. Palacios Eds.), Springer, pp. 241-268. [148] Lemieux C. (2008). Monte Carlo and Quasi-Monte Carlo Sampling, Springer (to appear). 320
[149] Lempereur P. (2004). Pricing et couverture dans un modèle de Bates, Mémoire d Actuariat, Ecole Nationale de la Statistique et de l Administration Economique. [150] Lewis A. (2000). Option Valuation under stochastic Volatility (With Mathematica Code), Finance Press, Newport Beach, Califormia, USA. [151] L Ecuyer P. (1988). E cient and Portable Combined Random Number Generators, Communications of the ACM, 31, pp. 742-749 and 774. [152] L Ecuyer P. (1996). Combined Multiple Recursive Generators, Operations Research, Vol. 44, No. 5, pp. 816-822. [153] L Ecuyer P. (1998a). Random Number Generators and Empirical Tests, Lecture Notes in Statistics 127, Springer-Verlag, pp. 124-138. [154] L Ecuyer P. (1998b). Uniform Random Number Generators, Proceedings of the 1998 Winter Simulation Conference, IEEE Press, pp. 97-104. [155] L Ecuyer P. (1999). Good parameters and implementations for combined multiple recursive random number generators, Research Paper, Université de Montréal - DIRO. [156] L Ecuyer P. (2001). Software for uniform random number generation : distinguishing the good and the bad, Proceedings of the 2001 Winter Simulation Conference, IEEE Press, pp. 95-105. [157] L Ecuyer P. (2004a). Random Number Generation, Chapter 2 of the Handbook of Computational Statistics, (J.E. Gentle, W. Haerdle, and Y. Mori Eds.), Springer-Verlag, pp. 35-70. [158] L Ecuyer P. (2004b). Quasi-Monte Carlo Methods in Finance, Proceedings of the 2004 Winter Simulation Conference. [159] L Ecuyer P., Panneton F. (2000). A New Class of Linear Feedback Shift Register Generators, Proceedings of the 2000 Winter Simulation Conference, pp. 690-696. [160] L Ecuyer P., Simard R. (2005). TestU01 - A software Library in ANSI C for Empirical Testing of Random Number Generators, User s guide (compact version), Université de Montréal - DIRO, http://www.iro. umontreal.ca/~simardr/. [161] Lyche T., Mørken K. (2006). Spline Methods, Lecture Notes, Department of Informatics, University of Oslo http://home.ifi.uio.no/tom. [162] Martellini L., Priaulet P. (2004). Produits de taux d intérêt, Méthodes dynamiques d évaluation et de couverture, Seconde Edition, Economica. [163] Marsaglia G. (1996). DIEHARD, a battery of tests of randomness, http: //www.stat.fsu.edu/pub/diehard/. [164] Marsaglia G. (2003). Seeds for random number generators, Communications of the ACM, 46, pp. 90-93. [165] Matsuda K. (2004). Introduction to Merton Jump Di usion Model, Working Paper, Department of Economics, The Graduate Center, New York, http://www.maxmatsuda.com/. 321
[166] Matsumoto M., Kurita Y. (1992). Twisted GFSR generators, ACM Transactions on Modeling and Computer Simulation, 2, pp. 179-194. [167] Matsumoto M., Kurita Y. (1994). Twisted GFSR generators II, ACM Transactions on Modeling and Computer Simulation, 4, pp. 254-266. [168] Matsumoto M., Nishimura T. (1998). Mersenne Twister : A 623- dimensionally equidistributed uniform pseudorandom number generator, ACM Transactions on Modeling and Computer Simulation, 8, pp. 3-30. [169] McCulloch J.H. (1971). Measuring the term structure of interest rates, The Journal of Business, Vol. 44, pp. 19-31. [170] McCulloch J.H. (1975). The tax-adjusted yield curve, The Journal of Finance, Vol. 30, pp. 811-830. [171] McIntyre M.L. (2001). Performance of Dupire s implied di usion approach under sparse and incomplete data, Journal of Computational Finance, Vol 4., No. 4, pp. 33-84. [172] Merton R.C. (1973). Theory of Rational Option Pricing, Bell Journal Of Economics and Management Science, Vol. 4, pp. 141-183. [173] Merton R.C. (1976). Option pricing when underlying stock returns are discontinuous, Journal of Financial Economics, Vol. 3, pp. 125-144. [174] Metropolis N., Ulam S.M. (1949). The Monte Carlo method, Journal of the American Statistical Association, Vol. 44, No. 247, pp. 335-341. [175] Microsoft (2004). How Visual Basic Generates Pseudo-Random Numbers for the Rnd Function, Knowledge Base Article 231847, http://support. microsoft.com/default.aspx?scid=kb;en-us;231847. [176] Microsoft (2005). Rnd and Randomize Alternatives for Generating Random Numbers, Knowledge Base Article 28150, http://support. microsoft.com/default.aspx?scid=kb;en-us;28150. [177] Microsoft (2006). Description of the RAND function in Excel 2003, Knowledge Base Article 828795, http://support.microsoft. com/default.aspx?scid=kb;en-us;828795. [178] Moro B. (1995). The Full Monte, Risk Magazine, Vol. 8, pp. 57-58. [179] Moroko W.J., Ca isch R.E. (1994). Quasi-random sequences and their discrepancies, SIAM Journal on Scienti c Computing, Vol. 15, pp. 1251-1279. [180] Muselia M., Rutkowski M. (1997). Continuous-time term structure models : Forward measure approach, Finance and Stochastics, Vol. 1, No. 4, pp. 261-291. [181] Neave H.R. (1973). On using the Box-Muller tranformation with multiplicative congruential pseudo-random number generators, Applied Statistics, 22, pp. 92-97. [182] Nelson C.R., Siegel A.F. (1987). A parsimonious modeling of yield curve, Journal of Business, Vol. 60, No. 4, pp. 473-489. 322
[183] Niederreiter H. (1972). On a number-theoretical integration method, Aequationes Mathematicae 8, pp. 304-311. [184] Niederreiter H. (1978). Quasi-Monte Carlo methods and pseudo-random numbers, Bulletin of the American Mathematical Society, Vol. 84, No. 6, pp. 957-1041. [185] Niederreiter H. (1992). Random Number Generation and Quasi-Monte Carlo Methods, SIAM-CBMS Lecture Notes 63. [186] Niven I. (1956). Irrational Numbers, The Mathematical Association of America. [187] Ökten G. (1997). Contributions to the Theory of Monte Carlo and Quasi- Monte Carlo Methods, PhD Thesis, Claremont Graduate University. [188] Ökten G.,Tu n B., Burago V. (2005). A Central Limit Theorem and improved error bounds for a hybrid-monte Carlo sequence with applications in computational nance, Inria, Rapport de recherche No. 5600. [189] Overhaus M., Bermúdez A., Buehler H., Ferraris A., Jordinson C., Lamnouar A. (2007). Equity hybrid derivatives, Wiley Finance. [190] Overhaus M., Rerraris A., Knudsen T., Milward R., Nguyen-Ngoc L., Schindlmayr G. (2002). Equity Derivatives Theory and Applications, Wiley Finance. [191] Owen A.B. (2004). Multidimensional variation for quasi-monte Carlo, Research Paper, http://www-stat.stanford.edu/~owen/reports/. [192] Owen A.B. (2005). On the Warnock-Halton quasi-standard error, Research Paper, http://www-stat.stanford.edu/~owen/reports/. [193] Pagès G., Xiao Y.-J. (1997). Sequences with low discrepancy and pseudorandom numbers : theoretical results and numerical tests, Journal of Statistical Computation and Simulation, Vol. 56, pp. 163-188. [194] Panneton F. (2004). Construction d ensembles de points basée sur des récurrences linéaires dans un corps ni de caractéristique 2 pour la simulation Monte Carlo et l intégration quasi-monte Carlo, Thèse de Doctorat, Université de Montréal. [195] Papageorgiou A., Traub J.F. (1996). Beating Monte Carlo, Risk Magazine, Vol. 9, pp. 63-65. [196] Papageorgiou A., Traub J.F. (1997). Faster Evaluation of Multidimensional Integrals, Working Paper, Department of Computer Science, Columbia University New-York. [197] Park S.K., Miller K.W. (1988). Random Number Generators : Good Ones Are Hard To Find, Communications of the ACM, 31, pp. 1192-1201. [198] Paskov S.H. (1994). Computing High Dimensional Integrals with Applications to Finance, Technical Report CUCS-023-94, Department of Computer Science Columbia University. [199] Patard P.-A. (2001). Evaluation de Swaps Structurés sur Actions et Indices, Mémoire d actuaire, Institut de Science Financière et d Assurances, Université Claude Bernard Lyon 1. 323
[200] Patard P.-A. (2003). Modélisation des Dividendes sur Actions et Indices, Mémoire de DEA, Institut de Science Financière et d Assurances, Université Claude Bernard Lyon 1. [201] Pauletto P. (2001). Parallel Monte Carlo Methods for Derivative Security Pricing, in Numerical Analysis and Its Applications (L. Vulkov, J. Wasnievski and P. Yalamov Eds.), Lecture Notes in Computer Science, Vol. 1988, Springer-Verlag, pp. 650-657. [202] Planchet F., Winter J. (2007). L utilisation des splines bidimensionnels pour l estimation de lois de maintien en arrêt de travail, Bulletin Français d Actuariat, Vol. 7, No. 13, pp. 83-106. [203] Press W.H., Teukolsky S.A., Vetterling W.T., Flannery B.P. (2002). Numerical Recipes in C++, the art of scienti c computing, Second Edition, Cambridge University Press. [204] Ramponi A., Lucca K. (2003). On a generalized Vasicek-Svensson model for the estimation of the term structure of interest rates, IV Workshop Finanza Quantitativa, Torino. [205] Randjiou Y. (2002). Jump Di usion Processes Applied to Exotics Pricing and the Market Model, Présentation, Séminaire Bachelier, Global Quantitative Research, Deutsche Bank Global Equities. [206] Rebonato R. (2002). Modern Pricing of Interest-Rate Derivatives : The LIBOR Market Model and Beyond, Princeton University Press. [207] Rebonato R. (2004). Volatility and Correlation : The Perfect Hedger and the Fox, Second edition, Wiley Finance. [208] Ricart R., Sicsic P. (1995). Estimation d une Structure par Terme des Taux d Intérêt sur Données Françaises, Bulletin de la Banque De France, No. 22, pp. 117-129. [209] Richtmyer R.D. (1951). On the evaluation of de nite integrals and a quasi- Monte Carlo method based on properties of algebraic numbers, Report LA-1342, Los Alamos Scienti c Laboratories. [210] Rogers L.C.G., Tehranchi M.R. (2008). The Implied Volatility Surface Does Not Move By Parallel Shifts, Working Paper, University Of Cambridge, http://www.statlab.cam.ac.uk/~mike/implied-vol.pdf. [211] Ron U. (2000). A Practical Guide to Swap Curve Construction, Working Paper 2000-17, Bank of Canada. [212] Rubinstein M. (1994). Implied binomial trees, The Journal of Finance, Vol. 49, pp. 771-818. [213] Saito M. (2007). An Application of Finite Field : Design and Implementation of 128-bit Instruction-Based Fast Pseudorandom Number Generator, Research Paper, Department of Mathematics, Graduate School of Science, Hiroshima University, http://www.math.sci.hiroshima-u.ac. jp/~m-mat/jsps-coretocore/index.html. 324
[214] Sakamoto M., Morito S. (1995). Combination of Multiplicative Congruential Random-Number Generators With Safe Prime Modulus, Proceedings of the 1995 Winter Simulation Conference (C. Alexopoulos, K. Kang, W. R. Lilegdon, and D. Goldsman Eds.), pp. 309-315. [215] Samuelson P. (1965). Rational theory of warrant pricing, Industrial Management Review, Vol. 6, pp. 13-31. [216] Saporta G. (1990). Probabilités, Statistiques, Analyse des données, Technip. [217] Schlier C. (2004a). Discrepancy behaviour in the non-asymptotic regime, Applied Numerical Mathematics 50, pp. 227-238. [218] Schlier C. (2004b). Error trends in Quasi-Monte Carlo integration, Computer Physics Communications 159, pp. 93-105. [219] Schrage L. (1979). A More Portable Fortran Random Number Generator, ACM Transactions on Mathematical Software, 5, pp. 132-138. [220] Scott L.O. (1987). Option Pricing when the Variance Changes Randomly : Theory, Estimation, and an Application, The Journal of Financial and Quantitative Analysis, Vol. 22, No. 4, pp. 419-438. [221] Sepp A. (2002). Pricing Barrier Options under Local Volatility, PrePrint, http://math.ut.ee/~spartak/papers/locvols.pdf. [222] Smirnov S.N., Zakharov A.V. (2003). A Liquidity-Based Robust Spline Fitting of Spot Yield Curve Providing Positive Forward Rates, Working Paper, Department of Risk Management and Insurance, State University - Higher School of Economics, Moscow. [223] Snyder W.C. (2000). Accuracy estimation for quasi-monte Carlo simulations, Mathematics and Computers in Simulation 54, pp. 131-143. [224] Struckmeier J. (1995). Fast generation of low-discrepancy sequences, Journal of Computational and Applied Mathematics, Vol. 91, pp. 29-41. [225] Sugita H. (2004). Security of Pseudo-random Generator and Monte-Carlo Method, Monte Carlo Methods and Applications, Vol. 10, No. 3, pp. 609-615. [226] Svensson L.E.O. (1994). Estimating and Interpreting Forward Interest Rates : Sweden 1992-1994, Centre for Economic Policy Research, Discussion Paper, No. 1051. [227] Sy A.S. (2003). La volatilité stochastiques des marchés nanciers : une application aux modèles d évaluation d instruments en temps continu, Thèse de doctorat, Université d Aix-Marseille. [228] Takhtamyshev G., Vandewoestyne B., Cools R. (2007). Quasi-random integration in high dimensions, Mathematics and Computers in Simulation 73, pp. 309-319. [229] Tezuka S. (1991). Neave E ect Also Occurs With Tausworthe Sequences, Proceedings of the 1991 Winter Simulation Conference, pp. 1030-1034. 325
[230] Tezuka S. (1995). Uniform Random Numbers : Theory and Practice, Kluwer Academics Publishers. [231] Thiémard E. (2000a). Sur le calcul et la majoration de la discrépance à l origine, Thèse de Doctorat, EPFL. [232] Thiémard E. (2000b). An algorithm to compute bounds for the star discrepancy, Research Paper, EPFL. [233] Tu n B. (1996a). Improvement of Halton Sequences distribution, Irisa, Publication interne 998. [234] Tu n B. (1996b). On the Use of low discrepancy sequences in Monte- Carlo methods, Irisa, Publication interne 1060. [235] Tu n B. (1997). Simulation accélérée par les méthodes de Monte Carlo et quasi-monte Carlo : théorie et applications, Thèse de Doctorat, Université Rennes 1. [236] Tu n B. (2005). Randomization of Quasi-Monte Carlo Methods for Error Estimation Survey and Normal Approximation, Irisa-Inria, Research Paper. [237] Turlach B.A. (1997). Constrained Smoothing Splines Revisited, Technical Report, Australian National University, Canberra. [238] Vandewoestyne B., Cools R. (2006). Good permutations for deterministic scrambled Halton sequences in terms of L 2 discrepancy, Journal of Computational and Applied Mathematics, Vol. 189, pp. 341-361. [239] Vandu el S. (2005). Comonotonicity : From risk measurement to risk management, PhD Thesis, University of Amsterdam. [240] Vandu el S., Chen X., Dhaene J., Goovaerts M., Henrard L., Kaas R. (2007). Optimal Approximations for Risk Measures of Sums of Lognormals based on Conditional Expectations, Journal of Computational and Applied Mathematics, to be published. [241] Vandu el S., Hoedemakers T., Dhaene J. (2005). Comparing approximations for sums of non-independent lognormal random variables, North American Actuarial Journal, Vol. 9(4), pp. 71-82. [242] Vitrac D. (2002). Tout savoir sur la Bourse Edition 2002/2003, Gualino Editeur. [243] Vyncke D., Goovaerts M., Dhaene J. (2004). An accurate analytical approximation for the price of a European-style arithmetic Asian option, Finance, Vol. 25, pp. 121-139. [244] Waggoner D.F. (1997). Spline Methods for Extracting Interest Rate Curves from Coupon Bond Prices, Working Paper 97-10, Federal Reserve Bank of Atlanta. [245] Wahba G. (1990). Spline Functions for Observational Data, CBMS-NSF Regional Conference series, SIAM, Philadelphia. [246] Wang X., Hickernell F.J. (2000). Randomized Halton sequences, Mathematical and Computer Modelling, Vol. 32, pp. 887-899. 326
[247] Warnock T.T. (2001). E ective error estimates for quasi-monte Carlo computations, Technical Report LA-UR-01-1950, Los Alamos National Labs, http://lib-www.lanl.gov/la-pubs/00367143.pdf. [248] Weizmann A. (2007). Construction Of the Implied Volatility Smile, Thesis, Goethe University, Frankfurt am Main. [249] West G. (2005). Better approximations to cumulative normal functions, Wilmott Magazine, pp. 70-76. [250] West G. (2006). A Brief Comparison of Interpolation Methods For Yield Curve Construction, Working Paper, Financial Modelling Agency, http: //www.finmod.co.za/interpolationsummary.pdf. [251] Weyl H. (1916). Über die Gleichverteilung von Zahlen mod. Eins, Mathematische Annalen 77, pp. 313-352. [252] Wichmann B., Hill I. (1982). Algorithm AS 183. An E cient and Portable Pseudo-random Number Generator, Applied Statistics, 31, pp. 188-190. [253] Wolberg G., Itzik A. (1999). Monotonic Cubic Spline Interpolation, Proceedings of the International Conference on Computer Graphics, pp. 188-195. [254] Zhang J.E., Xiang Y. (2008). Implied Volatility Smirk, Quantitative Finance, Vol. 8, No. 3, pp. 263-284. [255] Zhu Z., Hanson F.B. (2005). Risk-neutral option pricing for log-uniform jump-amplitude jump-di usion model, Working Paper, University of Illinois, Chicago. [256] Zinterhof P. (1987). Gratis Lattice Points for Multidimensional Integration, Computing, Vol. 38, No. 4, pp347-353. [257] Zinterhof P. (1994). Parallel Generation and Evaluation of Weyl Sequences, Report R5Z-4, PACT Project. 327