IFT3245. Simulation et modèles

Documents pareils

Principe de symétrisation pour la construction d un test adaptatif

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Estimation et tests statistiques, TD 5. Solutions

Quantification Scalaire et Prédictive

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

données en connaissance et en actions?

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

CRYPTOGRAPHIE. Signature électronique. E. Bresson. SGDN/DCSSI Laboratoire de cryptographie

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Chapitre 7. Récurrences

Modélisation et simulation

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

IFT3355: Infographie Sujet 6: shading 7 (illumination globale 4)

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Probabilités conditionnelles Loi binomiale

ÉPREUVE COMMUNE DE TIPE Partie D

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Probabilités. C. Charignon. I Cours 3

Introduction à la statistique non paramétrique

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Introduction à l approche bootstrap

Méthodes de Simulation

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

La nouvelle planification de l échantillonnage

Table des matières. I Mise à niveau 11. Préface

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Principe d un test statistique

Température corporelle d un castor (une petite introduction aux séries temporelles)

LES DECIMALES DE π BERNARD EGGER

Modélisation aléatoire en fiabilité des logiciels

VI. Tests non paramétriques sur un échantillon

Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux

Qu est-ce qu une probabilité?

NON-LINEARITE ET RESEAUX NEURONAUX

Introduction à l étude des Corps Finis

Fonction de hachage et signatures électroniques

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Chapitre 3 : INFERENCE

PRÉSENTÉ PAR : NOVEMBRE 2007

LES GENERATEURS DE NOMBRES ALEATOIRES

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Agrégation des portefeuilles de contrats d assurance vie

Rapport de projet Risque de Crédit, Risque de Défaut : Étude de l influence du taux de recouvrement sur le prix de CDOs.

Probabilités Loi binomiale Exercices corrigés

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Simulation : application au système bonus-malus en responsabilité civile automobile

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Chapitre 3. Les distributions à deux variables

Correction du Baccalauréat S Amérique du Nord mai 2007

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Théorie des sondages : cours 5

Best Styles ou comment capturer au mieux les primes de risque sur les marchés d actions

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Probabilités III Introduction à l évaluation d options

Chapitre 2. Eléments pour comprendre un énoncé

0x700. Cryptologie Pearson France Techniques de hacking, 2e éd. Jon Erickson

Les fonctions de hachage, un domaine à la mode

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Introduction à la Statistique Inférentielle

Précision d un résultat et calculs d incertitudes

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Programmes des classes préparatoires aux Grandes Ecoles

Annexe commune aux séries ES, L et S : boîtes et quantiles

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Programmation linéaire

Architecture des Systèmes d Information Architecture des Systèmes d Information

Raisonnement probabiliste

P1 : Corrigés des exercices

TABLE DES MATIERES. C Exercices complémentaires 42

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Économetrie non paramétrique I. Estimation d une densité

Etude comparative de différents motifs utilisés pour le lancé de rayon

Echantillonnage Non uniforme

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Correction du baccalauréat ES/L Métropole 20 juin 2014

Rappels sur les suites - Algorithme

1.6- Génération de nombres aléatoires

Bien programmer. en Java ex. couleur. Avec plus de 50 études de cas et des comparaisons avec C++ et C# Emmanuel Puybaret.

Lois de probabilité. Anita Burgun

La fonction exponentielle

!-.!#- $'( 1&) &) (,' &*- %,!

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Suites numériques 4. 1 Autres recettes pour calculer les limites

Parallélisme et Répartition

Moments des variables aléatoires réelles

Analyse de PRESENT avec peu de données

Cryptologie. Algorithmes à clé publique. Jean-Marc Robert. Génie logiciel et des TI

Cours de Tests paramétriques

BASE CONCEPTUELLE POUR L ANALYSE DES INCERTITUDES

Projet de Traitement du Signal Segmentation d images SAR

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Algorithme. Table des matières

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Introduction au Data-Mining

Approximation diophantienne uniforme et dimension de Hausdorff

Transcription:

IFT 3245 Simulation et modèles DIRO Université de Montréal Automne 2012

Tests statistiques L étude des propriétés théoriques d un générateur ne suffit; il estindispensable de recourir à des tests statistiques pour valider celui-ci. mbox Nous formulons l hypothèse H 0 : {u 0, u 1, u 2,... } sont des variables aléatoires i.i.d. U(0, 1). Nous savons que H 0 est fausse, mais comment pouvons-nous le détecter? Pour ce faire, définissons une statistique T, fonction de u i, dont la distribution sous H 0 est connue (ou approximativement). Nous rejetons H 0 si la valeur de T est trop extrême.

Tests statistiques La puissance et l efficacité du test dépendent fortement de la classe d alternatives. Différents tests détectent des problémes différents. L idéal serait de disposer d une statistique T qui imite la variable aléatoire d intérêt pratique. Ce n est cependant guére réalisable en pratique. Impossible de construire un générateur de variables aléatoires qui passerait tous les tests. Compromis: construire un générateur qui passe le plus de tests raisonnables. La plupart des tests étudient la répartition uniforme d un ensemble ou sous-ensemble quelconque de points produits par le générateur.

Tests statistiques Avoir une bonne couverture uniforme ne suffit toutefois pas: les points générés doivent avoir l apparence d indépendance les uns par autres. Les tests d uniformité, qui représente la majeure partie des tests à notre disposition, remplissent partiellement ce second objectif dans la mesure où ils sont validès pour des sous-ensembles de points très variés. Certains tests cependant sont spécifiquement conçus pour tester les corrélations entre les points produits par un générateur.

TestU01 Le logiciel TestU01 (http://www.iro.umontreal.ca/ simardr/testu01/tu01.html), implémente un nombre très important de tels tests Nous nous limiterons à quelques exemples afin d illustrer les idées sous-jacentes.

Test de collisions Partitionnons l hypercube [0, 1) t en k = d t boîtes cubiques de tailles égales. Générons n points u i = (u ti,..., u ti+t 1 ) dans [0, 1) t, et posons X j le nombre de points dans la boîte j. Le nombre de collisions est donné par k 1 C = max(0, X j 1). j=0 Sous H 0, C suit approximativement une loi de Poisson de moyenne λ = n 2 /(2k), pour n suffisamment grand, et un petit λ.

Test de collisions Si nous observons c collisions, nous calculons la p-valeur à droite comme p + (c) = P[X c X Poisson(λ)]. Nous rejetons H 0 si p + (c) est de manière consistante très proche de 0 (trop de collisions) ou de 1 (pas assez de collisions). Une interprétation possible est l étude par simulation Monte Carlo du comportement probablisite d un algorithme de hachage.

Espacement entre anniversaires Nous partitionnons à nouveau l hypercube [0, 1) t en k = d t boîtes cubiques, et générons n points. Soit I (1) I (2) I (n) les numéros de boîte où les points tombent, triés par ordre croissant. Nous calculons les espacements S j = I (j+1) I (j), 1 j n 1. Le nombre de collisions entre les espacements est défini comme n 1 Y = I[S (j+1) = S (j) ]. j=1

Espacement entre anniversaires Pour k suffisamment grand, Y suit approximativement une loi de Poisson de moyenne λ = n 3 /(4k). Si Y prend la valeur y, la p-valeur à droite est p + (y) = P[X y X Poisson(λ)]. Interprétation comme problème de simulation: nous pouvons vouloir étudier la distribution de Y par simulation Monte Carlo, pour des valeurs modérées de k et n.

Test d autocorrélation Générons n uniformes u 1,..., u n et calculons l autocorrélation empirique de distance k: ˆρ k = 1 n k ( u j u j+k 1 ). n k 4 j=1 La distribution empirique de N valeurs de 12(n k)ˆρk est comparée avec la distribution normale standard, qui est la distribution théorique asymptotique quand n +. L approximation n est valide que pour n très grand, et avec k très petit en comparaison de n.

Quelques générateurs largement utilisés Avant 2003, le générateur dans MS Excel était u i = (9821.0 u i 1 + 0.211327) mod 1. Le générateur est à présent une combinaison de trois GCLs simplistes. A la même période, le générateur dans MS VisualBasic était x i = (1140671485 x i 1 + 12820163) mod 2 24, u i = x i /2 24. Le générateur dans java.util.random de Java est quant à lui x i+1 = (25214903917 x i + 11) mod 2 48 u i = [2 27 ( x 2i mod 2 26) + x 2i+1 mod 2 27 ]/2 53

Résultats de tests: test de colisions Considérons t = 2, d = n/16, λ = 128. n Java VisualBasic Excel c p + (c) c p + (c) c p + (c) 2 14 132 2 15 75 1 3.1 10 7 128 2 16 38 > 1 10 15 121 2 17 0 > 1 10 15 170 2.2 10 4 2 18 0 > 1 10 15 202 9.5 10 10 2 19 0 > 1 10 15 429 < 10 15

Résultats de tests: test de colisions Si on rejette les dix premiers bits de chaque u i : on prend u i := 1024u i mod 1. n Java VisualBasic Excel c p + (c) c p + (c) c p + (c) 2 14 8192 < 10 15 2 15 24576 < 10 15 2 16 57344 < 10 15 2 17 122880 < 10 15 2 18 253952 < 10 15 224 1.0 10 14 2 19 160 3.5 10 3 516096 < 10 15 425 < 10 15

Espacements d anniversaire Considérons t = 2, λ = 1. n d Java VisualBasic Excel y p + (y) y p + (y) y p + (y) 2 8 2 11 2 10 2 14 10 1.1 10 7 2 12 2 17 592 < 10 15 5 3.7 10 3 2 14 2 20 11129 < 10 15 71 < 10 15 2 16 2 23 64063 < 10 15 558 < 10 15 2 18 2 26 14 4.5 10 12 261604 < 10 15 4432 < 10 15

Espacements d anniversaire n d LCG-16807 y p + (y) 2 10 2 14 2 12 2 17 2 2 14 2 20 170 < 10 15 2 16 2 23 10060 < 10 15

Espacements d anniversaire Et en rejetant les 10 premiers bits: n Java VisualBasic Excel y p + (y) y p + (y) y p + (y) 2 8 52 < 10 15 2 9 199 < 10 15 2 10 672 < 10 15 2 11 1754 < 10 15 2 12 3901 < 10 15 2 13 8102 < 10 15 2 14 16374 < 10 15 2 15 21 6.0 10 15 32763 < 10 15 2 16 99 < 10 15 65531 < 10 15 7 4.5 10 3 2 17 697 < 10 15 34 < 10 15 2 18 639 < 10 15 186 < 10 15

Tests systématiques pour des familles de générateurs de nombres aléatoires Pour une famille de générateurs de nombres aléatoires, on cherche une relation su type [n 0 K ρ γ,] où n 0 est la taille d échantillon minimum pour obtenir un fort rejet, ρ est la longueur de période, et K et γ sont des constantes. Pour des GCLs, on obtient (grossièrement) pour le test de collisions: n 0 16ρ 1/2, et pour le test d espacement entre anniversaires: n 0 16ρ 1/3. Nous souhaitons dès lors construire le générateur de nombres aléatoires avec ρ suffisamment grand de sorte que générer n 0 nombres est infaisable en pratique.

Librairie de tests Tests effectués sur la plupart des générateurs existants. Pratiquement aucun des générateurs présent dans les logiciels commerciaux ne passe tous les tests. Vrai en particulier pour les générateurs modulo-2. Les vainqueurs sont des MRG avec une bonne période et une bonne structure, des générateurs multiplicatifs lagged-fibonacci, des générateurs non-linéaires conçus pour la cryptologie, et certains générateurs avec des composantes venant de différentes familles.

Librairie de tests Il est possible de combiner efficacité empirique et théorique, comme l illustre le MRG32k3a. Note: générateur multiplicatifs lagged-fibonacci. Forme de base x n = x n r x n k mod m. Il a moins de propriétés mathématiques connues, difficultés du choix de r et de k, initialisation complexe. m est souvent pris comme une puissance de 2.