Techniques probabilistes et combinatoires pour l analyse des flux de données

Documents pareils

Soutenance de stage Laboratoire des Signaux et Systèmes

Chapitre 7. Récurrences

IFT3245. Simulation et modèles

Objets Combinatoires élementaires

ARBRES BINAIRES DE RECHERCHE

Les structures de données. Rajae El Ouazzani

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

ÉPREUVE COMMUNE DE TIPE Partie D

Lignes directrices de 2004 pour des sondages sur la satisfaction des demandeurs dans le cadre de l assurance-automobile

CRYPTOGRAPHIE. Signature électronique. E. Bresson. SGDN/DCSSI Laboratoire de cryptographie

1 Modélisation d être mauvais payeur

Bases de programmation. Cours 5. Structurer les données

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

TSTI 2D CH X : Exemples de lois à densité 1

Cryptographie. Cours 3/8 - Chiffrement asymétrique

Quantification Scalaire et Prédictive

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux

23. Interprétation clinique des mesures de l effet traitement

Evaluation de la variabilité d'un système de mesure

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Les fonctions de hachage, un domaine à la mode

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Introduction à l approche bootstrap

Etude comparative de différents motifs utilisés pour le lancé de rayon

Architecture des Systèmes d Information Architecture des Systèmes d Information

Les arbres binaires de recherche

Prénom : Matricule : Sigle et titre du cours Groupe Trimestre INF1101 Algorithmes et structures de données Tous H2004. Loc Jeudi 29/4/2004

Probabilités Loi binomiale Exercices corrigés

TD : Codage des images

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Mathématiques financières

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

La nouvelle planification de l échantillonnage

Trouver un vecteur le plus court dans un réseau euclidien

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

Cours 1 : Qu est-ce que la programmation?

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Fonction de hachage et signatures électroniques

données en connaissance et en actions?

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Présentation et installation PCE-LOG V4 1-5

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

MODÈLE CROP DE CALIBRATION DES PANELS WEB

Cartes de l étendue des eaux libres liés aux inondations Guide des produits

Quelques Algorithmes simples

Les défis statistiques du Big Data

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

Numérisation du signal

Correction du baccalauréat ES/L Métropole 20 juin 2014

Théorie des sondages : cours 5

LES DECIMALES DE π BERNARD EGGER

Codage d information. Codage d information : -Définition-

Algorithmes de recherche d itinéraires en transport multimodal

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Raisonnement probabiliste

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Corrigé des TD 1 à 5

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

Centrales de mesures. CENTRALES DE MESURES Nemo. A.6 Guide de choix. A.14 4 Modules. A.20 Encastré 72x72. A.24 Encastré 96x96. A.

Rétablissement d un réseau cellulaire après un désastre

Recherche De Coalescences Binaires Étalonnage Du Détecteur

Coefficients binomiaux

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

J AUVRAY Systèmes Electroniques TRANSMISSION DES SIGNAUX NUMERIQUES : SIGNAUX EN BANDE DE BASE

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application

Echantillonnage Non uniforme

Représentation des Nombres

M06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS

Validation des processus de production et de préparation du service (incluant le logiciel)

Modélisation et simulation

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Gilles GUETTE IRISA Campus de Beaulieu, Rennes Cedex, France

Sécuristation du Cloud

Algorithmes d'apprentissage

Arbres binaires de recherche

Factorisation d entiers (première partie)

Table des matières. I Mise à niveau 11. Préface

Introduction aux algorithmes répartis

Le suivi de la qualité. Méthode MSP : généralités

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Formats d images. 1 Introduction

Filtres passe-bas. On utilise les filtres passe-bas pour réduire l amplitude des composantes de fréquences supérieures à la celle de la coupure.

KL5121. Pour activer des sorties en fonction de la position d'un codeur

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

TD n o 8 - Domain Name System (DNS)

EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE

Transcription:

Techniques probabilistes et combinatoires pour l analyse des flux de données Dédié à la mémoire de Philippe Flajolet (1948-2011) Conrado Martínez Universitat Politècnica de Catalunya Journées ALÉA, CIRM, Marseille-Luminy Mars 2012

Introduction Un flux de données est une séquence (très longue) S = s 1, s 2, s 3,..., s N d éléments tirés d un (grand) domaine U (s i U) Le but: calculer y = y(s), mais...

Introduction Un flux de données est une séquence (très longue) S = s 1, s 2, s 3,..., s N d éléments tirés d un (grand) domaine U (s i U) Le but: calculer y = y(s), mais...

Introduction... sous certaines contraintes une seule passe sur les données court temps de traitement pour chaque élément une quantité limitée M de mémoire auxiliaire, M N; idéalement M = Θ(1) où M = Θ(log N) aucune hypothèse statistique (sur les données)

Introduction... sous certaines contraintes une seule passe sur les données court temps de traitement pour chaque élément une quantité limitée M de mémoire auxiliaire, M N; idéalement M = Θ(1) où M = Θ(log N) aucune hypothèse statistique (sur les données)

Introduction... sous certaines contraintes une seule passe sur les données court temps de traitement pour chaque élément une quantité limitée M de mémoire auxiliaire, M N; idéalement M = Θ(1) où M = Θ(log N) aucune hypothèse statistique (sur les données)

Introduction... sous certaines contraintes une seule passe sur les données court temps de traitement pour chaque élément une quantité limitée M de mémoire auxiliaire, M N; idéalement M = Θ(1) où M = Θ(log N) aucune hypothèse statistique (sur les données)

Introduction Il y a de nombreuses applications pour ce modèle: Analyse du trafic de réseau attaques DoS/DDoS, vers (worms),... Optimisation des requêtes de base de données Récupération de l information indice de similarité Data mining Et beaucoup plus...

Introduction Il y a de nombreuses applications pour ce modèle: Analyse du trafic de réseau attaques DoS/DDoS, vers (worms),... Optimisation des requêtes de base de données Récupération de l information indice de similarité Data mining Et beaucoup plus...

Introduction Il y a de nombreuses applications pour ce modèle: Analyse du trafic de réseau attaques DoS/DDoS, vers (worms),... Optimisation des requêtes de base de données Récupération de l information indice de similarité Data mining Et beaucoup plus...

Introduction Il y a de nombreuses applications pour ce modèle: Analyse du trafic de réseau attaques DoS/DDoS, vers (worms),... Optimisation des requêtes de base de données Récupération de l information indice de similarité Data mining Et beaucoup plus...

Introduction Il y a de nombreuses applications pour ce modèle: Analyse du trafic de réseau attaques DoS/DDoS, vers (worms),... Optimisation des requêtes de base de données Récupération de l information indice de similarité Data mining Et beaucoup plus...

Introduction On regarde S comme un multi-ensemble {w 1 f 1,..., w n f n }, où f i = la fréquence de l élément i-ième distincte w i La cardinalité card(s) = n N Les moments de fréquence F p = 1 i n f P i (N.B. n = F 0, N = F 1) Les éléments w i tels que f i k (k-éléphants) Les éléments w i tels que f i < k (k-souris) Les éléments w i tels que f i cn, 0 < c < 1 (c-icebergs) Les k éléments les plus fréquents...

Introduction On regarde S comme un multi-ensemble {w 1 f 1,..., w n f n }, où f i = la fréquence de l élément i-ième distincte w i La cardinalité card(s) = n N Les moments de fréquence F p = 1 i n f P i (N.B. n = F 0, N = F 1) Les éléments w i tels que f i k (k-éléphants) Les éléments w i tels que f i < k (k-souris) Les éléments w i tels que f i cn, 0 < c < 1 (c-icebergs) Les k éléments les plus fréquents...

Introduction On regarde S comme un multi-ensemble {w 1 f 1,..., w n f n }, où f i = la fréquence de l élément i-ième distincte w i La cardinalité card(s) = n N Les moments de fréquence F p = 1 i n f P i (N.B. n = F 0, N = F 1) Les éléments w i tels que f i k (k-éléphants) Les éléments w i tels que f i < k (k-souris) Les éléments w i tels que f i cn, 0 < c < 1 (c-icebergs) Les k éléments les plus fréquents...

Introduction On regarde S comme un multi-ensemble {w 1 f 1,..., w n f n }, où f i = la fréquence de l élément i-ième distincte w i La cardinalité card(s) = n N Les moments de fréquence F p = 1 i n f P i (N.B. n = F 0, N = F 1) Les éléments w i tels que f i k (k-éléphants) Les éléments w i tels que f i < k (k-souris) Les éléments w i tels que f i cn, 0 < c < 1 (c-icebergs) Les k éléments les plus fréquents...

Introduction On regarde S comme un multi-ensemble {w 1 f 1,..., w n f n }, où f i = la fréquence de l élément i-ième distincte w i La cardinalité card(s) = n N Les moments de fréquence F p = 1 i n f P i (N.B. n = F 0, N = F 1) Les éléments w i tels que f i k (k-éléphants) Les éléments w i tels que f i < k (k-souris) Les éléments w i tels que f i cn, 0 < c < 1 (c-icebergs) Les k éléments les plus fréquents...

Introduction On regarde S comme un multi-ensemble {w 1 f 1,..., w n f n }, où f i = la fréquence de l élément i-ième distincte w i La cardinalité card(s) = n N Les moments de fréquence F p = 1 i n f P i (N.B. n = F 0, N = F 1) Les éléments w i tels que f i k (k-éléphants) Les éléments w i tels que f i < k (k-souris) Les éléments w i tels que f i cn, 0 < c < 1 (c-icebergs) Les k éléments les plus fréquents...

Introduction On regarde S comme un multi-ensemble {w 1 f 1,..., w n f n }, où f i = la fréquence de l élément i-ième distincte w i La cardinalité card(s) = n N Les moments de fréquence F p = 1 i n f P i (N.B. n = F 0, N = F 1) Les éléments w i tels que f i k (k-éléphants) Les éléments w i tels que f i < k (k-souris) Les éléments w i tels que f i cn, 0 < c < 1 (c-icebergs) Les k éléments les plus fréquents...

Introduction Mémoire disponible très limitée solution exacte trop couteuse algorithmes randomisés estimation ŷ de la quantité y d intérêt L estimateur ŷ est non biaisé E [ŷ] = y Il a une très bonne précision (erreur-type) e.g., ɛ = 0.01 (1%) SE [ŷ] := Var [ŷ] E [ŷ] < ɛ,

Introduction Mémoire disponible très limitée solution exacte trop couteuse algorithmes randomisés estimation ŷ de la quantité y d intérêt L estimateur ŷ est non biaisé E [ŷ] = y Il a une très bonne précision (erreur-type) e.g., ɛ = 0.01 (1%) SE [ŷ] := Var [ŷ] E [ŷ] < ɛ,

Probabilistic Counting G.N. Martin À la fin des années 70 G. Nigel N. Martin invente le probabilistic counting pour optimiser les requêtes de bases de données Il corrige le biais qu il a trouvé dans son estimateur, en bidouillant l algorithme

Probabilistic Counting Lorsque Flajolet découvre l algorithme, il le met dans des bases solides scientifiques avec une analyse détaillée qui fournit les facteurs de correction et montre la borne supérieure dans l erreur-type

Probabilistic Counting La première idée: chaque élément est haché pour donner un certain nombre dans (0, 1) aléa reproductible Le multi-ensemble S est mappée par la fonction de hachage h : U (0, 1) dans un multi-ensemble S = h(s) = {x 1 f 1,..., x n f n }, avec x i = hash(w i ), f i = # de x i s L ensemble des éléments distincts X = {x 1,..., x n } est donc un ensemble de n numéros aléatoires indépendants répartis uniformément dans (0, 1)

Probabilistic Counting La première idée: chaque élément est haché pour donner un certain nombre dans (0, 1) aléa reproductible Le multi-ensemble S est mappée par la fonction de hachage h : U (0, 1) dans un multi-ensemble S = h(s) = {x 1 f 1,..., x n f n }, avec x i = hash(w i ), f i = # de x i s L ensemble des éléments distincts X = {x 1,..., x n } est donc un ensemble de n numéros aléatoires indépendants répartis uniformément dans (0, 1) On fait abstraction de la possibilité ici de collisions

Probabilistic Counting La première idée: chaque élément est haché pour donner un certain nombre dans (0, 1) aléa reproductible Le multi-ensemble S est mappée par la fonction de hachage h : U (0, 1) dans un multi-ensemble S = h(s) = {x 1 f 1,..., x n f n }, avec x i = hash(w i ), f i = # de x i s L ensemble des éléments distincts X = {x 1,..., x n } est donc un ensemble de n numéros aléatoires indépendants répartis uniformément dans (0, 1) On fait abstraction de la possibilité ici de collisions

Probabilistic Counting Flajolet & Martin (JCSS, 1985) ont proposé de trouver, parmi les valeurs hachées, le plus grand préfixe (en binaire) de la forme 0.0 p 1 1...; R est la valeur maximale de sorte que les motifs 0.1..., 0.01..., 0.001...,..., 0.0 R 1 1... sont tous apparus dans le flux La valeur R est une observable qui peut être facilement trouvé avec très peu de mémoire & il est insensible aux répétitions observables doivent être des fonctions de X seulement

Probabilistic Counting Pour un ensemble de n nombres aléatoires dans (0, 1) E [R] log 2 n Toutefois, E [ 2 R] n, outre les écarts sont significatifs

Probabilistic Counting Pour un ensemble de n nombres aléatoires dans (0, 1) E [R] log 2 n Toutefois, E [ 2 R] n, outre les écarts sont significatifs

Probabilistic Counting procedure PROBABILISTICCOUNTING(S) bmap 0, 0,..., 0 for s S do y hash(s) p long. de plus grand préfixe 0.0 p 1 1... dans y bmap[p] 1 R long. de plus grand préfixe 0 R 1 1... dans bmap φ est le facteur de correction return Z := φ 2 R L analyse fournit la valeur de φ nécessaire pour corriger le biais: φ 1 = eγ 2 3 ( (4k + 1)(2k + 1) 2k(4k + 3) k 1 E [ φ 2 R] = n ) ( 1) ν(k) 0.77351...

Stochastic averaging Malheureusement l erreur-type de l estimateur Z := φ 2 R, malgré constante, est trop grande: SE [Z] > 1 Le deuxième idée: répéter pour améliorer la précision Mais... utiliser m fonctions de hachage pour produire m flux est un calcul coûteux et implique de graves difficultés pour garantir l indépendance

Stochastic averaging Malheureusement l erreur-type de l estimateur Z := φ 2 R, malgré constante, est trop grande: SE [Z] > 1 Le deuxième idée: répéter pour améliorer la précision Mais... utiliser m fonctions de hachage pour produire m flux est un calcul coûteux et implique de graves difficultés pour garantir l indépendance

Stochastic averaging Malheureusement l erreur-type de l estimateur Z := φ 2 R, malgré constante, est trop grande: SE [Z] > 1 Le deuxième idée: répéter pour améliorer la précision Mais... utiliser m fonctions de hachage pour produire m flux est un calcul coûteux et implique de graves difficultés pour garantir l indépendance

Stochastic averaging Utilisez les premiers log 2 m bits de chaque valeur hachée pour le rediriger vers l un des m sous-flux stochastic averaging Obtenir m observables R 1, R 2,..., R m et la moyenne! Chaque R i fournit une estimation pour le nombre d éléments qui vont au sous-flux i-ième, à savoir, R i estime n/m

Stochastic averaging Utilisez les premiers log 2 m bits de chaque valeur hachée pour le rediriger vers l un des m sous-flux stochastic averaging Obtenir m observables R 1, R 2,..., R m et la moyenne! Chaque R i fournit une estimation pour le nombre d éléments qui vont au sous-flux i-ième, à savoir, R i estime n/m

Stochastic averaging Utilisez les premiers log 2 m bits de chaque valeur hachée pour le rediriger vers l un des m sous-flux stochastic averaging Obtenir m observables R 1, R 2,..., R m et la moyenne! Chaque R i fournit une estimation pour le nombre d éléments qui vont au sous-flux i-ième, à savoir, R i estime n/m

Stochastic averaging Il ya plusieurs façons de calculer un estimateur à partir des m observables Somme des estimateurs: Z 1 := φ(2 R 1 +... + 2 Rm ) Moyenne arithmétique des observables (proposé par Flajolet et Martin): Z 2 := m φ 2 1 m 1 i m R i

Stochastic averaging Moyenne harmonique (voir plus loin): m 2 Z 3 := φ 3 2 R 1 + 2 R 2 +... + 2 R m Ici nous nous attendons à 2 R i m/n, d où pour le deuxième facteur on aura m 2 /(m 2 /n) = n

Stochastic averaging Toutes les stratégies ci-dessus nous donnent des estimateurs dont l erreur-type est de la forme c m + l.o.t. Augmenter la mémoire précision beaucoup meilleure! Dans le cas du probabilistic counting, on utilise la moyenne arithmétique des observables SE [Z ProbCount ] 0.78 m

Stochastic averaging Toutes les stratégies ci-dessus nous donnent des estimateurs dont l erreur-type est de la forme c m + l.o.t. Augmenter la mémoire précision beaucoup meilleure! Dans le cas du probabilistic counting, on utilise la moyenne arithmétique des observables SE [Z ProbCount ] 0.78 m

LogLog & HyperLogLog M. Durand Durand & Flajolet (2003) ont réalisé que on peut dispenser des bitmaps du Probabilistic Counting et proposent comme observable le plus grand R tel que le motif 0.0 R 1 1 apparaît La nouvelle observable est similaire à celle du Probabilistic Counting, mais pas égale: R(LogLog) R(ProbCount) Example Motifs observés: 0.1101..., 0.010..., 0.0011..., 0.00001... R(LogLog) = 5, R(ProbCount) = 3

LogLog & HyperLogLog M. Durand Durand & Flajolet (2003) ont réalisé que on peut dispenser des bitmaps du Probabilistic Counting et proposent comme observable le plus grand R tel que le motif 0.0 R 1 1 apparaît La nouvelle observable est similaire à celle du Probabilistic Counting, mais pas égale: R(LogLog) R(ProbCount) Example Motifs observés: 0.1101..., 0.010..., 0.0011..., 0.00001... R(LogLog) = 5, R(ProbCount) = 3

LogLog & HyperLogLog M. Durand Durand & Flajolet (2003) ont réalisé que on peut dispenser des bitmaps du Probabilistic Counting et proposent comme observable le plus grand R tel que le motif 0.0 R 1 1 apparaît La nouvelle observable est similaire à celle du Probabilistic Counting, mais pas égale: R(LogLog) R(ProbCount) Example Motifs observés: 0.1101..., 0.010..., 0.0011..., 0.00001... R(LogLog) = 5, R(ProbCount) = 3

LogLog & HyperLogLog Nous avons besoin seulement de maintenir la R maximal en cours R := max{r, p} il suffit de stocker Θ(log log n) bits comme E [R] = Θ(log n)! Maintenant nous avons E [R] log 2 n, mais E [ 2 R] = +, le stochastic averaging vient à la rescousse! Pour LogLog, Durand & Flajolet propose Z LogLog := α m m 2 1 m 1 i m R i

LogLog & HyperLogLog Nous avons besoin seulement de maintenir la R maximal en cours R := max{r, p} il suffit de stocker Θ(log log n) bits comme E [R] = Θ(log n)! Maintenant nous avons E [R] log 2 n, mais E [ 2 R] = +, le stochastic averaging vient à la rescousse! Pour LogLog, Durand & Flajolet propose Z LogLog := α m m 2 1 m 1 i m R i

LogLog & HyperLogLog Nous avons besoin seulement de maintenir la R maximal en cours R := max{r, p} il suffit de stocker Θ(log log n) bits comme E [R] = Θ(log n)! Maintenant nous avons E [R] log 2 n, mais E [ 2 R] = +, le stochastic averaging vient à la rescousse! Pour LogLog, Durand & Flajolet propose Z LogLog := α m m 2 1 m 1 i m R i

LogLog & HyperLogLog L analyse fournit la forme exacte du facteur de correction α m = ( Γ( 1/m) 1 21/m ln 2 ) m pour garantir non-biaisage asymptotique, et l erreur-type est SE [ ] 1.30 Z LogLog m Seulement m compteurs de log 2 log 2 N bits sont nécessaires: Ex.: m = 2048 compteurs de 5 bits pour estimer cardinalités jusqu à 2 27 10 8, avec une erreur inférieure à 4%

LogLog & HyperLogLog L analyse fournit la forme exacte du facteur de correction α m = ( Γ( 1/m) 1 21/m ln 2 ) m pour garantir non-biaisage asymptotique, et l erreur-type est SE [ ] 1.30 Z LogLog m Seulement m compteurs de log 2 log 2 N bits sont nécessaires: Ex.: m = 2048 compteurs de 5 bits pour estimer cardinalités jusqu à 2 27 10 8, avec une erreur inférieure à 4%

LogLog & HyperLogLog É. Fusy O. Gandouet F. Meunier Flajolet, Fusy, Gandouet & Meunier conçoivent en 2007 le best algorithm known (cif. PF s keynote speech à ITC Paris 2009) En bref, HyperLogLog combine les observables R i à la LogLog de m sous-flux avec la moyenne harmonique SE [ Z HyperLogLog ] 1.03 m

LogLog & HyperLogLog É. Fusy O. Gandouet F. Meunier Flajolet, Fusy, Gandouet & Meunier conçoivent en 2007 le best algorithm known (cif. PF s keynote speech à ITC Paris 2009) En bref, HyperLogLog combine les observables R i à la LogLog de m sous-flux avec la moyenne harmonique SE [ Z HyperLogLog ] 1.03 m

LogLog & HyperLogLog P. Chassaing L. Gérin L idée a été inspirée par l étude analytique de Chassaing & Gérin (2006) de quelle etait la manière optimale de combiner observables; dans leur cas, les observables étaient les valeurs k-èmes de chaque sous-flux Chassaing & Gérin montrent que la meilleure façon de faire ceci est avec la moyenne harmonique

LogLog & HyperLogLog P. Chassaing L. Gérin L idée a été inspirée par l étude analytique de Chassaing & Gérin (2006) de quelle etait la manière optimale de combiner observables; dans leur cas, les observables étaient les valeurs k-èmes de chaque sous-flux Chassaing & Gérin montrent que la meilleure façon de faire ceci est avec la moyenne harmonique

Statistiques d ordre Bar-Yossef, Kumar & Sivakumar (2002); Bar-Yossef, Jayram, Kumar, Sivakumar & Trevisan (2002) proposent d utiliser la statistique d ordre k-ième X (k) pour estimer la cardinalité; pour un ensemble de n nombres aleatoires indépendantes et uniformément distribués E [X k ] = k n + 1 Giroire (2005, 2009) propose aussi quelques estimateurs qui combinent le stochastic averaging et les statistiques d ordre k-ième

Statistiques d ordre Bar-Yossef, Kumar & Sivakumar (2002); Bar-Yossef, Jayram, Kumar, Sivakumar & Trevisan (2002) proposent d utiliser la statistique d ordre k-ième X (k) pour estimer la cardinalité; pour un ensemble de n nombres aleatoires indépendantes et uniformément distribués E [X k ] = k n + 1 Giroire (2005, 2009) propose aussi quelques estimateurs qui combinent le stochastic averaging et les statistiques d ordre k-ième

Statistiques d ordre J. Lumbroso Bien que le minimum (k = 1) ne permet pas un estimateur viable, le stochastic averaging évite le problème Ainsi, Lumbroso utilise la moyenne harmonique des minimums de m sous-flux Z MinCount := m(m 1) M 1 +... + M m, où M i est le minimum de l i-ième sous-flux

Statistiques d ordre J. Lumbroso Bien que le minimum (k = 1) ne permet pas un estimateur viable, le stochastic averaging évite le problème Ainsi, Lumbroso utilise la moyenne harmonique des minimums de m sous-flux Z MinCount := m(m 1) M 1 +... + M m, où M i est le minimum de l i-ième sous-flux

Statistiques d ordre L estimateur, non-biasé, a erreur-type 1/ m 2 Lumbroso parvient aussi à calculer la distribution de probabilité du estimateur, et quelles sont les corrections nécessaires pour estimer les petites cardinalités (qui présentent habituellement des déformations)

Statistiques d ordre L estimateur, non-biasé, a erreur-type 1/ m 2 Lumbroso parvient aussi à calculer la distribution de probabilité du estimateur, et quelles sont les corrections nécessaires pour estimer les petites cardinalités (qui présentent habituellement des déformations)

Recordinality A. Helmi J. Lumbroso A. Viola RECORDINALITY est un nouvel estimateur vaguement lié à les statistiques d ordre, mais il fonctionne sur des principes très différents de ceux d autres estimateurs, avec des propriétés remarquables Ne manquez pas l exposé de Jérémie juste après!

Recordinality A. Helmi J. Lumbroso A. Viola RECORDINALITY est un nouvel estimateur vaguement lié à les statistiques d ordre, mais il fonctionne sur des principes très différents de ceux d autres estimateurs, avec des propriétés remarquables Ne manquez pas l exposé de Jérémie juste après!

D autres problèmes Pour trouver les k-éléphants ou k-souris on prend un échantillon aléatoire de taille T d éléments différents, avec leurs compteurs de fréquence Alors, si il y a une proportion p k de k-souris (k-éléphants) dans l échaintillon alors notre estimation est # de k-souris = p kˆn, avec n l estimation de la cardinalité...

D autres problèmes Pour trouver les k-éléphants ou k-souris on prend un échantillon aléatoire de taille T d éléments différents, avec leurs compteurs de fréquence Alors, si il y a une proportion p k de k-souris (k-éléphants) dans l échaintillon alors notre estimation est # de k-souris = p kˆn, avec n l estimation de la cardinalité...

D autres problèmes Le problème de l obtention des échantillons aléatoires d éléments du flux est clairement l un des plus important et intéressant L échantillons est un multi-ensemble, chaque élément x j apparaît avec fréquence proportionnelle a ν j straight sampling needle-on-a-haystack

D autres problèmes Le problème de l obtention des échantillons aléatoires d éléments du flux est clairement l un des plus important et intéressant L échantillons est un multi-ensemble, chaque élément x j apparaît avec fréquence proportionnelle a ν j straight sampling needle-on-a-haystack

D autres problèmes Wegman G. Louchard Ce qu il faut sont des échantillons d éléments différents distinct sampling Adaptive sampling (Wegman, 1980; Flajolet, 1990; Louchard, 1997) nous donne exactement ce que on a besoin

D autres problèmes Wegman G. Louchard Ce qu il faut sont des échantillons d éléments différents distinct sampling Adaptive sampling (Wegman, 1980; Flajolet, 1990; Louchard, 1997) nous donne exactement ce que on a besoin

D autres problèmes procedure ADAPTIVESAMPLING(S, maxc) C ; p 0 for x S do if hash(x) = 0 p... then C C {x} if C > maxc then p p + 1; filter C return C Quand on a fini, C est le nombre d éléments que on a, dans un trie aléatoire de taille n, dans le sous-arbre avec racine 0 p ; il a exactement 2 p sous-arbres avec racines à profondeur p (0 c est un d eux). Donc il y aura C n/2 p la taille C nous donne une estimation d n!!

Merci beaucoup de votre attention!