Haskell 中使用 BloomFilter(布隆过滤器）处理大规模数据 - 编程开发资料库 - ITeye博客

`

izuoyan

浏览: 8934751 次
性别:
来自: 上海

最近访客更多访客>>

GDGZWQZ

morelily

eternal1025

devcang

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

2012-06 ( 32)
2012-05 ( 145)
2012-04 ( 50)
更多存档...

最新评论

netkongjian：不错的报表工具知识分享！[deyi]
主流报表工具推荐
starry8023：您的博客很有用！而且我也出现了类似的问题，我是在vs上运行的， ...
在VC下配置openGL
sliuxl： ...
复制表结构
DR玫瑰花香： [color=darkblue][/color][size=m ...
KMP算法深度解析
alvin198761：看看这两个操作系统的历史，就知道了，这个问题没法追究责任，一个 ...
一则旧闻-Linux是UNIX的盗版？SCO的三大漏洞

Haskell 中使用 BloomFilter(布隆过滤器）处理大规模数据

Haskell 算法 Blog

阅读更多

今天一个统计任务，需要从一个巨大的列表（几亿条）

中找出属于另一个小点的列表的记录，小表有3千多条。

使用bloomfilter 算法简化，bloomfilter 的介绍在谷歌中文blog上有一篇。简单的说就是用一个位串做筛子，用一组hash
函数作映射。先用小表创建这个位串过滤器，形象的说就是在纸带上打孔。全都打好后，用这个筛子来过滤大表，大表中的元素经过hash函数，如果能全
部通过纸带上的孔，就算通过，否则就过滤掉。

bloomfilter 的一个特点是：过滤有误差，误差通过过滤函数以及位串的长度两个变量可以计算出来。

Haskell hackage 上有一个 bloomfilter 的库，很易用。

安装： cabal install bloomfilter

http://hackage.haskell.org/package/bloomfilter

Data.BloomFilter
* Data.BloomFilter.Easy
* Data.BloomFilter.Hash

使用的时候，先通过 suggestSizing 函数获得推荐的 hash函数个数以及位串长度：

suggestSizing Source
:: Int expected maximum capacity
-> Double desired false positive rate (0 < e < 1)
-> (Int, Int)

然后创建一个过滤器：

fromListB Source
::
=> a -> [Hash] family of hash functions to use
-> Int number of bits in filter
-> [a] values to populate with
-> Bloom a

例如： filt = fromListB (cheapHashes 3) 1024 ["foo", "bar", "quux"]

使用过滤器过滤值：

elemB :: a -> Bloom a -> Bool

分享到：

《BREW进阶与精通——3G移动增值业务的运营 ... | 淘宝定制手机：移动电子商务战略及其背后

2010-03-30 22:05
浏览 751
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

haskell中文入门资料: haskell中文入门资料,代码齐全，入门简单

HaskellR, 在Haskell中，R的全部威力.zip: HaskellR, 在Haskell中，R的全部威力 HaskellR项目网站：https://tweag.github.io/HaskellR邮件列表：GoogleHaskellR项目提供了一种使用Haskell或者 R 代码高效地处理数据的环境。 HaskellR允许Ha

haskell中文教程: haskell中文教程

learn you a haskell: 英文 haskell 的必读书 Haskell是一种纯函数式编程语言，它的命名源自美国数学家Haskell Brooks Curry，他在数学逻辑方面上的工作使得函数式编程...本语言的特式是利用很简单的叙述就可以完成链表、矩阵等数据结构。

HyperHaskell强烈的推荐的Haskell图形化解释器: HyperHaskell 强烈的推荐的Haskell图形化解释器

Haskell编程Haskell Programming: 这是Haskell编程的上一页，我们正在处理中，将那里的所有书籍都转换为新页面。请每天检查此页面！！！

Haskell Quick Syntax Reference.pdf: 这种浓缩的代码和语法参考以一种组织良好的格式呈现了基本的haskell语法，可以用作快速而方便的参考，包括云计算和数据分析的应用程序。本书介绍了haskell的功能编程特性，以及强大的静态类型、懒惰的评估、广泛的...

Haskell-Data-Analysis-Cookbook, Haskell数据分析 cookbook的附带源代码.zip: Haskell-Data-Analysis-Cookbook, Haskell数据分析 cookbook的附带源代码 Haskell-Data-Analysis-Cookbook这是 Haskell数据分析 cookbook的附带源代码。最新的源代码可以在GitHub上获得： ...

haskell教材——中文版: haskell语言教材 Haskell（发音为 /ˈhæskəl/）是一种纯函数式编程语言，它的命名源自美国数学家哈斯凯尔·加里，他在数学逻辑方面上的工作使得函数式编程语言有了广泛的基础。Haskell语言是1990年在编程语言...

frame:Haskell 数据帧库: 在内部，数据存储在未装箱向量的集合中，底层存储和类型信息从最终用户那里抽象出来，目的是创建一个 DataFrame，它可以使用任意 CSV 文件，并让库处理列对齐和缺失值，而无需额外的方向。安装 $ cabal configure ...

language-c-inline, 在Haskell中，内联C & Objective C.zip: language-c-inline, 在Haskell中，内联C & Objective C 内内嵌C & objective-c这个库使用模板Haskell和 language-c-quote，用于C 类似语言的引用库，用于在Haskell中提供内联C 和 objective-c 。在编译Haskell程序...

Haskell入门：用stack搭建haskell编译环境: stack官方网站： ...首先：在终端下键入下面这条命令： ... 出现以下情况：在终端下输入命令： sudo apt install curl ...stack new my-project ...stack build //作用：在此目录/配置中生成包 stack exec my-project-exe

HaskellPart1_Haskell_: Haskell的课程PPT

Haskell-Data-Structure:在Haskell中练习数据结构: Haskell数据结构在Haskell中练习数据结构

Haskell编写的编辑器Yi.zip: Yi 是用 Haskell 开发的文本编辑器，其目的是提供一个灵活、强大的编辑器核心脚本。

HASKELL函数编程讲义: 我们上函数编程HASKELL课时候的讲义很有用的讲解了函数编程和HASKELL的使用方法很不错的

Atom-ide-haskell,用于Atom编辑器的Haskell IDE插件。对原子的贡献.zip: Atom-ide-haskell.zip,用于Atom编辑器的Haskell IDE插件伊德哈斯克尔,atom是一个用web技术构建的开源文本编辑器。

Haskell 2010 Language Report: Haskell 2010 Language Report, Haskell2010的官方报告

Haskell Cookbook: 最近出的书，使用Haskell 2010，并且讲解中使用的是现代的工具链（如stack），并是用构建工具stack来新建、编译和运行书中的全部示例代码工程。

irc-core, 在 Freenode #haskell IRC中，Haskell IRC库和控制台客户机加入了我们.zip: irc-core, 在 Freenode #haskell IRC中，Haskell IRC库和控制台客户机加入了我们 GLIRC - 高级控制台IRC客户端glirc 核心连接 Wiki文档建筑glirc使用最新版本的软件包，请确保软件包的数据库是只读的： $ cabal ...

Global site tag (gtag.js) - Google Analytics