亚线性空间算法1

2023-12-26 06:33:58

流模型

问题：如果采用bit存储的话可以是n或者是Logn 但是对于特别大的数据量这也是不行的，所以我们思考是否有Loglogn的算法来存储统计的数据。

问题1：近似计数Morris算法

多次实验使结果更准确。

问题2：不重复元素/FM算法

?D 不重复元素的个数 m元素的值域是[0,m] n数据流中元素的个数
那么我们可以采用的第一种计数方式是类似于bitmap的方式记录元素存放的位置
第二种方式是我们维护一个集合，每个集合中的元素的大小是Logm 或者是logx具体取决于指派。

最后的估值大约是12-13?
因为哈希函数是随机的所以我们得到的z值是随机的
下面是关于算法正确性的一点讨论

首先 右边的两种情况D是相同的 相当于哈希函数开了一个盲盒 最后的估值
只是取决于D和元素具体是什么没有关系

其次 D越大 越接近0的概率越大 因为他只要有个更小的那么他就一般很难进行更新了。

问题3 ：固定大小采样?

经典的水库抽样。第二个证明略

有放回

文章来源:https://blog.csdn.net/qq_62260432/article/details/135027620
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！