您现在的位置是:首页 > 编程语言学习 > 后端编程语言 > 文章正文 后端编程语言

关于Redis中bitmap的原理和使用详解

2023-05-18 10:28:16 后端编程语言

简介这篇文章主要介绍了关于Redis中bitmap的原理和使用详解,BitMap即位图,使用每个位表示某种状态,适合处理整型的海量数据,本质上是哈希表的...

这篇文章主要介绍了关于Redis中bitmap的原理和使用详解,BitMap即位图,使用每个位表示某种状态,适合处理整型的海量数据,本质上是哈希表的一种应用实现,需要的朋友可以参考下!

一、原理

先声明一下:Redis 有5种数据类型,而 BitMap 在 Redis 中并不是一个新的数据类型,其底层是 Redis 实现。

通常情况下,我们在 redis 中存储一个字符串,如:“big”,它的位图如下: 在这里插入图片描述

0.001kb = 1b = 8bit

所以,字符串“big”占3个字符,也就是24个bit位。

Redis 从 2.2.0 版本开始新增了 setbit,getbit,bitcount 等几个 bitmap 相关命令。虽然是新命令,但是并没有新增新的数据类型,因为 setbit 等命令只不过是在 set 上的扩展。

利用上述命令,Redis 可以操作二进制的位,可以取/改每一个位对应的值,简单写几个:

  1. 127.0.0.1:6379 > set hello big 
  2. "OK" 
  3.   
  4. 127.0.0.1:6379 > getbit hello 0 
  5. "0" 
  6.   
  7. 127.0.0.1:6379 > getbit hello 1 
  8. "1" 
  9.   
  10. 127.0.0.1:6379 > setbit hello 7 1 
  11. "0" 
  12.   
  13. 127.0.0.1:6379 > get hello 
  14. "cig" 

通过上面的例子,我们可以发现:

  • getbit,setbit 可以对字符串进行位操作,可以获取/修改某位上的值;
  • 字符串的位修改以后,字符串本身也发生了根本变化,big -> cig。

BitMap 原本的含义是用一个 bit 位来进行0或者1的设置,映射某个元素的状态。

由于一个比特位只能表示 0 和 1 两种状态,也就是说一个 bit 能存储的最多信息量是 2,所以 BitMap 能映射的状态有限,但是使用比特位的优势是能大量的节省内存空间。

二、BitMap 相关命令

在 Redis 中,Bitmap 是一串连续的2进制数字(0或1),所以,可以把 Bitmaps 想象成一个以比特位为单位的数组,数组的每一位所在的位置为偏移(offset),数组的下标在 Bitmaps 中叫做偏移量,在 bitmap 上可执行AND,OR,XOR以及其它位操作。

  1. # 设置值,其中value只能是 0 和 1 
  2. setbit key offset value 
  3.   
  4. # 获取值 
  5. getbit key offset 
  6.   
  7. # 获取指定范围内值为 1 的个数 
  8. # start 和 end 以字节为单位 
  9. bitcount key start end 
  10.   
  11. # BitMap间的运算 
  12. # operations 位移操作符,枚举值 
  13.   AND 与运算 & 
  14.   OR 或运算 | 
  15.   XOR 异或 ^ 
  16.   NOT 取反 ~ 
  17. # result 计算的结果,会存储在该key中 
  18. # key1 … keyn 参与运算的key,可以有多个,空格分割,not运算只能一个key 
  19. # 当 BITOP 处理不同长度的字符串时,较短的那个字符串所缺少的部分会被看作 0。返回值是保存到 destkey 的字符串的长度(以字节byte为单位),和输入 key 中最长的字符串长度相等。 
  20. bitop [operations] [result] [key1] [keyn…] 
  21.   
  22. # 返回指定key中第一次出现指定value(0/1)的位置 
  23. bitpos [key] [value] 

三、BitMap 空间计算

因为 BitMap 中的 bit 位 是 字符串的映射,字符串在 value 中的存储是有上限的,所以 BitMap 的valu额存储空间可以用相同的方式计算。

Redis 中字符串的最大长度是 512M,所以 BitMap 的 offset (偏移量)最大值为:


  1. 512 * 1024 * 1024 * 8  =  2^32 

四、使用场景

1. 用户签到

很多网站都提供了签到功能,并且需要展示最近一个月的签到情况,这种情况可以使用 BitMap 来实现。 根据日期 offset = (今天是一年中的第几天) % (今年的天数),key = 年份:用户id。

如果需要将用户的详细签到信息入库的话,可以考虑使用一个一步线程来完成。

  1. # 2021年第一天,用户Id = userId 的用户签到 
  2. setbit 2021:userId 1 1 

2. 统计活跃用户(用户登陆情况)

使用日期作为 key,然后用户 id 为 offset,如果当日活跃过就设置为1。具体怎么样才算活跃这个标准大家可以自己指定。

假如:

  • 20220101 活跃用户情况是: [1,0,1,1,0]
  • 20220102 活跃用户情况是 :[ 1,1,0,1,0 ]

统计连续两天活跃的用户总数:

  1. bitop and dest1 20220101 20220102  
  2. # dest1 中值为1的offset,就是连续两天活跃用户的ID 
  3. bitcount dest1 

统计20220101 ~ 20220102 活跃过的用户总数:

  1. bitop or dest2 20220101 20220102 
  2. # dest2 中值为1的offset,就是两天都活跃的用户的ID 
  3. bitcount dest2 

3. 统计用户在线状态

如果需要提供一个查询当前用户是否在线的接口,也可以考虑使用 BitMap ,即节约空间效率又高,只需要一个 key,然后用户 id 为 offset,如果在线就设置为 1,不在线就设置为 0。

  1. # userId 登录,设置状态为1 
  2. setbit key userId 1 
  3.   
  4. # 获取 userId 的状态:1 - 在线;0 - 不在线 
  5. getbit key userId 

4. 实现布隆过滤器

布隆过滤器解决缓存穿透。

更多关于布隆过滤器的介绍请参考我写的文章:布隆(Bloom Filter)过滤器

五、总结

  1. bigmap 基于最小的单位bit进行存储,最大优势是非常省空间;
  2. 设置时候时间复杂度O(1)、读取时候时间复杂度O(n),操作是非常快的;
  3. 二进制数据的存储,进行相关计算的时候非常快,也能方便扩容;
  4. 不要给一个很短的 bigmap 设置很长位的偏移量的值,这样有可能堵塞。

相关文章

站点信息