Redis - 新增三大数据类型

笔记

随着 Redis 版本的增加，Redis 又出现了三个特殊的数据类型。

2021-12-26 @Young Kbt

Bitmaps
- 指令
- Bitmaps 与 Set 对比
HyperLogLog(HLL)
Geospatial
指令总结

# Bitmaps

在开发中，可能会遇到这种情况：需要统计用户的某些信息，如活跃或不活跃，登录或者不登录；又如需要记录用户一年的打卡情况，打卡了是 1，没有打卡是0，如果使用普通的 key-value 存储，则要记录 365 条记录，如果用户量很大，需要的空间也会很大，所以 Redis 提供了 Bitmap 位图这中数据结构。

Bitmap 就是通过操作二进制位来进行记录，即只有为 0 和 1；如果要记录 365 天的打卡情况，使用 Bitmap 表示的形式大概如下：

0101000111000111...........................

这样有什么好处呢？当然就是节约内存了，365 天相当于 365 bit，又 1 字节 = 8 bit，所以相当于使用 46 个字节即可。

BitMap 就是通过一个 bit 位来表示某个元素对应的值或者状态，其中的 key 就是对应元素本身，实际上底层也是通过对字符串的操作来实现。Redis 从 2.2 版本之后新增了 setbit，getbit，bitcount 等几个 bitmap 相关命令。

Bitmaps 本身不是一种数据类型，实际上它就是字符串（key-value），但是它可以对字符串的位进行操作。

# 指令

给偏移量设值(0 或 1)
```
setbit <key> <offset> <value>
```
1
实例：每个独立用户是否访问过网站存放在 Bitmaps 中，将访问的用户记做 1，没有访问的用户记做 0，用偏移量作为用户的 id。假设现在有 20 个用户，userid=1，6，11，15，19 的用户对网站进行了访问
```
setbit "user" 1 1
setbit "user" 6 1
setbit "user" 11 1
setbit "user" 15 1
setbit "user" 19 1
# 其他则为 0，代表未访问
```
1
2
3
4
5
6
根据偏移量获取值
```
getbit <key> <offset>
```
1
示例：获取 id=8 的用户是否在 2020-11-06 这天访问过，返回 0 说明没有访问过
```
getbit "user" 8
```
1
统计字符串从 start 字节到 end 字节比特值为 1 的数量，start 和 end 代表起始和结束字节数
```
bitcount <key> [start end]
```
1
bitop 是一个复合操作，它可以做多个 Bitmaps 的 and（交集）、or（并集）、not（非）、xor（异或）操作并将结果保存在 destkey 中

operation：and（交集）、or（并集）、not（非）、xor（异或）
```
bitop <operation> <destkey> <key1> <key2> ...
```
1
案例：计算出两天都访问过网站的用户数量
- user:lastday：昨天用户数量的 key
- user:today：今天用户数量的 key
- users:and：存储昨天用户数量的 key 和今天用户数量的 key 之和
```
bittop and users:and user:lastday user:today
getbit "users:and" 8
```
1
2

# Bitmaps 与 Set 对比

Set 和 Bitmaps 存储一天活跃用户对比

假设网站有 1 亿用户，每天独立访问的用户有 5 千万，如果每天用集合类型和 Bitmaps 分别存储活跃用户可以得到表

数据类型	每个用户 id 占用空间	需要存储的用户量	全部内存量
集合 Set	64 位	50000000	64 位 * 50000000 = 400MB
Bitmaps	1 位	100000000	1 位 * 100000000 = 12.5MB

Set 和 Bitmaps 存储独立用户空间对比

很明显，这种情况下使用 Bitmaps 能节省很多的内存空间，尤其是随着时间推移节省的内存还是非常可观的。

数据类型	一天	一个月	一年
集合 Set	400MB	12GB	144GB
Bitmaps	12.5MB	375MB	4.5GB

Set 和 Bitmaps 存储一天活跃用户对比（独立用户比较少）

但 Bitmaps 并不是万金油，假如该网站每天的独立访问用户很少，例如只有 10 万（大量的僵尸用户），那么两者的对比如下表所示，很显然，这时候使用 Bitmaps 就不太合适了，因为基本上大部分位都是 0

数据类型	每个 userid 占用空间	需要存储的用户量	全部内存量
集合 Set	64 位	100000	64 位 * 100000 = 800KB
Bitmaps	1 位	100000000	1 位 * 100000000 = 12.5MB

# HyperLogLog(HLL)

Redis 在 2.8.9 版本添加了 HyperLogLog 结构。

Redis HyperLogLog 是用来做基数统计的算法，HyperLogLog 的优点是，在输入元素的数量或者体积非常非常大时，计算基数所需的空间总是固定的、并且是很小的。

在 Redis 里面，每个 HyperLogLog 键只需要花费 12KB 内存，就可以计算接近 2^64 个不同元素的基数。这和计算基数时，元素越多耗费内存就越多的集合形成鲜明对比。

HyperLogLog 是一种算法，它提供了不精确的去重计数方案。

举个栗子：假如我要统计网页的 UV（浏览用户数量，一天内同一个用户多次访问只能算一次），传统的解决方案是使用 Set 来保存用户 id，然后统计 Set 中的元素数量来获取页面 UV。但这种方案只能承载少量用户，一旦用户数量大起来就需要消耗大量的空间来存储用户 id。我的目的是统计用户数量而不是保存用户，这简直是个吃力不讨好的方案。而使用 Redis 的 HyperLogLog 最多需要 12k 就可以统计大量的用户数，尽管它大概有 0.81% 的错误率，但对于统计 UV 这种不需要很精确的数据是可以忽略不计的。

HyperLogLog 根据输入元素来计算基数，而不会储存输入元素本身（相比较 Set），只储存数，不存元素本身，只存储值。

比如数据集 {1, 3, 5, 7, 5, 7, 8}，那么这个数据集的基数集为 {1, 3, 5 ,7, 8}, 基数（不重复元素总数）为 5。基数估计就是在误差可接受的范围内，快速计算基数。

总结就是去掉重复的元素，只存储不重复元素的个数，不会储存元素本身。

添加指定元素（可添加多个）
```
pfadd <key> <element> [element] ...
```
1
计算 HLL 的近似基数（可计算多个）
```
pfcount <key> [key] ...
```
1

将一个或多个 HLL 合并后的结果存储在另一个 HLL 中

pfmerge <newKey> <otherKey> <otherKey> [otherKey] ...

例子：

pfadd hll1 "redis" "mysql" "reids"
pfcount hll1   # 结果 2，因为 redis 重复了

pfadd hll2 "oracle"
pfmerge hll3 hll1 hll2
pfcount hll3  # 结果 3，因为 hll1 与 hll2 合并的结果给 hll3

1
2
3
4
5
6

案例：

127.0.0.1:6379> pfadd mykey a b c d e f g h i j
1
127.0.0.1:6379> pfcount mykey
10
127.0.0.1:6379> pfadd mykey2 i j z x c v b n m
1
127.0.0.1:6379> pfmerge mykey3 mykey mykey2
OK
127.0.0.1:6379> pfcount mykey3
15

1
2
3
4
5
6
7
8
9
10

# Geospatial

Redis 3.2 中增加了对 GEO 类型的支持。GEO 即 Geographic，地理信息的缩写。该类型，就是元素的二维坐标，在地图上就是经纬度。redis 基于该类型，提供了经纬度设置、查询、范围查询、距离查询、经纬度 Hash 等常见操作。GEO 的数据类型为 zset。

添加地理位置（经度，纬度，名称）（可添加多个）
```
geoadd <key> <经度> <维度> <名称> ...
```
1
例子：
```
geoadd china:city 121.47 31.23 上海

# 一次性添加多个地理位置
geoadd china:city 106.50 29.53 广西 114.05 22.52 深圳 116.38 39.90 北京
```
1
2
3
4
注意：两极无法添加，有效的经度从 -180 度到 180 度。有效的纬度从 -85.05112878 度到 85.05112878 度，当坐标位置超出指定范围时，该命令将会返回一个错误。已经添加的数据，是无法再次往里面添加的。

获得指定地区的坐标值

geopos <key> <名称> [名称...]

例子：

geopos china:city 北京 上海 重庆

# 返回经度和纬度

1
2
3

获取两个位置之间的直线距离
```
geodist <key> <名称1> <名称2> [m|km|ft|mi]
```
1
例子：
```
geodist china:city 北京 上海 km 

# 结果：1087.4816
```
1
2
3
单位：m 表示单位为米[默认值]。km 表示单位为千米。mi 表示单位为英里。ft 表示单位为英尺

以给定的经纬度为中心，找出某一半径内的元素

georadius <key> <经度> <维度> 距离 m|km|ft|mi

例子：

georadius china:city 110 30 1000 km

# 返回结果：chongqing  shenzheng

1
2
3

# 指令总结

虽然看了三个数据类型的 API 和例子，但是两者混为一起，难免心生抵触，不想看例子，这里以表格形式总结 API，不参杂任何例子。

# Bitmaps

指令	含义
setbit <key> <offset> <value>	给偏移量设值(0 或 1)
getbit <key> <offset>	根据偏移量获取值
bitcount <key> [start end]	统计字符串从 start 字节到 end 字节比特值为 1 的数量，start 和 end 代表起始和结束字节数
bitop <operation> <key1> <key2> ...	bitop 是一个复合操作，operation 是 and（交集）、or（并集）、not（非）、xor（异或），可以将结果保存在 destkey 中

# HyperLogLog(HLL)

指令	含义
pfadd <key> <element> [element] ...	添加指定元素（可添加多个）
pfcount <key> [key] ...	计算 HLL 的近似基数（可计算多个）
pfmerge <newKey> <otherKey> <otherKey> [otherKey] ...	将一个或多个 HLL 合并后的结果存储在另一个 HLL 中

# Geospatial

指令	含义
geoadd <key> <经度> <维度> <名称> ...	获得指定地区的坐标值
geodist <key> <名称1> <名称2> [m\|km\|ft\|mi]	获取两个位置之间的直线距离
georadius <key> <经度> <维度> 距离 m\|km\|ft\|mi	以给定的经纬度为中心，找出某一半径内的元素

编辑此页

#缓存数据库

更新时间: 2023/09/18, 16:34:13

← Redis - 五大数据类型及API Redis - 配置文件→