【下集】向量数据库技术鉴赏

- 向量的差代表关系,差相近代表关系相近,可以用于推荐和寻找近似的东西
- 归类近似的算法
- 聚类算法:随机得到4个点,按距离把点分为4类,计算类的质心,不断迭代,直到收敛
- 哈希算法:随机给定超平面,将点分为两类,多次划分之后每个点会得到一段二进制数,把二进制分段,每段代表一个桶,相同的段放到一个桶里面
- 减少内存开销:每一类点在码本中查询他们的质心,再量化为占用更小空间的数
- 维度灾难:维度越高,点的分布就更加稀疏,就需要更多的质心才能保证精确性,质心越多导致码本指数增大,反过来总体占用内存又变大了,128维向量可能需要2的64次方个聚类中心
- 积量化:128维向量可以拆成8个16维向量,分别进行聚类,分别得到8个质心,在这个过程中从8个人码本可以看出来,码本的占用空间是线性增大
- 随机入口搜索向量(点)
- Facebook两个人之间的关联为3.57个人
- 建图的方法:德劳内三角剖分法
- 每个点都有直接连接的节点
- 距离低于阈值的点是连接的
- 前两条的前提下连线最少
- 导航小世界:可能可以做到先粗快后慢细查到需要向量
- 分层导航小世界
- 从顶部进入就能可控保证先粗快后慢细
- 这样复杂的图结构占用空间很大