欢迎光临散文网 会员登陆 & 注册

【下集】向量数据库技术鉴赏

2023-07-09 17:11 作者:江崎玲于奈  | 我要投稿
  1. 向量的差代表关系,差相近代表关系相近,可以用于推荐和寻找近似的东西
  2. 归类近似的算法
  3. 聚类算法:随机得到4个点,按距离把点分为4类,计算类的质心,不断迭代,直到收敛
  4. 哈希算法:随机给定超平面,将点分为两类,多次划分之后每个点会得到一段二进制数,把二进制分段,每段代表一个桶,相同的段放到一个桶里面
  5. 减少内存开销:每一类点在码本中查询他们的质心,再量化为占用更小空间的数
  6. 维度灾难:维度越高,点的分布就更加稀疏,就需要更多的质心才能保证精确性,质心越多导致码本指数增大,反过来总体占用内存又变大了,128维向量可能需要2的64次方个聚类中心
  7. 积量化:128维向量可以拆成8个16维向量,分别进行聚类,分别得到8个质心,在这个过程中从8个人码本可以看出来,码本的占用空间是线性增大
  8. 随机入口搜索向量(点)
  9. Facebook两个人之间的关联为3.57个人
  10. 建图的方法:德劳内三角剖分法
  11. 每个点都有直接连接的节点
  12. 距离低于阈值的点是连接的
  13. 前两条的前提下连线最少
  14. 导航小世界:可能可以做到先粗快后慢细查到需要向量
  15. 分层导航小世界
  16. 从顶部进入就能可控保证先粗快后慢细
  17. 这样复杂的图结构占用空间很大


【下集】向量数据库技术鉴赏的评论 (共 条)

分享到微博请遵守国家法律