【下集】向量数据库技术鉴赏

2023-07-09 17:11 作者:江崎玲于奈 0人读过 | 我要投稿

向量的差代表关系,差相近代表关系相近,可以用于推荐和寻找近似的东西
归类近似的算法
聚类算法:随机得到4个点,按距离把点分为4类,计算类的质心,不断迭代,直到收敛
哈希算法:随机给定超平面,将点分为两类,多次划分之后每个点会得到一段二进制数,把二进制分段,每段代表一个桶,相同的段放到一个桶里面
减少内存开销:每一类点在码本中查询他们的质心,再量化为占用更小空间的数
维度灾难:维度越高,点的分布就更加稀疏,就需要更多的质心才能保证精确性,质心越多导致码本指数增大,反过来总体占用内存又变大了,128维向量可能需要2的64次方个聚类中心
积量化:128维向量可以拆成8个16维向量,分别进行聚类,分别得到8个质心,在这个过程中从8个人码本可以看出来,码本的占用空间是线性增大
随机入口搜索向量(点)
Facebook两个人之间的关联为3.57个人
建图的方法:德劳内三角剖分法
每个点都有直接连接的节点
距离低于阈值的点是连接的
前两条的前提下连线最少
导航小世界:可能可以做到先粗快后慢细查到需要向量
分层导航小世界
从顶部进入就能可控保证先粗快后慢细
这样复杂的图结构占用空间很大

标签：

【下集】向量数据库技术鉴赏的评论 (共条)