欢迎光临散文网 会员登陆 & 注册

【下集】向量数据库技术鉴赏

2023-07-14 03:41 作者:一只凉橙  | 我要投稿

问题:除了搜索速度,还有内存开销问题

方法:降低向量本身大小

1.乘积向量——有损压缩——蒙娜丽莎例子(图片中每个像素点都被其所在分类质心点所替代)——在一定程度保留原始信息——给质心编码单个编码值存储减少空间(把向量用质心编码表示就是量化)——码本

蒙娜丽莎图

单个编码值存储

存在问题:

维度增加(数据稀疏)——非常大的聚类数——维度灾难——内存超过了反而得不偿失

进一步解决:高维分成低维——拼接子向量——笛卡尔积



2.用户更注重速度和质量

6人理论小世界——导航小世界nsw

需要手动建立图结构

保证以下性质:

需要这个:德劳内三角剖分法

但是这个建立的图结构搜索时候不一定很快速,所以nsw方法如下,妙在先粗快,后细慢

hnsw:分层的导航小世界

图 搜索时候从最上层进入,快速导航,逐步进入下一层,比nsw更稳定。缺点就是占用内存太大



【下集】向量数据库技术鉴赏的评论 (共 条)

分享到微博请遵守国家法律