【下集】向量数据库技术鉴赏

问题:除了搜索速度,还有内存开销问题
方法:降低向量本身大小
1.乘积向量——有损压缩——蒙娜丽莎例子(图片中每个像素点都被其所在分类质心点所替代)——在一定程度保留原始信息——给质心编码单个编码值存储减少空间(把向量用质心编码表示就是量化)——码本
蒙娜丽莎图

单个编码值存储

存在问题:
维度增加(数据稀疏)——非常大的聚类数——维度灾难——内存超过了反而得不偿失
进一步解决:高维分成低维——拼接子向量——笛卡尔积


2.用户更注重速度和质量
6人理论小世界——导航小世界nsw

需要手动建立图结构
保证以下性质:

需要这个:德劳内三角剖分法

但是这个建立的图结构搜索时候不一定很快速,所以nsw方法如下,妙在先粗快,后细慢

hnsw:分层的导航小世界
图 搜索时候从最上层进入,快速导航,逐步进入下一层,比nsw更稳定。缺点就是占用内存太大

