欢迎光临散文网 会员登陆 & 注册

【上集】向量数据库技术鉴赏

2023-07-14 01:31 作者:一只凉橙  | 我要投稿

不同事物(抽象或者具象)都会在高维特征空间中对应着一个坐标点,可搜索相似的向量(视频推荐,根据文本相似可以在智能问答中找到相似问题提供参考)。

词汇向量化很常见(词向量),而chatGBT出现产生思考: 对话内容向量化用当前对话搜索到历史中相似的对话,将记忆提示给模型会提高效果。

向量数据库: 查询过程具有一定模糊性,搜索的是相似向量(不像数据表那么精确)。

搜索相似向量——最近邻问题——最近邻搜索算法

暴力搜索: 依次比较

现实情况是其他任何方法都不能保证不出现遗漏(除了暴力)——故被称为近似最近邻算法

聚类: 找出和查询向量最近的那个聚类中心(不能保证不出现遗漏)

哈希: 计算哈希值需要发生碰撞 碰到一起就是相似


生成过程 随机超平面 妙


有可能真的不在一起了(a和d),所以需要分段


【上集】向量数据库技术鉴赏的评论 (共 条)

分享到微博请遵守国家法律