【上集】向量数据库技术鉴赏

不同事物(抽象或者具象)都会在高维特征空间中对应着一个坐标点,可搜索相似的向量(视频推荐,根据文本相似可以在智能问答中找到相似问题提供参考)。
词汇向量化很常见(词向量),而chatGBT出现产生思考: 对话内容向量化用当前对话搜索到历史中相似的对话,将记忆提示给模型会提高效果。
向量数据库: 查询过程具有一定模糊性,搜索的是相似向量(不像数据表那么精确)。
搜索相似向量——最近邻问题——最近邻搜索算法
暴力搜索: 依次比较
现实情况是其他任何方法都不能保证不出现遗漏(除了暴力)——故被称为近似最近邻算法
聚类: 找出和查询向量最近的那个聚类中心(不能保证不出现遗漏)
哈希: 计算哈希值需要发生碰撞 碰到一起就是相似


生成过程 随机超平面 妙


有可能真的不在一起了(a和d),所以需要分段
