欢迎光临散文网 会员登陆 & 注册

向量数据库是什么,使用场景是什么?

2023-07-14 12:14 作者:哆啦A梦_编程大冒险  | 我要投稿

向量数据库是什么,使用场景是什么? 向量的可以通过一个名叫嵌入embedding的过程,把各种非结构化数据表示出来,相当于多维压缩到低维,把特征向量抽象成一串串数字,让AI大模型看得懂,而且都能用这些数值去做训练和推理。在机器学习和数据科学里,向量通常是一组数字。它们组成了一个多维的数值空间,向量的每个维度代表该空间的一个不同的特征或属性。 例如图像中不同像素点的颜色值,或是文本中每个词的出现频率等。通过定义不同的特征和属性,就可以把原始数据表示成多个维度的向量。这个表示方式有个很大的优点,就是类似的内容转换成向量之后他们都会离得比较近。这样就可以用余弦相似性(通过测量两个向量的夹角的余弦值来度量他们之间的相似性。)、欧式距离(多维空间中两个点之间的绝对距离。)这些方法来向量化向量的相似性。这样就特别方便做推荐算法,因为你看了一个视频之后,系统直接去找离这个视频向量最近的另外一个向量就可以了。 那些搜同款、找类似图片等等,其实也是差不多的原理,通过对向量进行数学运算,就可以实现各种机器学习算法和数据分析技术。例如聚类、分类、回归等等,这些都是计算机最擅长的,相当于把那些对视频图片文字的操作,转换成了数学运算和操作。有啥好处呢?当然就是简单、快、通用性强。理解了向量,向量数据库就更好理解了,就是专门用来存储和管理向量数据的……库(专用于存储和管理向量数据)。能对向量数据进行高效的增删改查。 对于AI大模型来说向量数据库到底有什么作用呢?我总结了三点,分别是私域知识、本地存储、长期记忆。私域知识是指可以把向量数据库作为大模型的外挂知识库。即使大模型没学过这些知识也没关系。直接冲向量数据库里去检索相应地内容就可以了。这种方法不需要重新训练,比常见的大模型微调地方法成本更低、速度更快。也能通过更新数据库保证AI大模型知识的实时更新。本地存储就是把数据存在本地,而不需要喂给大模型训练,特别是如果你有很多敏感地数据和信息。不想让大模型学到,就可以通过向量数据库完成。这也能从根本上协助解决大模型隐私泄露的问题。那么长期记忆呢是相比大模型的短期记忆来说的。大模型都有个上下文窗口,窗口大小由Token数量决定,它只能记住这个窗口中间的东西。有了向量数据库就可以保存所有的聊天记录,特别适合作为聊天机器人,面向多个用户使用的时候,就可以把每个用户的聊天内容都存在向量数据库里进行查询检索,不会丢失上下文信息。 总之呢,向量数据库补齐了很多AI大模型的短版,天然适合大语言模型的应用场景。这个也是为什么人工智能爆发之后,也立刻带飞了向量数据库的原因。

向量数据库是什么,使用场景是什么?的评论 (共 条)

分享到微博请遵守国家法律