欢迎光临散文网 会员登陆 & 注册

大火的向量数据库与Patentics的R算符

2023-07-17 17:52 作者:Patentics专利检索  | 我要投稿

随着人工智能的大火越烧越旺,最近市场上也好,宣传中也罢,大家可能越来越多的看到了一个新名词:“向量数据库”。不仅仅是很多新兴创业公司借助这个概念在猛炒作自己的AI能力,更是众多巨头大厂也在加入战局,俨然一片蓝海。但是对于不太懂人工智能的老百姓们,包括咱们广大知识产权界的朋友们,可能真的不太明白什么是向量数据库,这东西具体怎么样,有啥用,为什么会有人卖乃至有人买,咱们今天就给大家科普一下。其实最好的科普就是借助一个现实中大家都熟悉的形象,由具象到抽象,一个桥梁搭起来。那么我们的讲解例子就是Patentics的R算符。R算符,大家天天用,常常用,万事不决,R/一下,这个已经成了广大检索者们的口头禅,而且也成了某种意义上语义检索的代名词。但是只有熟练者才真正懂得,Patentics的R算符可不是简单的计算前400,Patentics的R算符就是ranking也就是排序的意思,它排序的是整个专利文献库,你只要找准一个基准目标,比如CN1234567这篇文献,一个R/CN1234567,本质上系统排序了全部专利文献和你这篇待排序的文献,按照相关度从高到低排到底。

有些朋友们可能觉得我怎么每次就看见400篇,那是因为我们觉得您可能最关键的也就是前400,但是如果您需要看更多,那么记住下面的命令:ctop/数字,具体比如:R/CN1234567 and ctop/1000; R/CN1234567 and ctop/20000

是的,ctop/后面写什么数字就是排到多少位的意思,您尽管写,只要您觉得有意思有用,写一个亿我们也是给您反馈回来。

说到这里请各位仔细想想是否其它的专利检索数据库的智能检索或者语义检索也有这个功能模块呢?!即是否它们可以无限排序呢?是否它们是锁死在400篇、500篇或者800篇呢?!

这就回应了我们今天的主题,Patentics特有的R算符的背后就是向量数据库的支撑与存在!所谓的向量数据库呢,其实在一个浩瀚的文字资料里,训练结束后你可以选择将指定的文献都赋予一个指定的向量,那么正常情况下,模型的拥有者当然非常容易做到这件事情。但是如果你不是模型的拥有者,仅仅是使用者,那么就不是那么回事了,你可以去调用模型的特定功能,比如说键入一篇文献,利用模型的近似算法给你反馈一个近似值集合。

看着眼熟吧,是的,这个就是绝大部分数据库,专利数据库的现实,本质上它们是没有自己的语义模型或者大语言模型,无法把所有的文献转化为一个N维空间中的数字向量值,因此具体的表现就是当用户请求计算的时候,它们只能是调用某个商业的模型进行计算反馈,那么结果就是一个有限集合,比如500,比如800.

这里大家也立刻看出来了,那么真正有实力的任何人工智能玩家还是具体落地应用领域的玩家,一定是希望自己有模型,毕竟有模型就意味着有向量,有向量就意味着可以具体任意操控向量的计算,这个在后期任务上有明显的优势。

那么延伸解读,那么为什么现在满大街的“向量数据库”呢?那是因为拥有一个大型语言模型在当前一个是热门,二是很多人搞不懂,三是有硬门槛。对于三这个门槛来说其实就是钱钱钱!没有一定的硬件基础现在无法获得一个合理的大模型效果,那么退而求其次,就是向量数据库了!

这个其实在以前是不常见的商业模式,本质上也都是反馈你一个你期望的运算集合就可以了,其实很类似你和GPT对话,它也是反馈你一个最优解,可以这么理解。但是现在作为商业上B端消费者可能也是不满足这个层面了,希望自己能控制更多。那么向量数据库就油然而生了!

小结一下:

1、向量数据库就是利用大模型将指定文献进行数字向量化,而且当前商业上可以客户化定制,优点很多,比如不用你自己练了,比如后期调用其实比较节省算力;

2、对于一个具体的应用,比如咱们专利检索,完全向量化当然好处多多,就类似Patentics的R算符,它由于是真正意义上的全体排列,所以其可以和其他任意算符如布尔算符B/A等进行混合运算而不造成漏检;

3、向量数据库确实是好,是个商业进步,但是真的好还是要有自己的模型,否则说白了没人根据你的具体应用去优化,就算做也是要钱的,而且没有免费的买卖,调用也是要钱的;

4、向量数据库适合真的没能力但是有需求的土豪朋友们,像我们这样的科技咖,那当然是一定自己做咯;

5、透露一点点,我们想说文献检索不需要那么复杂,几十亿的模型也许就够了,但是也没有那么简单脑残,几个开源的羊驼模型我们也试验过了,效果只能说是呵呵,对比我们自己的还是不够看,但是我们有思路有办法,其实仔细看我们文章的朋友们就应该也想的明白。


大火的向量数据库与Patentics的R算符的评论 (共 条)

分享到微博请遵守国家法律