欢迎光临散文网 会员登陆 & 注册

浅读检索--《浅析非常规字段与运算符检索全文库对检索效能的提高》

2022-10-09 00:13 作者:黑娃-专利检索  | 我要投稿

我的公众号原文链接:https://mp.weixin.qq.com/s/2K5X-CvZYUmV4NyrPUcNEg

本文浅读的对象,为期刊“中国发明与专利”2020年第17卷增刊1中的检索相关文章,作者为来自国家知识产权局专利局专利审查协作湖北中心的梅潇、叶盛。以下浅读、分析等均仅代表本人观点,不代表作者梅潇、叶盛观点。如有其他理解欢迎交流。


《浅析非常规字段与运算符检索全文库对检索效能的提高》主要阐述了,当我们在做全文检索时,如何利用非常规字段与算符提高检索效率。
这里有三个知识点,一个是全文检索,一个是非常规字段与算符,再一个是全文检索有何特殊性以至于需要借助他法来提高效率。

1)全文检索:即在全文范围内进行检索。全文不同于仅摘要范围、仅权利要求范围或仅说明书范围等范围,它是一篇专利公开文献的内容最大化。当我们选择了全文检索,那么,至少在文献源上降低了漏检几率。
2)非常规字段与算符:常规字段如标题/摘要/权要、全文、说明书,常规算符如布尔算符(and/or/not)、邻近算符、同句同段算符。非常规即常规的反义,除此之外的不太常用的字段与算符就是非常规字段与算符。但作者文中的说明书我保留意见,虽然作者本意在于表达避免重复检索,然而说明书字段在很多人(至少很多我见过人做的检索式,包括很多咨询我检索问题的人)是常用的字段,并没到非常规的地步。
3)全文检索有何特殊性以至于需要借助他法来提高效率:我们知道,除全文之外,其他常用范围如摘要、权利要求,相较全文范围都是明显缩小的,在这样的范围内,很多时候只要关键词选取及表达适当(准确度不一定要很高),关键词之间用and连接就够了,噪音不会很大。但全文不一样,如果纯用and连接关键词,那么就代表我们允许输入的关键词可出现在全文任何位置,这可预期的会带来很大噪音。
1.作者第一个方法,是利用说明书字段以避免重复检索:“在摘要库中没有检索到合适对比文件的情况下,在全文库中进行检索,并且通过采用 DESC 字段,有效地过滤掉了仅在摘要库中提到、且并未在说明书中出现的需要检索的关键技术特征的对比文件。[1]”
审查员在摘要范围内进行检索是审查员的常规手段,在较短的检索时间内,或在进行试探性的查准检索时,摘要范围无疑是不错的选择:摘要普遍包含了主要技术方案和主要功能效果等,且摘要相对其他部分而言重要性很低,因此申请人在此设文字陷阱的可能性也很低。

在摘要部分已经浏览过后,如果没有合适对比文件,可以将目光放在其他范围,如全文。这里单纯以说明书范围来说明其实我是存疑的。因为单纯看说明书的话其实就是选择性的排除了权利要求书范围。我推测有个考虑是,权利要求书的内容要么是说明书实施例的上位化概括,要么就是说明书实施例的浓缩,无论如何大概率都会在说明书中有所体现或得到详细说明/解释。

同样的检索式,已经在摘要范围内检索过并且未发现合适对比文件或合适对比文件组合缺乏时,转而在说明书范围中检索,此时两个范围的叠加等同于进行了一次全文检索。摘要之后选择说明书检索而非全文检索,就是为了避免已经进行过的摘要检索范围的重复浏览。
这对于提高检索效率而言是容易理解的,主要目的还是避免重复浏览文献。关于这一点,除了通过字段变换来实现,也可以通过部分数据库的功能来实现,比如黑马数据库的已读设置,可以通过排除概览、详览文献的方式,来达到避免重复浏览的问题:

图片


这个方法有个问题,如作者阐述的一样:“采用 DESC在全文库中的检索必须是在摘要库已经检索过的情况下,才能够避免重复检索[1]”。摘要+说明书等同于全文,这也许合理,但必须基于同一检索式的前提。如果说明书检索和摘要检索检索式不同,那就不存在理论上的范围互补。我们几乎不会只用一个检索式进行检索,我们经常会调整,当我们调整了,最终还是要尝试全文检索,因为调整后的检索式,尚未运用于摘要范围。

2.作者第二个方法,是采用频率算符来降噪:“对于与文献主题相关的关键词必然在文献的权利要求书、说明书中反复出现,因此通过频率运算符 FREC 来限定,可以有效地减少检索噪音干扰。[1]”
这个目的很容易理解。对比文件如果整体上和我预期的目标文件一致,那么我想看到的关键词,在文中一定会有多次出现,这才是强的相关性。但这个方法我没用过,不是觉得很难操作,而是风险太大。

如果单单看查准,可以尝试,但是说起来,对于查准来说,可尝试手段五花八门,他的优势在哪呢。在于可以限制重要关键词的出现频率,以对比文件关联强度来降噪。手段是限制频率。问题来了,怎样的频率合适呢,这个数字范围如何选取?作者文中用了frec>10这样的频率数。但并没解释10这个数字选取的具体理由和依据,只是说这个技术特征出现频率不会少。那其实就是在拼概率和检索经验了,或简单说就是在赌,赌对比文件大概率是我所想的这个频率数。
频率和关键词本身的重要性相关,而关键词本身的重要性并不能直接用于量化频率本身,这是一个明显的转化问题。

我觉得这个方法风险大,另一个原因在于,我考虑到无效检索中,对比文件即可用证据出现的位置并不一定,也许就是背景技术的一个现有技术方案,也或许就是说明书中一两句简单的替代方案描述,此时的可用对比文件,其关键词频率数一定是极低的。但作者本意既是针对实审,也就不纠结这个原因。
3.作者第三个方法,是采用附图说明字段来查准:“对于机械结构类的专利文献,为了能够清楚、直观地介绍其技术方案,其重要的构件、技术手段往往会通过附图的形式来展现,附图说明则会对附图的具体内容进行简要的介绍。附图说明的文字部分很有可能包含了专利文献的重要技术手段。[1]”
这让我回忆起大概两个月前,我给我学员讲作业解析时,有个学员跟我说到在机械领域专利中,附图的剖视图这个类型,如果我们的目标文件,是经常出现在剖视状态的,那么以剖视来检索附图也许会有意想不到的效果。不知道这位学员后来有没有测试这个方法的检索效率,但我以为这是个不错的想法。

任何对目标文件的合理假设,其具备一定必然性时,都可以成为检索式构建的理由。作者这里的处理方法也是一样,基于对目标文件的合理假设,在机械领域中,附图说明往往的确会简单介绍附图的具体内容,那么在附图中检索也不失为一种办法。

参考文献:

[1]梅潇,叶盛.浅析非常规字段与运算符检索全文库对检索效能的提高[J].中国发明与专利,2020,(17):122-126

黑娃

许利民,思博论坛ID“黑娃”

1)景毅检索分析团队负责人、思博论坛版主及检索讲师;

2)知识产权师、检索分析师;

3)擅长无效检索、侵权检索、稳定性检索、公众意见检索、查新检索,有丰富的涉诉无效检索经验,已经手包括化工机械、医疗器械、电商产品、注塑机械等在内的许多领域专利检索;

4)有对企业、代理机构及高校的专利检索培训经验

图片


浅读检索--《浅析非常规字段与运算符检索全文库对检索效能的提高》的评论 (共 条)

分享到微博请遵守国家法律