欢迎光临散文网 会员登陆 & 注册

谷歌:公布专利短语相似性数据集

2023-03-27 08:00 作者:小牛翻译NiuTrans  | 我要投稿

本文首发于网站 机器翻译学堂

转载事宜请后台询问哦

译者|刘晓雯

单位|东北大学自然语言处理实验室

前言

专利文件通常使用法律和高度技术性的语言,并且使用上下文相关的术语,这些术语的含义可能与口语用法有很大不同,甚至在不同的文件之间也十分不同。使用传统的专利搜索方法(例如关键字搜索)搜索超过一亿个专利文档语料库的过程可能很繁琐,并且由于使用的语言广泛且不标准,会导致许多结果丢失。例如,“足球”可以描述为“球形娱乐装置”、“充气运动球”或“球类游戏用球”。此外,一些专利文档中使用的语言可能会使术语变得混淆,因此更强大的自然语言处理(NLP)和语义相似性理解可以让每个人都有机会进行彻底搜索。

由于使用了法律和技术术语,专利领域(以及更通用的技术文献,如科学出版物)对NLP建模提出了独特的挑战。虽然有多种常用的通用语义文本相似性(STS)基准数据集(例如STS-B、SICK、MRPC、PIT),但据我们所知,目前还没有专注于专利和科学出版物中技术概念的数据集(与有些相关的BioASQ挑战包含一个生物医学问答任务)。此外,随着专利库规模的持续增长(全球每年发布数百万新专利),有必要为该领域开发更有用的NLP模型。

今天,我们宣布发布了专利短语相似度数据集,这是一个新的人类评级上下文短语到短语的语义匹配数据集,以及相关的论文在SIGIR PatentSemTech研讨会上提交,该研讨会侧重于专利的技术术语。专利短语相似性数据集包含约50000个分级短语对,每个短语对都有一个联合专利分类(CPC)的类作为上下文。除了通常包含在其他基准数据集中的相似性分数外,我们还包括类似于WordNet的粒度分级类,例如同义词、反义词、上义词、下义词、全名、缩写词和领域相关。该数据集(根据知识共享署名4.0国际许可证发布)被Kaggle和USPTO用作美国专利短语匹配竞赛的基准数据集,以更多关注于机器学习模型在技术文本上的性能。初步结果表明,在此新数据集上进行微调的模型性能大大优于未进行微调的常规预训练模型。

专利短语相似性数据集

为了更好地训练下一代最先进的模型,我们创建了专利短语相似性数据集,其中包括许多示例来解决以下问题:(1)短语消除歧义,(2)对抗性关键字匹配,以及(3)硬否定关键字(即不相关但从其他模型获得较高相似性分数的关键字)。一些关键字和短语可以有多种含义(例如,短语“mouse”可能指动物或计算机输入设备),因此我们通过在每对短语中包含CPC类来消除短语的歧义。此外,许多NLP模型(例如,单词袋模型)对包含匹配关键字但在其他方面不相关的短语的数据处理效果不佳(对手关键字,例如“容器部分”→ “厨房容器”、“偏移表”→ “表扇”)。专利短语相似性数据集旨在包含许多通过对抗性关键字匹配而不相关的匹配关键字的示例,从而使NLP模型能够提高其性能。

专利短语相似性数据集中的每个条目包含两个短语,锚和目标,上下文CPC类,评级类和相似性分数。数据集包含48548个条目和973个唯一锚定,分为训练集(75%)、验证集(5%)和测试集(20%)。拆分数据时,具有相同锚定的所有条目都将保留在同一集合中。共有106个不同上下文的CPC类,并且该训练集包含所有的上下文CPC类。

数据集的小样本,包含锚定短语和目标短语、上下文CPC类(B08:清洁,C10:石油、天然气、燃料、润滑油,A22:屠宰,加工肉类/家禽/鱼类)、评级类和相似性分数

生成数据集

为了生成专利短语相似性数据,我们首先处理谷歌专利语料库中约1.4亿个专利文档,并自动提取重要的英语短语,这些短语通常是名词短语(例如,“紧固件”、“提升组件”)和功能短语(例如,“食品加工”、“油墨印刷”)。接下来,我们过滤并保留出现在至少100个专利中的短语,并从中随机抽取1000个短语,我们称之为锚定短语。对于每个锚定短语,我们可以找到所有匹配的专利以及这些专利的所有CPC类别。然后,我们随机抽取四个匹配的CPC类,它们成为特定锚短语的上下文CPC类。

我们使用两种不同的方法预生成目标短语:(1)部分匹配和(2)掩码语言模型(MLM)。对于部分匹配,我们从整个语料库中随机选择与锚定短语部分匹配的短语(例如,“消减”→ “降噪”、“材料成型”→ “成型材料”)。对于MLM,我们从包含给定锚定短语的专利中选择句子,屏蔽它们,并使用Patent-BERT模型预测文本掩码部分的候选。然后,清洗所有短语,包括小写处理,删除标点符号和某些非索引词(例如,“and”、“or”、“said”),并发送给专家评分员审查。每个短语对会由两名技术领域熟练的评分员单独评分。每个评分员还给出具有不同评分的新目标短语。具体来说,他们被要求给出一些与原始锚和/或一些高相似目标部分匹配的低相似性和无关目标。最后,评分员开会讨论他们的评分,并得出最终评分。

数据集评估

为了评估其性能,在美国专利短语到短语匹配Kaggle竞赛中使用了专利短语相似性数据集。比赛非常受欢迎,吸引了约2000名来自世界各地的选手。得分最高的团队们成功使用了多种方法,包括BERT变体的集成模型和prompting(更多详细信息,请参阅完整讨论)。下表显示了竞赛的最佳结果,以及我们论文中的几个现成基线。Pearson相关度量用于测量预测分数和真实分数之间的线性相关性,这对于下游模型的目标是有用的度量,因此它们可以区分不同的相似性评级。

本文中的基线可以被视为zero-shot,因为它们使用现成的模型,而且没有在新数据集上进一步微调(我们使用这些模型分别嵌入锚定短语和目标短语,并计算它们之间的余弦相似性)。Kaggle竞赛结果表明,通过使用我们的训练数据,与现有的NLP模型相比,可以取得显著的改进。我们还通过将单个评分员的分数与两个评分员的综合分数进行比较来评估人类在这项任务中的表现。结果表明,即使对人类专家来说,这也不是一项特别容易的任务。

没有微调(zero-shot)的常用模型的性能,作为Kaggle竞赛的一部分,在专利短语相似性数据集上微调的模型,以及单人表现。

结论和未来工作

我们提出了专利短语相似性数据集,该数据集被用作美国专利短语到短语匹配竞赛的基准数据集,并证明通过使用我们的训练数据,可以实现与现有NLP模型相比的显著改进。

其他具有挑战性的机器学习基准可以从专利语料库中生成,专利数据已进入许多当今研究最多的模型当中。例如,用于训练T5的C4文本数据集包含许多专利文件。BigBird和LongT5,模型也通过BIGPATENT数据集使用专利。全文数据的可用性、广度和开放使用条款(见谷歌专利公共数据集)使专利成为研究社区的独特资源。未来任务的可能性包括大规模多标签分类、摘要生成、信息检索、图文相似性、引文图预测和翻译。有关更多详细信息,请参阅论文。


原文链接:
https://ai.googleblog.com/2022/08/announcing-patent-phrase-similarity.html


hi,这里是小牛翻译~

想要看到更多我们的文章,可以关注下

机器翻译学堂(公号或网站)

笔芯~

往期精彩文章


谷歌:公布专利短语相似性数据集的评论 (共 条)

分享到微博请遵守国家法律