欢迎光临散文网 会员登陆 & 注册

融合主题模型和动态路由的小样本学习方法 [下]

2022-08-19 10:11 作者:执念残生轮回  | 我要投稿


        提取源集中单词通用性特征有

        R%5Cleft(x_%7Bi%7D%5E%7Bw%7D%5Cright)%3D%5Cfrac%7B%5Cmu%7D%7BP%5Cleft(x_%7Bi%7D%5E%7Bw%7D%5Cright)%2B%5Cmu%7D      (5)

式中:x_%7Bi%7D%5E%7Bw%7D表示第i个样本中的第%5Cmu个词;i为平滑系数;P(%5Cbullet)表示词频。R%5Cleft(x_%7Bi%7D%5E%7Bw%7D%5Cright)降低源集高频词的权重,获得x_%7Bi%7D%5E%7Bw%7D在通用类中的重要性。则%5Cboldsymbol%7BR%7D表示为

%5Cboldsymbol%7BR%7D%3D%5Cleft%5C%7B%5Cbegin%7Barray%7D%7Bc%7D%0A%5Cleft%5C%7BR%5Cleft(x_%7Bi%7D%5E%7B1%7D%5Cright)%5Cright%5C%7D%5E%7BC%7D%20%5C%5C%0A%5Cleft%5C%7BR%5Cleft(x_%7Bi%7D%5E%7B2%7D%5Cright)%5Cright%5C%7D%5E%7BC%7D%20%5C%5C%0A%5Cvdots%20%5C%5C%0A%5Cleft%5C%7BR%5Cleft(x_%7Bi%7D%5E%7Bl%7D%5Cright)%5Cright%5C%7D%5E%7BC%7D%0A%5Cend%7Barray%7D%5Cright%5C%7D%5E%7Bl%20%5Ctimes%20C%7D

1.3 DR‑Proto网络

        基于SLDA的Encoder,提出动态路由原型网络DR⁃Proto。利用支持集和查询集的样本语义交叉特征获得原型,使分类边界更清晰。DR⁃Proto网络如图5所示,

图5 DR⁃Proto网络架构

即图2所示DRP⁃SLDA模型框架中的DR⁃Proto network。图5中,DR⁃Proto网络提取支持集和查询集的样本交叉特征 %5Cpsi_%7Bi%7D%5E%7Bj%7D,通过动态路由算法调整耦合系数m_%7Bg%7D%5E%7Bi%2C%20j%7D,更新样本权重%5Ceta_%7Bg%7D%5E%7Bi%2C%20j%7D,多次迭代获得动态原型 %5Cboldsymbol%7BC%7D%5E%7Bj%7D。通过特征共享变换将Encoder的x_%7Bi%7D%5E%7Bj%7Dx_%7Bq%7D映射到同一空间,有

%5Ctilde%7Bx%7D_%7Bi%7D%5E%7Bj%7D%3D%5Coperatorname%7BSquash%7D%5Cleft(%5Cboldsymbol%7BW%7D_%7B%5Cmathrm%7Bs%7D%7D%20%5Ccdot%20%5Cboldsymbol%7Bx%7D_%7Bi%7D%5E%7Bj%7D%2B%5Cboldsymbol%7Bb%7D_%7B%5Cmathrm%7Bs%7D%7D%5Cright)      (9)

%5Ctilde%7Bx%7D_%7Bq%7D%3D%5Coperatorname%7BSquash%7D%5Cleft(%5Cboldsymbol%7BW%7D_%7B%5Cmathrm%7Bs%7D%7D%20%5Ccdot%20%5Cboldsymbol%7Bx%7D_%7Bq%7D%2B%5Cboldsymbol%7Bb%7D_%7B%5Cmathrm%7Bs%7D%7D%5Cright)      (10)

式中:%5Cboldsymbol%7Bx%7D_%7Bi%7D%5E%7Bj%7D%20%5Cin%20%5Cmathbf%7BR%7D%5E%7Bl%20%5Ctimes%201%7D为支持集类j的第i个样本;x_%7Bq%7D%20%5Cin%20%5Cmathbf%7BR%7D%5E%7Bl%20%5Ctimes%201%7D为查询集第q个样本;%5Cboldsymbol%7BW%7D_%7B%5Cmathrm%7Bs%7D%7D%20%5Cin%20%5Cmathrm%7BR%7D%5E%7Bl%20%5Ctimes%20l%7D%2C%20%5Cboldsymbol%7Bb%7D_%7B%5Cmathrm%7Bs%7D%7D%20%5Cin%20%5Cmathrm%7BR%7D%5E%7Bl%7D为共享参数。通过特征映射使 %5Ctilde%7B%5Cboldsymbol%7Bx%7D%7D_%7Bi%7D%5E%7Bj%7D%E3%80%81%5Ctilde%7B%5Cboldsymbol%7Bx%7D%7D_%7Bq%7D%20%5Cin%20%5Cmathbf%7BR%7D%5E%7Bl%20%5Ctimes%201%7D距 离 尽 可 能 近 ,i%20%5Cin%5B1%2C%20K%5D%2C%20j%20%5Cin%5B1%2C%20C%5D%2C%20q%20%5Cin%5B1%2C%20h%5D%5Coperatorname%7BSquash%7D(%5Cbullet)使向量x方向不变且大小取值范围[0,1),即

%5Coperatorname%7BSquash%7D(x)%3D%5Cfrac%7B%5C%7Cx%5C%7C%5E%7B2%7D%7D%7B1%2B%5C%7Cx%5C%7C%5E%7B2%7D%7D%20%5Cfrac%7Bx%7D%7B%5C%7Cx%5C%7C%7D      (11)

        考虑支持集和查询集满足独立同分布,通过提取交叉特征%5Cboldsymbol%5Cpsi_%7Bi%7D%5E%7Bj%7D以利用文本语义关系,有

%5Cboldsymbol%7B%5Cpsi%7D_%7Bi%7D%5E%7Bj%7D%3D%5Ctilde%7B%5Cboldsymbol%7Bx%7D%7D_%7Bi%7D%5E%7Bj%7D%20%5Codot%20%5Ctilde%7B%5Cboldsymbol%7Bx%7D%7D_%7Bq%7D%2B%5Cleft%7C%5Ctilde%7B%5Cboldsymbol%7Bx%7D%7D_%7Bi%7D%5E%7Bj%7D-%5Ctilde%7B%5Cboldsymbol%7Bx%7D%7D_%7Bq%7D%5Cright%7C      (12)

式中:%5Codot%20为元素积;%20%5Cmid%5Cbullet%5Cmid表示取绝对值。若%5Ctilde%7B%5Cboldsymbol%7Bx%7D%7D_%7Bi%7D%5E%7Bj%7D%5Ctilde%7B%5Cboldsymbol%7Bx%7D%7D_%7Bq%7D%20属于同类,样本间的距离近,则交叉特征多;否则,样本间的距离远,则交叉特征少。通过交叉特征%5Cboldsymbol%7B%5Cpsi%7D_%7Bi%7D%5E%7Bj%7D%20%5Cin%20%5Cmathbf%7BR%7D%5E%7Bl%20%5Ctimes%201%7D,使样本特征相应增强或弱化。

        计算权重%5Cboldsymbol%7B%5Ceta%7D_%7Bg%7D%5E%7Bj%7D,获得不同样本对原型的重要性,即有

%5Cboldsymbol%7B%5Ceta%7D_%7Bg%7D%5E%7Bj%7D%3D%5Coperatorname%7Bsoftmax%7D%5Cleft(%5Cboldsymbol%7Bm%7D_%7Bg%7D%5E%7Bj%7D%5Cright)      (13)

式中耦合系数%5Cboldsymbol%7Bm%7D_%7Bg%7D%5E%7Bj%7D%20%5Cin%20%5Cmathbf%7BR%7D%5E%7B1%20%5Ctimes%20K%7D为先验知识,g%3D1%2C%20%5Ccdots%2C%20G为动态路由迭代次数。每个样本训练之前等概率影响原型,从而初始化%5Cboldsymbol%7Bm%7D_%7Bi%7D%5E%7Bg%7D%3D0使%5Cboldsymbol%7B%5Ceta%7D_%7Bg%7D%5E%7Bj%7D%20%5Cin%20%5Cmathbf%7BR%7D%5E%7B1%20%5Ctimes%20K%7D均匀分布。

        根据权重计算每类的原型,有

%5Cboldsymbol%7BC%7D%5E%7Bj%7D%3D%5Coperatorname%7BSquash%7D%5Cleft(%5Csum_%7Bi%3D1%7D%5E%7BK%7D%5Cleft(%5Ceta_%7Bg%7D%5E%7Bi%2C%20j%7D%20%5Ccdot%20%5Cboldsymbol%7B%5Cpsi%7D_%7Bi%7D%5E%7Bj%7D%5Cright)%5Cright)      (14)

式中:%7B%5Ceta%7D_%7Bg%7D%5E%7Bj%7D为第g次迭代时类ji个样本的权重;K为每个类别的样本个数。%5Cboldsymbol%5Cpsi_%7Bi%7D%5E%7Bj%7D为交叉特征计算如式 (12),得到类j的原型 %5Cboldsymbol%7BC%7D%5E%7Bj%7D%20%5Cin%20%5Cmathbf%7BR%7D%5E%7Bl%5Ctimes1%7D

        为了增大同类样本相关性而降低不同类相关性,自上而下调整耦合系数,有

m_%7Bg%2B1%7D%5E%7Bj%2C%20i%7D%3Dm_%7Bg%7D%5E%7Bj%2C%20i%7D%2B%5Cleft(%5Ctilde%7B%5Cboldsymbol%7Bx%7D%7D_%7Bi%7D%5E%7Bj%7D%5Cright)%5E%7B%5Cmathrm%7BT%7D%7D%20%5Ccdot%20%5Cboldsymbol%7BC%7D%5E%7Bj%7D      (15)

式中:若 %5Ctilde%7Bx%7D_%7Bi%7D%5E%7Bj%7D属于原型 %5Cboldsymbol%7BC%7D%5E%7Bj%7D%2C%5Cleft(%5Ctilde%7B%5Cboldsymbol%7Bx%7D%7D_%7Bi%7D%5E%7Bj%7D%5Cright)%5E%7B%5Cmathrm%7BT%7D%7D%20%5Ccdot%20%5Cboldsymbol%7BC%7D%5E%7Bj%7D则增大耦合系数,增强该样本对原型的影响;若 %5Ctilde%7Bx%7D_%7Bi%7D%5E%7Bj%7D不属于原型  %5Cboldsymbol%7BC%7D%5E%7Bj%7D, %5Cboldsymbol%7BC%7D%5E%7Bj%7D则减小耦合系数,使该样本的影响边缘化。

        由融合动态路由算法的式(12~ 15)可知,利用语义关联的支持集和查询集提取交叉特征%5Cboldsymbol%5Cpsi_%7Bi%7D%5E%7Bj%7D,进而采用权重机制获得动态原型%5Cboldsymbol%7BC%7D%5E%7Bj%7D。DR⁃Proto网络通过为样本特征赋予权重获得动态原型,从而改进均值原型有效提取类别特征。

1. 4 分类预测 

        样本x_%7Bq%7D与第j类原型的相似度计算采用欧氏距离,有

d%5Cleft(%5Cboldsymbol%7Bx%7D_%7Bq%7D%2C%20%5Cboldsymbol%7BC%7D%5E%7Bj%7D%5Cright)%3D%5Csum_%7Bw%3D1%7D%5E%7Bl%7D%5Cleft(C_%7Bw%7D%5E%7Bj%7D-x_%7Bq%7D%5E%7Bw%7D%5Cright)%5E%7B2%7D      (16)

       对样本x_%7Bq%7D的类别预测,有

p%5Cleft(%5Chat%7By%7D_%7Bj%2C%20q%7D%20%5Cmid%20%5Cboldsymbol%7Bx%7D_%7Bq%7D%5Cright)%3D%5Cfrac%7B%5Cexp%20%5Cleft(-d%5Cleft(%5Cboldsymbol%7Bx%7D_%7Bq%7D%2C%20%5Cboldsymbol%7BC%7D%5E%7Bj%7D%5Cright)%5Cright)%7D%7B%5Csum_%7Bj%3D1%7D%5E%7BC%7D%20%5Cexp%20%5Cleft(-d%5Cleft(%5Cboldsymbol%7Bx%7D_%7Bq%7D%2C%20%5Cboldsymbol%7BC%7D%5E%7Bj%7D%5Cright)%5Cright)%7D      (17)

式中:d%5Cleft(x_%7Bq%7D%2C%20C%5E%7Bj%7D%5Cright)表示样本x_%7Bq%7D与第j类原型的欧氏距离;%5Chat%7By%7D_%7Bj%2C%20q%7D%20表示x_%7Bq%7D预测为类别j的概率。w%20%5Cin%5B1%2C%20l%5D%2C%20j%20%5Cin%5B1%2C%20C%5D

        采用均方误差损失(Mean squared error,MSE)优化参数,有

%5Coperatorname%7BMSE%7D(y%2C%20%5Chat%7By%7D)%3D%5Cfrac%7B1%7D%7Bh%7D%20%5Csum_%7Bj%3D1%7D%5E%7BC%7D%20%5Csum_%7Bq%3D1%7D%5E%7Bh%7D%5Cleft(y_%7Bq%7D-%5Chat%7By%7D_%7Bj%2C%20q%7D%5Cright)%5E%7B2%7D      (18)

式中:y_%7Bq%7D表示查询集x_%7Bq%7D的真实标签one⁃hot编码值;h表示查询集样本数。

2 实验分析

2. 1 实验数据集

        为验证模型有效性,利用20newsgroup英文数据集、FewRel关系数据集和Sogou中文数据集,采样支持集和查询集,构建C⁃way K⁃shot分类任务进行对比实验,数据集描述如表1所示。

2.2 实验结果及分析

2.2.1 对比实验结果及分析

        对比模型有:(1)Finetune:有监督的线性微调分类器。(2)1⁃nearest neighbor classifier:有监督的最近邻分类器。(3)Prototypical network:每类支持集样本的均值特征向量作为类原型的原型网络。(4)MAML(Model⁃agnostic meta⁃learning):通过梯度求和优化不同子任务初始化参数的元学习模型。(5)RR⁃D2_LR⁃D2:采用岭回归和逻辑回归的元学习模型。(6)Distributional signatures:将词汇特征映射成注意力分数衡量文本表示,并使用岭回归器分类预测的元学习模型。

        DRP⁃SLDA模型与上述6种模型在FewRel和20newsgroup数据集上的分类结果比较如表2所示。

        由表2可知,相比有监督学习的 Finetune模型和1⁃nearest neighbor模型,元学习的模型整体效果表现良好。Prototypical networks模型使用欧式距离度量映射空间内查询集与原型之间的距离预测分类;MAML模型放弃距离度量方式,通过在多个子任务中使用梯度下降法训练初始参数,微调参数以计算不同子任务的损失快速收敛模型,其在FewRel数据集上的准确率分别是 48.2%、65.8% 。然而,MAML模型缺乏针对各任务的分析。为此,RR⁃D2_LR⁃D2模型对不同任务生成先验知识,以可微分回归作为基分类器。Distributional signatures模型在 RR⁃D2_LR⁃D2模型的基础上,将词分布特征转成注 意力分数,用岭回归分类预测,在两种数据集上,两种小样本分类任务的准确率都得以提高,如20newsgroup数据集上分别提高7.3%、4.0%。

        DRP⁃SLDA模型对比模型(1~ 5)在20newsgroup数据集上准确率提升10%~30%,表 明DRP⁃SLDA 模型引入源集是有效的,能从不同角度提取词汇特征。DRP⁃SLDA 模型相较于 Distribu⁃tional signatures模型在 20newsgroup数据集上准确率分别提高8.6% 、16.6% 。原因在于Distributional signatures模型仅考虑词汇特征没有考虑样本权重对分类的影响,而 DRP⁃SLDA 模型利用 SLDA 模型增强词分布特征且DR⁃Proto网络为样本赋予权重获得动态原型。

2.2.2 DRP⁃SLDA 模型消融分析

        消融方法简介:(1)DRP⁃SLDA:本文提出的小样本分类模型。(2)DRP⁃SLDA_NR:消融DRP⁃SLDA模型中源集在数据扩充上的影响。(3)DRP⁃SLDA_NS:消融DRP⁃SLDA模型中SLDA主题模型对词分布特征的影响。(4)DRP⁃SLDA_ND:消融DRP⁃SLDA模型中交叉特征%5Cpsi的影响。(5)DRP⁃SLDA_NDR:消融DRP⁃SLDA模型中源集数据扩充和交叉特征%5Cpsi的共同影响。(6)DRP⁃SLDA_NDS:消融DRP⁃SLDA模型中SLDA主题模型和交叉特征%5Cpsi的共同影响。

图6 Sogou数据集在3⁃way 1⁃shot下消融方法分类结果
图7 20newsgroup数据集在5⁃way 5⁃shot下消融方法分类结果

        如图6所示,在Sogou数据集上对于3⁃way1⁃shot分类任务各消融方法结果,可以看出:(1)DRP⁃SLDA对比DRP⁃SLDA_NR方法,各分类指标提高0.39%、0.39%和0.40%,表明源集通用性特征表示的有效性,引入源集对模型有积极影响。(2)DRP⁃SLDA对比DRP⁃SLDA_NS方法,各分类指标提升1.02%、0.57%和0.94%,表明利用SLDA模型能有效增强词分布特征。(3)DRP⁃SLDA对比DRP⁃SLDA_ND方法,各分类指标提升0.81%、0.95%和0.91%,表明利用支持集和查询集样本,能提取语义增强的交叉特征%5Cpsi

        如图7所示,在20newsgroup数据集上对于5⁃way5⁃shot任务各消融方法结果,可以看出:对比DRP⁃SLDA_NDR方法,DRP⁃SLDA方法各分类指标降低3.06%、4.56%和4.40%;对比DRP⁃SLDA_NDS方法,DRP⁃SLDA方法各分类指标降低3.86%、4.82%和4.68%。表明在没有获取样本交叉特征时,SLDA模型提取的特定类词汇特征有助于提升DRP⁃SLDA模型泛化性能,而源集通过扩充数据样本提取词汇通用性特征对模型效果微效。

        图8是对20newsgroup数据集的样本分布PCA降维,将样本映射到二维空间,可视化各消融方法的影响。图8(a)中3个聚类分簇显著,分类边界明显优于其他方法,说明DRP⁃SLDA模型生成具有类别区分性的样本表示。

图8 消融方法在20newsgroup数据集的PCA可视化比较

2. 2. 3 动态路由算法的有效性分析

        为了验证DR⁃Proto网络中动态路由算法对DRP⁃SLDA模型分类效果的影响,在FewRel数据集上进行5⁃way实验,动态路由算法的随不同迭代次数的可视化如图9所示,展示在FewRel数据集上提取样本交叉特征%5Cpsi可视化结果。由图可知,随着迭代次数的增加,模型的分类边界清晰。表明DRP⁃SLDA模型通过动态路由算法的多次迭代,能够有效提取样本交叉特征,动态获得使类别边界更清晰的原型。综上所述,所提出的DRP⁃SLDA模型能有效增强小样本文本分类的特征表示,提升原型的类别辨识力。

图9 不同动态路由迭代次数的样本(特征)可视化结果

3 结束语

        本文提出一种基于SLDA和动态路由的原型网络模型DRP⁃SLDA,利用SLDA模型获得词汇⁃类别的语义映射增强词的分布特征,结合动态路由算法更新样本权重为不同样本赋予权重获得动态原型,从而有效提升模型的泛化性能。在多个数据集上的对比实验表明了DRP⁃SLDA模型的有效性。下一步将对多标签小样本元学习方法展开研究。

融合主题模型和动态路由的小样本学习方法 [下]的评论 (共 条)

分享到微博请遵守国家法律