期刊抢鲜 | 《中文信息学报》2023年第3期(37卷第3期)目录及摘要
↑点开查看清晰大图
综述
✦ 基于会话的推荐方法综述
作 者:陈晋鹏,李海洋,张 帆,李 环,魏凯敏
摘 要:近年来,基于会话的推荐方法受到学术界的广泛关注。随着深度学习技术的不断发展,不同的模型结构被应用于基于会话的推荐方法中,如循环神经网络、注意力机制、图神经网络等。该文对这些基于会话的推荐模型进行了详细的分析、分类和对比,阐明了这些方法各自解决的问题与存在的不足。具体而言,该文首先通过调研,将基于会话的推荐方法与传统推荐方法进行比较,阐明基于会话的推荐方法的主要优缺点;其次,详细描述了现有的基于会话的推荐模型如何建模会话集中的复杂数据信息,以及这些模型方法可解决的技术问题;最后,该文讨论并指出了在基于会话推荐的领域中存在的挑战和未来研究的方向。
关键词:基于会话的推荐方法;会话建模;深度学习
引用格式:陈晋鹏,李海洋, 张帆, 李环, 魏凯敏. 基于会话的推荐方法综述[J].中文信息学报. 2023, 37(3): 1-17,26
CHEN Jinpeng, LI Haiyang, ZHANG Fan, LI Huan, WEI Kaimin. Review on Session-based Recommendation Methods[J].Journal of Chinese Information Processing. 2023, 37(3): 1-17,26语言分析与计算
✦ 基于领域知识融合的复述识别方法研究
作 者:李志峰,白 岩,洪 宇,刘 东,朱朦朦
摘 要:复述识别任务,即判断两个句子是否表达相同的语义。传统的复述识别任务针对的是通用领域,模型通过理解两个句子的语义,比较句子的语义相似度从而进行复述判断。而在特定领域的复述识别任务中,模型必须结合该领域的专业知识,才能准确地理解两个句子的语义,并进一步判断出它们的区别与联系。该文针对特定领域提出了一种基于领域知识融合的复述识别方法。方法首先为句子检索专业知识,再将专业知识融入到每个句子的语义中,最后实现更准确的语义相似度判断。该文在计算机科学领域的复述识别数据集PARADE上进行了相关实验,实验结果显示,该文方法在F1指标上达到了73.9,比基线方法提升了3.1。
关键词:复述识别;特定领域;知识融合
引用格式:李志峰,白岩,洪宇,刘东,朱朦朦. 基于领域知识融合的复述识别方法研究[J]. 中文信息学报. 2023, 37(3): 18-26
LI Zhifeng, BAI Yan, HONG Yu, LIU Dong, ZHU Mengmeng. Enhancing Paraphrase Identification by Injecting Specific Domain Knowledge[J].Journal of Chinese Information Processing. 2023, 37(3): 18-26全文链接:点击下载
作 者:蔡坤钊,曾碧卿,陈鹏飞摘 要:在自然语言处理领域中,基于梯度的对抗训练是一种能够有效提高神经网络鲁棒性的方法。首先,该文针对现有的对抗训练算法效率较低的问题,提出基于全局扰动表的初始化策略,在提高神经网络的训练效率的同时保证初始化扰动的有效性;其次,针对传统的归一化方法忽略了令牌之间的相对独立性问题,提出基于全局等权的归一化策略,保证令牌之间的相对独立性,避免少数样本主导对抗训练;最后,对于使用可学习的位置编码的预训练语言模型,提出基于全局多方面的扰动策略,使得神经网络更具鲁棒性。实验结果表明,该方法能有效提升神经网络的性能。关键词:自然语言理解;对抗训练;初始化策略;归一化策略;扰动策略引用格式:蔡坤钊,曾碧卿,陈鹏飞. GAT: 用于自然语言理解的基于全局的对抗训练[J]. 中文信息学报. 2023, 37(3): 27-35CAI Kunzhao, ZENG Biqing, CHEN Pengfei. GAT: Global-Based Adversarial Training for Natural Language Understanding[J].Journal of Chinese Information Processing. 2023, 37(3): 27-35全文链接:点击下载
语言资源建设与应用
✦ 先秦词网构建及梵汉对比研究
作 者:卢雪晖,徐会丹,李 斌,陈思瑜
摘 要:先秦汉语在汉语史研究上具有重要地位,然而以往的研究始终没有形成结构化的先秦词汇资源,难以满足古汉语信息处理和跨语言对比的研究需要。国际上以英文词网(WordNet)的义类架构为基础,建立了数十种语言的词网,已经成为多语言自然语言处理和跨语言对比的基础资源。该文综述了国内外各种词网的构建情况,特别是古代语言的词网和汉语词网,且详细介绍了先秦词网的构建和校正过程,构建了涵盖43 591个词语、61 227个义项、17 975个义类的先秦词网。该文还通过与古梵语词网的跨语言对比,尝试分析这两种古老语言在词汇上的共性和差异,初步验证先秦词网的价值。
关键词:词网;先秦汉语;跨语言对比;古文信息处理
引用格式:卢雪晖,徐会丹,李斌,陈思瑜. 先秦词网构建及梵汉对比研究[J]. 中文信息学报. 2023, 37(3): 36-45
LU Xuehui, XU Huidan, LI Bin, CHEN Siyu. The Construction of Pre-Qin Ancient Chinese WordNet and A Contrastive Study with Ancient Sanskrit WordNet[J].Journal of Chinese Information Processing. 2023, 37(3): 36-45全文链接:点击下载
✦ 第一届古代汉语分词和词性标注国际评测
作 者:李 斌,袁义国,芦靖雅,冯敏萱,许 超,曲维光,王东波
摘 要:中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F1值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F1值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F1值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F1值分别达到93.64%和87.77%,开放测试分词和词性标注F1值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。
关键词:古汉语;评测;自动分词;词性标注;古文信息处理
引用格式:李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波. 第一届古代汉语分词和词性标注国际评测[J]. 中文信息学报. 2023, 37(3): 46-53,64
LI Bin, YUAN Yiguo, LU Jingya, FENG Minxuan, XU Chao, QU Weiguang, WANG Dongbo. Review of the First International Ancient Chinese Word Segmentation and POS Tagging Bakeoff[J].Journal of Chinese Information Processing. 2023, 37(3): 46-53,64
全文链接:点击下载
知识表示与知识获取
✦ 结合四元数路径集成和空洞循环卷积的知识表示
作 者:陈新元,周忠眉,陈庆强,高美春,施达雅
摘 要:为建模知识图中的复杂关系模式,知识补全模型期望提升表示能力和特征提取能力。超复数空间容量大于传统实数/复数空间,相关计算开销较小,但现有基于超复数嵌入的方法表示/提取能力不足且没有利用实体间路径的语义信息。该文首先优化现有超复数模型设计以扩大表示空间;接下来将实体间关系序列整合视作多旋转混合问题,设计四元数路径序列的快速整合方法并理论证明,进一步引入注意力机制集成路径语义;最后利用空洞循环卷积增强模型的特征提取能力。通过在主流数据集上开展链路预测和路径查询实验,验证了模型的表示和特征提取能力等,均优于Rotate3D等先进对比模型。
关键词:知识表示;四元数;路径语义;旋转混合;空洞循环卷积
引用格式:陈新元,周忠眉,陈庆强,高美春,施达雅. 结合四元数路径集成和空洞循环卷积的知识表示[J]. 中文信息学报. 2023, 37(3): 54-64
CHEN Xinyuan, ZHOU Zhongmei, CHEN Qingqiang, GAO Meichun, SHI Daya. Knowledge Representation Combining Quaternion Path Integration and Atrous Circular Convolution[J].Journal of Chinese Information Processing. 2023, 37(3): 54-64全文链接:点击下载
✦ 高血压超关系知识图谱建模及用药决策推理实践
作 者:谢晓璇,鄂海红,匡泽民,谭 玲,周庚显,罗浩然,李峻迪,宋美娜
摘 要:传统的知识建模方法在医学场景下面临着知识复杂性高、难以通过传统三元组的方式精确表达等问题,需要研究新的本体对医学知识进行建模。该文提出一种应用于高血压领域的三层超关系知识图谱模型(Triple-view Hypertension Hyper-relational Knowledge Graph,THH-KG),该方法基于超关系知识图谱模型搭建计算层、概念层、实例层三层图谱架构,实现多元的医学逻辑规则、概念知识和实例知识的联合表达。此外,该文还提出了在普通图数据库中超关系知识图谱的通用存储方法,且基于该方法设计了高血压知识图谱推理解释引擎(Hypertension Knowledge Graph Reasoning Engine,HKG-RE),实现了基于医学规则的用药推荐辅助决策应用。上述方法在对108位真实高血压患者的用药推荐实验中正确率达到了97.2%。
关键词:多元关系;超关系知识图谱;高血压;用药推荐
引用格式:谢晓璇,鄂海红,匡泽民,谭玲,周庚显,罗浩然,李峻迪,宋美娜. 高血压超关系知识图谱建模及用药决策推理实践[J]. 中文信息学报. 2023, 37(3): 65-78
XIE Xiaoxuan, E Haihong, KUANG Zemin, TAN Ling, ZHOU Gengxian,Luo Haoran, LI Jundi, SONG Meina. Triple-view Hyper-relational Knowledge Graph for Hypertension[J].Journal of Chinese Information Processing. 2023, 37(3): 65-78全文链接:点击下载
机器翻译
✦ 利用语义关联增强的跨语言预训练模型的译文质量评估
作 者:叶 恒, 贡正仙
摘 要:机器翻译质量评估(QE)是在不依赖参考译文的条件下,自动对机器翻译译文进行评估。当前人工标注数据稀缺,使得神经QE模型在自动检测译文错误方面还存在较大问题。为了更好地利用规模庞大但却缺少人工标注信息的平行语料,该文提出一种基于平行语料的翻译知识迁移方案。首先采用跨语言预训练模型XLM-R构建神经质量评估基线系统,在此基础上提出三种预训练策略增强XLM-R的双语语义关联能力。该文方法在WMT 2017和WMT 2019的英德翻译质量评估数据集上都达到了最高性能。
关键词:机器翻译质量评估;跨语言预训练模型;语义关联;预训练策略
引用格式:叶恒,贡正仙. 利用语义关联增强的跨语言预训练模型的译文质量评估[J]. 中文信息学报. 2023, 37(3): 79-88
YE Heng, GONG Zhengxian. A Semantic Connection Enhanced Cross-language Pre-trained Model for MT Quality Estimation[J].Journal of Chinese Information Processing. 2023, 37(3): 79-88
全文链接:点击下载
✦ 基于多元信息融合的神经机器译文自动评价方法
作 者:刘 媛,李茂西,项青宇,李易函
摘 要:机器译文自动评价对推动机器翻译发展和应用有着重要作用。最新的神经机器译文自动评价方法使用预训练语境词向量提取深层语义特征,并将它们直接拼接输入多层神经网络预测译文质量,其中直接拼接操作容易导致特征间缺乏深入融合,而逐层抽象进行预测时容易丢失细粒度准确匹配信息。针对以上问题,该文提出将中期信息融合方法和后期信息融合方法引入译文自动评价,使用拥抱融合对不同特征进行交互中期融合,基于细粒度准确匹配的句移距离和句级余弦相似度进行后期融合。在WMT’21 Metrics Task基准数据集上的实验结果表明,提出的方法能有效提高其与人工评价的相关性,达到与参加评测最优系统的可比性能。
关键词:机器翻译;译文自动评价;信息融合;信息表征;拥抱融合
引用格式:刘媛,李茂西,项青宇,李易函. 基于多元信息融合的神经机器译文自动评价方法[J]. 中文信息学报. 2023, 37(3): 89-100
LIU Yuan, LI Maoxi, XIANG Qingyu, LI Yihan. Automatic Evaluation of Neural Machine Translation Based on Multiple Information Fusion[J].Journal of Chinese Information Processing. 2023, 37(3): 89-100全文链接:点击下载
信息抽取与文本挖掘
✦ 面向少量标注数据的中文命名实体识别
作 者:张 昀,黄 橙,张玉瑶,黄经纬,张宇德,黄丽亚,刘 艳,丁可柯,王秀梅
摘 要:训练数据的缺乏是目前命名实体识别存在的一个典型问题。实体触发器可以提高模型的成本效益,但这种触发器需要大量的人工标注,并且只适用于英文文本,缺少对其他语言的研究。为了解决现有TMN模型实体触发器高成本和适用局限性的问题,提出了一种新的触发器自动标注方法及其标注模型GLDM-TMN。该模型不仅能够免去人工标注,而且引入了Mogrifier LSTM结构、Dice损失函数及多种注意力机制增强触发器匹配准确率及实体标注准确率。在两个公开数据集上的仿真实验表明: 与TMN模型相比,在相同的训练数据下,GLDM-TMN模型的F1值在Resume NER数据集和Weibo NER数据集上分别超出TMN模型0.0133和0.034。同时,该模型仅使用20%训练数据比例的性能就可以优于使用40%训练数据比例的BiLSTM-CRF模型性能。
关键词:中文命名实体识别;实体触发器;Mogrifier LSTM结构;联合损失函数;注意力机制
引用格式:张昀,黄橙,张玉瑶,黄经纬,张宇德,黄丽亚,刘艳,丁可柯,王秀梅. 面向少量标注数据的中文命名实体识别[J]. 中文信息学报. 2023, 37(3): 101-111
ZHANG Yun, HUANG Cheng, ZHANG Yuyao, HUANG Jingwei, ZHANG Yude,HUANG Liya, LIU Yan, DING Keke, WANG Xiumei. Chinese Named Entity Recognition with few Labeled Data[J].Journal of Chinese Information Processing. 2023, 37(3): 101-111
全文链接:点击下载
✦ 基于词典和字形特征的中文命名实体识别
作 者:于舒娟,毛新涛,张 昀,黄丽亚
摘 要:命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了一个基于词典和字形特征的中文命名实体识别模型,将词信息和结构信息统一地结合起来,提高了实体匹配的准确性。该文首先通过SoftLexicon方法丰富语义信息,并使用改进的部首级嵌入优化字符表示;然后通过门卷积网络加强了对潜在词和上下文信息的提取;最后在四个基准数据集上实验,结果表明与传统模型和最新模型相比,基于词典和字形特征的模型取得了显著的性能提升。
关键词:中文命名实体识别;词典;字形特征
引用格式:于舒娟,毛新涛,张昀,黄丽亚. 基于词典和字形特征的中文命名实体识别[J]. 中文信息学报. 2023, 37(3): 112-122
YU Shujuan, MAO Xintao, ZHANG Yun, HUANG Liya. Chinese Named Entity Recognition Based on Lexicon and Glyph Features[J].Journal of Chinese Information Processing. 2023, 37(3): 112-122全文链接:点击下载
✦ 多粒度融合的命名实体识别
作 者:孙 红,王 哲
摘 要:目前主流的命名实体识别算法都是从词汇增强的角度出发,引入外部词汇信息提升NER模型获取词边界信息的能力,并未考虑到中文字结构信息在此任务中的重要作用。因此,该文提出多粒度融合的命名实体识别算法,同时引入中文字结构与外部词汇信息,通过编码汉字中每个字部件,并使用注意力机制使得文本序列中的字启发式地融合细粒度信息,赋予模型获取中文字形特征的能力。在多个命名实体识别数据集上的实验结果显示,该算法在模型精度以及推理速度方面具有较大优势。
关键词:信息抽取;中文命名实体识别;注意力机制;词汇增强;中文字形特征
引用格式:孙红,王哲. 多粒度融合的命名实体识别[J]. 中文信息学报. 2023, 37(3): 123-134
SUN Hong, WANG Zhe. A Multi-granularity Approach to Named Entity Recognition[J].Journal of Chinese Information Processing. 2023, 37(3): 123-134全文链接:点击下载
✦ 基于协同集成学习的医疗实体标准化方法
作 者:姜京池,侯俊屹,李 雪,关 毅,关昌赫
摘 要:医疗实体标准化旨在将电子病历、患者主诉等文本数据中非标准化术语映射为统一且规范的医疗实体。针对医学文本普遍存在的标注语料规模小、规范化程度低等领域特点,该文提出了一种基于多模型协同的集成学习框架,用以解决医疗实体标准化问题。该框架通过建立多模型之间的“合作与竞争”模式,能够兼具字符级、语义级等不同标准化方法的优势。具体而言,运用知识蒸馏技术进行协同学习,从各模型中汲取有效特征;利用竞争意识综合各模型的实体标准化结果,保证候选集的多样性。在CHIP-CDN 2021医疗实体标准化评测任务中,该文提出的方法在盲测数据集上达到了73.985%的F1值,在包括百度BDKG、蚂蚁金融Antins、思必驰AIspeech在内的255支队伍中,取得了第二名的成绩。后续实验结果进一步表明,该方法可有效对医疗文本中的术语进行标准化处理。
关键词:医疗实体标准化;知识蒸馏;集成学习;CHIP-CDN 2021
引用格式:姜京池,侯俊屹,李雪,关毅,关昌赫. 基于协同集成学习的医疗实体标准化方法[J]. 中文信息学报. 2023, 37(3): 135-142
JIANG Jingchi, HOU Junyi, LI Xue, GUAN Yi, GUAN Changhe. Medical Entity Standardization Method Based on Collaborative Ensemble Learning[J].Journal of Chinese Information Processing. 2023, 37(3): 135-142全文链接:点击下载
✦ 基于门控多层感知机的端到端实体关系联合抽取
作 者:贾宝林,尹世群,王宁朝
摘 要:从非结构化文本中进行实体和关系抽取已经成为自然语言处理的一项关键任务,然而命名实体识别(NER)和关系抽取(RE)两个任务经常被分开考虑,从而丢失了大量的关联信息。鉴于此,该文提出了一种端到端的基于多层感知机SGM模块进行信息过滤的实体关系联合抽取方法。该方法在不引入外部其他复杂特征的情况下获得了丰富的语义,充分利用了实体和关系之间的关联。该文从句子级、词语级和字符级三个级别输入信息,利用SGM模块进行信息提取以获得高效的语义表示,之后利用Span-attention进行融合得到Span的具体表示,最后利用全连接层进行实体和关系的联合抽取。该文使用NYT10和NYT11数据集验证所提方法的有效性。实验结果表明,在NYT10和NYT11数据集上,该文提出的模型在关系抽取任务中的F1值分别达到了70.6%和68.3%,相比于其他模型有较大提升。
关键词:实体关系抽取;门控多层感知机;BERT;span-attention
引用格式:贾宝林,尹世群,王宁朝. 基于门控多层感知机的端到端实体关系联合抽取[J]. 中文信息学报. 2023, 37(3): 143-151
JIA Baolin, YIN Shiqun, WANG Ningchao. An End-to-End Joint Extraction of Entity and Relation Based on MLPs with Gating[J].Journal of Chinese Information Processing. 2023, 37(3): 143-151全文链接:点击下载
自然语言理解与生成
✦ 一种基于参考规范的专业文本生成方法
作 者:胡 宇,王 舰,孙宇清
摘 要:参考规范是指专业知识点的相关文本描述,参考规范指导下的文本生成任务要求自动生成的文本满足与参考规范的语义相关性和知识点匹配性,是自然语言处理领域中的困难问题。相关工作主要控制生成文本的情感、态度等通用性质,无法满足专业层面的复杂控制需求。为此,该文提出了基于对抗架构的专业文本生成模型(PT-GAN),采用多个独立的生成器分别生成不同知识点匹配程度的文本,各生成器均为自编码器结构,其中编码器用于提取参考规范文本的知识点语义特征,解码器用于生成文本;采用两个判别器同时对生成文本的语言规范和专业知识进行指导,其中连贯性判别器用于指导语言规范,专业性判别器用于控制专业层面属性。在多个国家级专业考试真实数据集上进行实验,结果显示该文模型在语言连贯性、与参考规范的语义相关性和知识点匹配性上均有明显提升,更符合该场景下的文本生成需求。
关键词:文本生成;生成式对抗网络;自编码器;专业文本
引用格式:胡宇,王舰,孙宇清. 一种基于参考规范的专业文本生成方法[J]. 中文信息学报. 2023, 37(3): 152-163
HU Yu, WANG Jian, SUN Yuqing. Profession Oriented Text Generation Based on Reference Specifications[J].Journal of Chinese Information Processing. 2023, 37(3): 152-163全文链接:点击下载
✦ 数据库中文查询对偶学习式生成SQL语句研究
作 者:赵志超,游进国,何培蕾,李晓武
摘 要:针对当前中文NL2SQL (Natural language to SQL)监督学习中需要大量标注数据问题,该文提出基于对偶学习的方式在少量训练数据集上进行弱监督学习,将中文查询生成SQL语句。该文同时使用两个任务来训练自然语言转化到SQL,再从SQL转化到自然语言,让模型学习到任务之间的对偶约束性,获取更多相关的语义信息。同时在训练时使用不同比例带有无标签的数据进行训练,验证对偶学习在NL2SQL解析任务上的有效性。实验表明,在不同中英文数据集ATIS、GEO以及TableQA中,本文模型与基准模型Seq2Seq、Seq2Tree、Seq2SQL、以及-dual等相比,百分比准确率至少增加2.1%,其中在中文TableQA数据集上采用对偶学习执行准确率(Execution Accuracy)至少提升5.3%,只使用60%的标签数据就能取得和监督学习使用90%的标签数据相似的效果。
关键词:NL2SQL;对偶学习;语义解析;半监督学习
引用格式:赵志超,游进国,何培蕾,李晓武. 数据库中文查询对偶学习式生成SQL语句研究[J]. 中文信息学报. 2023, 37(3): 164-172
ZHAO Zhichao, YOU Jinguo, HE Peilei, LI Xiaowu. Generating SQL Statement from Chinese Query Based on Dual Learning[J].Journal of Chinese Information Processing. 2023, 37(3): 164-172全文链接:点击下载
↑点开查看清晰大图
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。
- END -
转载来源:中文信息学报
转载编辑:王晨谕
审核:陈杲 王贇 Ethan 陈柯淼