深度之眼人工智能paper年度会员(多模态方向)
2023-05-23 13:03 作者:bili_73767213996 | 我要投稿
主流技术
中文本纠错的 paper 很多,整体来看,可以统一在一个框架下,即三大步:

错误识别
该阶段主要目的在于,判断文本是否存在错误需要纠正,如果存在则传递到后面两层。这一阶段可以提高整体流程的效率。
错误识别/检测的目标是识别输入句子可能存在的问题,采用序列表示(Transformer/LSTM)+CRF的序列预测模型,这个模型的创新点主要包括:
1、词法/句法分析等语言先验知识的充分应用;
2、特征设计方面,除了DNN相关这种泛化能力比较强的特征,还结合了大量hard统计特征,既充分利用DNN模型的泛化能力,又对低频与OOV(Out of Vocabulary)有一定的区分;
3、最后,根据字粒度和词粒度各自的特点,在模型中对其进行融合,解决词对齐的问题