学报简介

    智能系统学报(CAAI Transactions on Intelligent Systems)由中国人工智能学会和哈尔滨工程大学联合主办,是中国人工智能学会会刊之一。主要刊登神经网络与神经计算、智能信息处理、自然语言理解、智能 ...

学报详情

刊名: 智能系统学报
CAAI Transactions on Intelligent Systems
主办:  中国人工智能学会;哈尔滨工程大学
周期:  双月
出版地:黑龙江省哈尔滨市
语种:  中文
开本:  大16开
ISSN: 1673-4785
CN:   23-1538/TP
复合影响因子: 0.874
综合影响因子: 0.479
历史沿革:
现用刊名:智能系统学报
创刊时间:2006
中文核心期刊(2014)

01

您所在的位置:首页 > 学报导读 > 2020 > 01 >

基于数据增广和复制的中文语法错误纠正方法

作者:汪权彬 谭营

关键词: 自注意力机制; 复制机制; 序列到序列学习; 中文; 语法错误纠正; 神经网络; 文本生成; 通顺度;

摘要:

中文作为一种使用很广泛的文字,因其同印欧语系文字的天然差别,使得汉语初学者往往会出现各种各样的语法错误。本文针对初学者在汉语书写中可能出现的错别字、语序错误等,提出一种自动化的语法纠正方法。首先,本文在自注意力模型中引入复制机制,构建新的C-Transformer模型。构建从错误文本序列到正确文本序列的文本语法错误纠正模型,其次,在公开数据集的基础上,本文利用序列到序列学习的方式从正确文本学习对应的不同形式的错误文本,并设计基于通顺度、语义和句法度量的错误文本筛选方法;最后,还结合中文象形文字的特点,构造同形、同音词表,按词表映射的方式人工构造错误样本扩充训练数据。实验结果表明,本文的方法能够很好地纠正错别字、语序不当、缺失、冗余等错误,并在中文文本语法错误纠正标准测试集上取得了目前最好的结果。

上一篇:注意力机制和Faster RCNN相结合的绝缘子识别
下一篇:融合多层次特征的中文语义角色标注