-
公开(公告)号:CN113822054A
公开(公告)日:2021-12-21
申请号:CN202110758581.5
申请日:2021-07-05
Applicant: 国网冀北电力有限公司 , 国家电网有限公司 , 北京邮电大学
IPC: G06F40/253 , G06F40/232 , G06F40/58 , G06F40/56 , G06N3/08 , G06N3/04
Abstract: 本发明公开了一种基于数据增强的中文语法纠错方法及装置,其中该方法包括:在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声函数进行映射处理,得到含有不同类型语法错误的句子;将含有不同语法错误的句子及对应的目标语句作为当前轮的含噪样本对,训练神经语法纠错模型,得到数据增强处理后的神经语法纠错模型;利用增强处理后的该模型进行中文语法纠错处理。本发明可以通过基于BART噪声器来实现数据增强,在模型训练的过程中自动生成大量含有不同类型语法错误的含噪文本,进而得到高性能的神经语法纠错模型,利用该高性能的神经语法纠错模型可以实现高效准确地进行中文语法纠错。
-
公开(公告)号:CN116861894A
公开(公告)日:2023-10-10
申请号:CN202310263248.6
申请日:2023-03-17
Applicant: 国网冀北电力有限公司 , 国家电网有限公司 , 北京邮电大学
IPC: G06F40/279 , G06F40/30 , G06F40/211 , G06F18/214 , G06F18/241 , G06F16/35 , G06N3/0464 , G06N3/048 , G06N3/084 , G06N3/0895 , G06N3/09
Abstract: 本发明提供了一种基于半监督学习的电网领域实体关系抽取,在用于基于Seq2seq的实体关系抽取的基础上,通过对传统的用注意力机制的方法进行关系抽取做改进,加入了半监督学习,能够充分挖掘大规模无标注电力文本中蕴含的实体知识,实现更高效的领域迁移,减少人工语料的标注,缓解自然语言处理NLP研究时由于标注语料工作带来的人工和时间的压力,降低了数据标注工作耗费的人力时间成本;同时我们引入了多粒度掩码预训练语言模型ERNIE应用在实体关系抽取任务上,用于捕获实体级别的语义信息,更有效的挖掘无标注数据中的实体识别知识,提升电力实体识别性能,从而更好完成电网领域实体关系抽取任务。
-
公开(公告)号:CN111222330A
公开(公告)日:2020-06-02
申请号:CN201911366648.X
申请日:2019-12-26
Applicant: 中国电力科学研究院有限公司 , 国网冀北电力有限公司 , 北京邮电大学 , 国家电网有限公司
Inventor: 谈元鹏 , 宋磊 , 李思 , 徐会芳 , 彭国政 , 张锐 , 刘剑青 , 王凯 , 王明轩 , 朱明阳 , 蓝海波 , 李晶 , 陆树栋 , 王新迎 , 乔骥 , 张玉天 , 赵紫璇 , 王芳
IPC: G06F40/289 , G06N3/04
Abstract: 本发明提供了一种中文事件的检测方法,包括:将待检测文本转换成字符向量序列和词向量序列;将字符向量序列和词向量序列输入预先建立的中文事件检测模型,得到待检测文本的触发词以及对应的事件类型;其中,中文事件检测模型考虑了事件类型间共现关系。本发明对于原基础模型检测输出的不确定结果,利用事件类型间的共现关系,可以在文本中寻找其它事件的分类,对部分错误的输出结果进行更正,提高中文事件检测的性能。
-
公开(公告)号:CN111222330B
公开(公告)日:2022-07-12
申请号:CN201911366648.X
申请日:2019-12-26
Applicant: 中国电力科学研究院有限公司 , 国网冀北电力有限公司 , 北京邮电大学 , 国家电网有限公司
Inventor: 谈元鹏 , 宋磊 , 李思 , 徐会芳 , 彭国政 , 张锐 , 刘剑青 , 王凯 , 王明轩 , 朱明阳 , 蓝海波 , 李晶 , 陆树栋 , 王新迎 , 乔骥 , 张玉天 , 赵紫璇 , 王芳
IPC: G06F40/289 , G06N3/04
Abstract: 本发明提供了一种中文事件的检测方法,包括:将待检测文本转换成字符向量序列和词向量序列;将字符向量序列和词向量序列输入预先建立的中文事件检测模型,得到待检测文本的触发词以及对应的事件类型;其中,中文事件检测模型考虑了事件类型间共现关系。本发明对于原基础模型检测输出的不确定结果,利用事件类型间的共现关系,可以在文本中寻找其它事件的分类,对部分错误的输出结果进行更正,提高中文事件检测的性能。
-
公开(公告)号:CN111767402B
公开(公告)日:2022-04-05
申请号:CN202010635994.X
申请日:2020-07-03
Applicant: 北京邮电大学
IPC: G06F16/35 , G06F40/216 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于对抗学习的限定域事件检测方法,该方法在动态池化卷积神经网络模型的基础上,通过对抗学习的方式,引入约束相同事件类型的数据的特征分布的正则项,使得模型能够学到更多跨触发词的事件分类特征,以此解决基础模型在学习稀疏触发词相关特征时,所学判别性特征不可靠的问题,有利于提高模型在稀疏触发词上的检测性能以及跨领域的泛化性。
-
公开(公告)号:CN111767402A
公开(公告)日:2020-10-13
申请号:CN202010635994.X
申请日:2020-07-03
Applicant: 北京邮电大学
IPC: G06F16/35 , G06F40/216 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于对抗学习的限定域事件检测方法,该方法在动态池化卷积神经网络模型的基础上,通过对抗学习的方式,引入约束相同事件类型的数据的特征分布的正则项,使得模型能够学到更多跨触发词的事件分类特征,以此解决基础模型在学习稀疏触发词相关特征时,所学判别性特征不可靠的问题,有利于提高模型在稀疏触发词上的检测性能以及跨领域的泛化性。
-
-
-
-
-