-
公开(公告)号:CN112417823A
公开(公告)日:2021-02-26
申请号:CN202010974604.1
申请日:2020-09-16
Applicant: 中国科学院计算技术研究所
IPC: G06F40/166 , G06F40/284 , G06F40/211 , G06F40/237 , G06F40/253
Abstract: 本发明提出一种中文文本语序调整和量词补全方法、系统,包括:将中文语料库中的词序列输入至N元语言模型,得到中文语料库的N元词表,对中文语料库中语料进行量词标注形成量词表,删除中文语料库中被标注的量词后与该中文语料库形成平行语料库,以平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;对待调整的中文文本进行词性标注,按照语序调整规则对中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,通过量词补全模型对文本调序结果中量词缺失的位置进行定位和填补。
-
公开(公告)号:CN112417823B
公开(公告)日:2023-08-29
申请号:CN202010974604.1
申请日:2020-09-16
Applicant: 中国科学院计算技术研究所
IPC: G06F40/166 , G06F40/284 , G06F40/211 , G06F40/237 , G06F40/253
Abstract: 本发明提出一种中文文本语序调整和量词补全方法、系统,包括:将中文语料库中的词序列输入至N元语言模型,得到中文语料库的N元词表,对中文语料库中语料进行量词标注形成量词表,删除中文语料库中被标注的量词后与该中文语料库形成平行语料库,以平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;对待调整的中文文本进行词性标注,按照语序调整规则对中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,通过量词补全模型对文本调序结果中量词缺失的位置进行定位和填补。
-