一种基于预训练Transformer语言模型的英文句子简化算法

    公开(公告)号:CN110543639A

    公开(公告)日:2019-12-06

    申请号:CN201910863529.9

    申请日:2019-09-12

    Applicant: 扬州大学

    Inventor: 强继朋

    Abstract: 本发明公开了一种基于预训练Transformer语言模型的英文句子简化算法,按如下步骤进行:步骤1、利用公开的维基百科语料,统计词语频率;步骤2、利用公开的预训练的词嵌入模型,获取词语的向量化表示;步骤3、对需要简化的句子进行预处理,获取内容词;步骤4、对句子中的内容词,利用公开的预训练Transformer语言模型Bert,获取该词的候选替代词语集合;步骤5、利用多个特征,对每个内容词的候选替代词语集合进行排序;步骤6、比较最高排序的候选词和原有内容词的词语频率,确定最终的替代词;步骤7、依次按照步骤4到6,处理句子中其他内容词,获取最终的简化句子,本发明在没有利用任何标注的并行语料,充分利用预训练Transformer语言模型,有效提高了英文句子简化的准确性。

    一种无监督的英文句子自动简化算法

    公开(公告)号:CN110096705A

    公开(公告)日:2019-08-06

    申请号:CN201910354246.1

    申请日:2019-04-29

    Applicant: 扬州大学

    Abstract: 本发明公开了互联网领域内的一种无监督的英文句子自动简化算法,按如下步骤进行:步骤1、训练词的向量表示;步骤2、获取词的频率;步骤3、分别获取简化句子集合和复杂句子集合;步骤4、填充短语表;步骤5、分别训练简化句子语言模型和复杂句子语言模型;步骤6、构建基于短语的句子简化模型;步骤7、迭代执行回译的策略,训练更优的句子简化模型,本发明在没有利用任何标注的并行语料,充分利用英文维基百科语料,有效提高了英文句子简化的准确性。

Patent Agency Ranking