一种基于人机协作的中文词语替代数据集的构造方法

    公开(公告)号:CN116628131A

    公开(公告)日:2023-08-22

    申请号:CN202310447979.6

    申请日:2023-04-24

    Applicant: 扬州大学

    Inventor: 李滢 强继朋 刘康

    Abstract: 本发明公开了一种基于人机协作的中文词语替代数据集的构造方法包括,选取原始语料进行人工筛选,利用分句工具构建句子集合;将语句进行分词并按照规则筛选待替换的目标词及位置信息,构建中文拼写纠错的数据集,并将数据集划分;生成所有目标词的替代词并生成向标注者提供的待标注信息,构造数据标注网站。基于人机协作的构建方法,利用方法生成大量词语替代选项构建中文词语替代数据集。采用了多个标注者对同一目标词进行标注的方法,以确保数据的准确性和公平性。为标注者提供了丰富的标注规则和标注指南,同时进行了严格的质量控制和审核,保证了数据的高质量和准确性。

    一种基于复杂词变化解码的中文词语简化方法及系统

    公开(公告)号:CN116341526A

    公开(公告)日:2023-06-27

    申请号:CN202310330236.0

    申请日:2023-03-30

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于复杂词变化解码的中文词语简化方法,包括:基于中文汉语考试词汇等级表,识别词语难度等级,将高难度词语作为目标复杂词;构建中文复述语料,训练中文复述模型;利用所述中文复述模型并基于复杂词变化解码方法,生成存在候选简化词的复述句子;从生成的复述句子中,获取候选简化替代词;利用开源工具和词频对所述候选简化替代词进行排序,获取最终简化词。本发明构造了一个大规模的中文复述语料;利用复述模型进行中文词汇简化任务,并提出了一种基于复杂词变化的解码方法,提高简化准确率;在候选词排序中加入BARTscore,考虑替代词对句子原意的改变。

Patent Agency Ranking