一种基于微信公众平台的汉蒙语料库众包构建方法

    公开(公告)号:CN110472948A

    公开(公告)日:2019-11-19

    申请号:CN201910859135.6

    申请日:2019-09-11

    Abstract: 一种基于微信公众平台的汉蒙语料库众包构建方法,属于语料资源构建领域。具体操作步骤包含:1)获取多体裁开放域原始语料;2)通过蒙古语水平测试问卷,对参与翻译任务的用户进行筛选过滤;3)用订阅号推送的方式给关注微信公众号的用户发送众包翻译任务;4)每个微信客户端将一个或多个源句翻译成蒙古语以语音形式反馈给后台;5)通过后台管理员审核与众包质量评估相结合的方式评估所述语料质量,实现语料的质量控制;所述基于微信公众平台的汉蒙语料库众包构建方法在线上完成语料收集,交互简单、用户体验好、用户参与度高、有效解决了在真实蒙语语言环境下收集开放域自然口语语料的问题,在互联网移动平台下展现了极高的实用前景。

    一种基于微信公众平台的汉蒙语料库众包构建方法

    公开(公告)号:CN110472948B

    公开(公告)日:2022-02-08

    申请号:CN201910859135.6

    申请日:2019-09-11

    Abstract: 一种基于微信公众平台的汉蒙语料库众包构建方法,属于语料资源构建领域。具体操作步骤包含:1)获取多体裁开放域原始语料;2)通过蒙古语水平测试问卷,对参与翻译任务的用户进行筛选过滤;3)用订阅号推送的方式给关注微信公众号的用户发送众包翻译任务;4)每个微信客户端将一个或多个源句翻译成蒙古语以语音形式反馈给后台;5)通过后台管理员审核与众包质量评估相结合的方式评估所述语料质量,实现语料的质量控制;所述基于微信公众平台的汉蒙语料库众包构建方法在线上完成语料收集,交互简单、用户体验好、用户参与度高、有效解决了在真实蒙语语言环境下收集开放域自然口语语料的问题,在互联网移动平台下展现了极高的实用前景。

    一种基于问题生成的文本生成语义评价方法

    公开(公告)号:CN116629273A

    公开(公告)日:2023-08-22

    申请号:CN202310403195.3

    申请日:2023-04-17

    Abstract: 本发明涉及一种基于问题生成的文本生成语义评价方法,属于自然语言处理技术领域。本方法基于问题生成,对于候选文本和参考文本,首先进行命名实体识别并标记实体在文本中的位置,然后将实体作为答案通过问题生成模型生成问题。使用机器阅读理解模型以参考文本作为上下文,以候选文本生成的问题作为问题得到答案。以候选文本作为上下文,以参考文本生成的问题作为问题得到答案。将这两种方式得到的答案分别计算与正确答案即识别到的实体的相似度再加权求和,得到最后的评价分数。本方法适用于机器翻译、文本摘要等文本生成任务,评价了文本在语义上的质量,丰富了文本生成评价方法,可以更好地指导文本的生成。

    一种基于弃权的抗标签噪声的对话状态追踪方法

    公开(公告)号:CN116628145A

    公开(公告)日:2023-08-22

    申请号:CN202310301776.6

    申请日:2023-03-27

    Abstract: 本发明涉及一种基于弃权的抗标签噪声的对话状态追踪方法,属于自然语言处理技术领域。本方法对数据集中的每条数据,采用预训练模型编码,通过基于弃权的槽位分类器判断槽位的预测方式,对于需要生成的槽位使用槽值生成器解码,需要推理的槽位使用槽值复制器解码。在槽位分类器中添加了一个特殊类别“弃权”,表示模型认为本次预测过于复杂或存在标签噪声,并放弃对该样本的预测和学习,通过修正后的损失函数来训练抗标签噪声的对话状态追踪模型。本方法提高了编码效和解码速度,有效降低了标注错误的影响,使模型在标签噪声较大的数据集中也可以保持较好的性能。

Patent Agency Ranking