-
公开(公告)号:CN110543634B
公开(公告)日:2021-03-02
申请号:CN201910822709.2
申请日:2019-09-02
Applicant: 北京邮电大学
IPC: G06F40/211 , G06F40/216 , G06F40/295 , G06F16/35 , G06F16/36
Abstract: 本发明实施例提供了一种语料数据集的处理方法、装置、电子设备及存储介质,可以实现获取原始的语料数据集,语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;判断语料数据集中的各条提及之间是否具有关联关系;针对具有关联关系的关联提及,根据关联提及的标签数据,计算关联提及的边缘概率;从语料数据集中,删除边缘概率小于预设概率值的关联提及。应用本发明可以剔除语料数据集中人为标注带来的错误信息,降低语料数据集中的噪声问题,进而提高模型训练的准确度,提高关系提取的准确率。
-
公开(公告)号:CN110543634A
公开(公告)日:2019-12-06
申请号:CN201910822709.2
申请日:2019-09-02
Applicant: 北京邮电大学
Abstract: 本发明实施例提供了一种语料数据集的处理方法、装置、电子设备及存储介质,可以实现获取原始的语料数据集,语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;判断语料数据集中的各条提及之间是否具有关联关系;针对具有关联关系的关联提及,根据关联提及的标签数据,计算关联提及的边缘概率;从语料数据集中,删除边缘概率小于预设概率值的关联提及。应用本发明可以剔除语料数据集中人为标注带来的错误信息,降低语料数据集中的噪声问题,进而提高模型训练的准确度,提高关系提取的准确率。
-