-
公开(公告)号:CN112949319B
公开(公告)日:2023-01-06
申请号:CN202110270079.X
申请日:2021-03-12
Applicant: 江南大学
IPC: G06F40/30 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种文本中多义性单词的标注方法、设备、处理器和存储介质;所述方法包括输入待处理的原始语料库;训练上下文相关词嵌入模型,获得上下文相关向量;根据上下文相关向量搭建语义向量生成算法,区分每个单词的多个含义,并对原始语料库进行标注;输出标注多义性的伪文档。本发明利用上下文相关词嵌入模型,通过对多义性单词的不同语义进行标注,消除多种语义的歧义,相较于没有考虑单词多义性的文本来说,对后续文本处理,文本分类,主题模型等任务的准确度有较大的提升。
-
公开(公告)号:CN112949319A
公开(公告)日:2021-06-11
申请号:CN202110270079.X
申请日:2021-03-12
Applicant: 江南大学
IPC: G06F40/30 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种文本中多义性单词的标注方法、设备、处理器和存储介质;所述方法包括输入待处理的原始语料库;训练上下文相关词嵌入模型,获得上下文相关向量;根据上下文相关向量搭建语义向量生成算法,区分每个单词的多个含义,并对原始语料库进行标注;输出标注多义性的伪文档。本发明利用上下文相关词嵌入模型,通过对多义性单词的不同语义进行标注,消除多种语义的歧义,相较于没有考虑单词多义性的文本来说,对后续文本处理,文本分类,主题模型等任务的准确度有较大的提升。
-