-
公开(公告)号:CN114491062B
公开(公告)日:2024-05-03
申请号:CN202111646536.7
申请日:2021-12-30
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/35 , G06F16/36 , G06F40/289 , G06F40/30 , G06F18/2411
Abstract: 本发明公开一种融合知识图谱和主题模型的短文本分类方法,属于自然语言处理领域,通过对知识图谱和主题模型技术的融合,利用知识图谱获取外部知识,进行特征扩展,在不改变原文本语义的同时,能够有效地扩充短文本的特征内容;使用扩展后的文本数据训练主题模型,挖掘文本之间的语义关联并将其作为扩展特征,缓解同义词现象对文本分类任务带来的不准确性,最终使用支持向量机进行短文本的分类预测。
-
公开(公告)号:CN114491062A
公开(公告)日:2022-05-13
申请号:CN202111646536.7
申请日:2021-12-30
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/36 , G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62
Abstract: 本发明公开一种融合知识图谱和主题模型的短文本分类方法,属于自然语言处理领域,通过对知识图谱和主题模型技术的融合,利用知识图谱获取外部知识,进行特征扩展,在不改变原文本语义的同时,能够有效地扩充短文本的特征内容;使用扩展后的文本数据训练主题模型,挖掘文本之间的语义关联并将其作为扩展特征,缓解同义词现象对文本分类任务带来的不准确性,最终使用支持向量机进行短文本的分类预测。
-