-
公开(公告)号:CN113254655B
公开(公告)日:2021-09-17
申请号:CN202110757754.1
申请日:2021-07-05
Applicant: 北京邮电大学
IPC: G06F16/35 , G06F40/289 , G06F40/35
Abstract: 本发明提供了一种文本分类方法、电子设备及计算机存储介质,其中,该方法包括:获取多个话题类别及其对应的多个词和多个文档;统计每个话题类别的所有文档中包含该话题类别对应的每个词的第一文档数量和所有话题类别的所有文档中包含每个话题类别的每个词的第二文档数量;计算每个话题类别的每个词的第一文档数量与第二文档数量的比值,作为词对话题覆盖率;若词的词对话题覆盖率大于设定阈值,将该词选作相应话题类别的特征词,得到相应类别特征词袋;对待分类文档分词,以得到待分类文档的词袋模型;计算待分类文档的词袋模型与各类别特征词袋的相似度;根据各相似度确定该待分类文档的类别。通过上述方案能够利用较少标注完成文本分类任务。
-
公开(公告)号:CN113254655A
公开(公告)日:2021-08-13
申请号:CN202110757754.1
申请日:2021-07-05
Applicant: 北京邮电大学
IPC: G06F16/35 , G06F40/289 , G06F40/35
Abstract: 本发明提供了一种文本分类方法、电子设备及计算机存储介质,其中,该方法包括:获取多个话题类别及其对应的多个词和多个文档;统计每个话题类别的所有文档中包含该话题类别对应的每个词的第一文档数量和所有话题类别的所有文档中包含每个话题类别的每个词的第二文档数量;计算每个话题类别的每个词的第一文档数量与第二文档数量的比值,作为词对话题覆盖率;若词的词对话题覆盖率大于设定阈值,将该词选作相应话题类别的特征词,得到相应类别特征词袋;对待分类文档分词,以得到待分类文档的词袋模型;计算待分类文档的词袋模型与各类别特征词袋的相似度;根据各相似度确定该待分类文档的类别。通过上述方案能够利用较少标注完成文本分类任务。
-
公开(公告)号:CN115344668A
公开(公告)日:2022-11-15
申请号:CN202210846693.0
申请日:2022-07-05
Applicant: 北京邮电大学
Abstract: 本发明提供一种多领域与多学科科技政策资源检索方法及装置,通过传统的预设相关性计算模型计算用户查询和各科技政策资源文本段的相似度并初步召回和粗排候选文档,再进一步引用深度语言模型BERT对初步召回的候选文档进行修正和重排以最终输出查询结果。基于无标注的文本对BERT模型进行预训练,并采用特定领域有标注的文本进行微调,提高了文本匹配任务完成过程中的语义捕获能力。通过分割候选文本为多个文本段,分别计算各文本段与用户查询之间的相似度后进行聚合得到第二相关性分数,以解决BERT模型输入限制的问题。本发明通过两阶段的查询检索,综合词汇、词义和结构层面的特征,提升了文本匹配的精度。
-
-