一种文本话题标签生成方法、终端设备及存储介质

    公开(公告)号:CN112380866B

    公开(公告)日:2025-01-21

    申请号:CN202011334632.3

    申请日:2020-11-25

    Abstract: 本发明涉及一种文本话题标签生成方法、终端设备及存储介质,该方法中包括:S1:将待识别话题文本进行数据清洗后,进行命名实体识别;S2:采集数据并构建一对多的词汇组合形式的样本组成训练集,构建神经网络模型,通过训练集对神经网络模型进行训练,其中样本中的一个词作为神经网络模型的输入,该词对应的多个语义关联词作为神经网络模型的输出;S3:将待识别话题文本对应的每个命名实体依次输入训练后的神经网络模型后,获得输出的多个词,并对多个词进行清洗和筛选后,将清洗和筛选后的结果作为命名实体对应的标签。本发明通过逻辑语义标签训练生成,可对大范围文本进行话题语义的关联度量,将文本相似度范围进行可解释性归纳。

    噪声文档的筛除方法及计算机可读存储介质

    公开(公告)号:CN111209737A

    公开(公告)日:2020-05-29

    申请号:CN201911398056.6

    申请日:2019-12-30

    Abstract: 本发明公开了一种噪声文档的筛除方法及计算机可读存储介质,方法包括:根据种子词集合,检索得到原始语料;从原始语料中提取有效文本;对有效文本进行分句,并进行数据清洗;获取共现句中的重点词语,得到关键词集合;根据种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;分别计算相关类关键词表中的各相关词语在有效文本中作为重点句法成分的出现比例,得到各相关词语的关键词权重;分别计算各无关词语的关键词权重;获取有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算有效文本的得分;若得分小于预设的阈值,则判定为噪声文本。本发明可剔除无关文本,提高搜索结果语料质量。

    噪声文档的筛除方法及计算机可读存储介质

    公开(公告)号:CN111209737B

    公开(公告)日:2022-09-13

    申请号:CN201911398056.6

    申请日:2019-12-30

    Abstract: 本发明公开了一种噪声文档的筛除方法及计算机可读存储介质,方法包括:根据种子词集合,检索得到原始语料;从原始语料中提取有效文本;对有效文本进行分句,并进行数据清洗;获取共现句中的重点词语,得到关键词集合;根据种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;分别计算相关类关键词表中的各相关词语在有效文本中作为重点句法成分的出现比例,得到各相关词语的关键词权重;分别计算各无关词语的关键词权重;获取有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算有效文本的得分;若得分小于预设的阈值,则判定为噪声文本。本发明可剔除无关文本,提高搜索结果语料质量。

    一种文本话题标签生成方法、终端设备及存储介质

    公开(公告)号:CN112380866A

    公开(公告)日:2021-02-19

    申请号:CN202011334632.3

    申请日:2020-11-25

    Abstract: 本发明涉及一种文本话题标签生成方法、终端设备及存储介质,该方法中包括:S1:将待识别话题文本进行数据清洗后,进行命名实体识别;S2:采集数据并构建一对多的词汇组合形式的样本组成训练集,构建神经网络模型,通过训练集对神经网络模型进行训练,其中样本中的一个词作为神经网络模型的输入,该词对应的多个语义关联词作为神经网络模型的输出;S3:将待识别话题文本对应的每个命名实体依次输入训练后的神经网络模型后,获得输出的多个词,并对多个词进行清洗和筛选后,将清洗和筛选后的结果作为命名实体对应的标签。本发明通过逻辑语义标签训练生成,可对大范围文本进行话题语义的关联度量,将文本相似度范围进行可解释性归纳。

Patent Agency Ranking