一种基于动态自聚合主题模型的文本聚合系统

    公开(公告)号:CN112507713A

    公开(公告)日:2021-03-16

    申请号:CN202011479879.4

    申请日:2020-12-15

    Abstract: 本发明涉及一种基于动态自聚合主题模型的文本聚合系统,包括文本获取模块,在设定的时间间隔的时间片上,获取待聚合短文本数据;预处理模块,对待聚合短文本数据进行数据清洗和文本分词形成文本数据集;动态自聚合主题模型,结合相邻时间片上的文本数据集,来捕获文本数据集中主题的多项分布和词的多项分布;吉布斯采样模块,用于对动态自聚合主题模型中的多项分布进行推导,统计出每个时间片上的主题分布和词分布;聚合模块,根据每个时间片上的主题分布和词分布,计算与主题相关的短文本聚合的概率。本发明自动聚合短文本为标准长文档,能克服短文本稀疏性问题,并且不需要启发式的前处理或者后处理技术,使得模型简单,处理效率较高。

    一种社交网络用户意图处理方法

    公开(公告)号:CN112364260A

    公开(公告)日:2021-02-12

    申请号:CN202011339762.6

    申请日:2020-11-25

    Abstract: 本发明涉及一种社交网络用户搜索意图处理方法,包括获取在线社交网络中包括用户信息、关注者信息和用户在线社交内容文本在内的网络数据,形成网络数据集;基于狄利克雷分布和吉布斯采样建立在线社交网络用户聚合主题模型,对所述网络数据集进行处理,得到用户搜索意图分布、关注者搜索意图分布和用户意词分布;基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合,获取最终的社交网络用户搜索意图。本发明通解决了社交网络上下文稀疏性问题,并区分建模主题词和普通词,实现了社交网络词关系学习;考虑用户搜索意图分布和关注者意图分布,构建了用户意图权重表示,实现了社交网络用户搜索意图的处理,提高了用户搜索体验。

    基于全局性特征提取的文本摘要自动生成方法及系统

    公开(公告)号:CN112559730B

    公开(公告)日:2021-08-24

    申请号:CN202011423830.7

    申请日:2020-12-08

    Abstract: 本发明涉及一种基于全局性特征提取的文本摘要自动生成方法及系统,方法包括以下步骤:将包含多个句子的文本载入训练好的BERTSUM‑CNN‑LSTM‑attention编码模型中;通过BERTSUM网络对文本中每个句子进行编码,输出第一特征;通过CNN网络处理第一特征,提取包含不同句子之间关联关系的第二特征;通过LSTM网络处理第二特征,提取用于表征文本中句子依赖关系的第三特征;通过attention网络对第三特征进行规范化操作,得到对每个第三特征进行权重赋值的第四特征;将第四特征引出至输出层,用于获取文本中每个句子的摘要预测概率,进而生成文本的摘要。本发明对多句子文本进行准确理解,即考虑句子间的局部特征,又考虑整个文档的整体特征以确保本文摘要生成质量。

    基于用户聚合主题模型的社交网络用户搜索意图处理系统

    公开(公告)号:CN112307746A

    公开(公告)日:2021-02-02

    申请号:CN202011344972.4

    申请日:2020-11-25

    Abstract: 本发明涉及一种基于用户聚合主题模型的社交网络用户搜索意图处理系统,包括:在线社交网络数据获取模块,用于在线获取社交网络中的网络数据;数据预处理模块,用于对所述网络数据进行数据清洗,形成网络数据集;搜索意图获取模块,用于采用基于狄利克雷分布和吉布斯采样建立在线社交网络用户聚合主题模型,对网络数据集进行处理,得到用户搜索意图分布、关注者搜索意图分布和用户搜索意图的词分布;并基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合,获取最终的社交网络用户搜索意图。本发明解决了社交网络上下文稀疏性问题,构建了用户意图权重表示,实现了社交网络用户搜索意图的处理,提高了用户搜索体验。

    基于用户聚合主题模型的社交网络用户搜索意图处理系统

    公开(公告)号:CN112307746B

    公开(公告)日:2021-08-17

    申请号:CN202011344972.4

    申请日:2020-11-25

    Abstract: 本发明涉及一种基于用户聚合主题模型的社交网络用户搜索意图处理系统,包括:在线社交网络数据获取模块,用于在线获取社交网络中的网络数据;数据预处理模块,用于对所述网络数据进行数据清洗,形成网络数据集;搜索意图获取模块,用于采用基于狄利克雷分布和吉布斯采样建立在线社交网络用户聚合主题模型,对网络数据集进行处理,得到用户搜索意图分布、关注者搜索意图分布和用户搜索意图的词分布;并基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合,获取最终的社交网络用户搜索意图。本发明解决了社交网络上下文稀疏性问题,构建了用户意图权重表示,实现了社交网络用户搜索意图的处理,提高了用户搜索体验。

    基于全局性特征提取的文本摘要自动生成方法及系统

    公开(公告)号:CN112559730A

    公开(公告)日:2021-03-26

    申请号:CN202011423830.7

    申请日:2020-12-08

    Abstract: 本发明涉及一种基于全局性特征提取的文本摘要自动生成方法及系统,方法包括以下步骤:将包含多个句子的文本载入训练好的BERTSUM‑CNN‑LSTM‑attention编码模型中;通过BERTSUM网络对文本中每个句子进行编码,输出第一特征;通过CNN网络处理第一特征,提取包含不同句子之间关联关系的第二特征;通过LSTM网络处理第二特征,提取用于表征文本中句子依赖关系的第三特征;通过attention网络对第三特征进行规范化操作,得到对每个第三特征进行权重赋值的第四特征;将第四特征引出至输出层,用于获取文本中每个句子的摘要预测概率,进而生成文本的摘要。本发明对多句子文本进行准确理解,即考虑句子间的局部特征,又考虑整个文档的整体特征以确保本文摘要生成质量。

    一种基于动态语义建模的短文本聚合方法

    公开(公告)号:CN112446220A

    公开(公告)日:2021-03-05

    申请号:CN202011479885.X

    申请日:2020-12-15

    Abstract: 本发明涉及一种基于动态语义建模的短文本聚合方法,包括以下步骤:在设定间隔的时间片上,获取待聚合短文本数据,进行数据预处理,形成数据集;在每个时间片上,通过建立动态自聚合主题模型捕获数据集中主题的多项分布和词的多项分布;采用吉布斯采样对动态自聚合主题模型中的多项分布进行推导,最后采样收敛时,统计每个时间片上的主题分布和词分布;根据每个时间片上的主题分布和词分布,计算与主题相关的短文本聚合的概率,自适应地聚合短文本。本发明自动聚合短文本为标准长文档,使得其能够捕获到更多的一致性主题,来克服短文本稀疏性问题,并且不需要启发式的前处理或者后处理技术,使得模型简单,处理效率较高。

Patent Agency Ranking