-
公开(公告)号:CN110263153A
公开(公告)日:2019-09-20
申请号:CN201910403543.0
申请日:2019-05-15
Applicant: 北京邮电大学
Abstract: 本发明涉及话题发现领域,特别涉及一种面向多源信息的混合文本话题发现方法。本发明具体包括以下步骤:步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类。本发明能够将文本向量特征不均匀的多源文本数据均匀化;通过DMM模型,提升对高噪声、低信息量的短文本数据的话题检测效果;能自动识别出聚类的类别个数,不需要事先给定簇的个数。
-
公开(公告)号:CN110222172A
公开(公告)日:2019-09-10
申请号:CN201910403573.1
申请日:2019-05-15
Applicant: 北京邮电大学
IPC: G06F16/35
Abstract: 本发明公开了一种基于改进层次聚类的多源网络舆情主题挖掘方法,涉及主题挖掘领域。具体包括以下步骤:步骤一、获取词向量;步骤二、对所有数据进行预处理;步骤三、对步骤二预处理后总的样本数据句向量化;步骤四、进行句向量半监督层次主题挖掘;步骤五、输出树状图Dendrogram。本发明利用层次聚类算法包含层次信息的优点,并在此基础上从先验知识使用、模型输入向量化、优质主题筛选等角度进行优化,最终使得本文提出的方法能有效适用于主题广泛、文本噪声多、语法缺少规范的多源网络平台短文本的主题挖掘。
-
公开(公告)号:CN113343041B
公开(公告)日:2022-05-20
申请号:CN202110686245.4
申请日:2021-06-21
Applicant: 北京邮电大学
IPC: G06F16/901 , G06F16/35 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 基于图模型表示学习的消息回复关系判断系统,涉及信息通讯技术领域,解决现有技术只采用两条消息的文本信息和消息间的交叉后的关系信息,没有包含群组用户信息;没有使用当前消息聊天场景的上下文信息等问题,包括图的构建和生成模块、局部图获取和合并模块、异质图注意力网络模块以及孪生网络模块;本发明基于群组内容构建群组图和生成自适应消息图,综合学习群组消息的文本信息、发送消息的群组用户信息和上下文群组消息信息,利用图模型在图结构上进行群组消息的表示学习,拼接消息对的表示向量并进一步预测群组消息间的回复关系。本发明处理不同的输入消息序列生成任务相关的局部消息图,用于捕捉消息之间的隐式关联,弥补人工构图的不足。
-
公开(公告)号:CN110232149B
公开(公告)日:2022-03-01
申请号:CN201910385776.2
申请日:2019-05-09
Applicant: 北京邮电大学
IPC: G06F16/9535 , G06F16/33
Abstract: 本申请公开了一种热点事件检测方法和系统,包括:对文本进行预处理、分词和向量化,计算文本相似度矩阵;对文本相似度矩阵进行聚类,得到聚类结果集;提取聚类结果集中的关键词,计算关键词向量之间的距离;判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本分类器。通过提取聚类结果的关键词,使用词向量对聚类关键词进行向量化表示,判断关键词向量之间的距离,对同一事件的多方向讨论进行归并,提高语义识别程度。使用分类器对融合结果集进行分类,能够在包含固有话题的数据中检测热点事件,提高热点事件的识别准确率。
-
公开(公告)号:CN113609306A
公开(公告)日:2021-11-05
申请号:CN202110893417.5
申请日:2021-08-04
Applicant: 北京邮电大学
Abstract: 本发明公开了一种对抗残差图变分自编码器的社交网络链接预测方法及系统,包括如下步骤:利用数据采集技术获取某一时刻下的社交网络数据,包括用户的推文数据和用户之间的交互数据;基于用户的交互进行社交网络图结构抽象,其中节点表示社交网络中的真实用户,边表示用户之间的关系;利用Bert模型提取用户推文数据中的内容语义信息,表示成固定长度的向量,作为用户的内容语义;将社交网络图结构和用户的内容语义作为输入,利用批量正则化下的对抗残差图变分自编码器提取拓扑结构特征和语义特征,融合得到低维连续向量空间中的节点表示;两两计算节点向量表示之间的点积,反映节点间的相似度,将高于给定阈值的两个节点认定为会在未来产生链接关系,从而实现社交网络链接预测。
-
公开(公告)号:CN110222172B
公开(公告)日:2021-03-16
申请号:CN201910403573.1
申请日:2019-05-15
Applicant: 北京邮电大学
IPC: G06F16/35
Abstract: 本发明公开了一种基于改进层次聚类的多源网络舆情主题挖掘方法,涉及主题挖掘领域。具体包括以下步骤:步骤一、获取词向量;步骤二、对所有数据进行预处理;步骤三、对步骤二预处理后总的样本数据句向量化;步骤四、进行句向量半监督层次主题挖掘;步骤五、输出树状图Dendrogram。本发明利用层次聚类算法包含层次信息的优点,并在此基础上从先验知识使用、模型输入向量化、优质主题筛选等角度进行优化,最终使得本文提出的方法能有效适用于主题广泛、文本噪声多、语法缺少规范的多源网络平台短文本的主题挖掘。
-
公开(公告)号:CN110413989B
公开(公告)日:2020-11-20
申请号:CN201910533898.1
申请日:2019-06-19
Applicant: 北京邮电大学
IPC: G06F40/284 , G06F40/30
Abstract: 本申请公开了一种领域语义关系图的文本领域确定方法与系统,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。根据从网络平台中采集的文本生成的领域语义关系图,通过确定待分析文本中的文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,能够根据需要针对特殊领域对文本进行分析。通过设置语义关联关系、权重系数和专属属性,提高灵活性和针对性。
-
公开(公告)号:CN109783805B
公开(公告)日:2020-04-24
申请号:CN201811544400.3
申请日:2018-12-17
Applicant: 北京邮电大学
IPC: G06F40/205 , G06F40/289 , G06Q50/00 , G06N3/04 , G06N3/08
Abstract: 本申请公开一种网络社区用户识别方法及装置,涉及机器学习及用户识别技术领域。所述方法包括:提取预先收集的网络社区文本数据的第一N‑gram特征并生成第一词向量;以交叉熵为代价函数,采用深度神经网络对第一词向量进行训练,得到文本内容分析模型;使用文本内容分析模型分析待识别用户的文本数据,得到内容属性;使用预设行为分析模型分析待识别用户的行为数据,得到行为属性;根据内容属性和行为属性识别待识别用户。本申请中,引入N‑gram特征,并结合用户内容以及用户行为两个维度的数据进行目标用户的识别,相较于现有的单一维度数据的用户识别,大大提升了识别性能及准确度。
-
公开(公告)号:CN109740069A
公开(公告)日:2019-05-10
申请号:CN201811385178.7
申请日:2018-11-20
Applicant: 北京邮电大学
IPC: G06F16/9536 , G06Q50/00
Abstract: 本申请提出一种用户间亲密关系的识别方法及装置,涉及数据处理技术领域。所述方法包括:根据预先收集的用户数据构建二分网络,根据二分网络中用户节点和时空节点对应的连边,统计特征数据;根据特征数据,计算不同用户相遇的偶然概率;根据偶然概率,识别具有亲密关系的用户,并计算亲密度。本申请中,基于用户数据并结合时空属性维度构建二分网络,实现了用户之间亲密关系的有效识别,对于相关机构而言,不仅能够更好的对相应的用户进行管理和分配,而且对于机构的决策制定具有一定的指导意义。
-
公开(公告)号:CN109582858A
公开(公告)日:2019-04-05
申请号:CN201811207431.X
申请日:2018-10-17
Applicant: 北京邮电大学
IPC: G06F16/9535 , G06F16/35 , G06F16/36
Abstract: 本发明公开了一种可信的知识生态系统,包括:学习资源自动收集模块,按需从互联网开放资源中采集特定主题的学习资料,进行数据清洗、数据归约,将结构化或半结构化数据可信地存储在内部学习资源库中;资源学习模块,对资源进行学习形成个人知识库,其中个人知识库以可信的方式存储于平台上;知识管理模块,对所述个人知识库中的知识要素进行组织并与融合、更新到已有的知识体系;知识分享模块,将知识可信地分享给特定用户(群);知识创新模块,结合已有知识体系,生产个人成果,并形成个人成果库;成果提交模块,将所述个人成果提交到平台上。在本发明中,知识的流动过程促进知识库的不断自我更新,形成不断循环、自生长的知识生态系统。
-
-
-
-
-
-
-
-
-