-
公开(公告)号:CN111612120A
公开(公告)日:2020-09-01
申请号:CN202010391203.3
申请日:2020-05-11
Applicant: 中国电子科技集团公司电子科学研究院 , 北京邮电大学
Abstract: 本发明提出了一种基于模糊聚类算法的群体异常行为检测方法及装置,方法包括:基于总群体中所有目标的历史行为数据,将总群体分类成多个子群体;基于目标的历史行为数据,计算子群体的子群异常因子以及总群体的总群异常因子;通过比较子群异常因子与第一阈值的关系以及总群异常因子与第二阈值的关系,判断群体是否存在异常行为。根据本发明的检测方法,根据目标的历史行为数据,将总群体分类成多个子群体,并计算子群异常因子和总群异常因子,通过比较子群异常因子与第一阈值的关系、以及总群异常因子与第二阈值的关系,对群体的异常行为进行判断。由此,有效提高了群体常行为度量和异常目标挖掘的准确性。
-
公开(公告)号:CN111310454A
公开(公告)日:2020-06-19
申请号:CN202010051693.2
申请日:2020-01-17
Applicant: 北京邮电大学
IPC: G06F40/284 , G06F40/295 , G06F16/35 , G06N3/04
Abstract: 本发明实施例提供了一种基于领域迁移的关系抽取方法及装置,所述方法包括:获取待处理文本;提取待处理文本中具有第一预设词性的词语,以及具有第二预设词性的词语,并生成第一预设词性的词语与第二预设词性的词语对应的关系词对;根据待处理文本的标识,关系词对在待处理文本中的位置,待处理文本所属的领域,生成关系提及特征向量矩阵;利用预先训练好的关系分类模型对关系提及特征向量矩阵中每一关系提及特征向量进行处理,得到关系提及特征向量对应的关系类别。本发明实施例,使用优化的样本数据训练关系分类模型,能够提高分类结果的准确度。
-
公开(公告)号:CN111191827A
公开(公告)日:2020-05-22
申请号:CN201911337179.9
申请日:2019-12-23
Applicant: 北京邮电大学
Abstract: 本发明实施例提供了一种数据波动趋势的预测方法及装置,通过获取统计数据集,其中,统计数据集包括预设时间段内各时间周期统计的数据;将预设时间段内各时间周期统计的数据输入预先训练的长短期记忆LSTM网络模型中,得到第一似然值序列,其中,LSTM网络模型基于多个样本数据训练得到;根据第一似然值序列,对待预测时间周期的数据波动趋势进行预测,其中,待预测时间周期为预设时间段内最后一个时间周期的下一时间周期。由于LSTM网络模型是一个端到端的网络模型,将预设时间段内各时间周期统计的数据输入预先训练的LSTM网络模型后,可以快速得到一个似然值序列的输出,基于该输出,缩短了待预测时间周期的数据波动趋势的预测时间,从而提高了预测效率。
-
公开(公告)号:CN110543634A
公开(公告)日:2019-12-06
申请号:CN201910822709.2
申请日:2019-09-02
Applicant: 北京邮电大学
Abstract: 本发明实施例提供了一种语料数据集的处理方法、装置、电子设备及存储介质,可以实现获取原始的语料数据集,语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;判断语料数据集中的各条提及之间是否具有关联关系;针对具有关联关系的关联提及,根据关联提及的标签数据,计算关联提及的边缘概率;从语料数据集中,删除边缘概率小于预设概率值的关联提及。应用本发明可以剔除语料数据集中人为标注带来的错误信息,降低语料数据集中的噪声问题,进而提高模型训练的准确度,提高关系提取的准确率。
-
公开(公告)号:CN110188191A
公开(公告)日:2019-08-30
申请号:CN201910277242.8
申请日:2019-04-08
Applicant: 北京邮电大学
Abstract: 本申请公开了一种用于网络社区文本的实体关系图谱构建方法和系统,包括:采集网页中的文本,进行实体识别和实体关系抽取,构建语义模型;采集网络社区中的文本,进行实体识别和实体关系抽取,得到网络实体关系集合;使用分类模型对网络实体关系集合进行分类,得到实体对;对所述实体对进行层次分类计算,将实体对融合进语义模型中;对融合后的语义模型进行可视化处理,得到实体关系图谱。使用特定网页中的纯净文本生成语义模型,保证实体关系的准确性和可靠性;使用分类算法和核心实体关系集合训练分类模型,并进行评估,增加了分类的可靠性;将通过评估的网络实体关系集合加进核心语义模型,增加了核心语义模型的丰富性、稳定性和自动扩展性。
-
公开(公告)号:CN110019253A
公开(公告)日:2019-07-16
申请号:CN201910313368.6
申请日:2019-04-18
Applicant: 北京邮电大学
IPC: G06F16/22 , G06F16/2458
Abstract: 本发明实施例提供了一种分布式的图数据序列采样方法及装置,应用于分布式的计算节点,所述分布式的计算节点包括:两个以上计算节点,其中所述方法包括:获取预设的图数据、采样次数及采样路径长度;将所述采样次数均分,得到每个计算节点各自的采样次数,作为采样分配次数;从每个计算节点处理的路径集合中,按照所述采样路径长度,确定出路径长度与所述采样路径长度的数值相同的目标路径,所述目标路径是由边数量与所述采样路径长度的数值相同的所述图数据的边形成的,所述图数据的每条边包括至少一个元素;对每个计算节点的目标路径,基于预先确定的权重,分别从形成该目标路径的每条边包括的至少一个元素中抽取一个元素,得到采样元素序列。
-
公开(公告)号:CN109859039A
公开(公告)日:2019-06-07
申请号:CN201811620004.4
申请日:2018-12-28
Applicant: 北京邮电大学
Abstract: 本发明实施例提供了一种预测方法及装置,方法包括:确定多个对象的历史数据;对于每个对象,从该对象的历史数据中,提取该对象在各历史时刻多个维度下的特征,得到该对象在各历史时刻的特征张量;对于每一对象在每一历史时刻的特征张量,确定该对象在该历史时刻的特征张量与该对象在其他历史时刻的特征张量之间的第一相似度,以及该对象在该历史时刻的特征张量与其他对象在该历史时刻的特征张量之间的第二相似度;根据每一对象的第一相似度和第二相似度,将每一对象的特征张量进行重构,得到每一对象的重构特征张量;将每一对象的重构特征张量输入预测模型,得到每一对象的预测值。实现将重构后的张量输入预测模型,从而提高预测结果的准确率。
-
公开(公告)号:CN109522928A
公开(公告)日:2019-03-26
申请号:CN201811198872.8
申请日:2018-10-15
Applicant: 北京邮电大学
Abstract: 本发明实施例提供的一种文本的主题情感分析方法实现了针对待分析文档,获得该文档中的主题词和情感词,根据各个主题词确定主题,根据该文档的主题,分别计算每一情感词的情感为正向的概率和为负向的概率,并根据每一情感词的情感为正向的概率和为负向的概率,计算获得每一情感词的情感倾向,根据各个情感词的情感倾向,确定该文档的主题-情感倾向。因此,本发明实施例提供的方法根据文档的主题确定各个情感词的正向和负向概率,进而确定文档的主题-情感倾向。不需要将文档划分成几个句子,也不需要根据其他句子的主题来确定每一句子的主题。解决了现有技术中当文档是只有一句话的短文本时,无法获得该短文本的主题-情感倾向的问题。
-
公开(公告)号:CN106844309A
公开(公告)日:2017-06-13
申请号:CN201710045445.5
申请日:2017-01-22
Applicant: 北京邮电大学
IPC: G06F17/22
CPC classification number: G06F17/2211
Abstract: 本发明实施例提供一种基于签名压缩机制的近似重复文本检测方法及装置,包括:确定当前检测文档x和y;获得所述当前检测文档x和y的签名压缩长度:C(sig(x))和C(sig(y));将所述签名压缩长度C(sig(x))和C(sig(y))代入标准化压缩距离公式,计算出基于签名的标准化压缩距离值;根据基于签名的标准化压缩距离值,得到所述当前检测文档x和y是否为近似重复文档的比较结果。提高了近似重复文档的检测速度。
-
-
-
-
-
-
-
-