-
公开(公告)号:CN115758191A
公开(公告)日:2023-03-07
申请号:CN202211350301.8
申请日:2022-10-31
Applicant: 北京理工大学
IPC: G06F18/23213 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于深度学习的知识服务实体聚类数目预测方法,属于数据挖掘应用与信息处理技术领域。本方法为了解决在网络知识服务应用中,在海量文献和数据下如何有效预测实体聚类数目,提高信息数据挖掘推送精准度和效率的技术问题,结合了自编码器与蒙特卡洛方法,能够准确地自动预估高维数据集的聚类数目,有效地克服目前聚类数目需要人为预估的技术缺陷,显著提高系统在热点推荐、搜索、问答等方面的信息推荐能力,为用户推荐相关度更高的信息。本发明在文本挖掘和细粒度知识服务等领域,具有广阔的应用前景。
-
公开(公告)号:CN112580859B
公开(公告)日:2022-10-18
申请号:CN202011415067.3
申请日:2020-12-03
Applicant: 北京理工大学 , 中国地质大学(北京)
Abstract: 本发明涉及一种基于全局注意力机制的雾霾预测方法,属于人工智能信息预测技术领域。本方法首先获取环境监测点的雾霾数据,对获取的雾霾数据进行处理,基于全局注意力机制训练雾霾预测模型,使用雾霾预测模型输出最终预测结果。在雾霾预测任务中,引入全局注意力机制,为不同影响因素赋予不同的权重,有效解决信息传输距离过长的问题。引入双向门控循环神经网络,不仅引入训练数据中前面时刻数据对后面时刻数据的影响,并且分析后面时刻数据和前面时刻数据的关联,解决了雾霾预测数据中的长期依赖问题,能够准确地预测未来时刻的雾霾数据。本方法具有良好的扩展性,可根据不同地区的数据特征,动态改变网络结构,得到适合本地区的雾霾预测方法。
-
公开(公告)号:CN112597267B
公开(公告)日:2022-09-20
申请号:CN202011474201.7
申请日:2020-12-14
Applicant: 北京理工大学
IPC: G06F16/31
Abstract: 本发明涉及一种基于模式识别的英文论文文档多粒度内容处理方法,属于信息处理技术领域。本方法,针对英文PDF格式论文文档内容识别处理面临的问题,将论文按章、节、段落拆分为更小粒度的内容子单元,并将论文中的表格、图形、算法等非文本内容单独抽取,同时,保留各个子单元原有的语义关系和上下文联系,以便后续应用。在进行信息抽取时,通过利用文本内容之间的语义关联及文本位置信息,能够高效、快速、准确地识别目标文本内容对象。
-
公开(公告)号:CN108108184B
公开(公告)日:2020-12-04
申请号:CN201711380042.2
申请日:2017-12-20
Applicant: 北京理工大学
Abstract: 本发明公开了一种基于深度信念网络的源代码作者识别方法,属于Web挖掘和信息抽取领域。本发明包括如下步骤:构建源代码数据集,对源代码数据进行预处理;基于连续n‑gram代码段模型提取源代码特征;基于训练源代码文件样本训练深度信念网络模型;利用经过训练的深度信念网络模型进行源代码文件的作者识别,输出源代码文件的作者识别结果。本发明将源代码作者识别问题转换为分类问题,通过深度信念网络识别源代码的作者身份,提高了作者身份识别的性能和效率,在信息检索、信息安全、计算机取证等领域具有广阔的应用前景。
-
公开(公告)号:CN111931506A
公开(公告)日:2020-11-13
申请号:CN202010823187.0
申请日:2020-08-17
Applicant: 北京理工大学
IPC: G06F40/295 , G06F40/211
Abstract: 本发明公开了一种基于图信息增强的实体关系抽取方法,属于信息抽取和大数据挖掘技术领域。本发明包括如下步骤:1)训练集文本数据处理;2)将训练集中的实体关系三元组集合转换为关系图;3)构建训练集中句子的初始向量表示;4)基于图神经网络模型生成图中节点即实体的向量表示;5)构建训练集中句子的向量表示,由句子初始向量和实体向量融合生成句子向量,训练全连接网络;6)依据前述1)到5)抽取测试集中实体的关系。本发明通过预训练模型和图神经网络模型生成句子向量,引入句子分类损失的权重训练方法,提高了实体关系抽取的性能,在信息检索、文本分类、问答系统等领域具有广阔的应用前景。
-
公开(公告)号:CN108108184A
公开(公告)日:2018-06-01
申请号:CN201711380042.2
申请日:2017-12-20
Applicant: 北京理工大学
Abstract: 本发明公开了一种基于深度信念网络的源代码作者识别方法,属于Web挖掘和信息抽取领域。本发明包括如下步骤:构建源代码数据集,对源代码数据进行预处理;基于连续n‑gram代码段模型提取源代码特征;基于训练源代码文件样本训练深度信念网络模型;利用经过训练的深度信念网络模型进行源代码文件的作者识别,输出源代码文件的作者识别结果。本发明将源代码作者识别问题转换为分类问题,通过深度信念网络识别源代码的作者身份,提高了作者身份识别的性能和效率,在信息检索、信息安全、计算机取证等领域具有广阔的应用前景。
-
公开(公告)号:CN103986693B
公开(公告)日:2017-02-15
申请号:CN201410161681.X
申请日:2014-04-22
Abstract: 本发明涉及一种特征信息与密钥绑定方法,包括绑定过程和解绑定过程。绑定过程:对特征信息点进行预处理,排除无效的特征信息点,只利用有效的特征信息点生成信息点密钥;利用秘密共享方案,把密钥分成多个共享子密钥及其参数;利用信息点密钥依次加密子密钥及其参数,生成密钥密文数据,即特征信息模板。解绑定过程:利用特征信息点生成特征密钥;根据特征信息模板的相关信息,利用特征密钥解密出相关共享子密钥及其参数;根据所有的共享子密钥及其参数,利用插值公式,恢复出原密钥。与已有方法相比,本发明方法具有算法效率高,安全可靠的特点;并且当在绑定过程中特征信息的特征信息点次序和解绑定过程的不一致时,本发明方法同样有效。
-
公开(公告)号:CN103646097B
公开(公告)日:2016-09-07
申请号:CN201310701519.8
申请日:2013-12-18
Applicant: 北京理工大学
IPC: G06F17/30
Abstract: 本发明属于Web评论文本的意见挖掘技术领域,涉及一种基于约束关系的意见目标和情感词联合聚类方法。该方法通过引入意见目标之间的正向和反向约束关系,提供了意见目标之间属于相同特征类或者不同特征类的先验关系,从而在对意见目标集合进行基于特征的聚类过程中,提高意见目标聚类结果的准确率。通过引入情感词之间的正向和反向约束关系,提供了情感词之间关联于相同特征类或者不同特征类的先验关系,从而在对情感词集合按照与评价特征类的关联关系进行聚类的过程中,提高情感词聚类结果的准确率。与传统无约束的意见目标和情感词聚类方法相比,本发明所述方法应归属为有约束的方法。并且在聚类的效果中,准确率提高8.3%,召回率提高7.7%。
-
公开(公告)号:CN104268215A
公开(公告)日:2015-01-07
申请号:CN201410495157.6
申请日:2014-09-25
Applicant: 北京理工大学
IPC: G06F17/30
CPC classification number: G06F17/30554
Abstract: 本发明涉及一种关联数据查询结果排序方法,属于计算机领域。具体操作步骤为:①给出概念重要性、关系重要性和公理重要性的计算模型;②得到给定本体中概念重要性、关系重要性和公理重要性的度量结果;③得到资源的重要性的度量结果;④根据用户查询需求,通过查询语句在给定关联数据源中得到查询结果;⑤得到查询结果的重要性进行度量;⑥将查询结果按照重要性大小进行排序。与现有技术相比,本发明的有益效果是使关联数据查询结果排序效果更符合人类认知,能够优先输出更为重要的查询结果,而且计算速度快。
-
公开(公告)号:CN116976350A
公开(公告)日:2023-10-31
申请号:CN202310974581.8
申请日:2023-08-03
Applicant: 北京理工大学
IPC: G06F40/295 , G06F16/35 , G06N3/045 , G06N3/096
Abstract: 本发明涉及一种基于边界和互信息增强的小样本医学实体识别方法,属于信息抽取和人工智能技术领域。本方法针对小样本医学实体识别任务中的实体语段识别错误,引入可训练的实体边界特征矩阵对实体语段识别进行增强,将预训练语言模型生成的语段表示和实体边界特征矩阵中的特征向量进行相似度匹配以增强实体语段检测;显式地增加实体和上下文的互信息,提高文本表示的泛化性,充分利用文本中实体和上下文的关联关系。本发明有效解决了小样本医学实体识别任务中的边界识别错误、实体和上下文关联关系利用不足等问题,提高了小样本医学实体识别模型的知识迁移能力,从而提高小样本医学实体识别准确度。
-
-
-
-
-
-
-
-
-