-
公开(公告)号:CN101620616A
公开(公告)日:2010-01-06
申请号:CN200910083711.9
申请日:2009-05-07
Applicant: 北京理工大学
IPC: G06F17/30
Abstract: 本发明为解决内容近似中文网页的自动检测问题,公开了一种基于小世界特性的中文近似网页去重方法。该方法兼顾考虑网页的语法和语义信息,首先根据提取出的网页有效信息构建文本词汇共现图。然后,基于文本的小世界特性提取出文档特征向量,包括关键词的位置信息与关键词条。最后,充分利用检索系统和分类信息,构建出文档关键词倒排索引文件,根据倒排索引文件完成文档特征向量检索匹配,从而进行近似网页检测和排查。本发明方法能够有效减少噪声信息对算法准确性的不良影响,不仅考虑了网页文本的内容、结构信息,同时充分利用检索和分类系统的优势,获得了去重准确率>90%,平均召回率>80%的良好效果,尤其适用于大规模网页去重。
-
公开(公告)号:CN116049349B
公开(公告)日:2024-09-20
申请号:CN202211452106.6
申请日:2022-11-21
Applicant: 北京理工大学
IPC: G06F16/33 , G06F16/332 , G06F40/216 , G06F40/211 , G06F40/30 , G06N3/0442
Abstract: 本发明涉及一种基于多层次注意力和层次类别特征的小样本意图识别方法,属于自然语言处理和问答系统技术领域。第一,引入词级、短语级、语义角色级别的三层注意力机制,从词频、反文档频率、类内分布均匀度、类间分布均匀度共四个角度融合层次类别特征,计算混合特征因子,充分挖掘不同层次、不同粒度、不同角度的文本特征,能够有效提升小样本意图识别的准确率。第二,不同于对样本表示取均值生成类别表示的方法,本发明基于胶囊网络中动态路由的思想,学习样本表示和类别表示之间的非线性映射关系,提高从样本中归纳学习类别表示的能力。
-
公开(公告)号:CN116842184A
公开(公告)日:2023-10-03
申请号:CN202211452095.1
申请日:2022-11-21
Applicant: 北京理工大学 , 中国医学科学院医学信息研究所
Abstract: 本发明涉及一种基于标签和内容分层融合的医学领域知识融合方法,属于知识融合和人工智能技术领域。对不同知识图谱的医学知识进行融合,构建医学领域知识库,提供规模化医学行业知识服务。该方法包含定义医学知识图谱中实体的元标签、数据标签对齐,以及标签内容融合三个步骤。该方法的特点是,其一,在数据标签对齐中,设计了一种基于字符串度量和语义度量集成的数据标签对齐方法,利用字符串特征和语义特征进行数据标签对齐。其二,在标签内容融合中,提出内容聚合校验与非结构化知识生成的联合机制,旨在提取不同知识图谱中不同粒度的共同知识、校验相悖知识,并将共同三元组知识重新转换为非结构化语句,构建医学知识库。
-
公开(公告)号:CN116244497A
公开(公告)日:2023-06-09
申请号:CN202211566343.5
申请日:2022-12-07
Applicant: 北京理工大学
IPC: G06F16/9535 , G06F16/9538 , G06F16/36 , G06F16/31 , G06F16/33 , G06F16/338 , G06F16/25 , G06N3/0499
Abstract: 本发明涉及一种基于异质数据嵌入的跨域论文推荐方法,属于大数据挖掘应用与信息处理技术领域。首先为数据集划分领域,为各学科构建有向无环图,使用潜在狄利克雷分布模型提取领域语义,通过最大信息系数学习跨域关联。然后通过异质数据嵌入,将论文和用户分别表示成向量的形式,通过论文之间的引用和未引用关系训练跨域论文之间的映射关系。如果用户提供关键词检索,则依据关键词划分用户领域,用户的兴趣列表便是引用文献。最后利用跨域论文推荐模型,为用户推荐论文。本发明能够自动评估论文的跨域相关性,有效地克服了传统方法仅根据论文内容相似性作为推荐依据的技术缺陷,大幅提升了推荐精度和效率。
-
公开(公告)号:CN116226396A
公开(公告)日:2023-06-06
申请号:CN202310030909.0
申请日:2023-01-10
Applicant: 北京理工大学 , 北京大学人民医院 , 中国医学科学院医学信息研究所
Abstract: 本发明提出了基于逻辑规则与关系多元编码的时序知识图谱推理方法,属于知识图谱构建和自然语言处理领域。本发明引入基于关系类型的时序规则扩充机制,即基于对称关系、互逆关系、等价关系以及从属关系的对时序规则集进行扩充。提取时序规则中关系的逻辑信息的关系规则特征,将关系的静态特征与关系的规则特征相融合获得关系的多元特征;融合基于逻辑规则的时序知识图谱推理模型与基于关系多元编码的时序知识图谱推理模型。本方法有助于解决关系信息获取片面和模型可解释性弱的问题,提高了时序知识图谱推理的性能,具有广阔的应用前景。
-
公开(公告)号:CN116089580A
公开(公告)日:2023-05-09
申请号:CN202211664226.2
申请日:2022-12-23
Applicant: 北京理工大学
IPC: G06F16/332 , G06F16/35 , G06F16/33 , G06F18/213 , G06F40/30 , G06N20/00
Abstract: 本发明提出了基于特征重构和抽象类转移概率的小样本槽位填充方法,属于计算机自然语言处理技术领域。本方法构建特征重构网络,利用映射矩阵将样本表示映射到新的表示空间中,从而增加样本表示的区分度。同时,本方法引入槽位标签的语义特征向量,以增强槽位标签类别表示。本发明提出了抽象类转移概率和具体类转移概率,在训练集中学习抽象类槽位标签之间的转移概率,对于测试集中新的槽位标签域,将抽象类槽位标签的转移概率具体化,获得具体类槽位标签之间的转移概率,从而捕获跨槽位标签域的槽位标签依赖关系,解决因槽位标签域不同导致的槽位标签依赖关系难以跨标签域建模的问题,提高小样本槽位填充的性能。本方法具有广阔的应用前景。
-
公开(公告)号:CN111931506B
公开(公告)日:2023-01-10
申请号:CN202010823187.0
申请日:2020-08-17
Applicant: 北京理工大学
IPC: G06F40/295 , G06F40/211
Abstract: 本发明公开了一种基于图信息增强的实体关系抽取方法,属于信息抽取和大数据挖掘技术领域。本发明包括如下步骤:1)训练集文本数据处理;2)将训练集中的实体关系三元组集合转换为关系图;3)构建训练集中句子的初始向量表示;4)基于图神经网络模型生成图中节点即实体的向量表示;5)构建训练集中句子的向量表示,由句子初始向量和实体向量融合生成句子向量,训练全连接网络;6)依据前述1)到5)抽取测试集中实体的关系。本发明通过预训练模型和图神经网络模型生成句子向量,引入句子分类损失的权重训练方法,提高了实体关系抽取的性能,在信息检索、文本分类、问答系统等领域具有广阔的应用前景。
-
公开(公告)号:CN108108354B
公开(公告)日:2021-04-06
申请号:CN201711380014.0
申请日:2017-12-20
Applicant: 北京理工大学
IPC: G06F40/253 , G06F16/9535 , G06N3/08 , G06Q50/00
Abstract: 本发明涉及一种基于深度学习的微博用户性别预测方法,属于Web挖掘和智能信息处理领域。该预测方法包括:微博信息采集;微博文本预处理;构建微博文本词语的词向量;采用一种基于卷积神经网络的微博文本表示方法来构建微博文本句子的特征向量;采用一种基于长短期记忆网络模型的方法进行微博用户的性别预测或分类。基于卷积神经网络的微博文本表示方法不需要人工构建微博文本特征,能够实现对微博文本的语义建模。基于长短期记忆网络的微博用户性别预测方法能够提取微博文本中的语义序列依赖关系特征。本发明的微博用户性别预测方法准确地提取了微博文本特征,提高了微博用户性别的识别性能,在信息推荐、产品营销领域具有广阔的应用前景。
-
公开(公告)号:CN107590558B
公开(公告)日:2020-12-08
申请号:CN201710783927.0
申请日:2017-09-04
Applicant: 北京理工大学
Abstract: 本发明一种基于多层集成学习的微博转发预测方法,属于社会网络分析和网络舆情监控领域。包括如下步骤:构建微博数据集;微博数据预处理;提取微博用户的个人特征和社交特征;提取微博用户的微博内容特征;采用基于贝叶斯的方法进行微博转发预测;采用基于支持向量机的方法进行微博转发预测;采用基于逻辑回归的方法进行微博转发预测;采用基于随机森林的方法进行微博转发预测;采用基于集成学习的方法进行微博转发预测。本发明提高了微博转发预测性能,在社会媒体处理、意见挖掘、信息安全等领域具有广阔的应用前景。
-
公开(公告)号:CN108595582B
公开(公告)日:2020-11-10
申请号:CN201810345881.9
申请日:2018-04-17
Applicant: 北京理工大学
IPC: G06F16/9535 , G06F16/35 , G06F40/289 , G06F40/30
Abstract: 本发明的目的是提出一种基于聚类特征模型的灾害性气象热点事件识别方法。具体步骤为:步骤一、构建灾害性气象关键词典。步骤二、对社会信号数据库中的数据进行预处理和特征提取。步骤三、发现与识别灾害性气象事件。本发明提出的基于聚类特征模型的灾害性气象热点事件识别方法与已有技术相比较,其优点在于:①在当前没有公认的气象相关关键词词典的环境下构建面向实际环境的关键词词典。②通过针对互联网中社会信号的处理,从“公众最关心”的角度发现识别气象事件,实现了基于社会的公众热点和基于自然的气象观测与预报之间的统一。③针对气象领域的特征进行了提取和聚类,从而相较于传统的通用事件发现方法提高了事件识别的准确率。
-
-
-
-
-
-
-
-
-