-
公开(公告)号:CN112836007A
公开(公告)日:2021-05-25
申请号:CN202110094919.1
申请日:2021-01-25
Applicant: 北京理工大学
Abstract: 本发明公开了一种基于语境化注意力网络的关系元学习方法,属于知识图谱补全及元学习框架应用技术领域。本方法首先根据知识图谱中的实体和关系在不同的语境中有不同的含义这一特点,通过Transformer编码器得到实体对的语境化嵌入,然后通过注意力网络得到不同实体对的注意力权重,加权求和得到关系元嵌入,最后将关系元嵌入输入到元学习框架中进行训练。本方法降低了知识图谱补全对大规模数据集的依赖,考虑了不同实体对的语境和不平等属性的特点,提升了少样本知识图谱补全方法的性能。
-
公开(公告)号:CN108984526B
公开(公告)日:2021-05-07
申请号:CN201810748564.1
申请日:2018-07-10
Applicant: 北京理工大学
IPC: G06F40/30 , G06F40/258 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于深度学习的文档主题向量抽取方法,属于自然语言处理技术领域。本发明方法利用卷积神经网络抽取出具有局部的深层的语义信息,利用LSTM模型将时序信息学习出来,使得向量的语义更加全面,选用上下文短语和文档主题的隐含的共现关系,避免了一些基于句子的主题向量模型对于短文本的缺点,利用注意力机制将CNN和LSTM模型有机的结合起来,学习了上下文的深层语义、时序信息和显著信息,更有效的构建了档主题向量抽取的模型。
-
公开(公告)号:CN112685538A
公开(公告)日:2021-04-20
申请号:CN202011612232.4
申请日:2020-12-30
Applicant: 北京理工大学
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/211 , G06F40/30 , G06F40/289
Abstract: 本发明涉及一种结合外部知识的文本向量检索方法,属于开放域文档检索应用技术领域。本方法旨在文本向量空间模型的框架中,引入语言本身的句法结构和词性信息来获得问题的子条件结构,将问题表示成若干个子条件,同时通过BM25算法召回文档来计算问题每个子条件的重要程度,为问题最终的表示提供额外的训练标签。本方法通过提取的子条件以及BM25算法引入的相应的权重分数来优化现有表示方法,最终达到提升文本向量方法检索性能的目的。本方法可以利用基于预训练的深度学习模型获得更好的表示能力和泛化能力,能够更好的建模问题和文档的语义信息,提升了开放域检索的检索质量。
-
公开(公告)号:CN112528003A
公开(公告)日:2021-03-19
申请号:CN202011548750.4
申请日:2020-12-24
Applicant: 北京理工大学
IPC: G06F16/332 , G06F16/33 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种基于语义排序和知识修正的多项选择问答方法,属于计算机自然语言处理技术领域。本发明从外部语料库中检索与问题相关的知识,辅助模型进行理解和推理,通过知识修正和语义排序的技术,进一步提升检索获得的知识的质量和精度,从而引导系统进行正确的推理。在相同的数据集下,本发明与传统技术相比,在准确率评测指标上有显著提升。
-
公开(公告)号:CN111401053A
公开(公告)日:2020-07-10
申请号:CN202010178856.3
申请日:2020-03-15
Applicant: 北京理工大学
IPC: G06F40/284 , G06F40/216 , G06F40/30 , G06F16/35
Abstract: 本发明涉及一种基于词组的概念化主题建模方法,属于自然语言处理中的文本挖掘领域。包括1)挖掘文本语料中的词组;2)从概念知识库获取概念和实体关系;3)设置主题数、Dirichlet分布先验参数及最大迭代次数N;4)随机为每篇文档的每个词组中的词分配概念;5)随机地为每个词组的概念分配相同的主题;6)通过Gibbs采样方法迭代N次,更新概念和主题分配;7)计算文档-主题分布θ和主题-概念分布φ的估计值;8)得出每篇文档中不同主题的占比;9)得出每个主题中不同概念的占比,并结合概念知识库对挖掘出的主题进行解释。所述方法使主题模型在挖掘文本语料主题的过程中,深入理解文本的含义,增强了主题挖掘的语义完整性。
-
公开(公告)号:CN111061935A
公开(公告)日:2020-04-24
申请号:CN201911292337.3
申请日:2019-12-16
Applicant: 北京理工大学
IPC: G06F16/951 , G06F16/9035 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于自注意力机制的科技写作推荐方法,属于计算机自然语言处理以及社交媒体技术领域。所述科技写作推荐方法,首先利用已有的段落写作内容,挖掘作者写作主题与意图,并以此初步筛选候选段落;其次设计了基于自注意力机制的深度科技写作推荐模型,用于获取上下文语境的深度语义表示,以对候选段落进行排序;通过将预测排序结果与真实排序结果进行比较,获取召回率和归一化折损累积增益,以评价写作推荐方法的好坏。所述方法与传统的基于内容的引文推荐方法相比,在一个真实的科技论文写作推荐中进行推荐预测,取得最高的召回率和归一化折损累积增益。
-
公开(公告)号:CN110210988A
公开(公告)日:2019-09-06
申请号:CN201910468680.2
申请日:2019-05-31
Applicant: 北京理工大学 , 中电科大数据研究院有限公司
IPC: G06Q50/00
Abstract: 本发明提出了一种基于深度哈希的符号社交网络嵌入方法,属于网络社交媒体技术领域。本方法利用三元组,同时保存网络中的正边和负边信息,并设计了端到端的深度哈希模型对三元组数据进行训练,最终得到标记社交网络中每个节点在汉明空间中的哈希码表示。通过对应哈希码在链接预测任务中的AUC值,评价网络嵌入方法的好坏。本发明方法对比现有技术,首次将深度哈希应用于网络嵌入任务当中,可以同时考虑标记网络中正边和负边信息,在两个真实标记社交网络中进行连接预测任务,显著提高了标记社交网络分析任务的效果。
-
公开(公告)号:CN110196918A
公开(公告)日:2019-09-03
申请号:CN201910449029.0
申请日:2019-05-28
Applicant: 北京理工大学 , 中电科大数据研究院有限公司
IPC: G06F16/583
Abstract: 本发明涉及一种基于目标检测的无监督深度哈希方法,属于计算机信息检索技术以及图片检索技术领域。利用目标检测获得图片中存在的物体标签,并将这些标签作为图片的伪标签,基于伪标签训练设计好的端到端深度哈希模型,得到每张图片在汉明空间中的哈希码表示;再通过对应哈希码在图片检索任务中的平均准确率均值来评价深度哈希模型的好坏;其中,平均准确率均值即MAP;所依托的无监督深度哈希模型包括目标检测算法单元以及哈希网络单元。所述方法能获得更有指导性的信息;能充分利用深度模型的能力来学习高质量的保持相似度的哈希码;在真实图片数据集中进行图片检索取得了最好的效果,即MAP值最高。
-
公开(公告)号:CN108664598B
公开(公告)日:2019-04-02
申请号:CN201810435232.8
申请日:2018-05-09
Applicant: 北京理工大学
IPC: G06F16/332 , G06F16/35 , G06F17/27 , G06K9/62
Abstract: 本文公开了一种具有综合优势的基于整数线性规划的抽取式文摘方法,属于自然语言处理领域。本文方法首先将抽取式文摘分成文档内容学习和文摘句抽取,对于文档内容学习分成相似性、显著性和连贯性三部分;对于文摘句抽取综合考虑文档的内容学习和冗余性,利用整数线性规划框架对文摘句进行抽取。本方法能够通过语料自动学习句子的语义表示,利用简单的数学计算方法就可以计算句子之间的相似度,对于抽取式文摘任务中的显著性、相似性、连贯性和冗余性进行深入的挖掘从而构建了高质量的文摘系统。
-
公开(公告)号:CN108416058A
公开(公告)日:2018-08-17
申请号:CN201810237590.8
申请日:2018-03-22
Applicant: 北京理工大学
Abstract: 本发明提出了一种基于Bi-LSTM输入信息增强的关系抽取方法,属于计算机人工智能自然语言处理领域。通过应用不确定标签的策略标注数据集,应用冗余编码技术对每个单词进行字符级编码产生词形编码向量。词形编码向量与词嵌入向量拼接生成词向量用于捕捉词形与词义信息。通过应用输入信息增强的Bi-LSTM作为模型编码层,将词向量输入编码层,输出编码向量。将编码向量输入解码层,得到解码向量。应用三个分层次的NN,从解码向量分别提取出实体标签、关系类型、实体编号信息。最后,计算梯度、更新权重,通过最大化目标函数训练模型。本发明方法提高了系统的鲁棒性,减少了非实体单词带来的干扰信息,有效提高了关系抽取的准确率和召回率。
-
-
-
-
-
-
-
-
-