-
公开(公告)号:CN113836408A
公开(公告)日:2021-12-24
申请号:CN202111074829.2
申请日:2021-09-14
Applicant: 北京理工大学
IPC: G06F16/9535 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于网页正文内容的问题式查询推荐方法,属于计算机网络信息检索查询推荐技术领域。所述基于网页正文内容的问题式查询推荐方法依托的查询推荐系统包括问题式查询生成模块和问题式查询推荐模块,包括以下步骤:S1,生成问题式查询,具体为:以网页正文文本段和关键字作为输入,使用神经网络模型生成一个基于网页正文文本段与关键字相关的问题式查询,重复该过程,得到N个问题式查询。S2,以问题式查询之间的相似度作为衡量标准筛选由S1得到的N个问题式查询,作为查询推荐的最终结果。所述方法在摆脱了对用户检索日志的依赖的同时,能更好的帮助用户表达信息需求。
-
公开(公告)号:CN113657095A
公开(公告)日:2021-11-16
申请号:CN202110966806.6
申请日:2021-08-23
Applicant: 北京理工大学
IPC: G06F40/211 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及自然语言处理和深度学习技术领域,特别涉及一种关系抽取系统,包括接收模块、词向量序列生成模块和关系抽取模型,其中,接收模块,用于接收句包和目标实体对(eh,et);词向量序列生成模块,用于对句包中每个句子的词语进行位置和符号的结合嵌入,将句子转化为词向量序列;关系抽取模型,用于预测句包中所包含的关系集合。本发明提供的关系抽取系统能够有效地捕捉关系模式的信息,生成模式捕捉矩阵,使GPT模型能够有捕捉局部依赖的能力,进而提升关系抽取的效率和准确率。
-
公开(公告)号:CN110210988B
公开(公告)日:2021-04-27
申请号:CN201910468680.2
申请日:2019-05-31
Applicant: 北京理工大学 , 中电科大数据研究院有限公司
IPC: G06Q50/00
Abstract: 本发明提出了一种基于深度哈希的符号社交网络嵌入方法,属于网络社交媒体技术领域。本方法利用三元组,同时保存网络中的正边和负边信息,并设计了端到端的深度哈希模型对三元组数据进行训练,最终得到标记社交网络中每个节点在汉明空间中的哈希码表示。通过对应哈希码在链接预测任务中的AUC值,评价网络嵌入方法的好坏。本发明方法对比现有技术,首次将深度哈希应用于网络嵌入任务当中,可以同时考虑标记网络中正边和负边信息,在两个真实标记社交网络中进行连接预测任务,显著提高了标记社交网络分析任务的效果。
-
公开(公告)号:CN110647629A
公开(公告)日:2020-01-03
申请号:CN201910893027.0
申请日:2019-09-20
Applicant: 北京理工大学
Abstract: 本发明公开了一种多粒度答案排序的多文档机器阅读理解方法,属于机器阅读理解应用技术领域。本方法基于预训练的深度学习模型,通过滑动窗口拆分文档为文本片段与问题拼接,通过融合统计信息、浅层语义信息、深层语义信息和答案结尾词信息的多粒度答案排序来对多个文档生成的多个候选答案进行排序,充分利用不同粒度的语义信息来捕捉问题与多个候选答案的相关性。所述方法利用基于预训练的深度学习模型提高了传统机器阅读理解模型的文本表示能力和泛化能力,同时解决了现有模型对于多文档场景的输入长度受限的缺点,同时从不同粒度建模问题和答案的相关性,提升多文档机器阅读理解的答案质量。
-
公开(公告)号:CN105931621B
公开(公告)日:2019-08-20
申请号:CN201610244257.0
申请日:2016-04-19
Applicant: 北京理工大学
Abstract: 一种由MIDI到盲文乐谱的翻译方法及系统包括一种由MIDI到盲文乐谱的翻译方法(简称“方法”)和一种由MIDI到盲文乐谱的翻译系统(简称“系统”)。系统的音轨选择模块与MIDI解析模块、五线谱绘制模块以及盲文转换模块相连,MIDI解析模块与五线谱绘制模块相连,五线谱绘制模块与盲文转换模块相连;方法包括1)将MIDI格式数据文件转换成格式化的乐谱数据;2)根据1)乐谱数据绘制五线谱;3)绘制五线谱并生成盲文乐谱。本发明基于MIDI文件获取乐谱数据,根据乐谱同时生成五线谱和盲文乐谱并对照展示;还能够实现根据MIDI数据自动识别调号、识别双附点音符时值、根据强度信息识别弱起小节以及根据速度输出曲风。
-
公开(公告)号:CN110096715A
公开(公告)日:2019-08-06
申请号:CN201910382004.3
申请日:2019-05-06
Applicant: 北京理工大学
IPC: G06F17/28
Abstract: 本发明公开了一种融合发音特征汉语-越南语统计机器翻译方法,属于机器翻译及特征融合应用技术领域。本方法通过汉语-越南语平行语料,利用统计得到的汉语拼音声母与越南语的元音、韵母与辅音以及声调之间的相关性,将基于纯汉字的汉语语料转换为汉字辅以拼音-声母-韵母-声调的格式,将基于纯音节的越南语语料转换成音节辅以元音-辅音-声调的格式;再将新格式语料输入机器翻译模型中进行训练,充分利用汉越双语独特的语言规律信息。所述方法降低了稀缺资源统计机器翻译对大规模语料的依赖,解决了传统基于短语的统计机器翻译不能融合发音特征的缺点,提升资源稀缺型语言间的机器翻译性能。
-
公开(公告)号:CN105488098B
公开(公告)日:2019-02-05
申请号:CN201510711219.7
申请日:2015-10-28
Applicant: 北京理工大学
IPC: G06F16/953 , G06F17/27
Abstract: 本发明涉及一种基于领域差异性的新词提取的方法,属于自然语言处理应用技术领域。本发明首先通过比较不同领域间字分布的差异性,获得差异字种子,然后通过n‑gram方式拓展差异字种子,构建候选词集,接下来根据领域差异大小去除候选词集合中的重复词,最后对候选词集合中每一个词,分别以领域差异值、凝合度,以及成词率作为衡量标准,剔除领域差异较低的候选词得到新词。对比现有技术,本发明通过利用不同语料领域间差异信息,选取种子字,并通过n‑gram拓展获得候选词集合;然后再次利用词本身以及领域间差异信息,自动地选择候选词中的新词,从而明显提高了新词发现的数目和准确度。
-
公开(公告)号:CN105630768B
公开(公告)日:2018-10-12
申请号:CN201510974820.5
申请日:2015-12-23
Applicant: 北京理工大学
IPC: G06F17/27
Abstract: 本发明涉及一种基于层叠条件随机场的上下文相关产品名识别方法及装置,属于互联网数据处理与分析技术领域,本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,通过词向量结合词聚类的方法融合全局上下文信息;同时针对产品名结构复杂存在嵌套的问题,采用层叠条件随机场模型进行产品名的识别。对比现有技术,本发明有效的解决了产品名识别中上下文信息不足,产品名存在嵌套结构复杂等问题,提高了复杂结构的产品名识别的性能,并且本发明产品名识别的准确率和F1值高于传统方法。
-
公开(公告)号:CN108563637A
公开(公告)日:2018-09-21
申请号:CN201810328826.9
申请日:2018-04-13
Applicant: 北京理工大学
IPC: G06F17/27
Abstract: 一种融合三元组知识库的句子实体补全方法,属于计算机自然语言处理领域。具体操作步骤包含:①构建供模型训练使用的数据集;②将实体、关系、句子模板用向量进行表示;③补全句子中的实体词。本发明提出的融合三元组知识库的句子实体补全方法与已有技术相比较,在针对句子中实体词进行补全时能够考虑待补充实体词与句子中其他实体词之间的关系,有效解决了常规句子补全方法中难以对实体词进行补全的问题。实验表明,本发明提出的方法在采用平均排序(MR)和前10命中率(H@10)的评测指标上有显著提升。
-
公开(公告)号:CN108038110A
公开(公告)日:2018-05-15
申请号:CN201711202799.2
申请日:2017-11-27
Applicant: 北京理工大学
Abstract: 一种基于训练集相似度的统计机器翻译参数自动选择方法,属于机器翻译技术领域。本发明针对基于对数线性模型的统计机器翻译系统提出了一种基于训练集相似度的统计机器翻译特征函数参数选择方法,使计算机可以自动地为不同的测试集数据选择相适应的特征函数参数;本方法主要包含:特征函数参数池构建阶段和测试集数据参数分配两个阶段;阶段一通过对开发集中不同类别的子集进行参数调优训练,得到多组特征函数参数集合,即特征函数参数池,为测试集数据参数分配所用,阶段二根据测试集数据的训练集相似度,从特征函数参数池中选择一组相适应的参数集合;实验结果表明,本发明与不使用参数选择的统计机器翻译方法相比,BLEU测评指标明显提升。
-
-
-
-
-
-
-
-
-