-
公开(公告)号:CN114330377A
公开(公告)日:2022-04-12
申请号:CN202111485172.9
申请日:2021-12-07
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于特征衰减筛选的神经机器翻译方法,属于自然语言处理机器神经翻译领域。本方法针对源语言到目标语言的翻译任务,首先使用平行数据训练一个目标语言到源语言的反向翻译模型,然后使用该翻译模型对目标语言单语数据集进行反向翻译,得到初步的伪平行数据集。根据平行数据集的源语言文本创建句子特征集合,并为每个句子特征赋初始分数,按照特征衰减算法对伪数据集进行迭代选择,得到筛选后的伪数据集。将筛选后的伪数据集与平行数据集合并构建合成数据集,最后使用合成数据集训练源语言到目标语言的神经机器翻译模型。本方法避免了质量较差的伪数据对模型训练的不良影响,有效提高了模型的翻译效果。
-
公开(公告)号:CN114328863A
公开(公告)日:2022-04-12
申请号:CN202111512377.1
申请日:2021-12-08
Applicant: 北京理工大学
IPC: G06F16/332 , G06F16/38 , G06F40/30
Abstract: 本发明涉及一种基于高斯核函数的长文本检索方法及系统,属于信息检索技术领域。本方法利用预训练语言模型的语义建模能力计算长文本各段落与用户检索内容的语义相似度,作为用户点击相关性的伪标签,有效缓解了缺乏段落级别标注数据的问题。通过不同的高斯核函数,将伪标签映射为不同维度的相关性得分。利用线性层聚合长文本各段落得分来输出用户检索内容对于长文本整体的相关性得分,能够让不同语义相似度等级的段落为用户点击相关与否做出贡献,增强了语义相似度与用户点击相关性的关联程度,提升了长文本检索模型的准确率。
-
公开(公告)号:CN110472948B
公开(公告)日:2022-02-08
申请号:CN201910859135.6
申请日:2019-09-11
Applicant: 北京理工大学
Abstract: 一种基于微信公众平台的汉蒙语料库众包构建方法,属于语料资源构建领域。具体操作步骤包含:1)获取多体裁开放域原始语料;2)通过蒙古语水平测试问卷,对参与翻译任务的用户进行筛选过滤;3)用订阅号推送的方式给关注微信公众号的用户发送众包翻译任务;4)每个微信客户端将一个或多个源句翻译成蒙古语以语音形式反馈给后台;5)通过后台管理员审核与众包质量评估相结合的方式评估所述语料质量,实现语料的质量控制;所述基于微信公众平台的汉蒙语料库众包构建方法在线上完成语料收集,交互简单、用户体验好、用户参与度高、有效解决了在真实蒙语语言环境下收集开放域自然口语语料的问题,在互联网移动平台下展现了极高的实用前景。
-
公开(公告)号:CN110647629B
公开(公告)日:2021-11-02
申请号:CN201910893027.0
申请日:2019-09-20
Applicant: 北京理工大学
Abstract: 本发明公开了一种多粒度答案排序的多文档机器阅读理解方法,属于机器阅读理解应用技术领域。本方法基于预训练的深度学习模型,通过滑动窗口拆分文档为文本片段与问题拼接,通过融合统计信息、浅层语义信息、深层语义信息和答案结尾词信息的多粒度答案排序来对多个文档生成的多个候选答案进行排序,充分利用不同粒度的语义信息来捕捉问题与多个候选答案的相关性。所述方法利用基于预训练的深度学习模型提高了传统机器阅读理解模型的文本表示能力和泛化能力,同时解决了现有模型对于多文档场景的输入长度受限的缺点,同时从不同粒度建模问题和答案的相关性,提升多文档机器阅读理解的答案质量。
-
公开(公告)号:CN113435190A
公开(公告)日:2021-09-24
申请号:CN202110538855.X
申请日:2021-05-18
Applicant: 北京理工大学
IPC: G06F40/279 , G06F16/28 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种融合多层次信息抽取和降噪的篇章关系抽取方法,属于计算机自然语言处理技术领域。包括:1、使用BERT作为编码器,将篇章信息进行向量化表示,并抽取其中的提及、实体、句子和篇章的隐含层向量信息;2、提出融合多层次的信息的方法解决多实例多标签的问题,多层次信息包括:提及层次的信息。实体层次的信息、句子层次的信息和篇章层次的信息;3、提出使用提及的位置信息粗略的抽取证明句子,然后使用降噪的方法来捕获重要的证明句子的关系特征。所述方法在针对篇章中实体对进行关系抽取时,能够考虑并解决篇章中多实例多标签以及证明句子难以识别等问题。实验表明所述方法在F1的测评指标上有显著的提升。
-
公开(公告)号:CN113342953A
公开(公告)日:2021-09-03
申请号:CN202110675321.1
申请日:2021-06-18
Applicant: 北京理工大学东南信息技术研究院 , 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06F40/289 , G06Q50/26
Abstract: 本发明适用于智能问答领域,提供了一种基于多模型集成的政务问答方法。本发明将实际政务问答的复杂场景分解为多个部分,集成多种特定用途的在不同数据集上微调的预训练语言模型,分别进行FAQ问答对匹配、阅读理解以及层级检索以获取答案和可解释性证据,之后使用无监督答案验证方法对得到的答案和可解释性证据进一步验证,从而充分利用不同模型进行答案信息互补,提高政务问答的质量。采取的阅读理解模型经过无监督检索后能够快速推理并且层级检索方法非常高效,从而保证政务问答的实时性要求。多模型集成的使用能够进一步提高问答准确率,同时提供答案对应的可解释性证据。此外,无监督方法的特性使得该发明能够轻易移植到其他实际问答场景中。
-
公开(公告)号:CN113157859A
公开(公告)日:2021-07-23
申请号:CN202110367116.9
申请日:2021-04-06
Applicant: 北京理工大学
IPC: G06F16/33 , G06F16/35 , G06F40/211 , G06F40/216 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于上位概念信息的事件检测方法,包括S1、输入的语句S,通过第一模型构建所述语句的上位概念信息向量表示Zs;S2、将所述语句S和所述向量表示Zs输入第二模型,获取所述语句的事件触发词和的事件类别。本发明充分考虑了现实中单个触发词可能触发多种不同事件类型的情况,利用不同事件类别之间存在的层次关联关系,并将这种关联关系当作额外的监督信息融入事件检测过程,为触发词的识别以及分类提供了辅助的决策,且不会引入额外的噪声信息,同时能够有效提升事件检测的效果。
-
公开(公告)号:CN113011160A
公开(公告)日:2021-06-22
申请号:CN201911319728.X
申请日:2019-12-19
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司 , 北京理工大学
IPC: G06F40/211 , G06F40/216 , G06F40/279 , G06K9/62
Abstract: 本发明公开了一种文本摘要生成方法、装置、设备及存储介质。其中,该方法包括:获取需要生成文本摘要的目标文档;基于混合式文本摘要识别模型对所述目标文档进行识别,得到所述目标文档的文本摘要;其中,所述混合式文本摘要识别模型为通过强化学习的方法连接第一识别模型和第二识别模型生成的,所述第一识别模型用于输出抽取式文本摘要,所述第二识别模型用于输出生成式文本摘要。可以充分利用第一识别模型和第二识别模型的优点,支持处理较长文档,并生成概括性较高的新颖句子,且识别的速度和生成的文本摘要的质量均优于单独使用第一识别模型和第二识别模型。
-
公开(公告)号:CN110196918B
公开(公告)日:2021-05-04
申请号:CN201910449029.0
申请日:2019-05-28
Applicant: 北京理工大学 , 中电科大数据研究院有限公司
IPC: G06F16/583
Abstract: 本发明涉及一种基于目标检测的无监督深度哈希方法,属于计算机信息检索技术以及图片检索技术领域。利用目标检测获得图片中存在的物体标签,并将这些标签作为图片的伪标签,基于伪标签训练设计好的端到端深度哈希模型,得到每张图片在汉明空间中的哈希码表示;再通过对应哈希码在图片检索任务中的平均准确率均值来评价深度哈希模型的好坏;其中,平均准确率均值即MAP;所依托的无监督深度哈希模型包括目标检测算法单元以及哈希网络单元。所述方法能获得更有指导性的信息;能充分利用深度模型的能力来学习高质量的保持相似度的哈希码;在真实图片数据集中进行图片检索取得了最好的效果,即MAP值最高。
-
公开(公告)号:CN112613326A
公开(公告)日:2021-04-06
申请号:CN202011500300.8
申请日:2020-12-18
Applicant: 北京理工大学
IPC: G06F40/58 , G06F40/211 , G06N3/04
Abstract: 本发明涉及一种融合句法结构的藏汉语言神经机器翻译方法,属于机器翻译及特征融合应用技术领域。本方法旨在在神经机器翻译的框架中,引入更多语言本身的句法结构,从而帮助提升机器翻译质量,通过优化transformer的位置编码技术问题,提出相对位置编码的方法,进行句法结构信息的融入。本方法通过提取基于依存关系的结构位置编码方法优化transformer,最终达到提升藏语‑汉语神经机器翻译质量的目的。本方法能有效提高自注意力神经网络在学习两种语言之间的关联的效率,缓解两种语言由于句法结构不同带来的问题,降低算法的时间复杂度,解决了传统模型采用绝对位置编码造成的上下文信息丢失问题,减少了低资源神经机器翻译的误翻译、漏翻译的发生。
-
-
-
-
-
-
-
-
-