-
公开(公告)号:CN114386417A
公开(公告)日:2022-04-22
申请号:CN202111620499.2
申请日:2021-12-28
Applicant: 北京理工大学
IPC: G06F40/295 , G06F40/237
Abstract: 本发明涉及一种融入词边界信息的中文嵌套命名实体识别方法,属于自然语言处理中的信息抽取技术领域。本方法结合了中文场景特有的语言形态问题,利用外部的词表向模型中融入词级别信息,对于边界敏感的嵌套命名实体识别任务,模型更加关注于词边界问题,并且利用预训练模型抽取丰富的语义信息向量表示,保证模型在词级别和句子级别都能更好地建模,提升了实体识别的准确性,有效解决了现有的机器学习中文嵌套命名实体识别模型缺乏词级别信息的问题。
-
公开(公告)号:CN114330377A
公开(公告)日:2022-04-12
申请号:CN202111485172.9
申请日:2021-12-07
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于特征衰减筛选的神经机器翻译方法,属于自然语言处理机器神经翻译领域。本方法针对源语言到目标语言的翻译任务,首先使用平行数据训练一个目标语言到源语言的反向翻译模型,然后使用该翻译模型对目标语言单语数据集进行反向翻译,得到初步的伪平行数据集。根据平行数据集的源语言文本创建句子特征集合,并为每个句子特征赋初始分数,按照特征衰减算法对伪数据集进行迭代选择,得到筛选后的伪数据集。将筛选后的伪数据集与平行数据集合并构建合成数据集,最后使用合成数据集训练源语言到目标语言的神经机器翻译模型。本方法避免了质量较差的伪数据对模型训练的不良影响,有效提高了模型的翻译效果。
-
公开(公告)号:CN114328863A
公开(公告)日:2022-04-12
申请号:CN202111512377.1
申请日:2021-12-08
Applicant: 北京理工大学
IPC: G06F16/332 , G06F16/38 , G06F40/30
Abstract: 本发明涉及一种基于高斯核函数的长文本检索方法及系统,属于信息检索技术领域。本方法利用预训练语言模型的语义建模能力计算长文本各段落与用户检索内容的语义相似度,作为用户点击相关性的伪标签,有效缓解了缺乏段落级别标注数据的问题。通过不同的高斯核函数,将伪标签映射为不同维度的相关性得分。利用线性层聚合长文本各段落得分来输出用户检索内容对于长文本整体的相关性得分,能够让不同语义相似度等级的段落为用户点击相关与否做出贡献,增强了语义相似度与用户点击相关性的关联程度,提升了长文本检索模型的准确率。
-
公开(公告)号:CN110472948B
公开(公告)日:2022-02-08
申请号:CN201910859135.6
申请日:2019-09-11
Applicant: 北京理工大学
Abstract: 一种基于微信公众平台的汉蒙语料库众包构建方法,属于语料资源构建领域。具体操作步骤包含:1)获取多体裁开放域原始语料;2)通过蒙古语水平测试问卷,对参与翻译任务的用户进行筛选过滤;3)用订阅号推送的方式给关注微信公众号的用户发送众包翻译任务;4)每个微信客户端将一个或多个源句翻译成蒙古语以语音形式反馈给后台;5)通过后台管理员审核与众包质量评估相结合的方式评估所述语料质量,实现语料的质量控制;所述基于微信公众平台的汉蒙语料库众包构建方法在线上完成语料收集,交互简单、用户体验好、用户参与度高、有效解决了在真实蒙语语言环境下收集开放域自然口语语料的问题,在互联网移动平台下展现了极高的实用前景。
-
公开(公告)号:CN110647629B
公开(公告)日:2021-11-02
申请号:CN201910893027.0
申请日:2019-09-20
Applicant: 北京理工大学
Abstract: 本发明公开了一种多粒度答案排序的多文档机器阅读理解方法,属于机器阅读理解应用技术领域。本方法基于预训练的深度学习模型,通过滑动窗口拆分文档为文本片段与问题拼接,通过融合统计信息、浅层语义信息、深层语义信息和答案结尾词信息的多粒度答案排序来对多个文档生成的多个候选答案进行排序,充分利用不同粒度的语义信息来捕捉问题与多个候选答案的相关性。所述方法利用基于预训练的深度学习模型提高了传统机器阅读理解模型的文本表示能力和泛化能力,同时解决了现有模型对于多文档场景的输入长度受限的缺点,同时从不同粒度建模问题和答案的相关性,提升多文档机器阅读理解的答案质量。
-
公开(公告)号:CN112613326A
公开(公告)日:2021-04-06
申请号:CN202011500300.8
申请日:2020-12-18
Applicant: 北京理工大学
IPC: G06F40/58 , G06F40/211 , G06N3/04
Abstract: 本发明涉及一种融合句法结构的藏汉语言神经机器翻译方法,属于机器翻译及特征融合应用技术领域。本方法旨在在神经机器翻译的框架中,引入更多语言本身的句法结构,从而帮助提升机器翻译质量,通过优化transformer的位置编码技术问题,提出相对位置编码的方法,进行句法结构信息的融入。本方法通过提取基于依存关系的结构位置编码方法优化transformer,最终达到提升藏语‑汉语神经机器翻译质量的目的。本方法能有效提高自注意力神经网络在学习两种语言之间的关联的效率,缓解两种语言由于句法结构不同带来的问题,降低算法的时间复杂度,解决了传统模型采用绝对位置编码造成的上下文信息丢失问题,减少了低资源神经机器翻译的误翻译、漏翻译的发生。
-
公开(公告)号:CN106202043B
公开(公告)日:2019-04-12
申请号:CN201610532187.9
申请日:2016-07-04
Applicant: 北京理工大学
Abstract: 一种基于成词率适应度函数的新词识别免疫遗传方法,属于自然语言信息处理应用领域。本发明首先根据网络新词的特点,提取共同语素,将共同语素和独词作为免疫遗传方法中的示范性抗体,然后利用成词率设计合适的适应度函数,并在适应度函数中加入调节参数,以优化最终实验结果,最后对由免疫遗传方法识别出的候选词用新闻语料进行处理,得到最终的网络新词。对比现有技术,本发明针对网络新词的特点,设计适合网络新词识别的适应度函数,充分考虑网络新词长度,单字和字串所占比例等因素,并将字串的频数信息加入适应度函数的设计中,从而提高了网络新词发现的正确率、召回率和F值。
-
公开(公告)号:CN109344114A
公开(公告)日:2019-02-15
申请号:CN201811142603.X
申请日:2018-09-28
IPC: G06F15/78
CPC classification number: G06F15/7828
Abstract: 本发明公开了一种计算机数据传输抗干扰处理器,由第一电阻至第三电阻、第一二极管至第四二极管、第一电容至第五电容、三端稳压器、第一三极管、第二三极管、滤波器、整流器、电感和变压器组成,与现有技术相比,本发明能够对数据传输的信号进行抗干扰处理,并且能够进行放大,从而提高信号传输质量,对信号传输的速率同时也得到了提高,具有推广应用的价值。
-
-
公开(公告)号:CN103116573B
公开(公告)日:2015-10-28
申请号:CN201310046647.3
申请日:2013-02-06
Applicant: 北京理工大学
IPC: G06F17/27
Abstract: 本发明涉及到一种基于词汇注释的领域词典自动扩充方法,属于自然语言处理技术领域。其步骤为:①通过分析领域词典所属领域间的相关度,生成一棵领域分类树。②为每一个待扩充的领域词典获取一个训练集。③对训练集进行预处理,得到语料特征集。④统计每个节点对应的语料特征集中每个词汇在该语料特征集中出现的次数以及其子节点对应的语料特征集中包含某一词汇的语料特征集的个数。⑤计算各语料特征集中每个词汇的置信度。⑥将新词汇加入到待扩充的领域词典中。本发明提出的基于词汇注释的领域词典自动扩充方法不需要人工搜集领域语料库,因此避免了受领域语料库的质量和规模的局限以及领域语料库非平衡性的影响。
-
-
-
-
-
-
-
-
-