一种基于事后验证的证据句去噪方法

    公开(公告)号:CN116257608A

    公开(公告)日:2023-06-13

    申请号:CN202211692083.6

    申请日:2022-12-28

    Inventor: 史树敏 何苏哲

    Abstract: 本发明涉及一种基于事后验证的证据句去噪方法,属于自然语言处理中的机器阅读理解技术领域。首先采用静态词向量为训练集进行伪证据标注,为标注数据训练模型,包括答案分类与证据句跨度预测,保存最优模型。根据最优模型预测获取候选证据列表。根据最优模型,对预测证据进行去噪。根据候选证据分数对候选证据进行重排,按要求选择最大分数候选证据作为最终证据句,重新评价后得到新证据准确率和总准确率,将它们与原准确率进行比较,衡量方法的有效性。本发明能够以小成本为模型进行证据去噪,在得到很好的效果的同时,还可应用于各种包含证据抽取任务的工作中。

    一种基于语境化注意力网络的关系元学习方法

    公开(公告)号:CN112836007B

    公开(公告)日:2023-01-17

    申请号:CN202110094919.1

    申请日:2021-01-25

    Abstract: 本发明公开了一种基于语境化注意力网络的关系元学习方法,属于知识图谱补全及元学习框架应用技术领域。本方法首先根据知识图谱中的实体和关系在不同的语境中有不同的含义这一特点,通过Transformer编码器得到实体对的语境化嵌入,然后通过注意力网络得到不同实体对的注意力权重,加权求和得到关系元嵌入,最后将关系元嵌入输入到元学习框架中进行训练。本方法降低了知识图谱补全对大规模数据集的依赖,考虑了不同实体对的语境和不平等属性的特点,提升了少样本知识图谱补全方法的性能。

    一种融合句法结构的藏汉语言神经机器翻译方法

    公开(公告)号:CN112613326B

    公开(公告)日:2022-11-08

    申请号:CN202011500300.8

    申请日:2020-12-18

    Abstract: 本发明涉及一种融合句法结构的藏汉语言神经机器翻译方法,属于机器翻译及特征融合应用技术领域。本方法旨在在神经机器翻译的框架中,引入更多语言本身的句法结构,从而帮助提升机器翻译质量,通过优化transformer的位置编码技术问题,提出相对位置编码的方法,进行句法结构信息的融入。本方法通过提取基于依存关系的结构位置编码方法优化transformer,最终达到提升藏语‑汉语神经机器翻译质量的目的。本方法能有效提高自注意力神经网络在学习两种语言之间的关联的效率,缓解两种语言由于句法结构不同带来的问题,降低算法的时间复杂度,解决了传统模型采用绝对位置编码造成的上下文信息丢失问题,减少了低资源神经机器翻译的误翻译、漏翻译的发生。

    一种基于重复跨度预测的机器阅读理解方法

    公开(公告)号:CN114154515A

    公开(公告)日:2022-03-08

    申请号:CN202111335948.9

    申请日:2021-11-12

    Abstract: 本发明涉及一种基于重复跨度预测的机器阅读理解方法,属于自然语言处理机器阅读理解领域。所述方法包括:针对跨度预测形式的阅读理解任务,增加预测重复跨度的任务。该任务首先在文本段落中基于贪心算法找到所有的重复跨度,然后对包含在长跨度中的短跨度进行过滤,得到重复跨度集合之后,对每组重复的跨度,随机选择一个作为答案跨度,组内其他跨度用掩码代替。将处理过的文本输入到预训练模型中,得到表示向量,基于softmax预测掩码位置应该指向段落中的哪个跨度。在该任务上训练之后,将得到的模型在目标任务上做进一步的微调。该方法考虑到预训练模型欠缺跨度知识的问题,并利用无监督的方式构建数据,使模型可以更好地学习跨度表示,提升模型在跨度预测方面的表现。

    一种多粒度答案排序的多文档机器阅读理解方法

    公开(公告)号:CN110647629A

    公开(公告)日:2020-01-03

    申请号:CN201910893027.0

    申请日:2019-09-20

    Abstract: 本发明公开了一种多粒度答案排序的多文档机器阅读理解方法,属于机器阅读理解应用技术领域。本方法基于预训练的深度学习模型,通过滑动窗口拆分文档为文本片段与问题拼接,通过融合统计信息、浅层语义信息、深层语义信息和答案结尾词信息的多粒度答案排序来对多个文档生成的多个候选答案进行排序,充分利用不同粒度的语义信息来捕捉问题与多个候选答案的相关性。所述方法利用基于预训练的深度学习模型提高了传统机器阅读理解模型的文本表示能力和泛化能力,同时解决了现有模型对于多文档场景的输入长度受限的缺点,同时从不同粒度建模问题和答案的相关性,提升多文档机器阅读理解的答案质量。

    一种由MIDI到盲文乐谱的翻译方法及系统

    公开(公告)号:CN105931621B

    公开(公告)日:2019-08-20

    申请号:CN201610244257.0

    申请日:2016-04-19

    Abstract: 一种由MIDI到盲文乐谱的翻译方法及系统包括一种由MIDI到盲文乐谱的翻译方法(简称“方法”)和一种由MIDI到盲文乐谱的翻译系统(简称“系统”)。系统的音轨选择模块与MIDI解析模块、五线谱绘制模块以及盲文转换模块相连,MIDI解析模块与五线谱绘制模块相连,五线谱绘制模块与盲文转换模块相连;方法包括1)将MIDI格式数据文件转换成格式化的乐谱数据;2)根据1)乐谱数据绘制五线谱;3)绘制五线谱并生成盲文乐谱。本发明基于MIDI文件获取乐谱数据,根据乐谱同时生成五线谱和盲文乐谱并对照展示;还能够实现根据MIDI数据自动识别调号、识别双附点音符时值、根据强度信息识别弱起小节以及根据速度输出曲风。

    一种融合发音特征汉语-越南语统计机器翻译方法

    公开(公告)号:CN110096715A

    公开(公告)日:2019-08-06

    申请号:CN201910382004.3

    申请日:2019-05-06

    Abstract: 本发明公开了一种融合发音特征汉语-越南语统计机器翻译方法,属于机器翻译及特征融合应用技术领域。本方法通过汉语-越南语平行语料,利用统计得到的汉语拼音声母与越南语的元音、韵母与辅音以及声调之间的相关性,将基于纯汉字的汉语语料转换为汉字辅以拼音-声母-韵母-声调的格式,将基于纯音节的越南语语料转换成音节辅以元音-辅音-声调的格式;再将新格式语料输入机器翻译模型中进行训练,充分利用汉越双语独特的语言规律信息。所述方法降低了稀缺资源统计机器翻译对大规模语料的依赖,解决了传统基于短语的统计机器翻译不能融合发音特征的缺点,提升资源稀缺型语言间的机器翻译性能。

    一种基于领域差异性的新词提取方法

    公开(公告)号:CN105488098B

    公开(公告)日:2019-02-05

    申请号:CN201510711219.7

    申请日:2015-10-28

    Abstract: 本发明涉及一种基于领域差异性的新词提取的方法,属于自然语言处理应用技术领域。本发明首先通过比较不同领域间字分布的差异性,获得差异字种子,然后通过n‑gram方式拓展差异字种子,构建候选词集,接下来根据领域差异大小去除候选词集合中的重复词,最后对候选词集合中每一个词,分别以领域差异值、凝合度,以及成词率作为衡量标准,剔除领域差异较低的候选词得到新词。对比现有技术,本发明通过利用不同语料领域间差异信息,选取种子字,并通过n‑gram拓展获得候选词集合;然后再次利用词本身以及领域间差异信息,自动地选择候选词中的新词,从而明显提高了新词发现的数目和准确度。

    一种基于代理池的IP限制受控源信息抓取方法

    公开(公告)号:CN107395782A

    公开(公告)日:2017-11-24

    申请号:CN201710592613.2

    申请日:2017-07-19

    Inventor: 史树敏 杨旋 赵蒙

    Abstract: 本发明涉及一种基于代理池的IP限制受控源信息抓取方法,属于计算机科学中的数据获取与处理技术领域。该方法包含如下步骤:维护两个代理池A和B,将所有代理存储于代理池A中;测试可用代理并初始化代理池B;抓取过程中在代理池B中随机选择代理进行使用;抓取过程中由于代理池B的动态维护操作触发代理池B的更新操作;利用所述代理池算法,实现对IP限制受控信息源的高效抓取。本发明通过维护两个代理池,在信息抓取的过程中动态调控可用代理,解决了代理不稳定,抓取效率低下等问题,为各种数据驱动的实验扩充资源。

    一种基于本体匹配的语义查询方法

    公开(公告)号:CN103744955B

    公开(公告)日:2017-04-05

    申请号:CN201410004084.6

    申请日:2014-01-04

    Abstract: 本发明公开了一种基于本体匹配的语义查询方法,属于计算机应用技术领域。本方法先计算本体资源的名称、注释与用户输入字符串的语义相似度,然后分别将本体类、本体个体、本体属性与用户输入字符串的语义相似度按从大到小排序,选出最符合用户查询要求的不超过λ*3个本体资源。本方法能够在语义层面进行检索,捕捉设计人员检索意图,提高系统检索效率。

Patent Agency Ranking