一种基于网页正文内容的问题式查询推荐方法

    公开(公告)号:CN113836408B

    公开(公告)日:2024-07-16

    申请号:CN202111074829.2

    申请日:2021-09-14

    Abstract: 本发明提出了一种基于网页正文内容的问题式查询推荐方法,属于计算机网络信息检索查询推荐技术领域。所述基于网页正文内容的问题式查询推荐方法依托的查询推荐系统包括问题式查询生成模块和问题式查询推荐模块,包括以下步骤:S1,生成问题式查询,具体为:以网页正文文本段和关键字作为输入,使用神经网络模型生成一个基于网页正文文本段与关键字相关的问题式查询,重复该过程,得到N个问题式查询。S2,以问题式查询之间的相似度作为衡量标准筛选由S1得到的N个问题式查询,作为查询推荐的最终结果。所述方法在摆脱了对用户检索日志的依赖的同时,能更好的帮助用户表达信息需求。

    一种基于大规模语言模型的低资源实体关系联合抽取方法

    公开(公告)号:CN116933792A

    公开(公告)日:2023-10-24

    申请号:CN202310804621.4

    申请日:2023-07-03

    Abstract: 本发明涉及一种基于大规模语言模型的低资源实体关系联合抽取方法,属于计算机自然语言处理信息抽取技术领域。本方法包括命名实体识别和关系抽取,首先将待抽取的文本和实体类别列表填充到命名实体识别提示模板中,将填充好的提示模板输入到大规模语言模型中,得到实体列表。然后将关系列表填充到关系抽取提示模板中,将命名实体识别的输入、抽取出的实体列表和填充好的关系抽取提示模板输入到大规模语言模型中,从而得到三元组列表。本发明简化了抽取过程,降低了资源消耗,避免了错误传播,提高了抽取效果。

    一种基于语境化注意力网络的关系元学习方法

    公开(公告)号:CN112836007B

    公开(公告)日:2023-01-17

    申请号:CN202110094919.1

    申请日:2021-01-25

    Abstract: 本发明公开了一种基于语境化注意力网络的关系元学习方法,属于知识图谱补全及元学习框架应用技术领域。本方法首先根据知识图谱中的实体和关系在不同的语境中有不同的含义这一特点,通过Transformer编码器得到实体对的语境化嵌入,然后通过注意力网络得到不同实体对的注意力权重,加权求和得到关系元嵌入,最后将关系元嵌入输入到元学习框架中进行训练。本方法降低了知识图谱补全对大规模数据集的依赖,考虑了不同实体对的语境和不平等属性的特点,提升了少样本知识图谱补全方法的性能。

    一种融合句法结构的藏汉语言神经机器翻译方法

    公开(公告)号:CN112613326B

    公开(公告)日:2022-11-08

    申请号:CN202011500300.8

    申请日:2020-12-18

    Abstract: 本发明涉及一种融合句法结构的藏汉语言神经机器翻译方法,属于机器翻译及特征融合应用技术领域。本方法旨在在神经机器翻译的框架中,引入更多语言本身的句法结构,从而帮助提升机器翻译质量,通过优化transformer的位置编码技术问题,提出相对位置编码的方法,进行句法结构信息的融入。本方法通过提取基于依存关系的结构位置编码方法优化transformer,最终达到提升藏语‑汉语神经机器翻译质量的目的。本方法能有效提高自注意力神经网络在学习两种语言之间的关联的效率,缓解两种语言由于句法结构不同带来的问题,降低算法的时间复杂度,解决了传统模型采用绝对位置编码造成的上下文信息丢失问题,减少了低资源神经机器翻译的误翻译、漏翻译的发生。

    一种基于语义排序和知识修正的多项选择问答方法

    公开(公告)号:CN112528003B

    公开(公告)日:2022-10-04

    申请号:CN202011548750.4

    申请日:2020-12-24

    Abstract: 本发明公开了一种基于语义排序和知识修正的多项选择问答方法,属于计算机自然语言处理技术领域。本发明从外部语料库中检索与问题相关的知识,辅助模型进行理解和推理,通过知识修正和语义排序的技术,进一步提升检索获得的知识的质量和精度,从而引导系统进行正确的推理。在相同的数据集下,本发明与传统技术相比,在准确率评测指标上有显著提升。

    一种基于序列到森林的非连续实体识别方法

    公开(公告)号:CN115114930A

    公开(公告)日:2022-09-27

    申请号:CN202210554500.4

    申请日:2022-05-19

    Abstract: 本发明提出了一种基于序列到森林的非连续实体识别方法,为了更好地刻画实体内部组块之间的依赖性,使用森林结构建模文本中实体集;采用基于神经网络的“编码器‑解码器”生成框架,实现序列到森林的生成过程;在编码器端,首先采用基于Transformer的编码器捕获文本中每个词的全局依赖特征,然后再使用卷积神经网络进一步捕获词的局部依赖特征;在解码器端,设计了基于“便签”机制的注意力模块,可捕获每个解码时刻的输出与输入之间的语义关联性。本发明的有益效果是:可保证实体间的无序性以及实体内部的有效性,可有效捕获实体组块之间的关联性,可有效提高模型对非连续实体的识别能力,可适应于连续实体识别的场景。

    一种命名实体识别方法、装置及存储介质

    公开(公告)号:CN114638227A

    公开(公告)日:2022-06-17

    申请号:CN202011477961.3

    申请日:2020-12-15

    Abstract: 本发明公开了一种命名实体识别方法、装置及存储介质,包括:以token分别使用字和分词后的词两种方式使用BERT模型进行预训练;预训练完成后,分别利用输出部分Transformer最后一层,被隐层的token在最后一个隐藏层拼接token补充信息;在Transformer最后一层位置上面串接一个softmax分类层;分别获取基于字和基于词的每个token的分类概率之后,将基于词的每个token的分类概率转化为基于字的标签概率;根据基于字和基于词的分类概率,每个token取最高值作为该token的标签值。采用本发明,能够提高模型性能;捕捉到的是真正意义上的双向上下文信息;对实体槽位进行补充进行编码,合理利用。

    一种基于论元短语的论元角色识别的方法

    公开(公告)号:CN113239694B

    公开(公告)日:2022-06-14

    申请号:CN202110622945.7

    申请日:2021-06-04

    Abstract: 本发明提出一种基于论元短语的论元角色识别方法,包括S1、输入的语句S和事件类型C,通过第一模型构建所述语句中每个论元的论元短语表示Spani和所述事件类型的向量表示Eevent;S2、将所述语句的论元短语表示Spani和所述事件类型的向量表示Eevent输入第二模型,获取所述语句中所有论元的角色类别。本发明充分考虑了在进行论元角色识别过程中单个单词的向量表示不具有很好的分类特征、没有利用短语信息等问题,利用事件论元的短语信息,从而有效地学习到论元的分类特征,进一步提升论元角色识别的效果。

    一种面向文本翻译人员的关键词提示方法

    公开(公告)号:CN114328856A

    公开(公告)日:2022-04-12

    申请号:CN202111409606.7

    申请日:2021-11-25

    Abstract: 本发明涉及一种面向文本翻译人员的关键词提示方法,属于计算机应用和计算机辅助翻译技术领域。本发明首先将输入序列转换为词向量序列,再将词向量序列通过自注意力神经网络编码器计算,得到输入的源语言句子中每个单词的重要性得分。将得分经过最大最小值缩放后,作为最终得分。最终标注出输入源语言句子各个单词的重要性,用于提示翻译人员重点关注重要词汇。本方法通过事先对输入源语言单词进行重要性标注,以提示翻译人员重点关注这些词汇,避免错译、漏译情况发生,提升翻译准确度。同时,翻译校对人员也可以利用本方法提升校对工作的效率。

    一种基于重复跨度预测的机器阅读理解方法

    公开(公告)号:CN114154515A

    公开(公告)日:2022-03-08

    申请号:CN202111335948.9

    申请日:2021-11-12

    Abstract: 本发明涉及一种基于重复跨度预测的机器阅读理解方法,属于自然语言处理机器阅读理解领域。所述方法包括:针对跨度预测形式的阅读理解任务,增加预测重复跨度的任务。该任务首先在文本段落中基于贪心算法找到所有的重复跨度,然后对包含在长跨度中的短跨度进行过滤,得到重复跨度集合之后,对每组重复的跨度,随机选择一个作为答案跨度,组内其他跨度用掩码代替。将处理过的文本输入到预训练模型中,得到表示向量,基于softmax预测掩码位置应该指向段落中的哪个跨度。在该任务上训练之后,将得到的模型在目标任务上做进一步的微调。该方法考虑到预训练模型欠缺跨度知识的问题,并利用无监督的方式构建数据,使模型可以更好地学习跨度表示,提升模型在跨度预测方面的表现。

Patent Agency Ranking