基于实体森林的实体语义关系联合抽取方法及系统

    公开(公告)号:CN115934953A

    公开(公告)日:2023-04-07

    申请号:CN202211199328.1

    申请日:2022-09-29

    Abstract: 本发明提出一种基于实体森林的实体语义关系联合抽取方法和系统,包括:获取待识别实体语义关系的语料;得到句子及其对应的词序列,对句子的词序列进行编码,得到训练语料中句子的分布式表示;句子的分布式表示进行序列标注,得到实体头部,作为实体树的根节点,以根节点为循环神经网络模型的初始状态,依次输入句子中子词至循环神经网络模型,以森林的形式识别嵌套实体,得到多棵嵌套实体树;将嵌套实体树的实体表示输入Transformer Decoder模块,通过多头注意力机制,得到嵌套实体树中包含实体树间交互信息、实体和输入文本之间的交互信息的隐层向量;将隐层向量和实体表示输入由多棵嵌套实体树构成的分层三元组森林,获得语料的实体语义关系三元组。

    一种实体召回方法及实体查询系统

    公开(公告)号:CN115577068A

    公开(公告)日:2023-01-06

    申请号:CN202210974839.X

    申请日:2022-08-15

    Abstract: 本发明实施例提供一种实体召回方法,包括:S1、获取待查询实体,利用预先训练的第一编码神经网络对待查询实体进行编码,得到待查询实体的多维浮点值查询向量;S2、将多维浮点值查询向量中每个维度的浮点值按照预设规则映射为非浮点的第一数值或者第二数值,得到多维二值查询向量;S3、根据待查询实体的多维二值查询向量在实体知识库选取部分规范实体生成召回的候选实体集合,其中所述实体知识库包括规范化命名的多个规范实体及按照与每个规范实体对应的多维二值实体向量。本发明将浮点值形式的向量转换为二值形式的向量,降低存储空间占用并提高计算效率。

    一种语义匹配模型的训练方法以及文本匹配方法

    公开(公告)号:CN115511073A

    公开(公告)日:2022-12-23

    申请号:CN202210991280.1

    申请日:2022-08-18

    Abstract: 本发明提供了一种语义匹配模型的训练方法,包括:A1、获取训练集,其包括多个样本,每个样本包含预定文本以及每个预定文本对应的两个待匹配文本,每个样本分别对应有弱标签和权重,弱标签指示对应样本所含两个待匹配文本中的哪一个待匹配文本与预定文本更具相关性,初始权重的数值与指示对应样本的难度的难度指标相关,难度相对越大的样本赋予相对越小的初始权重;A2、利用训练集中的样本对语义匹配模型进行多次迭代训练,使其根据预定文本分别和每个待匹配文本形成的文本对输出两者的相关性得分,根据相关性得分、弱标签以及权重确定加权损失值以更新语义匹配模型,样本的权重根据当前已完成训练的次数进行动态调整。

    基于BERT模型的文档关键词抽取方法及装置

    公开(公告)号:CN112883171A

    公开(公告)日:2021-06-01

    申请号:CN202110142917.5

    申请日:2021-02-02

    Abstract: 一种基于BERT模型的文档关键词抽取方法,其包括以下步骤:将文档集合中的每篇文档通过BERT模型进行编码,并提取BERT模型生成的文档语义对每个子词的注意力权重;将子词还原成词语,并将子词的注意力权重聚合为词语的注意力权重;将文档中不同位置的同一词语的注意力权重聚合为词语的与位置无关的注意力权重,记为p(word_weight|doc);计算每个词语在文档集合上的注意力权重,记为p(word_weight|corpus);以及联合p(word_weight|doc)和p(word_weight|corpus),并选取N个最终注意力权重最高的词语作为文档关键词。该方法利用BERT模型提取文档语义表示来计算词语注意力权重分布,最终实现关键词的抽取,兼顾词语频率信息的同时,有效地解决传统无监督算法忽略语义问题,提高了关键词抽取的准确率和召回率。

    一种构建文本分类系统的方法、系统、介质及电子设备

    公开(公告)号:CN111966826A

    公开(公告)日:2020-11-20

    申请号:CN202010709070.X

    申请日:2020-07-22

    Abstract: 本发明实施例提供了种构建文本分类系统的方法、系统、介质及电子设备,该文本分类系统包括分句模块、句子级特征提取模块、篇章级特征提取模块和分类模块,该方法包括:A1、获取包括多个文本的训练集,所述训练集中的文本带有标记的所属类别,且其中至少部分文本是超长文本;A2、用分句模块根据预定义的分句规则对训练集中的每个文本进行分句以得到多个句子;A3、用所述训练集对文本分类系统的句子级特征提取模块、篇章级特征提取模块和分类模块进行多轮训练至收敛,得到文本分类系统;本发明减少了提取特征时丢失语义信息和结构信息的可能,最后根据文本的篇章特征用于后续的分类预测,提高了文本分类的准确率,尤其适用于对超长文本的准确分类。

    一种命名实体识别模型的训练方法及命名实体识别的方法

    公开(公告)号:CN111738004A

    公开(公告)日:2020-10-02

    申请号:CN202010546972.6

    申请日:2020-06-16

    Abstract: 本发明实施例提供了一种命名实体识别模型的训练方法及命名实体识别的方法,本发明利用训练集训练BERT-CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。

    一种基于熵的神经机器翻译动态解码方法及系统

    公开(公告)号:CN111428519A

    公开(公告)日:2020-07-17

    申请号:CN202010151246.4

    申请日:2020-03-06

    Abstract: 本发明提出一种基于熵的神经机器翻译动态解码方法及系统,通过分析句子的熵值与BLEU值之间的关系,发现BLEU值高的句子中单词的平均熵值比BLEU值低的句子中单词的平均熵值小,且熵值低的句子的BLEU值普遍比熵值高的句子的BLEU值高。通过计算句子的熵值与BLEU值之间的Pearson系数,发现两者之间存在相关性。因此,本发明提出在训练过程解码阶段的每个时间步,不仅要以一定的概率采样选择真实单词或预测单词获取上下文信息,还要根据上一个时间步的预测结果计算熵值,然后根据熵值动态调整上下文信息的权重。解决了神经机器翻译模型在解码过程中因训练和推断之间的上下文信息差异而导致的错误累积问题。

    一种学者重名的消歧方法及其系统

    公开(公告)号:CN104111973B

    公开(公告)日:2017-10-27

    申请号:CN201410269979.2

    申请日:2014-06-17

    Abstract: 本发明公开了本发明提供一种学者重名的消歧方法,包括:分类模型建立步骤和迭代消歧步骤;其中,分类模型建立步骤为基于异质学术网络数据,通过标注获取标注数据集,并基于标注数据集,构建文档对二元分类的训练数据集,并基于训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;迭代消歧步骤为基于二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。本发明还公开了一种学者重名的消歧系统。

    一种学者重名的消歧方法及其系统

    公开(公告)号:CN104111973A

    公开(公告)日:2014-10-22

    申请号:CN201410269979.2

    申请日:2014-06-17

    CPC classification number: G06F17/3071 G06F17/30699

    Abstract: 本发明公开了一种学者重名的消歧方法,包括:分类模型建立步骤和迭代消歧步骤;其中,分类模型建立步骤为基于异质学术网络数据,通过标注获取标注数据集,并基于标注数据集,构建文档对二元分类的训练数据集,并基于训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;迭代消歧步骤为基于二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。本发明还公开了一种学者重名的消歧系统。

Patent Agency Ranking