一种基于相似词汇表的文本关系自动标注方法

    公开(公告)号:CN113886521B

    公开(公告)日:2025-02-18

    申请号:CN202111070442.X

    申请日:2021-09-13

    Abstract: 本发明提出一种基于相似词汇表的文本关系自动标注方法,确定所有抽取的关系名称以及对应的实体类型,并获取含有关系名称的语料;在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表;对句子进行命名体识别以及实体关系三元组提取;依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,生成候选关系集合;对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,所有词汇中表达次数最多的候选关系即为标注关系,完成自动标注。本发明解决了传统远程监督方法构建知识库难度大、标注语料质量低的问题,为构建关系抽取模型所需的数据集提供了新的策略。

    一种基于共享语义空间的远程监督关系抽取方法

    公开(公告)号:CN114281941B

    公开(公告)日:2024-12-03

    申请号:CN202111513041.7

    申请日:2021-12-11

    Abstract: 本发明提出了一种基于共享语义空间的远程监督关系抽取方法,将远程监督标注的数据划分为不含噪数据集和含噪声数据集;将句子的句向量和实体对的位置向量拼接作为BiLSTM网络的输入向量,分别提取含噪声数据集和不含噪数据集中的实体对特征;将实体对特征和关系类型表征映射到同一语义空间中;统计两个关系类型共有的实体类别数量,计算关系类型间的相关度,对不含噪数据集和含噪声数据集分别建模,学习实体对映射矩阵和关系类型映射矩阵;将实体对和关系类型通过学习到的映射矩阵映射到共享语义空间,计算实体对和关系类型的相似度得分,得分最高的关系类型为该实体对的关系。本发明解决了处理复杂关系时存在的语义漂移严重、数据噪声大等问题。

    一种基于解耦合学习策略的小样本知识推理方法

    公开(公告)号:CN114792134A

    公开(公告)日:2022-07-26

    申请号:CN202111032526.4

    申请日:2021-09-03

    Abstract: 本发明提出了一种基于解耦合学习策略的小样本知识推理方法,基于小样本知识推理模型实现综合推理特征提取、候选实体成立概率计算和最佳候选实体预测,其中综合推理特征提取基于头实体的嵌入向量和关系嵌入向量提取头实体的综合推理特征,包括嵌入特征和小样本特征;候选实体成立概率计算将头实体的嵌入特征和小样本特征输入推理得分器,计算候选实体在嵌入特征和小样本特征下成立的概率;最佳候选实体预测结合渐进学习因子和候选实体在嵌入特征和小样本特征下成立的概率,计算候选实体推理成立的综合概率,确定综合概率值最高的候选实体为最终推理结果。本发明为推理得分函数提供了综合性的推理信息,提高了小样本推理精度。

    一种文本-视频跨模态事件要素抽取方法

    公开(公告)号:CN119649264A

    公开(公告)日:2025-03-18

    申请号:CN202411576519.4

    申请日:2024-11-06

    Abstract: 本发明公开了一种文本‑视频跨模态事件要素抽取方法,搜集视频数据及其视频简介文本数据,分别标注文本及视频数据的事件类型及对应的事件论元角色,其中事件论元角色表示在事件中扮演不同角色的实体,文本数据与视频数据预标注事件类型及事件类型对应的事件论元角色一致;进行多模态事件指代消解,实现任意“文本‑视频”数据间的共指事件配对,即将指代同一事件的文本和视频进行匹配,构成一组文本‑视频共指事件对;对匹配的“文本‑视频”数据转换为对应的特征向量,其中对文本数据执行文本标记化和文本嵌入,转化为词向量形式;对视频数据直接使用ResNet算法获取全局级别事件要素特征,构建视频全局特征向量;对视频数据通过Fast‑R‑CNN识别局部对象,使用ResNet算法获取局部级别时间要素,构建视频局部特征向量;对文本词向量和视频全局特征向量与局部特征向量,通过全连接层统一三者的向量维度,构建文本‑视频共享向量空间;将文本词向量和视频全局特征向量与局部特征向量输入到Transformer编码器,再采用ONEIE算法进行文本模态的事件要素信息抽取,采用T5‑base算法进行视频模态的事件要素信息抽取。本发明能够更加精确的捕捉多模态内部之间的关联性,提高了抽取精度。

    一种基于解耦合学习策略的小样本知识推理方法

    公开(公告)号:CN114792134B

    公开(公告)日:2025-02-18

    申请号:CN202111032526.4

    申请日:2021-09-03

    Abstract: 本发明提出了一种基于解耦合学习策略的小样本知识推理方法,基于小样本知识推理模型实现综合推理特征提取、候选实体成立概率计算和最佳候选实体预测,其中综合推理特征提取基于头实体的嵌入向量和关系嵌入向量提取头实体的综合推理特征,包括嵌入特征和小样本特征;候选实体成立概率计算将头实体的嵌入特征和小样本特征输入推理得分器,计算候选实体在嵌入特征和小样本特征下成立的概率;最佳候选实体预测结合渐进学习因子和候选实体在嵌入特征和小样本特征下成立的概率,计算候选实体推理成立的综合概率,确定综合概率值最高的候选实体为最终推理结果。本发明为推理得分函数提供了综合性的推理信息,提高了小样本推理精度。

    命名实体识别方法和命名实体识别装置

    公开(公告)号:CN117648928A

    公开(公告)日:2024-03-05

    申请号:CN202311622168.1

    申请日:2023-11-30

    Abstract: 本公开提供了一种命名实体识别方法和命名实体识别装置,该方法包括:对待处理文本进行语种识别,得到语种识别结果;在待处理文本为中文文本的情况下,分别利用多个中文命名实体识别方法处理待处理文本,得到多个中文命名实体识别结果;在多个中文命名实体识别结果中初始中文类别信息不相同的情况下,将与优先等级最高的中文命名实体识别方法对应的中文命名实体识别结果中初始中文类别信息确定为初始中文命名实体的目标中文类别信息;针对多个中文命名实体识别结果中相关联的初始中文命名实体,对多个相关联的初始中文命名实体进行融合处理,得到融合结果;根据融合结果、目标中文类别信息和多个中文命名实体识别结果,生成目标中文识别结果。

    一种基于聚类算法的小样本事件要素智能抽取方法

    公开(公告)号:CN118193738A

    公开(公告)日:2024-06-14

    申请号:CN202410359544.0

    申请日:2024-03-27

    Abstract: 本发明公开了一种基于聚类算法的小样本事件要素智能抽取方法,采用Word2Vec模型对文本数据进行向量化处理,所述文本数据包含已标注的文本数据和未标注的文本数据;利用K‑means算法对向量化后的样本进行聚类,依据文本向量之间的相似度将样本划分为K个类簇,以每个簇的中心作为该簇的代表;利用信息熵计算每个类簇中的每个样本在该类簇中的相似度权重,选取信息熵相似度权重最高的多个样本作为该类簇的代表性样本,每个类簇的代表性样本构成一个初始训练样本集;构建训练各初始训练样本集对应的子分类器UIE‑F,在每轮迭代中,根据分类器的预测结果和选定样本进行标注,以增量学习的方式不断优化分类器。本发明提高了事件抽取方法在小样本条件下的性能,也提高了事件要素抽取的泛用性和准确性。

    一种基于共享语义空间的远程监督关系抽取方法

    公开(公告)号:CN114281941A

    公开(公告)日:2022-04-05

    申请号:CN202111513041.7

    申请日:2021-12-11

    Abstract: 本发明提出了一种基于共享语义空间的远程监督关系抽取方法,将远程监督标注的数据划分为不含噪数据集和含噪声数据集;将句子的句向量和实体对的位置向量拼接作为BiLSTM网络的输入向量,分别提取含噪声数据集和不含噪数据集中的实体对特征;将实体对特征和关系类型表征映射到同一语义空间中;统计两个关系类型共有的实体类别数量,计算关系类型间的相关度,对不含噪数据集和含噪声数据集分别建模,学习实体对映射矩阵和关系类型映射矩阵;将实体对和关系类型通过学习到的映射矩阵映射到共享语义空间,计算实体对和关系类型的相似度得分,得分最高的关系类型为该实体对的关系。本发明解决了处理复杂关系时存在的语义漂移严重、数据噪声大等问题。

    一种基于相似词汇表的文本关系自动标注方法

    公开(公告)号:CN113886521A

    公开(公告)日:2022-01-04

    申请号:CN202111070442.X

    申请日:2021-09-13

    Abstract: 本发明提出一种基于相似词汇表的文本关系自动标注方法,确定所有抽取的关系名称以及对应的实体类型,并获取含有关系名称的语料;在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表;对句子进行命名体识别以及实体关系三元组提取;依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,生成候选关系集合;对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,所有词汇中表达次数最多的候选关系即为标注关系,完成自动标注。本发明解决了传统远程监督方法构建知识库难度大、标注语料质量低的问题,为构建关系抽取模型所需的数据集提供了新的策略。

Patent Agency Ranking