一种基于路径扩展的非连续实体识别方法

    公开(公告)号:CN113886522A

    公开(公告)日:2022-01-04

    申请号:CN202111070443.4

    申请日:2021-09-13

    Abstract: 本发明提出了一种基于路径扩展的非连续实体识别方法,对文本序列使用Transformer‑1编码器编码;将Transformer‑1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到字符标签预测值,以获得实体首字符的索引值;针对预测的每个实体首字符,将其对应的Transformer‑1编码器输出向量与其后字符的Transformer‑1编码器输出向量拼接,使用Transformer‑2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值,以获得对应实体首字符的实体尾字符索引值;针对每对实体首字符和实体尾字符区间字符使用路径扩展方法,得到实体表示的路径;解码获得的实体表示路径,得到识别出的实体。本发明避免了解码模糊性问题,提高了识别的准确率。

    一种基于提示学习的命名实体识别方法

    公开(公告)号:CN116384401A

    公开(公告)日:2023-07-04

    申请号:CN202310399388.6

    申请日:2023-04-14

    Abstract: 本发明公开了一种基于提示学习的命名实体识别方法,利用文本表示模型consert计算文本序列和候选样本示例模板的相似度,选择最相似的候选样本示例模板以上下文的形式拼接到文本序列中,使用Transformer‑1编码器编码,通过一层线性映射层映射为实体边界判别向量,并通过条件随机场得到候选实体边界预测值,获得候选实体片段;利用候选实体边界预测值,在文本序列中插入候选实体片段分隔符,构造实体边界感知模板输入,使用Transformer‑2编码器进行编码,平均候选实体片段中的字符向量,得到候选实体片段向量;接着通过一层线性映射层映射为候选实体类别判别向量,并使用softmax函数得到候选实体类别预测值,得到识别出的命名实体。本发明提升了命名实体识别准确率。

    一种基于短语增强的开放域关系联合抽取方法及系统

    公开(公告)号:CN115358227A

    公开(公告)日:2022-11-18

    申请号:CN202210385209.9

    申请日:2022-04-13

    Abstract: 本发明提出一种基于短语增强的开放域关系联合抽取方法及系统,通过BERT预训练语言模型对句子中的字符进行编码,提取句子特征向量表示;根据首实体短语标注模型,解码句子特征向量表示,抽取所有可能构成关系三元组的首实体短语;构建除首实体短语外的关系短语词汇增强词典,并将外部关系短语词汇表所包含的短语信息融合到句子特征向量表示中;根据关系短语和尾实体序列标注模型,抽取出首实体短语对应的所有关系短语和尾实体短语,构建该首实体的候选开放域关系三元组集合;根据开放域关系三元组的置信度,从候选开放域关系三元组集合中,选择置信度高于设定阈值的开放域关系三元组,作为该首实体的开放域关系三元组。本发明能够更好地整合关系短语和实体对短语之间的信息。

    一种基于共享语义空间的远程监督关系抽取方法

    公开(公告)号:CN114281941A

    公开(公告)日:2022-04-05

    申请号:CN202111513041.7

    申请日:2021-12-11

    Abstract: 本发明提出了一种基于共享语义空间的远程监督关系抽取方法,将远程监督标注的数据划分为不含噪数据集和含噪声数据集;将句子的句向量和实体对的位置向量拼接作为BiLSTM网络的输入向量,分别提取含噪声数据集和不含噪数据集中的实体对特征;将实体对特征和关系类型表征映射到同一语义空间中;统计两个关系类型共有的实体类别数量,计算关系类型间的相关度,对不含噪数据集和含噪声数据集分别建模,学习实体对映射矩阵和关系类型映射矩阵;将实体对和关系类型通过学习到的映射矩阵映射到共享语义空间,计算实体对和关系类型的相似度得分,得分最高的关系类型为该实体对的关系。本发明解决了处理复杂关系时存在的语义漂移严重、数据噪声大等问题。

    一种基于相似词汇表的文本关系自动标注方法

    公开(公告)号:CN113886521A

    公开(公告)日:2022-01-04

    申请号:CN202111070442.X

    申请日:2021-09-13

    Abstract: 本发明提出一种基于相似词汇表的文本关系自动标注方法,确定所有抽取的关系名称以及对应的实体类型,并获取含有关系名称的语料;在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表;对句子进行命名体识别以及实体关系三元组提取;依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,生成候选关系集合;对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,所有词汇中表达次数最多的候选关系即为标注关系,完成自动标注。本发明解决了传统远程监督方法构建知识库难度大、标注语料质量低的问题,为构建关系抽取模型所需的数据集提供了新的策略。

    一种基于解耦合学习策略的小样本知识推理方法

    公开(公告)号:CN114792134B

    公开(公告)日:2025-02-18

    申请号:CN202111032526.4

    申请日:2021-09-03

    Abstract: 本发明提出了一种基于解耦合学习策略的小样本知识推理方法,基于小样本知识推理模型实现综合推理特征提取、候选实体成立概率计算和最佳候选实体预测,其中综合推理特征提取基于头实体的嵌入向量和关系嵌入向量提取头实体的综合推理特征,包括嵌入特征和小样本特征;候选实体成立概率计算将头实体的嵌入特征和小样本特征输入推理得分器,计算候选实体在嵌入特征和小样本特征下成立的概率;最佳候选实体预测结合渐进学习因子和候选实体在嵌入特征和小样本特征下成立的概率,计算候选实体推理成立的综合概率,确定综合概率值最高的候选实体为最终推理结果。本发明为推理得分函数提供了综合性的推理信息,提高了小样本推理精度。

    一种基于链接矩阵的跨模态事件联合抽取方法及其系统

    公开(公告)号:CN117009496A

    公开(公告)日:2023-11-07

    申请号:CN202310579818.2

    申请日:2023-05-22

    Abstract: 本发明公开一种基于链接矩阵的多模态事件联合抽取方法,确定应用领域的事件结构体系,构建跨模态事件抽取数据集;构建图像块和文本序列之间的链接矩阵;基于ViLT构建多模态事件抽取模型,其中多模态Transformer编码器以图像块像素特征、词例特征和图像分块‑文本词例对特征为输入,得到多模态特征输入解码器,获取图文事件类型一致性特征、事件类型特征和图文事件要素特征;利用极大似然估计,取最大概率的图文事件类型匹配结果、事件类型、图文事件要素作为索引,利用索引映射得到文本事件信息。本发明解决了弱监督和无监督方法识别精度低,管道式多模态事件要素信息匹配不准确的问题,为多模态信息抽取领域提供了一种新的事件抽取策略。

    一种基于路径扩展的非连续实体识别方法

    公开(公告)号:CN113886522B

    公开(公告)日:2022-12-02

    申请号:CN202111070443.4

    申请日:2021-09-13

    Abstract: 本发明提出了一种基于路径扩展的非连续实体识别方法,对文本序列使用Transformer‑1编码器编码;将Transformer‑1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到字符标签预测值,以获得实体首字符的索引值;针对预测的每个实体首字符,将其对应的Transformer‑1编码器输出向量与其后字符的Transformer‑1编码器输出向量拼接,使用Transformer‑2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值,以获得对应实体首字符的实体尾字符索引值;针对每对实体首字符和实体尾字符区间字符使用路径扩展方法,得到实体表示的路径;解码获得的实体表示路径,得到识别出的实体。本发明避免了解码模糊性问题,提高了识别的准确率。

    基于专家思维链大模型智能体的高价值信息挖掘方法

    公开(公告)号:CN120030110A

    公开(公告)日:2025-05-23

    申请号:CN202410802980.0

    申请日:2024-06-20

    Abstract: 本发明公开了一种基于专家思维链大模型智能体的高价值信息挖掘方法,输入任务的名称和概述,通过大语言模型抽取其中的实体和事件信息关键词,并将关键词与专家思维链模板进行文本向量化处理,通过计算关键词与专家思维链模板向量之间的余弦距离相似度,匹配得到相似度最高的专家思维链模板;调用搜索引擎搜索从任务名称和概述中抽取得到的实体和事件信息关键词,针对每个信息关键词分别利用大模型和搜索引擎联想关键词并搜索相关内容,得到并记录搜索得到的网页的标题、发布机构、发布时间、内容、网址,对记录的标题、发布结构、内容进行抽取,得到实体、关系、事件三元组,组织成公共安全领域知识体系进行存储;依据专家思维链模板,对构建的公共安全领域知识体系进行智能化分析,得到可视化的统计图表和结构化分析结论;依据可视化的统计图表和结构化分析结论,撰写生成分析报告,得到最终的信息挖掘分析报告。本发明可以快速识别、分类和解析大量复杂的数据集,从而加速信息提取和知识发现的过程。

    一种基于相似词汇表的文本关系自动标注方法

    公开(公告)号:CN113886521B

    公开(公告)日:2025-02-18

    申请号:CN202111070442.X

    申请日:2021-09-13

    Abstract: 本发明提出一种基于相似词汇表的文本关系自动标注方法,确定所有抽取的关系名称以及对应的实体类型,并获取含有关系名称的语料;在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表;对句子进行命名体识别以及实体关系三元组提取;依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,生成候选关系集合;对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,所有词汇中表达次数最多的候选关系即为标注关系,完成自动标注。本发明解决了传统远程监督方法构建知识库难度大、标注语料质量低的问题,为构建关系抽取模型所需的数据集提供了新的策略。

Patent Agency Ranking