-
公开(公告)号:CN120030110A
公开(公告)日:2025-05-23
申请号:CN202410802980.0
申请日:2024-06-20
Applicant: 苏州空天信息研究院
IPC: G06F16/3329 , G06F16/334 , G06F16/953 , G06F40/194 , G06F40/258
Abstract: 本发明公开了一种基于专家思维链大模型智能体的高价值信息挖掘方法,输入任务的名称和概述,通过大语言模型抽取其中的实体和事件信息关键词,并将关键词与专家思维链模板进行文本向量化处理,通过计算关键词与专家思维链模板向量之间的余弦距离相似度,匹配得到相似度最高的专家思维链模板;调用搜索引擎搜索从任务名称和概述中抽取得到的实体和事件信息关键词,针对每个信息关键词分别利用大模型和搜索引擎联想关键词并搜索相关内容,得到并记录搜索得到的网页的标题、发布机构、发布时间、内容、网址,对记录的标题、发布结构、内容进行抽取,得到实体、关系、事件三元组,组织成公共安全领域知识体系进行存储;依据专家思维链模板,对构建的公共安全领域知识体系进行智能化分析,得到可视化的统计图表和结构化分析结论;依据可视化的统计图表和结构化分析结论,撰写生成分析报告,得到最终的信息挖掘分析报告。本发明可以快速识别、分类和解析大量复杂的数据集,从而加速信息提取和知识发现的过程。
-
公开(公告)号:CN113886521B
公开(公告)日:2025-02-18
申请号:CN202111070442.X
申请日:2021-09-13
Applicant: 苏州空天信息研究院
IPC: G06F16/334 , G06F40/194 , G06F40/295 , G06F40/30
Abstract: 本发明提出一种基于相似词汇表的文本关系自动标注方法,确定所有抽取的关系名称以及对应的实体类型,并获取含有关系名称的语料;在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表;对句子进行命名体识别以及实体关系三元组提取;依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,生成候选关系集合;对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,所有词汇中表达次数最多的候选关系即为标注关系,完成自动标注。本发明解决了传统远程监督方法构建知识库难度大、标注语料质量低的问题,为构建关系抽取模型所需的数据集提供了新的策略。
-
公开(公告)号:CN114281941B
公开(公告)日:2024-12-03
申请号:CN202111513041.7
申请日:2021-12-11
Applicant: 苏州空天信息研究院
IPC: G06F16/33 , G06F40/194 , G06F40/30 , G06N3/0442 , G06N3/09
Abstract: 本发明提出了一种基于共享语义空间的远程监督关系抽取方法,将远程监督标注的数据划分为不含噪数据集和含噪声数据集;将句子的句向量和实体对的位置向量拼接作为BiLSTM网络的输入向量,分别提取含噪声数据集和不含噪数据集中的实体对特征;将实体对特征和关系类型表征映射到同一语义空间中;统计两个关系类型共有的实体类别数量,计算关系类型间的相关度,对不含噪数据集和含噪声数据集分别建模,学习实体对映射矩阵和关系类型映射矩阵;将实体对和关系类型通过学习到的映射矩阵映射到共享语义空间,计算实体对和关系类型的相似度得分,得分最高的关系类型为该实体对的关系。本发明解决了处理复杂关系时存在的语义漂移严重、数据噪声大等问题。
-
公开(公告)号:CN114792134A
公开(公告)日:2022-07-26
申请号:CN202111032526.4
申请日:2021-09-03
Applicant: 苏州空天信息研究院
Abstract: 本发明提出了一种基于解耦合学习策略的小样本知识推理方法,基于小样本知识推理模型实现综合推理特征提取、候选实体成立概率计算和最佳候选实体预测,其中综合推理特征提取基于头实体的嵌入向量和关系嵌入向量提取头实体的综合推理特征,包括嵌入特征和小样本特征;候选实体成立概率计算将头实体的嵌入特征和小样本特征输入推理得分器,计算候选实体在嵌入特征和小样本特征下成立的概率;最佳候选实体预测结合渐进学习因子和候选实体在嵌入特征和小样本特征下成立的概率,计算候选实体推理成立的综合概率,确定综合概率值最高的候选实体为最终推理结果。本发明为推理得分函数提供了综合性的推理信息,提高了小样本推理精度。
-
公开(公告)号:CN114547292B
公开(公告)日:2025-02-18
申请号:CN202210022512.2
申请日:2022-01-10
Applicant: 苏州空天信息研究院
IPC: G06F16/35 , G06F40/194 , G06F40/30 , G06N3/0442 , G06N3/096
Abstract: 本发明提出了一种基于渐进迁移学习的细粒度实体分类方法,计算目标域的粗粒度标签与源域所有粗粒度标签的语义相似度,以及目标域的细粒度标签与源域所有细粒度标签的语义相似度;构建粗粒度标签映射集合和细粒度标签映射集合,计算语义相似度权重;通过BiLSTM网络提取语句的语义特征,得到源域粗粒度标签语句语义特征集合、细粒度标签语句语义特征集合以及目标域语义特征;计算整体粗粒度语义特征和整体细粒度语义特征,确定总的语义特征;将总的语义特征输入到softmax分类器,预测目标域选取的细粒度标签对应的实体标签;训练更新BiLSTM网络与softmax分类器参数,得到基于渐进迁移学习的细粒度实体分类模型。本发明提高了目标域细粒度实体分类准确性。
-
公开(公告)号:CN116542326A
公开(公告)日:2023-08-04
申请号:CN202310035450.3
申请日:2023-01-10
Applicant: 苏州空天信息研究院
IPC: G06N5/02 , G06N3/084 , G06F18/25 , G06F18/21 , G06N3/0464
Abstract: 本发明提出一种基于时序卷积的知识表示方法,构建实体、关系和时间的语义向量对照表,并在语义空间中随机初始化对应的语义向量;根据时间信息及其对应的时间语义向量,动态构造时序卷积核;利用时序卷积核与实体和关系对应的语义向量进行卷积,得到时序知识图谱中的动态特征信息;利用随机初始化的卷积核与实体和关系对应的语义向量进行卷积,得到时序知识图谱中的静态特征信息;通过多层神经网络融合提取的动态特征信息和静态特征信息,得到综合的特征信息;基于提取的综合特征信息,计算该特征信息下全部实体的概率值,取概率最高的实体作为预测结果,从而完成知识表示学习的预测任务。本发明可用于下游知识推理或融合,且提高了模拟预测精度。
-
公开(公告)号:CN116384401A
公开(公告)日:2023-07-04
申请号:CN202310399388.6
申请日:2023-04-14
Applicant: 苏州空天信息研究院
IPC: G06F40/295 , G06F18/214 , G06N3/08
Abstract: 本发明公开了一种基于提示学习的命名实体识别方法,利用文本表示模型consert计算文本序列和候选样本示例模板的相似度,选择最相似的候选样本示例模板以上下文的形式拼接到文本序列中,使用Transformer‑1编码器编码,通过一层线性映射层映射为实体边界判别向量,并通过条件随机场得到候选实体边界预测值,获得候选实体片段;利用候选实体边界预测值,在文本序列中插入候选实体片段分隔符,构造实体边界感知模板输入,使用Transformer‑2编码器进行编码,平均候选实体片段中的字符向量,得到候选实体片段向量;接着通过一层线性映射层映射为候选实体类别判别向量,并使用softmax函数得到候选实体类别预测值,得到识别出的命名实体。本发明提升了命名实体识别准确率。
-
公开(公告)号:CN115358227A
公开(公告)日:2022-11-18
申请号:CN202210385209.9
申请日:2022-04-13
Applicant: 苏州空天信息研究院
IPC: G06F40/289 , G06F40/242 , G06F40/126 , G06F40/284
Abstract: 本发明提出一种基于短语增强的开放域关系联合抽取方法及系统,通过BERT预训练语言模型对句子中的字符进行编码,提取句子特征向量表示;根据首实体短语标注模型,解码句子特征向量表示,抽取所有可能构成关系三元组的首实体短语;构建除首实体短语外的关系短语词汇增强词典,并将外部关系短语词汇表所包含的短语信息融合到句子特征向量表示中;根据关系短语和尾实体序列标注模型,抽取出首实体短语对应的所有关系短语和尾实体短语,构建该首实体的候选开放域关系三元组集合;根据开放域关系三元组的置信度,从候选开放域关系三元组集合中,选择置信度高于设定阈值的开放域关系三元组,作为该首实体的开放域关系三元组。本发明能够更好地整合关系短语和实体对短语之间的信息。
-
公开(公告)号:CN113886529A
公开(公告)日:2022-01-04
申请号:CN202111235748.6
申请日:2021-10-22
Applicant: 苏州空天信息研究院
IPC: G06F16/33 , G06F40/126 , G06F40/242 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种面向网络安全领域的信息抽取方法及其系统,制定面向网络安全领域的实体和关系标注规范,构建实体和关系标签体系;使用半自动化标注策略生成训练数据,所述半自动化标注策略包括使用人工进行少量标注和使用基于知识库的远程监督方法进行补充标注;训练联合神经网络模型预测实体和关系,所述联合神经网络模型结合命名实体识别和关系抽取,在检测尾实体的位置时,同时对头实体和尾实体之间的关系进行判断。本发明针对网络安全领域实现实体和关系的抽取功能。
-
-
-
-
-
-
-
-