-
公开(公告)号:CN115269833B
公开(公告)日:2024-08-16
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06F18/23213 , G06F18/24 , G06F18/25
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN115269833A
公开(公告)日:2022-11-01
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06K9/62
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN118821782A
公开(公告)日:2024-10-22
申请号:CN202410768553.5
申请日:2024-06-14
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种多粒度相似性增强的篇章级事件论元抽取方法及系统,属于文本信息抽取领域。本发明首先将文档输入预训练语言模型编码,得到高维度嵌入表示;然后构建包含句子和段落节点的异构图,通过图神经网络融合全局语义信息;最后,通过对比学习和排序损失增强段落和句子粒度的相似性。本发明解决了远距离事件论元抽取的难题,并有效缓解了噪音实体对抽取结果的干扰,提高了抽取的准确性和鲁棒性。
-
公开(公告)号:CN117633543A
公开(公告)日:2024-03-01
申请号:CN202311359555.0
申请日:2023-10-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/22 , G06F18/25 , G06F40/30 , G06F40/289 , G06F40/216
Abstract: 一种基于融合向量的短文本相似度计算方法,主要包括以下步骤:根据短文本所在的业务场景,积累相关的业务语料;基于业务语料,得到短文本所在语境的主题、各主题的主题词和主题词的权重信息,构造词汇权重关系模型;基于该模型对短文本中包含的词汇进行权重计算;利用短文本词汇的权重信息和使用word2vec生成的词汇语义信息,构造基于权重的文本语义向量;根据短文本语义向量的余弦相似度进行短文本相似度比较。该方法充分考虑了每个词对相似度贡献的区别,从基于权重的文本语义融合向量化表示的角度,定义了一种新的短文本相似度的计算方法。
-
公开(公告)号:CN117271765A
公开(公告)日:2023-12-22
申请号:CN202311059507.X
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/30 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于多语义特征融合的文本分类方法及装置,所述方法包括:获取待分类的文本,将所述待分类的文本进行预处理,得到处理后的文本;将词级粒度向量输入训练完毕的词级语义特征提取模型,得到词级语义特征;将句子级粒度向量输入训练完毕的句子级语义特征提取模型,得到句子级语义特征;基于文章级向量对所述处理后的文本进行特征提取,得到文本级语义特征;将所述词级语义特征、句子级语义特征以及文本级语义特征进行特征拼接融合,得到融合后特征,使用分类器对所述融合后特征进行分类。本方法从词粒度、句子粒度和文章粒度等多个层面对文本进行精细语义建模,利用文本的多语义融合特征进行文本分类,提高了文本分类的准确率。
-
公开(公告)号:CN118821774A
公开(公告)日:2024-10-22
申请号:CN202410768549.9
申请日:2024-06-14
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06N3/0442 , G06N3/0455 , G06N3/08
Abstract: 本发明公开一种基于序列转化的命名实体识别方法及系统,属于信息抽取领域。所述方法包括:利用双向长短记忆神经网络解码自然文本,得到第t个时间步的隐藏向量ht;利用单向长短记忆网络对所述隐藏向量ht进行解码,得到第j个时间步的解码结果sj;基于第j‑1个时间步的解码结果sj‑1生成第j个时间步的标签概率分布矩阵Pj;获取条件随机场生成的标签转移概率矩阵Aj;基于所有时间步j上的标签概率分布矩阵Pj和标签转移概率矩阵Aj,得到自然文本对应的命名实体识别结果。本发明可以利用过去和未来的标签来高精度地预测当前标签。
-
公开(公告)号:CN117149948B
公开(公告)日:2024-07-23
申请号:CN202311056211.2
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/335 , G06F16/35 , G06F18/241 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于向量动态扰动的新闻脉络关系检测方法及装置,所述方法包括:针对待检测新闻文本对,基于每一新闻文本数据中包含的实体,对新闻文本数据进行文本截取,以得到新文本数据对;获取至少一个预训练模型;基于预训练模型,获取新文本数据对的编码表示;基于待检测新闻文本中包含的事件及事件论元、实体、关键词,对各层CLS关系表示向量进行表示增强;对表示增强的各层CLS嵌入表示进行动态加权平均后,基于平均CLS嵌入表示预测该预训练模型对应的关系预测概率;对至少一个预训练模型对应的关系预测概率进行融合平均,得到待检测新闻文本的关系预测结果。本发明可以提高新闻脉络关系检测任务的准确率和泛化性能。
-
公开(公告)号:CN117149948A
公开(公告)日:2023-12-01
申请号:CN202311056211.2
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/335 , G06F16/35 , G06F18/241 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于向量动态扰动的新闻脉络关系检测方法及装置,所述方法包括:针对待检测新闻文本对,基于每一新闻文本数据中包含的实体,对新闻文本数据进行文本截取,以得到新文本数据对;获取至少一个预训练模型;基于预训练模型,获取新文本数据对的编码表示;基于待检测新闻文本中包含的事件及事件论元、实体、关键词,对各层CLS关系表示向量进行表示增强;对表示增强的各层CLS嵌入表示进行动态加权平均后,基于平均CLS嵌入表示预测该预训练模型对应的关系预测概率;对至少一个预训练模型对应的关系预测概率进行融合平均,得到待检测新闻文本的关系预测结果。本发明可以提高新闻脉络关系检测任务的准确率和泛化性能。
-
-
-
-
-
-
-