-
公开(公告)号:CN118760772A
公开(公告)日:2024-10-11
申请号:CN202410736212.X
申请日:2024-06-07
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于多视图蒸馏增强的实体链接方法。本方法包括:1)多视图实体表征:将每个实体原本篇章级的文本描述分成多个句子级的视图,对每一视图独立地经过语言模型进行编码,得到每一句子视图对应的向量表征;从中选择一个和提及最相关的视图的向量表征作为实体的向量表征,以避免与提及无关的信息被引入到实体表征中;2)多视图蒸馏增强:在引入了细粒度的视图表征后,通过交叉对齐和自对齐机制,分别在原始的实体层次以及细粒度的视图层次两个维度上对齐学生模型和教师模型间的相关性分数分布,从而促进教师模型到学生模型的细粒度知识蒸馏。本发明促进了实体链接系统的整体性能的提升。
-
公开(公告)号:CN115858798A
公开(公告)日:2023-03-28
申请号:CN202210651618.9
申请日:2022-06-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F40/295 , G06F40/30
Abstract: 本发明涉及一种面向维基百科文本数据的事理图谱构建方法和系统,属于文本数据挖掘领域。该方法包括以下步骤:获取维基百科的数据并将其解析为纯文本的形式;使用语义角色标注技术抽取维基百科数据中的事件简介;使用命名实体识别技术对维基百科数据的事件中的人物、地点、机构进行抽取;使用正则表达式匹配技术对维基百科数据的事件中的时间进行抽取;将抽取的事件简介、人物、地点、机构和时间构造为事理图谱。本发明实现了从数据获取、事件抽取、事件论元抽取到图谱构建的相关技术流程,能够帮助研究和分析事件的基本信息和演化过程。
-
公开(公告)号:CN115114427A
公开(公告)日:2022-09-27
申请号:CN202210279929.7
申请日:2022-03-21
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
Abstract: 本发明公开一种基于预训练和多任务学习的文本摘要和关键词抽取方法,属于文本信息抽取领域,基于预训练语言模型在抽取任务上进行针对性的进一步微调,并在关键词抽取任务与摘要抽取任务的协作下用于抽取关键词和摘要。本发明能够解决现有文本关键词抽取和摘要抽取技术存在的准确率和召回率低的问题。
-
公开(公告)号:CN114021627A
公开(公告)日:2022-02-08
申请号:CN202111239649.5
申请日:2021-10-25
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
Abstract: 本发明公开了一种融合LSTM与场景规则知识的异常轨迹检测方法及装置,包括依据目标轨迹构建时序序列;将时序序列输入LSTM网络,获取的目标轨迹中每个时刻的位置隐向量,并基于各位置隐向量进行注意力机制计算,得到目标轨迹表示向量;拼接目标轨迹表示向量与设定场景规则的向量,并对拼接后向量进行分类,得到异常轨迹检测结果。本发明采用的融合方法除了使用向量表示轨迹之外,还加入了可调整的应用场景规则,解决单一方法的不足,具有更好的迁移性。
-
公开(公告)号:CN118760772B
公开(公告)日:2025-04-01
申请号:CN202410736212.X
申请日:2024-06-07
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于多视图蒸馏增强的实体链接方法。本方法包括:1)多视图实体表征:将每个实体原本篇章级的文本描述分成多个句子级的视图,对每一视图独立地经过语言模型进行编码,得到每一句子视图对应的向量表征;从中选择一个和提及最相关的视图的向量表征作为实体的向量表征,以避免与提及无关的信息被引入到实体表征中;2)多视图蒸馏增强:在引入了细粒度的视图表征后,通过交叉对齐和自对齐机制,分别在原始的实体层次以及细粒度的视图层次两个维度上对齐学生模型和教师模型间的相关性分数分布,从而促进教师模型到学生模型的细粒度知识蒸馏。本发明促进了实体链接系统的整体性能的提升。
-
公开(公告)号:CN115858798B
公开(公告)日:2024-11-19
申请号:CN202210651618.9
申请日:2022-06-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F40/295 , G06F40/30
Abstract: 本发明涉及一种面向维基百科文本数据的事理图谱构建方法和系统,属于文本数据挖掘领域。该方法包括以下步骤:获取维基百科的数据并将其解析为纯文本的形式;使用语义角色标注技术抽取维基百科数据中的事件简介;使用命名实体识别技术对维基百科数据的事件中的人物、地点、机构进行抽取;使用正则表达式匹配技术对维基百科数据的事件中的时间进行抽取;将抽取的事件简介、人物、地点、机构和时间构造为事理图谱。本发明实现了从数据获取、事件抽取、事件论元抽取到图谱构建的相关技术流程,能够帮助研究和分析事件的基本信息和演化过程。
-
公开(公告)号:CN115269833B
公开(公告)日:2024-08-16
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06F18/23213 , G06F18/24 , G06F18/25
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN118332101A
公开(公告)日:2024-07-12
申请号:CN202410400400.5
申请日:2024-04-03
Applicant: 中国科学院信息工程研究所
IPC: G06F16/34 , G06F40/30 , G06N3/0442 , G06N3/08 , G06F16/35
Abstract: 本发明属于文本信息抽取领域,涉及一种基于分层迭代的长文本抽取式摘要生成方法和装置。该方法包括:获取文本中字符的词向量、位置向量以及结构子标题向量,将其相加作为语义编码的输入,采用长文本预训练语言模型作为语义编码器,进行语义编码;将语义编码之后的向量送入各个层级编码器中,将语义信息沿着文本结构路线由句子层级至文档层级进行分层传递,然后从文档层级至句子层级再次进行分层传递,实现迭代更新,得到各个层级的隐层表示;通过融合各个层级的隐层表示全面地对每个句子进行评价,选出最优的摘要句。本发明能够克服现有抽取式摘要面向长文本时计算资源消耗大,存在语义损失以及长文本结构建模缺失的问题。
-
公开(公告)号:CN114021627B
公开(公告)日:2025-04-22
申请号:CN202111239649.5
申请日:2021-10-25
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F18/25 , G06F18/2411 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种融合LSTM与场景规则知识的异常轨迹检测方法及装置,包括依据目标轨迹构建时序序列;将时序序列输入LSTM网络,获取的目标轨迹中每个时刻的位置隐向量,并基于各位置隐向量进行注意力机制计算,得到目标轨迹表示向量;拼接目标轨迹表示向量与设定场景规则的向量,并对拼接后向量进行分类,得到异常轨迹检测结果。本发明采用的融合方法除了使用向量表示轨迹之外,还加入了可调整的应用场景规则,解决单一方法的不足,具有更好的迁移性。
-
公开(公告)号:CN114626425B
公开(公告)日:2024-11-08
申请号:CN202011456860.8
申请日:2020-12-10
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F18/22 , G06F40/30 , G06F40/284 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/084
Abstract: 本发明提供一种面向噪声文本的多视角交互匹配方法及电子装置,包括对两段待匹配噪声文本分别编码,得到两段编码向量序列,并向两段编码向量序列的每个编码向量中加入位置信息;对加入位置信息的两段编码向量序列进行内部交互,分别得到两段内部交互结果;对两段内部交互结果进行外部交互,分别构建两个双向的噪声文本交互矩阵;拼接两个噪声文本交互矩阵,判断两个待匹配噪声文本是否匹配。本发明采用注意力机制捕获噪声文本之间的双向匹配模式,受噪声文本中句子的逻辑顺序影响较小,增加文本有效语义单词影响,提高模型时间效率及噪声文本匹配效果,避免传递匹配问题。
-
-
-
-
-
-
-
-
-