-
公开(公告)号:CN111209375A
公开(公告)日:2020-05-29
申请号:CN202010031467.8
申请日:2020-01-13
Applicant: 中国科学院信息工程研究所
IPC: G06F16/33 , G06F16/332
Abstract: 本发明公开了一种通用的条款与文档匹配方法,其步骤包括:1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一条款的多个查询语句;2)根据条款i的每一查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;3)对于每一条款i,根据条款i的标注数据集I训练得到该条款i的条款主题模型和条款分类模型;4)对于一待匹配条款的文档材料a,计算该文档材料a与每一条款的条款主题模型相似度和类别分类;5)根据返回的类别概率值和相似度计算各条款的匹配概率值,返回匹配概率最高的条款。本发明解决了条款与文档难以匹配的问题。
-
公开(公告)号:CN114157628A
公开(公告)日:2022-03-08
申请号:CN202111208786.2
申请日:2021-10-18
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于FCE算法的动态泄密风险评估方法及装置,包括获取待评估用户数据的风险项数据信息;基于风险项数据信息与各风险项的风险等级设定阈值,结合FCE算法进行模拟专家归一化打分,得到各风险项的打分数组;利用所述打分数组,构建用户综合风险特征矩阵;将专家设定的各风险项归一化得分数组与用户综合风险特征矩阵进行矩阵乘法,并根据矩阵乘法结果,获取待评估用户的综合风险等级。本发明根据用户实时数据,动态地进行研判并对泄密风险进行量化评估,得到的结果会更加偏向于业务人员的需求。
-
公开(公告)号:CN111209375B
公开(公告)日:2023-01-17
申请号:CN202010031467.8
申请日:2020-01-13
Applicant: 中国科学院信息工程研究所
IPC: G06F16/33 , G06F16/332
Abstract: 本发明公开了一种通用的条款与文档匹配方法,其步骤包括:1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一条款的多个查询语句;2)根据条款i的每一查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;3)对于每一条款i,根据条款i的标注数据集I训练得到该条款i的条款主题模型和条款分类模型;4)对于一待匹配条款的文档材料a,计算该文档材料a与每一条款的条款主题模型相似度和类别分类;5)根据返回的类别概率值和相似度计算各条款的匹配概率值,返回匹配概率最高的条款。本发明解决了条款与文档难以匹配的问题。
-
公开(公告)号:CN114461747A
公开(公告)日:2022-05-10
申请号:CN202210049778.6
申请日:2022-01-17
Applicant: 中国科学院信息工程研究所
IPC: G06F16/31 , G06F40/279 , G06N3/04 , G06N3/08 , G06N5/02
Abstract: 本发明公开了一种基于标签图抑制噪声数据影响的远程监督关系抽取方法及装置,包括基于实体对的原始标签,构建标签图;生成所述标签图的标签表示矩阵;收集包含目标实体对的句子sj,得到句子包;结合所述目标实体对在每一句子j中的位置与目标实体对的向量表示,计算每一句子sj的句子表示oj;计算所述标签l对于所述句子表示oj的权重αlj;对所述句子表示oj进行加权求和,得到所述句子包在所述标签l下的句子包表示bl;计算句子包表示bl在标签l下的分数gl;拼接所述分数gl,并基于得到的基本标签的分数向量gb,获取所述目标实体对的原始标签。本发明更好地解决了远程监督关系抽取任务中噪声数据影响模型训练的问题。
-
公开(公告)号:CN114461747B
公开(公告)日:2024-11-01
申请号:CN202210049778.6
申请日:2022-01-17
Applicant: 中国科学院信息工程研究所
IPC: G06F16/31 , G06F40/279 , G06N3/042 , G06N3/048 , G06N5/02 , G06N3/045 , G06N3/0464 , G06N3/0442 , G06N3/09
Abstract: 本发明公开了一种基于标签图抑制噪声数据影响的远程监督关系抽取方法及装置,包括基于实体对的原始标签,构建标签图;生成所述标签图的标签表示矩阵;收集包含目标实体对的句子sj,得到句子包;结合所述目标实体对在每一句子j中的位置与目标实体对的向量表示,计算每一句子sj的句子表示oj;计算所述标签l对于所述句子表示oj的权重αlj;对所述句子表示oj进行加权求和,得到所述句子包在所述标签l下的句子包表示bl;计算句子包表示bl在标签l下的分数gl;拼接所述分数gl,并基于得到的基本标签的分数向量gb,获取所述目标实体对的原始标签。本发明更好地解决了远程监督关系抽取任务中噪声数据影响模型训练的问题。
-
公开(公告)号:CN117994791A
公开(公告)日:2024-05-07
申请号:CN202311777086.4
申请日:2023-12-22
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种文本引导的多模态关系抽取方法及装置,所述方法包括:针对给定的图像,获得全局图像中的多个局部对象图像;获得给定文本的文本特征编码表示和该图像及局部对象图像的视觉特征编码表示;将文本特征编码表示作为视觉编码器的先验输入,基于自上而下的注意力机制,以后向解码反馈的方式,进一步引导视觉编码器学习与文本语义更相关的视觉特征编码表示;通过交叉注意力机制将文本特征编码表示和该与文本语义更相关的视觉特征编码表示融合,获得跨模态文本特征编码表示;基于跨模态文本特征编码表示进行关系分类,得到给定文本中两个实体之间的语义关系类型。本发明可以降低不相关视觉信息的干扰,提高关系抽取的准确率。
-
公开(公告)号:CN112272121B
公开(公告)日:2022-01-18
申请号:CN202010995988.5
申请日:2020-09-21
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种用于流量监测的效果验证方法及系统。本方法为:1)样本管理模块根据样本测试需求选取协议类型并设置对应的配置项,构造所需样本数据包并上传给服务器;配置项中包含数据包唯一标识信息、测试文件和测试次数;2)服务器根据样本数据包的协议规范发送样本数据包以构造相应流量环境;3)检测处置模块根据该服务器所发送样本数据包的协议类型存储对应样本数据包的标识;以及获取该服务器的全量流量监测日志并解析,根据日志结构区分不同协议以获取对应的数据包标识;4)检测处置模块将从日志解析的数据包标识与存储的样本数据包标识进行匹配,得到该服务器所发送样本数据包的监测结果,该监测结果即为验证结果。
-
公开(公告)号:CN112272121A
公开(公告)日:2021-01-26
申请号:CN202010995988.5
申请日:2020-09-21
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种用于流量监测的效果验证方法及系统。本方法为:1)样本管理模块根据样本测试需求选取协议类型并设置对应的配置项,构造所需样本数据包并上传给服务器;配置项中包含数据包唯一标识信息、测试文件和测试次数;2)服务器根据样本数据包的协议规范发送样本数据包以构造相应流量环境;3)检测处置模块根据该服务器所发送样本数据包的协议类型存储对应样本数据包的标识;以及获取该服务器的全量流量监测日志并解析,根据日志结构区分不同协议以获取对应的数据包标识;4)检测处置模块将从日志解析的数据包标识与存储的样本数据包标识进行匹配,得到该服务器所发送样本数据包的监测结果,该监测结果即为验证结果。
-
-
-
-
-
-
-