-
公开(公告)号:CN115796262A
公开(公告)日:2023-03-14
申请号:CN202211440959.8
申请日:2022-11-17
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于相似度正则的神经网络剪枝方法。本方法为:1)对待处理的神经网络进行预训练;2)对预训练后的神经网络进行剪枝:首先设定神经网络的稀疏度为s%;然后计算神经网络参数的第s分位数,将参数绝对值小于该第s分位数的参数全局置零,得掩码m;根据所得掩码m更新所述神经网络的权重矩阵w;3)对剪枝后的神经网络进行微调。本发明通过提高网络权重矩阵与0矩阵的余弦相似度来降低输出对输入的依赖,从而提高预测的鲁棒性,这样只有少部分输入参与最终的计算,而大部分输入都被抛弃;因此,不仅稀疏网络的预测性能获得了提升,神经网络也可以实现更高的稀疏度。
-
公开(公告)号:CN109145582A
公开(公告)日:2019-01-04
申请号:CN201810568923.5
申请日:2018-06-05
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F21/46 , G06F21/602 , H04L63/083
Abstract: 本发明涉及一种基于字节对编码的密码猜测集生成方法、密码破解方法及装置。该方法首先采用字节对编码对训练集密码进行分词,然后根据分词的结果,采用马尔可夫模型生成密码猜测集。进一步地,使用所述密码猜测集,通过进行字符串匹配来破解明文密码。本发明完全利用统计概率的思想对密码进行切分,并借用马尔可夫模型探究密码组成之间的关联,进而提高密码猜测效果和密码破解效率;用本发明生成的密码猜测集直接进行字符串匹配,可以更好地生成密码猜测集和评估密码的安全强度。
-
公开(公告)号:CN109062899A
公开(公告)日:2018-12-21
申请号:CN201810857156.X
申请日:2018-07-31
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
CPC classification number: G06F17/2785 , G06F17/277
Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为:1)对于两待分析的文档doc1、doc2,使用词性标注工具对文档doc1、doc2进行词性标注,得到文档的词性标签,对词性标签进行编码,得到词性标签向量;2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离;3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确,可以被应用在信息检索、文本分类等自然语言处理任务中,能够大大提高文本分类任务的准确率。
-
公开(公告)号:CN107885705A
公开(公告)日:2018-04-06
申请号:CN201710930206.8
申请日:2017-10-09
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种高效可扩展的安全的文档相似性计算方法和装置。该方法使用MinHash文档指纹算法将文档表示成固定数量指纹的指纹集合,既可以较好衡量文档间的相似性,又控制了指纹集合的规模;将多个指纹集合存储到multi-GBF中,不仅可以确定集合元素是否存在,还可以在查找时返回元素的多个来源ID;不经意多来源混淆布隆过滤器交集计算协议可以高效地在两方之间完成安全的文档相似性计算,又不互相暴露自己的私有数据给对方;采用本发明方法计算文档间的相似性的复杂度与文档集合的大小呈线性关系。
-
公开(公告)号:CN106570391A
公开(公告)日:2017-04-19
申请号:CN201610990079.6
申请日:2016-11-10
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F21/45 , G06F21/31 , G06F21/46 , G06F21/602 , H04L63/083
Abstract: 本发明公开了一种基于记忆组块的密码猜测集生成方法及数字密码破解方法。本方法为:1)对训练集中的数字密码按记忆组块进行分割,提取数字密码的组成结构和组成片段;2)根据每种记忆组块在该训练集中的频数,计算得到每种记忆组块在训练集中的概率,以及每个数字密码的组合方式的概率;3)将每个数字密码最大概率的组合方式作为该数字密码的分割方式,然后根据记忆组块的频数更新该记忆组块的概率并计算组成结构的概率;4)将记忆组块应用到PCFGs语法中:将组成结构作为非终端结构,将记忆组块作为终端词;5)根据步骤4)得到的基于记忆组块的PCFGs语法,按照概率降序生成密码猜测集;6)根据该密码猜测集进行密码破解。
-
公开(公告)号:CN103761459B
公开(公告)日:2016-08-17
申请号:CN201410035906.7
申请日:2014-01-24
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种文档多重数字水印嵌入、提取方法及装置,文档多重数字水印嵌入方法,包括以下步骤:获取用户输入的原始水印信息、密钥及待处理的文档;计算原始水印信息中的摘要信息,生成新水印信息;将原始水印信息和新水印信息共同作为一条数据库记录存入数据库;将文档中的字符划分为两层,根据文档第一层的字符总数、新水印信息位的长度,得到待嵌入文档第一层的新水印信息的组数,将多组新水印信息按照从前往后的顺序嵌入到文档第一层中的属性位中;按照从后往前的顺序将多组新水印信息嵌入到文档第二层中的属性位中。本发明基于Word格式文档的字符属性,使用密钥提高了安全性,重复嵌入加强了鲁棒性,多重嵌入提高了水印容量。
-
公开(公告)号:CN114461747B
公开(公告)日:2024-11-01
申请号:CN202210049778.6
申请日:2022-01-17
Applicant: 中国科学院信息工程研究所
IPC: G06F16/31 , G06F40/279 , G06N3/042 , G06N3/048 , G06N5/02 , G06N3/045 , G06N3/0464 , G06N3/0442 , G06N3/09
Abstract: 本发明公开了一种基于标签图抑制噪声数据影响的远程监督关系抽取方法及装置,包括基于实体对的原始标签,构建标签图;生成所述标签图的标签表示矩阵;收集包含目标实体对的句子sj,得到句子包;结合所述目标实体对在每一句子j中的位置与目标实体对的向量表示,计算每一句子sj的句子表示oj;计算所述标签l对于所述句子表示oj的权重αlj;对所述句子表示oj进行加权求和,得到所述句子包在所述标签l下的句子包表示bl;计算句子包表示bl在标签l下的分数gl;拼接所述分数gl,并基于得到的基本标签的分数向量gb,获取所述目标实体对的原始标签。本发明更好地解决了远程监督关系抽取任务中噪声数据影响模型训练的问题。
-
公开(公告)号:CN108595706B
公开(公告)日:2022-05-24
申请号:CN201810443084.4
申请日:2018-05-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。
-
公开(公告)号:CN112272121B
公开(公告)日:2022-01-18
申请号:CN202010995988.5
申请日:2020-09-21
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种用于流量监测的效果验证方法及系统。本方法为:1)样本管理模块根据样本测试需求选取协议类型并设置对应的配置项,构造所需样本数据包并上传给服务器;配置项中包含数据包唯一标识信息、测试文件和测试次数;2)服务器根据样本数据包的协议规范发送样本数据包以构造相应流量环境;3)检测处置模块根据该服务器所发送样本数据包的协议类型存储对应样本数据包的标识;以及获取该服务器的全量流量监测日志并解析,根据日志结构区分不同协议以获取对应的数据包标识;4)检测处置模块将从日志解析的数据包标识与存储的样本数据包标识进行匹配,得到该服务器所发送样本数据包的监测结果,该监测结果即为验证结果。
-
公开(公告)号:CN109062899B
公开(公告)日:2021-10-15
申请号:CN201810857156.X
申请日:2018-07-31
Applicant: 中国科学院信息工程研究所
IPC: G06F40/30 , G06F40/284
Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为:1)对于两待分析的文档doc1、doc2,使用词性标注工具对文档doc1、doc2进行词性标注,得到文档的词性标签,对词性标签进行编码,得到词性标签向量;2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离;3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确,可以被应用在信息检索、文本分类等自然语言处理任务中,能够大大提高文本分类任务的准确率。
-
-
-
-
-
-
-
-
-