一种基于相似度正则的神经网络剪枝方法

    公开(公告)号:CN115796262A

    公开(公告)日:2023-03-14

    申请号:CN202211440959.8

    申请日:2022-11-17

    Abstract: 本发明公开了一种基于相似度正则的神经网络剪枝方法。本方法为:1)对待处理的神经网络进行预训练;2)对预训练后的神经网络进行剪枝:首先设定神经网络的稀疏度为s%;然后计算神经网络参数的第s分位数,将参数绝对值小于该第s分位数的参数全局置零,得掩码m;根据所得掩码m更新所述神经网络的权重矩阵w;3)对剪枝后的神经网络进行微调。本发明通过提高网络权重矩阵与0矩阵的余弦相似度来降低输出对输入的依赖,从而提高预测的鲁棒性,这样只有少部分输入参与最终的计算,而大部分输入都被抛弃;因此,不仅稀疏网络的预测性能获得了提升,神经网络也可以实现更高的稀疏度。

    一种基于词性标注的文档相似性度量方法

    公开(公告)号:CN109062899A

    公开(公告)日:2018-12-21

    申请号:CN201810857156.X

    申请日:2018-07-31

    CPC classification number: G06F17/2785 G06F17/277

    Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为:1)对于两待分析的文档doc1、doc2,使用词性标注工具对文档doc1、doc2进行词性标注,得到文档的词性标签,对词性标签进行编码,得到词性标签向量;2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离;3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确,可以被应用在信息检索、文本分类等自然语言处理任务中,能够大大提高文本分类任务的准确率。

    一种高效可扩展的安全的文档相似性计算方法和装置

    公开(公告)号:CN107885705A

    公开(公告)日:2018-04-06

    申请号:CN201710930206.8

    申请日:2017-10-09

    Abstract: 本发明涉及一种高效可扩展的安全的文档相似性计算方法和装置。该方法使用MinHash文档指纹算法将文档表示成固定数量指纹的指纹集合,既可以较好衡量文档间的相似性,又控制了指纹集合的规模;将多个指纹集合存储到multi-GBF中,不仅可以确定集合元素是否存在,还可以在查找时返回元素的多个来源ID;不经意多来源混淆布隆过滤器交集计算协议可以高效地在两方之间完成安全的文档相似性计算,又不互相暴露自己的私有数据给对方;采用本发明方法计算文档间的相似性的复杂度与文档集合的大小呈线性关系。

    一种文档多重数字水印嵌入、提取方法及装置

    公开(公告)号:CN103761459B

    公开(公告)日:2016-08-17

    申请号:CN201410035906.7

    申请日:2014-01-24

    Abstract: 本发明涉及一种文档多重数字水印嵌入、提取方法及装置,文档多重数字水印嵌入方法,包括以下步骤:获取用户输入的原始水印信息、密钥及待处理的文档;计算原始水印信息中的摘要信息,生成新水印信息;将原始水印信息和新水印信息共同作为一条数据库记录存入数据库;将文档中的字符划分为两层,根据文档第一层的字符总数、新水印信息位的长度,得到待嵌入文档第一层的新水印信息的组数,将多组新水印信息按照从前往后的顺序嵌入到文档第一层中的属性位中;按照从后往前的顺序将多组新水印信息嵌入到文档第二层中的属性位中。本发明基于Word格式文档的字符属性,使用密钥提高了安全性,重复嵌入加强了鲁棒性,多重嵌入提高了水印容量。

    一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置

    公开(公告)号:CN108595706B

    公开(公告)日:2022-05-24

    申请号:CN201810443084.4

    申请日:2018-05-10

    Abstract: 本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。

    一种用于流量监测的效果验证方法及系统

    公开(公告)号:CN112272121B

    公开(公告)日:2022-01-18

    申请号:CN202010995988.5

    申请日:2020-09-21

    Abstract: 本发明公开了一种用于流量监测的效果验证方法及系统。本方法为:1)样本管理模块根据样本测试需求选取协议类型并设置对应的配置项,构造所需样本数据包并上传给服务器;配置项中包含数据包唯一标识信息、测试文件和测试次数;2)服务器根据样本数据包的协议规范发送样本数据包以构造相应流量环境;3)检测处置模块根据该服务器所发送样本数据包的协议类型存储对应样本数据包的标识;以及获取该服务器的全量流量监测日志并解析,根据日志结构区分不同协议以获取对应的数据包标识;4)检测处置模块将从日志解析的数据包标识与存储的样本数据包标识进行匹配,得到该服务器所发送样本数据包的监测结果,该监测结果即为验证结果。

    一种基于词性标注的文档相似性度量方法

    公开(公告)号:CN109062899B

    公开(公告)日:2021-10-15

    申请号:CN201810857156.X

    申请日:2018-07-31

    Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为:1)对于两待分析的文档doc1、doc2,使用词性标注工具对文档doc1、doc2进行词性标注,得到文档的词性标签,对词性标签进行编码,得到词性标签向量;2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离;3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确,可以被应用在信息检索、文本分类等自然语言处理任务中,能够大大提高文本分类任务的准确率。

Patent Agency Ranking