-
公开(公告)号:CN108595706B
公开(公告)日:2022-05-24
申请号:CN201810443084.4
申请日:2018-05-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。
-
公开(公告)号:CN109062899B
公开(公告)日:2021-10-15
申请号:CN201810857156.X
申请日:2018-07-31
Applicant: 中国科学院信息工程研究所
IPC: G06F40/30 , G06F40/284
Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为:1)对于两待分析的文档doc1、doc2,使用词性标注工具对文档doc1、doc2进行词性标注,得到文档的词性标签,对词性标签进行编码,得到词性标签向量;2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离;3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确,可以被应用在信息检索、文本分类等自然语言处理任务中,能够大大提高文本分类任务的准确率。
-
公开(公告)号:CN107885705B
公开(公告)日:2020-12-15
申请号:CN201710930206.8
申请日:2017-10-09
Applicant: 中国科学院信息工程研究所
IPC: G06F40/126 , G06F16/93
Abstract: 本发明涉及一种高效可扩展的安全的文档相似性计算方法和装置。该方法使用MinHash文档指纹算法将文档表示成固定数量指纹的指纹集合,既可以较好衡量文档间的相似性,又控制了指纹集合的规模;将多个指纹集合存储到multi‑GBF中,不仅可以确定集合元素是否存在,还可以在查找时返回元素的多个来源ID;不经意多来源混淆布隆过滤器交集计算协议可以高效地在两方之间完成安全的文档相似性计算,又不互相暴露自己的私有数据给对方;采用本发明方法计算文档间的相似性的复杂度与文档集合的大小呈线性关系。
-
公开(公告)号:CN108881369B
公开(公告)日:2020-09-29
申请号:CN201810373966.8
申请日:2018-04-24
Applicant: 中国科学院信息工程研究所
IPC: H04L29/08 , H04L12/947
Abstract: 本发明涉及一种基于面向数据内容的云消息中间件的数据交换方法和云消息中间件系统。该方法包括:1)在不同的管理机站部署基于云消息中间件的节点,由各个所述节点构成消息传输网络;2)在所述消息传输网络的各节点中部署基于数据内容的流触发器;3)通过所述消息传输网络实现跨IDC的数据交换,并通过所述流触发器实现面向内容的数据交换。本发明可以高效、稳定的进行跨IDC数据交换,同时利用基于内容的流触发器进行数据订阅,能根据数据内容进行按需转发,使消费者可以自主决定数据的流向并细粒度地获得所需的数据,提高了网络传输的质量,减小了网络负担。本发明提供的多种工作模式均能稳定使用,能够支撑起不同的应用场景。
-
公开(公告)号:CN108595706A
公开(公告)日:2018-09-28
申请号:CN201810443084.4
申请日:2018-05-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。
-
公开(公告)号:CN104966051B
公开(公告)日:2018-07-17
申请号:CN201510297257.2
申请日:2015-06-03
Applicant: 中国科学院信息工程研究所
IPC: G06K9/00
Abstract: 本发明公开了一种文档图像的版式识别方法,首先设计了一个版式入库功能,库中会保存版式内容,以及由版式内容相对字高、对齐方式生成的版式序列号,如果一张未知图片经过版式分析,得到的版式序列号与库中的某个版式序列号一样,那么将通过库中的提示信息去提取该未知图片的版式信息。本发明通过高效以及准确的版面分析方法来识别文档图片,尤其适用于中文公文文档图像的版式识别。
-
公开(公告)号:CN104794176A
公开(公告)日:2015-07-22
申请号:CN201510154872.8
申请日:2015-04-02
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出了一种基于多属性的误发邮件检测方法,包括以下步骤:从标记的多个邮件中提取内容特征属性、社会关系属性及通信行为属性;根据所述内容特征属性、社会关系属性及通信行为属性建立基于SVM分类模型;提取新邮件的内容属性、社会关系属性及通信行为属性,并用所述基于SVM分类模型进行检测,判断所述新邮件是否为误发邮件。本发明从内容特征、社会关系和通信行为等多种属性对用户的通信行为偏差建立通用检测模型,具有实施简单、准确率较高等优点。
-
公开(公告)号:CN104794170A
公开(公告)日:2015-07-22
申请号:CN201510147426.4
申请日:2015-03-30
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于指纹多重哈希布隆过滤器的网络取证内容溯源方法。该方法对捕获的原始网络流量数据包进行重组并构建应用层的会话;在每一个时间间隔内,将会话内容分块存储到增强版指纹多重哈希布隆过滤器中,并保存会话索引表,每一个分块不仅存储到基本布隆过滤器中,还串联会话索引存储到带会话索引的布隆过滤器中;收到查询请求后,使用相同的方法对所查询的摘录进行分块,然后在可能的时间间隔内的所有存档单元中检索,首先将得到的分块在基本布隆过滤器中查询,若能够查询到这些分块,则将得到的分块串联候选的会话索引,并在带会话索引的布隆过滤器中查询,得到传输该摘录的应用层信息。本发明能够提高网络取证内容溯源能力和准确性。
-
公开(公告)号:CN109145582A
公开(公告)日:2019-01-04
申请号:CN201810568923.5
申请日:2018-06-05
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F21/46 , G06F21/602 , H04L63/083
Abstract: 本发明涉及一种基于字节对编码的密码猜测集生成方法、密码破解方法及装置。该方法首先采用字节对编码对训练集密码进行分词,然后根据分词的结果,采用马尔可夫模型生成密码猜测集。进一步地,使用所述密码猜测集,通过进行字符串匹配来破解明文密码。本发明完全利用统计概率的思想对密码进行切分,并借用马尔可夫模型探究密码组成之间的关联,进而提高密码猜测效果和密码破解效率;用本发明生成的密码猜测集直接进行字符串匹配,可以更好地生成密码猜测集和评估密码的安全强度。
-
公开(公告)号:CN109062899A
公开(公告)日:2018-12-21
申请号:CN201810857156.X
申请日:2018-07-31
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
CPC classification number: G06F17/2785 , G06F17/277
Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为:1)对于两待分析的文档doc1、doc2,使用词性标注工具对文档doc1、doc2进行词性标注,得到文档的词性标签,对词性标签进行编码,得到词性标签向量;2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离;3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确,可以被应用在信息检索、文本分类等自然语言处理任务中,能够大大提高文本分类任务的准确率。
-
-
-
-
-
-
-
-
-