多协议网络文件内容检查方法

    公开(公告)号:CN103617156A

    公开(公告)日:2014-03-05

    申请号:CN201310567527.8

    申请日:2013-11-14

    Abstract: 本发明提供了一种多协议网络文件内容检查方法,用于基于简化特征的一类特征向量机来检测网络流量中的敏感信息;多协议网络文件内容检查方法包括:首先识别数据包的网络协议,进行数据包重组、解码、文本提取和复原;然后,对于复原的文本进行分词,使用特征简约算法提取特征向量,并进行分类。特征简约算法分别包括基于文档频率方法、信息增益方法、开方拟和检验方法。

    基于译文特征与内容的中英文跨语种抄袭识别方法

    公开(公告)号:CN103544326A

    公开(公告)日:2014-01-29

    申请号:CN201310567555.X

    申请日:2013-11-14

    CPC classification number: G06F17/2765

    Abstract: 本发明提供了一种基于译文特征与内容的中英文跨语种抄袭识别方法,包括:第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备;第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标;第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值;第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。

Patent Agency Ranking