-
-
公开(公告)号:CN103544326A
公开(公告)日:2014-01-29
申请号:CN201310567555.X
申请日:2013-11-14
Applicant: 上海交通大学
CPC classification number: G06F17/2765
Abstract: 本发明提供了一种基于译文特征与内容的中英文跨语种抄袭识别方法,包括:第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备;第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标;第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值;第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。
-