-
公开(公告)号:CN110297891A
公开(公告)日:2019-10-01
申请号:CN201910333734.4
申请日:2019-04-24
Applicant: 南京邮电大学
IPC: G06F16/332 , G06F17/27
Abstract: 一种面向程序设计答疑系统的知识库检索方法,获取学生检索的问题;系统对检索的问题和知识库中问题进行处理获取代码文本;再对代码文本进行预处理,将文本替换后获取标记串及文本属性度量向量;根据simhash算法对标记串分别进行词频计算,将词汇作为文本特征,词频作为特征的权重,计算出对应权重,并获取标记串的全文哈希值,根据哈希值计算出文本相似程度;根据文本属性度量向量计算出余弦相似度;根据标记串计算出文本匹配度;余弦相似度和文本匹配度通过Sim-win三权法计算出检索问题与知识库问题中的代码文本相似度,并将知识库中存储的问题由高到低排列。该方法通过加权的方式将sim-win三权法、Simhash算法和Winnowing算法融合,有效提升了代码文本相似度计算的准确率。