一种基于监督主题模型的文本标签推荐方法

    公开(公告)号:CN107239564A

    公开(公告)日:2017-10-10

    申请号:CN201710442281.X

    申请日:2017-06-13

    Applicant: 南京大学

    CPC classification number: G06F17/30867 G06F17/2785

    Abstract: 本发明公开了一种基于监督主题模型的文本标签推荐方法,通过考虑了标签及其相关词频繁出现于对应文本的特点,给出了一个新的监督文本主题模型Sim2Word,从而较好地解决了文本关键词抽取方法预测效率低和文本主题分析方法预测准确率低的问题。本方法分为两个主要步骤,首先基于词向量技术获取已有标签的相关词数据,之后利用标签和相关词训练标签预测模型,最后基于模型预测新文本的标签。在收集于StackOverflow等真实数据集上的实验表明,该方法较传统的文本标签推荐技术具有更高识别准确率。

    一种基于补丁特征修正的二进制软件漏洞检测方法

    公开(公告)号:CN118503978A

    公开(公告)日:2024-08-16

    申请号:CN202410448459.1

    申请日:2024-04-15

    Applicant: 南京大学

    Inventor: 姚远 徐锋 郑捷

    Abstract: 本发明公开一种基于补丁特征修正的二进制软件漏洞检测方法,一、采集二进制漏洞数据、补丁数据;二、构建二进制代码相似度检测模型;三、构建基于补丁特征修正的漏洞检测系统。一内容通过使用反编译软件对漏洞、补丁二进制代码进行逆向分析,并构建二进制代码的控制流转移关系来实现;二中通过在二进制文件数据集上训练深度学习模型,来检测不同二进制文件之间的相似度;三内容通过二进制代码相似度检测模型来对比待检测方法、漏洞版本与补丁的差异,预测可能存在的漏洞,判断该漏洞是否已经被修复。本发明改进训练流程,额外引入补丁特征来对漏洞检测结果进行修正,相较于已有方法大幅提高了漏洞检测准确率。

    一种模型训练的方法、代码识别的方法及相应装置

    公开(公告)号:CN116187410A

    公开(公告)日:2023-05-30

    申请号:CN202111425345.8

    申请日:2021-11-26

    Abstract: 本申请公开了一种模型训练的方法及代码识别的方法,可以使用项目代码通过方法代码得到的路径‑上下文来训练关键性模型,然后使用该训练好的关键性模型识别待审查的项目代码中方法代码的关键性信息或者多个方法代码的关键性排序,从而辅助代码审查人员进行代码审查。本申请提供的方案,因为通过方法代码得到的路径‑上下文的粒度小,所以训练得到的关键性模型的准确度高,通过该关键性模型可以快速的输出多个方法代码的排序,从而提高了代码审查的速度。

    一种基于程序上下文的移动应用敏感行为描述生成方法

    公开(公告)号:CN114861221A

    公开(公告)日:2022-08-05

    申请号:CN202210462035.1

    申请日:2022-04-28

    Applicant: 南京大学

    Inventor: 姚远 徐锋 袁佳莉

    Abstract: 本发明公开了一种基于程序上下文的移动应用敏感行为描述生成方法。本方法包括移动应用程序敏感行为上下文提取、应用文档中敏感行为相关句子提取和补充、以及敏感行为描述生成。首先通过静态分析提取移动应用敏感行为上下文,再通过机器阅读理解和关键词匹配抽取应用文档中敏感行为的相关句子,最后基于提示学习生成敏感行为描述。本发明相比于现有方法,综合考虑了应用程序上下文与应用敏感行为的联系,解决了应用文档中敏感行为描述普遍缺失的问题,实现了移动应用敏感行为描述自动化生成。该方法将有效合理地为用户生成移动应用敏感行为描述,保障用户的知情权,有较大应用价值。

    一种基于提示学习的API误用缺陷修复方法

    公开(公告)号:CN114706789A

    公开(公告)日:2022-07-05

    申请号:CN202210453758.5

    申请日:2022-04-27

    Applicant: 南京大学

    Inventor: 郭新琛 姚远 徐锋

    Abstract: 本发明公开一种基于提示学习的API误用缺陷修复方法,本发明方法基于提示学习通过提供任务样例或者提示文字来指导预训练模型,从而避免了微调预训练模型的开销。主要分为提示生成和修复生成两个阶段。提示生成阶段,通过结合设计多修复模式和API误用缺陷程序生成缺陷提示,为预训练模型提供缺陷修复的样例;修复生成阶段,通过将缺陷提示作为预训练模型的输入,指导其根据缺陷提示为API误用缺陷生成修复方案。依据API误用缺陷的多修复模式提供了修复特定类型缺陷的知识,加上大规模预训练模型具有较强的代码生成能力,通过提供任务样例即可以完成特定缺陷修复任务,可使修复多种类型的API误用缺陷同时修复效率得到进一步提升。

    一种基于用户背景的社区问答网站标签推荐方法

    公开(公告)号:CN110188272A

    公开(公告)日:2019-08-30

    申请号:CN201910445656.7

    申请日:2019-05-27

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于用户背景的社区问答网站标签推荐方法。综合考虑了待推荐问题文本信息和用户背景信息及两者的关联性,将标签推荐问题建模为一个基于深度学习的多分类预测问题。方法的核心是深度神经网络模型PcTagger,通过动态建模用户背景信息,解决了已有个性化标签推荐方法中存在的用户背景静态建模难以匹配不同推荐任务的不足。模型主要包括:1)基于循环神经网络和注意力机制的文本特征建模;2)基于用户历史提问记录的用户背景影响动态建模;3)融合文本特征和用户背景影响的标签推荐。在真实数据集上的实验结果显示,与已有的同类标签推荐方法相比,本方法能够显著提高预测精度。

    一种基于精确化嵌入表示的开源软件开发团队扩展方法

    公开(公告)号:CN108549979A

    公开(公告)日:2018-09-18

    申请号:CN201810281538.2

    申请日:2018-04-02

    Applicant: 南京大学

    Abstract: 本发明公开一种基于精确化嵌入表示的开源软件开发团队扩展方法,着重考虑当前的软件项目、团队现有成员以及备选开发者三者之间的联系,将软件项目、团队现有成员以及备选开发者嵌入到一个地位的表示空间里,然后通过不断优化基于此构建的神经网络来精确化这些嵌入表示。首先,结合软件项目和现有成员的嵌入表示,并将其作为当前团队的整体状态;然后,通过推荐系统中的协同过滤思想来挖掘备选开发者和软件项目这两个嵌入表示之间的联系;最后,将项目领袖作为现有团队成员的代表,并利用开发者之间的社交关系来对备选开发者和团队成员的嵌入表示进行匹配。在开源软件社区Github之数据集上的实验表明,本方法比传统方法具有更好的预测效果,即能够找到更好的备选开发者。

    一种基于变异操作语义稳定性的API误用缺陷检测方法

    公开(公告)号:CN114579465A

    公开(公告)日:2022-06-03

    申请号:CN202210253375.3

    申请日:2022-03-15

    Applicant: 南京大学

    Inventor: 郭新琛 姚远 徐锋

    Abstract: 本发明公开了一种基于变异操作语义稳定性的API误用缺陷检测方法,针对API误用类缺陷,本发明利用特定的变异操作对待检测的代码注入可能的API误用错误,再利用正确代码中多次注入不同误用错误其语义稳定性要高于已存在API误用错误的代码,来区分正确代码和存在API误用错误的代码,从而达到检测API误用缺陷的目的。本发明的主要内容包括:1)提出了一个基于变异操作语义稳定性的API误用缺陷检测整体流程;2)提出了一种从源代码中提取API调用序列的方法;3)提出了一种针对API调用序列的基于变异操作的API误用错误注入方法;4)提出了一种基于自编码器的API调用序列语义特征编码方法;5)提出了一种基于相似语义归一化的语义稳定性评估方法。

    一种基于双层优化的推荐系统数据调试方法

    公开(公告)号:CN112507225B

    公开(公告)日:2021-09-28

    申请号:CN202011458884.7

    申请日:2020-12-11

    Applicant: 南京大学

    Inventor: 姚远 徐锋 陈龙

    Abstract: 本发明公开一种基于双层优化的推荐系统数据调试方法。首先,将训练数据划分成若干份不相交的数据子集;然后,每一份数据子集被用来作为验证集去调试剩余部分训练数据,则每一份数据子集都会得到若干份调试结果;最后,将若干份调试结果合并即得到最终的调试结果。实验表明,在根据本方法得到的调试结果对原始训练数据加以修改得到的新数据集上训练推荐模型,相比原始训练数据上训练得到的模型,具有更好的推荐性能。该方法能够优化原始训练数据以提升推荐系统的性能,具有很好的应用价值。

    一种基于双层优化的推荐系统数据调试方法

    公开(公告)号:CN112507225A

    公开(公告)日:2021-03-16

    申请号:CN202011458884.7

    申请日:2020-12-11

    Applicant: 南京大学

    Inventor: 姚远 徐锋 陈龙

    Abstract: 本发明公开一种基于双层优化的推荐系统数据调试方法。首先,将训练数据划分成若干份不相交的数据子集;然后,每一份数据子集被用来作为验证集去调试剩余部分训练数据,则每一份数据子集都会得到若干份调试结果;最后,将若干份调试结果合并即得到最终的调试结果。实验表明,在根据本方法得到的调试结果对原始训练数据加以修改得到的新数据集上训练推荐模型,相比原始训练数据上训练得到的模型,具有更好的推荐性能。该方法能够优化原始训练数据以提升推荐系统的性能,具有很好的应用价值。

Patent Agency Ranking