一种基于LSTM自动补全代码的方法

    公开(公告)号:CN108388425A

    公开(公告)日:2018-08-10

    申请号:CN201810230691.2

    申请日:2018-03-20

    Applicant: 北京大学

    Inventor: 李戈 金芝

    Abstract: 本发明提供了一种基于LSTM自动补全代码的方法,包括:源代码处理步骤,使用抽象语法树解析源代码;线下训练步骤,使用LSTM模型训练语言模型;线上代码补全步骤,根据训练过的语言模型补全代码。所述LSTM模型包括约束字符级LSTM和使用前上下文标识符编码器的标识符级LSTM。本发明实现了在编程过程中,任意地方输入任意字符都可以实现代码的自动补全,以及任意代码的推荐,并保证推荐过程的准确性。本发明的技术方案具有简单、快速的特点,能够较好地提高代码推荐的准确率和推荐效率。

    基于多维度领域关键知识的招聘信息匹配方法

    公开(公告)号:CN106447285A

    公开(公告)日:2017-02-22

    申请号:CN201610816684.1

    申请日:2016-09-12

    Applicant: 北京大学

    Inventor: 李戈 金芝 兰铮

    Abstract: 本发明公布了一种基于多维度领域关键知识的招聘信息匹配方法,通过抽取关键词、简历关键词与职位之间进行直接匹配、简历与职位关键词之间进行相关匹配,实现多维度的简历与职位的精准匹配;包括:抽取职位信息与简历信息中的关键词,用向量表示职位信息与简历信息;直接匹配得到直接匹配所得文本相似度分值;相关匹配得到相关匹配所得文本相似度分值;获得预测差异性的衡量指标;通过加权计算得到最终简历和职位的文本相似度分值,作为信息匹配结果,完成招聘信息匹配。本发明方法能够全面体现关键词之间、关键词组合所表达的信息和知识;有效提高职位与简历的匹配精度,降低招聘中HR的人力成本。

    基于病例库的疾病症状及其权重知识的获取和处理方法

    公开(公告)号:CN106372439A

    公开(公告)日:2017-02-01

    申请号:CN201610836533.2

    申请日:2016-09-21

    Applicant: 北京大学

    Inventor: 金芝 李戈 陆军

    Abstract: 本发明公布了一种基于病例库的疾病症状及其权重知识的获取和处理方法,以互联网上的海量病例库作为信息源,通过对信息源原始数据进行处理,自动获取疾病症状及其权重知识;包括:采取正则表达式进行HTML标签匹配,通过网络爬虫策略获取疾病症状原始数据;进行词语相似度计算和同义词识别获取医学词语相似度表和医学词语同义词表;进行分类、TF-IDF词频统计、无量纲化处理,获取疾病症状及其权重等多个参数,用于整体评价疾病与症状关系。采用本发明提供的技术方案,能够节省大量人力、财力和时间;得出的疾病症状及其权重结果更加合理;适用于导医系统和基于互联网的疾病自我预诊系统等场景。

    分类知识获取方法和装置
    14.
    发明公开

    公开(公告)号:CN103324692A

    公开(公告)日:2013-09-25

    申请号:CN201310219725.5

    申请日:2013-06-04

    Applicant: 北京大学

    Abstract: 本发明提供一种分类知识获取方法和装置,通过获取原始种子术语的第一相关文本,从第一相关文本中获取第一关联词汇,对第一关联词汇进行搜索,获取第二相关文本,根据原始种子术语所属领域,对第二相关文本进行筛选,得到第二相关文本中匹配所述领域的第一子集,判断所述第一子集与所述原始种子术语的领域相关度是否达到预设值,相当于判断获取第二相关文本所用的第一关联词汇的领域相关性,基于判断结果获取原始种子术语的分类知识,从而保证了获取的分类知识的领域相关性,因此,解决了获取的分类知识领域偏离的问题,进而提高了获取的分类知识的有效率。

    业务领域知识库构建方法和装置

    公开(公告)号:CN103324689A

    公开(公告)日:2013-09-25

    申请号:CN201310218398.1

    申请日:2013-06-04

    Applicant: 北京大学

    Abstract: 本发明提供一种业务领域知识库构建方法和装置,方法包括:创建业务领域的本体,所述业务领域的本体包括概念;分别以所述业务领域的本体中包括的所述概念为第一关键词,搜索与所述概念相关的信息条目;根据所述业务领域的本体所包括的概念构建所述业务领域的检索条目;在业务领域知识库中,在每个所述检索条目中存储内容对应的所述信息条目。本发明实施例有效解决了现有技术中,人们从现有知识库中搜索信息的效率较低的技术问题。

    程序注释方法和装置
    16.
    发明公开

    公开(公告)号:CN103324513A

    公开(公告)日:2013-09-25

    申请号:CN201310218270.5

    申请日:2013-06-04

    Applicant: 北京大学

    Abstract: 本发明提供一种程序注释方法和装置。其中,方法包括:获取与程序代码对应的多媒体注释文件;建立多媒体注释文件与程序代码之间的关联关系。通过采用多媒体注释文件对程序代码进行注释,以使程序维护人员根据程序代码中的多媒体注释文件,能够快速理解程序代码,提高了程序维护人员的维护效率。

    构件自动分类的方法
    17.
    发明公开

    公开(公告)号:CN101446903A

    公开(公告)日:2009-06-03

    申请号:CN200810240456.X

    申请日:2008-12-19

    Applicant: 北京大学

    Abstract: 本发明公开了一种构件自动分类的方法。该方法包括获取插件描述文件,所述插件描述文件中包括插件类名及保存有分类属性或者分类算法的插件数据包的信息;根据所述插件数据包的信息加载所述插件数据包;根据所述插件类名实例化所述插件数据包;根据所述插件数据包中的分类属性或者分类算法对构件进行分类。通过本发明可以对分类属性和分类算法进行扩展,避免现有分类属性和分类算法固定的问题。

    一种基于栈增强LSTM的程序表示方法

    公开(公告)号:CN109582296B

    公开(公告)日:2020-12-18

    申请号:CN201811220607.5

    申请日:2018-10-19

    Applicant: 北京大学

    Inventor: 李戈 金芝

    Abstract: 本发明提供了一种基于栈增强LSTM的程序表示方法,所述栈增强LSTM包括一个栈,所述栈增强LSTM开始访问所述程序,将所述栈增强LSTM的隐藏状态压入所述栈中;读取所述程序的代码块中所有的字符;返回所述栈顶部的隐藏状态;结合所述栈顶部的隐藏状态和前一个时间步的隐藏状态以得到所述程序的语境信息;基于所述语境信息表示所述程序。本发明的模型在代码补全、程序分类、代码概要生成三个程序分析任务中的表现都要优于传统的标准LSTM,这表明通过栈捕获程序的等级结构信息,能够帮助模型更加准确的表示程序语言。

    基于卷积神经网络的恶意APK的筛查方法

    公开(公告)号:CN106548073B

    公开(公告)日:2020-01-03

    申请号:CN201610934889.X

    申请日:2016-11-01

    Applicant: 北京大学

    Inventor: 李戈 金芝 刘雨轩

    Abstract: 本发明公布了一种基于卷积神经网络的恶意安卓安装包APK的筛查方法,应用深度卷积神经网络对APK建模,使用APK原始数据作为输入,采用APK的Call Graph,根据安全敏感函数或者高频率调用(出现)函数的调用,设计相应的深度卷积神经网络进行特征自动抽取,由此检测APK是否恶意;包括模型训练过程和用训练好的模型进行APK检测过程。本发明方法可减少人为提取特征的环节,从而减少分析时间,提高普适性,增加准确率。

    基于卷积神经网络的恶意APK的筛查方法

    公开(公告)号:CN106548073A

    公开(公告)日:2017-03-29

    申请号:CN201610934889.X

    申请日:2016-11-01

    Applicant: 北京大学

    Inventor: 李戈 金芝 刘雨轩

    Abstract: 本发明公布了一种基于卷积神经网络的恶意安卓安装包APK的筛查方法,应用深度卷积神经网络对APK建模,使用APK原始数据作为输入,采用APK的Call Graph,根据安全敏感函数或者高频率调用(出现)函数的调用,设计相应的深度卷积神经网络进行特征自动抽取,由此检测APK是否恶意;包括模型训练过程和用训练好的模型进行APK检测过程。本发明方法可减少人为提取特征的环节,从而减少分析时间,提高普适性,增加准确率。

Patent Agency Ranking