-
公开(公告)号:CN110532377B
公开(公告)日:2021-09-14
申请号:CN201910395284.1
申请日:2019-05-13
Applicant: 南京大学
Abstract: 本发明公开了一种基于对抗训练和对抗学习网络的半监督文本分类方法,在初始化网络阶段,首先初始化预测网络,其次初始化评判网络;对抗学习训练阶段,通过预测网络和评判网络的对抗作用,利用policy gradient策略对预测网络进行不断的优化,直至达到最优的效果;模型预测阶段,使用已经训练好的预测网络对新样本的标签进行预测。该方法利用对抗训练可以有效提高模型的正则化能力,增强模型的鲁棒性,同时借鉴对抗学习可以直接利用未标记样本进行模型的训练,通过对抗学习网络中子网络间的对抗作用不断迭代,能有效提高网络的分类性能。
-
公开(公告)号:CN113360596A
公开(公告)日:2021-09-07
申请号:CN202110634912.4
申请日:2021-06-08
Applicant: 南京大学
IPC: G06F16/31 , G06F16/332 , G06F16/33 , G06F16/335 , G06F16/951 , G06F40/194 , G06F40/279
Abstract: 本发明提出了一种基于tf‑idf和倒排索引的众测助理实现方法。数据采集阶段,从百度问答中爬取问答数据集,在爬取过程中进行筛选;数据预处理阶段,对每一个问题进行分词,并计算每一个词的频率,获得每个句子的tf‑idf向量表示;输入预处理阶段,对用户的输入进行分词,若涉及到不合适的词,如敏感词,政治词,则不予返回,将用户的输入去除停用词后转化为tf‑idf向量表示;答案返回阶段,利用倒排索引获得与输入相关的候选问题,计算输入与候选问题的相似度,并将相似度最高的k个问题的答案返回给用户作为结果。本发明利用倒排索引的思想加快了查找相似问题的效率,能应对问答对增加带来的内存爆炸问题。
-
公开(公告)号:CN107423282B
公开(公告)日:2020-07-28
申请号:CN201710372958.7
申请日:2017-05-24
Applicant: 南京大学
IPC: G06F40/30 , G06F40/211 , G06F40/216
Abstract: 本发明提供一种基于混合特征的文本中语义连贯性主题与词向量并发提取方法,从而能够同时解决LDA主题模型中忽略局部上下文信息与词向量中忽略文档与词的互信息的缺陷。包括以下步骤:1)上下文依赖的主题预分配阶段;2)基于主题的词向量重构阶段;3)混合文档生成阶段;本发明基于混合特征的文本中语义连贯性主题与词向量并发提取方法能够在现有的生成式概率主题模型与词嵌入等相关技术的基础上,混合利用文本中的全局文档与词的统计信息以及局部的上下文词序与依赖信息,在提取出语义连贯的主题词分布的同时,为不同文档中的词生成不同的主题相关的词向量,有效解决同一词在不同主题下的歧义问题。
-
公开(公告)号:CN110532395A
公开(公告)日:2019-12-03
申请号:CN201910395662.6
申请日:2019-05-13
Applicant: 南京大学
Abstract: 本发明公开了一种基于语义嵌入的词向量改进模型的建立方法,包含如下步骤:1)双向长短期记忆网络训练阶段;2)上下文向量计算阶段:将句子和目标单词t输入步骤1训练好的双向长短期记忆网络中,求得上下文向量;3)上下文向量语义聚类阶段:a使用余弦相似度计算当前的上下文向量和单词t每个语义簇中心相似度;b使用贝叶斯非参数统计模型计算当前上下文向量归属为的类簇的概率P;c最大化P值并求出该值对应的类簇;c对当前上下文向量归属的类簇中心进行偏移;4)语义向量计算阶段。本发明利用神经网络和贝叶斯非参数统计方法为解决了当前词向量模型无法解决单词存在的一词多义问题。
-
公开(公告)号:CN110134786A
公开(公告)日:2019-08-16
申请号:CN201910397064.2
申请日:2019-05-14
Applicant: 南京大学
Abstract: 本发明公开了一种基于主题词向量与卷积神经网络的短文本分类方法,包括如下步骤:1)数据采集阶段:根据需求采集短文本数据,对其进行标签标注,作为训练集;2)数据预处理阶段:对文本进行分词,去停用词,无用文本过滤等;3)短文本特征表示,主题层面与词向量层面分别进行表征;4)主题词向量联合训练;5)卷积神经网络分类模型参数优化,迭代;6)新样本进行类别预测。本发明结合短文本数据特点,在特征表示阶段利用主题向量与词向量结合表示,对短文本自身数据特点进行语义特征扩展,在分类模型训练阶段利用卷积神经网络对局部敏感信息抽取能力进一步对文本语义信息进行挖掘,能够对短文本分类任务类别预测准确率等指标进行提高。
-
公开(公告)号:CN104794192B
公开(公告)日:2018-06-08
申请号:CN201510185479.5
申请日:2015-04-17
Applicant: 南京大学
IPC: G06F17/30
Abstract: 一种基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,包括如下步骤:统计检测阶段:a)根据应用场景确定关键特征集合;b)对于离散特征,用滑动窗口分布直方图建模,对于连续特征用指数平滑建模;c)周期性输入各个关键特征的观测值;d)结束。集成学习训练阶段:a)利用已经标记的正常和异常样例,组成训练数据集合;b)训练随机森林分类模型;和集成学习分类阶段;本发明为包含时序特性和复杂行为模式的异常检测问题提供了一个通用框架,适合在线常驻检测,集成学习阶段使用随机森林模型具有可并行化、泛化能力强的特点,该方法可运用于如电信行业业务违规检测、金融行业信用卡欺诈检测、网络攻击检测等多个场景。
-
公开(公告)号:CN104794193B
公开(公告)日:2018-04-03
申请号:CN201510185493.5
申请日:2015-04-17
Applicant: 南京大学
IPC: G06F17/30
Abstract: 有效链接获取的网页增量抓取方法,包括如下步骤:1)有效链接获取阶段:a初始化抓取网页链接,指定抓取入口URL;b判断入口网页链接是否具有分页;c计算入口网页与其分页的公共链接;d通过公共链接获取有效链接;e结束;2)增量抓取阶段:a构建布隆过滤器,并通过布隆过滤器判断步骤1)‑d中有效网页链接是否已经抓取;b通过HTTP请求抓取未抓取的网页;c结束;本发明采用过滤无效链接获取有效的网页链接,并构建布隆过滤器维持已抓取链接集合,通过随机哈希判断网页是否抓取实现增量抓取。通过过滤无效链接,避免无效网页的抓取。
-
公开(公告)号:CN104820945A
公开(公告)日:2015-08-05
申请号:CN201510186252.2
申请日:2015-04-17
Applicant: 南京大学
IPC: G06Q50/00
Abstract: 基于复杂网络社团发现算法的信息传播最大化方法,包括如下步骤:1)复杂网络生成阶段:预处理从在线社会网络上爬取到的数据变为有向带权图;模型训练阶段:a)利用社团发现算法对复杂网络进行社团发现。b)为每一个社团,输出对应的子图。c)为每一个子图进行不同种子节点选取实验。d)利用所产生数据进行训练模型,并把得到的模型保存到指定区域以待使用。2)种子节点选取阶段:a)要进行挖掘的原始复杂网络分割为不同的社团,并生成对应子图。b)导入模型训练阶段训练好的预测。c)利用预测模型计算出每个子图应分配到几个种子节点进行挖掘。复杂网络数据中选取最具传播能力节点时的时间效率。具有选取结果优,数据处理速度快等优点。
-
公开(公告)号:CN104794193A
公开(公告)日:2015-07-22
申请号:CN201510185493.5
申请日:2015-04-17
Applicant: 南京大学
IPC: G06F17/30
Abstract: 有效链接获取的网页增量抓取方法,包括如下步骤:1)有效链接获取阶段:a.初始化抓取网页链接,指定抓取入口URL;b.判断入口网页链接是否具有分页;c.计算入口网页与其分页的公共链接;d.通过公共链接获取有效链接;e.结束;2)增量抓取阶段:a.构建布隆过滤器,并通过布隆过滤器判断步骤1)-d中有效网页链接是否已经抓取;b.通过HTTP请求抓取未抓取的网页;c.结束;本发明采用过滤无效链接获取有效的网页链接,并构建布隆过滤器维持已抓取链接集合,通过随机哈希判断网页是否抓取实现增量抓取。通过过滤无效链接,避免无效网页的抓取。
-
公开(公告)号:CN101977180B
公开(公告)日:2013-06-19
申请号:CN201010265437.X
申请日:2010-08-21
Applicant: 南京大学 , 江苏南大苏富特科技股份有限公司
IPC: H04L29/06
Abstract: 一种基于漏洞攻击的安全协议验证方法,方法采用安全协议一致性目标来描述安全协议的认证性与秘密性安全属性,使用基于进程状态变迁规则定义与数据类型映射模式的方式实现对安全协议的建模。本方法将对安全协议的验证转换成攻击者基于会话消息的性质约束,求解目标会话数据,攻击协议会话,发现安全协议漏洞的过程。本方法通过对安全协议的建模,实现攻击者由安全协议规则约束出发,通过拆分约束形成求解目标,并由求解过程形成求解域,最终实现对安全协议漏洞的搜索与验证。实验证明,本方法针对规则安全协议具备可终止性。
-
-
-
-
-
-
-
-
-