-
公开(公告)号:CN114418253A
公开(公告)日:2022-04-29
申请号:CN202110664342.3
申请日:2021-06-16
Applicant: 南京大学
Abstract: 本发明公开了一种基于图神经网络的自适应众包任务推荐方法,获取真实应用场景中的众包任务对象集合和推荐人群集合,根据众包任务对象和推荐人群依据经典KNN方法构建出众包网络图结构和推荐人群网络图结构;利用图神经网络方法GCN分别在众包网络图结构、推荐人群网络图结构上进行多轮信息传播,对众包任务以及推荐人进行任务嵌入表示和推荐人嵌入表示学习;递归的进行嵌入表示学习操作,多轮学习后,将得到的众包嵌入表示和推荐人嵌入表示采用t‑SNE映射到同一空间当中,根据邻近原则,将对应的任务推荐到具体到个人。本发明不仅可精准推荐众包任务到个人,而且比传统的众包任务推荐方法更加高效且准确,且更加科学合理。
-
公开(公告)号:CN110134786B
公开(公告)日:2021-09-10
申请号:CN201910397064.2
申请日:2019-05-14
Applicant: 南京大学
Abstract: 本发明公开了一种基于主题词向量与卷积神经网络的短文本分类方法,包括如下步骤:1)数据采集阶段:根据需求采集短文本数据,对其进行标签标注,作为训练集;2)数据预处理阶段:对文本进行分词,去停用词,无用文本过滤等;3)短文本特征表示,主题层面与词向量层面分别进行表征;4)主题词向量联合训练;5)卷积神经网络分类模型参数优化,迭代;6)新样本进行类别预测。本发明结合短文本数据特点,在特征表示阶段利用主题向量与词向量结合表示,对短文本自身数据特点进行语义特征扩展,在分类模型训练阶段利用卷积神经网络对局部敏感信息抽取能力进一步对文本语义信息进行挖掘,能够对短文本分类任务类别预测准确率等指标进行提高。
-
公开(公告)号:CN104820680B
公开(公告)日:2018-04-06
申请号:CN201510183709.4
申请日:2015-04-17
Applicant: 南京大学
IPC: G06F17/30
Abstract: 一种通用型分布式爬虫调度系统,包括控制器和爬虫器,控制器包含显示模块和调度模块,其中显示模块用于查看各种任务进展信息、日志以及触发对爬虫器的控制,调度模块包含通信区、维持区、数据保持区、数据缓存区;爬虫器包含爬取模块和调度模块,其中爬取模块实现具体的爬虫功能;调度模块包含通信区、维持区、数据保持区、数据缓存区;调度模块中的通信区之间采用Socket长连接异步通信方式完成互联;针对大数据时代获取数据效率低,存在丢失等问题,提出普适型、通用型的分布式爬虫系统框架,在保证爬取过程高速、有效、准确的同时兼容多样化的爬取策略。
-
公开(公告)号:CN104820680A
公开(公告)日:2015-08-05
申请号:CN201510183709.4
申请日:2015-04-17
Applicant: 南京大学
IPC: G06F17/30
Abstract: 一种通用型分布式爬虫调度系统,包括控制器和爬虫器,控制器包含显示模块和调度模块,其中显示模块用于查看各种任务进展信息、日志以及触发对爬虫器的控制,调度模块包含通信区、维持区、数据保持区、数据缓存区;爬虫器包含爬取模块和调度模块,其中爬取模块实现具体的爬虫功能;调度模块包含通信区、维持区、数据保持区、数据缓存区;调度模块中的通信区之间采用Socket长连接异步通信方式完成互联;针对大数据时代获取数据效率低,存在丢失等问题,提出普适型、通用型的分布式爬虫系统框架,在保证爬取过程高速、有效、准确的同时兼容多样化的爬取策略。
-
公开(公告)号:CN108647191A
公开(公告)日:2018-10-12
申请号:CN201810473308.6
申请日:2018-05-17
Applicant: 南京大学
Abstract: 本发明提出一种基于有监督情感文本和词向量的情感词典构建方法,包括数据处理阶段、词向量情感嵌入阶段、情感词典生成阶段共三个阶段。本方法使用神经网络生成词向量,将情感嵌入到词向量内部,挖掘词与词之间的内在联系,然后构建词关系图,使用标签传播算法传播情感标签,自动构建特定领域的情感词典。通过本发明解决了基于人工和基于知识库的方法所构造的情感词典在处理特定领域的情感分析任务时不准确的问题。
-
公开(公告)号:CN104820945B
公开(公告)日:2018-06-22
申请号:CN201510186252.2
申请日:2015-04-17
Applicant: 南京大学
IPC: G06Q50/00
Abstract: 基于复杂网络社团发现算法的信息传播最大化方法,包括如下步骤:1)复杂网络生成阶段:预处理从在线社会网络上爬取到的数据变为有向带权图;模型训练阶段:a)利用社团发现算法对复杂网络进行社团发现。b)为每一个社团,输出对应的子图。c)为每一个子图进行不同种子节点选取实验。d)利用所产生数据进行训练模型,并把得到的模型保存到指定区域以待使用。2)种子节点选取阶段:a)要进行挖掘的原始复杂网络分割为不同的社团,并生成对应子图。b)导入模型训练阶段训练好的预测。c)利用预测模型计算出每个子图应分配到几个种子节点进行挖掘。复杂网络数据中选取最具传播能力节点时的时间效率。具有选取结果优,数据处理速度快等优点。
-
公开(公告)号:CN107423282A
公开(公告)日:2017-12-01
申请号:CN201710372958.7
申请日:2017-05-24
Applicant: 南京大学
IPC: G06F17/27
Abstract: 本发明提供一种基于混合特征的文本中语义连贯性主题与词向量并发提取方法,从而能够同时解决LDA主题模型中忽略局部上下文信息与词向量中忽略文档与词的互信息的缺陷。包括以下步骤:1)上下文依赖的主题预分配阶段;2)基于主题的词向量重构阶段;3)混合文档生成阶段;本发明基于混合特征的文本中语义连贯性主题与词向量并发提取方法能够在现有的生成式概率主题模型与词嵌入等相关技术的基础上,混合利用文本中的全局文档与词的统计信息以及局部的上下文词序与依赖信息,在提取出语义连贯的主题词分布的同时,为不同文档中的词生成不同的主题相关的词向量,有效解决同一词在不同主题下的歧义问题。
-
公开(公告)号:CN107133826A
公开(公告)日:2017-09-05
申请号:CN201710372954.9
申请日:2017-05-24
Applicant: 南京大学
IPC: G06Q30/02
CPC classification number: G06Q30/0275 , G06Q30/0277
Abstract: 本发明的目的在于为网站的广告区域提供基于离散化第一价格和比例分配模型的点击量拍卖机制。如何有效地为参与机制拍卖的广告主分配此广告区域,最大化地提高网站的收益,维持机制的稳定性正是我们的目标,为此提出了DFCA机制:将广告主的报价分段化处理,只能支付所规定的价格,网站根据每个广告主的支付价为其分配相应的点击量(每个广告所占的区域越大,所获得的点击量越高,网站根据每个广告主所需分配的点击量为其分配相应的面积)。此机制存在唯一均衡并为广告主提供他所期待的点击量。
-
公开(公告)号:CN106056137A
公开(公告)日:2016-10-26
申请号:CN201610353613.2
申请日:2016-05-25
Applicant: 南京大学
CPC classification number: G06K9/6276 , G06Q30/0255
Abstract: 本发明提供一种基于数据挖掘多分类算法的电信集团业务推荐方法,包括如下步骤:构建数据集阶段:1a)采用KNN算法预判用户的候选类子集;1b)基于类标特征属性构建用于训练与预测的标准数据集;模型训练与预测阶段:2a)获取步骤1b)中标准数据集;2b)训练一个朴素贝叶斯二分类;2c)采用分类器预测用户与集团类标的关系;结果合并阶段:3a)获取步骤2c)中二分类预测;3b)基于置信度策略合并二分类结果得到用户最终集团类标;c)结束。本发明的基于候选类子集和类标特征属性的多分类算法准确高效的为用户推荐集团业务,利用了海量业务数据进行精准营销,不仅能够减少用户流失,而且能够提高用户满意度,促进电信业发展。
-
公开(公告)号:CN102646168B
公开(公告)日:2014-12-17
申请号:CN201210110861.6
申请日:2012-04-16
Applicant: 南京大学
IPC: G06F19/00
Abstract: 本发明提供一种适用中药方剂(Traditional Chinese Medicine Herbs,以下简称TCMF)网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法,包括如下步骤:1)共近邻相似三元组凝聚阶段a寻找所有三元组;b对任意两个三元组计算相似度;c给定三元组的相似度阈值,合并相似度高于相似度阈值的三元组对作为初始社区;d结束;2)簇合并阶段a计算任意两个初始社区的距离;b定初始社区距离阈值,合并距离小于距离阈值的两个初始社区;c结束。本发明的基于TCMF网络的层次重叠核心药群发现方法为TCMF网络发现提供了一种新的方法,该方法通过三个参数α,β,γ的设定能挖掘TCMF网络的高重叠及层次药群社区结构,为方剂配伍中核心药群发现提供了解决方案。
-
-
-
-
-
-
-
-
-