-
公开(公告)号:CN108763201B
公开(公告)日:2021-07-23
申请号:CN201810472083.2
申请日:2018-05-17
Applicant: 南京大学
IPC: G06F40/295 , G06F16/35
Abstract: 一种基于半监督学习的开放域命名实体识别方法,包括模型训练与利用模型预测两个步骤:模型训练阶段将训练集文本进行分词预处理;然后借助word2vec工具构建的词向量空间,获取训练文本中词的分布式形式表示的词向量;利用训练集中词向量以及每个词向量已有的实体类型标签,对KNN分类器以及CRF标注器进行训练,生成KNN‑CRF命名实体类别的预测模型;在模型预测阶段,引入空的可靠结果集,每当预测生成新的预测结果,将其加入可靠结果集;当可靠结果集中的数量达到阈值,弃用之前的KNN以及CRF模型,将可靠结果集中的结果加入到训练集中,对KNN分类器以及CRF标注模型进行重新训练;重复上述步骤直到满足条件。
-
公开(公告)号:CN112447292A
公开(公告)日:2021-03-05
申请号:CN202011336107.5
申请日:2020-11-25
Applicant: 南京大学
Abstract: 本发明公开了一种基于机器学习可解释性的人体指标‑脑卒中关系分析系统,包括数据输入模块、数据预处理模块、机器学习模块、相关性分析模块、指标近邻寻找模块、新样本制造模块、新样本预测统计模块,通过对属性进行相关性分析,当一个属性改变时,与它相关的属性也随之改变,使生成的新样本更接近实际情况,由此来研究脑卒中患病情况与人体指标变化的关系,本发明可以得到身体指标变化对是否患脑卒中的影响,对进一步研究疾病的预防有着重要的作用。
-
公开(公告)号:CN112418931A
公开(公告)日:2021-02-26
申请号:CN202011322875.5
申请日:2020-11-23
Applicant: 南京大学
Abstract: 本发明提供了一种基于多单位预算限制的采购激励方法,首先,采集卖家或者众包平台中的工作者出价信息,所述报价信息包括工作者对单位物品的出价;然后设计分配函数;采用基于贪心分配算法的改进算法,根据卖家的出价和其可以提供的内容,由分配函数计算获得胜出方;所述改进算法包括确定性算法和随机性算法;随后进入支付步骤,基于胜出方集合,设计支付函数,决定支付价格;最后完成交割;卖家提供物品,买家支付金钱;当买家完成对待交割物品的验证后,完成物品交割,交易完成;本发明提供的采购激励方法,解决了众包服务中如果将众包任务定价过高,在财务限制下招募的工作者会相应减少,这将导致众包的预期效果降低的问题。
-
公开(公告)号:CN112418671A
公开(公告)日:2021-02-26
申请号:CN202011325632.7
申请日:2020-11-24
Applicant: 南京大学
Abstract: 本发明公开了一种基于扰动粒子群的众测联盟建立方法,根据能力函数初始化众测工人的报酬,获取特征的数据;得到所有特征数据及能力函数组成的三维数据集,作为群优化的初始位置分布,使用PSO算法,在加入一定扰动后,粒子初始位置分布在一定范围内,初始化众测联盟;联盟优化阶段,根据初始化数据及给定的能力函数,计算获取基于收益的最优解,根据不同的特征数据,调整计算过程中的能力函数;联盟形成阶段,每个粒子通过追随自身的个体最好位置与群体的全局最好位置来动态调整自己的飞行速度,最后通过搜索迭代找到近似最优解。本发明能够使得个人收益最大化,从而尽可能在最优化人员分配的角度下节约成本。
-
公开(公告)号:CN112417288A
公开(公告)日:2021-02-26
申请号:CN202011336075.9
申请日:2020-11-25
Applicant: 南京大学
IPC: G06F16/9535 , G06F11/36 , G06Q10/06
Abstract: 本发明公开了一种用于众包软件测试的任务跨域推荐方法,首先根据CORAL和MLP进行用户‑特征的跨域迁移,得到两组迁移到稀疏域的用户特征,再根据注意力机制对被迁移特征进行整合,从而得到更接近稀疏域特征数据分布的迁移特征数据,最后得到更加准确的评分预测和任务推荐,本发明有利于提高数据稀疏及冷启动的众测平台的任务吞吐量,提升众测平台用户活跃度。
-
公开(公告)号:CN106022936B
公开(公告)日:2020-03-20
申请号:CN201610353585.4
申请日:2016-05-25
Applicant: 南京大学
IPC: G06Q50/00
Abstract: 本发明提供一种适用论文合作网络的基于社团结构的影响最大化算法(COMAX算法),包括如下步骤:1)社团发现阶段a构建论文合作网络图;b合并局部社团;c构建新的网络图;d结束;2)种子节点选取阶段a计算每个社团的影响力;b选择影响力最大社团中对应的节点;c结束。本发明的基于社团结构的影响最大化算法为论文合作网络的影响最大化问题提供了新的解决方案,结果表明,在ICM模型上,我们提出的COMAX算法在影响覆盖范围上与贪心算法接近,而且时间效率非常好。
-
公开(公告)号:CN107193960A
公开(公告)日:2017-09-22
申请号:CN201710372282.1
申请日:2017-05-24
Applicant: 南京大学
IPC: G06F17/30
Abstract: 本发明公开一种分布式爬虫系统,该系统被配置为基于ZooKeeper的分布式服务、系统组件和数据库三大部分,其中,系统组件包括系统监控组件Monitor、协调组件Coordinator、日志收集组件Logger、基础爬虫组件Spider,数据库包括Redis内存数据库,redis是key‑value的存储形式,Redis内存数据库中存放有分布式URL任务队列和分布式BloomFilter。本发明还公开一种基于该系统的周期性增量抓取方法,包括:协调组件Coordinator周期性导入任务到分布式URL任务队列,并唤醒正在休眠的Spider组件;Spider组件根据当前分布式URL任务队列的执行情况进行休眠或周期性增量抓取。该系统及方法解决了如何将单机爬虫有效的结合在一起,实现集群环境下高可用、高稳定和高吞吐率的分布式爬虫,并实现周期性增量抓取。
-
公开(公告)号:CN106055604A
公开(公告)日:2016-10-26
申请号:CN201610353388.2
申请日:2016-05-25
Applicant: 南京大学
IPC: G06F17/30
Abstract: 一种基于词网络进行特征扩展的短文本主题模型挖掘方法,包括如下步骤:带权词网络构建步骤:文本预处理,对短文本语料库中的文本进行中文分词,并删除掉停用词;从中文分词后的文档中建立带权词网络,带权词网络中的节点是词语,节点之间的边是两个词语在同一篇文档中的共现关系,边的权重是在整个语料库中两个词语共现的次数;结束;短文本特征扩展步骤:将每条短文本的中文分词后包含的词语节点作为建立的带权词网络中的一个社团;主题挖掘步骤;将短文本特征扩一种基于词网络社团模块度的短文本特征稀疏性解决方法,从而解决LDA主题模型应用于短文本中效果不佳的问题。提升短文本主题模型的准确性。
-
公开(公告)号:CN104794341A
公开(公告)日:2015-07-22
申请号:CN201510187174.8
申请日:2015-04-20
Applicant: 南京大学
Abstract: 一种中西医联合用药禁忌预警系统,包括中西药单味药物的信息查询和中西药多味药物相互关系的禁忌查询两部分;其中数据源主要含有“十八反十九畏”药物对的古代文献,实验数据,中成药数据,现代文献,分子数据等多种数据源;现代文献的采集主要通过HTTP请求对网页上的含有相关不良禁忌关键字的文献进行抓取,通过专家对采集数据进行审核,将有用现代文献数据以同一格式存在本地数据库中,以确保数据库中数据的实时更新。
-
公开(公告)号:CN101840543A
公开(公告)日:2010-09-22
申请号:CN201010165418.X
申请日:2010-05-07
Applicant: 南京大学
IPC: G06Q10/00
Abstract: 基于顶点差异性的社团发现方法,包括如下步骤:步骤1为网络构建阶段,步骤11)为数据预处理过程:111)去掉无效数据;112)有效数据编号;步骤12)扫描得到并去掉不必要的分量的过程;通过一遍扫描数据得到当前所有分量,并且去掉较小的;步骤13)扫描各个分量得到各个分量的邻接矩阵:对每个分量进行扫描,根据数据点之间的联系得到邻接矩阵;步骤2为社团发现阶段,即运用差异性、边移除与贪婪方法得到社团网络中存在的社团结构,其具体步骤如下:包括初始化过程;计算顶点对之间的差异性;根据差异性发现网络中的社团结构;社团的合并;结束。本发明所得到的社团是原始网络的准确而自然的划分,并且提高了社团发现方法的性能。
-
-
-
-
-
-
-
-
-