-
公开(公告)号:CN113360633B
公开(公告)日:2023-10-17
申请号:CN202110641886.8
申请日:2021-06-09
Applicant: 南京大学
IPC: G06F16/335 , G06F16/35 , G06F40/242 , G06F40/279 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于深度域适应的跨域测试文档分类方法。包括1、数据采集阶段,获取足够多的辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据;2、数据预处理阶段,对俩个领域的全部文档进行词语的划分之后进行去重和去停用词,之后进行字典的构建,再将每一个文档表示成one‑hot向量的形式;3、在跨域数据迁移阶段,将辅助领域和目标领域的数据同时送入深度网络中,来进行特征的学习和提取。本发明节省了数据标注的时间和人力成本,可结合多种网络结构进行特征的提取。
-
公开(公告)号:CN110134693A
公开(公告)日:2019-08-16
申请号:CN201910413036.5
申请日:2019-05-17
Applicant: 南京大学
IPC: G06F16/22
Abstract: 一种基于哈希和PCA的对数据的时空特征建立索引的方法,1)数据采集,获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间三个特征、称为时空三维特征的数据,这三个特征字段不能存在任何缺失;2)数据预处理,将所有时空三维特征的数据看作时空三维坐标系中的点,采用PCA算法将该坐标系的坐标轴进行旋转,得到数据在新坐标系中的坐标;3)索引计算,根据每个时空三维特征的数据的新坐标计算哈希值,并根据时空三维特征的数据分布情况调整哈希计算过程的参数;4)索引建立,为三级索引分别建立三张表,第三级索引的表存储指向时空三维特征的数据的指针,其余表存储指向下一级索引的指针。
-
公开(公告)号:CN113392890B
公开(公告)日:2024-10-15
申请号:CN202110635014.0
申请日:2021-06-08
Applicant: 南京大学
IPC: G06F18/211 , G06F18/241 , G06N20/00
Abstract: 本发明提出了一种基于数据增强的分布外异常样本检测方法。特征提取阶段,使用自动编码器算法的编码器部分,提取输入分布内样本的特征向量;数据增强和重建阶段,使用基于特征的数据增强方法对特征提取阶段提取到的特征进行变换,并使用自动编码器的解码器部分,从增强后的特征向量中生成数量充足且包含语义信息的辅助分布外异常样本数据集;样本标记阶段,将原始分类器对重建样本的预测准确度作为分布外异常样本的软标签值;分类器重训练阶段,联合包含硬标签监督信号的分布内训练数据集及包含软标签监督信号辅助分布外异常样本数据集,重新训练分类器;本发明改善了深度神经网络模型在预测分布外异常样本时的不确定性,提升了模型的安全性。
-
公开(公告)号:CN113360633A
公开(公告)日:2021-09-07
申请号:CN202110641886.8
申请日:2021-06-09
Applicant: 南京大学
IPC: G06F16/335 , G06F16/35 , G06F40/242 , G06F40/279 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于深度域适应的跨域测试文档分类方法。包括1、数据采集阶段,获取足够多的辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据;2、数据预处理阶段,对俩个领域的全部文档进行词语的划分之后进行去重和去停用词,之后进行字典的构建,再将每一个文档表示成one‑hot向量的形式;3、在跨域数据迁移阶段,将辅助领域和目标领域的数据同时送入深度网络中,来进行特征的学习和提取。本发明节省了数据标注的时间和人力成本,可结合多种网络结构进行特征的提取。
-
公开(公告)号:CN110532255A
公开(公告)日:2019-12-03
申请号:CN201910420403.4
申请日:2019-05-20
Applicant: 南京大学
IPC: G06F16/22 , G06F16/2455 , G06K9/62
Abstract: 本发明公开了一种基于三维R树的时空数据的存储及检索和更新方法,根据时空数据在空间中的位置关系,通过聚类的方式将相似的样本划分到同一个类别中,每个类别作为接下来建立R树的一个基本单元。使用三维R树来存储由二维空间数据和时间数据组成的时空数据,且在R树中的每个结点存储该条数据在原始数据库中的主键id。在数据检索阶段,获得包含该数据的最小立方体块,接下来在此立方体块中对数据进行精确查找。在数据更新阶段,原始数据被插入到外部数据库中,同时向R树中增加其对应的新的索引。本发明将R树用于时空数据的存储与检索优化,利用R树具有高平衡性的特点,可以显著地提高数据检索、更新时的效率。
-
公开(公告)号:CN112418803B
公开(公告)日:2024-04-12
申请号:CN202011342832.3
申请日:2020-11-25
Applicant: 南京大学
IPC: G06Q10/105 , G06Q10/0631 , G06Q50/00 , G06F16/9536 , G06F16/955 , G06F11/36
Abstract: 本发明提供了一种基于社交网络的众包测试人员招募方法,包括任务分割、任务发布和传播、传播网络构建、收益分配四个阶段;首先将众测任务分割为单个测试者可以完成的小任务;然后将任务发布给众包测试平台,使得任务信息在社交网络中进行传播;其次采用邀请码技术来记录每个测试人员的上级,从而形成传播网络;最后在收益分配阶段,根据传播网络进行收益分配。本发明解决了传统众包测试中无法在短时间内招募到足够的测试人员的问题,为众测提供人员保障。本发明利用社交网络强大的人员招募能力,在短时间内为众测招募到足够的工作者,同时创建了灵活的收益分配方式,使得人员招募具有良好的激励性。
-
公开(公告)号:CN113392890A
公开(公告)日:2021-09-14
申请号:CN202110635014.0
申请日:2021-06-08
Applicant: 南京大学
Abstract: 本发明提出了一种基于数据增强的分布外异常样本检测方法。特征提取阶段,使用自动编码器算法的编码器部分,提取输入分布内样本的特征向量;数据增强和重建阶段,使用基于特征的数据增强方法对特征提取阶段提取到的特征进行变换,并使用自动编码器的解码器部分,从增强后的特征向量中生成数量充足且包含语义信息的辅助分布外异常样本数据集;样本标记阶段,将原始分类器对重建样本的预测准确度作为分布外异常样本的软标签值;分类器重训练阶段,联合包含硬标签监督信号的分布内训练数据集及包含软标签监督信号辅助分布外异常样本数据集,重新训练分类器;本发明改善了深度神经网络模型在预测分布外异常样本时的不确定性,提升了模型的安全性。
-
公开(公告)号:CN110134693B
公开(公告)日:2023-05-05
申请号:CN201910413036.5
申请日:2019-05-17
Applicant: 南京大学
IPC: G06F16/22
Abstract: 一种基于哈希和PCA的对数据的时空特征建立索引的方法,1)数据采集,获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间三个特征、称为时空三维特征的数据,这三个特征字段不能存在任何缺失;2)数据预处理,将所有时空三维特征的数据看作时空三维坐标系中的点,采用PCA算法将该坐标系的坐标轴进行旋转,得到数据在新坐标系中的坐标;3)索引计算,根据每个时空三维特征的数据的新坐标计算哈希值,并根据时空三维特征的数据分布情况调整哈希计算过程的参数;4)索引建立,为三级索引分别建立三张表,第三级索引的表存储指向时空三维特征的数据的指针,其余表存储指向下一级索引的指针。
-
公开(公告)号:CN108717654B
公开(公告)日:2022-03-25
申请号:CN201810470713.2
申请日:2018-05-17
Applicant: 南京大学
Abstract: 本发明公开了一种基于聚类特征迁移的多电商交叉推荐方法,包括如下步骤1)评分矩阵构造阶段:a采集各个电商数据;b数据清洗、去噪音;c构建评分矩阵;d结束;2)辅助域学习阶段:a获取评分矩阵;b提取用户/项目特征矩阵;c对用户/项目特征矩阵聚类;d计算平均评分;e构造聚类特征矩阵;f针对每个辅助电商,重复以上步骤至结束;3)目标域学习阶段:a获取目标电商评分矩阵;b迁移聚类特征,完成矩阵分解。c重构目标电商评分矩阵;d产生推荐列表;e结束。本发明利用迁移学习技术为电商推荐系统存在的数据稀疏性、冷启动和多样性与精确性两难困境问题提供了一种新的解决思路。
-
公开(公告)号:CN112418803A
公开(公告)日:2021-02-26
申请号:CN202011342832.3
申请日:2020-11-25
Applicant: 南京大学
IPC: G06Q10/10 , G06Q10/06 , G06F11/36 , G06F16/9536 , G06F16/955 , G06Q50/00
Abstract: 本发明提供了一种基于社交网络的众包测试人员招募方法,包括任务分割、任务发布和传播、传播网络构建、收益分配四个阶段;首先将众测任务分割为单个测试者可以完成的小任务;然后将任务发布给众包测试平台,使得任务信息在社交网络中进行传播;其次采用邀请码技术来记录每个测试人员的上级,从而形成传播网络;最后在收益分配阶段,根据传播网络进行收益分配。本发明解决了传统众包测试中无法在短时间内招募到足够的测试人员的问题,为众测提供人员保障。本发明利用社交网络强大的人员招募能力,在短时间内为众测招募到足够的工作者,同时创建了灵活的收益分配方式,使得人员招募具有良好的激励性。
-
-
-
-
-
-
-
-
-