一种阈值自适应的集合相似连接方法

    公开(公告)号:CN108573052B

    公开(公告)日:2019-09-10

    申请号:CN201810368421.8

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种阈值自适应的集合相似连接方法,对于保存在数据库中的由集合记录构成的数据集R和S,以及相似度阈值τ,共包含六个步骤,其中前两个步骤属于数据预处理阶段,后四个步骤属于相似连接阶段:第一步,对R和S中所有的集合元素按照出现频率重编号;第二步,计算S集合元素的倒排索引I并将I存入数据库;第三步,对于R中的每条记录r,利用过滤器得到S中与r的相似度系数不小于阈值τ的候选记录集;第四步和第五步分别计算全量计算和直接验证两种模式的数据库获取开销;第六步选择开销更小的方式计算r的相似记录对。本发明可在广阈值范围内均高效的进行集合相似连接计算,解决现有技术不能同时兼顾低阈值和高阈值情况的问题。

    一种基于强化学习的自动化机器学习方法

    公开(公告)号:CN110110858A

    公开(公告)日:2019-08-09

    申请号:CN201910359211.7

    申请日:2019-04-30

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于强化学习的自动化机器学习方法,包括以下步骤:使用统一的API接口,屏蔽不同的机器学习算法库之间的异构性,以Python作为编程语言,在Python语言中调用不同机器学习算法库中的算法;将自动化机器学习问题建模为强化学习问题,对候选机器学习算法进行状态空间划分,确定状态间的转移关系,并采用Q-Learning算法完成搜索机器学习流水线的过程;对数据集进行元特征提取,搜索最相似数据集,并利用所述最相似数据集上的运行信息来加速自动化机器学习的收敛过程。本发明解决了现有的自动化机器学习系统收敛速度慢、可扩展性差以及最终预测性能达不到预期的问题。

    一种面向分布式文件系统的统一命名空间管理的方法

    公开(公告)号:CN108595616A

    公开(公告)日:2018-09-28

    申请号:CN201810366864.3

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向分布式文件系统的统一命名空间管理的方法,包括以下步骤:将第一挂载表放置在统一命名空间服务端,统一命名空间客户端启动时从服务端获取挂载表,服务端挂载表支持挂载表项的动态添加和删除,客户端通过心跳线程定期从服务端获取更新的挂载表。本发明解决已有系统中挂载表分散难以管理,引入统一命名空间后元数据访问性能下降严重等问题。

    一种通用后缀树的分布式并行构建方法

    公开(公告)号:CN107015868A

    公开(公告)日:2017-08-04

    申请号:CN201710232797.1

    申请日:2017-04-11

    Applicant: 南京大学

    Abstract: 本发明公开了一种通用后缀树的分布式并行构建方法,包括以下步骤:第一步,整合输入序列并将其平均分配给每个计算节点;第二步,并行地统计子序列频数,确定所有的子树构建任务;第三步,将这些子树构建任务按规模尽量均匀地分配给不同的计算节点;第四步,分轮批量构建所有子树。每一轮批量构建可以分为以下三步:第一步,并行扫描输入以定位本轮构建任务需要的后缀并分别排序,将排序结果汇总至负责构建任务的计算节点;第二步,多路归并生成全局有序的后缀排序结果;第三步,利用排序结果生成对应的后缀子树。本发明可高效地并行构建通用后缀树,解决现有通用后缀树构建方法过于依赖I/O或主存容量、通用性不足、应对大规模输入困难等问题。

    一种基于Flink的大规模矩阵并行化的计算方法

    公开(公告)号:CN105608056A

    公开(公告)日:2016-05-25

    申请号:CN201510764595.2

    申请日:2015-11-09

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于Flink的大规模矩阵并行化的计算方法,主要包括以下步骤:利用FlinkDataSet对大规模矩阵数据进行存储,在单个计算机上对矩阵进行计算时采用BLAS对矩阵计算进行加速;设计并实现了矩阵的相加、相减等一系列矩阵操作;设计了并行化的方案并结合Flink和算法的特点设计了三种优化手段提升不同形状的矩阵相乘运算的性能,包括:基于方块划分方式的矩阵分块相乘、基于CARMA划分方式的矩阵分块相乘和基于广播方式的矩阵分块相乘。本发明解决了传统单个计算机情形下大规模矩阵计算开销大甚至无法计算的问题,具有很好地扩展性。

    基于Spark的分布式稠密矩阵求逆并行化运算方法

    公开(公告)号:CN105373517A

    公开(公告)日:2016-03-02

    申请号:CN201510762086.6

    申请日:2015-11-09

    Applicant: 南京大学

    CPC classification number: G06F17/16 G06F9/3818 G06F17/30194

    Abstract: 本发明公开了一种基于Spark的分布式稠密矩阵求逆并行化运算方法,包括以下步骤:首先在迭代过程中对输入矩阵实施并行化的LU分解运算;接下来,以LU分解得到的分布式上三角矩阵以及分布式下三角矩阵为基础,使用递归算法求取分布式上(下)三角矩阵的逆矩阵;最后,以上面两步得到的置换矩阵和三角矩阵的逆矩阵为基础,实施分布式矩阵乘法,得到原任意输入矩阵的逆矩阵。本发明能够处理维数很大的稠密矩阵,同时拥有较高的运算效率、较好的容错性与可扩展性。

    一种基于缓存复用的大数据异构查询调度方法

    公开(公告)号:CN116561168A

    公开(公告)日:2023-08-08

    申请号:CN202310542541.6

    申请日:2023-05-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于缓存复用的大数据异构查询调度方法,包括如下步骤:获取用户提交查询的信息;将所有查询提交到待执行队列中;按照大数据查询类型对查询进行分类并分别调用如下步骤;根据缓存系统大小确定历史查询窗口大小;依据历史查询窗口中查询访问的数据表来对待执行队列中的所有查询计算查询缓存占比;将具有最高查询缓存占比的查询放置到待执行队列中;按照顺序将待执行队列中的查询提交到大数据查询系统中。本发明在大数据查询调度场景下,充分考虑了查询类型以及缓存状态来进行调度,减少缓存替换频率并提高查询序列的整体执行效率。本发明解决了大数据查询系统难以感知数据缓存状态造成的性能低下问题。

    基于统计学与机器学习相结合的异常商品信息识别方法

    公开(公告)号:CN115239351A

    公开(公告)日:2022-10-25

    申请号:CN202210817148.9

    申请日:2022-07-12

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于统计学与机器学习相结合的异常商品信息识别方法,包括如下步骤:用户通过系统接口提交电商平台商品数据文件;完成对商品文件数据的预处理工作;筛选关键词等商品信息;建立统计学模型,处理识别商品异常数据;建立回归预测模型,处理识别商品异常数据;建立分类器预测模型,处理识别商品异常数据;每一个模型筛选结果得出后,对其中的特殊商品进行筛除;根据筛出特殊商品后的各模型结果,对所有模型的筛选结果进行整合,得出筛选的最终结果;筛选结果进行输出。本发明可解决现有电商平台异常商品信息识别方法工作量大、效率低,且依赖人工的问题。

    一种面向分布式文件系统的统一命名空间管理的方法

    公开(公告)号:CN108595616B

    公开(公告)日:2022-04-26

    申请号:CN201810366864.3

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向分布式文件系统的统一命名空间管理的方法,包括以下步骤:将第一挂载表放置在统一命名空间服务端,统一命名空间客户端启动时从服务端获取挂载表,服务端挂载表支持挂载表项的动态添加和删除,客户端通过心跳线程定期从服务端获取更新的挂载表。本发明解决已有系统中挂载表分散难以管理,引入统一命名空间后元数据访问性能下降严重等问题。

Patent Agency Ranking