云存储系统中基于数据分布感知的近邻查询方法

    公开(公告)号:CN107656989B

    公开(公告)日:2019-09-13

    申请号:CN201710822371.1

    申请日:2017-09-13

    Abstract: 本发明公开了一种云存储系统中基于数据分布感知的近邻查询方法,该方法利用数据的主成分作为局部灵敏哈希的投影向量,并进一步量化索引表中每个哈希函数的权值和调整每个哈希表中哈希函数的切割间隔大小,以保证近邻查询精确度的同时减少构建索引所需的哈希表数量,从而减少哈希表的空间开销。进一步地,该方法根据近邻查询结果的哈希冲突频率来精炼查询结果集合,消除大量不相关的元素,极大地减小了用于距离计算的数据量,减小了查询时延,本发明能够充分利用数据分布的特性,满足快速查询特性,并具有良好的可拓展性。

    基于顶点团随机步数抽样的社交网络用户获取方法和系统

    公开(公告)号:CN110060170A

    公开(公告)日:2019-07-26

    申请号:CN201910208872.X

    申请日:2019-03-19

    Inventor: 王芳 冯丹 张玲玲

    Abstract: 本发明公开了一种基于顶点团随机步数抽样的社交网络用户获取方法和系统,属于大数据处理领域。包括:S0.获取社交网络图,从所述社交网络图中任意选取一个用户顶点作为样本点;S1.获取样本点的团;S2.寻找样本点的团中所有未被抽样过的邻居顶点,生成抽样空间;S3.从抽样空间等概率抽样一个顶点,作为下一个样本点;S4.重复步骤S1~S3,直到抽样所获取的顶点的数量达到需要获取的社交网络用户数量;顶点团是指与该顶点相关的最大的全连接子图。本发明通过团结构来聚集社交网络用户中的相似顶点,抽样空间仅由没有被抽样过的顶点组成,将这些相似顶点排除在抽样空间外,解决了大量重复样本、相似样本的问题,有效的减少抽样的开销。

    一种基于机器学习的Hadoop参数自动调优方法及系统

    公开(公告)号:CN106202431B

    公开(公告)日:2019-06-28

    申请号:CN201610550098.7

    申请日:2016-07-13

    Abstract: 本发明属于大数据处理技术领域,涉及一种基于机器学习的Hadoop参数的自动调优方法及系统。本发明根据不同应用程序的资源消耗特征聚类分组,并针对不同组应用建立不同的性能模型,自动得到对不同类应用影响较大的不同参数,并给出定量参数建议值。系统包括离线模块和在线模块,离线模块包括Hadoop数据收集器、聚类器和性能模型构建子模块;在线模块包括作业管理器、优化器、资源消耗特征匹配器和作业探查器。本发明有效解决了现有的基于经验规律的方法对用户经验的高依赖问题和定性参数建议的限制问题;同时本发明将参数优化系统和Hadoop系统分离,降低系统耦合度,减少人工开销,避免人为误判,并且便于系统扩展与维护。

    一种基于负载预测的Docker Swarm集群资源调度优化方法

    公开(公告)号:CN107045455B

    公开(公告)日:2019-06-11

    申请号:CN201710461892.9

    申请日:2017-06-19

    Abstract: 本发明公开了一种基于负载预测的Docker Swarm集群资源调度优化方法,属于计算机系统虚拟化技术领域。本发明利用docker daemon的API接口函数,周期性地收集容器的资源历史使用量;采取ARIMA‑RBF模型来对容器的资源历史使用量进行建模预测,获取资源未来使用量,集合资源目前使用情况对资源使用上限和资源使用权限进行调整;并根据容器的资源历史使用量来确定容器对资源的使用偏向程度;并在集群启动一个新容器时根据该容器和满足容器资源需求的节点集上的资源使用偏向程度,选择一个加入该容器后资源使用偏向最均衡的节点来部署这个新容器;本发明提供的技术方案,提高了Docker Swarm集群的资源利用率,并能提升各个容器的实际运行性能。

    一种基于SDN的网内重复数据删除方法及系统

    公开(公告)号:CN106326308B

    公开(公告)日:2019-06-11

    申请号:CN201510388084.5

    申请日:2015-07-03

    Abstract: 本发明公开了一种基于SDN的网内重复数据删除方法及系统,属于计算机网络和存储技术领域。本发明充分利用SDN控制转发分离、可扩展性、可编程等优点,以及重复数据删除技术在减少存储成本、网络开销方面的优势,实现了在网络内部的冗余消除服务,不仅可以减少目的端的存储开销,同时可以极大的减轻网络链路负载,减小用户的响应时间,为实现流量工程目标提供了更大的灵活性,是源端去重和目的端去重的折衷。SDN控制器通过openflow协议和底层的openflow交换机进行通信,控制数据转发;保存网络中传输的文件指纹信息,从而控制数据的去重。为了充分利用局部性原理,减小SDN控制器和交换机之间的通信开销,利用交换机上缓存的文件信息进行初步的冗余消除。

    一种适用于MLC NAN闪存的LDPC码译码方法

    公开(公告)号:CN109660263A

    公开(公告)日:2019-04-19

    申请号:CN201811401607.5

    申请日:2018-11-22

    Abstract: 本发明公开了一种适用于MLC NAND闪存的LDPC码译码方法,包括:(1)确定待译码数据所属页的类型,若为低页,则转入步骤(2);否则,转入步骤(3);(2)对待译码数据进行LDPC码译码,并保存译码结果;译码结束;(3)获得同一单元中译码后的低页数据,根据所获得的低页数据和待译码数据确定存储单元的阈值电压范围;根据所确定的阈值电压范围计算对数似然比;以所计算的对数似然比为译码输入,对待译码数据进行LDPC码译码;译码结束。本发明能够提高译码成功率、减少译码迭代次数,从而达到降低译码延迟、提高闪存读性能的目的。

    一种映射粒度自适应的闪存转换层管理方法

    公开(公告)号:CN106293521B

    公开(公告)日:2019-04-12

    申请号:CN201610623356.X

    申请日:2016-08-02

    Abstract: 本发明公开了一种映射粒度自适应的闪存转换层管理方法,包括:从文件系统接收数据请求,并判断该数据请求的类型是读请求还是写请求,如果是写请求,则根据该写请求的逻辑页号查询闪存存储空间的页映射表,以判断该写请求对应的逻辑页是否不是第一次写,如果是则根据页映射表中该逻辑页号对应的类型判断该逻辑页的类型是部分页面还是完整页面,如果是部分页面则将该部分页面对应的子页状态表中的子页状态设置为失效,判断写请求的大小是否大于闪存页的大小,如果是则从整页空闲队列的队首取出空闲的物理页,将写请求对应的数据写入该物理页中。本发明能够减少大容量闪存页访问造成的读写性能下降和存储空间浪费。

    一种基于I/O调度的多任务外存模式图处理方法

    公开(公告)号:CN109522102A

    公开(公告)日:2019-03-26

    申请号:CN201811053424.9

    申请日:2018-09-11

    Abstract: 本发明公开了一种基于I/O调度的多任务外存模式图处理方法,包括:将图数据进行流式分区得到图分区,将图分区均衡地置于多个外存设备中,基于I/O调度从多个外存设备中选取目标外存设备,并将目标外存设备中图处理任务尚未访问的图分区作为指定分区;根据指定分区的同步字段判断其是否未被映射到内存中,若是,则将指定分区从外存设备映射到内存中,并更新指定分区的同步字段;否则,直接通过指定分区映射到内存的地址信息进行图分区数据的访问。本发明通过I/O调度,选择任务数最少的外存设备访问,以此控制访问外存图分区数据的顺序,平衡I/O压力;通过设置同步字段实现图分区数据的共享,减少相同图分区的重复加载,以此减少I/O总带宽量,提升I/O效率。

    综合邻居标签相关性特征和样本特征的多标签分类的方法

    公开(公告)号:CN109447110A

    公开(公告)日:2019-03-08

    申请号:CN201811082265.5

    申请日:2018-09-17

    Abstract: 本发明公开了一种综合邻居标签相关性特征和样本特征的多标签分类的方法,包括:用BR方法将训练数据集D={(xi,yi)}进行二分类,得到m个转换后的数据集{(xi,yik)};基于转后的数据集{(xi,yik)},将邻居标签相关性加入基于样本特征的二分类方法中,训练标签lk对应二分类器gk;采用二分类器gk预测待测实例t是否存在标签lk,并输出结果yk;综合m个输出结果yk,得到待测实例t对应的多标签集合{y1,...,yk,...ym}。本发明提出了从邻居实例中获取标签相关性的方法,综合样本实际特征和标签相关性特征的分类结果,实现对多标签的预测;提出衡量邻居信息可靠性,修正邻居特征的结果,提高分类准确性。

    一种用户态RPC over RDMA的内存管理方法

    公开(公告)号:CN105978985B

    公开(公告)日:2019-03-05

    申请号:CN201610405779.4

    申请日:2016-06-07

    Abstract: 本发明公开了一种用户态RPC over RDMA的内存管理方法;通过在RPC层设置注册内存池,由注册内存池保存已经注册的内存块,在传输中反复使用这些内存块从而达到避免注册内存的目标;同时,增加内存管理接口,使得上层用户可以直接使用由RPC层管理的这些已注册内存块,从而避免了上层用户和RPC组件之间的内存拷贝;在注册内存池中所管理的内存块大小固定,块大小范围为可根据实际使用配置;本发明提供的这种用户态RPC over RDMA的内存管理方法可以有效减少RPC组件在使用RDMA方式传输时的内存注册次数,具有降低内存注册开销的效果。

Patent Agency Ranking