一种基于HDFS的海量小文件存储优化方法

    公开(公告)号:CN110018997B

    公开(公告)日:2021-07-23

    申请号:CN201910175055.9

    申请日:2019-03-08

    Abstract: 一种基于HDFS的海量小文件存储优化方法,属于存储性能优化领域,包括:初始化、文件访问状况分析、小文件分类暂存、小文件合并存储及回溯。方法针对文件的历史访问日志信息,对文件访问状况进行分析,计算文件之间的相关度,形成文件关联性映射集。根据所形成的文件关联性映射集,对小文件进行分类暂存,将相关度高的小文件暂存在一起,同时考虑了小文件的大小分布。最终对暂存的小文件进行合并存储,将小文件的原件及副本进行删除,将合并形成的大文件存储到HDFS当中。方法将原本存储于HDFS中的海量小文件通过合并的方式进行重存储,充分考虑了小文件的相关性和小文件的大小分布,有效地降低了名称结点的内存开销,提高了HDFS对小文件的存取效率。

    一种基于HDFS的海量小文件存储优化方法

    公开(公告)号:CN110018997A

    公开(公告)日:2019-07-16

    申请号:CN201910175055.9

    申请日:2019-03-08

    Abstract: 一种基于HDFS的海量小文件存储优化方法,属于存储性能优化领域,包括:初始化、文件访问状况分析、小文件分类暂存、小文件合并存储及回溯。方法针对文件的历史访问日志信息,对文件访问状况进行分析,计算文件之间的相关度,形成文件关联性映射集。根据所形成的文件关联性映射集,对小文件进行分类暂存,将相关度高的小文件暂存在一起,同时考虑了小文件的大小分布。最终对暂存的小文件进行合并存储,将小文件的原件及副本进行删除,将合并形成的大文件存储到HDFS当中。方法将原本存储于HDFS中的海量小文件通过合并的方式进行重存储,充分考虑了小文件的相关性和小文件的大小分布,有效地降低了名称结点的内存开销,提高了HDFS对小文件的存取效率。

    基于集成神经网络的长短混合型文本分类优化方法

    公开(公告)号:CN111309906A

    公开(公告)日:2020-06-19

    申请号:CN202010083328.X

    申请日:2020-02-09

    Abstract: 一种基于集成神经网络的长短混合型文本分类优化方法,属于自然语言处理领域,包括初始化、预处理、构建长文本分类算法、构建短文本分类算法、构建集成分类算法与迭代中止六个步骤。该方法首先使用基于预测的预训练词向量与基于统计的预训练词向量构建文本数据的双通道表示;其次在双通道文本表示基础上,提出融合通道特征的卷积优化算法,提高了传统卷积算法在文本数据上的空间特征提取能力;然后基于优化后的卷积算法分别设计了适用于长文本分类与短文本分类的独立算法;最后使用集成策略对独立算法进行自动评估与加权融合,集成后的算法在混合文本数据分类场景中表现出优异的性能,相比于已有经典算法具有更高的分类准确率与分类稳定性。

    一种自动确定聚类中心的混合属性数据集聚类方法

    公开(公告)号:CN111353529A

    公开(公告)日:2020-06-30

    申请号:CN202010110021.4

    申请日:2020-02-23

    Abstract: 本发明设计了一种自动确定聚类中心的混合属性数据集聚类方法,针对K-Prototypes聚类算法中需人为指定初始聚类中心和聚类数目导致算法准确度和稳定性低下的问题,该方法分为初始化、聚类中心点预选取、确定聚类中心点、迭代聚类划分过程这四个步骤。该方法根据数据对象的密度分布,实现类簇个数的自动识别,并选择出初始聚类中心,优化初始选点造成的局部最优问题,另外通过区分每个属性对聚类结果的不同影响权重,改进相异度计算公式,提升了聚类的准确度,达到了更好的聚类效果。

Patent Agency Ranking