一种文档分类方法和系统
    31.
    发明公开

    公开(公告)号:CN104239479A

    公开(公告)日:2014-12-24

    申请号:CN201410449140.7

    申请日:2014-09-04

    CPC classification number: G06F17/30705

    Abstract: 本发明公开了一种文档分类方法和系统,应用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步骤:所述Map程序对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分;所述Map程序根据所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器;所述Reduce程序使用所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果。本发明充分利用了Hadoop集群的分布式特点,避免了传统系统框架的局限性,具有并行快速的特点,能够快速实现对海量文档的分类,节省了分类时间,提高了文档分类的效率,提高了系统性能。

    HBase二级索引表的查询方法和装置

    公开(公告)号:CN104217011A

    公开(公告)日:2014-12-17

    申请号:CN201410483879.X

    申请日:2014-09-19

    CPC classification number: G06F17/30619 G06F17/30675

    Abstract: 本发明提供了一种HBase二级索引表的查询方法和装置,包括:判断HBase源表是否有对应的二级索引表,通过二级索引表查询HBase表的列中属性值;如果没有,根据HBase源表中的列族信息、列信息、列属性值及HBase源表中对应的Rowkey,创建与HBase源表对应的二级索引表,并同步HBase源表的数据到对应的二级索引表中;如果有,同步HBase源表的插入数据操作或删除数据操作到对应的二级索引表中。本发明通过二级索引表能够实现快速查询某列属性值中的所有记录信息,达到高效率查询的目的。

    一种基于MapReduce框架的网页排序方法和系统

    公开(公告)号:CN104156457A

    公开(公告)日:2014-11-19

    申请号:CN201410409929.X

    申请日:2014-08-19

    CPC classification number: G06F17/30864

    Abstract: 本发明公开了一种基于MapReduce框架的网页排序方法和系统,应用于Hadoop集群中的MapReduce框架,MapReduce框架包括Map模块和Reduce模块,Map模块从文本文件中读取与各个网页对应的数据记录,根据读取到的数据记录,生成并保存与各个网页对应的链接信息、积分信息和出度信息;Reduce模块根据与各个网页对应的链接信息和出度信息,更新各个网页的贡献积分,并在满足预设的收敛条件时,将网页排序结果输出,提升了网页排序的效率,且保证网页排序的准确性。

    基于linux中PCIE错误事件的收集方法及系统

    公开(公告)号:CN106201831B

    公开(公告)日:2019-08-02

    申请号:CN201610491115.4

    申请日:2016-06-28

    Inventor: 郭美思 宗栋瑞

    Abstract: 本发明公开了一种基于linux中PCIE错误事件的收集方法,包括:初始化AER中的错误信息,确定发生错误的目标设备;从所述AER中提取与所述目标设备对应的PCIE错误信息;分析所述PCIE错误信息的错误事件类型及属性信息,根据所述错误事件类型及属性信息,将所述PCIE错误信息整合为预定文件格式的PCIE错误事件,并存储至数据库;可见,在本实施例中,通过从AER提取与目标设备对应的PCIE错误信息,并将PCIE错误信息整合为统一的事件格式,实现了对PCIE错误信息的收集;本发明还公开了一种基于linux中PCIE错误事件的收集系统,同样能实现上述技术效果。

    Linux系统的多路径IO错误事件收集方法及系统

    公开(公告)号:CN106201752B

    公开(公告)日:2019-06-18

    申请号:CN201610494445.9

    申请日:2016-06-28

    Inventor: 宗栋瑞 郭美思

    Abstract: 本申请公开了一种Linux系统的多路径IO错误事件收集方法及系统,该方法包括:对Linux系统的多路径IO进行实时监听,得到相应的多路径IO实时信息;判断多路径IO实时信息中是否包含用于指示多路径IO发生错误事件的信息,如果有,则从多路径IO实时信息中提取出相应的错误事件实时信息;将错误事件实时信息存储至预设的错误事件信息数据库中。本申请通过对多路径IO进行实时监听,并判断多路径IO实时信息中是否包含用于指示多路径IO发生错误事件的信息,如果有,则提取相应的错误事件实时信息,然后将错误事件实时信息存储至预设的数据库中,由此实现了及时收集多路径IO上产生的错误事件信息的目的。

    一种基于负载均衡的推测式Hadoop调度方法

    公开(公告)号:CN104199739B

    公开(公告)日:2018-09-25

    申请号:CN201410425841.7

    申请日:2014-08-26

    Inventor: 郭美思 吴楠

    Abstract: 提出一种基于负载均衡的推测式Hadoop调度方法,首先需要判定慢任务,然后选取快节点执行慢任务的备份任务,在执行选定的慢任务的备份任务时保证集群系统的负载均衡。提出的所述方法通过设计了合理简单的慢任务确定方法及选取快节点执行备份任务的策略,优化了作业执行性能。这种策略不仅考虑了作业执行性能,也考虑了集群中负载均衡现象。该方法避免了集群负载失衡现象的发生,提高了Hadoop集群整体的性能。

    一种文档分类管理方法及装置

    公开(公告)号:CN105045845B

    公开(公告)日:2018-07-31

    申请号:CN201510382990.4

    申请日:2015-07-02

    Inventor: 郭美思 吴楠

    Abstract: 本发明提供种文档分类管理方法及装置,上述方法包括以下步骤:日志收集终端获取与业务类型对应业务行为的日志记录文件;所述日志收集终端确定与所述日志记录文件对应的分布式存储区域并将所述日志记录文件发送至与所述分布式存储区域位于的日志存储终端并由所述日志存储终端进行存储;实现了有效的获取不同机器上相关联的日志信息,方便用户及管理员对日志进行整体的查询或分析,大大提升了用户体验。

    加速短作业处理的调度方法和装置

    公开(公告)号:CN104317653B

    公开(公告)日:2018-07-31

    申请号:CN201410584774.3

    申请日:2014-10-27

    Abstract: 本发明提供了种加速短作业处理的调度方法和装置,包括:接收作业请求,选择队列,并在队列中设置作业的预留位置标记;如果队列中有长作业影响短作业处理,确定作业的备选队列,并在备选队列中设置作业的备选预留位置标记;当在队列中处理到作业的预留位置标记时,队列接受任务请求,取消作业的备用预留位置标记。本发明能够支持短作业的快速调度,提高系统的吞吐量,使得集群具有快速响应的优势。

    一种日志信息提取方法及装置

    公开(公告)号:CN105005528B

    公开(公告)日:2018-07-24

    申请号:CN201510364362.3

    申请日:2015-06-26

    Abstract: 本发明提供了一种日志信息提取方法及装置,上述方法包括以下步骤:日志收集模块根据日志来源特征信息获取目标日志文件并将所述目标日志文件发送至日志存储模块;其中,所述日志来源特征信息包括日志源地址信息、日志关键字信息、日志类型信息;所述日志存储模块获取所述目标日志文件后,按照预设存储策略,存储至对应的目标存储区域;实现了重要日志信息的有效存储。

Patent Agency Ranking