一种高效的文本数据挖掘方法

    公开(公告)号:CN102402606B

    公开(公告)日:2013-03-20

    申请号:CN201110385415.1

    申请日:2011-11-28

    Abstract: 本发明公开了一种高效的文本数据挖掘方法,属于信息技术领域。本方法为:1)文件预处理阶段将内容经分词后的原文件合并为若干新文件;2)数据映射阶段计算每一词语在新文件中的总频数、在其中每一原文件中的频数及相对频率pr等,并将结果发送到重定向模块中;3)重定向阶段计算每一Reduce任务的负载量payload,并为每一Reduce任务设置一负载指示器payi;4)判断当前词语是否已分配了Reduce任务;如果未分配,则将其分配给Reducej,且payj+pr*100≤payload成立;然后更新Reducej的负载指示payj;否则将当前词语分配给相应Reducei任务;5)数据规约阶段对分配的词语计算其最终的频数等参数;6)根据数据规约结果,提取设定范围内频数大于设定阈值的词语。本发明大大提高频数计算、数据挖掘效率。

    大型系统进化树的加速方法及装置

    公开(公告)号:CN115691656A

    公开(公告)日:2023-02-03

    申请号:CN202211241923.7

    申请日:2022-10-11

    Abstract: 本发明公开了一种大型系统进化树的加速方法及装置,所述方法包括:获取系统进化树中所有节点的属性;基于横向坐标和纵向坐标,对系统进化树的叶子节点进行聚类,以获取离群点和节点簇;在一个节点的子孙叶节点全部属于一个所述节点簇,且所述子孙叶节点的数量不小于一数量阈值的情况下,将该节点作为一新的叶节点,且将所述子孙叶节点的所述可见状态设置为当前节点不可见,以得到新的系统进化树;针对所述新的系统进化树,通过判断每一叶子分支是否因被其它节点覆盖而导致不可见,获取该叶子分支中各节点的可见状态,以生成所述系统进化树的加速结果。本发明避免了大型系统进化树可视化时扎堆折叠的现象。

    一种高效的文本数据挖掘方法

    公开(公告)号:CN102402606A

    公开(公告)日:2012-04-04

    申请号:CN201110385415.1

    申请日:2011-11-28

    Abstract: 本发明公开了一种高效的文本数据挖掘方法,属于信息技术领域。本方法为:1)文件预处理阶段将内容经分词后的原文件合并为若干新文件;2)数据映射阶段计算每一词语在新文件中的总频数、在其中每一原文件中的频数及相对频率pr等,并将结果发送到重定向模块中;3)重定向阶段计算每一Reduce任务的负载量payload,并为每一Reduce任务设置一负载指示器payi;4)判断当前词语是否已分配了Reduce任务;如果未分配,则将其分配给Reducej,且payj+pr*100≤payload成立;然后更新Reducej的负载指示payj;否则将当前词语分配给相应Reducei任务;5)数据规约阶段对分配的词语计算其最终的频数等参数;6)根据数据规约结果,提取设定范围内频数大于设定阈值的词语。本发明大大提高频数计算、数据挖掘效率。

Patent Agency Ranking