-
公开(公告)号:CN102867006B
公开(公告)日:2016-04-13
申请号:CN201110189562.1
申请日:2011-07-07
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明实施例提供一种分批聚类方法和系统,所述方法包括:按照预定策略对要聚类的文档进行分批;对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;将除第一批文档以外的每一批文档的凝聚性处理结果中的每一类与上一批文档的凝聚性处理结果中的类合并,得到所述要聚类的文档的分批聚类结果。本实施例的分批聚类方法,通过对要聚类的文档进行分批聚类、批聚类结果的凝聚性处理以及批凝聚性处理结果的合并,提高了聚类性能,实现了增量式的聚类。
-
公开(公告)号:CN102831128A
公开(公告)日:2012-12-19
申请号:CN201110171903.2
申请日:2011-06-15
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明实施例公开了一种对互联网上的同名人物信息进行分类的方法及装置,所述方法包括:针对输入的人物名称信息,检索包括所述人物名称信息的相关网页;分别抽取所述相关网页的人物属性特征和网页主题特征;利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化;按照泛化后的人物属性特征获取所述相关网页的初始关系结果,并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果;融合所述初始关系结果和所述初始聚类结果,以得到所述相关网页的最终分类结果。通过本发明实施例,能够更为精确和准确地对包括同样的人物名称的不同的相关网页进行聚类,从而得到更为准确的实际人物的分类结果。
-
公开(公告)号:CN102193941A
公开(公告)日:2011-09-21
申请号:CN201010124847.2
申请日:2010-03-12
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明涉及一种数据处理装置和为值串形式索引值建立索引的索引方法。该数据处理装置包括为值串形式的索引值建立前缀树索引的索引部分,索引部分包括:中间索引值获取单元,用于将索引值补位到预定长度,并基于补位后的各索引值的相应位以及相应位的组合来获取中间索引值;中间索引项产生单元,用于产生针对中间索引值的索引数据作为中间索引数据,并建立中间索引值与中间索引数据之间的对应关系,中间索引数据是中间索引值覆盖的各索引值的索引数据或索引数据的变形的集合;在该集合中,索引数据或索引数据的变形按照与索引值的各位相关的预定顺序排列,且每一个索引值的索引数据或索引数据的变形各自包含表示本身在何处结束的结束标志。
-
公开(公告)号:CN102073641A
公开(公告)日:2011-05-25
申请号:CN200910221886.1
申请日:2009-11-19
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明提供了一种对消费者生成媒体信息进行处理的方法,所述方法包括步骤:从不同的信息供应源收集并抽取消费者生成媒体信息;根据与抽取得到的消费者生成媒体信息相对应的过滤策略对所述消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息;以及基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。本发明还提供用于实现这种方法的装置及其程序。根据本发明的方法和装置根据用户的特定需求而提供定制的CGM信息,从而显著提高了CGM信息的处理和使用效率,且不会对用户增加额外的操作负担。
-
公开(公告)号:CN102831128B
公开(公告)日:2015-03-25
申请号:CN201110171903.2
申请日:2011-06-15
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明实施例公开了一种对互联网上的同名人物信息进行分类的方法及装置,所述方法包括:针对输入的人物名称信息,检索包括所述人物名称信息的相关网页;分别抽取所述相关网页的人物属性特征和网页主题特征;利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化;按照泛化后的人物属性特征获取所述相关网页的初始关系结果,并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果;融合所述初始关系结果和所述初始聚类结果,以得到所述相关网页的最终分类结果。通过本发明实施例,能够更为精确和准确地对包括同样的人物名称的不同的相关网页进行聚类,从而得到更为准确的实际人物的分类结果。
-
公开(公告)号:CN101944094B
公开(公告)日:2014-06-18
申请号:CN200910158803.9
申请日:2009-07-06
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明提供了网页信息提取方法和装置。所述方法包括:获取网站中的网页的源代码;根据所获取的源代码来建立所述网页的文档对象模型树结构,所述网页的文档对象模型树结构包括一个或多个节点;获取所述网站的至少一个模板,所述模板是文档对象模型树结构的;从所述模板中选择要抽取内容的路径信息;以及将所述要抽取内容的路径信息与所述网页的文档对象模型树结构中的各节点进行匹配,如果匹配成功,则提取所述网页中的与所述路径信息对应的内容信息。
-
公开(公告)号:CN102654881A
公开(公告)日:2012-09-05
申请号:CN201110056065.4
申请日:2011-03-03
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 提供了用于名称消岐聚类的装置和方法。对名称训练集进行数据处理的装置包括:代表相似度确定单元,用于确定名称训练集的代表相似度,该代表相似度为该名称训练集中的文本间相似度的代表值;优选相似度阈值选择单元,用于采用不同的相似度阈值对该名称训练集进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值;以及函数拟合单元,用于根据至少两个名称训练集中的每个名称训练集的代表相似度和优选相似度阈值拟合表示代表相似度与优选相似度阈值之间对应关系的函数。
-
-
公开(公告)号:CN102654881B
公开(公告)日:2014-10-22
申请号:CN201110056065.4
申请日:2011-03-03
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 提供了用于名称消岐聚类的装置和方法。对名称训练集进行数据处理的装置包括:用于确定至少两个名称训练集中每个名称训练集的代表相似度的装置,代表相似度为名称训练集中的文本间相似度的代表值;用于针对至少两个名称训练集中的每个名称训练集,采用不同的相似度阈值进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值的装置;以及用于根据至少两个名称训练集中的每个名称训练集的代表相似度和优选相似度阈值拟合表示代表相似度与优选相似度阈值之间对应关系的函数的装置。
-
公开(公告)号:CN102163203B
公开(公告)日:2013-12-04
申请号:CN201010120118.X
申请日:2010-02-24
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明提供了网页下载的方法和装置。所述方法包括:选取步骤,从多个网页中选取至少一个列表页面;模板生成步骤,根据所述至少一个列表页面中的一个或多个来生成列表页面模板;下载更新步骤,利用所述列表页面模板和所述至少一个列表页面来下载和/或更新所述至少一个列表页面中所包含的主题的主题页面。根据本发明的网页下载的方法和装置,可以针对具有多个结构相似的网页的网站进行高效、自动的网页下载。
-
-
-
-
-
-
-
-
-