-
公开(公告)号:CN102270201B
公开(公告)日:2013-07-17
申请号:CN201010192559.0
申请日:2010-06-01
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明公开了一种用于网络文件的多维索引的方法和设备,其中为文档建立索引的方法包括:识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中,其中,针对主维度的特征和次维度的特征建立扩展的倒排索引包括:针对所述主维度的特征建立一维索引,并且在所述一维索引中附加所述次维度的特征。
-
公开(公告)号:CN102880623A
公开(公告)日:2013-01-16
申请号:CN201110209561.9
申请日:2011-07-13
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明实施例公开了一种同名人物搜索方法及装置,其中,所述方法包括:针对输入的目标人物名称,检索得到包含所述目标人物名称的相关文档;分别提取各个相关文档中的人物关系特征信息,统计各个相关文档中的所述人物关系特征信息,建立人物关系图,并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度;根据各个相关文档各自包含的人物名称,以及所述关系强度,为各个相关文档建立人物关系特征向量;根据所述人物关系特征向量,对各个相关文档进行聚类,得到人物关系聚类结果,以便至少根据所述人物关系聚类结果给出搜索结果。通过本发明,能够提高同名人物聚类的准确度,进而提高搜索结果的质量,提升搜索引擎的性能。
-
公开(公告)号:CN102375847A
公开(公告)日:2012-03-14
申请号:CN201010260747.2
申请日:2010-08-17
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明涉及一种形成用于生成文档模板的合并树的方法以及装置,所述方法包括以下步骤:相似度计算步骤,用于当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并步骤,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理步骤,用于对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。
-
-