一种分批聚类方法和系统
    11.
    发明公开

    公开(公告)号:CN102867006A

    公开(公告)日:2013-01-09

    申请号:CN201110189562.1

    申请日:2011-07-07

    Abstract: 本发明实施例提供一种分批聚类方法和系统,所述方法包括:按照预定策略对要聚类的文档进行分批;对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;将除第一批文档以外的每一批文档的凝聚性处理结果中的每一类与上一批文档的凝聚性处理结果中的类合并,得到所述要聚类的文档的分批聚类结果。本实施例的分批聚类方法,通过对要聚类的文档进行分批聚类、批聚类结果的凝聚性处理以及批凝聚性处理结果的合并,提高了聚类性能,实现了增量式的聚类。

    用户生成媒体信息的处理方法及装置

    公开(公告)号:CN102799599A

    公开(公告)日:2012-11-28

    申请号:CN201110146337.X

    申请日:2011-05-27

    Abstract: 本发明实施例公开了用户生成媒体信息的处理方法及装置。一种用户生成媒体信息的处理方法,包括:根据用户的定制规则获得用户生成媒体信息,并根据所述用户的服务级别为所述用户建立数据库,所述数据库中包括所述用户生成媒体信息;根据所述用户的服务级别及为所述用户建立的数据库为所述用户提供信息服务。通过本发明实施例,能够对不同服务级别的用户提供不同的信息服务,满足了用户的个性化需求。

    对消费者生成媒体信息进行处理的方法和装置

    公开(公告)号:CN102376057A

    公开(公告)日:2012-03-14

    申请号:CN201010257490.5

    申请日:2010-08-16

    Abstract: 本发明公开一种对消费者生成媒体信息进行处理的方法和装置。所述方法包括:从信息供应源收集并抽取消费者生成媒体信息;基于预定主题对抽取出的所述消费者生成媒体信息进行过滤,以获得与所述预定主题相关的消费者生成媒体信息;基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息;以及可视化地呈现所述定制的消费者生成媒体信息,其中,基于用户模型来进行所述收集和过滤中的至少一个,所述用户模型包括关于用户对消费者生成媒体信息的偏好的信息;并且其中,所述方法还包括:根据所述用户对所呈现的消费者生成媒体信息的反馈来更新所述用户模型。

    用于网络文件的多维索引的方法和设备

    公开(公告)号:CN102270201A

    公开(公告)日:2011-12-07

    申请号:CN201010192559.0

    申请日:2010-06-01

    Abstract: 本发明公开了一种用于网络文件的多维索引的方法和设备,其中为文档建立索引的方法包括:识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中。

    网页下载的方法和装置
    15.
    发明公开

    公开(公告)号:CN102163203A

    公开(公告)日:2011-08-24

    申请号:CN201010120118.X

    申请日:2010-02-24

    Abstract: 本发明提供了网页下载的方法和装置。所述方法包括:选取步骤,从多个网页中选取至少一个列表页面;模板生成步骤,根据所述至少一个列表页面中的一个或多个来生成列表页面模板;下载更新步骤,利用所述列表页面模板和所述至少一个列表页面来下载和/或更新所述至少一个列表页面中所包含的主题的主题页面。根据本发明的网页下载的方法和装置,可以针对具有多个结构相似的网页的网站进行高效、自动的网页下载。

    网页信息提取方法和装置
    16.
    发明公开

    公开(公告)号:CN101944094A

    公开(公告)日:2011-01-12

    申请号:CN200910158803.9

    申请日:2009-07-06

    Abstract: 本发明提供了网页信息提取方法和装置。所述方法包括:获取网站中的网页的源代码;根据所获取的源代码来建立所述网页的文档对象模型树结构,所述网页的文档对象模型树结构包括一个或多个节点;获取所述网站的至少一个模板,所述模板是文档对象模型树结构的;从所述模板中选择要抽取内容的路径信息;以及将所述要抽取内容的路径信息与所述网页的文档对象模型树结构中的各节点进行匹配,如果匹配成功,则提取所述网页中的与所述路径信息对应的内容信息。

    同名人物搜索方法及系统
    18.
    发明授权

    公开(公告)号:CN102880623B

    公开(公告)日:2015-09-09

    申请号:CN201110209561.9

    申请日:2011-07-13

    Abstract: 本发明实施例公开了一种同名人物搜索方法及装置,其中,所述方法包括:针对输入的目标人物名称,检索得到包含所述目标人物名称的相关文档;分别提取各个相关文档中的人物关系特征信息,统计各个相关文档中的所述人物关系特征信息,建立人物关系图,并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度;根据各个相关文档各自包含的人物名称,以及所述关系强度,为各个相关文档建立人物关系特征向量;根据所述人物关系特征向量,对各个相关文档进行聚类,得到人物关系聚类结果,以便至少根据所述人物关系聚类结果给出搜索结果。通过本发明,能够提高同名人物聚类的准确度,进而提高搜索结果的质量,提升搜索引擎的性能。

    形成用于生成文档模板的合并树的方法以及装置

    公开(公告)号:CN102375847B

    公开(公告)日:2014-06-04

    申请号:CN201010260747.2

    申请日:2010-08-17

    Abstract: 本发明涉及一种形成用于生成文档模板的合并树的方法以及装置,所述方法包括以下步骤:相似度计算步骤,用于当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并步骤,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理步骤,用于对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。

    数据处理装置和为值串形式索引值建立索引的方法

    公开(公告)号:CN102193941B

    公开(公告)日:2013-09-18

    申请号:CN201010124847.2

    申请日:2010-03-12

    Abstract: 本发明涉及一种数据处理装置和为值串形式索引值建立索引的索引方法。该数据处理装置包括为值串形式的索引值建立前缀树索引的索引部分,索引部分包括:中间索引值获取单元,用于将索引值补位到预定长度,并基于补位后的各索引值的相应位以及相应位的组合来获取中间索引值;中间索引项产生单元,用于产生针对中间索引值的索引数据作为中间索引数据,并建立中间索引值与中间索引数据之间的对应关系,中间索引数据是中间索引值覆盖的各索引值的索引数据或索引数据的变形的集合;在该集合中,索引数据或索引数据的变形按照与索引值的各位相关的预定顺序排列,且每一个索引值的索引数据或索引数据的变形各自包含表示本身在何处结束的结束标志。

Patent Agency Ranking