用户生成媒体信息的处理方法及装置

    公开(公告)号:CN102799599A

    公开(公告)日:2012-11-28

    申请号:CN201110146337.X

    申请日:2011-05-27

    Abstract: 本发明实施例公开了用户生成媒体信息的处理方法及装置。一种用户生成媒体信息的处理方法,包括:根据用户的定制规则获得用户生成媒体信息,并根据所述用户的服务级别为所述用户建立数据库,所述数据库中包括所述用户生成媒体信息;根据所述用户的服务级别及为所述用户建立的数据库为所述用户提供信息服务。通过本发明实施例,能够对不同服务级别的用户提供不同的信息服务,满足了用户的个性化需求。

    标签组分类方法、设备和数据混合方法、设备

    公开(公告)号:CN102750289A

    公开(公告)日:2012-10-24

    申请号:CN201110101514.2

    申请日:2011-04-19

    Abstract: 公开了标签组的分类方法、设备和数据混合方法、设备,其中标签组包括至少一个标签和由至少一个标签定义的相应数据,上述分类方法包括:在多个同义标签集中确定标签组的每个标签所属的同义标签集;生成与标签组相对应的特征向量,在所生成的特征向量中,每个元素分别与多个同义标签集中的不同同义标签集相对应,每个元素的值为标签组中属于与元素相对应的同义标签集的标签的数目;计算特征向量与至少一个类中每个类的核心特征向量之间的相似度,其中类的核心特征向量的每个元素的值是已经被分类到类中的每个标签组的对应特征向量中的相应元素的值的和;以及根据所计算出的相似度,将标签组分类到至少一个类中接近的类中。

    对消费者生成媒体信息进行处理的方法和装置

    公开(公告)号:CN102376057A

    公开(公告)日:2012-03-14

    申请号:CN201010257490.5

    申请日:2010-08-16

    Abstract: 本发明公开一种对消费者生成媒体信息进行处理的方法和装置。所述方法包括:从信息供应源收集并抽取消费者生成媒体信息;基于预定主题对抽取出的所述消费者生成媒体信息进行过滤,以获得与所述预定主题相关的消费者生成媒体信息;基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息;以及可视化地呈现所述定制的消费者生成媒体信息,其中,基于用户模型来进行所述收集和过滤中的至少一个,所述用户模型包括关于用户对消费者生成媒体信息的偏好的信息;并且其中,所述方法还包括:根据所述用户对所呈现的消费者生成媒体信息的反馈来更新所述用户模型。

    用于网络文件的多维索引的方法和设备

    公开(公告)号:CN102270201A

    公开(公告)日:2011-12-07

    申请号:CN201010192559.0

    申请日:2010-06-01

    Abstract: 本发明公开了一种用于网络文件的多维索引的方法和设备,其中为文档建立索引的方法包括:识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中。

    网页下载的方法和装置
    35.
    发明公开

    公开(公告)号:CN102163203A

    公开(公告)日:2011-08-24

    申请号:CN201010120118.X

    申请日:2010-02-24

    Abstract: 本发明提供了网页下载的方法和装置。所述方法包括:选取步骤,从多个网页中选取至少一个列表页面;模板生成步骤,根据所述至少一个列表页面中的一个或多个来生成列表页面模板;下载更新步骤,利用所述列表页面模板和所述至少一个列表页面来下载和/或更新所述至少一个列表页面中所包含的主题的主题页面。根据本发明的网页下载的方法和装置,可以针对具有多个结构相似的网页的网站进行高效、自动的网页下载。

    网页信息提取方法和装置
    36.
    发明公开

    公开(公告)号:CN101944094A

    公开(公告)日:2011-01-12

    申请号:CN200910158803.9

    申请日:2009-07-06

    Abstract: 本发明提供了网页信息提取方法和装置。所述方法包括:获取网站中的网页的源代码;根据所获取的源代码来建立所述网页的文档对象模型树结构,所述网页的文档对象模型树结构包括一个或多个节点;获取所述网站的至少一个模板,所述模板是文档对象模型树结构的;从所述模板中选择要抽取内容的路径信息;以及将所述要抽取内容的路径信息与所述网页的文档对象模型树结构中的各节点进行匹配,如果匹配成功,则提取所述网页中的与所述路径信息对应的内容信息。

    索引合并方法和索引合并装置

    公开(公告)号:CN101882142A

    公开(公告)日:2010-11-10

    申请号:CN200910140421.3

    申请日:2009-05-08

    Abstract: 公开了索引合并方法及装置。索引合并方法包括:确定索引库中是否存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引,n为整数且大于等于2,预定基准与预定子索引的尺寸相关;如果确定存在则将确定的子索引作为子索引集;计算如果合并子索引集中的子索引将获得的新子索引的尺寸;在剩余的子索引中查找不少于m个的、尺寸符合基于与新子索引尺寸相关的基准的预定条件的子索引,m为整数且大于等于1;如果找到了则将找到的子索引加入子索引集中并对新的子索引集执行计算步骤和查找步骤;如果未找到则对子索引集中的子索引进行合并。利用根据本发明的方法和/或装置,能够在动态文本集环境下获得较稳定的优化的系统性能。

    判断网页类型的方法和装置

    公开(公告)号:CN101872347A

    公开(公告)日:2010-10-27

    申请号:CN200910133695.X

    申请日:2009-04-22

    Inventor: 何楠 王主龙 于浩

    Abstract: 公开了一种判断网页的网页类型的方法和装置。所述方法包括:基于待判断网页的URL,在预先存储的规则列表中进行规则匹配,其中规则列表包括多条用于确定网页类型的规则记录;如果规则匹配成功,则依据成功匹配的规则得到待判断网页的网页类型;如果规则匹配失败,则从待判断网页的URL和/或HTML源代码中提取预定特征,并基于由从提取的预定特征中选择的特征构成的特征向量,使用分类器对待判断网页进行网页类型分类,以得到待判断网页的网页类型。在根据本发明的方案中,能够融合规则识别方案与基于统计学习的识别方案的优点,并且能够实现对包括博客、论坛、新闻等在内的各种网页类型进行判断。

    特定类型信息文件的识别方法和装置

    公开(公告)号:CN1702651A

    公开(公告)日:2005-11-30

    申请号:CN200410038357.5

    申请日:2004-05-24

    CPC classification number: G06F17/30896

    Abstract: 提供了一种文件识别装置和方法,用于对从因特网中收集的web页面或存储在其它存储装置中的文件群进行特定信息类型的识别,本发明的装置包括:文件分组部,其按照特定的观点对待识别的文件群进行文件类型分类;文件类型识别部,其根据所述特定信息类型所特有的特征识别文件的类型;以及文件类型识别修正部,其从全组文件识别精度的大局出发,对各个文件识别结果进行修正。本发明的装置和方法可以对各种类型的信息进行识别,并可以实现非常好的识别精度。

Patent Agency Ranking