文档处理方法和系统
    11.
    发明授权

    公开(公告)号:CN101901235B

    公开(公告)日:2013-03-27

    申请号:CN200910203108.X

    申请日:2009-05-27

    CPC classification number: G06F17/30716 G06F17/30011

    Abstract: 本发明涉及文档处理技术,更具体地,涉及在企业搜索领域扩展作为搜索数据源的文档集的方法和系统。本发明提供一种对种子文档集中的种子文档进行扩展的方法,其中所述种子文档集包括至少一篇种子文档,所述方法包括:识别所述种子文档的一个或多个实体词,所述实体词是表示所述种子文档所关注的实体的词;依据所识别的每个实体词,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词;将所识别的每个主题词以及识别所述每个主题词时所依据的实体词组成实体词-主题词对;将每个所述实体词-主题词对中的实体词和主题词同时作为关键词,通过网络获得一篇或多篇扩展文档。

    用于网页文档搜索的方法及系统

    公开(公告)号:CN102880618A

    公开(公告)日:2013-01-16

    申请号:CN201110198627.9

    申请日:2011-07-15

    CPC classification number: G06F17/30864

    Abstract: 本发明提供一种用于网页文档搜索的方法及系统。其中所述方法包括:接收用户的搜索请求;基于网页文档索引,搜索与搜索请求相关的网页文档;基于网页文档的移动路径索引,确定访问网页文档的移动路径;以及向用户发送访问网页文档的所述移动路径。利用本发明的方法或系统可以帮助搜索引擎能够检索到以前难以检索到的内容。

    搜索引擎、其客户端及搜索网页的方法

    公开(公告)号:CN101661490B

    公开(公告)日:2013-01-02

    申请号:CN200810213931.4

    申请日:2008-08-28

    Abstract: 搜索引擎、其客户端及搜索网页的方法。搜索引擎包含查询装置,被配置为检索出满足查询的网页序列;页面摘要提取装置,被配置为提取所述网页序列中至少一个的网页的候选页面摘要;和页面摘要选择装置,被配置为根据与发出所述查询的用户相关的词集选择所述候选页面摘要中的候选页面摘要,作为提供给所述用户的页面摘要。由于不是简单地选择包含查询关键词的文本段来形成页面摘要,而是根据反映用户的信息需求的个性化关键词来从候选页面摘要中选择最终的页面摘要,因而能够在一定程度上满足用户的个性化信息需求。

    推荐短消息接收人的方法和装置

    公开(公告)号:CN102622372A

    公开(公告)日:2012-08-01

    申请号:CN201110033804.8

    申请日:2011-01-31

    CPC classification number: H04W4/14 G06F17/30722

    Abstract: 本发明公开一种推荐短消息接收人的方法和装置,其中方法包括步骤:解析用户的历史短消息以产生与联系人相关联的数据;利用所述数据构建语义关联库;识别所述用户的新短消息文本中的关键对象;利用所述语义关联库分析所述关键对象与联系人的关联性;根据关联性的强度向所述用户推荐短消息接收人。

    用于收集实体别名的方法和设备

    公开(公告)号:CN101499062B

    公开(公告)日:2012-07-04

    申请号:CN200810004920.5

    申请日:2008-01-29

    CPC classification number: G06Q30/02 Y10S707/99936

    Abstract: 本发明提出一种用于收集实体别名的方法,包括:利用Web搜索引擎获得与用户输入的实体相关联的Web对象;从社会化标签网站获得所述Web对象的社会化标签,作为所述实体的候选别名;和对候选别名进行求精,从而获得所述实体的别名的集合。本发明还提出一种用于收集实体别名的设备,包括:用于利用Web搜索引擎获得与用户输入的实体相关联的Web对象的装置;用于从社会化标签网站获得所述Web对象的社会化标签作为所述实体的候选别名的装置;和用于对候选别名进行求精、从而获得所述实体的别名的集合的装置。根据本发明,可以针对任何给定的实体,通过获得大量相关Web对象及其社会化标签来自动和迅速地收集该实体的别名。

    消息处理方法及其系统
    17.
    发明公开

    公开(公告)号:CN102348171A

    公开(公告)日:2012-02-08

    申请号:CN201010243659.1

    申请日:2010-07-29

    CPC classification number: H04W4/023 H04W4/21

    Abstract: 本发明提供一种消息处理方法和系统。其中所述消息处理方法包括:获取消息以及消息的定位信息;根据所述消息的定位信息聚类所述消息,获得消息聚类;抽取消息聚类中消息的内容中的地址;以及基于消息聚类中消息的内容获得所述地址的分类器。通过充分利用相关消息的定位信息等和及时性特点,便捷地为消息用户提供相关细致地址信息,并为管理决策提供有用信息。

    进行文本处理的方法和系统

    公开(公告)号:CN102262632A

    公开(公告)日:2011-11-30

    申请号:CN201010188623.8

    申请日:2010-05-28

    CPC classification number: G06F17/278 G06F17/2785 G06Q10/10 G06Q30/0241

    Abstract: 本发明总体上利用对现有的对象共指技术的扩展实现自动的、更全面的、准确的、有效的文本数据的分析和处理。具体而言,本发明提供了一种文本处理方法,包括:获取待处理的文本;从所述文本中提取主体词和与所述主体词对应的实体词;对所述主体词进行分组;根据分组后的主体词确定指向同一关注对象的实体词;以及对指向同一关注对象的实体词生成处理策略。本发明还提供了实现这种方法的系统。本发明可以用于挖掘有关某一实体的大量的评论数据,本发明还可以用于推荐文章中插入嵌入式广告的插入位置。

    用于识别网页中的广告的方法和系统

    公开(公告)号:CN102033881A

    公开(公告)日:2011-04-27

    申请号:CN200910177336.4

    申请日:2009-09-30

    CPC classification number: G06Q30/0277 G06F17/30908 G06Q30/02

    Abstract: 本发明涉及网页识别技术,尤其涉及识别网页中的广告的技术。本发明提供了一种用于识别网页中的广告的方法,包括:接收种子网页;通过分析所述种子网页的源代码得到所述种子网页的节点特征;根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告;通过分析所述种子广告的链接得到所述种子广告的链接模式;以及利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告。

Patent Agency Ranking