一种面向领域的网络信息搜索方法

    公开(公告)号:CN103049542A

    公开(公告)日:2013-04-17

    申请号:CN201210576696.3

    申请日:2012-12-27

    Abstract: 本发明提供了一种面向领域的网络信息搜索方法,可以将数据信息统一在同一平台,搜索多数据源的信息,支持多种数据格式,包括结构化、半结构化和非结构化数据。该网络信息采集方法步骤如下:领域专家指定领域网站集,同时根据领域特点提出关键词,建立领域关键词库;根据链接和内容分析编写信息采集策略,然后在领域网站采集目标网页;将采集的网页信息进行抽取过滤分类,并建立数据库,根据倒排索引进行信息存储。具体操作包含以下三个模块:网页采集蜘蛛模块,分类器训练模块和数据索引模块。本发明具有较高的适应性和主题相关性,以此为核心的垂直搜索引擎具有较高的查全率和查准率。

    基于用户兴趣向量的个性化网页搜索排序方法

    公开(公告)号:CN103049528A

    公开(公告)日:2013-04-17

    申请号:CN201210562728.4

    申请日:2012-12-24

    Abstract: 本发明公开了一种基于用户兴趣向量的个性化网页搜索排序方法。包括以下步骤:1)对指定用户进行问卷调查,提取用户兴趣主题;2)捕捉用户的点击历史信息如何同其兴趣相关,并结合问卷调查结果,构造一个页面-主题关系表;3)根据用户的页面-主题关系表,进一步推测出用户兴趣向量;4)依据用户兴趣向量和用户查询,生成个性化网页搜索排序结果。本发明有效的结合了对用户的问卷调查和用户点击历史信息,将用户的兴趣向量结合在网页搜索与排序的过程中,使得网页搜索结果排序更加贴近用户的个性化需求,为用户提供其真正需要的网络搜索服务。

Patent Agency Ranking