一种新闻列表页判断方法及筛选新闻列表页的方法

    公开(公告)号:CN104182482B

    公开(公告)日:2018-05-22

    申请号:CN201410382359.X

    申请日:2014-08-06

    Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。

    一种BT网络中热门种子文件获取方法

    公开(公告)号:CN103533048B

    公开(公告)日:2018-01-26

    申请号:CN201310475961.3

    申请日:2013-10-12

    Abstract: 本发明提供一种BT网络中热门种子文件获取方法,包括下列步骤:1)构造多个虚拟BT客户端,所述多个虚拟BT客户端的ID均匀分布在BT网络ID逻辑空间;2)各虚拟BT客户端监听BT网络中的get_peers消息,统计所收到的对应于每个infohash的get_peer消息的数目;3)定期统计所有虚拟BT客户端所接收到的对应于每个infohash的get_peer消息的数目,并根据get_peer消息的数目确定相应的infohash是否为热门infohash。本发明能够全面准确地获取整个BT网络范围内的热门种子文件。

    一种基于表示向量的作品标签推荐方法和系统

    公开(公告)号:CN107391577A

    公开(公告)日:2017-11-24

    申请号:CN201710469315.4

    申请日:2017-06-20

    Abstract: 本发明涉及一种基于表示向量的标签推荐方法和系统,其特征在于,包括:获取多个作品,根据每个作品对应的标签、关系及对象,构建多个包含作品和标签的二元组信息和包含作品、关系及对象的三元组信息,根据二元组信息和三元组信息生成训练数据集;通过对训练数据集进行表示学习,分别得到各个作品的作品表示向量和各类标签的标签表示向量;通过计算各个作品表示向量和各类标签表示向量之间的距离,从各类标签中筛选出各个作品的推荐标签。本发明在学习表示向量的过程中,本发明同时考虑作品标签对二元组信息和作品的三元组信息。通过融入更多信息,使得学到的表示向量能够更准确地反映作品和标签的语义,从而更好地支持标签推荐这一任务。

    面向在线百科的知识库自动更新方法及系统

    公开(公告)号:CN103823879B

    公开(公告)日:2017-06-16

    申请号:CN201410072608.5

    申请日:2014-02-28

    Abstract: 本发明提供一种面向在线百科的知识库自动更新的方法,该方法实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;从所获取的知识语料识别知识的变化,以及将基于所识别的知识的变化来更新知识库。该方法实时感知更新的知识,自动判断更新知识在知识库中所处的位置,以及将更新的知识,自动合并添加到知识库中,可避免知识库的滞后性并满足用户对知识库时新性的要求。

    一种面向在线百科的事件识别方法和事件关系抽取方法

    公开(公告)号:CN103823868B

    公开(公告)日:2017-05-03

    申请号:CN201410066711.9

    申请日:2014-02-26

    Abstract: 本发明提供一种面向在线百科的事件识别方法和事件关系抽取方法。所述事件识别方法包括:从在线百科的分类体系中得到事件类分类标签;所述事件类分类标签表示该分类标签下的词条与一个或多个事件有关。以及对于所述在线百科中的词条,根据其所有分类标签中属于所述事件类分类标签的分类标签所占比率,判断所述词条是否是事件类词条。本发明能够快速且准确地识别出事件类词条,并且能够在事件识别的基础上进行事件关系的抽取,适用于对事件进行预测和溯源。

    一种网页信息的抽取方法和系统

    公开(公告)号:CN103870506B

    公开(公告)日:2017-02-08

    申请号:CN201210548678.4

    申请日:2012-12-17

    Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。

    一种查询纠错方法和系统

    公开(公告)号:CN103198149B

    公开(公告)日:2017-02-08

    申请号:CN201310142075.9

    申请日:2013-04-23

    Abstract: 本发明提供一种查询纠错方法和系统。所述方法包括:将查询语句转换为字符序列,判断字符序列的长度是否大于预定阈值δ;对长度大于δ的字符序列同时进行正向和反向查询纠错处理,直到重合处理的字符个数达到阈值M,得到正向和反向的候选语句项集合。所述方法还包括将正向的候选语句项集合中后M个字符与反向候选语句项集合中前M个字符相同的候选语句项进行拼接,拼接后的候选语句项构成纠错候选项集合。所述方法支持中、英文混杂的查询语句,并且可对长查询采用正反向并行的查询纠错处理,这种并行的处理方式在保证正确率的同时节省了查询纠错的处理时间。

    一种面向开放文本的领域概念抽取方法

    公开(公告)号:CN105677640A

    公开(公告)日:2016-06-15

    申请号:CN201610011936.3

    申请日:2016-01-08

    CPC classification number: G06F17/2765 G06N5/022

    Abstract: 本发明提供一种面向开放文本的领域概念抽取方法,包括:1)遍历开放文本集合,从每一篇开放文本中提取候选领域概念;对于每一候选领域概念,利用该候选领域概念的短语拆分结果、上下文信息和百科分类信息得到该候选领域概念所关联的词向量,将该词向量中的所有的词分别作为该候选领域概念所关联的领域标签;3)用步骤1)得出的所有候选领域概念构建候选领域概念集合A,用步骤2)得出的所有领域标签构建领域标签集合B;利用HITS算法进行迭代计算,得出各个候选领域概念的领域相关度;4)利用各个候选领域概念的所述领域相关度进行领域概念的判断。本发明能够提高准确率和召回率,能够更好地识别出那些重要的低频概念。

Patent Agency Ranking