一种基于脚本的网页采集服务方法和系统

    公开(公告)号:CN109815387B

    公开(公告)日:2021-11-19

    申请号:CN201811637869.1

    申请日:2018-12-29

    Abstract: 本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执行脚本执行到调用函数时,判断调用函数是否为采集函数,若是,则将采集网页的任务发给网页采集模块,对执行脚本指定的网址进行网页采集处理,得到网址的网页信息作为采集函数的返回值,否则执行调用函数调用的功能,并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务,适应性更强。

    知识库问答系统中的实体链接方法

    公开(公告)号:CN109271524B

    公开(公告)日:2021-10-15

    申请号:CN201810870053.7

    申请日:2018-08-02

    Abstract: 本发明提供一种知识库问答系统中的实体链接方法,包括:从问句中获取主题词集合;根据获取的主题词集合在知识库中进行搜索,得到初步候选实体集合;对于所述初步候选实体集合中的每个实体,从该实体、所述问句以及所述知识库提取相应的特征;以及,根据提取到的所述初步候选实体集合中的每个实体的特征,得到该实体的评分,并且根据评分得到候选实体集合;本发明提高了实体链接的准确性和效率。

    一种针对事件的话题表示生成方法及系统

    公开(公告)号:CN110795943B

    公开(公告)日:2021-10-08

    申请号:CN201910909274.5

    申请日:2019-09-25

    Abstract: 本发明提出一种针对事件的话题表示生成方法及系统,包括:获取包含多个文档的文档集,且该多篇文档表述同一事件,提取该文档集中各个文档的标题,形成该事件的标题集合;通过对该标题集合中每N个标题获取其最长公共子序列,得到该标题集合的最长公共子序列集合;统计该最长公共子序列集合中各非空最长公共子序列的出现次数,选择出现次数最多的前K个高频最长公共子序列,从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示。本发明无需人工干预,其中不存在人为因素,省时省力。因此,相比现有的技术,提高了针对事件的话题表示的可读性,经过筛选处理得到的话题表示也较精炼和准确。

    一种同质关系大图的摘要提取方法及系统

    公开(公告)号:CN113139098A

    公开(公告)日:2021-07-20

    申请号:CN202110308958.7

    申请日:2021-03-23

    Abstract: 本发明提出一种同质关系大图的摘要提取方法及系统,包括:获取待摘要提取的关系图数据作为当前图数据,且该关系图数据为同质关系大图,并将该当前图数据中每个节点均看作超点;根据该当前图数据的邻接矩阵,通过局部敏感哈希对该当前图数据中节点进行分组;从组中随机选择多个超点对,分别计算该超点对若合并后和该关系图数据之间的差距,选择差距最小的超点对进行合并,得到重构图数据;输出该重构图数据作为摘要提取结果。

    一种任意尺度的话题脉络实时生成方法及系统

    公开(公告)号:CN112307278A

    公开(公告)日:2021-02-02

    申请号:CN202011154213.1

    申请日:2020-10-26

    Abstract: 本发明提出一种任意尺度的话题脉络实时生成方法及系统,包括:获取话题历史数据,该话题历史数据包括指定时间范围内预设时间单位的子话题及各子话题所包含的文档;以子话题作为节点,根据该指定时间范围内子话题间的相关性,建立节点间的连边,得到该话题历史数据的图数据;通过动态规划得到该指定时间范围内预设时间单位中各节点的路径权值最大的前k条路径,从所有的出度为0的各节点的该前k条路径中选出权值最大的前k条路径作为该话题历史数据的话题脉络,其中k为正整数。

    一种非等值关联子查询的优化方法和系统

    公开(公告)号:CN108874849B

    公开(公告)日:2020-12-25

    申请号:CN201810097136.7

    申请日:2018-01-31

    Abstract: 本发明公开了一种非等值关联子查询的优化方法和系统,其特征在于,包括:获取关联子查询的外表关联列的取值集;根据该关联子查询中操作符的类型和该取值集,建立该关联子查询的外表关联列到内表关联列分区的映射关系;根据得到的分区集合,对该关联子查询的内表进行分区,同时依据该关联子查询中内表的查询聚合函数,获取关联子查询在各分区的中间结果状态信息;根据该映射关系,遍历该外表关联列,通过聚合对应的分区集的中间结果状态信息,得到外表中各关联列对应的子查询结果。本发明具有的技术效果包括:通过对内表进行分区,并重复利用各分区的中间结果从而得到最终的子查询结果集,以提升查询性能。

Patent Agency Ranking