-
公开(公告)号:CN109815387B
公开(公告)日:2021-11-19
申请号:CN201811637869.1
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/953
Abstract: 本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执行脚本执行到调用函数时,判断调用函数是否为采集函数,若是,则将采集网页的任务发给网页采集模块,对执行脚本指定的网址进行网页采集处理,得到网址的网页信息作为采集函数的返回值,否则执行调用函数调用的功能,并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务,适应性更强。
-
公开(公告)号:CN109271524B
公开(公告)日:2021-10-15
申请号:CN201810870053.7
申请日:2018-08-02
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F16/332
Abstract: 本发明提供一种知识库问答系统中的实体链接方法,包括:从问句中获取主题词集合;根据获取的主题词集合在知识库中进行搜索,得到初步候选实体集合;对于所述初步候选实体集合中的每个实体,从该实体、所述问句以及所述知识库提取相应的特征;以及,根据提取到的所述初步候选实体集合中的每个实体的特征,得到该实体的评分,并且根据评分得到候选实体集合;本发明提高了实体链接的准确性和效率。
-
公开(公告)号:CN110795943B
公开(公告)日:2021-10-08
申请号:CN201910909274.5
申请日:2019-09-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种针对事件的话题表示生成方法及系统,包括:获取包含多个文档的文档集,且该多篇文档表述同一事件,提取该文档集中各个文档的标题,形成该事件的标题集合;通过对该标题集合中每N个标题获取其最长公共子序列,得到该标题集合的最长公共子序列集合;统计该最长公共子序列集合中各非空最长公共子序列的出现次数,选择出现次数最多的前K个高频最长公共子序列,从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示。本发明无需人工干预,其中不存在人为因素,省时省力。因此,相比现有的技术,提高了针对事件的话题表示的可读性,经过筛选处理得到的话题表示也较精炼和准确。
-
公开(公告)号:CN109992629B
公开(公告)日:2021-08-06
申请号:CN201910149696.7
申请日:2019-02-28
Applicant: 中国科学院计算技术研究所
IPC: G06F16/28
Abstract: 本发明涉及一种融合实体类型约束的神经网络关系抽取方法及系统,包括对实体类型施加注意力机制,该机制对实体的多种类型分配了不同权重,从而凸显了影响最大的类型标签;在损失函数中添加实体类型约束函数,该约束函数在更新过程中使实体词向量学习到实体类型信息,从而实现实体类型对关系的约束。该技术增强了模型对通用方法无法区别关系的识别能力。
-
公开(公告)号:CN113139098A
公开(公告)日:2021-07-20
申请号:CN202110308958.7
申请日:2021-03-23
Applicant: 中国科学院计算技术研究所
IPC: G06F16/901 , G06N3/04
Abstract: 本发明提出一种同质关系大图的摘要提取方法及系统,包括:获取待摘要提取的关系图数据作为当前图数据,且该关系图数据为同质关系大图,并将该当前图数据中每个节点均看作超点;根据该当前图数据的邻接矩阵,通过局部敏感哈希对该当前图数据中节点进行分组;从组中随机选择多个超点对,分别计算该超点对若合并后和该关系图数据之间的差距,选择差距最小的超点对进行合并,得到重构图数据;输出该重构图数据作为摘要提取结果。
-
公开(公告)号:CN109889452B
公开(公告)日:2021-06-11
申请号:CN201910012933.5
申请日:2019-01-07
Applicant: 中国科学院计算技术研究所
IPC: H04L12/851 , H04L12/24 , H04L12/26 , H04L1/00
Abstract: 本发明涉及一种基于条件生成式对抗网络的网络背景流量生成方法,包括:数据获取步骤,获取的网络流量数据及条件信息,并向量化为真实流量;模型生成步骤,以该真实流量得到初始生成模型和判别模型,并通过条件生成式对抗网络以该判别模型对该初始生成模型进行训练,以得到生成模型;流量生成步骤,通过该生成模型以随机向量生成模拟背景流量。
-
公开(公告)号:CN112667221A
公开(公告)日:2021-04-16
申请号:CN202011249093.3
申请日:2020-11-10
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于深度学习开发IDE的深度学习模型构建方法及系统,本发明不仅支持多种不同的深度学习框架,可以让用户以简单的方式选择不同的框架进行模型的训练或推断而不引入额外的类似启动容器的开销;同时通过提供模型转换以支持不同框架模型的可视化,并支持以文本和可视化联调的方式实现实施模型结构的编辑。本发明的IDE较现有方法提供了更简单、方便且全面的开发环境。
-
公开(公告)号:CN112307278A
公开(公告)日:2021-02-02
申请号:CN202011154213.1
申请日:2020-10-26
Applicant: 中国科学院计算技术研究所
IPC: G06F16/903 , G06F16/901
Abstract: 本发明提出一种任意尺度的话题脉络实时生成方法及系统,包括:获取话题历史数据,该话题历史数据包括指定时间范围内预设时间单位的子话题及各子话题所包含的文档;以子话题作为节点,根据该指定时间范围内子话题间的相关性,建立节点间的连边,得到该话题历史数据的图数据;通过动态规划得到该指定时间范围内预设时间单位中各节点的路径权值最大的前k条路径,从所有的出度为0的各节点的该前k条路径中选出权值最大的前k条路径作为该话题历史数据的话题脉络,其中k为正整数。
-
公开(公告)号:CN108874849B
公开(公告)日:2020-12-25
申请号:CN201810097136.7
申请日:2018-01-31
Applicant: 中国科学院计算技术研究所
IPC: G06F16/2453
Abstract: 本发明公开了一种非等值关联子查询的优化方法和系统,其特征在于,包括:获取关联子查询的外表关联列的取值集;根据该关联子查询中操作符的类型和该取值集,建立该关联子查询的外表关联列到内表关联列分区的映射关系;根据得到的分区集合,对该关联子查询的内表进行分区,同时依据该关联子查询中内表的查询聚合函数,获取关联子查询在各分区的中间结果状态信息;根据该映射关系,遍历该外表关联列,通过聚合对应的分区集的中间结果状态信息,得到外表中各关联列对应的子查询结果。本发明具有的技术效果包括:通过对内表进行分区,并重复利用各分区的中间结果从而得到最终的子查询结果集,以提升查询性能。
-
公开(公告)号:CN111897908A
公开(公告)日:2020-11-06
申请号:CN202010398752.3
申请日:2020-05-12
Applicant: 中国科学院计算技术研究所
IPC: G06F16/31 , G06F16/35 , G06F16/36 , G06F40/211 , G06F40/289 , G06F40/295 , G06N3/04
Abstract: 本发明提出一种融合依存信息和预训练语言模型的事件抽取方法及系统,包括以句子的依存句法树为输入,利用使用图卷积神经网络学习依存句法特征,并加入依存关系预测任务,通过多任务学习的方式捕捉更重要的依存关系,最后使用BERT预训练语言模型增强底层句法表达,完成中文句子的事件抽取。由此本发明对事件抽取任务下触发词抽取和论元抽取的性能均有所提高。
-
-
-
-
-
-
-
-
-