-
公开(公告)号:CN114491157A
公开(公告)日:2022-05-13
申请号:CN202210132296.7
申请日:2022-02-14
Applicant: 中国科学院计算技术研究所
IPC: G06F16/90 , G06F16/901 , G06F16/903
Abstract: 本发明实施例提供了一种大数据场景下的数据分割方法,包括:获取探测区间,确定待分割的数据集合中属于探测区间内的区内数据条数;在区内数据条数不处于预定的容忍范围内时,对探测区间的右端点进行一次或者多次指数型调整直至得到使得区内数据条数处于容忍范围内的右端点或者越过容忍范围;在指数型调整导致区内数据条数越过容忍范围时,以当前的探测区间的右端点以及前一个探测区间的右端点构成的区间为查找范围,通过二分查找法确定使得区内数据条数处于容忍范围内的右端点;根据探测区间的左端点以及使得区内数据条数处于容忍范围内的右端点确定的分割区间对数据集合进行分割。
-
公开(公告)号:CN114443820A
公开(公告)日:2022-05-06
申请号:CN202210177000.3
申请日:2022-02-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/33 , G06F16/31 , G06F40/216 , G06F40/237 , G06F40/284
Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。
-
公开(公告)号:CN113190733A
公开(公告)日:2021-07-30
申请号:CN202110459851.2
申请日:2021-04-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种基于多平台的网络事件流行度预测方法,包括以下步骤:分别获取多个平台的网络事件的流行度预测序列,并融合多个流行度预测序列形成网络事件的流行度联合预测序列;分别获取多个平台的网络事件的流行度历史序列,并融合多个流行度历史序列形成网络事件的流行度联合历史序列;利用生成式对抗网络将流行度联合预测序列与流行度联合历史序列进行对齐,得到网络事件的流行度最终预测序列。
-
公开(公告)号:CN109819019B
公开(公告)日:2021-04-27
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
公开(公告)号:CN112668316A
公开(公告)日:2021-04-16
申请号:CN202011290565.X
申请日:2020-11-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F40/258 , G06F40/205 , G06F16/35 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种word文档关键信息抽取方法,其包括:步骤一、获取源word文档,遍历word文档的段落,对于任一段落,判断段落是否具有模板样式属性,若具有模板样式属性,则进入步骤二,否则进入步骤三;步骤二、根据段落的模板样式属性获取段落信息类别,并与预设的待抽取关键信息类别列表进行匹配,将段落抽取并输入至输出文件一中所属信息类别对应的区域;步骤三、基于预设的神经网络模型识别段落的信息类别,并与预设的待抽取关键信息类别列表进行匹配,将段落抽取并输入所属信息类别对应的区域。本发明利用了word文档中的模板样式属性的信息,从而极大地提高了word文档抽取关键信息地效率。
-
公开(公告)号:CN108959204B
公开(公告)日:2021-03-05
申请号:CN201810653622.2
申请日:2018-06-22
Applicant: 中国科学院计算技术研究所
IPC: G06F40/151 , G06F40/143 , G06F16/84 , G06F16/25
Abstract: 本发明涉及一种互联网金融项目信息抽取方法和系统,包括:获取包含金融项目信息的训练网页,为训练网页划分目标项目区域,并为目标项目区域中的DOM树节点标注属性标签,根据训练网页的二维图像、HTML代码、DOM树,抽取DOM树节点的特征向量作为训练数据,训练属性标注模型;获取金融项目信息的待抽取网页,将待抽取网页的DOM树,确定待抽取网页的目标项目区域,根据待抽取网页的目标项目区域中项目列表是否为表格,执行相应的抽取步骤。本发明通过将两种不同特点的互联网金融项目列表分开并对应使用不同的抽取方法,极大的提高了抽取的效率和准确率。
-
公开(公告)号:CN112287272A
公开(公告)日:2021-01-29
申请号:CN202011161424.8
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
-
公开(公告)号:CN110795943A
公开(公告)日:2020-02-14
申请号:CN201910909274.5
申请日:2019-09-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种针对事件的话题表示生成方法及系统,包括:获取包含多个文档的文档集,且该多篇文档表述同一事件,提取该文档集中各个文档的标题,形成该事件的标题集合;通过对该标题集合中每N个标题获取其最长公共子序列,得到该标题集合的最长公共子序列集合;统计该最长公共子序列集合中各非空最长公共子序列的出现次数,选择出现次数最多的前K个高频最长公共子序列,从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示。本发明无需人工干预,其中不存在人为因素,省时省力。因此,相比现有的技术,提高了针对事件的话题表示的可读性,经过筛选处理得到的话题表示也较精炼和准确。
-
公开(公告)号:CN110442421A
公开(公告)日:2019-11-12
申请号:CN201910578655.X
申请日:2019-06-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F9/455
Abstract: 本发明提出一种基于Kubernetes的通用服务转换方法和系统,包括:构建由多个节点构成的Kubernetes系统,其中节点的Pod设有用于提供服务的原服务容器,并通过在Pod中新添加容器的方式或通过原容器镜像的方式,在节点的Pod中加入转换程序;每当发生一次服务调用请求,转换容器或程序根据配置,将服务调用请求转换为原服务执行请求,通过调用原服务容器,提供相对应的服务,并转换成该服务调用请求所对应的服务结果。本发明可解决Kubernetes服务与调用者之间接口不一致的问题;并可减少转换程序与服务程序、调用程序之间的网络开销,同时结合Kubernetes特性,服务程序重新部署时,转换程序自动跟随部署。
-
公开(公告)号:CN109819019A
公开(公告)日:2019-05-28
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
-
-
-
-
-
-
-
-