-
公开(公告)号:CN111966826A
公开(公告)日:2020-11-20
申请号:CN202010709070.X
申请日:2020-07-22
Applicant: 中国科学院计算技术研究所
IPC: G06F16/35 , G06F40/289 , G06F40/30 , G06F40/216 , G06K9/62
Abstract: 本发明实施例提供了种构建文本分类系统的方法、系统、介质及电子设备,该文本分类系统包括分句模块、句子级特征提取模块、篇章级特征提取模块和分类模块,该方法包括:A1、获取包括多个文本的训练集,所述训练集中的文本带有标记的所属类别,且其中至少部分文本是超长文本;A2、用分句模块根据预定义的分句规则对训练集中的每个文本进行分句以得到多个句子;A3、用所述训练集对文本分类系统的句子级特征提取模块、篇章级特征提取模块和分类模块进行多轮训练至收敛,得到文本分类系统;本发明减少了提取特征时丢失语义信息和结构信息的可能,最后根据文本的篇章特征用于后续的分类预测,提高了文本分类的准确率,尤其适用于对超长文本的准确分类。
-
公开(公告)号:CN111738004A
公开(公告)日:2020-10-02
申请号:CN202010546972.6
申请日:2020-06-16
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295
Abstract: 本发明实施例提供了一种命名实体识别模型的训练方法及命名实体识别的方法,本发明利用训练集训练BERT-CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。
-
公开(公告)号:CN111738003A
公开(公告)日:2020-10-02
申请号:CN202010541415.5
申请日:2020-06-15
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明实施例提供了命名实体识别模型训练方法、命名实体识别方法和介质,本发明考虑先用源领域标记数据和目标领域未标记数据集对第一训练模型进行训练,基于第一训练模型的参数设置第二训练模型,再用目标领域标记数据集对第二训练模型进行微调,从而得到最终的命名实体识别模型,由此,避免了需要大量标记目标领域的样本用于训练的问题。
-
公开(公告)号:CN111428519A
公开(公告)日:2020-07-17
申请号:CN202010151246.4
申请日:2020-03-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于熵的神经机器翻译动态解码方法及系统,通过分析句子的熵值与BLEU值之间的关系,发现BLEU值高的句子中单词的平均熵值比BLEU值低的句子中单词的平均熵值小,且熵值低的句子的BLEU值普遍比熵值高的句子的BLEU值高。通过计算句子的熵值与BLEU值之间的Pearson系数,发现两者之间存在相关性。因此,本发明提出在训练过程解码阶段的每个时间步,不仅要以一定的概率采样选择真实单词或预测单词获取上下文信息,还要根据上一个时间步的预测结果计算熵值,然后根据熵值动态调整上下文信息的权重。解决了神经机器翻译模型在解码过程中因训练和推断之间的上下文信息差异而导致的错误累积问题。
-
公开(公告)号:CN108090222B
公开(公告)日:2020-07-07
申请号:CN201810011460.2
申请日:2018-01-05
Applicant: 中国科学院计算技术研究所 , 中科天玑数据科技股份有限公司
IPC: G06F16/27
Abstract: 本发明公开了一种数据库集群节点间数据同步系统,涉及数据处理领域。所述系统包括配置单元、元数据存储单元、元数据判断单元、读写判断单元、Paxos同步单元、日志存储单元和日志重现单元。本发明解决了现有数据库同步方法中异步方式可能导致数据库集群数据不一致的问题,也解决了同步方式可能因为某个节点阻塞导致性能低下的问题;最后,本发明所述数据库集群节点间数据同步系统也支持不同方向的数据同步,没有只能将数据从主数据库同步到从数据库的限制。
-
公开(公告)号:CN110795943A
公开(公告)日:2020-02-14
申请号:CN201910909274.5
申请日:2019-09-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种针对事件的话题表示生成方法及系统,包括:获取包含多个文档的文档集,且该多篇文档表述同一事件,提取该文档集中各个文档的标题,形成该事件的标题集合;通过对该标题集合中每N个标题获取其最长公共子序列,得到该标题集合的最长公共子序列集合;统计该最长公共子序列集合中各非空最长公共子序列的出现次数,选择出现次数最多的前K个高频最长公共子序列,从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示。本发明无需人工干预,其中不存在人为因素,省时省力。因此,相比现有的技术,提高了针对事件的话题表示的可读性,经过筛选处理得到的话题表示也较精炼和准确。
-
公开(公告)号:CN106354870B
公开(公告)日:2019-07-12
申请号:CN201610828103.6
申请日:2016-09-18
Applicant: 中国科学院计算技术研究所
IPC: G06F16/25
Abstract: 本发明提供一种数据加载系统和方法。所述方法包括:多个数据加载节点中的一个接收加载请求;响应于该加载请求,在多个数据加载节点中启动与该加载请求相对应的加载服务进程,以及生成加载标识,该加载标识与该加载服务进程相关联;数据源节点基于所述加载标识获得所述加载服务进程的监听地址;数据源节点向该监听地址发送待加载数据;数据加载节点从该监听地址接收来自该数据源节点的待加载数据,以及按照设置的路由规则将数据转发至其他数据加载节点,或者将数据加载到相关联的存储设备。根据本发明的方法,可以提高数据加载的安全性和可靠性,避免采用硬件或者频繁启动加载而带来的损耗成本,并且利用并发的系统资源来执行数据加载的过程。
-
公开(公告)号:CN109819019A
公开(公告)日:2019-05-28
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
公开(公告)号:CN109815387A
公开(公告)日:2019-05-28
申请号:CN201811637869.1
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/953
Abstract: 本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执行脚本执行到调用函数时,判断调用函数是否为采集函数,若是,则将采集网页的任务发给网页采集模块,对执行脚本指定的网址进行网页采集处理,得到网址的网页信息作为采集函数的返回值,否则执行调用函数调用的功能,并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务,适应性更强。
-
公开(公告)号:CN109753797A
公开(公告)日:2019-05-14
申请号:CN201811503421.0
申请日:2018-12-10
Applicant: 中国科学院计算技术研究所
IPC: G06F21/56
Abstract: 本发明涉及一种针对流式图的密集子图检测方法和系统,包括:持续从社交网络获取三元组,该三元组由用户、对象和时间戳组成,以该三元组作为流式图建模为行增广矩阵;用滑动窗口访问行增广矩阵,并对每个窗口内的行增广矩阵进行奇异值分解,得到奇异矩阵,获取奇异矩阵的奇异向量对,根据向量阈值对该奇异向量对进行筛选,得到候选密集块及其密度;通过对候选密集块利用已有方法进一步进行密集子块筛选;最终密集块的用户为检测的异常用户、其中的目标物为检测的异常目标。本发明根据增广矩阵和滑动窗口对流式图建模,每次只存储一个步长的数据,每次检测一个窗口的数据,性能优于每插入一条新数据都要更新密集块的流式算法。
-
-
-
-
-
-
-
-
-