-
公开(公告)号:CN112287272B
公开(公告)日:2023-05-23
申请号:CN202011161424.8
申请日:2020-10-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/958 , G06F16/35 , G06F16/957 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
-
公开(公告)号:CN115687638A
公开(公告)日:2023-02-03
申请号:CN202211199819.6
申请日:2022-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F40/211 , G06F40/289 , G06N3/0455 , G06N3/044 , G06N3/048 , G06N3/047 , G06N3/08
Abstract: 本发明提出一种基于三元组森林的实体关系联合抽取方法和系统,包括:获取待实体关系抽取的语料,得到句子及其对应的词序列;将词序列输入BERT模型,BERT模型对词序列进行分词,得到子词序列,使用BERT模型对子词序列进行编码,得到句子的分布式表示;将分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;将实体向量输入,通过TransformerDecoder模块中多头注意力机制获得实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;将隐层向量作为Tree‑RNN的初始状态和初始隐层单元,输入实体表示至Tree‑RNN,从Tree‑RNN的根节点的头实体生成其所参与的关系,根据头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
-
公开(公告)号:CN111966826B
公开(公告)日:2023-01-24
申请号:CN202010709070.X
申请日:2020-07-22
Applicant: 中国科学院计算技术研究所
IPC: G06F16/35 , G06F40/289 , G06F40/30 , G06F40/216 , G06F18/2415
Abstract: 本发明实施例提供了种构建文本分类系统的方法、系统、介质及电子设备,该文本分类系统包括分句模块、句子级特征提取模块、篇章级特征提取模块和分类模块,该方法包括:A1、获取包括多个文本的训练集,所述训练集中的文本带有标记的所属类别,且其中至少部分文本是超长文本;A2、用分句模块根据预定义的分句规则对训练集中的每个文本进行分句以得到多个句子;A3、用所述训练集对文本分类系统的句子级特征提取模块、篇章级特征提取模块和分类模块进行多轮训练至收敛,得到文本分类系统;本发明减少了提取特征时丢失语义信息和结构信息的可能,最后根据文本的篇章特征用于后续的分类预测,提高了文本分类的准确率,尤其适用于对超长文本的准确分类。
-
公开(公告)号:CN114581230A
公开(公告)日:2022-06-03
申请号:CN202210044130.X
申请日:2022-01-14
Applicant: 中国科学院计算技术研究所
IPC: G06Q40/04 , G06Q20/40 , G06N20/00 , G06F16/901
Abstract: 本发明提出一种流式图中的洗钱行为检测方法、装置、介质,所述方法包括获取洗钱场景中的资金交易信息作为图数据通过有向图表示;在每一条所述资金流到达时,判断所述发生源账户是否在转出资金后达到资金平衡状态,且所述目标账户是否在转入资金后到达资金平衡状态;分别统计当前时刻时所述发生源账户与目标账户达到资金平衡状态的次数以及从初始时刻到当前时刻最近一次达到资金平衡状态之间累积的资金有效转入次数,作为统计特征输入至异常账户评估模型进行异常评估。该方法能够快速并且准确地检测出不同模式的洗钱行为,并且找到可疑的洗钱账户。
-
公开(公告)号:CN109213583B
公开(公告)日:2022-03-29
申请号:CN201810825619.4
申请日:2018-07-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于Linux内核技术通过软硬件协同支持读写性能隔离的I/O调度器,该I/O调度器是在Linux内核的现有I/O调度器中增加了四个单元,即包括有队列分配单元(10)、优先级设置单元(20)、队列延迟时间对比单元(30)和队列深度调节单元(40),同时将Linux内核现有的I/O软件队列(50)和I/O硬件队列(60)中的I/O优先级进行对接;旨在不修改上层应用的前提下,降低应用业务混部带来的性能干扰,即最大程度的做到混部应用的资源隔离。采用本发明设计的I/O调度器处理后能够在数据处理系统中的在线读负载和批量写负载混部,即读写I/O混部的情况下,保持写I/O性能不变的同时,将读I/O的性能提升。
-
公开(公告)号:CN114185885A
公开(公告)日:2022-03-15
申请号:CN202111307991.4
申请日:2021-11-05
Applicant: 中国科学院计算技术研究所
IPC: G06F16/22 , G06F16/2453 , G06F16/2455 , G06F16/2458 , G06F16/901 , G06F16/31 , G06F16/33 , G06F16/51 , G06F16/53
Abstract: 本发明提出一种基于列存数据的流式数据处理方法和系统,包括:获取待处理的列存流式数据及其对应的处理任务,基于时间维度将该流式数据切分为批式数据块,根据预设窗口模式为该批式数据块中每条数据分配窗口序号;将该批式数据块切分为多个中间数据块,每个中间数据块仅包含窗口序号相同的数据,对每个中间数据块的数据进行预聚合计算,产生预聚合中间状态;根据预设的流式数据时间处理模式,从内部存储提取窗口对应窗口序号的预聚合中间状态并执行与其对应的处理任务,输出任务执行结果,作为流式数据处理结果。本发明通过使用列存存储及计算引擎,结合预聚合技术,在保持较低延迟的前提下,提升数据分析场景的吞吐量。
-
公开(公告)号:CN110533162B
公开(公告)日:2022-01-07
申请号:CN201910677639.6
申请日:2019-07-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种自动生成深度学习框架间操作映射的方法及系统,包括:根据原深度学习框架和目标深度学习框架间的操作转换规则,抽取框架间操作转换的基本共性,根据基本共性构建转换关系,将转换关系作为基类存储于操作转换的初始描述文件中;获得原深度学习框架下支持的操作集合,遍历操作集合,为每个操作构建继承基类的子类,判断操作集合中操作除了基类中的基本转换规则外是否具有特殊属性,若是则补充特殊属性至子类,构成完备描述文件,否则直接保存子类,构成完备描述文件;将完备描述文件输入至编译器,得到操作转换规则,根据操作转换规则将原深度学习框架下待转换的操作转换为目标深度学习框架下的操作。
-
公开(公告)号:CN113780569A
公开(公告)日:2021-12-10
申请号:CN202110813797.7
申请日:2021-07-19
Applicant: 中国科学院计算技术研究所
IPC: G06N20/00
Abstract: 本发明提出一种基于相似话题的流行度预测方法和系统,基于KSC算法对历史话题的流行度序列聚类,得到话题级别的演化模式,按照待预测话题的观测窗口和预测窗口大小,对各历史话题的流行度序列进行切分得到训练数据的输入和输出,使用各类别下的历史话题的训练数据分别训练全连接网络作为预测模型,充分利用了与待预测话题在流行度演化模式上相似的历史话题的数据,降低了预测误差。基于DTW算法对待预测话题进行分类,使用待预测话题所属类别的模型进行流行度预测,保证预测及时,增强预测的时效性。
-
公开(公告)号:CN113762465A
公开(公告)日:2021-12-07
申请号:CN202110879783.5
申请日:2021-08-02
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种保护图数据的方法,所述图数据包括节点和节点之间的边,所述节点具有分类标签与属性,所述方法包括:步骤100:从图数据中选择关键节点对;步骤200:对所选择的关键节点对进行免疫保护,所述免疫保护包括:保护同一类别下属性高度相似的节点对之间的连边,以及保持不同类下属性相似度低的节点对间没有连边。本发明首次提出面向数据的对抗免疫方法,不需要影响GNN模型的训练过程,也不需要任何优化过程,节省了优化所需的大量算力和时间。对抗免疫直接为关键节点对“接种疫苗”,保护它们免受攻击损害,从而提高整个图的鲁棒性,同时保证了GNN在干净图上的性能。
-
公开(公告)号:CN110321346B
公开(公告)日:2021-09-21
申请号:CN201910450998.8
申请日:2019-05-28
Applicant: 中国科学院计算技术研究所
IPC: G06F16/22
Abstract: 本发明涉及一种字符串散列表实现方法,包括:根据字符串长度,将该字符串分发至对应的散列表;其中,该散列表包括数组散列表、数值型散列表和字符型双散列表。本发明使用多种异构散列表存储字符串,针对不同字符串的长度选择合适的散列表;同时针对短字符串,将短字符串划分为固定的几个长度区间,提高内存空间利用率,利用字符串变长的特性,为每种区间的散列槽预留末尾的1字节空间原地存储元数据信息;而针对长字符串,使用二级散列表结构,一级散列表通过仅使用部分前缀值计算字符串散列,减少了散列值的计算量;而二级散列表作为一级散列表的冲突链存储表,解决了一级散列表精简散列计算导致的冲突增大的问题。
-
-
-
-
-
-
-
-
-