-
公开(公告)号:CN118446189A
公开(公告)日:2024-08-06
申请号:CN202410492248.8
申请日:2024-04-23
Applicant: 中国科学院计算机网络信息中心
IPC: G06F40/174 , G06F40/18 , G06F18/213 , G06F18/23 , G06N3/042 , G06N3/0455 , G06N3/092 , G06N3/006 , G06F18/24 , G06F18/2433 , G06F18/27
Abstract: 本发明公开了一种基于强化学习的表格数据增强方法及装置,涉及表格数据处理领域,通过收集表格数据,对表格数据特征进行聚类,计算每个特征簇和所有特征簇并集的状态信号,输入级联的演员‑批评家智能体中驱动智能体生成新的特征,计算智能体的奖励信号;迭代进行,每次迭代后根据奖励信号依次更新批评者和演员的参数;智能体优化后,用于对待测表格数据进行处理,生成新的最优表格数据特征,得到增强后的表格数据。本发明通过优化表格数据特征空间,达到提高下游分类、回归、异常检测等各类机器学习模型的性能。
-
公开(公告)号:CN118351941A
公开(公告)日:2024-07-16
申请号:CN202410376805.X
申请日:2024-03-29
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了一种针对单细胞RNA测序数据的关键基因定位方法及装置,涉及机器学习和生物基因领域,本发明为每个基因特征分配一个智能体,将选择关键基因的先验知识存入智能体的内存中;令智能体根据基于先验知识进行环境知识探索,计算对应的当前状态、动作、奖励和下一状态并作为探索的环境知识存入智能体的内存中;对智能体进行行为策略提升,按照贝尔曼方程更新行为策略;使用智能体基于更新后的行为策略,对单细胞RNA测序数据集中的关键基因进行定位。本发明通过多智能体强化学习获取更佳的行为策略,提高对关键基因定位的质量,以及提升关键基因在下游任务上的表现,更好地揭示细胞群体中的异质性。
-
公开(公告)号:CN117494760A
公开(公告)日:2024-02-02
申请号:CN202311320484.3
申请日:2023-10-12
Applicant: 中国科学院计算机网络信息中心
IPC: G06N3/045 , G06N3/09 , G06F18/214 , G06F18/243 , G06N5/01
Abstract: 本发明公开了一种基于超大规模语言模型的富语义标签数据增广方法。本方法为:1)从若干个数据集中获取学科文本数据,组成一学科数据库;遍历学科数据库中每一数据样本,将具有相同分类号的数据样本划分到层次学科结构采样树的同一节点中,根据分类号确定各节点的位置,构建出层次学科结构采样树并计算每一节点的统计信息;2)确定每一学科分类的增强样本数;3)根据每一学科分类的增强样本数更新层次学科结构采样树,并计算每一节点的统计信息;4)根据每一节点更新前后的统计信息,判断各学科分类对应的样本数量是否平衡,如果不平衡则重复步骤2~3);5)利用超大规模语言模型为每一学科分类生成相应数量的对应学科分类的数据样本。
-
公开(公告)号:CN116484016A
公开(公告)日:2023-07-25
申请号:CN202310328740.7
申请日:2023-03-30
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/36 , G06F40/295 , G06F40/30 , G06N5/04
Abstract: 本发明涉及一种基于时序路径自动维护的时序知识图谱推理方法和系统,面向时序知识图谱推理任务,利用具有时间信息的历史时序知识图谱序列预测未来时刻知识图谱缺失的事实信息。该发明首先定义了跨时间的时序路径,然后提供一种能够自动建模维护查询实体与每个候选实体之间历史局部时序路径的方法,最后提出一种跨越时间线的路径语义传递策略用于整合历史时间线上的每一历史时刻的局部时序路径,得到最终的全局时序路径,用于未来下一时刻的图谱事实推理。本发明能够直接将学习到的时序路径表示用于未来时刻的知识图谱事实预测,能够利用具有时间信息的历史时序知识图谱序列预测未来时刻知识图谱缺失的事实信息。
-
公开(公告)号:CN111259006B
公开(公告)日:2023-06-27
申请号:CN202010020974.1
申请日:2020-01-09
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明涉及一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统。该方法包括:1)在中心端对公共基础数据进行注册;2)分布端向中心端进行分布式异构数据的汇聚传输与同步;3)在中心端对汇聚的数据资源进行建库组织与编辑;4)在中心端对数据资源进行统一发布与审核;5)在中心端进行数据资源的集成共享服务。本发明实现了分布式异构实体数据的高效汇聚传输与同步,实现了数据资源的集中建库、组织管理与统一发布,在数据资源门户实现了多种形式的数据发布服务集成与共享,具有一体化,通用可定制特点,保证了数据汇聚、管理、发布与服务过程的整体连通、高可定制和高可复用,大大提升了数据服务封装的通用性和灵活性。
-
公开(公告)号:CN116168825A
公开(公告)日:2023-05-26
申请号:CN202211687077.1
申请日:2022-12-27
Applicant: 中国科学院计算机网络信息中心
IPC: G16H50/20 , G06F16/36 , G06F18/214
Abstract: 本公开涉及一种基于知识图谱增强的可解释性疾病自动诊断装置,所述装置包括:数据获取模块,用于获取患者的症状和医生对每一症状的补充说明;数据增强模块,用于结合所述补充说明,计算各症状的增强表示;路径推断模块,用于在知识图谱中基于所述增强表示进行路径推断,得到每一症状对应的路径集合;其中,所述知识图谱中的实体包括:疾病、症状、手术、药物、描述、相关疾病和相关症状,所述知识图谱中的关系包括:相关于、手术史有和疾病表现,所述路径集合中的路径是以疾病实体为终点的路径;症状推断模块,用于计算所有路径终点对应的疾病出现概率和/或奖励,以得到所述症状的诊断结果。本发明实现了疾病诊断和原因解释两个目的。
-
公开(公告)号:CN111026707B
公开(公告)日:2023-01-17
申请号:CN201911070575.X
申请日:2019-11-05
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/13 , G06F16/14 , G06F16/172
Abstract: 本发明公开了一种小文件对象的存取方法和装置,其步骤为:1)将待存储的小文件对象以数据流的方式存储到数据对象存储库中,并将所述小文件对象的小文件对象标识信息写入元数据库和数据对象存储库的索引文件中;2)当客户端请求读取所述小文件对象时,根据所请求小文件对象的元数据信息查询元数据库获取所请求小文件对象的文件对象位置信息和对应的关联数据获取规则;然后根据关联数据获取规则从元数据库获取与当前所请求小文件对象的关联小文件对象位置信息;然后根据所请求小文件对象的小文件对象位置信息和关联小文件对象位置信息从数据对象存储库中获取对应数据返回给客户端并存储到缓存数据库中。
-
公开(公告)号:CN113962293B
公开(公告)日:2022-10-14
申请号:CN202111153524.0
申请日:2021-09-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06K9/62 , G06F40/30 , G06F40/289 , G06F16/36 , G06N20/00
Abstract: 本发明面向科学文献数据,针对文献中作者同名现象提出一种基于LightGBM分类与表示学习的姓名消歧方法和系统。监督学习部分利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,作为LightGBM二分类模型的输入,模型输出作为两篇论文属于同一作者的概率。表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法,来捕捉论文的语义信息和论文之间的关系特征。最后,基于监督模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现同名消歧。本发明能够在不损失精确率与召回率的前提下,达到高可扩展性与稳定性,并且可以完全实现并行化计算,以加快执行效率。
-
公开(公告)号:CN112418596B
公开(公告)日:2022-10-11
申请号:CN202011084995.6
申请日:2020-10-12
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了一种生物多样性保护规划的方法,其步骤包括:1)根据设定的生物多样性保护规划条件确定规划范围、规划粒度;其中每一规划范围包括一个或多个规划粒度,根据所得各规划粒度建立一规划粒度列表并根据每一规划粒度的范围确定对应规划粒度内的待保护物种;2)根据每一所述规划粒度内的物种构建一系统发育树,得到多个系统发育树;3)计算每一所述系统发育树的系统发育多样性指数,生成规划范围内多样性指数键值对;4)根据各多样性指数键值计算每一规划范围的物种多样性分布,根据物种多样性分布确定优先保护区域。本发明能够快速计算小粒度单位的系统发育多样性指数分布并确定合理的规划结果。
-
公开(公告)号:CN110516146B
公开(公告)日:2022-08-19
申请号:CN201910635799.4
申请日:2019-07-15
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/9535 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于异质图卷积神经网络嵌入的作者名字消歧方法,其步骤为:1)对于一待消歧的目标作者名,收集以该目标作者名所著的出版物,然后根据所收集出版物的标题、作者列表和出版刊物信息构建出版物异质属性网络;2)根据所述出版物异质属性网络,通过基于元路径随机游走策略生成包含出版物节点邻居节点文本信息的路径;3)根据所述出版物异质属性网络以及所述路径,基于异质图卷积神经网络嵌入模型学习每一出版物的表征向量;4)根据所述出版物异质属性网络和所述出版物的表征向量,构建该目标作者名的出版物同质网络;5)对所述出版物同质网络进行划分,得到若干簇;其中同一簇中的出版物为同一人的出版物集合。
-
-
-
-
-
-
-
-
-