-
公开(公告)号:CN116484016B
公开(公告)日:2024-08-13
申请号:CN202310328740.7
申请日:2023-03-30
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/36 , G06F40/295 , G06F40/30 , G06N5/04
Abstract: 本发明涉及一种基于时序路径自动维护的时序知识图谱推理方法和系统,面向时序知识图谱推理任务,利用具有时间信息的历史时序知识图谱序列预测未来时刻知识图谱缺失的事实信息。该发明首先定义了跨时间的时序路径,然后提供一种能够自动建模维护查询实体与每个候选实体之间历史局部时序路径的方法,最后提出一种跨越时间线的路径语义传递策略用于整合历史时间线上的每一历史时刻的局部时序路径,得到最终的全局时序路径,用于未来下一时刻的图谱事实推理。本发明能够直接将学习到的时序路径表示用于未来时刻的知识图谱事实预测,能够利用具有时间信息的历史时序知识图谱序列预测未来时刻知识图谱缺失的事实信息。
-
公开(公告)号:CN117494760A
公开(公告)日:2024-02-02
申请号:CN202311320484.3
申请日:2023-10-12
Applicant: 中国科学院计算机网络信息中心
IPC: G06N3/045 , G06N3/09 , G06F18/214 , G06F18/243 , G06N5/01
Abstract: 本发明公开了一种基于超大规模语言模型的富语义标签数据增广方法。本方法为:1)从若干个数据集中获取学科文本数据,组成一学科数据库;遍历学科数据库中每一数据样本,将具有相同分类号的数据样本划分到层次学科结构采样树的同一节点中,根据分类号确定各节点的位置,构建出层次学科结构采样树并计算每一节点的统计信息;2)确定每一学科分类的增强样本数;3)根据每一学科分类的增强样本数更新层次学科结构采样树,并计算每一节点的统计信息;4)根据每一节点更新前后的统计信息,判断各学科分类对应的样本数量是否平衡,如果不平衡则重复步骤2~3);5)利用超大规模语言模型为每一学科分类生成相应数量的对应学科分类的数据样本。
-
公开(公告)号:CN116484016A
公开(公告)日:2023-07-25
申请号:CN202310328740.7
申请日:2023-03-30
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/36 , G06F40/295 , G06F40/30 , G06N5/04
Abstract: 本发明涉及一种基于时序路径自动维护的时序知识图谱推理方法和系统,面向时序知识图谱推理任务,利用具有时间信息的历史时序知识图谱序列预测未来时刻知识图谱缺失的事实信息。该发明首先定义了跨时间的时序路径,然后提供一种能够自动建模维护查询实体与每个候选实体之间历史局部时序路径的方法,最后提出一种跨越时间线的路径语义传递策略用于整合历史时间线上的每一历史时刻的局部时序路径,得到最终的全局时序路径,用于未来下一时刻的图谱事实推理。本发明能够直接将学习到的时序路径表示用于未来时刻的知识图谱事实预测,能够利用具有时间信息的历史时序知识图谱序列预测未来时刻知识图谱缺失的事实信息。
-
公开(公告)号:CN113962293B
公开(公告)日:2022-10-14
申请号:CN202111153524.0
申请日:2021-09-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06K9/62 , G06F40/30 , G06F40/289 , G06F16/36 , G06N20/00
Abstract: 本发明面向科学文献数据,针对文献中作者同名现象提出一种基于LightGBM分类与表示学习的姓名消歧方法和系统。监督学习部分利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,作为LightGBM二分类模型的输入,模型输出作为两篇论文属于同一作者的概率。表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法,来捕捉论文的语义信息和论文之间的关系特征。最后,基于监督模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现同名消歧。本发明能够在不损失精确率与召回率的前提下,达到高可扩展性与稳定性,并且可以完全实现并行化计算,以加快执行效率。
-
公开(公告)号:CN119068996A
公开(公告)日:2024-12-03
申请号:CN202410989937.X
申请日:2024-07-23
Applicant: 中国科学院计算机网络信息中心
IPC: G16B40/00 , G16B30/00 , G06F18/23213 , G06F18/25 , G06N3/042 , G06N3/0464 , G06N3/0455 , G06N3/0895
Abstract: 本发明公开一种用于解释单细胞RNA测序数据的孪生聚类方法及系统,属于生物信息技术领域。所述方法包括:对单细胞RNA测序数据进行预处理,得到预处理后的基因表达矩阵,并基于所述预处理后的基因表达矩阵构建细胞间的K最近邻图;对所述预处理后的基因表达矩阵进行特征空间增强,得到扰动属性矩阵#imgabs0#对所述细胞间的K最近邻图进行结构空间增强,得到增强图;基于所述扰动属性矩阵和所述增强图进行信息融合与编解码,得到所述单细胞RNA测序数据对应的聚类结果。本发明能够有效解决现有scRNA‑seq数据聚类方法面临的对细胞间信息探索不足、数据抗噪能力低以及对大型数据集可扩展性差的问题。
-
公开(公告)号:CN117540233A
公开(公告)日:2024-02-09
申请号:CN202311335095.8
申请日:2023-10-16
Applicant: 中国科学院计算机网络信息中心
IPC: G06F18/23213 , G06F18/214 , G06F18/213 , G06F18/25 , G16B40/00 , G06N3/0455 , G06N3/084 , G06N3/088
Abstract: 本发明公开了一种基于深度图切割的scRNA‑seq数据聚类方法及装置,该方法包括:对原始的scRNA‑seq计数矩阵进行预处理,得到原始数据X,并分别构建所述原数数据X的协调协同图和垂直融合图;基于自动编码器提取原始数据X的表征矩阵H,并计算重构损失;结合表征矩阵H最小化协调协同图和垂直融合图的联合归一化切,以得到NCut损失;根据表征矩阵H进行基于最佳传输的自监督聚类,并计算聚类损失;联合重构损失、NCut损失以及聚类损失进行参数更新后,得到原始数据X的聚类结果。本发明可以解决scRNA‑seq实验中数据成指数增长带来的挑战,并获得更好的聚类精度。
-
公开(公告)号:CN113962293A
公开(公告)日:2022-01-21
申请号:CN202111153524.0
申请日:2021-09-29
Applicant: 中国科学院计算机网络信息中心
IPC: G06K9/62 , G06F40/30 , G06F40/289 , G06F16/36 , G06N20/00
Abstract: 本发明面向科学文献数据,针对文献中作者同名现象提出一种基于LightGBM分类与表示学习的姓名消歧方法和系统。监督学习部分利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,作为LightGBM二分类模型的输入,模型输出作为两篇论文属于同一作者的概率。表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法,来捕捉论文的语义信息和论文之间的关系特征。最后,基于监督模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现同名消歧。本发明能够在不损失精确率与召回率的前提下,达到高可扩展性与稳定性,并且可以完全实现并行化计算,以加快执行效率。
-
公开(公告)号:CN112069290A
公开(公告)日:2020-12-11
申请号:CN202010730690.1
申请日:2020-07-27
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/33 , G06F16/335 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于图局部结构和文本语义相似性的学术论文推荐方法。本方法为:1)基于论文库中论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络;2)对于论文pi,基于该异质网络计算与论文pi有关联的论文相似度,形成一推荐结果候选集;3)生成论文库中每一论文的关系表征向量和语义表征向量,并加权求和得到对应论文的最终表征向量;将论文pi加入到该论文库中并生成论文pi的最终表征向量;4)计算论文库中每一论文的最终表征向量与论文pi的最终表征向量的相似性,并根据所得相似性选取多个论文作为论文pi的待推荐候选论文;5)将推荐结果候选集与待推荐候选论文进行融合,选取相似性最高的若干论文作为论文pi的推荐论文。
-
公开(公告)号:CN119598006A
公开(公告)日:2025-03-11
申请号:CN202411534489.0
申请日:2024-10-30
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/9535 , G06F16/901 , G06F40/30 , G06N5/022 , G06N3/042 , G06N3/0464 , G06N3/045 , G06N3/0455 , G06N3/08 , G06F16/36 , G16C60/00
Abstract: 本发明涉及生物信息学和人工智能技术领域,特别涉及一种基于知识图谱的微生物合成纳米材料推荐方法。获取微生物信息和纳米材料信息;通过所述微生物信息和所述纳米材料信息构建知识图谱;其中,所述知识图谱的节点由微生物、纳米材料、合成方法和元素组成;基于所述知识图谱得到结构特征向量和语义特征向量;拼接所述结构特征向量和所述语义特征向量,得到所述各节点的表示向量;基于所述表示向量对所述各节点进行打分,根据所述打分的结果判断微生物和纳米材料的关系。本发明可以从大规模的知识图谱中挖掘微生物与潜在纳米材料之间的隐性关联。
-
公开(公告)号:CN112069306B
公开(公告)日:2022-09-09
申请号:CN202010710086.2
申请日:2020-07-22
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/335 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于作者著作树和图神经网络的论文合作者推荐方法,其步骤包括:1)对于数据库中的每一个作者,收集该作者的论文并提取关键词信息,构建该作者的著作树;2)对每个著作树,基于图神经网络模型构建对应作者著作树的信息传播模型,将著作树上的论文信息和关键词信息传播到作者节点中,编码出对应作者初始的表征向量;3)从该数据库中抽取出所有合作过的作者对集合,训练信息传播模型的参数,优化各初始表征向量,得到各作者最终的表征向量;4)对于一需推荐合作者的论文A,遍历与论文A的作者未曾合作过的作者集合N;然后比较作者A与集合N中每一作者最终的表征向量余弦相似度,根据计算结果为论文A的作者推荐合作者。
-
-
-
-
-
-
-
-
-