-
公开(公告)号:CN117095756A
公开(公告)日:2023-11-21
申请号:CN202310960615.8
申请日:2023-08-01
Applicant: 中国科学院计算技术研究所
IPC: G16B50/00 , G16B50/10 , G16B20/00 , G06F16/901 , G06F16/903
Abstract: 本发明为一种以基因组位置为索引的生物信息数据库跨库检索方法,包括以下步骤:创建跨库生物信息检索表;对多个现有生物信息数据库的条目进行遍历,获取第一基因数据;对所述第一基因数据按照基因组位置进行统一表述,得到统一表述索引;将所述统一表述索引与所述第一基因数据进行关联,得到第二基因数据;将所述第二基因数据存储到所述跨库生物信息检索表;根据待检索基因组位置在所述跨库生物信息检索表进行关联检索,得到第一检索结果;对所述第一检索结果进行区间运算,得到第二检索结果;根据所述第二检索结果在对应的所述现有生物信息数据库检索,得到待检索基因组位置关联的生物信息数据。
-
公开(公告)号:CN111192631B
公开(公告)日:2023-07-21
申请号:CN202010000530.1
申请日:2020-01-02
Applicant: 中国科学院计算技术研究所
IPC: G16B20/00 , G16B5/00 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种构建用于预测蛋白质‑RNA相互作用结合位点模型的方法和系统,与其对应的还包括使用该方法预测蛋白质‑RNA相互作用结合位点的方法和系统。其使用RNA与蛋白质结合位点处及上下游的序列特征以及测定的RNA结构特征来训练深度学习模型,并使用所述模型对蛋白质‑RNA相互作用结合位点进行预测。在所述特征的提取过程中分别使用了基于卷积神经网络构建的基序获取模块和基于循环神经网络构建的上下文语义获取模块。本发明中训练出的模型在判断准确度和计算时间以及应用平台的广泛性方面都相比于现有技术有着显著进步。
-
公开(公告)号:CN113408505A
公开(公告)日:2021-09-17
申请号:CN202110957126.8
申请日:2021-08-19
Applicant: 北京大学第三医院(北京大学第三临床医学院) , 中国科学院计算技术研究所
Abstract: 本发明提供了一种基于深度学习的染色体极性识别方法,所述方法包括(1)收集数据集,(2)构建训练集和测试集,(3)基于训练集对染色体极性识别模型进行学习训练,(4)将测试集输入到染色体极性识别模型进行测试,输出待预测染色体的极性结果。本发明还提供了一种基于深度学习的染色体极性识别系统。本发明提供的方法和系统基于深度学习分类算法,能够准确地判断当前染色体极性类别,并据此完成染色体极性调整,使得染色体均保持短臂朝上的状态。所述方法和系统染色体极性识别准确率达96.36%,而且数据来源简单,染色体分析自动化程度高,流程更加简洁,具有广泛的工业实用性。
-
公开(公告)号:CN103218543B
公开(公告)日:2016-04-13
申请号:CN201310102224.9
申请日:2013-03-27
Applicant: 中国科学院计算技术研究所
IPC: G06F19/20
Abstract: 本发明提供一种区分蛋白编码基因和非编码基因的方法及系统,其能够在序列水平上区分蛋白编码基因和非编码基因的特征,该特征不依赖于物种已知的数据,不需要保守性信息,并且对长非编码RNA有很好的判断效果,除了在准确性上具有强大的优势外,自身操作简单,不需要过多的文件依赖,处理时间明显优于已知的方法。
-
公开(公告)号:CN119763720A
公开(公告)日:2025-04-04
申请号:CN202411330327.5
申请日:2024-09-24
Applicant: 中国科学院计算技术研究所
IPC: G16C20/70 , G16C20/64 , G06N3/0455 , G16B40/00 , G16B25/10
Abstract: 本发明提供一种用于预测对新型药物扰动的转录响应的方法、基于该预测方法的虚拟筛选的方法以及基于以上方法的虚拟筛选系统。其中,预测模型包括扰动适配器、扰动编码器和扰动解码器。扰动适配器,用于将输入的一种或多种新型药物的化学结构和其剂量信息编码到扰动嵌入中;扰动编码器,用于将新型药物的扰动对输入的未扰动转录谱的影响映射到可解释的潜在空间,得到未扰动状态的潜在表示;以及扰动解码器,用于基于潜在表示和扰动嵌入预测新型药物扰动的转录响应的分布。根据新型药物的预测转录响应进行虚拟筛选,计算候选化合物对疾病敏感药物的富集分数,根据富集分数进型化合物推荐。本发明的预测模型的灵活性和扩展性能够无需先验知识或注释。
-
公开(公告)号:CN117093948A
公开(公告)日:2023-11-21
申请号:CN202310961130.0
申请日:2023-08-01
Applicant: 中国科学院计算技术研究所
Abstract: 本发明为一种基于多任务级联的多模态医疗数据融合建模方法及装置,包括以下步骤:对多个医疗数据模态进行学习建模,得到多个单模态医疗数据模型;对所述单模态医疗数据模型进行预测空间输出校准;对校准后所述单模态医疗数据模型进行交叉验证评估,得到第一评估数据;对所述第一评估数据制定优先级策略,进行多任务级联,得到第二评估数据;对所述第二评估数据进行多模态融合评估。
-
公开(公告)号:CN113408505B
公开(公告)日:2022-06-14
申请号:CN202110957126.8
申请日:2021-08-19
Applicant: 北京大学第三医院(北京大学第三临床医学院) , 中国科学院计算技术研究所
Abstract: 本发明提供了一种基于深度学习的染色体极性识别方法,所述方法包括(1)收集数据集,(2)构建训练集和测试集,(3)基于训练集对染色体极性识别模型进行学习训练,(4)将测试集输入到染色体极性识别模型进行测试,输出待预测染色体的极性结果。本发明还提供了一种基于深度学习的染色体极性识别系统。本发明提供的方法和系统基于深度学习分类算法,能够准确地判断当前染色体极性类别,并据此完成染色体极性调整,使得染色体均保持短臂朝上的状态。所述方法和系统染色体极性识别准确率达96.36%,而且数据来源简单,染色体分析自动化程度高,流程更加简洁,具有广泛的工业实用性。
-
公开(公告)号:CN103218543A
公开(公告)日:2013-07-24
申请号:CN201310102224.9
申请日:2013-03-27
Applicant: 中国科学院计算技术研究所
IPC: G06F19/20
Abstract: 本发明提供一种区分蛋白编码基因和非编码基因的方法及系统,其能够在序列水平上区分蛋白编码基因和非编码基因的特征,该特征不依赖于物种已知的数据,不需要保守性信息,并且对长非编码RNA有很好的判断效果,除了在准确性上具有强大的优势外,自身操作简单,不需要过多的文件依赖,处理时间明显优于已知的方法。
-
公开(公告)号:CN119541828A
公开(公告)日:2025-02-28
申请号:CN202411597421.7
申请日:2024-11-11
Applicant: 中国科学院计算技术研究所
IPC: G16H50/20 , G06F18/241 , G06F18/25 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/0985
Abstract: 本发明提出一种慢性肾脏疾病进展预测方法、装置,该方法包含:收集关于慢性肾脏疾病的多模态数据,将所述多模态数据输入至构建的预测模型中进行训练,若识别属于表格数据,通过所述表格特征提取器对该模态数据进行特征聚合并编码为多个一维特征向量,且将该多个一维特征向量整合为表格数据代表向量;若识别属于图像数据,通过所述图像特征提取器对该模态数据整图进行训练,整合得到图像代表向量;通过所述多模态融合分类器对所有所述表格数据代表向量与所有所述图像代表向量进行拼接融合后进行分类预测。该方法能够以极高的精度预测慢性肾脏疾病进展。
-
公开(公告)号:CN119446286A
公开(公告)日:2025-02-14
申请号:CN202411370937.8
申请日:2024-09-29
Applicant: 中国科学院计算技术研究所
IPC: G16B40/20 , G16B30/00 , G06F18/214 , G06F18/2431 , G06F18/213
Abstract: 本发明提供一种增强子启动子调控网络预测模型构建方法,包括:S1、获取原始数据集,原始数据集中包含多个生物样本的多个增强子‑启动子对数据,并将原始数据集划分为多个子集,其中,同一染色体对上的所有增强子启动子对划分到同一个子集;S2、子集进行预处理,每个子集均包含多个数据样本,每个数据样本为一个增强子启动子对,每个数据样本的特征向量为对应增强子启动子对的序列特征、该增强子启动子对之间的距离特征、该增强子启动子对对应的染色质开放性特征拼接形成的特征向量,每个数据样本的标签为对应增强子启动子对之间是否有相互作用;S3、基于预处理后的所有子集采用类别型特征梯度提升的方式,迭代构建多棵对称决策树组成预测模型。
-
-
-
-
-
-
-
-
-