-
公开(公告)号:CN117594123A
公开(公告)日:2024-02-23
申请号:CN202311531832.1
申请日:2023-11-15
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种基于掩码语言模型的基因型补全方法及相关设备,所述方法包括:获取全基因组单倍体缺失序列以及对应的染色体位置序列,并对全基因组单倍体缺失序列进行映射处理,得到模型输入序列;根据模型输入序列和染色体位置序列对掩码语言模型进行训练和优化,得到基因型补全模型;获取目标全基因组单倍体缺失序列,并输入至基因型补全模型,得到目标缺失基因,并根据目标缺失基因对目标全基因组单倍体缺失序列中的缺失点位进行补全,得到补全后完整的基因序列。本发明能够提高全基因组单倍体序列,特别是低频率等位基因中缺失位点的基因补全准确度,同时也能够提升其基因补全效率。
-
公开(公告)号:CN117421599A
公开(公告)日:2024-01-19
申请号:CN202311477473.6
申请日:2023-11-06
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F18/214 , G06F18/22 , G06N3/045 , G06N3/0475 , G06N3/094
Abstract: 本发明公开一种基于域约束和课程学习反馈的数据生成方法及相关设备,所述方法包括步骤:对生成模型进行第一阶段训练得到目标生成模型;对所述目标生成模型进行第二阶段训练得到最终生成模型,第二阶段训练中,每生成设定数量的生成样本,则对生成样本进行域判定,若生成样本与真实样本的域距离大于设定域距离,则丢弃生成样本,若生成样本与真实样本的域距离小于设定域距离,则根据属性评估器对生成样本进行筛选,根据通过筛选的生成样本对真实样本进行反馈;根据最终生成模型生成所需输出样本。本发明通过计算生成样本与真实样本的域差距,丢弃远离真实样本的生成样本,从而在反馈机制的基础上添加域约束,降低属性评估器带来的误差。
-
公开(公告)号:CN106529212B
公开(公告)日:2019-01-25
申请号:CN201610911060.8
申请日:2016-10-19
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G16B30/00
Abstract: 本发明提供了种基于序列依赖频率矩阵的生物序列进化信息提取方法,其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA;然后统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到如式(1)所示的序列依赖频率矩阵SDFM。本发明的技术方案考虑到了生物序列中相邻位点的依赖关系,能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征,使得统计的概率分布信息包含了序列位点依赖关系信息。
-
公开(公告)号:CN104636636B
公开(公告)日:2018-01-05
申请号:CN201510057034.9
申请日:2015-02-02
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明涉及蛋白质远程同源性检测方法及装置,包括训练过程和检测过程;训练过程包括将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序,并在数据库中进行检索,每一个检索结果对应一个同源相似性评分,将所有检索结果降序排序,并组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练,得到排序模型;检测过程包括将目标蛋白质按照类似训练过程的方式得到特征向量,输入训练好的排序模型进行排序,得到排序结果,根据排序结果确定目标蛋白质的远程同源性检测结果。本发明通过组合多个基排序的检测结果作为特征向量,然后采用排序学习方法进行训练得到排序模型,从而可以有效提高检测的准确性和稳定性。
-
公开(公告)号:CN106529212A
公开(公告)日:2017-03-22
申请号:CN201610911060.8
申请日:2016-10-19
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F19/22
Abstract: 本发明提供了一种基于序列依赖频率矩阵的生物序列进化信息提取方法,其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA;然后统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到如式(1)所示的序列依赖频率矩阵SDFM。本发明的技术方案考虑到了生物序列中相邻位点的依赖关系,能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征,使得统计的概率分布信息包含了序列位点依赖关系信息。
-
公开(公告)号:CN104636636A
公开(公告)日:2015-05-20
申请号:CN201510057034.9
申请日:2015-02-02
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明涉及蛋白质远程同源性检测方法及装置,包括训练过程和检测过程;训练过程包括将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序,并在数据库中进行检索,每一个检索结果对应一个同源相似性评分,将所有检索结果降序排序,并组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练,得到排序模型;检测过程包括将目标蛋白质按照类似训练过程的方式得到特征向量,输入训练好的排序模型进行排序,得到排序结果,根据排序结果确定目标蛋白质的远程同源性检测结果。本发明通过组合多个基排序的检测结果作为特征向量,然后采用排序学习方法进行训练得到排序模型,从而可以有效提高检测的准确性和稳定性。
-
公开(公告)号:CN115345797A
公开(公告)日:2022-11-15
申请号:CN202211007292.2
申请日:2022-08-22
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明涉及染色体测序增强技术领域,具体是涉及基于生成对抗网络的染色体构像接触图增强方法和装置。本发明充分考虑了碱基距离与染色体构像接触图之间的关联性,将碱基距离作为条件信息输入到生成对抗网络中,使得生成对抗网络在训练时能够区别对待不同碱基距离的染色体构像接触图,进而使得训练之后的模型能够根据各个染色体构像接触图的碱基距离有针对性的进行分辨率增强,从而提高整体染色体构像接触图的分辨率。
-
公开(公告)号:CN115329938A
公开(公告)日:2022-11-11
申请号:CN202210994734.0
申请日:2022-08-18
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明公开了一种基于鉴别器森林提高生成对抗网络泛化能力的方法,包括:构建由一个生成器和鉴别器森林组成的生成对抗网络模型;生成训练样本,基于训练样本对鉴别器森林进行训练;通过生成器得到第一生成样本,将第一生成样本输入到训练过的鉴别器森林中的每个鉴别器中,得到鉴别器的损失值,以得到训练梯度,并更新生成器的训练参数,再以最小化的方式对生成器进行训练,得到更新的生成器;基于更新的生成器,重新执行生成训练样本的步骤,以对鉴别器进行下一次迭代训练。本发明提出由鉴别器森林和一个生成器组成的生成对抗网络模型,能够通过鉴别器数量的增加,降低泛化误差上界,提高生成样本的质量和多样性,增强模型的隐私保护能力。
-
-
-
-
-
-
-