一种使用重叠图对三代宏基因组分箱的方法

    公开(公告)号:CN118692566A

    公开(公告)日:2024-09-24

    申请号:CN202410721171.7

    申请日:2024-06-05

    Abstract: 本发明公开了一种使用重叠图对三代宏基因组分箱的方法,该方法包括如下步骤:宏基因组Reads的重叠图信息构建;组成和覆盖特征构建与融合;针对整个数据集进行概率抽样;对抽取的样本进行聚类和标记;使用图神经网络进行分箱得到最终的分箱结果。本发明的目的在于针对第三代测序技术产生的较长的原始序列信息,无法很好的对较长序列的特征进行提取和结合的现状,提出了一种依赖重叠图的宏基因组分箱方法,通过序列间的近似重叠区域来构建重叠图,通过计算k‑mer频率向量,将节点度信息与k‑mer频率进行特征融合,旨在解决目前特征提取不充分,对特征融合方式不规范的问题,以及对样本采样不准确,导致分箱结果波动较大的问题。

    一种基于RISC-V向量的深度神经网络量化加速方法

    公开(公告)号:CN119903880A

    公开(公告)日:2025-04-29

    申请号:CN202410831667.X

    申请日:2024-06-25

    Abstract: 本发明公开了一种基于RISC‑V向量的深度神经网络量化加速方法,该方法包括如下步骤:根据向量寄存器堆大小进行分块,使得其大小和张量分块长度一致;计算分块后的张量的量化尺度(Δ,Quantization Scale)与零点(z,Zero Point)保存到一个全局数据结构中;修改编译器让其能识别拓展的乘除指令并完成编译;在向量架构下进行并行计算加速量化和反量化运算。本发明的目的在于解决目前不同神经网络在RISC‑V架构下量化与反量化时,执行相关的除加操作(Divide‑Accumulate Operation,DIVADD)和乘加操作(Multiply‑Accumulate Operation,MAC)时并行度较低、指令开销较大、数据在内存与计算单元间频繁移动而导致的额外功耗等问题。

    一种基于syncmer的进化距离估计及系统发育树构建方法

    公开(公告)号:CN118824374A

    公开(公告)日:2024-10-22

    申请号:CN202410791353.1

    申请日:2024-06-19

    Abstract: 本发明公开了一种基于syncmer的进化距离估计及系统发育树构建方法,该方法包括如下步骤:读取序列文件并将序列进行初步处理;遍历序列上所有长度为k的kmer,找到kmer上hash值最小的smer并判断;遵循MinHash算法最终保留hash值最小的n个syncmer构成草图;草图两两比对计算进化距离矩阵;将距离矩阵转换为系统发育树。本发明的目的在于针对目前的基于距离的系统发育树构建方法在处理大规模数据集时资源消耗增加、计算效率降低、准确性降低,可拓展性差以及面对序列局部突变时无法维持稳定的现状,提出了一种基于syncmer的进化距离估计及系统发育树构建方法,通过使用MinHash算法提取并保留序列上指定数量的最小n个hash值syncmer来构成草图,再通过比对草图来计算进化距离矩阵并构建为系统发育树,旨在提高计算效率,减少计算资源消耗,增强在局部突变情况下的稳定性,并适应未来多基因组构建系统发育树的趋势。

Patent Agency Ranking