基因序列压缩方法、检索方法及装置

    公开(公告)号:CN118887997A

    公开(公告)日:2024-11-01

    申请号:CN202410853044.2

    申请日:2024-06-28

    Abstract: 本发明公开了基因序列压缩方法、检索方法及装置,属于生物信息学领域。本发明的基因序列压缩方法通过MapReduce框架实现基于2bit的基因序列压缩,包括解析序列文件、序列化处理和拼接存储。本发明的检索方法包括目标序列读取、查询序列预处理、距离表计算和匹配。本发明的装置部分包括导入、导出、查询和功能拓展模块。本发明采用分布式MapReduce框架和无索引字节流匹配,实现大规模基因数据的高效处理和检索,显著提高了压缩速度和检索效率。

    面向数据处理工作流的跨集群流量优化调度方法及系统

    公开(公告)号:CN116339941A

    公开(公告)日:2023-06-27

    申请号:CN202310181479.2

    申请日:2023-02-20

    Abstract: 本发明公开了一种面向数据处理工作流的跨集群流量优化调度方法及系统,可对跨集群运行的数据处理工作流进行作业优化调度的策略,通过对数据处理工作流进行瓶颈点分析,并在瓶颈点处进行跨集群的作业迁移;其主要步骤包括:构建数据处理工作流的分叉‑合并有向无循环图;对该图进行深度优先的后序遍历;在遍历过程中分析每个作业的瓶颈点及瓶颈流量,并在瓶颈点处确定该作业的执行集群。本发明可以减少数据流水线、容器工作流的跨集群数据流量。

    一种烟叶感官质量预测方法

    公开(公告)号:CN113723622A

    公开(公告)日:2021-11-30

    申请号:CN202110912832.0

    申请日:2021-08-10

    Abstract: 本发明公开了一种烟叶感官质量预测方法,其步骤包括:1)设定所集成弱分类器的数目K、损失函数以及所要分的类别数目R;2)基于样本数据集对集成学习中的各弱分类器进行训练并更新弱分类器的权重和烟草样本的权重;其中训练第k个弱分类器时,第k个弱分类器对输入数据xi的输出为Gk(xi),计算对应的损失函数值ek;然后将第k个弱分类器的权重ak更新为然后通过权重ak更新样本xi的权重,再利用更新后的样本数据集训练第k+1个弱分类器;3)基于各弱分类器的权重对所有弱分类器进行集成,得到强分类器;4)将待识别烟草数据的特征输入所述强分类器,得到对应的类别。

    一种分布式图数据库多节点数据一致性实现方法和系统

    公开(公告)号:CN112417033A

    公开(公告)日:2021-02-26

    申请号:CN202011117730.1

    申请日:2020-10-19

    Abstract: 本发明涉及一种分布式图数据库多节点数据一致性实现方法和系统。该方法对分布式图数据库的节点数据做快照备份,通过快照备份对分布式图数据库的日志进行压缩;利用压缩后的分布式图数据库的日志,对分布式图数据库进行节点间增量数据同步;新节点进行数据同步时加载快照备份,快照备份时间点之前的日志操作不用重新执行,只需同步快照备份时间点之后的日志,以快速地保持和其他节点的数据一致性。该系统包括日志管理模块、快照管理模块和节点启动数据同步模块。本发明通过快照和日志相结合的方式,能很好的对日志进行压缩,新节点也能够快速加入集群提供服务,在提升分布式图数据库系统性能方面获得了显著效果。

    一种适用于多种大数据管理系统的数据模型转换及查询分析方法

    公开(公告)号:CN107491476B

    公开(公告)日:2021-01-12

    申请号:CN201710515379.3

    申请日:2017-06-29

    Abstract: 本发明涉及一种适用于多种大数据管理系统的数据模型转换及查询分析方法。该方法包括:1)建立关联文档模型,其包括文档集与关联集,关联集是文档之间的关联构成的集合;2)将数据的语义信息,将不同的原始数据模型转换为关联文档模型;3)将关联文档模型中的数据转换为分布式计算编程模型能够接受的数据结构,进而将关联文档模型转换为分布式计算编程模型。然后利用由关联文档模型转换得到的分布式计算编程模型,对来自不同原始数据模型的数据进行统一查询和分析。本发明能够实现对多源异构数据源的统一访问、查询与分析。

    一种适用于多种大数据管理系统的交互式查询方法

    公开(公告)号:CN107515887B

    公开(公告)日:2021-01-08

    申请号:CN201710515380.6

    申请日:2017-06-29

    Abstract: 本发明涉及一种适用于多种大数据管理系统的交互式查询方法,其步骤包括:1)建立关联文档模型,其包括文档集与关联集,所述关联集是文档之间的关联构成的集合;2)将不同的原始数据模型转换为关联文档模型,通过关联文档模型将不同的数据源连接为一体;3)基于关联文档模型,建立适合于多元数据的统一查询语言;4)利用适合于多元数据的统一查询语言,实现对关系型数据库、图数据库以及文件系统的统一查询。本发明首次提出了适合于多元数据管理系统的统一查询语言,可以实现对关系型数据库、图数据库,以及文件系统的统一查询。

    一种基于次级属性的非结构化数据信息查询方法及系统

    公开(公告)号:CN111831787A

    公开(公告)日:2020-10-27

    申请号:CN202010513529.9

    申请日:2020-06-08

    Abstract: 本发明公开了一种基于次级属性的非结构化数据信息查询方法及系统。本方法为:1)对于一目标数据库,将该目标数据库中每条记录的非结构化数据作为对应记录的一级属性;2)提取每个一级属性中的内在信息作为该一级属性的次级属性;3)对该目标数据库的查询语言进行扩展,增加语义操作符“->”;对该目标数据库的查询引擎进行扩展,用于编译并执行符合该语义操作符“->”语法的查询语句;4)查询引擎根据查询条件从缓存系统中查询符合查询条件的缓存结果,如果没有匹配结果,则根据该查询条件中的一级属性查找该目标数据库中匹配的记录,然后从匹配记录的一级属性中提取次级属性并分别与该查询条件中的次级属性进行匹配,并返回匹配结果。

    一种支持BLOB的多元大数据融合方法和系统

    公开(公告)号:CN107122486B

    公开(公告)日:2020-08-14

    申请号:CN201710321988.5

    申请日:2017-05-09

    Abstract: 本发明公开了一种支持BLOB的多元大数据融合方法和系统。本方法为:1)基于RDF数据模型,创建RDF‑B数据模型;RDF‑B数据模型采用三元组形式来表达每个资源的属性及其属性值,所述属性值包括BLOB类型的属性值,BLOB类型的属性值包括数据内容、长度、摘要和标志信息;2)RDF‑B数据模型对收到的数据生成三元组并存储到一前端存储系统;其中,如果该数据为BLOB类型,则RDF‑B数据模型根据该数据对应三元组中BLOB类型的属性值生成一四元组 作为该数据的三元组信息的属性值,然后将该数据的三元组保存到该前端存储系统,根据该句柄将数据内容存储到后端存储系统。

    一种通用的在线服务平台定制化评估方法和系统

    公开(公告)号:CN107506888A

    公开(公告)日:2017-12-22

    申请号:CN201710549593.0

    申请日:2017-07-07

    Abstract: 本发明涉及一种通用的在线服务平台定制化评估方法和系统。该方法包括:1)建立在线服务平台的通用评估指标模型,其中的评估指标包括定性指标与定量指标;2)依据通用评估指标模型,对定性指标与定量指标进行定制化创建与设置;3)构建通用的评估指标服务引擎,通过该评估指标服务引擎读取定性指标与定量指标的设置数据,对定性指标和定量指标分别进行信息的展示和指标量的逻辑计算,并将最终结果反馈给评估用户。该系统包括模型建立模块,评估指标创建与设置模块,以及评估指标服务引擎。本发明能够提升在线服务评估系统设计开发的效率,增强系统的高可定制性和高复用性,进而增强系统的灵活性和扩展性。

Patent Agency Ranking