一种蛋白质谱图数据库快速增量构建方法

    公开(公告)号:CN112489730A

    公开(公告)日:2021-03-12

    申请号:CN202011416996.6

    申请日:2020-12-07

    Abstract: 本发明涉及蛋白质组学中的机器学习技术领域,具体涉及一种蛋白质谱图数据库快速增量构建方法,包括:新增数据基于gleams模型聚类;合并数据库和新增数据的聚类索引,通过faiss进行局部索引搜索;使用单点和批量插入的增量算法对数据进行动态的插入;去除重复并根据阈值进行簇数据合并;完成数据库的增量聚类。本发明主要解决了大型数据库的动态数据新增问题,同时缩短了谱图数据库聚类的时间,提高了数据库新增的性能。

    一种蛋白质谱图数据库快速增量构建方法

    公开(公告)号:CN112489730B

    公开(公告)日:2022-06-17

    申请号:CN202011416996.6

    申请日:2020-12-07

    Abstract: 本发明涉及蛋白质组学中的机器学习技术领域,具体涉及一种蛋白质谱图数据库快速增量构建方法,包括:新增数据基于gleams模型聚类;合并数据库和新增数据的聚类索引,通过faiss进行局部索引搜索;使用单点和批量插入的增量算法对数据进行动态的插入;去除重复并根据阈值进行簇数据合并;完成数据库的增量聚类。本发明主要解决了大型数据库的动态数据新增问题,同时缩短了谱图数据库聚类的时间,提高了数据库新增的性能。

Patent Agency Ranking