-
公开(公告)号:CN112489730A
公开(公告)日:2021-03-12
申请号:CN202011416996.6
申请日:2020-12-07
Applicant: 重庆邮电大学
Abstract: 本发明涉及蛋白质组学中的机器学习技术领域,具体涉及一种蛋白质谱图数据库快速增量构建方法,包括:新增数据基于gleams模型聚类;合并数据库和新增数据的聚类索引,通过faiss进行局部索引搜索;使用单点和批量插入的增量算法对数据进行动态的插入;去除重复并根据阈值进行簇数据合并;完成数据库的增量聚类。本发明主要解决了大型数据库的动态数据新增问题,同时缩短了谱图数据库聚类的时间,提高了数据库新增的性能。
-
公开(公告)号:CN112489730B
公开(公告)日:2022-06-17
申请号:CN202011416996.6
申请日:2020-12-07
Applicant: 重庆邮电大学
Abstract: 本发明涉及蛋白质组学中的机器学习技术领域,具体涉及一种蛋白质谱图数据库快速增量构建方法,包括:新增数据基于gleams模型聚类;合并数据库和新增数据的聚类索引,通过faiss进行局部索引搜索;使用单点和批量插入的增量算法对数据进行动态的插入;去除重复并根据阈值进行簇数据合并;完成数据库的增量聚类。本发明主要解决了大型数据库的动态数据新增问题,同时缩短了谱图数据库聚类的时间,提高了数据库新增的性能。
-