-
公开(公告)号:CN106228035A
公开(公告)日:2016-12-14
申请号:CN201610534138.9
申请日:2016-07-07
Applicant: 清华大学
IPC: G06F19/24
CPC classification number: G06F19/24
Abstract: 本发明涉及一种基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法。本发明方法可以有效地处理海量序列数据,包括16s rRNA和18s rRNA数据。由于使用了高效的分块迭代方法,避免了大量不相似序列的比对,针对大规模数据集的聚类问题,本方法可以快速给出聚类结果,是目前生物信息领域处理大规模聚类问题最高效的方法。同时,由于DP-means算法中对聚类中心的估计更加准确,本发明方法得出的聚类结果可以保证很高的准确性。
-
公开(公告)号:CN106228035B
公开(公告)日:2019-03-01
申请号:CN201610534138.9
申请日:2016-07-07
Applicant: 清华大学
IPC: G16B40/00
Abstract: 本发明涉及一种基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法。本发明方法可以有效地处理海量序列数据,包括16s rRNA和18s rRNA数据。由于使用了高效的分块迭代方法,避免了大量不相似序列的比对,针对大规模数据集的聚类问题,本方法可以快速给出聚类结果,是目前生物信息领域处理大规模聚类问题最高效的方法。同时,由于DP‑means算法中对聚类中心的估计更加准确,本发明方法得出的聚类结果可以保证很高的准确性。
-