-
公开(公告)号:CN116414834A
公开(公告)日:2023-07-11
申请号:CN202310265513.4
申请日:2023-03-13
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/22 , G06F16/245 , G16B25/00
Abstract: 本发明公开了一种大规模基因表达数据的索引构建方法及数据检索方法,其中索引构建方法为:1)为每一类别的基因表达数据分别构建一对应的解析器;类别i的基因表达数据对应的解析器记为解析器i;2)针对每一条类别i的基因表达数据,利用解析器i对其进行解析,得到该条数据的元数据并保存到一文档,然后根据检索需求将类别i中的文档中的不同字段设置不同的索引类型,得到类别i的索引;3)将同类别数据的索引设置相同的别名且仅对上层应用暴露该别名,将各索引中具有相同语义的键key设置相同的名称和索引设置;将各键key做并集,并将每类索引返回的键值基于这个并集做投影从而获取各类数据的公共信息和独有信息,生成统一检索视图。
-
公开(公告)号:CN115691656A
公开(公告)日:2023-02-03
申请号:CN202211241923.7
申请日:2022-10-11
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了一种大型系统进化树的加速方法及装置,所述方法包括:获取系统进化树中所有节点的属性;基于横向坐标和纵向坐标,对系统进化树的叶子节点进行聚类,以获取离群点和节点簇;在一个节点的子孙叶节点全部属于一个所述节点簇,且所述子孙叶节点的数量不小于一数量阈值的情况下,将该节点作为一新的叶节点,且将所述子孙叶节点的所述可见状态设置为当前节点不可见,以得到新的系统进化树;针对所述新的系统进化树,通过判断每一叶子分支是否因被其它节点覆盖而导致不可见,获取该叶子分支中各节点的可见状态,以生成所述系统进化树的加速结果。本发明避免了大型系统进化树可视化时扎堆折叠的现象。
-