-
公开(公告)号:CN108197154A
公开(公告)日:2018-06-22
申请号:CN201711291086.8
申请日:2017-12-08
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。
-
公开(公告)号:CN111444180B
公开(公告)日:2022-12-16
申请号:CN202010201476.7
申请日:2020-03-20
Applicant: 复旦大学
IPC: G06F16/22 , G06F16/2455
Abstract: 本发明涉及一种双层结构的索引及其查询方法,该索引结构包括:连接两层的逻辑块索引:对逻辑块构建的索引,能够确定任意数据出现的第一个逻辑块,逻辑块是对按一定顺序排列的数据划分得到的数据块;构成第一层的一组位向量:每个位向量包括N个比特,比特表示数据是否存在于某个逻辑块中;构成第二层的rowID序列:按照数据顺序排列存储的数据在原数据序列中的位置。第一层能够筛选出绝大多数符合检索条件的数据,生成一个尽可能接近最终结果的中间结果;第二层利用rowID序列完善第一层生成的中间结果,从而得到准确的最终结果。与现有技术相比,本发明能够减少随机访存、减少访问无关数据,能够加速对列式内存数据库的查询操作。
-
公开(公告)号:CN108197154B
公开(公告)日:2021-07-23
申请号:CN201711291086.8
申请日:2017-12-08
Applicant: 复旦大学
IPC: G06F16/28
Abstract: 本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。
-
公开(公告)号:CN111444180A
公开(公告)日:2020-07-24
申请号:CN202010201476.7
申请日:2020-03-20
Applicant: 复旦大学
IPC: G06F16/22 , G06F16/2455
Abstract: 本发明涉及一种双层结构的索引及其查询方法,该索引结构包括:连接两层的逻辑块索引:对逻辑块构建的索引,能够确定任意数据出现的第一个逻辑块,逻辑块是对按一定顺序排列的数据划分得到的数据块;构成第一层的一组位向量:每个位向量包括N个比特,比特表示数据是否存在于某个逻辑块中;构成第二层的rowID序列:按照数据顺序排列存储的数据在原数据序列中的位置。第一层能够筛选出绝大多数符合检索条件的数据,生成一个尽可能接近最终结果的中间结果;第二层利用rowID序列完善第一层生成的中间结果,从而得到准确的最终结果。与现有技术相比,本发明能够减少随机访存、减少访问无关数据,能够加速对列式内存数据库的查询操作。
-
-
公开(公告)号:CN108228721B
公开(公告)日:2021-06-04
申请号:CN201711290927.3
申请日:2017-12-08
Applicant: 复旦大学
Abstract: 本发明属于关系数据库技术领域,具体为一种大型语料库上的快速文本聚类方法。由于文本数据通常具有高维和稀疏的特征,单纯基于数据相似度的聚类方法难以获得较好的效果,而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。本发明通过使用狄利克雷分布的对称先验和构造索引来进行优化,使总时间仅依赖于文档中不同单词的个数,从而在篇幅较长的文档中也能高效运行。
-
-
-
-
-