-
公开(公告)号:CN116431645A
公开(公告)日:2023-07-14
申请号:CN202310424710.6
申请日:2023-04-20
Applicant: 东北大学
IPC: G06F16/22 , G06F16/2458 , G06F16/28
Abstract: 本发明提供一种基于改进iSAX编码的分布式索引构建方法,首先针对数字特征选择问题,为了增加相似数据的编码相似性,设计了一种相似性数字编码,通过矩阵的转置,解决了每段数字编码高位与低位的在整个数字编码中权值不同的问题。其次针对索引树过高造成遍历过程中时间消耗过高的问题,设计了一种基于相似性数字编码的B+索引树,通过增加子结点的个数,降低树的高度,提高相邻结点访问速度;并且设计了叶分区蛇形打包算法,保证负载均衡的同时,缩短叶结点打包时间,提高了索引构建速度,相比传统分布式索引构建算法提高了索引整体构建速度,为相似性查询过程提供了更高效的索引框架。
-
公开(公告)号:CN117349591A
公开(公告)日:2024-01-05
申请号:CN202310947698.7
申请日:2023-07-31
Applicant: 东北大学
IPC: G06F18/10 , G06F18/214 , G06F40/216 , G06F40/30
Abstract: 本发明提供一种基于YAKE!关键词提取的主题自动标注方法,涉及互联网数据提取技术领域。本发明融合自身语料库以及外部资源获取候选标签集,采用基于YAKE!的候选标签提取算法从自身语料库中提取候选标签集,通过文档编号,将YAKE!生成的各文档候选短语择优作为主题的候选标签集;定义Local_All公式实现最优标签的选择,使得出的最终主题标签对当前主题重要程度越高的同时,在所有主题中的普遍度越低;最后对最优标签质量进行评估。本发明能提高主题最优标签的全面覆盖性以及区分度,增强用户对主题模型结果的可读性以及可理解性。
-