-
公开(公告)号:CN118747498A
公开(公告)日:2024-10-08
申请号:CN202410889829.5
申请日:2024-07-04
Applicant: 桂林电子科技大学
IPC: G06F40/284 , G06F40/216 , G06F16/901
Abstract: 本发明提供一种小规模数据主题发现方法,属于自然语言处理领域,该方法包括获取训练模型所需的词对集、构建图模型、参数估计以及主题推断;对文本预处理后,将窗口内的文本数据建模为词对集,以词对为语义单元进行主题发现;构建方法的图模型;随后利用改进的吉布斯采样方法推断出文档数据的主题词分布和主题词分布,从而进一步发现文档数据中的小规模数据主题;本发明利用混合词对建模文本数据,约束术语关联,扩大上下文信息,为小规模数据主题提供更多有效信息,可以缓解数据量稀缺导致的数据依赖问题,在大规模数据集中提取出紧密相关的小规模数据主题。
-
公开(公告)号:CN118798162A
公开(公告)日:2024-10-18
申请号:CN202410896649.X
申请日:2024-07-05
Applicant: 桂林电子科技大学
IPC: G06F40/205 , G06F17/17
Abstract: 通过获取数据流中热门的主题或事件在每个时隙的具体细节,可以更好地知晓事件在社交媒体中的发展过程。在此,本发明公开了一种基于短文本数据流的局部专属主题检测方法,其主要包括:按照固定时间长度进行时隙划分,在时隙内按照固定数据量设定时间步长,并对时隙内获取的数据进行预处理,并构建关键词图。对每个时隙内的短文本数据进行局部主题相关数据结构建模;将历史数据进行老化处理,并与当前时隙数据加权融合实现全域主题相关数据的跟踪。接下来,基于当前时隙的关键词图和全域关键词图,得到对应的关系矩阵,结合关系矩阵进行全域图与当前局部图之间的差运算,得到当前时隙的局部专属关系矩阵;最后提出了ExBTM,在词之间相互关系基础上通过吉布斯采样提取局部专属主题。本发明致力于局部专属信息的跟踪,并通过引入关键词图结合ExBTM来检测数据流中与主干信息相关的局部专属细节的局部专属主题。
-
公开(公告)号:CN118761729A
公开(公告)日:2024-10-11
申请号:CN202410842419.5
申请日:2024-06-26
Applicant: 桂林电子科技大学
IPC: G06Q10/10 , G06Q50/00 , G06N3/0442 , G06N3/094 , G06N3/0464 , G06N3/042
Abstract: 本发明公开了一种减少流行度偏差的多视图群组推荐方法:首先设计了一个鉴别器来检测项目的偏差,使模型可以减轻项目端的流行度偏差以提升项目的公平性。其次为了弥补提升模型的公平性带来的推荐效用的损失,设计了组级、项目级、信任度级和成员级四个不同的视图,来捕捉群组、用户和项目三者之间的高阶交互信息。最后将群组的信任度与相似度结合丰富群组之间的数据。本发明方法考虑了群组推荐任务与公平任务的联系,通过多视图的方法使得模型能够更准确的表示群组偏好,并通过对抗训练能够减轻模型项目端的流行度偏见。该发明在推荐的效果和公平性上都得到了提升。
-
-