-
公开(公告)号:CN119357918A
公开(公告)日:2025-01-24
申请号:CN202411341026.2
申请日:2024-09-25
Applicant: 浙江华云信息科技有限公司
IPC: G06F18/28 , G06F18/23 , G06F18/15 , G06F18/22 , G06F123/02
Abstract: 本发明公开了一种基于时序数据的向量化分词方法,包括:获取时序数据并利用窗口进行分割处理得到二维数组;对二维数组分批进行一次聚类,并以所有批次的一次聚类的结果进行二次聚类得到最终聚类结果;以最终聚类结果的聚类中心和聚类簇构造时序数据字典;基于时序数据字典对时序数据进行离散化处理;基于离散化的时序数据进行词向量训练得到时序词向量。本发明通过时序词向量的形式能够捕捉到数据随时间变化的模式,相比于传统的时序数据处理可以更好地捕捉复杂的时间依赖关系,同时对时序数据进行离散化的方法适用于大数据量的聚类处理,能够控制聚类精度,不需要事先确定聚类簇数就能完成聚类。