一种基于时序数据的向量化分词方法

    公开(公告)号:CN119357918A

    公开(公告)日:2025-01-24

    申请号:CN202411341026.2

    申请日:2024-09-25

    Abstract: 本发明公开了一种基于时序数据的向量化分词方法,包括:获取时序数据并利用窗口进行分割处理得到二维数组;对二维数组分批进行一次聚类,并以所有批次的一次聚类的结果进行二次聚类得到最终聚类结果;以最终聚类结果的聚类中心和聚类簇构造时序数据字典;基于时序数据字典对时序数据进行离散化处理;基于离散化的时序数据进行词向量训练得到时序词向量。本发明通过时序词向量的形式能够捕捉到数据随时间变化的模式,相比于传统的时序数据处理可以更好地捕捉复杂的时间依赖关系,同时对时序数据进行离散化的方法适用于大数据量的聚类处理,能够控制聚类精度,不需要事先确定聚类簇数就能完成聚类。

Patent Agency Ranking