一种基于改进KL散度的话题跟踪方法

    公开(公告)号:CN111444337A

    公开(公告)日:2020-07-24

    申请号:CN202010123108.5

    申请日:2020-02-27

    Abstract: 本发明公开了一种基于改进KL散度的新闻话题跟踪方法。所述方法利用KL散度衡量分布差异的思想,构造出一种可以区分普通特征与话题特征的权重计算方法,以此来提升特征的话题辨别能力,提高话题跟踪的准确率;同时引入word2vec,将其与KL散度权重相结合,实现话题文本的向量化表示,降低数据维度,增强特征间的语义联系;同时,采用增量学习模式,利用新检测到的相关报道更新话题模型,解决话题漂移。

    一种基于改进KL散度的话题跟踪方法

    公开(公告)号:CN111444337B

    公开(公告)日:2022-07-19

    申请号:CN202010123108.5

    申请日:2020-02-27

    Abstract: 本发明公开了一种基于改进KL散度的新闻话题跟踪方法。所述方法利用KL散度衡量分布差异的思想,构造出一种可以区分普通特征与话题特征的权重计算方法,以此来提升特征的话题辨别能力,提高话题跟踪的准确率;同时引入word2vec,将其与KL散度权重相结合,实现话题文本的向量化表示,降低数据维度,增强特征间的语义联系;同时,采用增量学习模式,利用新检测到的相关报道更新话题模型,解决话题漂移。

    基于改进BSMOTE-Sequence算法的风电设备故障检测方法

    公开(公告)号:CN112801151A

    公开(公告)日:2021-05-14

    申请号:CN202110060075.9

    申请日:2021-01-18

    Abstract: 本发明公开了一种风电设备故障检测方法,本发明基于改进的BSMOTE‑Sequence风机故障采样策略,通过对BorderlineSMOTE进行改进而设计的一种风机数据集采样策略模型。BorderlineSMOTE在选择对哪些样本点进行合成时,第一步通过KNN算法选出K′个少数类近邻样本,第二步从这K′个样本中随机选择K″个样本。本发明是将第二步随机选择样本改进为根据时序特征来选择样本,该方式生成新样本综合考虑了空间距离、时序规律,能有效减少噪声点的生成,不仅解决了风机数据集的不平衡问题,而且并未破坏数据集的时序规律。此外,本发明还结合Tomek Links技术,可以有效地过滤数据集中的噪声样本、类间重叠样本,从而提高后续分类器训练的效率及准确率,避免模型过拟合。

    基于改进BSMOTE-Sequence算法的风电设备故障检测方法

    公开(公告)号:CN112801151B

    公开(公告)日:2022-04-12

    申请号:CN202110060075.9

    申请日:2021-01-18

    Abstract: 本发明公开了一种风电设备故障检测方法,本发明基于改进的BSMOTE‑Sequence风机故障采样策略,通过对BorderlineSMOTE进行改进而设计的一种风机数据集采样策略模型。BorderlineSMOTE在选择对哪些样本点进行合成时,第一步通过KNN算法选出K′个少数类近邻样本,第二步从这K′个样本中随机选择K″个样本。本发明是将第二步随机选择样本改进为根据时序特征来选择样本,该方式生成新样本综合考虑了空间距离、时序规律,能有效减少噪声点的生成,不仅解决了风机数据集的不平衡问题,而且并未破坏数据集的时序规律。此外,本发明还结合Tomek Links技术,可以有效地过滤数据集中的噪声样本、类间重叠样本,从而提高后续分类器训练的效率及准确率,避免模型过拟合。

Patent Agency Ranking