-
公开(公告)号:CN118656741A
公开(公告)日:2024-09-17
申请号:CN202411111099.2
申请日:2024-08-14
Applicant: 南开大学
IPC: G06F18/243 , G06N3/088 , G06F11/07 , G06F18/211 , G06F18/214 , G06F18/25 , G06F123/02
Abstract: 本发明涉及电数字数据处理技术领域,尤其涉及一种基于时序数据的智能运维方法,包括如下步骤:收集原始时序运维数据,并划分到相应的训练集及测试集中;对性能特征数据及标准日志特征数据进行预处理,得到性能特征数据及差分日志特征数据;对性能特征数据及标准日志特征数据分别做故障检测,并进行离线模型训练,得到多模态故障检测模型,并将异常样本收集到故障样本中;将多模态故障检测模型和基于阿里大语言模型的故障检测模型整合为在线模型,对运维数据实现实时故障检测。本发明提供的方法能够实现对大规模计算机系统性能数据和日志数据的深入分析,并自动识别和分类故障,提高故障处理的效率和准确性。
-
公开(公告)号:CN118656741B
公开(公告)日:2024-10-29
申请号:CN202411111099.2
申请日:2024-08-14
Applicant: 南开大学
IPC: G06F18/243 , G06N3/088 , G06F11/07 , G06F18/211 , G06F18/214 , G06F18/25 , G06F123/02
Abstract: 本发明涉及电数字数据处理技术领域,尤其涉及一种基于时序数据的智能运维方法,包括如下步骤:收集原始时序运维数据,并划分到相应的训练集及测试集中;对性能特征数据及标准日志特征数据进行预处理,得到性能特征数据及差分日志特征数据;对性能特征数据及标准日志特征数据分别做故障检测,并进行离线模型训练,得到多模态故障检测模型,并将异常样本收集到故障样本中;将多模态故障检测模型和基于阿里大语言模型的故障检测模型整合为在线模型,对运维数据实现实时故障检测。本发明提供的方法能够实现对大规模计算机系统性能数据和日志数据的深入分析,并自动识别和分类故障,提高故障处理的效率和准确性。
-
公开(公告)号:CN116579842B
公开(公告)日:2023-10-03
申请号:CN202310854274.6
申请日:2023-07-13
Applicant: 南开大学
IPC: G06Q40/03 , G06F18/213 , G06F18/243
Abstract: 本发明涉及数据处理技术领域,公开了一种基于用户行为数据的信用数据分析方法及系统,用于提高信用数据分析时的准确率。包括:采集多个用户行为数据并进行标签匹配,确定标签数据;对多个用户行为数据及标签数据进行数据整合,得到用户数据集合;对用户数据集合进行数据处理,得到待分析数据集合;通过过滤式特征提取算法对待分析数据集合进行第一特征提取处理得到第一候选特征集合;通过包裹式特征提取算法对第一候选特征集合进行第二特征提取处理得到第二候选特征集合;对第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;对目标特征集合进行信用数据分析,得到信用数据分析结果并将信用数据分析结果传输至预置的数据处理终端。
-
公开(公告)号:CN117133365A
公开(公告)日:2023-11-28
申请号:CN202311018059.9
申请日:2023-08-14
Applicant: 南开大学
Abstract: 本发明涉及数据压缩存储技术领域,提供一种高通量基因组测序质量得分数据并行压缩方法。该方法包括:分割原始基因测序文件;进行随机采样并对采样数据进行k‑mer分析,获得统计特征信息并建立并行序列分区模型进行二分类,依据拼接参数拼接二分类获得的两分区文件;通过多元线性回归分析预测法预测所述待压缩文件获得压缩率增益并建立并行四级游程预测映射模型进行数据消冗;通过多核处理器集群对两消冗子文件进行上下文建模,并结合算术编码进行级联压缩,获得最终压缩文件。本发明在显著降低质量得分数据压缩时间和峰值内存开销的前提下,还提升质量得分数据压缩率,减少待压缩存储文件大小,节约基础存储设施建设成本。
-
公开(公告)号:CN117059181A
公开(公告)日:2023-11-14
申请号:CN202310739800.4
申请日:2023-06-21
Applicant: 南开大学
IPC: G16B50/50 , G16B40/30 , G06F16/174
Abstract: 本发明涉及数据压缩存储技术领域,提供一种高通量基因组序列数据压缩并行优化方法,该方法包括:对待压缩数据集中的字符串类型序列数据并行进行序列特征提取,获得待压缩数据的序列特征值;根据序列特征值构建待压缩数据的特征向量,引入纠正参数和骰子系数并行计算任意所述特征向量间的相似度;根据相似度对待压缩数据集文件进行两级参数选取策略的聚类分簇;根据聚类结果对待压缩数据集进行并行级联压缩,获得优化后的压缩存储文件;对压缩存储文件并行级联解压缩,根据聚类分簇中间文件恢复数据集的原始序列。该方法通过对基因组测序中的文件数量、序列数目、系统内存和级联压缩算法峰值内存开销进行建模和并行处理,降低了压缩时间开销。
-
公开(公告)号:CN116579842A
公开(公告)日:2023-08-11
申请号:CN202310854274.6
申请日:2023-07-13
Applicant: 南开大学
IPC: G06Q40/03 , G06F18/213 , G06F18/243
Abstract: 本发明涉及数据处理技术领域,公开了一种基于用户行为数据的信用数据分析方法及系统,用于提高信用数据分析时的准确率。包括:采集多个用户行为数据并进行标签匹配,确定标签数据;对多个用户行为数据及标签数据进行数据整合,得到用户数据集合;对用户数据集合进行数据处理,得到待分析数据集合;通过过滤式特征提取算法对待分析数据集合进行第一特征提取处理得到第一候选特征集合;通过包裹式特征提取算法对第一候选特征集合进行第二特征提取处理得到第二候选特征集合;对第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;对目标特征集合进行信用数据分析,得到信用数据分析结果并将信用数据分析结果传输至预置的数据处理终端。
-
-
-
-
-