一种不均衡数据的异常识别与修复方法及系统

    公开(公告)号:CN117743938A

    公开(公告)日:2024-03-22

    申请号:CN202311785567.X

    申请日:2023-12-22

    Abstract: 本发明属于数据治理技术领域,具体涉及一种不均衡数据的异常识别与修复方法及系统。所述方法包括不均衡混合数据聚类分析、异常数据识别与特征定位、异常数据修复三部分内容,首先提出了基于代价优化的混合聚类算法,解决不均衡数据集下混合数据的有效聚类问题,实现同一聚类簇内数据具有高度相似性;其次提出一种基于孤立森林的异常特征定位算法,解决以往无监督异常检测算法仅能定位到异常记录而无法识别记录中具体异常特征的问题,实现问题数据的准确定位;最后提出基于异构变分自编码器的数据修复模型,实现对混合数据异常的可信修复,解决以往人工智能方法在数据修复过程中受数据分布和噪声数据干扰过大导致修复数据可信度不高的问题。

    一种多元知识链接驱动的NL2SQL问题增强方法

    公开(公告)号:CN119739837A

    公开(公告)日:2025-04-01

    申请号:CN202510237478.4

    申请日:2025-03-03

    Abstract: 本发明属于电力自然语言数据问答技术领域,具体涉及一种多元知识链接驱动的NL2SQL问题增强方法。所述方法包括:利用数据库表信息构建电力数据模式,并梳理出电力领域知识;构建问题解析Prompt模板,并利用大语言模型分析原始问题的结构,从原始问题中提取关键实体;基于梳理出的电力领域知识及从原始问题中提取的关键实体,采用混合相似度检索的方式检索电力领域知识;通过多级模式链接方法,以获取到与原始问题相关的数据库表与数据模式;基于检索出的电力领域知识及所获取到的数据模式,进行知识标准化并设计问题增强Prompt模板,利用大语言模型对原始问题进行重构增强,消除混淆和干扰因素,提高问答的准确度。

    一种不均衡数据的异常识别与修复方法及系统

    公开(公告)号:CN117743938B

    公开(公告)日:2025-01-28

    申请号:CN202311785567.X

    申请日:2023-12-22

    Abstract: 本发明属于数据治理技术领域,具体涉及一种不均衡数据的异常识别与修复方法及系统。所述方法包括不均衡混合数据聚类分析、异常数据识别与特征定位、异常数据修复三部分内容,首先提出了基于代价优化的混合聚类算法,解决不均衡数据集下混合数据的有效聚类问题,实现同一聚类簇内数据具有高度相似性;其次提出一种基于孤立森林的异常特征定位算法,解决以往无监督异常检测算法仅能定位到异常记录而无法识别记录中具体异常特征的问题,实现问题数据的准确定位;最后提出基于异构变分自编码器的数据修复模型,实现对混合数据异常的可信修复,解决以往人工智能方法在数据修复过程中受数据分布和噪声数据干扰过大导致修复数据可信度不高的问题。

Patent Agency Ranking