基于跨语言知识迁移和经验驱动的电力行业模型训练方法

    公开(公告)号:CN117933364A

    公开(公告)日:2024-04-26

    申请号:CN202410315687.1

    申请日:2024-03-20

    Abstract: 本发明属于电力行业自然语言处理技术领域,具体涉及基于跨语言知识迁移和经验驱动的电力行业模型训练方法。本发明针对现有行业大模型的局限,提出一种两阶段训练方法。第一阶段为跨语言迁移的增量预训练:利用不同语种语料对开源模型进行增量预训练,可扩大模型知识范围,强化模型记忆程度;第二阶段为专家经验驱动的指令微调训练:充分利用专家业务经验指导教师模型生成符合实际的任务指令样本,并利用这些指令样本对模型进行微调训练;该方法既用到了专家的经验,又“蒸馏”了教师模型自身的知识能力,可以使模型更好地理解和执行电力领域特定任务,有助于提高模型行业应用的可靠性。

    一种不均衡数据的异常识别与修复方法及系统

    公开(公告)号:CN117743938A

    公开(公告)日:2024-03-22

    申请号:CN202311785567.X

    申请日:2023-12-22

    Abstract: 本发明属于数据治理技术领域,具体涉及一种不均衡数据的异常识别与修复方法及系统。所述方法包括不均衡混合数据聚类分析、异常数据识别与特征定位、异常数据修复三部分内容,首先提出了基于代价优化的混合聚类算法,解决不均衡数据集下混合数据的有效聚类问题,实现同一聚类簇内数据具有高度相似性;其次提出一种基于孤立森林的异常特征定位算法,解决以往无监督异常检测算法仅能定位到异常记录而无法识别记录中具体异常特征的问题,实现问题数据的准确定位;最后提出基于异构变分自编码器的数据修复模型,实现对混合数据异常的可信修复,解决以往人工智能方法在数据修复过程中受数据分布和噪声数据干扰过大导致修复数据可信度不高的问题。

Patent Agency Ranking