-
公开(公告)号:CN119782447A
公开(公告)日:2025-04-08
申请号:CN202411848227.1
申请日:2024-12-16
Applicant: 国网安徽省电力有限公司营销服务中心 , 安徽南瑞中天电力电子有限公司
Inventor: 刘金友 , 倪妍妍 , 单永梅 , 陈曦鸣 , 段玉卿 , 齐红涛 , 马俊杰 , 孙飞 , 唐丽 , 黄丹 , 杨峰 , 周鹏飞 , 高媛 , 汤旭 , 常乐 , 王海鸿 , 孙伟红 , 吴玲玲 , 曹有霞 , 刘越 , 陈雪圆
IPC: G06F16/31 , G06F16/3329 , G06F16/335 , G06F16/84 , G06N5/04
Abstract: 本申请涉及一种分布式数据标注方法和行业文件重要性识别方法,其中,该行业文件重要性识别方法包括:将提问集合Q输入大语言模型向大语言模型提问目标行业文件的特征属性,获取大语言模型响应提问集合Q而输出的答案集合A;将答案集合A在目标特征库中进行匹配,确定目标行业文件的各个特征属性类别的权重,目标特征库具有不同特征属性与不同类别的映射关系,不同特征属性与不同类别的映射关系通过目标数据标注方法得到,不同类别用于表征不同程度的重要性;基于目标行业文件的各个特征属性的类别权重确定目标行业文件的重要性等级。解决了目前的行业文件重要性识别方法难以对半结构化或是非结构化的行业文件进行较为准确地识别问题。
-
公开(公告)号:CN119669403A
公开(公告)日:2025-03-21
申请号:CN202411690138.9
申请日:2024-11-25
Applicant: 国网安徽省电力有限公司营销服务中心 , 安徽南瑞中天电力电子有限公司
Inventor: 陈曦鸣 , 段玉卿 , 单永梅 , 刘金友 , 倪妍妍 , 齐红涛 , 孙飞 , 唐丽 , 黄丹 , 杨峰 , 周鹏飞 , 高媛 , 袁加梅 , 汤旭 , 常乐 , 王海鸿 , 吴玲玲 , 曹有霞 , 许雅雯 , 彭田 , 梁碧茹
IPC: G06F16/3329 , G06F16/36 , G06F18/214 , G06F18/15 , G06F18/2415 , G06F18/2431 , G06Q30/0201 , G06Q50/06 , G06F21/60 , G06F21/31
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于困惑度驱动大语言模型的电网营销数据标注方法、平台和设备。该方法过程如下:S1:针对电网营销领域的具体需求,收集相关的数据,预处理后构成所需的样本数据集;S2:收集与电网营销业务相关的问题,并由大语言模型进行回答构建初始问答对;S3:结合样本数据集对初始问答对进行困惑度检测,并筛选出存在准确性风险的初始问答对;S4:由技术人员对存在准确性风险的初始问答对进行人工审查和修正后构成标注数据,采集大量经人工审查标注的数据,构成于对商用的大语言模型进行重新监督训练的知识库。本发明解决了电网营销的大模型存在模型幻觉,导致工作人员数据标注任务量过大的问题。
-