-
公开(公告)号:CN118690236A
公开(公告)日:2024-09-24
申请号:CN202410665072.1
申请日:2024-05-27
Applicant: 华南农业大学
IPC: G06F18/241 , G06F18/243 , G06N5/01 , G06N5/022 , G06F16/22 , G06F16/2458 , G06N20/00
Abstract: 本发明涉及自然语言处理技术领域,提出一种基于大语言模型的行业重要数据识别方法及系统,所述方法包括:获取行业数据分类分级标准文件;利用倒排索引建立特征属性与类别对应的中文特征库,和/或利用Trie树建立特征属性与类别对应的英文特征库;构建针对待识别行业文件的提问集合Q;将提问集合Q中的问题逐一输入大语言模型中对待识别行业文件进行提问,输出答案集合A;基于中文特征库和/或英文特征库,结合答案集合A对待识别行业文件中的数据进行特征属性匹配,得到各个特征属性类别的权重,并基于权重对待识别行业文件进行重要性识别,输出待识别行业文件的重要性等级。