-
公开(公告)号:CN119025672A
公开(公告)日:2024-11-26
申请号:CN202410891650.3
申请日:2024-07-04
Applicant: 北京市计算中心有限公司
IPC: G06F16/35 , G06F18/23 , G06F40/30 , G06F40/258 , G06N3/08
Abstract: 本发明提供了一种基于大语言模型的标签体系建设方法,包括如下步骤:第一步:待处理文本整理和入库,第二步:调用预训练大模型使用其生成能力打出标签;第三步:对经过第二步得到的所有标签进行标签后处理;第四步:对经过第三步中标签后处理得到的标签进行聚类;第五步:对经过第四步得到的聚类结果利用预训练大模型得到标签体系;第六步:标签体系入库;第七步:使用构建的标签体系对第一步中得到的文本库打标签;该方法结合了深度学习、自然语言处理和大规模预训练模型的最新进展,解决当前文本分类需要预先建立标签体系以及标签体系不能完全反映文本内容分类问题,适用于多种文本类型,解决了现有技术中的弊端。