一种长文本分类方法、装置、设备、介质及程序产品

    公开(公告)号:CN119740118A

    公开(公告)日:2025-04-01

    申请号:CN202411799186.1

    申请日:2024-12-09

    Inventor: 钱博文 张媛媛

    Abstract: 本发明提供一种长文本分类方法、装置、设备、介质及程序产品,该方法包括:在目标长文本中随机添加第一标记和第二标记对目标长文本进行分割,将目标长文本分为前中后三部分;对目标长文本分的前中后三部分的文本进行处理,得到目标短文本,组成句子片段集合;获取得到所有目标短文本的处理过程中形成的长文本分割层次;根据句子片段集合和长文本分割层次,得到长文本图结构及其对应的长文本图向量;根据目标短文本的子标签,得到标签图结构及其对应的标签图向量;将长文本图结构及其对应的长文本图向量与标签图结构及其对应的标签图向量进行对比匹配,确定长文本的分类结果。本发明中,通过层次填充分割,有效准确的分割长文本。

Patent Agency Ranking