一种科技信息文本分类方法

    公开(公告)号:CN112199501B

    公开(公告)日:2024-03-19

    申请号:CN202011090173.9

    申请日:2020-10-13

    Abstract: 本发明属于文本分类技术领域,具体涉及一种科技信息文本分类方法,包括:基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,若分类结果不准确,对该科技信息文本粗粒度强分类,得到粗粒度类别;对文本抽取高层语义信息特征,并采用粗粒度类别辅助粗粒度类别对应的细粒度分类器来基于高层语义信息特征对文本进行细粒度弱分类,若分类结果不准确,采用细粒度强分类器,最终得到该文本的细粒度类别,细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得。本发明基于多粒度组合优化进行文本分类,将分类任务进行分解,通过强化简单的子任务性能,高效地提升文本分类任务的准确率和性能。

    一种科技信息文本分类方法

    公开(公告)号:CN112199501A

    公开(公告)日:2021-01-08

    申请号:CN202011090173.9

    申请日:2020-10-13

    Abstract: 本发明属于文本分类技术领域,具体涉及一种科技信息文本分类方法,包括:基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,若分类结果不准确,对该科技信息文本粗粒度强分类,得到粗粒度类别;对文本抽取高层语义信息特征,并采用粗粒度类别辅助粗粒度类别对应的细粒度分类器来基于高层语义信息特征对文本进行细粒度弱分类,若分类结果不准确,采用细粒度强分类器,最终得到该文本的细粒度类别,细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得。本发明基于多粒度组合优化进行文本分类,将分类任务进行分解,通过强化简单的子任务性能,高效地提升文本分类任务的准确率和性能。

Patent Agency Ranking