基于LDA和Bert的特定类别文本标题二分类方法

    公开(公告)号:CN112347247B

    公开(公告)日:2023-10-13

    申请号:CN202011177997.X

    申请日:2020-10-29

    Applicant: 南京大学

    Abstract: 本发明提供了基于LDA和Bert的特定类别文本标题二分类方法,包括:步骤1,采集文本标题训练数据样本;步骤2,对训练样本进行分词,去除停用词等文本预处理;步骤3,将分词后的文本标题输入LDA模型进行训练;步骤4,使用LDA模型得到每个文本的关键词;步骤5,使用Bert将样本关键词转换为对应的词向量;步骤6,将每个文本所有的词向量输入到DNN中进行训练,得到模型;步骤6,在应用过程中,对于新的标题文本数据,首先进行分词、去除停用词等预处理操作;步骤7,将分词后的标题文本输入LDA模型,得到关键词;步骤8,使用Bert转换词向量,输入DNN得到分类结果。

    基于LDA和Bert的特定类别文本标题二分类方法

    公开(公告)号:CN112347247A

    公开(公告)日:2021-02-09

    申请号:CN202011177997.X

    申请日:2020-10-29

    Applicant: 南京大学

    Abstract: 本发明提供了基于LDA和Bert的特定类别文本标题二分类方法,包括:步骤1,采集文本标题训练数据样本;步骤2,对训练样本进行分词,去除停用词等文本预处理;步骤3,将分词后的文本标题输入LDA模型进行训练;步骤4,使用LDA模型得到每个文本的关键词;步骤5,使用Bert将样本关键词转换为对应的词向量;步骤6,将每个文本所有的词向量输入到DNN中进行训练,得到模型;步骤6,在应用过程中,对于新的标题文本数据,首先进行分词、去除停用词等预处理操作;步骤7,将分词后的标题文本输入LDA模型,得到关键词;步骤8,使用Bert转换词向量,输入DNN得到分类结果。

Patent Agency Ranking