-
公开(公告)号:CN112347247B
公开(公告)日:2023-10-13
申请号:CN202011177997.X
申请日:2020-10-29
Applicant: 南京大学
IPC: G06F16/35 , G06F40/242 , G06F40/258 , G06F40/289 , G06F18/241 , G06N3/08
Abstract: 本发明提供了基于LDA和Bert的特定类别文本标题二分类方法,包括:步骤1,采集文本标题训练数据样本;步骤2,对训练样本进行分词,去除停用词等文本预处理;步骤3,将分词后的文本标题输入LDA模型进行训练;步骤4,使用LDA模型得到每个文本的关键词;步骤5,使用Bert将样本关键词转换为对应的词向量;步骤6,将每个文本所有的词向量输入到DNN中进行训练,得到模型;步骤6,在应用过程中,对于新的标题文本数据,首先进行分词、去除停用词等预处理操作;步骤7,将分词后的标题文本输入LDA模型,得到关键词;步骤8,使用Bert转换词向量,输入DNN得到分类结果。
-
公开(公告)号:CN112347247A
公开(公告)日:2021-02-09
申请号:CN202011177997.X
申请日:2020-10-29
Applicant: 南京大学
IPC: G06F16/35 , G06F40/242 , G06F40/258 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供了基于LDA和Bert的特定类别文本标题二分类方法,包括:步骤1,采集文本标题训练数据样本;步骤2,对训练样本进行分词,去除停用词等文本预处理;步骤3,将分词后的文本标题输入LDA模型进行训练;步骤4,使用LDA模型得到每个文本的关键词;步骤5,使用Bert将样本关键词转换为对应的词向量;步骤6,将每个文本所有的词向量输入到DNN中进行训练,得到模型;步骤6,在应用过程中,对于新的标题文本数据,首先进行分词、去除停用词等预处理操作;步骤7,将分词后的标题文本输入LDA模型,得到关键词;步骤8,使用Bert转换词向量,输入DNN得到分类结果。
-