-
公开(公告)号:CN113626604A
公开(公告)日:2021-11-09
申请号:CN202110997675.8
申请日:2021-08-27
Applicant: 苏州大学
IPC: G06F16/35 , G06F16/957 , G06F40/279
Abstract: 本发明公开了一种基于最大间隔准则的网页文本分类系统,其包括:文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。本发明基于最大间隔准则的网页文本分类系统在选择较少数量的特征项时,能够选择出更具有判别性的特征词,提高了网页文本分类的性能,具有适用性强,准确度高的优点。
-
公开(公告)号:CN114996446A
公开(公告)日:2022-09-02
申请号:CN202210542220.1
申请日:2022-05-18
Applicant: 苏州大学
IPC: G06F16/35 , G06F40/216
Abstract: 本发明提供的文本分类方法,利用了归一化词频来规避文档长度本身对于词频的影响,从而提供一种归一化词频权重,并将其与现有的文档频次方法融合起来计算判别相关性得分并进行重要程度排序,从而提高了选择判别特征项的能力,选择重要程度高的特征项组成特征子集,在此基础上对文本表示权重矩阵进行分类得到最终的分类结果,提高了文本分类的性能,分类结果更加准确。
-
公开(公告)号:CN114610877A
公开(公告)日:2022-06-10
申请号:CN202210169563.8
申请日:2022-02-23
Applicant: 苏州大学
IPC: G06F16/35 , G06F16/36 , G06F40/216 , G06F40/284 , G06N20/00
Abstract: 本发明涉及一种基于判别方差准则的影评情感分析预处理方法,包括对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中影评语料库包括影评和特征项;基于影评语料库得到影评频次矩阵和词频矩阵;基于影评频次矩阵计算判别方差准则,利用判别方差准则计算影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;将特征项重要程度序列输入至训练好的分析模型中,输出影评情感分析结果,并对影评情感分析结果进行评估。本发明判别方差准则有效地结合了方差和监督信息,利用判别方差准则对影评文本进行预处理,使得具有较高总体散度和较低类散度的特征项更具判别性,提高影评情感分析的性能。
-
公开(公告)号:CN114996446B
公开(公告)日:2023-08-25
申请号:CN202210542220.1
申请日:2022-05-18
Applicant: 苏州大学
IPC: G06F16/35 , G06F40/216
Abstract: 本发明提供的文本分类方法,利用了归一化词频来规避文档长度本身对于词频的影响,从而提供一种归一化词频权重,并将其与现有的文档频次方法融合起来计算判别相关性得分并进行重要程度排序,从而提高了选择判别特征项的能力,选择重要程度高的特征项组成特征子集,在此基础上对文本表示权重矩阵进行分类得到最终的分类结果,提高了文本分类的性能,分类结果更加准确。
-
公开(公告)号:CN113626604B
公开(公告)日:2022-07-26
申请号:CN202110997675.8
申请日:2021-08-27
Applicant: 苏州大学
IPC: G06F16/35 , G06F16/957 , G06F40/279
Abstract: 本发明公开了一种基于最大间隔准则的网页文本分类系统,其包括:文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。本发明基于最大间隔准则的网页文本分类系统在选择较少数量的特征项时,能够选择出更具有判别性的特征词,提高了网页文本分类的性能,具有适用性强,准确度高的优点。
-
公开(公告)号:CN114610877B
公开(公告)日:2023-04-25
申请号:CN202210169563.8
申请日:2022-02-23
Applicant: 苏州大学
IPC: G06F16/35 , G06F16/36 , G06F40/216 , G06F40/284 , G06N20/00
Abstract: 本发明涉及一种基于判别方差准则的影评情感分析预处理方法,包括对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中影评语料库包括影评和特征项;基于影评语料库得到影评频次矩阵和词频矩阵;基于影评频次矩阵计算判别方差准则,利用判别方差准则计算影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;将特征项重要程度序列输入至训练好的分析模型中,输出影评情感分析结果,并对影评情感分析结果进行评估。本发明判别方差准则有效地结合了方差和监督信息,利用判别方差准则对影评文本进行预处理,使得具有较高总体散度和较低类散度的特征项更具判别性,提高影评情感分析的性能。
-
公开(公告)号:CN115329084A
公开(公告)日:2022-11-11
申请号:CN202211032809.3
申请日:2022-08-26
Applicant: 苏州大学
IPC: G06F16/35 , G06F16/335 , G06K9/62
Abstract: 本发明公开了一种基于稀疏线性在线学习的垃圾邮件分类方法及系统,方法包括:S1、利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本,得到预处理后的训练样本集;S2、利用预处理后的训练样本集训练线性分类模型,并采用FTRL算法对模型参数进行更新,得到训练后的线性分类模型;S3、利用训练后的线性分类模型对电子邮件进行预测分类。本发明基于稀疏线性在线学习的垃圾邮件分类方法通过将特征化的电子邮件原始数据集映射为高维特征空间的训练样本,并在模型训练时采用FTRL算法对模型参数进行更新,在保留了线性分类模型快速高效特点的同时进一步取得了稀疏性,提升了分类准确率。
-
-
-
-
-
-