一种基于组合矩阵计算语义距离的文本分类方法

    公开(公告)号:CN109933670A

    公开(公告)日:2019-06-25

    申请号:CN201910209354.X

    申请日:2019-03-19

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于组合矩阵计算语义距离的文本分类方法,包括步骤:S1、对中文文本进行处理,生成基于词袋模型的向量空间模型;S2、对于全部文本集合,使用生成的词袋模型文本向量作为训练语料,采用word2vec训练词向量,并结合训练出来的词向量和文本向量,构成一个文本矩阵;S3、对文本矩阵进行交叉运算,得到文本之间的语义距离。本发明提出的文本向量的表示和语义距离的计算方法,既克服了传统的词袋模型的缺陷,也改善了TF-IDF算法的不足,从而可以训练出更好的分类模型来提升文本分类的准确性。

    一种面向Deep Web的自适应增量数据采集方法

    公开(公告)号:CN109977285B

    公开(公告)日:2023-03-10

    申请号:CN201910215453.9

    申请日:2019-03-21

    Applicant: 中南大学

    Abstract: 本发明公开了一种面向Deep Web的自适应增量数据采集方法,包括以下步骤:步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;步骤3:分别统计各个类别中数据源的数量,得到抽样数据源的采样数据;步骤4:对采样数据进行分析预测;步骤5:调度器根据对各数据源s的下载概率的计算,在每个数据采集周期选择平均下载概率最高的类,并调度下载器进行数据下载,将增量更新的结果加入到本地数据仓库;步骤6:在每一个数据采集周期结束后,需要对各次下载结果进行评估(计算的值),用于在步骤4中影响数据源s的采集概率

    一种面向Deep Web的自适应增量数据采集方法

    公开(公告)号:CN109977285A

    公开(公告)日:2019-07-05

    申请号:CN201910215453.9

    申请日:2019-03-21

    Applicant: 中南大学

    Abstract: 本发明公开了一种面向Deep Web的自适应增量数据采集方法,包括以下步骤:步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;步骤3:分别统计各个类别中数据源的数量,得到抽样数据源的采样数据;步骤4:对采样数据进行分析预测;步骤5:调度器根据对各数据源s的下载概率的计算,在每个数据采集周期选择平均下载概率最高的类,并调度下载器进行数据下载,将增量更新的结果加入到本地数据仓库;步骤6:在每一个数据采集周期结束后,需要对各次下载结果进行评估(计算的值),用于在步骤4中影响数据源s的采集概率

    一种基于组合矩阵计算语义距离的文本分类方法

    公开(公告)号:CN109933670B

    公开(公告)日:2021-06-04

    申请号:CN201910209354.X

    申请日:2019-03-19

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于组合矩阵计算语义距离的文本分类方法,包括步骤:S1、对中文文本进行处理,生成基于词袋模型的向量空间模型;S2、对于全部文本集合,使用生成的词袋模型文本向量作为训练语料,采用word2vec训练词向量,并结合训练出来的词向量和文本向量,构成一个文本矩阵;S3、对文本矩阵进行交叉运算,得到文本之间的语义距离。本发明提出的文本向量的表示和语义距离的计算方法,既克服了传统的词袋模型的缺陷,也改善了TF‑IDF算法的不足,从而可以训练出更好的分类模型来提升文本分类的准确性。

Patent Agency Ranking