一种基于短文本相似度的税务商品编码分类方法及系统

    公开(公告)号:CN107862046A

    公开(公告)日:2018-03-30

    申请号:CN201711085221.3

    申请日:2017-11-07

    CPC classification number: G06F17/3071 G06F17/2775 G06F17/30734

    Abstract: 本发明公开了一种基于短文本相似度的税务商品编码分类方法及系统,所述方法包括:获取样本数据;对样本数据进行分词;获得扩展词;计算KL差异熵,以获得待分类税务商品编码与已有类别之间的差异度,根据所述差异度完成所述分类。本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。

    一种基于语义相似性扩展的商品名称分类方法及系统

    公开(公告)号:CN107657284A

    公开(公告)日:2018-02-02

    申请号:CN201710943802.X

    申请日:2017-10-11

    CPC classification number: G06K9/6278 G06F17/2775 G06F17/2785

    Abstract: 本发明公开了一种基于语义相似性扩展的商品名称分类方法及系统。本发明对已有类别的商品的历史发票数据集进行离线算法计算得到每类商品的朴素贝叶斯模型和词向量。分情况分析商户输入的商品品名词向量是否存在在已有类别的商品的朴素贝叶斯模型内,若朴素贝叶斯模型没有该商品名分词后的单元词,则将该商品名与已有商品类别关键词进行词向量相似度计算,求出商户输入的商品名属于已有商品类别的概率,其最大值所对应的类别即为商品所属类别。实验结果表明,基于语义扩展的商品类别关键词相似度计算准确率较高,而且计算结果符合常识判断。

    一种基于短文本相似度的税务商品编码分类方法及系统

    公开(公告)号:CN107862046B

    公开(公告)日:2019-03-26

    申请号:CN201711085221.3

    申请日:2017-11-07

    Abstract: 本发明公开了一种基于短文本相似度的税务商品编码分类方法及系统,所述方法包括:获取样本数据;对样本数据进行分词;获得扩展词;计算KL差异熵,以获得待分类税务商品编码与已有类别之间的差异度,根据所述差异度完成所述分类。本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。

Patent Agency Ranking