一种基于短文本相似度的税务商品编码分类方法及系统

    公开(公告)号:CN107862046B

    公开(公告)日:2019-03-26

    申请号:CN201711085221.3

    申请日:2017-11-07

    Abstract: 本发明公开了一种基于短文本相似度的税务商品编码分类方法及系统,所述方法包括:获取样本数据;对样本数据进行分词;获得扩展词;计算KL差异熵,以获得待分类税务商品编码与已有类别之间的差异度,根据所述差异度完成所述分类。本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。

    一种基于短文本相似度的税务商品编码分类方法及系统

    公开(公告)号:CN107862046A

    公开(公告)日:2018-03-30

    申请号:CN201711085221.3

    申请日:2017-11-07

    CPC classification number: G06F17/3071 G06F17/2775 G06F17/30734

    Abstract: 本发明公开了一种基于短文本相似度的税务商品编码分类方法及系统,所述方法包括:获取样本数据;对样本数据进行分词;获得扩展词;计算KL差异熵,以获得待分类税务商品编码与已有类别之间的差异度,根据所述差异度完成所述分类。本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。

    一种财务数据处理方法、装置、电子设备及存储介质

    公开(公告)号:CN120013686A

    公开(公告)日:2025-05-16

    申请号:CN202311527521.8

    申请日:2023-11-16

    Abstract: 本申请公开了一种财务数据处理方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法包括:创建N个财务报表模板;其中,所述N个财务报表模板各自配置有至少一个字段和所述至少一个字段的字段属性,所述N为大于1的整数;响应于将多个财务数据导入目标财务报表模板的用户操作,生成目标财务报表,并对所述目标财务报表中的多个目标财务数据进行校验;其中,所述目标财务报表模板是从所述N个财务报表模板中选择的;若校验出所述多个目标财务数据各自所属的字段属性与所述目标财务报表模板配置有的字段属性中均存在相符合的,则将所述目标财务报表存储至数据库。

    一种行业类别订正方法及装置

    公开(公告)号:CN114462659B

    公开(公告)日:2025-02-18

    申请号:CN202011239727.7

    申请日:2020-11-09

    Abstract: 本申请涉及数据处理技术领域,尤其涉及一种行业类别订正方法及装置,获取操作对象的属性信息和预先标注的行业类别;将属性信息输入至已训练的行业类别预测模型中,通过卷积层对属性信息进行特征提取,获得属性信息的各特征值,通过池化层从各特征值中确定出满足预设特征值条件的特征值,并通过分类输出层确定出操作对象对应于预设的各行业类别的概率值;根据对应于各行业类别的概率值,确定操作对象所属的预测的行业类别;根据操作对象的预测的行业类别,对标注的行业类别进行订正,这样,通过行业类别预测模型获得的预测的行业类别对标注的行业类别进行订正,能够提高行业类别订正的效率。

    一种税务风险企业挖掘方法及装置

    公开(公告)号:CN113989005B

    公开(公告)日:2025-01-28

    申请号:CN202111259021.1

    申请日:2021-10-27

    Abstract: 本申请涉及大数据挖掘技术领域,特别涉及一种税务风险企业挖掘方法及装置。该方法包括:获取黑名单企业的企业信息,并获取所述黑名单企业与其他企业之间的票流关系;基于所述黑名单企业的企业信息和所述黑名单企业与其他企业之间的票流关系,构建由所述黑名单企业和所述其他企业作为节点,所述黑名单企业和所述其他企业之间的票流关系作为边的有向图结构;基于所述有向图结构,计算各节点之间的关联度,并根据所述各节点之间的关联度,对所述各节点进行关联企业聚类处理,得到至少一个企业集合;基于各企业集合包括的黑名单企业数量和总企业数量,分别计算各企业集合的税务风险值。

    一种基于智能合约的身份验证方法和装置

    公开(公告)号:CN112862483B

    公开(公告)日:2024-04-09

    申请号:CN201911101610.X

    申请日:2019-11-12

    Abstract: 本申请实施例提供一种基于智能合约的身份验证方法和装置,用以解决数据写入到区块链之前被篡改的问题,提高数据的安全性,涉及区块链技术领域。该方法包括:接收检测终端发送的包含业务数据和数字签名的存储请求;调用智能合约对所述数字签名进行身份认证;在所述检测终端的数字签名满足所述智能合约后,将所述业务数据存储至区块链。上述方法,在将业务数据存储至区块链之前,对上传业务数据的检测终端进行身份验证,验证检测终端的数据签名,避免业务数据被篡改,提高业务数据的安全性。

    集群系统的配置方法和集群系统

    公开(公告)号:CN111061503B

    公开(公告)日:2023-08-18

    申请号:CN201811201271.8

    申请日:2018-10-16

    Abstract: 本发明公开了集群系统的配置方法和集群系统,分别根据应用于主节点和从节点的集群系统的配置方法,主节点可以自动完成自身Hadoop角色的配置,所有从节点也可以自动完成自身Hadoop角色的配置,从而解决现有技术中存在的由于配置Hadoop集群系统耗费大量时间、占用大量人力资源,并且人工进行节点的配置工作的错误率高,从而导致配置Hadoop集群系统的效率低、人力成本高、错误率高的技术问题。

Patent Agency Ranking