一种税法知识库构建方法、装置、设备及介质

    公开(公告)号:CN115600601B

    公开(公告)日:2023-03-31

    申请号:CN202211388864.6

    申请日:2022-11-08

    Abstract: 本申请公开了一种税法知识库构建方法、装置、设备及介质,涉及信息技术领域。该方法包括:获取税法文本并对所述税法文本进行关键段落检测以确定出包含税法知识的目标段落和/或目标句子;根据预设税收标注规范对目标段落和/或目标句子进行批量标注,以确定出针对所述税法文本中的涉税实体;利用所述涉税实体对预设信息抽取模型进行训练并利用训练后得到的目标模型确定出目标数据集;所述目标数据集为基于增量扩展对所述目标段落和/或所述目标句子进行预测后校正得到的数据集;将所述目标数据集与根据所述税法文本预先构建的本体进行信息融合以得到税法知识库。通过本申请的技术方案,可以针对税法优惠领域构建知识库,动态监控标注质量。

    一种税种标签识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114724163A

    公开(公告)日:2022-07-08

    申请号:CN202210380174.X

    申请日:2022-04-12

    Abstract: 本发明提供一种税种标签识别方法、装置、电子设备及存储介质,涉及税务信息处理领域,方法包括:获取税收优惠文档,并对税收优惠文档进行分割,得到条款文本;利用预先训练的第一神经网络模型从条款文本中提取目标文本;目标文本对应的税种标签数量在预设范围之内;利用预先训练的第二神经网络模型在预设税种标签范围中对目标文本进行多标签识别,得到目标文本对应的税种标签;可采用第一神经网络模型用于对条款文本进行预处理,以从这些文本中提取出税种标签数量在预设范围之内的目标文本,以提升多税种标签的识别准确度;同时,还可采用第二神经网络模型对目标文本进行多标签识别得到对应的多个税种标签,进而可满足多税种标签识别的需求。

    一种税法知识库构建方法、装置、设备及介质

    公开(公告)号:CN115600601A

    公开(公告)日:2023-01-13

    申请号:CN202211388864.6

    申请日:2022-11-08

    Abstract: 本申请公开了一种税法知识库构建方法、装置、设备及介质,涉及信息技术领域。该方法包括:获取税法文本并对所述税法文本进行关键段落检测以确定出包含税法知识的目标段落和/或目标句子;根据预设税收标注规范对目标段落和/或目标句子进行批量标注,以确定出针对所述税法文本中的涉税实体;利用所述涉税实体对预设信息抽取模型进行训练并利用训练后得到的目标模型确定出目标数据集;所述目标数据集为基于增量扩展对所述目标段落和/或所述目标句子进行预测后校正得到的数据集;将所述目标数据集与根据所述税法文本预先构建的本体进行信息融合以得到税法知识库。通过本申请的技术方案,可以针对税法优惠领域构建知识库,动态监控标注质量。

    一种数据异常检测方法及相关装置

    公开(公告)号:CN114077872A

    公开(公告)日:2022-02-22

    申请号:CN202111435970.0

    申请日:2021-11-29

    Abstract: 本申请公开了一种数据异常检测方法,包括:基于数据格式对原始数据进行预处理,得到多个数据矩阵;采用卷积降噪自动编码器模型对所述多个数据矩阵进行表示向量提取,得到每个数据矩阵对应的表示向量;将所有所述表示向量进行多输入融合,得到目标表示向量;基于密度DBSCAN算法对所述目标表示向量进行聚类分析,得到异常点;将所述异常点的数据标记为异常数据。实现在缺少标签数据的背景下,借助无监督的聚类算法检测出异常数据,提高数据检测的准确性。本申请还公开了一种数据异常检测装置、服务器以及计算机可读存储介质,具有以上有益效果,在此不做赘述。

    基于直觉模糊集的纳税人利益关联度评估方法

    公开(公告)号:CN104112074B

    公开(公告)日:2016-01-13

    申请号:CN201410336118.1

    申请日:2014-07-15

    Abstract: 本发明提出了一种基于直觉模糊集的纳税人利益关联度评估方法,根据纳税人之间的各类税务数据,包括发票、商品交易、所有权占比等,评估纳税人之间的利益关联程度。该方法将纳税人之间的各类税务数据作为量测数据,根据量测数据自身分布规律进行等级划分;计算各量测数据所属的等级,以及对应的隶属度值和非隶属度值,构造量测数据的直觉模糊集;采用基于Einstein操作的直觉模糊集融合方法对量测数据进行融合计算,得到纳税人利益关联度的直觉模糊集,评估纳税人之间的利益关联程度。本发明能够很好地处理多样的和异构的税务数据,将多样异构的税务数据归一化后进行融合,且不要求多个税务指标数据之间相互独立,具有广阔的适用范围。

    一种税务文本处理方法、装置、介质

    公开(公告)号:CN116503186A

    公开(公告)日:2023-07-28

    申请号:CN202310162407.3

    申请日:2023-02-16

    Abstract: 本申请涉及深度学习领域,公开了一种税务文本处理方法、装置、介质,包括:获取待处理文本,以便于后续提取待处理文本中的实体和实体关系;调用税务文本处理模型对待处理文本进行处理,以输出实体信息;其中,税务文本处理模型为结合基于语义理解的深度双向预训练模型和基于span的实体抽取模型获得的模型,基于语义理解的深度双向预训练模型能够利用无标注数据集进行自监督训练,减少对标注数据的依赖性,基于span的实体抽取策略能够使模型更好的识别嵌套实体,从而获取实体信息。并通过关系分类模型处理实体信息,以获取待处理文本中的实体关系。本方案能够快速准确的提取税务文本中的实体信息和实体关系信息,减少人力物力的浪费。

    税收优惠文档特征提取方法、装置、电子设备及存储介质

    公开(公告)号:CN114722151A

    公开(公告)日:2022-07-08

    申请号:CN202210373116.4

    申请日:2022-04-11

    Abstract: 本发明提供一种税收优惠文档特征提取方法、装置、电子设备及存储介质,涉及税务信息处理领域,方法包括:获取税收优惠文档,并对税收优惠文档进行分割,得到初始条款文本;利用第一神经网络模型提取初始条款文本中的税收优惠条款文本;利用预设的特征提取正则表达式和/或第二神经网络模型提取税收优惠条款文本中不同预设特征类型的特征信息;根据预设特征类型将特征信息保存至数据库;可采用正则表达式和神经网络模型提取税收优惠文档中的特征信息,其中正则表达式可提取结构特征较为明显的特征信息,神经网络模型可提取结构较为离散且无明显规律的特征信息,进而有效提升对税收优惠文档中特征信息的提取效率,便于税务领域可用数据集的生成。

    一种投产数据异常检测方法及相关装置

    公开(公告)号:CN114529384A

    公开(公告)日:2022-05-24

    申请号:CN202210147705.0

    申请日:2022-02-17

    Abstract: 本申请公开了一种投产数据异常检测方法,包括:基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据;基于训练数据对构建的投产数据关系映射模型进行训练,得到浅层神经网络模型;基于所述浅层神经网络模型对所述待检测投产数据进行检测,得到异常投产数据。通过先对原始投产数据进行预处理,以便剔除原始数据中存在异常的数据,然后训练得到浅层神经网络模型,最后进行检测得到异常投产数据,实现确定出正常投产数据和异常投产数据之间的差距,而不是采用历史数据进行判断,提高异常数据检测的准确性。本申请还公开了一种投产数据异常检测装置、服务器以及计算机可读存储介质,具有以上有益效果。

Patent Agency Ranking