一种财税数据关系抽取方法、装置、设备及存储介质

    公开(公告)号:CN117708326A

    公开(公告)日:2024-03-15

    申请号:CN202311697780.5

    申请日:2023-12-12

    Abstract: 本申请公开了一种财税数据关系抽取方法、装置、设备及存储介质,涉及信息处理技术领域,包括:获取待训练文本集中的当前文本样例;所述待训练文本集为与财税数据相关的文本集;基于头尾实体的类型从所述待训练文本集中确定出与所述当前文本样例对应的正样例和负样例;利用预设文本编码器分别对所述当前文本样例、所述正样例和所述负样例进行编码,以得到第一向量、第二向量和第三向量;根据所述第一向量,并利用所述第二向量和所述第三向量对初始分类器进行训练,以得到目标分类器,以便利用所述目标分类器对相关财税数据进行关系抽取操作。这样一来,本申请考虑文本头尾实体的类型,再进一步训练分类器,可以提高对相近语义关系的区分能力。

    一种大语言模型训练方法、装置、设备及存储介质

    公开(公告)号:CN117332791A

    公开(公告)日:2024-01-02

    申请号:CN202311624845.3

    申请日:2023-11-30

    Abstract: 本申请公开了一种大语言模型训练方法、装置、设备及存储介质,涉及大语言模型领域,包括:获取初始语料数据并进行数据清洗得到目标语料数据,以创建第一训练数据集;将P‑Tuning v2模块嵌入预训练语言大模型的适配器模块,并基于第一训练数据集对适配器模块进行训练;基于第一训练数据集构建第二训练数据集,并在底座大模型中嵌入预设门控模块;基于第二训练数据集对预设门控模块进行训练,在预训练语言大模型收敛后停止训练。通过将P‑Tuning v2模块嵌入预训练语言大模型的适配器模块,和基于前置的门控模块改造预训练的底座模型,将训练流程变成二段式,实现模型动态控制激活适配器参数,达到输出结果更稳定、泛化的目的。

    一种税务文本处理方法、装置、介质

    公开(公告)号:CN116503186A

    公开(公告)日:2023-07-28

    申请号:CN202310162407.3

    申请日:2023-02-16

    Abstract: 本申请涉及深度学习领域,公开了一种税务文本处理方法、装置、介质,包括:获取待处理文本,以便于后续提取待处理文本中的实体和实体关系;调用税务文本处理模型对待处理文本进行处理,以输出实体信息;其中,税务文本处理模型为结合基于语义理解的深度双向预训练模型和基于span的实体抽取模型获得的模型,基于语义理解的深度双向预训练模型能够利用无标注数据集进行自监督训练,减少对标注数据的依赖性,基于span的实体抽取策略能够使模型更好的识别嵌套实体,从而获取实体信息。并通过关系分类模型处理实体信息,以获取待处理文本中的实体关系。本方案能够快速准确的提取税务文本中的实体信息和实体关系信息,减少人力物力的浪费。

    一种企业投入产出异常识别系统、方法、设备及介质

    公开(公告)号:CN115470253A

    公开(公告)日:2022-12-13

    申请号:CN202211108909.X

    申请日:2022-09-13

    Abstract: 本申请公开了一种企业投入产出异常识别系统、方法、设备及介质,该系统包括:数据提取模块,用于从待识别企业的发票数据提取待识别企业的第一投入数据和第一产出数据;特征提取模块,用于分别提取第一投入数据和第一产出数据的特征以得到第一投入数据特征和第一产出数据特征;类别确定模块,用于确定待识别企业在所属行业中的工艺类别以得到目标工艺类别;模型输出模块,用于将第一投入数据特征输入目标工艺类别对应的训练后神经网络模型,得到模型输出结果;异常识别模块,用于基于模型输出结果和第一产出数据特征识别出待识别企业的投入产出是否存在异常。能够提升企业投入产出异常识别的准确度和效率。

    一种税收风险检测方法、装置、设备及存储介质

    公开(公告)号:CN115455960A

    公开(公告)日:2022-12-09

    申请号:CN202211034507.X

    申请日:2022-08-26

    Abstract: 本申请公开了一种税收风险检测方法、装置、设备及存储介质,包括:获取与待检测企业的目标项目相关的全部发票数据和第三方数据;从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息;基于所述归集后信息和所述第三方数据构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。可见,本申请通过对税务数据做项目属性信息归集,从而综合第三方数据构造企业的项目台账,并在此基础上识别风险企业,提高税收风险的检测效率和准确度。

    一种跨语言机器学习方法及系统

    公开(公告)号:CN112269567B

    公开(公告)日:2022-08-09

    申请号:CN202011208898.3

    申请日:2020-11-03

    Abstract: 本发明公开了一种跨语言机器学习方法及系统,应用于以web服务的形式形成的机器学习平台,根据机器学习算法的各算法流程,生成算法流程图框架;根据各算法流程各自对应的具体操作步骤,一一为算法流程图框架上的各流程节点配置相应的算法描述;遍历算法流程图框架上的各流程节点,生成节点执行顺序,并按照节点执行顺序分别将各流程节点配置的算法描述自主翻译成python代码,得到用python代码表示的机器学习算法,以利用此机器学习算法实现机器学习。可见,本申请既能让web服务系统选择最常用的java语言,又能让机器学习算法的实现使用python语言,从而发挥了两种语言的生态优势。

    一种大语言模型训练方法、装置、设备及存储介质

    公开(公告)号:CN117332791B

    公开(公告)日:2024-03-01

    申请号:CN202311624845.3

    申请日:2023-11-30

    Abstract: 本申请公开了一种大语言模型训练方法、装置、设备及存储介质,涉及大语言模型领域,包括:获取初始语料数据并进行数据清洗得到目标语料数据,以创建第一训练数据集;将P‑Tuning v2模块嵌入预训练语言大模型的适配器模块,并基于第一训练数据集对适配器模块进行训练;基于第一训练数据集构建第二训练数据集,并在底座大模型中嵌入预设门控模块;基于第二训练数据集对预设门控模块进行训练,在预训练语言大模型收敛后停止训练。通过将P‑Tuning v2模块嵌入预训练语言大模型的适配器模块,和基于前置的门控模块改造预训练的底座模型,将训练流

    一种税务风险识别方法、装置、设备及存储介质

    公开(公告)号:CN117333021A

    公开(公告)日:2024-01-02

    申请号:CN202311411878.X

    申请日:2023-10-27

    Abstract: 本申请公开了一种税务风险识别方法、装置、设备及存储介质,涉及风险识别领域,包括:对历史模型指标进行更新,并通过更新后模型指标对待处理风险识别模型进行指标重构处理,得到目标风险识别模型;利用更新后模型指标以及预设分类器对待处理风险种类识别模型进行训练,以得到目标风险种类识别模型,并利用历史税务数据对若干预设数据量确定模型进行训练,以筛选出目标数据量确定模型;对待识别税务数据进行识别,以得到相应的风险识别结果、风险种类识别结果以及数据量识别结果;生成风险评估报告,并将风险评估报告反馈至客户端。这样一来,可以保证扫描结果的准确性,并且提升了企业税收风险扫描效率,提高了模型输出结果的可解释性。

    基于规则引擎的数据处理方法、装置、设备及存储介质

    公开(公告)号:CN114996319A

    公开(公告)日:2022-09-02

    申请号:CN202210913579.5

    申请日:2022-08-01

    Abstract: 本申请公开了一种基于规则引擎的数据处理方法、装置、设备及存储介质,涉及计算机软件开发技术领域。该方法包括:获取不同的数据源以统一的数据装填格式进行装填后确定出的元数据和预设业务规则;其中,所述元数据为用于记录与所述预设业务规则相关的本体以及利用所述元数据中的目标本体进行聚合确定出相应的衍生指标的元数据;所述目标本体为根据用户需求从所述元数据中选择的本体;通过预设数据获取方式获取与所述元数据对应的相关数据,并将所述相关数据装载为对应的实体;根据所述预设业务规则对所述实体进行批量的规则运算,以返回相应的处理结果。通过本申请的技术方案,可以提升规则运算效率,提高规则引擎的适用范围。

    一种基于图算法的企业识别方法,装置、设备及存储介质

    公开(公告)号:CN117708394A

    公开(公告)日:2024-03-15

    申请号:CN202311704818.7

    申请日:2023-12-12

    Abstract: 本申请公开了一种基于图算法的企业识别方法,装置、设备及存储介质,涉及计算机技术领域,包括:基于采集的目标企业数据构建企业无向图,并确定企业无向图关联的目标企业子图,以通过预设图算法对目标企业子图进行社群划分,得到与目标企业对应的若干关联企业子团;分别构若干关联企业子团对应的若干特征信息,并基于若干特征信息以及历史成交数据生成样本集;利用样本集以及历史未成交数据对待训练企业预测模型进行训练,以通过得到的训练后企业预测模型对若干关联企业子团进行购买意向预测,以识别具有购买意向的目标企业子团。这样一来,可以通过图算法构建并筛选样本,并且可以基于构建的特征从企业的关联企业中筛选出具有购买意向的企业。

Patent Agency Ranking