-
公开(公告)号:CN114519445B
公开(公告)日:2025-02-18
申请号:CN202011294355.8
申请日:2020-11-18
Applicant: 航天信息股份有限公司
Abstract: 本公开涉及数据处理技术领域,尤其涉及一种业务交互网络的预测方法及装置,解决建立的业务交互网络不完整,以及无法对潜在的业务关系进行预测的问题,方法为:获取采集的各个业务数据,建立交互网络,再建立邻接矩阵和特征矩阵,再将所述邻接矩阵和所述特征矩阵,输入预测模型,得到业务交互预测矩阵,然后将所述业务交互预测矩阵中元素进行处理后,生成业务交互网络矩阵,并基于所述业务交互网络矩阵确定预测的业务交互网络。这样,采用业务数据生成的交互网络,预测业务交互网络,规避建立预测交互网络时,需要检索确定同种业务类型的全部交互对象,使得建立的业务交互网络不完整的弊端,而且能够预测出存在潜在交互可能的交互对象。
-
公开(公告)号:CN112241914B
公开(公告)日:2024-11-05
申请号:CN202011063041.7
申请日:2020-09-30
Applicant: 航天信息股份有限公司
IPC: G06Q40/12
Abstract: 本公开涉及一种企业的评估方法、装置、存储介质和电子设备,针对多个待评估企业中的每一个待评估企业,基于该待评估企业的税务数据中不同的业务数据信息,对该待评估企业建立至少两个不同的关联企业网络,并确定出该待评估企业在每个所述关联企业网络中的权重;根据该待评估企业在每个所述关联企业网络中的权重,对该待评估企业的至少两个不同的关联企业网络进行自适应网络融合处理,获取该待评估企业的网络融合后的数据信息;利用该待评估企业的网络融合后的数据信息通过随机游走模型,得到所述该待评估企业的重要性权重;根据每个所述待评估企业的重要性权重,对所述多个待评估企业进行评估。本公开用以提高企业重要性评估的准确性。
-
公开(公告)号:CN111242170B
公开(公告)日:2023-07-25
申请号:CN201911415857.9
申请日:2019-12-31
Applicant: 航天信息股份有限公司
IPC: G06F18/214 , G06F18/2411 , G06Q30/018
Abstract: 本发明公开食品检验检测项目预知方法及装置。该方法,包括:获取用户输入的待检测食品名称;利用预先设定的分词工具,生成所述待检测食品名称对应的词列表;利用所述词列表,遍历预先设定的词库,确定与所述待检测食品名称对应的数值向量;将所述数值向量转换成libsvm格式,作为待分类的特征向量;根据所述待分类的特征向量,利用预先确定的线性多分类模型,确定所述待检测食品名称对应的食品细类编号;根据所述食品细类编号,从预先确定的检验检测标准体系中查询得到对应的至少一项检验检测项目。该方法能够根据输入的食品名称,预知食品检验检测项目,速度快、准确性高。
-
公开(公告)号:CN110020141A
公开(公告)日:2019-07-16
申请号:CN201711132268.0
申请日:2017-11-15
Applicant: 航天信息股份有限公司
Inventor: 刘芬
IPC: G06F16/9535 , G06K9/62
Abstract: 本发明公开了一种基于改进聚类和Spark框架的个性化推荐方法,包括:确定有效的评分数据集;利用Canopy算法对项目进行聚类预处理,生成至少一个Canopy聚类中心;初始化FCM算法的聚类中心,对每个项目利用隶属度计算公式更新其对聚类中心的隶属度,并根据更新的隶属度更新聚类中心,迭代直至满足停止条件,确定最终聚类集合;分别计算目标项目与最终聚类集合中每个聚类中心的相似度,选取大于等于预设相似度阈值的相似度对应的聚类集合中的项目组成候选项目空间,计算目标项目与候选项目空间中各个项目之间的相似度,寻找目标项目的K最近邻集合;获取用户对目标项目的偏好预测值,并利用top-N推荐方法选取偏好预测值较高的N个项目进行推荐。
-
公开(公告)号:CN119964184A
公开(公告)日:2025-05-09
申请号:CN202411980143.3
申请日:2024-12-31
Applicant: 航天信息股份有限公司
IPC: G06V30/413 , G06V30/416 , G06V30/148
Abstract: 本发明提供一种基于轻量化模型的文档数据处理系统和方法,包括:文档转换模块,用于将待处理的文档转换为图片文件;版面分析模块,用于根据预先构建的版面分析轻量化模型,对所述图片文件进行处理,提取所述图片文件中的每个标签的类别和区域坐标;版面还原模块,用于根据每个标签的类别和区域坐标,对不同类别的标签区域分别进行解析处理,获得每个标签区域对应的内容;通过将每个标签区域对应的内容组合,获得待处理的文档的全部内容;文本切分模块,用于通过分割器将所述待处理的文档的全部内容,切分成预设大小的文本块,完成所述待处理的文档的格式转化和文档数据处理。实现了PDF格式文档中图形、表格及文字的快速识别及分离。
-
公开(公告)号:CN111783577B
公开(公告)日:2023-11-10
申请号:CN202010566093.X
申请日:2020-06-19
Applicant: 航天信息股份有限公司
Abstract: 本发明提供一种基于发票数据分析的疑似税务异常企业筛选方法,包括:对发票数据进行特征提取,得到特征向量;修改支持向量机模型,将最小间隔分离超平面设置为分类超平面;将特征向量作为一次修改支持向量机模型训练样本,得到包含正样本和负样本的一类训练样本;采用一类训练样本对一次修改支持向量机模型进行迭代训练,直至将负样本与正样本完全分离;将一次修改支持向量机模型修改为层次型支持向量机模型;采用带有标记的正样本和负样本对二次修改支持向量机模型进行训练,得到所述疑似税务异常企业筛选模型;根据该模型对异常发票进行筛选,确定疑似税务异常企业。与现有基于机器学习的疑似税务异常企业筛选方法相比,本发明的准确率更高。
-
公开(公告)号:CN114519445A
公开(公告)日:2022-05-20
申请号:CN202011294355.8
申请日:2020-11-18
Applicant: 航天信息股份有限公司
Abstract: 本公开涉及数据处理技术领域,尤其涉及一种业务交互网络的预测方法及装置,解决建立的业务交互网络不完整,以及无法对潜在的业务关系进行预测的问题,方法为:获取采集的各个业务数据,建立交互网络,再建立邻接矩阵和特征矩阵,再将所述邻接矩阵和所述特征矩阵,输入预测模型,得到业务交互预测矩阵,然后将所述业务交互预测矩阵中元素进行处理后,生成业务交互网络矩阵,并基于所述业务交互网络矩阵确定预测的业务交互网络。这样,采用业务数据生成的交互网络,预测业务交互网络,规避建立预测交互网络时,需要检索确定同种业务类型的全部交互对象,使得建立的业务交互网络不完整的弊端,而且能够预测出存在潜在交互可能的交互对象。
-
公开(公告)号:CN109858922A
公开(公告)日:2019-06-07
申请号:CN201811584029.3
申请日:2018-12-24
Applicant: 航天信息股份有限公司
Abstract: 本发明公开了一种非正常纳税人识别方法及装置,该方法包括:获取待识别纳税人的选定信息;从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值;将所述待识别纳税人的至少一个选定特征的特征值依次输入第一设定数量的训练后的xgboost模型中,得到所述待识别纳税人的第一设定数量的概率值;基于所述待识别纳税人的第一设定数量的概率值得到所述待识别纳税人的识别结果。该方案可以实现借助机器学习算法和大数据技术,来构建非正常纳税人识别模型来识别纳税人是否正常。
-
公开(公告)号:CN119988832A
公开(公告)日:2025-05-13
申请号:CN202411939526.6
申请日:2024-12-26
Applicant: 航天信息股份有限公司
IPC: G06F18/10 , G06F40/30 , G06F40/295 , G06N5/04
Abstract: 本发明公开了一种基于大语言模型的数据清洗方法及系统,包括:收集和整理待清洗的数据集,格式化为适合模型处理的文本格式,获得待清洗文本数据;基于大语言模型对待清洗文本数据进行文本纠错和规范化处理,基于大语言模型对待清洗文本数据进行异常处理,基于大语言模型对待清洗文本数据进行实体识别和标准化处理;基于大语言模型对待清洗文本数据进行语义一致性检查,基于大语言模型对待清洗文本数据进行缺失数据生成,基于大语言模型对待清洗文本数据进行重复数据处理;记录基于大语言模型对待清洗文本数据进行清洗过程中的所有问题、实施的处理措施、生成的结果以及过程中的各种参数,并基于所述记录,生成结构化报告。
-
公开(公告)号:CN119962499A
公开(公告)日:2025-05-09
申请号:CN202411969239.X
申请日:2024-12-30
Applicant: 航天信息股份有限公司
IPC: G06F40/18 , G06F40/151 , G06F40/205 , G06F40/284
Abstract: 本发明公开了一种大语言模型的表格分析处理方法及系统。其中,该方法包括:包括:获取待提取数据的文档内容,对所述文档内容进行预处理;识别所述文档内容中是否有财税领域的表格数据;若所述文档内容中有财税领域的表格数据,从表格数据中提取财税关键词;基于所述财税关键词解析所述表格数据,从所述文档内容中获取与所述表格数据相关的上下文信息,生成一条含有表格数据的标注数据;将所述标注数据进行格式转换,转换为makdown格式的文本并输出。从而,从文档中提取财税领域相关的表格数据,以及表格上下文信息,完成数据清洗和格式转换,统一输出为markdown格式数据。
-
-
-
-
-
-
-
-
-