-
公开(公告)号:CN115496066A
公开(公告)日:2022-12-20
申请号:CN202211181576.3
申请日:2022-09-27
Applicant: 航天信息股份有限公司
IPC: G06F40/289 , G06F40/211 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本申请提供一种文本分析系统、方法、电子设备及存储介质,该系统包括预处理模块和文本分析模块;文本分析模块包括多级文本分类单元、文本摘要抽取单元、标签要素抽取单元、智能文本推荐单元和情感意图分析单元中的至少一个;多级文本分类单元用于根据文本向量对待处理文本进行分类;文本摘要抽取单元用于根据文本向量对待处理文本信息整合获得文本摘要;标签要素抽取单元用于根据文本向量从待处理文本中抽取标签并采集指标数据,根据标签和指标数据获得文本指标数据信息;智能文本推荐单元用于根据文本向量从待处理文本中确定推荐文本;情感意图分析单元用于根据文本向量确定待处理文本的情感倾向和文本的意图类别。该方案能满足多种应用场景。
-
公开(公告)号:CN117708322A
公开(公告)日:2024-03-15
申请号:CN202311342239.2
申请日:2023-10-17
Applicant: 航天信息股份有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/216
Abstract: 本申请公开了一种文本分类方法及装置,该方法包括第一设备可以根据预设的文本编码器对获取的目标文本信息进行编码,获得该目标文本信息对应的第一向量。第一设备可以根据第一向量从向量检索库中确定与第一向量的相似度最大的目标向量。其中,相似度的最大值大于预设的第一阈值。目标向量是根据多个与目标向量对应的文本类别相同的相似向量生成的。第一设备可以将目标向量对应的文本类别作为目标文本信息的文本类别。采用该方法,可以增加用于训练模型的数据,从而提高文本分类的准确性。同时,由于目标向量是根据多个相似向量生成的,将目标向量对应的文本类别作为目标文本信息对应的文本类别,可以进一步的提高文本分类的准确性。
-
公开(公告)号:CN116052147A
公开(公告)日:2023-05-02
申请号:CN202211719839.1
申请日:2022-12-30
Applicant: 航天信息股份有限公司
Abstract: 本发明公开了一种基于深度学习的轻量级文本检测方法及系统。其中,该方法包括:包括:获取文本数据集,对所述文本数据集中的文本图片进行增强,使得所述文本图片更加真实,所述文本数据集包括公开文本数据集以及生成文本数据集;将增强后的文本数据集中的文本图片切分成固定宽度的多个小文本,并构建轻量级文本检测模型,将所述多个小文本输入所述轻量级文本检测模型进行训练并进行优化,输出文本检测模型;采集文本图像后输入文本检测模型进行预测,得到模型输出结果,对所述模型输出结果进行筛选,得到满足条件的矩形文本框;通过自适应调整阈值,将多个满足条件的矩形文本框进行合并,经过合并后输出最终的文本检测结果。
-
公开(公告)号:CN115565197A
公开(公告)日:2023-01-03
申请号:CN202211162303.4
申请日:2022-09-23
Applicant: 航天信息股份有限公司
IPC: G06V30/42 , G06V30/412 , G06V30/414 , G06V30/26 , G06V30/24 , G06V30/148 , G06V30/416 , G06V10/82 , G06T7/73 , G06N3/04
Abstract: 本申请提供一种表单信息识别方法、装置及相关设备,其中,所述表单信息识别方法包括:对待识别表单图像中包括的表格进行检测,确定表格的位置信息;根据表格的位置信息,确定包含目标文本信息的文本框图像,将待识别表单图像进行分割;对文本框图像进行文本识别,确定文本信息的识别结果;对文本信息的识别结果进行目标字段检索,确定目标字段的候选列表;根据目标字段的候选列表和表格位置信息,确定对待识别表单图像中包含目标信息的识别结果。能够适应对各种不同的表单图像进行文本信息的识别需求,保证对包含诸如姓名、字母或者其他特殊字符或字段进行识别提取的准确率,过程简单可靠,识别适用性广。
-
公开(公告)号:CN114581922A
公开(公告)日:2022-06-03
申请号:CN202111616800.2
申请日:2021-12-27
Applicant: 航天信息股份有限公司
IPC: G06V30/32 , G06K9/62 , G06N3/04 , G06N3/08 , G06V10/774 , G06V10/764 , G06V10/82
Abstract: 本发明公开了一种基于深度学习的中文手写签名识别方法及系统,方法包括:生成包括中文手写签名图片的训练数据集;对所述中文手写签名图片进行处理,生成增强数据集;通过所述增强数据集对中文签名检测算法模型进行训练,当所述中文签名检测算法模型对中文手写签名的边框坐标以及分类结果的识别准确率分别达到阈值时,将所述中文签名检测算法模型作为最终中文签名检测算法模型;采集待识别的中文手写签名图片,并对所述待识别的中文手写签名图片进行预处理;通过最终中文签名检测算法模型对经过预处理的所述待识别的中文手写签名图片进行识别,输出所述待识别的中文手写签名图片中中文手写签名的边框坐标以及分类结果。
-
公开(公告)号:CN113989825A
公开(公告)日:2022-01-28
申请号:CN202111417337.9
申请日:2021-11-25
Applicant: 航天信息股份有限公司
IPC: G06V30/414 , G06V30/42 , G06V30/14 , G06V30/146 , G06V30/19 , G06K9/62 , G06F16/51 , G06F16/583
Abstract: 本发明实施例公开一种票据图像的检测方法、装置及存储介质,涉及图像处理领域。所述方法包括:获取票据图像;利用中心点回归算法,从所述票据图像中定位文本框;采用多头自注意力机制,对定位出的所述文本框进行文本识别,得到文本识别结果;将所述文本框以及所述文本识别结果输入至已训练的票据图像结果网络结构中,得到所述票据图像对应的票据信息;将所述票据图像以及所述票据信息,存储至数据库中。实现了提升票据检索的效率,自动录入票据的关键信息并存储至数据库中,在后续需要查验的时候能够准确的对票据信息进行核验。
-
公开(公告)号:CN119884776A
公开(公告)日:2025-04-25
申请号:CN202411918355.9
申请日:2024-12-24
Applicant: 航天信息股份有限公司
IPC: G06F18/22 , G06F18/2431 , G06F18/243 , G06F21/60 , G06F21/62
Abstract: 本公开涉及一种数据资产处理方法、装置、设备及介质。该数据资产处理方法包括:接收用户选定目标数据作为原始数据资产的指令;对目标数据进行规则匹配,根据与目标数据相匹配的规则确定目标数据的应用类别和敏感等级,得到分类分级后的目标数据;根据敏感等级选择性地对分类分级后的目标数据进行脱敏处理,生成流通数据资产。本公开通过对原始数据资产进行统一地分类分级,并根据原始数据资产的敏感等级选择性地对其进行脱敏处理,实现了数据的应用分类与安全处理,让数据在应用前得到有效的资产梳理与风险防范,可以安全高效的将原始数据资产转化为用于流通的数据资产。
-
公开(公告)号:CN117668506A
公开(公告)日:2024-03-08
申请号:CN202311747478.6
申请日:2023-12-18
Applicant: 航天信息股份有限公司
IPC: G06F18/21 , G06F18/214 , G06N3/045 , G06N3/08
Abstract: 本申请提供一种针对大语言模型的评估方法、模型和计算机存储介质,评估方法包括:根据预先存储的数据元信息和所述大语言模型的待测项目,筛选采集的多个文本数据集以组成测评集合,每个文本数据集包括多条测评数据;将每一条测评数据多次输入被测大语言模型,并对应获得多次输出结果;基于每一条测评数据对应的标准结果,对每一条测评数据对应的多次输出结果进行评分,以获得每一条测评数据对应的评分结果,所述评分结果包括正确率得分和一致性得分;综合所述多条测评数据各自的评分结果,计算并获得针对所述大语言模型的评估结果。如此,测评集合既能满足待测项目的需求,又数据量较小,同时借助自动评估可以提高测评效率。
-
公开(公告)号:CN114385806A
公开(公告)日:2022-04-22
申请号:CN202111439109.1
申请日:2021-11-30
Applicant: 航天信息股份有限公司 , 河北航天信息技术有限公司
IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06F40/30 , G06F16/35
Abstract: 本发明实施例公开了一种基于深度学习的文本摘要方法及系统,其中方法包括:对目标文件进行中文分词和句子分割处理,将目标文件的原始文本划分为单独的句子;将划分为单独句子的原始文本转换为文本向量;对文本向量进行自注意力计算,得到包含语义信息的句子特征;对通过乱序的自注意力计算得到的各个句子特征进行加权整合,并对加权整合后的句子特征进行归一化处理,得到篇章级的句子特征;将篇章级的句子特征输入预先构建的分类模型,输出句子类别;根据句子类别将目标文件的原始文本划分为关键信息和非关键信息两部分;将关键信息按照合理的顺序进行排列组织,并将排列组织后的关键信息合成语义通顺、语法合规的摘要文本。
-
公开(公告)号:CN112749731A
公开(公告)日:2021-05-04
申请号:CN202011456986.5
申请日:2020-12-10
Applicant: 航天信息股份有限公司
Abstract: 本发明公开了一种基于深度神经网络的票据数量识别方法及系统,将获取的二维的混拍票据原始图像依次进行灰度化处理、二值化处理、归一化处理和二维图像映射一维数据处理,在保留图像信息的同时极大的降低数据量,减少数据传输造成的时间浪费,提升用户体验;通过设计OCTC模型,引入一维卷积操作对图像数据进行特征抽取与图像类别计算,使用多个小尺寸卷积核增大模型感受野,保证实验效果的同时降低模型参数量,实现轻量化模型的效果,便于用户储存使用;本发明的方法能够使用户在上传图像的同时能够收到图像中票据数量的判断结果,提升了混拍票据识别系统的用户体验,同时帮助系统进行后续的票据目标检测与内容识别任务,实现系统的实时工作。
-
-
-
-
-
-
-
-
-