文本分析系统、方法、电子设备及存储介质

    公开(公告)号:CN115496066A

    公开(公告)日:2022-12-20

    申请号:CN202211181576.3

    申请日:2022-09-27

    Abstract: 本申请提供一种文本分析系统、方法、电子设备及存储介质,该系统包括预处理模块和文本分析模块;文本分析模块包括多级文本分类单元、文本摘要抽取单元、标签要素抽取单元、智能文本推荐单元和情感意图分析单元中的至少一个;多级文本分类单元用于根据文本向量对待处理文本进行分类;文本摘要抽取单元用于根据文本向量对待处理文本信息整合获得文本摘要;标签要素抽取单元用于根据文本向量从待处理文本中抽取标签并采集指标数据,根据标签和指标数据获得文本指标数据信息;智能文本推荐单元用于根据文本向量从待处理文本中确定推荐文本;情感意图分析单元用于根据文本向量确定待处理文本的情感倾向和文本的意图类别。该方案能满足多种应用场景。

    一种文本分类方法及装置

    公开(公告)号:CN117708322A

    公开(公告)日:2024-03-15

    申请号:CN202311342239.2

    申请日:2023-10-17

    Abstract: 本申请公开了一种文本分类方法及装置,该方法包括第一设备可以根据预设的文本编码器对获取的目标文本信息进行编码,获得该目标文本信息对应的第一向量。第一设备可以根据第一向量从向量检索库中确定与第一向量的相似度最大的目标向量。其中,相似度的最大值大于预设的第一阈值。目标向量是根据多个与目标向量对应的文本类别相同的相似向量生成的。第一设备可以将目标向量对应的文本类别作为目标文本信息的文本类别。采用该方法,可以增加用于训练模型的数据,从而提高文本分类的准确性。同时,由于目标向量是根据多个相似向量生成的,将目标向量对应的文本类别作为目标文本信息对应的文本类别,可以进一步的提高文本分类的准确性。

    一种基于深度学习的轻量级文本检测方法及系统

    公开(公告)号:CN116052147A

    公开(公告)日:2023-05-02

    申请号:CN202211719839.1

    申请日:2022-12-30

    Abstract: 本发明公开了一种基于深度学习的轻量级文本检测方法及系统。其中,该方法包括:包括:获取文本数据集,对所述文本数据集中的文本图片进行增强,使得所述文本图片更加真实,所述文本数据集包括公开文本数据集以及生成文本数据集;将增强后的文本数据集中的文本图片切分成固定宽度的多个小文本,并构建轻量级文本检测模型,将所述多个小文本输入所述轻量级文本检测模型进行训练并进行优化,输出文本检测模型;采集文本图像后输入文本检测模型进行预测,得到模型输出结果,对所述模型输出结果进行筛选,得到满足条件的矩形文本框;通过自适应调整阈值,将多个满足条件的矩形文本框进行合并,经过合并后输出最终的文本检测结果。

    一种基于深度学习的中文手写签名识别方法及系统

    公开(公告)号:CN114581922A

    公开(公告)日:2022-06-03

    申请号:CN202111616800.2

    申请日:2021-12-27

    Abstract: 本发明公开了一种基于深度学习的中文手写签名识别方法及系统,方法包括:生成包括中文手写签名图片的训练数据集;对所述中文手写签名图片进行处理,生成增强数据集;通过所述增强数据集对中文签名检测算法模型进行训练,当所述中文签名检测算法模型对中文手写签名的边框坐标以及分类结果的识别准确率分别达到阈值时,将所述中文签名检测算法模型作为最终中文签名检测算法模型;采集待识别的中文手写签名图片,并对所述待识别的中文手写签名图片进行预处理;通过最终中文签名检测算法模型对经过预处理的所述待识别的中文手写签名图片进行识别,输出所述待识别的中文手写签名图片中中文手写签名的边框坐标以及分类结果。

    一种数据资产处理方法、装置、设备及介质

    公开(公告)号:CN119884776A

    公开(公告)日:2025-04-25

    申请号:CN202411918355.9

    申请日:2024-12-24

    Abstract: 本公开涉及一种数据资产处理方法、装置、设备及介质。该数据资产处理方法包括:接收用户选定目标数据作为原始数据资产的指令;对目标数据进行规则匹配,根据与目标数据相匹配的规则确定目标数据的应用类别和敏感等级,得到分类分级后的目标数据;根据敏感等级选择性地对分类分级后的目标数据进行脱敏处理,生成流通数据资产。本公开通过对原始数据资产进行统一地分类分级,并根据原始数据资产的敏感等级选择性地对其进行脱敏处理,实现了数据的应用分类与安全处理,让数据在应用前得到有效的资产梳理与风险防范,可以安全高效的将原始数据资产转化为用于流通的数据资产。

    一种针对大语言模型的评估方法、模型和计算机存储介质

    公开(公告)号:CN117668506A

    公开(公告)日:2024-03-08

    申请号:CN202311747478.6

    申请日:2023-12-18

    Abstract: 本申请提供一种针对大语言模型的评估方法、模型和计算机存储介质,评估方法包括:根据预先存储的数据元信息和所述大语言模型的待测项目,筛选采集的多个文本数据集以组成测评集合,每个文本数据集包括多条测评数据;将每一条测评数据多次输入被测大语言模型,并对应获得多次输出结果;基于每一条测评数据对应的标准结果,对每一条测评数据对应的多次输出结果进行评分,以获得每一条测评数据对应的评分结果,所述评分结果包括正确率得分和一致性得分;综合所述多条测评数据各自的评分结果,计算并获得针对所述大语言模型的评估结果。如此,测评集合既能满足待测项目的需求,又数据量较小,同时借助自动评估可以提高测评效率。

    一种基于深度学习的文本摘要方法及系统

    公开(公告)号:CN114385806A

    公开(公告)日:2022-04-22

    申请号:CN202111439109.1

    申请日:2021-11-30

    Abstract: 本发明实施例公开了一种基于深度学习的文本摘要方法及系统,其中方法包括:对目标文件进行中文分词和句子分割处理,将目标文件的原始文本划分为单独的句子;将划分为单独句子的原始文本转换为文本向量;对文本向量进行自注意力计算,得到包含语义信息的句子特征;对通过乱序的自注意力计算得到的各个句子特征进行加权整合,并对加权整合后的句子特征进行归一化处理,得到篇章级的句子特征;将篇章级的句子特征输入预先构建的分类模型,输出句子类别;根据句子类别将目标文件的原始文本划分为关键信息和非关键信息两部分;将关键信息按照合理的顺序进行排列组织,并将排列组织后的关键信息合成语义通顺、语法合规的摘要文本。

    一种基于深度神经网络的票据数量识别方法及系统

    公开(公告)号:CN112749731A

    公开(公告)日:2021-05-04

    申请号:CN202011456986.5

    申请日:2020-12-10

    Abstract: 本发明公开了一种基于深度神经网络的票据数量识别方法及系统,将获取的二维的混拍票据原始图像依次进行灰度化处理、二值化处理、归一化处理和二维图像映射一维数据处理,在保留图像信息的同时极大的降低数据量,减少数据传输造成的时间浪费,提升用户体验;通过设计OCTC模型,引入一维卷积操作对图像数据进行特征抽取与图像类别计算,使用多个小尺寸卷积核增大模型感受野,保证实验效果的同时降低模型参数量,实现轻量化模型的效果,便于用户储存使用;本发明的方法能够使用户在上传图像的同时能够收到图像中票据数量的判断结果,提升了混拍票据识别系统的用户体验,同时帮助系统进行后续的票据目标检测与内容识别任务,实现系统的实时工作。

Patent Agency Ranking