-
公开(公告)号:CN119692472A
公开(公告)日:2025-03-25
申请号:CN202411760334.9
申请日:2024-12-03
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06N5/04 , G06N20/00 , G06F40/284
Abstract: 本发明提供了一种多模态图表问答大模型构建方法、电子设备和存储介质,包括:基于第一样本数据集对图文对齐模型进行训练,得到训练好的图文特征对齐模型;其中,第一样本数据集中包括图像样本和对应的文本内容;基于第二样本数据集对具有训练好的图文特征对齐模型的多模态图表问答大模型进行训练,得到训练后的多模态图表问答大模型,作为最终的多模态图表问答大模型,第二样本数据集包括图表样本的上下文表示信息、图像和问答对数据。本发明得到的多模态图表问答大模型相对于现有的多模态图表问答大模型的图表问答能力能够得到进一步提升,且具有较强的中文理解能力。
-
公开(公告)号:CN119538981A
公开(公告)日:2025-02-28
申请号:CN202411627791.0
申请日:2024-11-14
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本公开涉及一种领域大语言模型微调训练方法、装置、电子设备及介质;方法包括:在微调训练阶段,获取多个领域任务的原始指令数据,构建单项选择任务数据集,单项选择任务数据集包括多个领域任务的多条单项选择任务数据,对单项选择任务数据集中的原始指令题目进行数据扰动操作,识别各个领域任务的关键注意力头,获取关键注意力头索引表,基于关键注意力头索引表,加载目标领域任务对应的目标关键注意力头列表;针对目标领域任务,基于目标关键注意力头列表进行关键注意力头训练,更新目标关键注意力头列表中各个关键注意力头的权重参数,冻结其他网络层的权重参数。
-
公开(公告)号:CN117764062B
公开(公告)日:2025-02-14
申请号:CN202311671334.7
申请日:2023-12-07
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/279 , G06N5/022
Abstract: 本发明提供了一种基于大语言模型的统一信息抽取方法、介质及设备,涉及信息抽取技术领域,包括:获取待处理文本以及目标指令,将待处理文本和目标指令拼接后输入目标信息抽取模型,以得到目标信息抽取模型输出的信息抽取结果。目标信息抽取模型,通过以下步骤得到:获取若干原始文本集,对若干原始文本集中的每一原始文本,进行目标训练样本生成处理,以得到目标训练样本集,根据目标训练数据集对预设大语言模型进行训练,以得到目标信息抽取模型。本发明能够使得目标信息抽取模型具备抽取不同任务类型信息的能力,提高信息抽取的效率,并可以降低模型的发散性。
-
公开(公告)号:CN118940299B
公开(公告)日:2025-01-10
申请号:CN202411402787.4
申请日:2024-10-09
Applicant: 天津中科闻歌科技有限公司 , 北京中科闻歌科技股份有限公司
Abstract: 本发明提供了一种提高目标模型的安全性的方法、电子设备及存储介质,涉及模型技术领域,所述方法能够根据指定数据集的总集获取增量权重列表,进一步的获取第四类指令对应的模拟增量权重,根据模拟增量权重对目标模型的权重进行更新,通过更新目标模型的权重来提高目标模型的安全性,可知本发明通过权重组合的方式获取模拟增量权重,根据模拟增量权重对目标模型的权重进行更新,提高目标模型的安全性的同时能够缓解目标模型针对第五类指令的过度防御,第五类指令为与第四类指令有相似的构建方式但不会指导目标模型违反其内部的安全策略并输出不良内容的指令,无需混合大量的通用指令数据,节省了算力时间消耗,对计算机设备的显存要求较低。
-
公开(公告)号:CN118627492A
公开(公告)日:2024-09-10
申请号:CN202411092157.1
申请日:2024-08-09
Applicant: 北京中科闻歌科技股份有限公司 , 天津中科闻歌科技有限公司
IPC: G06F40/216 , G06F40/226
Abstract: 本发明提供了一种检测目标模型的方法、电子设备及存储介质,涉及模型检测技术领域,所述方法能够根据指定选择题数据列表集合的总集和目标模型获取预设选项标签列表对应的第一累计被选择次数列表集合,获取第一累计被选择次数列表集合对应的关键向量列表集合并获取关键向量列表集合对应的关键向量相关系数列表,当大于预设向量相关系数的关键向量相关系数的数量与所有关键向量相关系数的比值不大于预设比值时,确定目标模型在生成选择题答案时不存在选项标签偏见或选项位置偏好,可知本发明能够检测出目标模型在生成选择题答案时是否存在选项标签偏见或选项位置偏好,有利于增强目标模型的可靠性,提高目标模型在教育和测试等环境中的公正性。
-
公开(公告)号:CN118503424A
公开(公告)日:2024-08-16
申请号:CN202410649214.5
申请日:2024-05-23
Applicant: 天津中科闻歌科技有限公司 , 北京中科闻歌科技股份有限公司
IPC: G06F16/35 , G06F18/241 , G06F18/214 , G06N10/60
Abstract: 本发明公开了一种基于多任务量子启发式神经网络的文本分类方法,包含以下步骤:步骤1、针对收集的海量数据先进行正则化、降重、剔除信息熵含量低的文本处理;步骤2、制作数据集,将数据集中的文本按最终任务需求进行划分;步骤3、对整理的数据集再进行细粒度分类,按需划分为训练集、测试集与验证集。本发明融合了量子启发式神经网络与多任务学习的功能,借鉴了量子计算的原理与解析文本特征间的相互作用,同时处理多个相互关联的任务。通过这种方式,本方法可以更精细地捕捉到文本内容的多样性和复杂性。
-
公开(公告)号:CN114841353B
公开(公告)日:2024-08-09
申请号:CN202210460271.X
申请日:2022-04-28
Applicant: 天津大学 , 北京中科闻歌科技股份有限公司
IPC: G06N10/60 , G06F40/211 , G06F40/30
Abstract: 本发明公开了一种融合句法信息的量子语言模型建模方法,该方法从表示句子的量子系统入手,在模型中引入句法结构信息,以提高量子语言模型的建模能力,包括数据的预处理及句法结构生成模块、句法指导的单词表示模块、语义和语法信息融合的句子表达模块;所述数据的预处理及句法结构生成模块将句子处理成句法结构树的形式;句法指导的词向量表达模块利用每个句子的依存信息,训练单词的词向量表达;语义和语法信息融合的句子表达模块将上一步生成的词向量转换为密度矩阵,进一步得到句法指导的句子表达,以用于下游任务的训练;本发明基于句法结构树重构密度矩阵的生成与表达,利用依存关系建模了句子的词项依赖。
-
公开(公告)号:CN118394748A
公开(公告)日:2024-07-26
申请号:CN202410514210.6
申请日:2024-04-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/215 , G06F16/22
Abstract: 本发明提供了一种数据监测系统,系统包括处理器、存储器和数据库,存储器中存储有计算机程序,数据库中存储有监测规则参考表,处理器用于:获取用户输入的监测任务信息集M;对于M中的Mr,如果当前时间为Tr对应的监测时间,则利用DRr对Mr对应的当前需要处理的数据集DCr进行监测,得到对应的监测结果RSr;如果RSr为表征DCr的质量不满足预设要求的结果,输出对应的提示信息。本发明能够多维度对数据质量进行自动监测,能够提高监测效率和监测准确率。
-
公开(公告)号:CN113159874B
公开(公告)日:2024-07-23
申请号:CN202110570420.3
申请日:2021-05-25
Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司
IPC: G06Q30/04 , G06Q40/12 , G06Q10/0635 , G06Q30/018
Abstract: 本发明提供了一种增值税发票的检测方法、装置和可读存储介质。增值税发票的检测方法,包括获取数据,对数据进行数据处理,得到清洁数据;基于清洁数据,获取第一特征向量集合;基于第一特征向量集合,采用第一风险量化模型进行检测,得到第一风险量化值;基于企业关联关系拓扑图,获取风险扩散变量;基于风险扩散变量和第一风险量化值,获取第二特征向量集合;基于第二特征向量集合,采用第二风险量化模型进行检测,获取第二风险量化值。本发明提出了洗票风险扩散机制,对洗票风险在企业之间的扩散过程进行建模,实现了企业间风险扩散行为的精确捕获与计算,同时清晰地区分了正常企业与洗票嫌疑企业。
-
公开(公告)号:CN118227262A
公开(公告)日:2024-06-21
申请号:CN202410364624.5
申请日:2024-03-28
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本申请实施例提供了一种针对流式数据处理的弹性扩缩容方法及装置,涉及云原生技术领域,部署于Kubernetes平台中,通过监控指标参数集合中的各个指标,获取所述指标参数集合中各个指标对应的参数值;所述指标参数集合中包括至少一个关于流式数据任务的自定义指标;基于所述各个指标对应的参数值,结合预设告警规则生成告警消息;响应于所述告警消息,对所述各个指标对应的参数值进行分析,以生成目标资源的配置信息;所述目标资源为基于自定义资源定义CRD创建的自定义资源;基于所述目标资源的配置信息,对所述目标资源对应的Deployment进行扩缩容。本申请实施例用于在Kubernetes平台中处理流式数据业务时,提高业务处理的效率。
-
-
-
-
-
-
-
-
-