面向长文本场景的大语言模型安全风险评估方法、系统和设备

    公开(公告)号:CN119647621A

    公开(公告)日:2025-03-18

    申请号:CN202411671767.7

    申请日:2024-11-21

    Abstract: 面向长文本场景的大语言模型安全风险评估方法、系统和设备,属于大语言模型技术领域,解决大语言模型在长文本场景的安全性保障严重不足,存在着极大的安全评估方法的缺口问题。本发明方法包括:大模型在面对长文本输入时,针对同一有害任务,评估其安全性表现是否与短文本场景下的评估结果一致。本发明利用短文本场景安全领域数据,自动化生成整体语义一致、长文本形式的有害内容,构建长文本场景安全风险评估数据集,识别模型在长文本场景下中的潜在安全风险。采用的长文本评估方法包含上下文学习、基于反向长度扩充和思维链的有害长文本生成技术、经过无偏估计处理的安全评估指标。本发明适用于评估大语言模型在长文本场景下的安全风险。

    基于外部检索提高大语言模型在财务查询问题上准确率的方法及其系统

    公开(公告)号:CN119377261A

    公开(公告)日:2025-01-28

    申请号:CN202411444741.9

    申请日:2024-10-16

    Abstract: 本发明属于计算机技术领域,具体涉及一种基于外部检索提高大语言模型在财务查询问题上准确率的方法及其系统。步骤1:对财务问题进行总结;步骤2:基于步骤1财务查询问题的总结对大语言模型进行训练;步骤3:对财务问题的复杂度进行判断;步骤4:基于步骤3的判断进行计算公式的分解,分解成多个子公式;步骤5:对步骤4分解成的子公式利用步骤2训练好的大语言模型,得到各个子公式的最终答案;步骤6:将步骤5的求和结果按照分解时的计算公式进行结果求和,让大语言模型自动求解,实现提高大语言模型在财务查询问题上准确率。本发明用以解决大语言模型需要进行大量计算的问题。

    一种基于翻译简易度的数据筛选方法

    公开(公告)号:CN115034237B

    公开(公告)日:2024-10-29

    申请号:CN202210618305.3

    申请日:2022-06-01

    Abstract: 一种基于翻译简易度的数据筛选方法,它涉及一种数据筛选方法。本发明为了解决机器翻译数据增强过程中数据质量不佳的问题。本发明将扩增后的所有平行句对作为筛选的对象,首先,利用原有数据集训练得到一个语言模型,该语言模型用于后续的简易度的测量和计算,然后还需要利用已有的数据训练得到正向和反向的翻译模型,得到了三个模型之后,先根据语言模型计算扩增后新的数据的得分作为第一权值,紧接着再将该句子依次送入正向翻译模型和反向翻译模型后得到一个重构的句子,计算该重构句子和原句子之间的bleu值作为第二权值,最后将两个权值加权求和,按照从小到大进行排序,保留得分在排名前70%的句对即可。本发明属于计算机信息筛选技术领域。

    一种基于思维链的跨语言多文档摘要评价方法

    公开(公告)号:CN118467719B

    公开(公告)日:2024-10-01

    申请号:CN202410663888.0

    申请日:2024-05-27

    Abstract: 本发明公开了一种基于思维链的跨语言多文档摘要评价方法,属于自然语言处理技术领域。解决了现有技术中传统的跨语言多文档摘要评价方法忽视生成摘要与原文之间的事实一致性导致的评价质量较低的问题;本发明提取给定的源语言文档集合中每个源语言文档的事实性关键信息,提取生成的跨语言多文档摘要中每个摘要的事实性关键信息;对源语言答案和目标语言答案进行平均度量,得到信息覆盖度得分;计算跨语言多文档摘要中提取的所有事实性关键信息即所有陈述的一致性得分的平均值,得到事实一致性分数;将信息覆盖度得分与事实一致性得分进行融合,得到综合评价分数。本发明有效提升了跨语言多文档摘要评价方法的精度和效率,可以应用于摘要评估。

    一种基于思维链的跨语言多文档摘要生成方法及系统

    公开(公告)号:CN118468864A

    公开(公告)日:2024-08-09

    申请号:CN202410593263.1

    申请日:2024-05-14

    Abstract: 一种基于思维链的跨语言多文档摘要生成方法及系统,涉及自然语言处理领域。解决了现有技术中在跨语言的环境下,不同语言间的语法结构、用词习惯以及文化差异都使得跨语言的信息提取和整合变得更加困难的问题。本发明所述的方法包括:步骤一、输入源语言文档集合;步骤二、对步骤一中每篇源文档进行单文档摘要生成,所述单文档摘要生成包括关键信息提取步骤和多信息整合与摘要生成步骤;步骤三、合并步骤二中生成的各篇文档的单文档摘要,采用增量化合并策略生成多文档摘要;步骤四、利用跨语言思维链引导大语言模型生成目标语言多文档摘要,确保信息的流畅表达和准确传达。步骤五、输出目标语言多文档摘要。本发明还适用于学术、新闻等多个领域。

    一种基于自学习策略的专利成果转化推荐方法及装置

    公开(公告)号:CN117574874A

    公开(公告)日:2024-02-20

    申请号:CN202311396268.7

    申请日:2023-10-25

    Abstract: 一种基于自学习策略的专利成果转化推荐方法及装置,方法包括:获取专利数据集;从每个企业的专利中各抽取一件专利,组成训练集;采用多种方法计算所述训练集中每件专利的摘要文本与所述数据集中剩余专利的摘要文本的相似度;根据采用预设方法计算得到的所述相似度,将所述数据集中剩余专利按照降序排列,得到前m件专利组成样本组,每个样本的样本特征为采用多种方法计算得到的多个所述相似度;基于所述样本组对支持向量机排序模型进行训练;获取待转化专利文本,将所述待转化专利文本输入所述支持向量机排序模型,得到推荐企业结果;该方法不需要人工标注数据,且采用多种方法计算相似度,推荐结果准确率高。

    一种基于上下文期望的无监督词汇级翻译质量评估方法和系统

    公开(公告)号:CN117556834A

    公开(公告)日:2024-02-13

    申请号:CN202311338861.6

    申请日:2023-10-16

    Abstract: 一种基于上下文期望的无监督词汇级翻译质量评估方法和系统,涉及无监督词汇级翻译质量评估领域。解决现有词汇级别QE需要依赖大规模的标注数据,且机器翻译质量评估不准确的问题。所述方法包括:将待评估语句输入至多语言模型中,对所述多语言模型译文端的某一词汇进行遮盖;将所述待评估语句的上下文信息和被遮掩的译文输入至多语言模型,根据所述多语言模型预测被遮掩的词;利用条件概率处理被遮掩词中每个子词间的关系,获取每个子词的生成概率;根据所述生成概率作为评分进行词汇级机器翻译质量评估。本发明应用于机器翻译领域。

    一种基于两阶段注意力的多模态信息机器翻译方法

    公开(公告)号:CN113343011B

    公开(公告)日:2023-03-24

    申请号:CN202110682084.1

    申请日:2021-06-19

    Abstract: 本发明公开了一种基于两阶段注意力的多模态信息机器翻译方法。步骤1:为每个输入的文本生成通用的图像信息;步骤2:基于步骤1的通用图像信息计算图间注意力和图内注意力,即处理不同重要程度的图片和图片中对文本贡献程度的区域;步骤3:改进步骤2中图间注意力机制和图内注意力机制,使之成为带有去噪效果的、带有采样功能的注意力机制,从而采样图片中对理解上下文有帮助的图片区域;步骤4:对步骤3改进的图间注意力机制和图内注意力机制进行多模态融合,实现多任务共同学习。本发明用以解决多模态信息机器翻译场景下,不同模态信息如何融合的问题。

Patent Agency Ranking