-
公开(公告)号:CN119917606A
公开(公告)日:2025-05-02
申请号:CN202411716751.3
申请日:2024-11-27
Applicant: 中国科学院自动化研究所 , 北京智源人工智能研究院
IPC: G06F16/3329 , G06F16/334 , G06F16/353 , G06F40/30 , G06N5/04 , G06N3/045 , G06N3/0895
Abstract: 本发明提供一种基于检索增强的大语言模型长文本回答方法及装置,方法包括:通过第一大语言模型对候选文本中文本片段生成提问样本,构建问答训练样本数据后通过对比学习训练第二大语言模型,得到文本检索器;从外部知识数据库中获取目标检索文本,根据预设的滑动窗口在目标检索文本上滑动,调用文本检索器对滑动窗口内文本进行基于因果注意力机制的特征提取,得到每个检索句子的检索语义特征;调用文本检索器对查询语义特征进行检索,得到召回知识文本,结合目标提问文本进行文本问答。通过本申请,克服在文本问答时需要对待检索文本进行分块检索,限制了检索增强有效召回,导致大语言模型根据检索证据进行文本回答时准确率低下的缺陷。
-
公开(公告)号:CN119378692B
公开(公告)日:2025-04-29
申请号:CN202411945230.5
申请日:2024-12-27
Applicant: 中国科学院自动化研究所
IPC: G06N5/04 , G06N3/045 , G06F40/20 , G06F40/295
Abstract: 本发明提供一种幻觉文本缓解方法、装置、设备、存储介质及程序产品,应用于自然语言处理技术领域。该方法包括:获取大语言模型生成的第一幻觉文本;通过基础修正器对所述第一幻觉文本进行修正,得到第二幻觉文本;通过评估器评估所述第二幻觉文本,得到文本评价信息和此次修正过程的质量评分;在所述质量评分超过预设阈值的情况下,将所述第二幻觉文本作为输出文本;在所述质量评分不超过所述预设阈值的情况下,基于所述文本评价信息,通过反思器确定缓解策略;根据所述缓解策略调整所述基础修正器的修正策略,并将所述第二幻觉文本重新输入调整后的所述基础修正器中。
-
公开(公告)号:CN119378692A
公开(公告)日:2025-01-28
申请号:CN202411945230.5
申请日:2024-12-27
Applicant: 中国科学院自动化研究所
IPC: G06N5/04 , G06N3/045 , G06F40/20 , G06F40/295
Abstract: 本发明提供一种幻觉文本缓解方法、装置、设备、存储介质及程序产品,应用于自然语言处理技术领域。该方法包括:获取大语言模型生成的第一幻觉文本;通过基础修正器对所述第一幻觉文本进行修正,得到第二幻觉文本;通过评估器评估所述第二幻觉文本,得到文本评价信息和此次修正过程的质量评分;在所述质量评分超过预设阈值的情况下,将所述第二幻觉文本作为输出文本;在所述质量评分不超过所述预设阈值的情况下,基于所述文本评价信息,通过反思器确定缓解策略;根据所述缓解策略调整所述基础修正器的修正策略,并将所述第二幻觉文本重新输入调整后的所述基础修正器中。
-
公开(公告)号:CN119358624A
公开(公告)日:2025-01-24
申请号:CN202411309928.8
申请日:2024-09-19
Applicant: 中国科学院自动化研究所
IPC: G06N3/082 , G06N3/0495 , G06N3/042 , G06N3/0499
Abstract: 本发明提供一种基于冲突注意力头剪枝的知识冲突消除方法以及装置,其中,上述方法包括:获取原始输入与干扰输入;基于原始输入运行目标语言模型,确定每个注意力头的原始激活状态;基于干扰输入运行目标语言模型,确定每个注意力头的干扰激活状态;分别将每个注意力头的原始激活状态替换为干扰激活状态,确定每个注意力头的输出变化量;进而确定每个注意力头的代理重要性分数;基于每个注意力头的代理重要性分数进行排序,将目标序号的注意力头作为冲突注意力头,其中,冲突注意力头为上下文头;对冲突注意力头进行注意力剪枝,以消除目标语言模型的知识冲突;通过本发明能够提高模型在处理内部记忆和外部上下文时的灵活性。
-
公开(公告)号:CN118733413A
公开(公告)日:2024-10-01
申请号:CN202410761163.5
申请日:2024-06-13
Applicant: 中国科学院自动化研究所 , 上海人工智能创新中心
IPC: G06F11/34
Abstract: 本申请提供一种大模型能力多维评测方法和装置,涉及人工智能技术领域,包括:基于模型评测能力体系,确定对各个待评测模型进行评测的多个能力评测维度;确定各个能力评测维度对应的评测题;基于各个能力评测维度对应的评测题,对各个待评测模型进行评测,确定各个待评测模型在各个能力评测维度下的评测结果;基于各个待评测模型在各个能力评测维度下的评测结果,确定各个待评测模型的多维评测结果。本申请提供的方法和装置,提高了大模型能力评测的准确性和全面性。
-
公开(公告)号:CN110209816B
公开(公告)日:2021-06-08
申请号:CN201910440322.0
申请日:2019-05-24
Applicant: 中国科学院自动化研究所
IPC: G06F16/35 , G06F40/126
Abstract: 本发明属于自然语言处理领域,具体涉及了一种基于对抗模仿学习的事件识别及分类方法、系统、装置,旨在解决传统事件识别及分类方法语言处理工具存在错误累计导致事件识别准确率低的问题。本发明方法包括:获取不含标准标注信息的句子并输入;将每一个词特征化后的词向量集构成词向量特征矩阵;采用向量编码器对词向量特征矩阵进行编码,并采用注意力机制为每一个词分配权重,获得知识向量;采用事件类型分类器依据知识向量计算输入信息属于各事件类别的概率;概率值最高的事件类别作为输入信息的事件类别。本发明不依赖自然语言处理工具对信息进行抽取,避免错误积累,提高了事件识别的准确率。
-
公开(公告)号:CN112101484B
公开(公告)日:2021-02-12
申请号:CN202011244409.X
申请日:2020-11-10
Applicant: 中国科学院自动化研究所
IPC: G06K9/62
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于知识巩固的增量事件识别方法、系统、装置,旨在解决现有的事件识别方法在微调模型后识别新类别的事件时,容易出现灾难遗忘,导致识别精度较低的问题。本系统方法包括获取待识别事件的文本,作为输入文本;通过预训练的语言模型提取输入文本中各单词的上下文特征;基于所述上下文特征,通过多层感知器模型得到待识别事件的类别。本发明提高了事件识别的精度。
-
公开(公告)号:CN109783812B
公开(公告)日:2020-08-11
申请号:CN201811621018.8
申请日:2018-12-28
Applicant: 中国科学院自动化研究所
IPC: G06F40/295 , G06F40/289
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于自注意力机制的中文命名实体识别方法、系统、装置,旨在为了解决解决中文命名实体识别的准确度不能满足需求的问题。本发明方法包括:提取待识别语句的私有特征h1、共有特征s1;基于自注意力机制分别计算共有特征s1、私有特征h1对应的长距离依赖关系,获取基于依赖关系的私有特征h′1、基于依赖关系的共有特征s′1;通过任务分类器判断所述待识别语句是否为中文命名实体识别数据时将h′1与s′1进行拼接,获取融合后的中文命名实体识别数据特征h″1,采用条件随即场对融合之后的特征h″1进行标签预测。本发明有效地提高了中文命名实体识别的准确度。
-
公开(公告)号:CN108345583A
公开(公告)日:2018-07-31
申请号:CN201711463578.0
申请日:2017-12-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种基于多语注意力机制的事件识别及分类方法及装置,旨在为了解决单语特征识别效果不能满足需求的问题,本发明的方法包括:将仅标注单语事件信息的数据映射为多语平行数据;将所述多语平行数据进行词汇级别对齐,通过多语对齐关系得到同一事件在多种不同语言中的一致性表示;基于单语注意力模型获取多语一致性信息;基于多语注意力模型获取多语互补性信息;基于所述多语一致性信息和所述多语互补性信息进行联合推理,通过非线性神经网络判别模型输出最终的识别结果。本发明可以提高事件的识别效果。
-
公开(公告)号:CN120011770A
公开(公告)日:2025-05-16
申请号:CN202510140942.8
申请日:2025-02-08
Applicant: 中国科学院自动化研究所
IPC: G06F18/21 , G06F18/214 , G06N3/045 , G06N3/0499
Abstract: 本公开关于大语言模型的规划能力的评估方法、装置、电子设备、存储介质和计算机程序产品,包括:将多个样本输入大语言模型,获得每个样本在每个层的表示向量并计算该层的提取率和探测准确率;计算每个样本所包含的每种类型的组成部分的信息流分数并评估该种类型的组成部分作为信息来源的可能性;获取屏蔽每个样本所包含的目标执行操作的操作结果之后的屏蔽预测结果以及屏蔽之前的未屏蔽预测结果并评估目标执行操作对输出结果的影响力。这样,通过计算模型的提取率、探测准确率、信息流分数和历史步骤的因果性影响,为模型在全局可观测的规划任务中具备短期的前瞻性未来决策能力的可解释性提供了理论支持。
-
-
-
-
-
-
-
-
-