-
公开(公告)号:CN109739982A
公开(公告)日:2019-05-10
申请号:CN201811563503.4
申请日:2018-12-20
Applicant: 中国科学院软件研究所
IPC: G06F16/35
Abstract: 本发明提供一种事件检测方法。所述方法包括:使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用;计算负例样本在事件检测模型训练中的权重以对负例样本在事件检测模型训练中的权重进行缩放处理直至事件检测模型收敛。本发明通过动态缩放负例样本的训练权重,能够解决现有事件检测模型中的类别不平等问题,且不需要引入任何额外的模型参数。
-
公开(公告)号:CN114706982B
公开(公告)日:2025-04-11
申请号:CN202210320490.8
申请日:2022-03-29
Applicant: 中国科学院软件研究所
IPC: G06F16/355 , G06F40/216 , G06F40/279 , G06N3/0442 , G06N3/045 , G06N3/08 , G06N5/04
Abstract: 本发明公开了一种基于标签推理网络的细粒度实体分类方法,属于自然语言处理技术领域,基于预训练语言模型的上下文相关的实体提及编码器;基于序列到集合生成框架的标签演绎推理机制,结合生成的标签和上下文信息生成新的标签;基于属性网络的标签归纳推理机制,结合已经生成的标签所激活的属性生成新的标签;对应于上述描述的两种推理机制,使用基于集合预测的损失和属性图激活的损失的来优化网络参数。本发明可以端到端地建模学习和利用标签依存关系,并且可以解决细粒度实体分类中的长尾标签预测问题。
-
公开(公告)号:CN119783664A
公开(公告)日:2025-04-08
申请号:CN202411639602.1
申请日:2024-11-15
Applicant: 中国科学院软件研究所 , 北京百川智能科技有限公司 , 北京英博数科科技有限公司
IPC: G06F40/279 , G06F40/216 , G06N3/0464 , G06N3/08
Abstract: 本申请实施例提供一种大模型长文本处理能力评测方法,电子设备、存储介质,涉及人工智能技术领域,可以更加准确地反映大模型实际的长文本处理能力。该大模型长文本处理能力评测方法包括:获取第一评测任务,第一评测任务包括第一任务样例和第一任务问题,第一任务样例包括第一样例内容和与第一样例内容对应的第一样例结果,第一任务问题为针对第二样例内容得到对应结果的问题;获取干扰文本;将第一任务样例插入干扰文本,并将插入有第一任务样例的干扰文本和第一任务问题组合得到任务文本;执行第一测试,第一测试包括:将任务文本输入大模型,得到大模型基于第一任务问题输出的第一答案;根据第一答案获取大模型的评测结果。
-
公开(公告)号:CN118586395A
公开(公告)日:2024-09-03
申请号:CN202310217476.X
申请日:2023-03-03
Applicant: 中国科学院软件研究所 , 北京百度网讯科技有限公司
IPC: G06F40/30 , G06F40/211 , G06F18/214 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于元函数的信息抽取上下文学习方法及装置。所述方法包括:构建执行上下文学习信息抽取任务的神经网络模型;构建训练数据集,训练数据包括:抽取说明、标注范例和文本;将类别匿名化的抽取说明、标注范例和文本输入编码器,采用上下文学习的范式得到语义表示F,并通过解码器预测语义表示F在每一个时间步内对应的词语,得到交叉熵损失;将类别匿名化的抽取说明和标注范例输入微调后的编码器,得到语义表示F′,并通过语义表示F逼近语义表示F′,得到代理抽取损失;基于交叉熵损失和代理抽取损失训练神经网络模型;使用训练后的神经网络,获取测试文本的信息抽取结果。本发明的模型具备信息抽取上下文学习的能力。
-
公开(公告)号:CN118485061A
公开(公告)日:2024-08-13
申请号:CN202410548511.0
申请日:2024-05-06
Applicant: 中国科学院软件研究所
IPC: G06F40/221 , G06F40/211 , G06F40/284 , G06F16/33 , G06N3/088
Abstract: 本发明公开了指令数据自动标注方法、语言模型指令遵循增强方法及系统,属于自然语言处理技术领域。本发明从无监督纯文本语料中采样包含指令跟随监督信号的纯文本;使用人工标注的指令数据反向微调一预训练语言模型,微调完成后作为反向标注模型;利用反向标注模型对纯文本进行反向指令标注,得到反向标注指令数据;将部分纯文本及反向标注指令数据输入到闭源大语言模型进行数据改写,得到输出改写数据;使用输出改写数据微调一预训练语言模型,微调完成后作为输出改写模型;利用输出改写模型改写反向标注指令数据,得到自动标注的指令数据。本发明可以从无监督的文本语料中自动构建指令数据,以及增强预训练语言模型的指令遵循能力。
-
公开(公告)号:CN118428488A
公开(公告)日:2024-08-02
申请号:CN202410582872.7
申请日:2024-05-11
Applicant: 中国科学院软件研究所
Abstract: 本发明公开了基于大语言模型开放式映射规划的任务规划方法及系统,涉及自然语言处理技术领域。本发明通过生成统一格式的开放式映射规划数据集,并制定检索重写流程,对大语言模型进行微调训练,使大语言模型能够对生成的规划进行修改重写,进而生成优异的规划方案。本发明通过开放式映射规划数据集和检索重写流程对大语言模型进行微调,能够提高大语言模型的任务规划能力和泛化能力。
-
公开(公告)号:CN118227487A
公开(公告)日:2024-06-21
申请号:CN202410362163.8
申请日:2024-03-27
Applicant: 北京有竹居网络技术有限公司 , 中国科学院软件研究所
Abstract: 本申请公开了一种生成语言模型的测试实例的方法,包括:获取对待评估语言模型进行评估的第一测试实例,并确定所述第一测试实例的关键信息,该关键信息可以包括所述第一测试实例的测试目标和/或所述测试实例中的关键实体。根据所述关键信息,生成多个第二测试实例,所所述多个第二测试用于对所述待评估语言模型进行评估。由此可见,利用本申请实施例的方案,可以基于第一测试实例所确定的关键信息,对用于对待评估语言模型进行评估的测试实例进行扩充,扩充得到对待评估语言模型进行评估的多个第二测试实例。因此,利用本方案,对待评估语言模型进行评估的测试实例的更多,从而提升了对待评估语言模型进行评估所得到的评估结果的准确性。
-
公开(公告)号:CN118153690A
公开(公告)日:2024-06-07
申请号:CN202410386568.5
申请日:2024-04-01
Applicant: 中国科学院软件研究所
IPC: G06N5/04 , G06N3/09 , G06F16/332 , G06N3/045 , G06F18/22
Abstract: 本发明公开了基于可信度感知和检索增强语言模型的问答方法及系统,属于自然语言处理技术领域,旨在解决在传统检索增强生成过程中所引入的缺陷信息问题。针对用户输入的问题所检索的系列文档进行可信度等级划分,生成可信度标注文档;根据输入的问题、可信度标注文档和答案构建增强输入,输入到大语言模型,生成可信度指导的解释;由可信度标注文档和可信度指导的解释构建训练数据集,将该训练数据集和输入的问题输入到待训练的语言模型中进行监督微调训练;利用训练好的语言模型来处理用户新输入的问题,基于指定的文档生成答案。本发明通过引入可信度因素,增强语言模型对可信度的感知能力,进而增强问答能力,提升对问题回答的精准性。
-
公开(公告)号:CN117634460A
公开(公告)日:2024-03-01
申请号:CN202210963096.6
申请日:2022-08-11
Applicant: 中国科学院软件研究所
IPC: G06F40/205 , G06F40/30 , G06N20/00
Abstract: 本发明公开了基于对比学习远距离监督的机器阅读理解模型训练方法。本方法为:1)对于每一给定的 对,首先从文本语料中检索包含该 对的文本段落,并在所述文本段落中查找并定位答案字符串,作为答案位置的标注,得到针对该 对的训练实例袋;将不包含该 对中答案的文本段落作为负样例文本段落;2)将训练实例中的问题、文本段落输入机器阅读理解模型,根据预测输出得到训练实例的答案位置;并根据答案开始和结束位置概率分布更新训练实例的置信度;3)基于置信度更新后的所述训练实例对所述机器阅读理解模型进行训练。本发明能避免由错误标注实例带来的预测捷径和语义漂移问题。
-
公开(公告)号:CN115563269A
公开(公告)日:2023-01-03
申请号:CN202110742816.1
申请日:2021-07-01
Applicant: 中国科学院软件研究所
IPC: G06F16/35 , G06F40/216 , G06F40/295 , G06F40/30
Abstract: 本发明公开了一种基于全局变换原型网络的小样本关系分类方法和装置,属于自然语言处理技术领域。该方法主要包含:(一)基于预训练语言模型和实体标记的关系实例表示抽取机制;(二)基于关系实例表示的全局变换原型网络;(三)基于上述网络得到的全局原型表示,进行的小样本关系分类方法。本发明的基于预训练语言模型和实体标记的关系实例表示抽取机制能够对关系实例包括的实体对和相关上下文进行充分编码;基于全局变换的原型网络能够充分通过支撑集,获得新任务的全局特征,基于此对新关系原型表示进行变换,从而更好地进行领域泛化。
-
-
-
-
-
-
-
-
-