-
公开(公告)号:CN114492806A
公开(公告)日:2022-05-13
申请号:CN202210001713.4
申请日:2022-01-04
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及一种针对基于提示符的探证的因果分析方法和系统,属于自然语言处理领域。该方法主要包含:(1)形式化基于提示符的探证过程中各个变量交互关系的结构因果模型。该结构因果模型共包含11个关键变量,描述了模型预训练、提示符选取、自然语言化的测试集生成、性能评估四个关键过程中的因果关系。(2)基于结构因果模型,识别出期望评估的真正因果关系和三条混淆评估结果的后门路径,分析三条后门路径导致的三种偏差:提示符偏好偏差、实例自然语言化偏差、采样差异偏差。(3)基于后门准则的消除探证过程偏差的因果干预方法。本发明能有效地识别、理解和消除探证过程中存在的偏差,得到稳定的、准确的、可靠的评测结果。
-
公开(公告)号:CN109739982A
公开(公告)日:2019-05-10
申请号:CN201811563503.4
申请日:2018-12-20
Applicant: 中国科学院软件研究所
IPC: G06F16/35
Abstract: 本发明提供一种事件检测方法。所述方法包括:使用F值评价指标对正确预测的正例样本数量和正确预测的负例样本数量求偏导数,以计算所述F值评价指标对正例样本和负例样本的边际效用;计算负例样本在事件检测模型训练中的权重以对负例样本在事件检测模型训练中的权重进行缩放处理直至事件检测模型收敛。本发明通过动态缩放负例样本的训练权重,能够解决现有事件检测模型中的类别不平等问题,且不需要引入任何额外的模型参数。
-
公开(公告)号:CN119940533A
公开(公告)日:2025-05-06
申请号:CN202411937914.0
申请日:2024-12-26
Applicant: 中国科学院软件研究所
IPC: G06N5/04 , G06F18/23 , G06F18/23213
Abstract: 本发明涉及一种密集语言模型稀疏升级方法及稀疏语言模型文本处理方法,属于人工智能技术领域。本发明通过利用任务表征和上下文表征来初始化路由网络的权重,实现在不增加计算成本的前提下将密集语言模型高效转化为稀疏激活模型,不仅提高了模型的计算效率,还赋予了各个专家网络针对不同任务的专业化处理能力,在保持计算资源消耗基本不变的前提下,显著提升模型在复杂推理、多任务处理等方面的性能表现。
-
公开(公告)号:CN119918513A
公开(公告)日:2025-05-02
申请号:CN202510003664.1
申请日:2025-01-02
Applicant: 中国科学院软件研究所
IPC: G06F40/166 , G06F18/231
Abstract: 本发明涉及自动化演示文稿生成的技术领域,具体为一种演示文稿生成方法。获取参考演示文稿和输入文档,所述参考演示文稿包括结构幻灯片和内容幻灯片;对所述参考演示文稿进行功能性聚类,得到一至多结构幻灯片组和一至多内容幻灯片组;分析所述结构幻灯片组和所述内容幻灯片组得到内容模式框架,所述内容模式框架包含内容区域、区域描述和填充要求;提取所述输入文档,得到待生成演示文稿的大纲;基于所述大纲和所述内容模式框架构建代码指令,进而生成新的演示文稿。本发明能够克服现有技术中视觉风格和内容一致性不足的缺陷,大幅提升演示文稿的整体美观性和专业感,使得生成的演示文稿在逻辑层次和视觉传达上更加连贯。
-
公开(公告)号:CN118585615A
公开(公告)日:2024-09-03
申请号:CN202410521196.2
申请日:2024-04-28
Applicant: 中国科学院软件研究所
IPC: G06F16/332 , G06F16/33 , G06F16/31 , G06F16/36 , G06F18/22 , G06F40/169 , G06F18/23 , G06F40/186
Abstract: 本发明公开一种面向文档知识库的多粒度结构化检索增强生成方法及装置,属于信息检索和自然语言处理领域。所述方法包括:将原始文档数据中的每一原始文档Di切分为若干个叶节点粒度的文档片段#imgabs0#并生成不同粒度层级的文档片段#imgabs1#后,提取文档片段#imgabs2#间的层次化组合关系;在同一粒度层级上抽取文档片段#imgabs3#间的指代关系,并获取文档片段#imgabs4#所涉及的原生引用关系;根据输入问题与文档片段#imgabs5#的相似性,召回若干个文档片段;基于层次化组合关系、指代关系和原生引用关系,对召回的文档片段进行重排序;将输入问题和重排序的文档片段拼接成问答提示语,并结合生成式语言模型得到输入问题的答案。本发明可以提升检索过程中信息匹配的精确度。
-
公开(公告)号:CN118395972A
公开(公告)日:2024-07-26
申请号:CN202410343314.5
申请日:2024-03-25
Applicant: 中国科学院软件研究所
IPC: G06F40/226 , G06F40/166 , G06N20/00
Abstract: 本发明公开一种基于任务指示的参考知识链接任务通用解决方法及装置,属于自然语言处理技术领域。所述方法包括:结合任务指示,分别生成声明和参考知识的向量化表示;其中,所述任务指示包括该声明的数据领域和链接任务的任务信息;基于声明和参考知识的向量化表示,判断该声明与该参考知识是否存在链接关系。本发明可以高效通用地解决参考知识链接任务。
-
公开(公告)号:CN118170863A
公开(公告)日:2024-06-11
申请号:CN202410255048.0
申请日:2024-03-06
Applicant: 中国科学院软件研究所
IPC: G06F16/33 , G06F40/14 , G06F40/258 , G06F40/30
Abstract: 本发明公开了一种基于生成式语言模型的文档目录抽取方法及系统,属于自然语言处理技术领域。通过全局上下文堆栈存储文档结构目录树形式的已生成的文档结构,通过未来输入窗口输入每个遍历阶段的当前局部文档片段和后续的局部文档片段,将全局上下文堆栈通过全局文档结构表示转化为文本并与当前局部文档片段和后续的局部文档片段的文本进行拼接,输入到生成式语言模型中预测多个局部文档的层次结构。本发明通过全局上下文堆栈解决文档目录抽取对于全局信息的长距离依赖问题,通过未来输入窗口解决生成式语言模型因不了解下文而造成的短视问题,通过全局文档结构表示增强了针对不同类型文档的泛化能力。
-
公开(公告)号:CN116739002A
公开(公告)日:2023-09-12
申请号:CN202310713495.1
申请日:2023-06-15
Applicant: 中国科学院软件研究所
IPC: G06F40/30 , G06F40/289 , G06F40/211
Abstract: 本发明提出了一种面向半结构化网页文档的语篇分析方法及装置,所述方法包括:基于网页文档的内容信息和半结构化信息,形成由多个基本逻辑块构成的基本逻辑块列表;根据基本逻辑块之间篇章组织方式,将基本逻辑块列表映射为网页文档语篇结构表示;基于网页文档语篇结构表示,得到语篇分析结果。本发明使得网页文档的语篇组织特性能够在多个场景下被描述、理解和利用。
-
公开(公告)号:CN114781350A
公开(公告)日:2022-07-22
申请号:CN202210306002.8
申请日:2022-03-25
Applicant: 中国科学院软件研究所
IPC: G06F40/205 , G06F40/126 , G06N3/04 , G06N3/08 , G06N5/04
Abstract: 本发明公开了一种基于场景图演化的过程性文本理解方法和系统。该方法主要包含:图结构编码器充分建模当前场景图中不同实体、状态、位置和常识概念之间的交互信息;上下文编码器充分挖掘当前时刻自然语言中表达的新事件信息;图结构预测器通过图结构编码器提供的场景图信息和上下文编码器提供的新事件信息预测下一时刻的场景图结构;状态推理器基于图结构预测器自回归形式地预测出一系列时刻的场景图结构,通过对比相邻时刻的场景图结构和相应的专家知识同步追踪所有实体的状态和位置。本发明能够有效提升过程性文本理解任务的性能,并且基于图的推理方法能够同步追踪所有实体,显著提升了过程性文本理解系统的效率。
-
公开(公告)号:CN114398901A
公开(公告)日:2022-04-26
申请号:CN202210005419.0
申请日:2022-01-05
Applicant: 中国科学院软件研究所
IPC: G06F40/30 , G06F40/216 , G06F40/295 , G06F16/35 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明提出一种一种基于自描述网络的信息抽取方法及装置,属于自然语言技术领域。本发明基于自描述机制,用一个统一的概念集合表示抽取目标,建立目标任务数据与外部网络数据的关联,从而解决标注数据稀疏问题和外部知识不准确问题;通过描述生成任务,生成抽取目标的相关概念,作为抽取目标的描述,并以此构建抽取类型的描述;通过信息生成任务进行生成式的信息抽取,从文本中获取实体、事件等信息;利用大规模网络数据对描述生成和信息生成进行预训练,以及利用特定的少量标注数据进行微调,从而能够快速泛化到缺乏标注数据的新任务和新领域。
-
-
-
-
-
-
-
-
-