-
公开(公告)号:CN103678703B
公开(公告)日:2017-01-11
申请号:CN201310745097.4
申请日:2013-12-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种借助图随机游走的开放类别命名实体抽取方法,该方法包括步骤:步骤1,分析种子在语料中的上下文得到模板;步骤2,使用模板从语料抽取候选实体;步骤3,根据种子实体、模板和候选实体之间的关系构造图;步骤4,在图上使用随机游走算法计算候选实体的置信度。该方法能够克服模板质量不同对候选实体置信度计算带来的不良影响,有效地提高了开放类别命名实体抽取的准确率。经过实验证明,抽取结果的平均准确率提高了4.36%。
-
公开(公告)号:CN104239402A
公开(公告)日:2014-12-24
申请号:CN201410353033.4
申请日:2014-07-23
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30675 , G06F17/30693
Abstract: 本发明公开了一种文档查询方法及装置,属于数据查询领域。所述方法包括:通过获取待查询的文档q和该文档q对应的类别Cp;通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq;根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档;其中,词-主题矩阵和主题-文档矩阵Vp是预先对各个历史文档按照不同类别进行组非负矩阵分解所得到的矩阵;本发明解决了目前查询方法所查询到的历史文档的结果不一定符合用户预期的问题;达到了通过词-主题矩阵和主题-文档矩阵Vp来进行文档查询,提高了查询的准确率,优化了文档查询的结果。
-
公开(公告)号:CN104199829A
公开(公告)日:2014-12-10
申请号:CN201410361587.9
申请日:2014-07-25
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06K9/6267
Abstract: 本发明提供了一种情感数据分类方法和系统,所述方法包括:构造训练数据集对应的文档-文档图和词-词图,所述文档-文档图中,节点表示所述训练数据集中的文档,边的几何信息表示文档之间的相关度,所述词-词图中,节点表示所述训练数据集中的词,边的几何信息表示词之间的相关度;根据所述文档-文档图和词-词图的几何信息构造目标函数中的基于图的正则化项;对所述目标函数进行优化处理,输出文档-情感矩阵;获取测试数据集中的文档,根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向。采用该方法和系统,能够提高情感分类精度。
-
公开(公告)号:CN104049755A
公开(公告)日:2014-09-17
申请号:CN201410271542.2
申请日:2014-06-18
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC: G06F3/01
CPC classification number: G06N3/08 , G06F17/27 , G06N3/04 , G06N3/0454
Abstract: 本发明实施例公开了一种信息处理方法及装置;所述方法包括:利用评价对象种子、评价词种子以及评价关系种子对深度神经网络进行训练;在第一输入层对候选评价对象、候选评价词以及候选评价关系对应的向量进行连接得到第一输入向量,在第一隐藏层对所述第一输入向量进行压缩得到第一中间向量,在第一输出层将所述第一中间向量进行解码得到第一输出向量;确定解码错误值小于解码错误值阈值的第一输出向量,并将所确定的第一输出向量对应的候选评价对象、候选评价词以及候选评价关系确定为第一观点信息。采用本发明实施例的技术方案,能够提升从评价文本中提取观点信息的精度。
-
公开(公告)号:CN101676898A
公开(公告)日:2010-03-24
申请号:CN200810222335.2
申请日:2008-09-17
Applicant: 中国科学院自动化研究所
Abstract: 本发明为一种汉英机构名翻译方法和装置,将待翻译的中文机构名使用基于字的条件随机场模型切分为四种语块,并对四种语块进行分词处理。选择具有一定信息量和翻译置信度的词进行统计翻译,得到机构名中若干词的翻译结果,并同待翻译的中文机构名构成一个双语查询。借助搜索引擎对该查询进行检索,得到若干中英双语混合网页的片段。抽取出网页片段中的英文,并借助中英文非对称对齐技术,筛选英文句子中与该中文机构名对齐概率最高的片段。通过统计每个片段出现的频率等信息,确定一个最优片段作为中文机构名的翻译。该方法克服统计翻译模型在机构名翻译过程中容易出现的结构、顺序和选词错误,机构名翻译精确率提高了35.26%。
-
公开(公告)号:CN116521834B
公开(公告)日:2025-03-25
申请号:CN202310303093.4
申请日:2023-03-23
Applicant: 中国科学院自动化研究所
IPC: G06N5/04 , G06F16/3329 , G06F16/334
Abstract: 本申请提供一种文本答案的推理方法、装置及存储介质,所述方法包括:输入第一文本到语言模型,获取所述语言模型输出的多个候选答案;所述第一文本为待识别的文本;以每一候选答案作为条件确定每一候选答案对应的验证分数;所述验证分数表示候选答案的置信度;输出最高验证分数对应的候选答案作为所述第一文本的推理答案。本申请提供的文本答案的推理方法、装置及存储介质,将语言模型生成的答案替换原始条件后,再次输入到语言模型中,从而验证答案。通过这种自我验证的方法,提高了语言模型输出结果的鲁棒性和准确性。
-
公开(公告)号:CN119398181A
公开(公告)日:2025-02-07
申请号:CN202510008081.8
申请日:2025-01-03
Applicant: 中国科学院自动化研究所
IPC: G06N5/04
Abstract: 本发明提供一种针对错误前提的幻觉缓解方法和装置,应用于自然语言处理技术领域。该方法包括:获取第一输入文本和第二输入文本,所述第二输入文本为将所述第一输入文本中的错误前提替换为占位符的文本;分别确定大语言模型处理所述第一输入文本时每个注意力头的第一激活值,以及处理所述第二输入文本时每个注意力头的第二激活值;按照目标处理方式确定每个注意力头对大语言模型输出幻觉文本的影响力;基于所述影响力确定目标注意力头,并对所述目标注意力头进行削弱处理。
-
公开(公告)号:CN116992004B
公开(公告)日:2024-12-06
申请号:CN202311069119.X
申请日:2023-08-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/36 , G06N3/08
Abstract: 本发明提供一种基于统一查询编码器的知识图谱复杂问答方法及装置,其中方法包括:获取查询图的全局特征表示;全局特征表示用于反映查询图的头实体和头实体之间的关系类型的特征信息;将全局特征表示和实体表示输入至神经链接预测器中,由神经链接预测器得到并输出预测尾实体;神经链接预测器是基于知识图谱补全任务训练得到的;实体表示是基于神经链接预测器预先确定的。本发明提供的方法及装置,通过端到端的方法将复杂查询编码为与简单查询相同的形式,从而能够充分利用神经链接预测器,该查询过程可以视为端到端地从神经链接预测器中直接检索答案,因此能够避免逐步计算所有中间节点所产生的错误累积,提高知识问答的成功率以及准确度。
-
公开(公告)号:CN119026593A
公开(公告)日:2024-11-26
申请号:CN202411109907.1
申请日:2024-08-13
Applicant: 中国科学院自动化研究所 , 北京百川智能科技有限公司 , 北京英博数科科技有限公司
IPC: G06F40/226 , G06F16/332 , G06F16/31 , G06F40/30 , G06F40/186 , G06N20/00
Abstract: 本申请公开了一种用于大模型的评测方法及装置。所述评测方法包括:获取知识参考数据集,所述知识参考数据集包括常识知识参考数据集、世界知识参考数据集和语言知识参考数据集中的至少一者;基于所述知识参考数据集,构建未被包括在针对大型语言模型的训练语料库中的评测问题以及与评测问题对应的评测答案;针对每个评测问题的知识关系,构建多种问题模板,从而各个评测问题及其对应的评测答案以及多种问题模板构成用于大型语言模型的评测数据库;根据预设评测标准,利用所述评测数据库对待评测大型语言模型进行评测,得到所述待评测大型语言模型的评测结果。
-
公开(公告)号:CN118982003A
公开(公告)日:2024-11-19
申请号:CN202410994182.2
申请日:2024-07-23
Applicant: 中国科学院自动化研究所
Abstract: 提供一种文本数据处理方法和文本数据处理装置。所述文本数据处理方法包括:获取文本数据,并将文本数据输入到通过将语言模型与编译型神经网络融合而生成的文本数据处理模型,其中,语言模型被预先训练,并且编译型神经网络在没有被预先训练的情况下根据要执行的规则密集型任务被分配相应的神经网络权重;基于文本数据处理模型中的语言模型从文本数据确定与文本数据对应的文本数据处理任务;以及响应于文本数据处理任务指示规则密集型任务,基于文本数据处理模型中的编译型神经网络执行规则密集型任务。
-
-
-
-
-
-
-
-
-