-
公开(公告)号:CN1928854A
公开(公告)日:2007-03-14
申请号:CN200510086370.2
申请日:2005-09-08
Applicant: 中国科学院自动化研究所
IPC: G06F17/27
Abstract: 本发明涉及自然语言处理领域,特别是一种新的面向汉语长句的层次化句法分析方法及装置。该方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句和短语之间的句法关系以及子句和短语内部的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的常用一遍句法分析相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。
-
公开(公告)号:CN1719436A
公开(公告)日:2006-01-11
申请号:CN200410062789.X
申请日:2004-07-09
Applicant: 中国科学院自动化研究所
IPC: G06F17/21
Abstract: 本发明涉及计算机科学与技术领域,特别是一种新的面向文本分类的特征向量权重的方法。文本分类方法中,TF*IDF和TF*IWF被广泛的用来计算特征向量的权重。但是这两种方法都过分的倚重词频,同时又无法表示出向量元素在类别之间分布的不均衡性。这里,我们提出了一种新的权重方法(TF*IWF*DBV)。在TF*IWF方法中引入了DBV和TF的n次方根弥补了方法的不足。实验证明新方法的采用可以将F1测度提高11.8个百分点,充分证明了它的有效性。
-
公开(公告)号:CN118942488A
公开(公告)日:2024-11-12
申请号:CN202411169109.8
申请日:2024-08-23
Applicant: 中国科学院自动化研究所
IPC: G10L25/63 , G10L25/03 , G10L25/30 , G06F18/25 , G06F16/332
Abstract: 本发明提供一种多模态情绪识别方法、装置、设备、存储介质及程序产品,应用于自然语言处理技术领域。该方法包括:获取语音数据和对应的文本数据;分别对所述语音数据和所述文本数据进行编码处理,得到每个模态数据的中间特征表示;确定所述中间特征表示中的情感属性信息,并根据所述情感属性信息确定空间模态表征;根据向量的置信度分数过滤所述空间模态表征中低置信度的模态表征,得到目标表征向量;对所述目标表征向量进行融合处理,并基于融合结果进行情绪识别。
-
公开(公告)号:CN112232084B
公开(公告)日:2024-11-12
申请号:CN202011102971.9
申请日:2020-10-15
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/126 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种神经语义编解码分析方法及系统,所述神经语义编解码分析方法包括:训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型;通过探针任务量化解析文本表示模型描述各类语言特征的能力,得到探针任务表现;根据探针任务表现,通过消融任务以调整文本表示模型;在调整后的文本表示模型生成的句子向量的基础上来执行分析任务。本发明通过训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型,通过探针任务量化解析文本表示模型描述各类语言特征的能力;进一步通过消融任务确认文本表示模型的鲁棒性,并以此调整文本表示模型,从而可提高在执行分析任务时的准确率。
-
公开(公告)号:CN117113091B
公开(公告)日:2024-02-13
申请号:CN202311380008.0
申请日:2023-10-24
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06F18/28 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种语音翻译模型训练方法、装置、电子设备及存储介质,应用于自然语言处理技术领域。该方法包括:获取第一语音数据、第一文本数据、第一语音识别数据、第一文本翻译数据以及第一语音翻译数据;分别对所述第一语音数据、所述第一文本数据以及所述第一语音识别数据进行掩码操作,生成多个掩码序列;基于所述多个掩码序列训练语音翻译模型的编码器;在所述编码器的第一损失函数处于收敛状态的情况下,冻结所述编码器的参数,并基于所述第一文本翻译数据训练所述语音翻译模型的解码器;基于所述第一语音翻译数据对所述语音翻译模型进行训练。
-
公开(公告)号:CN117034968B
公开(公告)日:2024-02-02
申请号:CN202311304326.9
申请日:2023-10-10
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种神经机器翻译方法、装置、电子设备及介质,属于机器翻译技术领域。该方法应用于机器翻译模型,机器翻译模型包括编码器和解码器,该方法包括:识别待翻译的源语言句子对应的目标翻译规则模板,所述目标翻译规则模板包括第一源端模板、第一目标端模板和第一源端变量片段;基于第一约束提示序列和待翻译的源语言句子,得到编码器的输入;基于第一约束提示序列和解码器的初始输入序列,得到解码器的输入;所述第一约束提示序列为依次拼接所述第一源端模板、所述第一源端变量片段和所述第一目标端模板后得到的;基于编码器的输入和解码器的输入,得到机器翻译模型输出的翻译结果。本发明提供的神经机器翻译方法,可以提高翻译准确性。
-
公开(公告)号:CN117113091A
公开(公告)日:2023-11-24
申请号:CN202311380008.0
申请日:2023-10-24
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06F18/28 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种语音翻译模型训练方法、装置、电子设备及存储介质,应用于自然语言处理技术领域。该方法包括:获取第一语音数据、第一文本数据、第一语音识别数据、第一文本翻译数据以及第一语音翻译数据;分别对所述第一语音数据、所述第一文本数据以及所述第一语音识别数据进行掩码操作,生成多个掩码序列;基于所述多个掩码序列训练语音翻译模型的编码器;在所述编码器的第一损失函数处于收敛状态的情况下,冻结所述编码器的参数,并基于所述第一文本翻译数据训练所述语音翻译模型的解码器;基于所述第一语音翻译数据对所述语音翻译模型进行训练。
-
公开(公告)号:CN117034968A
公开(公告)日:2023-11-10
申请号:CN202311304326.9
申请日:2023-10-10
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种神经机器翻译方法、装置、电子设备及介质,属于机器翻译技术领域。该方法应用于机器翻译模型,机器翻译模型包括编码器和解码器,该方法包括:识别待翻译的源语言句子对应的目标翻译规则模板,所述目标翻译规则模板包括第一源端模板、第一目标端模板和第一源端变量片段;基于第一约束提示序列和待翻译的源语言句子,得到编码器的输入;基于第一约束提示序列和解码器的初始输入序列,得到解码器的输入;所述第一约束提示序列为依次拼接所述第一源端模板、所述第一源端变量片段和所述第一目标端模板后得到的;基于编码器的输入和解码器的输入,得到机器翻译模型输出的翻译结果。本发明提供的神经机器翻译方法,可以提高翻译准确性。
-
公开(公告)号:CN110413752B
公开(公告)日:2021-11-16
申请号:CN201910661448.0
申请日:2019-07-22
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/35 , G06K9/62
Abstract: 本发明属于人机对话技术领域,具体涉及一种基于对话逻辑的多轮口语理解方法、系统、装置,旨在解决现有多轮口语理解方法对历史对话数据利用率低的问题。本系统方法包括获取当前对话数据、历史对话数据;通过双向门控循环神经网络,分别将当前对话数据和历史对话数据编码成输入向量和记忆向量;根据所述输入向量、所述记忆向量,通过基于注意力机制的记忆检索方法生成语境知识向量;基于所述语境知识向量和所述当前对话数据,通过多轮口语理解模型获取当前对话数据的意图分类信息和语义槽填充信息。本发明可以在多轮口语理解中对历史对话数据高效的利用,提升语言理解在多轮场景下的性能。
-
公开(公告)号:CN109241993B
公开(公告)日:2021-10-26
申请号:CN201810832903.4
申请日:2018-07-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于情感分类技术领域,具体提供了一种融合用户和整体标签信息的评价对象情感分类方法及装置。旨在解决现有技术不考虑不同用户的差异性和忽略整体评价信息导致对评价对象情感极性评价不准确的问题。本发明提供了一种融合用户和整体评价信息的评价对象情感分类方法,包括基于预先获取的评论信息以及相应的用户信息和整体评价信息得到评论向量;基于预先构建的评价对象情感分类模型并根据预设的评价对象,对评论向量进行情感预测,得到每个评价对象对应的情感极性。本发明的方法全面考虑了用户信息和整体评价信息对评价对象情感分类的影响,相对于其他方法提升了预测的准确率。本发明的装置同样具有上述有益效果。
-
-
-
-
-
-
-
-
-