-
公开(公告)号:CN1570921A
公开(公告)日:2005-01-26
申请号:CN03147549.3
申请日:2003-07-22
Applicant: 中国科学院自动化研究所
IPC: G06F17/27
Abstract: 一种基于统计模型的口语解析方法,包括步骤:语义表示定义;进行统计解析模型参数的训练;解析句子。本发明的特点是具有较高的鲁棒性,能够较好的处理口语中存在的非规范语言现象。另外,采用统计解析方法,能够快速的实现解析系统在不同领域间的移植,这两个特点,使得这一技术能够很快的在不同领域实现产品化。
-
公开(公告)号:CN119996762A
公开(公告)日:2025-05-13
申请号:CN202510043829.8
申请日:2025-01-10
Applicant: 中国科学院自动化研究所
IPC: H04N21/435 , H04N21/44 , H04N21/439 , G10L25/63 , G10L25/57 , G06F40/58
Abstract: 本发明提供一种融合多模态细粒度信息的视频机器翻译方法及装置。该融合多模态细粒度信息的视频机器翻译方法应包括:对视频中的画面进行信息抽取,得到所述画面中的细粒度视觉信息,并对所述视频中的音频进行信息抽取,得到所述音频中的细粒度音频信息;将所述细粒度视觉信息与所述细粒度音频信息融合到源文本中,得到融合文本;所述源文本为所述视频中的待翻译字幕;将所述融合文本输入到机器翻译模型中得到目标翻译文本。本发明提供的融合多模态细粒度信息的视频机器翻译方法及装置,通过将视频的细粒度视觉信息和细粒度音频信息融合进源文本中,基于融合文本进行机器翻译,提高了翻译的准确性。
-
公开(公告)号:CN117149987B
公开(公告)日:2024-02-13
申请号:CN202311426764.2
申请日:2023-10-31
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F18/22 , G06F18/214 , G06F40/35 , G06F40/211 , G06F40/242
Abstract: 本发明属于自然语言处理技术领域,提供了一种多语言对话状态追踪模型的训练方法及装置,该多语言对话状态追踪模型的训练方法包括:获取源语言数据;基于多语词典对多个对话上下文信息进行语码转换,得到语码转换对话上下文信息;以语码转换对话上下文信息为训练样本,以第一函数为训练损失函数,对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型。本发明所述方法通过设计多种微调任务,能够构建有效的多语言生成式对话状态追踪模型,使得模型具备对不同语言对话上下文的理解能力,提高了多语言对话状态追踪性能。
-
公开(公告)号:CN117034965A
公开(公告)日:2023-11-10
申请号:CN202310996132.3
申请日:2023-08-08
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/289 , G06V30/41 , G06N3/045
Abstract: 本发明提供一种基于视觉语言预训练的图像文本翻译方法及装置,方法包括:确定源语言图像;将源语言图像输入至图像文本翻译模型,得到图像文本翻译模型输出的源语言图像对应的目标语言文本;其中,图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异,以及样本预测目标语言文本与样本目标语言标签之间的差异确定。本发明的图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时,样本图像特征向量能够补充提供相应的视觉信息,对文本识别错误进行校正,以增强图像文本翻译,准确得到样本预测目标语言文本,进而提高图像文本翻译模型的图像文本翻译精度。
-
公开(公告)号:CN115081430A
公开(公告)日:2022-09-20
申请号:CN202210576165.8
申请日:2022-05-24
Applicant: 中国科学院自动化研究所
IPC: G06F40/232 , G06N20/00
Abstract: 本发明提供一种中文拼写检错纠错方法、装置、电子设备及存储介质,属于自然语言处理技术领域,该方法包括:将汉字输入序列输入至对比学习模型,得到对比学习模型输出的汉字输入序列中各个汉字对应的相似字向量;基于相似字向量,检测汉字输入序列中的错误汉字,获得错误汉字的位置和类型;对汉字输入序列进行编码,得到汉字输入序列对应的编码向量;基于相似字向量、错误汉字的位置和类型,以及编码向量,纠正汉字输入序列中的错误汉字,获得最优纠正文本。通过各个汉字的字音相似关系和字形相似关系,实现了汉字输入序列中错误汉字的检错和纠错,提升了复杂汉字相似错误的检测与纠正的准确率,提升了中文拼写纠错的纠正质量。
-
公开(公告)号:CN113919367A
公开(公告)日:2022-01-11
申请号:CN202111057775.9
申请日:2021-09-09
Applicant: 中国科学院自动化研究所
IPC: G06F40/35 , G06F16/335 , G06F16/33
Abstract: 本发明提供一种摘要获取方法、装置、设备、介质及产品,方法包括:获取对话的待处理对话文本;基于所述待处理对话文本,确定至少两个用户角色;在所述待处理对话文本中,添加所述用户角色对应的角色标注,得到目标对话文本;提取所述目标对话文本对应的主题信息;基于所述主题信息和所述目标对话文本,得到至少一个问答对;基于所述至少一个问答对,得到目标摘要。本发明用以解决现有技术中无法精确提取对话文本的摘要信息的缺陷。
-
公开(公告)号:CN109597886B
公开(公告)日:2021-07-06
申请号:CN201811238086.6
申请日:2018-10-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/34
Abstract: 本发明属于自然语言领域,具体提供了一种抽取生成混合型摘要生成方法,旨在解决现有的抽取式自动摘要方法和生成式自动摘要方法存在的问题。本发明提供了一种抽取生成混合型摘要生成方法,包括识别文档中的实体和数字并且利用预设的标签替换文档中的实体和数字;利用抽取式文档摘要抽取方法从进行标签替换后的文档中抽取多个第一关键句;分别对多个第一关键句进行压缩得到每个第一关键句对应的第二关键句;通过第一关键句的长度与预设的长度阈值的比较结果,可以选择性地将第一关键句或者第二关键句作为第一待合成关键句;根据所有第一待合成关键句生成文档的摘要。本发明提供的方法既可以生成符合文档语义表达的摘要,还可以保证可读性。
-
公开(公告)号:CN112131372B
公开(公告)日:2021-02-02
申请号:CN202011337142.9
申请日:2020-11-25
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F40/295 , G16H80/00 , G06N3/08
Abstract: 本发明属于人机对话领域,具体涉及一种基于知识驱动的对话策略网络优化方法、系统、装置,旨在解决医疗领域现有对话系统优化过程中训练数据利用率低的问题。本发明方法应用于对话系统的训练,包括:基于选定领域对话样本的输入特征,利用基于编码器的协同过滤的方法,对自编码器进行优化;所述自编码器中的编码器用于将输入特征映射到低维空间;基于包含额外奖励值的损失函数,对对话策略网络进行优化;所述额外奖励值与行为动作空间中状态‑动作对出现的频率呈反比例关系。本发明可在有限的训练数据的情况下充分地探索状态动作空间,提高数据利用率。
-
公开(公告)号:CN109508400B
公开(公告)日:2020-08-28
申请号:CN201811172666.X
申请日:2018-10-09
Applicant: 中国科学院自动化研究所
IPC: G06F16/583 , G06F16/36 , G06K9/62 , G06N3/04
Abstract: 本发明属于自然语言技术领域,具体提供了一种图文摘要生成方法,旨在解决现有技术图片和文本不对齐导致摘要信息不准确的问题。为此目的,本发明提供了一种图文摘要生成方法,包括获取多媒体信息中文本和图片对应的特征向量;根据文本和图片对应的特征向量获取多模态信息向量;基于预先构建的摘要生成模型并根据多模态信息向量获取多媒体信息的文本摘要;根据图片对应的特征向量获取图片对应的覆盖度向量;基于摘要生成模型并根据图片对应的覆盖度向量获取多媒体信息的图片摘要;将文本摘要和图片摘要结合作为多媒体信息的图文摘要。基于上述步骤,本发明提供的方法可以得到更准确表现多媒体信息内容的图文摘要。
-
公开(公告)号:CN109918646B
公开(公告)日:2020-08-11
申请号:CN201910089352.1
申请日:2019-01-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种篇章因果关系判断方法、系统、装置,旨在为了解决机器人交互中的篇章因果关系判断问题。本发明方法包括:基于语言激活模型,对输入的目标文本对中每条目标文本分别获取匹配度最高的注册事件;基于每条目标文本对应的注册事件,依据所存储的各场景中注册事件序列,计算两个注册事件的相关性;基于所述目标文本对、两个注册事件的相关性,计算所述目标文本对的因果关系。本发明可以对输入的目标文本对进行因果关系的准确判断。
-
-
-
-
-
-
-
-
-