一种基于依存连贯性约束的双语词语自动对齐方法

    公开(公告)号:CN102708098A

    公开(公告)日:2012-10-03

    申请号:CN201210175015.2

    申请日:2012-05-30

    Inventor: 宗成庆 王志国

    Abstract: 本发明公开了一种基于依存连贯性约束的双语词对齐方法。该方法首先对训练句子对进行依存句法分析。在训练阶段,利用训练句子对和依存句法树,训练基于源语言端和目标语言端依存连贯性约束的词对齐模型。在测试阶段,利用基于源语言端和目标语言端依存连贯性约束的词对齐模型为测试句子对产生满足源语言端和目标语言端依存连贯性约束的词对齐结果,并将这两个词对齐结果进行合并,产生一个兼顾准确率和召回率的满足双语依存连贯性约束的词对齐结果。本发明相对于现有技术得到的词对齐错误率较低。

    一种汉英词语自动对齐方法

    公开(公告)号:CN101482861A

    公开(公告)日:2009-07-15

    申请号:CN200810055783.8

    申请日:2008-01-09

    Abstract: 本发明涉及一种汉英词语自动对齐方法,首先对原始汉、英双语句提取划分语块的特征信息划分,生成多层不同粒度的语块划分锚点信息,对双语词对之间进行局部定位,生成词对齐文件。本发明解决了传统方法规划路径多、复杂度高,难生成好的对齐结果,影响对齐效率的问题,本发明根据相关特征将汉英双语句子分割,完成不同粒度下的单元对齐,在各种粒度下将词对齐操作限制在相应的单元范围内。实验表明,该方法获得的词语对齐比GIZA++工具包词对齐错误率下降了28%,在该词对齐基础上的翻译结果BLEU打分比原始词对齐提高了20%,而且克服了GIZA++不能对超过100个单词的长句子进行很好的词语对齐的弊端。

    口语会话中句子边界识别方法

    公开(公告)号:CN1570923A

    公开(公告)日:2005-01-26

    申请号:CN03147553.1

    申请日:2003-07-22

    Inventor: 宗成庆 刘丁

    Abstract: 一种基于双向N-gram模型和Maximum Entrpy模型的句子边界切分方法包括训练和切分两个过程,所述的训练过程包括步骤:获得口语语料库;对口语语料库进行替代等预处理;统计n-gram模型的n元同现频率;估计n元正向依存概率和n元逆向依存概率;获得n元正、逆向依存概率数据库;设定Maximum Entropy模型的特征函数;循环计算特征函数参数;获得特征函数参数数据库。基于双向n-gram模型和Maximum Entropy模型的句子边界切分方法属于纯统计方法,其实施只需要一个后台口语语料库,语料库不需要进行任何深层地切分或者标注等处理。该方法不受语言的限制,通过更换训练语料库,可以运用于任何一种语言的句子边界切分。

    多语言翻译方法、装置、电子设备及存储介质

    公开(公告)号:CN114139556B

    公开(公告)日:2025-03-21

    申请号:CN202111271484.X

    申请日:2021-10-29

    Abstract: 本发明提供一种多语言翻译方法、装置、电子设备及存储介质,方法包括:获取训练数据和源语言的文本;其中,训练数据包括源语言到多种目标语言的双语平行句对和多语言平行句对;对源语言的文本进行编码,得到源语言的文本对应的特征向量;其中,特征向量与目标语言无关;基于特征向量和多种目标语言已生成的译文,确定多种目标语言的当前词的最终表示;基于语言独立的柱搜索算法及多种目标语言的当前词的最终表示,对多种目标语言的已生成最优候选译文进行扩展,得到多种目标语言的目标译文。本发明提供的方法,能够利用多种目标语言之间的互补信息,生成多种目标语言的目标译文,同时提升多种目标语言的翻译质量。

    表格重建方法、装置、电子设备及存储介质

    公开(公告)号:CN117973337B

    公开(公告)日:2024-10-11

    申请号:CN202410102694.3

    申请日:2024-01-24

    Abstract: 本发明提供一种表格重建方法、装置、电子设备及存储介质,应用于图像处理技术领域。该方法包括:获取表格图像;提取所述表格图像的图像特征,并根据所述图像特征确定所述表格图像的单元格类别、单元格坐标以及单元格像素掩码;根据所述单元格坐标和所述单元格像素掩码进行网格线重建得到第一表格,根据所述单元格类别对所述第一表格进行单元格合并得到第二表格;其中,所述单元格类别包括空白单元格、基础单元格以及合并单元格。

    可控文本生成方法、装置、电子设备及存储介质

    公开(公告)号:CN117764071A

    公开(公告)日:2024-03-26

    申请号:CN202311521798.X

    申请日:2023-11-15

    Abstract: 本发明提供一种可控文本生成方法、装置、电子设备及存储介质,应用于自然语言处理技术领域。该方法包括:获取输入文本;确定与所述输入文本关联的至少一个知识文本;分别对所述至少一个知识文本中的每个知识文本指代消解处理,得到知识修改文本,所述指代消解处理用于将所述知识文本中的实体词更新为事实性更强的实体词;基于所述输入文本和所述知识修改文本生成可控文本。

    多语言对话状态追踪模型的训练方法及装置

    公开(公告)号:CN117149987A

    公开(公告)日:2023-12-01

    申请号:CN202311426764.2

    申请日:2023-10-31

    Abstract: 本发明属于自然语言处理技术领域,提供了一种多语言对话状态追踪模型的训练方法及装置,该多语言对话状态追踪模型的训练方法包括:获取源语言数据;基于多语词典对多个对话上下文信息进行语码转换,得到语码转换对话上下文信息;以语码转换对话上下文信息为训练样本,以第一函数为训练损失函数,对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型。本发明所述方法通过设计多种微调任务,能够构建有效的多语言生成式对话状态追踪模型,使得模型具备对不同语言对话上下文的理解能力,提高了多语言对话状态追踪性能。

    融合文本语义特征的语音翻译方法、系统、设备

    公开(公告)号:CN112800782B

    公开(公告)日:2023-10-03

    申请号:CN202110127939.4

    申请日:2021-01-29

    Abstract: 本发明属于机器翻译领域,具体涉及一种融合文本语义特征的语音翻译方法、系统、设备,旨在解决现有语音翻译方法难以融合不同模态之间的信息,无法充分利用语音识别和机器翻译领域的数据,导致翻译性能较差的问题。本发明方法包括获取待翻译的源语言语音数据;提取源语言语音数据对应的语音特征序列;并获取各语音特征对应的声学表征;将声学表征的隐向量映射到源语言词表,并通过softmax函数得到语音特征序列每个时刻被识别为源语言词表中的词语的概率;对声学表征进行过滤处理,并通过第二编码器得到过滤后的声学特征对应的语义表征;基于语义表征,通过解码器得到源语言语音数据对应的目标语言翻译文本。本发明提高了语音翻译的性能。

    基于弹性突触门的跨受试者神经解码系统、方法、装置

    公开(公告)号:CN111445542B

    公开(公告)日:2022-07-29

    申请号:CN202010246799.8

    申请日:2020-03-31

    Abstract: 本发明属于脑机接口技术领域,具体涉及一种基于弹性突触门的跨受试者神经解码系统、方法、装置,旨在解决在特定受试者上独立训练的神经解码在跨受试者解码时准确率较低的问题。本系统包括:预处理模块,配置为获取待解码的功能性核磁共振图像并进行预处理,得到预处理图像;解码模块,配置为通过基于弹性突触门的解码模型对所述预处理图像进行解码,得到在采集功能性核磁共振图像时受试者受到的刺激的向量表示;其中,基于弹性突触门的解码模型基于多层前向神经网络构建。本发明提高了基于功能性核磁共振成像的神经解码在跨受试者解码时的准确率。

Patent Agency Ranking