-
公开(公告)号:CN114153953A
公开(公告)日:2022-03-08
申请号:CN202111189305.8
申请日:2021-10-12
Applicant: 北京交通大学
IPC: G06F16/332 , G06F40/211 , G06F40/35
Abstract: 本申请公开了一种对话回复的生成方法、装置、设备及存储介质,属于计算机技术领域,该方法包括:获取输入对话序列;根据输入对话序列获取上下文语义信息、知识信息和句法信息,其中,知识信息包括与输入对话序列在内容上关联的知识向量,句法信息包括多样的句法向量;根据上下文语义信息、知识信息和句法信息,生成输入对话序列的对话回复。该方法生成的对话回复兼顾了知识准确性与回复多样性之间的平衡,提升了生成的对话回复的质量。
-
公开(公告)号:CN104268132B
公开(公告)日:2017-04-26
申请号:CN201410461325.X
申请日:2014-09-11
Applicant: 北京交通大学
Abstract: 本发明公开了一种机器翻译方法及系统,属于自然语言处理研究领域。所述方法包括:获取源语言测试句子;分别得到词法分析结果和句法分析结果;利用句法分析结果,抽取谓词论元结构;根据目标语言的句法特点,将谓词论元结构进行结构转换;利用转换后的谓词论元结构和训练得到的翻译规则,对源语言测试句子进行翻译。通过利用句子结构信息和谓词论元结构的语义信息,使用源语言端的句法分析结果,通过谓词论元结构转换处理,实现基于谓词论元结构转换的统计机器翻译;解决了现有技术中翻译规则的冗余规则数量非常大,从而致使机器翻译性能非常差的问题;达到了可有效地改善句子结构的全局调序性能,减少抽取翻译规则数量,提高翻译质量的效果。
-
公开(公告)号:CN104699662A
公开(公告)日:2015-06-10
申请号:CN201510120020.7
申请日:2015-03-18
Applicant: 北京交通大学
Abstract: 本发明公开了一种识别整体符号串的方法和装置,属于自然语言处理研究领域。所述方法包括:提取文本信息中包含的符号串;从所述符号串中获取具有对称性的符号对;根据所述获取的符号对计算所述符号串的对称度;如果所述符号串的对称度满足预设条件,则确定所述符号串为整体符号串。所述装置包括:提取模块,获取模块,计算模块和确定模块。由于本发明能够计算符号串的对称度,根据符号串的对称度确定符号串是否是整体符号串,不需要依赖表情符号字典,即使不在表情符号字典内的符号串,也能够确定出该符号串是否是整体符号串,从而解决了表情符号等符号串信息识别精度低下、容易造成文本信息缺失等问题,达到了提高文本信息处理系统的性能的效果。
-
公开(公告)号:CN104268133A
公开(公告)日:2015-01-07
申请号:CN201410461334.9
申请日:2014-09-11
Applicant: 北京交通大学
Abstract: 本发明公开了一种机器翻译方法及系统,属于自然语言处理研究领域。所述方法包括:训练过程和翻译过程,通过抽取源语言句子的谓词论元结构,结合目标语言的词法分析结果的词串,形成树到串双语对齐语料,再利用谓词论元结构信息指导树到串机器翻译规则的抽取和解码过程,从而直接将谓词论元结构建模到树到串机器翻译中。本发明通过将谓词论元结构建模到树到串机器翻译中,解决了现有技术中被抽取的统计翻译规则的冗余规则数量非常大的问题,达到了降低冗余规则数量,改善语义结构和语义相关性,提高长距离调序性能,提高翻译质量的效果。
-
公开(公告)号:CN119599032A
公开(公告)日:2025-03-11
申请号:CN202311175504.2
申请日:2023-09-11
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F40/58 , G06F18/214 , G06F40/126
Abstract: 本申请实施例公开了一种模型训练方法、装置、电子设备、介质和程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;本申请实施例获取训练样本集,训练样本集包括初始场景对应的初始样本文本、以及新增场景对应的新增样本文本;通过教师模型对初始样本文本进行翻译,得到教师翻译结果;通过初始学生模型对初始样本文本以及新增样本文本进行翻译,得到学生翻译结果;结合教师翻译结果以及学生翻译结果,计算得到损失值;基于损失值,更新初始学生模型的模型参数,得到训练后的学生模型,以便将训练后的学生模型用于翻译初始场景和新增场景对应的待翻译文本。由此,本方案可以在提升模型训练效率的同时增强模型的多场景适应能力。
-
公开(公告)号:CN118734869A
公开(公告)日:2024-10-01
申请号:CN202310368793.1
申请日:2023-03-28
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F40/58 , G06F40/126
Abstract: 本申请涉及人工智能,具体涉及一种文本翻译方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取初始文本,并确定对初始文本进行翻译的至少一种翻译任务类型;针对至少一种翻译任务类型,分别在初始文本中添加标记标签,获得至少一个标记文本;基于至少一个标记文本所包括的翻译任务标签,确定与至少一种标记文本适配的至少一种文本编码方式;分别按照适配的文本编码方式进行语义编码处理,得到至少一种翻译任务类型一一对应的编码向量序列;对至少一种翻译任务类型一一对应的编码向量序列分别进行语义解码处理,得到至少一种翻译任务类型一一对应的翻译译文。采用本方法能够提升文本的翻译效率。
-
公开(公告)号:CN113836946A
公开(公告)日:2021-12-24
申请号:CN202111069233.3
申请日:2021-09-13
Applicant: 北京交通大学 , 东芝(中国)有限公司
Abstract: 本申请公开了一种训练评分模型的方法、装置、终端及存储介质,属于互联网技术领域。该方法包括:获取样本原文、第一样本译文以及至少一个第二样本译文,其中,第一样本译文的语义和样本原文对应的语义相同,第二样本译文的语义与第一样本译文的语义不同;将样本原文和第一样本译文输入评分模型,得到第一样本译文对应的第一样本分数,将样本原文分别和每个第二样本译文输入评分模型,得到每个第二样本译文对应的第二样本分数;基于第一样本分数以及至少一个第二样本分数,确定损失信息;基于损失信息,对评分模型进行调整。可见,本申请实施例解决了在没有样本译文对应的基准分数下,无法对评分模型进行训练的问题。
-
公开(公告)号:CN113821616A
公开(公告)日:2021-12-21
申请号:CN202110910430.7
申请日:2021-08-09
Applicant: 北京交通大学
IPC: G06F16/332 , G06F16/33
Abstract: 本申请公开了一种领域自适应的槽位填充方法、装置、设备及存储介质,属于自然语言处理领域。该方法包括:接收用户输入语句;基于目标槽位的槽位元信息,为所述用户输入语句构建与所述目标槽位对应的问句;将所述问句和所述用户输入语句拼接为用户输入句对;调用机器阅读理解模型对所述用户输入句对进行预测,得到所述问句的答案位置信息;根据所述答案位置信息,将所述问句的答案作为槽位实体,填充在所述目标槽位中。本申请将槽位填充问题转化为机器阅读理解问题,利用通用机器阅读理解模型对不同领域的语料都具有较好理解能力的特性,可以实现跨领域的槽位填充能力。
-
公开(公告)号:CN111368079A
公开(公告)日:2020-07-03
申请号:CN202010129553.2
申请日:2020-02-28
Applicant: 腾讯科技(深圳)有限公司 , 北京交通大学
IPC: G06F16/35 , G06F40/289
Abstract: 本申请公开了一种应用于人工智能领域的文本分类方法,包括:获取待分类文本;通过编码器获取待分类文本中每个词语所对应的隐藏状态;根据每个词语所对应的隐藏状态,获取每个词语所对应的深度值;根据每个词语所对应的深度值以及每个词语所对应的词嵌入,生成每个词语所对应的词特征向量;基于每个词语所对应的词特征向量,通过文本分类模型获取待分类文本所对应的文本编码结果;通过文本分类模型获取待分类文本的分类结果。本申请还公开了一种模型训练的方法。本申请可以自适应地获取文本中每个词语所对应的深度值,使得文本分类模型根据不同的深度值对相应的词语进行编码,从而能够对文本中的词语进行执行充分计算。
-
公开(公告)号:CN104699675B
公开(公告)日:2018-01-30
申请号:CN201510119654.0
申请日:2015-03-18
Applicant: 北京交通大学
IPC: G06F17/28
Abstract: 本发明公开了一种翻译信息的方法和装置,属于自然语言处理研究领域。方法包括:获取源语言格式的第一信息中包含的表情符号;在第一信息中将该表情符号置换为用于标识该表情符号的第一标识得到第二信息;将第二信息翻译为目标语言格式的第三信息;从第三信息中提取与第一标识相对应的第二标识;在第三信息中将第二标识置换为第二标识对应的表情符号得到第四信息。装置包括:第一获取模块,第一置换模块,翻译模块,第一提取模块和第二置换模块。实现了不受表情符号库及翻译词典的限制,对表情符号的高精度翻译,降低构筑包含表情符号的翻译词典、翻译规则、翻译模型和语言模型等成本,解决表情符号词典内未登录的表情符号的识别、翻译和生成问题。
-
-
-
-
-
-
-
-
-