一种基于罗马化维吾尔语的神经机器翻译系统

    公开(公告)号:CN112507734B

    公开(公告)日:2024-03-19

    申请号:CN202011298243.X

    申请日:2020-11-19

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于罗马化维吾尔语的神经机器翻译系统,在构建翻译系统前,对汉维双,为后续例如词对齐处理提供分好词且格式恰当的双语数据;本系统的预处理根据语料不同的特性,对语料进行不同的预处理过程,即对中文语料使用Jieba分词,并使用BPE编码继续切割单词,而对维吾尔语语料首先进行“词根+词缀”形态分词,接着对分词后的维吾尔语进行罗马化处理,最后使用BPE编码进行处理;使用Tansformer翻译模型进行翻译模型训练,得到最终翻译模型;对于翻译过程,首先同样对维吾尔语进行预处理,即“词根+词缀”分词和罗马化处理,接着使用训练好的模型翻译处理好的语料,最终将得到翻译好的汉语。

    一种模型训练的方法、代码识别的方法及相应装置

    公开(公告)号:CN116187410A

    公开(公告)日:2023-05-30

    申请号:CN202111425345.8

    申请日:2021-11-26

    Abstract: 本申请公开了一种模型训练的方法及代码识别的方法,可以使用项目代码通过方法代码得到的路径‑上下文来训练关键性模型,然后使用该训练好的关键性模型识别待审查的项目代码中方法代码的关键性信息或者多个方法代码的关键性排序,从而辅助代码审查人员进行代码审查。本申请提供的方案,因为通过方法代码得到的路径‑上下文的粒度小,所以训练得到的关键性模型的准确度高,通过该关键性模型可以快速的输出多个方法代码的排序,从而提高了代码审查的速度。

    一种基于属性图聚类的复合代码提交分解方法

    公开(公告)号:CN116521214A

    公开(公告)日:2023-08-01

    申请号:CN202310464002.5

    申请日:2023-04-26

    Applicant: 南京大学

    Inventor: 姚远 徐锋 陈思宇

    Abstract: 本发明公开了一种基于属性图聚类的复合代码提交分解方法。本方法首先以复合代码提交中的代码语句为节点、代码间依赖关系为边构建提交图,然后使用高阶图卷积神经网络模型获取各个节点的属性特征,最后基于近邻传播聚类对节点进行聚类,完成分解。本方法相比于现有方法,结合了代码语句的文本内容和代码语句之间的依赖关系,实现了复合代码提交自动化分解。在已有的数据集上的实验结果表明,本方法较同类工作在复合代码提交分解问题上具有更好的效果。

    一种基于罗马化维吾尔语的神经机器翻译系统

    公开(公告)号:CN112507734A

    公开(公告)日:2021-03-16

    申请号:CN202011298243.X

    申请日:2020-11-19

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于罗马化维吾尔语的神经机器翻译系统,在构建翻译系统前,对汉维双,为后续例如词对齐处理提供分好词且格式恰当的双语数据;本系统的预处理根据语料不同的特性,对语料进行不同的预处理过程,即对中文语料使用Jieba分词,并使用BPE编码继续切割单词,而对维吾尔语语料首先进行“词根+词缀”形态分词,接着对分词后的维吾尔语进行罗马化处理,最后使用BPE编码进行处理;使用Tansformer翻译模型进行翻译模型训练,得到最终翻译模型;对于翻译过程,首先同样对维吾尔语进行预处理,即“词根+词缀”分词和罗马化处理,接着使用训练好的模型翻译处理好的语料,最终将得到翻译好的汉语。

Patent Agency Ranking