一种基于神经网络的中文分词模型的训练方法

    公开(公告)号:CN109800298A

    公开(公告)日:2019-05-24

    申请号:CN201910085499.3

    申请日:2019-01-29

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于神经网络的中文分词模型的训练方法,为多种分词规范设置相应的语料特征向量,在获取多种分词规范的训练语料后,根据字的嵌入向量和语料特征向量确定字的向量表示,最后将文本句中各个字的向量表示输入中文分词模型,得到预测结果并据此调整模型参数,以完成训练。可见,该方法无需改变模型结构,只需在字的向量表示中增加相应的语料特征向量,并利用该向量表示对模型进行训练,不仅实现了扩充训练语料的目的,而且能够让模型学习不同分词规范之间的共性,从而达到提升单一分词规范下的分词性能的目的。此外,本发明还提供了一种基于神经网络的中文分词模型的训练装置、设备及计算机可读存储介质,其作用与上述方法相对应。

    基于模式嵌入的自动树库转化方法及系统

    公开(公告)号:CN108647254A

    公开(公告)日:2018-10-12

    申请号:CN201810366793.7

    申请日:2018-04-23

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于模式嵌入的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于模式嵌入的自动树库转化方法,确定词wi和词wj的模式;将词wi和词wj的模式变换为对应的模式嵌入向量;将源端树中词wi、词wj、最小公共祖先节点wa三者分别对应的依存关系标签分别变换为依存关系嵌入向量;将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树中词wi和词wj的结构信息的表示向量,循环神经网络的顶层输出分别与表示向量拼接起来,作为感知器MLP的输入;利用双仿射计算获得词wi和词wj的目标端依存弧分值;本发明充分利用源端句法树,刻画两种标注规范的对应规律,最终完成高质量树库转化。

    一种数据标注方法及装置
    23.
    发明公开

    公开(公告)号:CN108536662A

    公开(公告)日:2018-09-14

    申请号:CN201810338034.X

    申请日:2018-04-16

    Applicant: 苏州大学

    Abstract: 本发明公开了一种数据标注方法,包括:通过初始端获取不同初始用户输入的目标数据的初始标注信息;判断获取到的初始标注信息是否一致;若否,则将获取到的初始标注信息传输至第一审核端,通过第一审核端获取第一审核用户根据获取到的初始标注信息输入的目标数据的第一审核标注信息,并将第一审核标注信息确定为目标数据的最终标注信息并存储。由此当多个标注人员对于同一数据的标注结果存在差异时,由标注专家或者权威标注专家快速确定该数据的最佳标注结果,提高了数据标注的效率和准确率,有利于提高标注人员的业务水平和库存标注信息的准确率。相应地,本发明公开的一种数据标注装置、设备及计算机可读存储介质也同样具有上述技术效果。

    一种翻译模型构建方法和系统

    公开(公告)号:CN104391842A

    公开(公告)日:2015-03-04

    申请号:CN201410797926.8

    申请日:2014-12-18

    Applicant: 苏州大学

    Abstract: 本发明的翻译模型构建方法和系统,利用双语平行语料库的对齐信息分别生成规则对齐表、单词语义向量表和短语表;之后,利用单词语义向量表和短语表,生成源语言语义空间下的源语言短语语义向量表及目标语言语义空间下的目标语言短语语义向量表;最终,利用不同语义空间下的短语语义向量表训练生成融合了语义信息的翻译模型。可见,本发明实现了在统计机器翻译中融合短语语义信息,申请人经研究发现,单词或短语的语义信息能够反映其与上下文单词或短语的相关性,相比于传统的基于词或短语的翻译方法,融入短语语义信息后翻译模型的翻译质量更高,从而,相比于现有技术,本发明进一步提升了统计机器翻译的翻译性能。

    多模态大模型的训练方法、图文翻译方法以及装置

    公开(公告)号:CN119693766A

    公开(公告)日:2025-03-25

    申请号:CN202411761461.0

    申请日:2024-12-02

    Abstract: 本申请公开了一种多模态大模型的训练方法、图文翻译方法以及装置,确定包括训练文本、翻译文本、训练图像以及问询信息的训练样本,基于训练样本对待训练的多模态大模型进行训练,获得已训练的多模态大模型,多模态大模型报包括图像编码器、适配器以及大语言模型,图像编码器用于从图像的像素表示中提取粒度不同的信息转换为图像向量表示,适配器用于将第一图像向量表示的维度和第二图像向量表示的维度转换为大语言模型接受的维度,大语言模型用于根据输入的图像向量表示和问询信息输出对应的答案。本申请通过在模型框架上加入细粒度图像编码器弥补多模态大模型对于细粒度图像信息编码不足的缺点,以提高多模态大模型的视觉捕获能力。

    一种基于注意力漂移约束的稳定知识编辑方法及系统

    公开(公告)号:CN119443059A

    公开(公告)日:2025-02-14

    申请号:CN202411537890.X

    申请日:2024-10-31

    Applicant: 苏州大学

    Abstract: 本发明提供一种基于注意力漂移约束的稳定知识编辑方法及系统,涉及自然语言处理技术领域,该方法包括大型语言模型的知识编辑过程中,引入选择性注意力漂移限制策略;通过比较编辑前后的模型注意力输出,定位出现严重注意力漂移现象的注意力头;基于新的优化目标目标函数,对模型进行训练,得到最优的模型参数,实现稳定知识编辑。本发明显著提升编辑准确性并降低错误答案概率,实验验证表明该方法有效改进了特异性任务性能,为大型语言模型的知识编辑提供了理论支持和实践指导。

    一种数据标注方法及装置
    28.
    发明授权

    公开(公告)号:CN108536662B

    公开(公告)日:2022-04-12

    申请号:CN201810338034.X

    申请日:2018-04-16

    Applicant: 苏州大学

    Abstract: 本发明公开了一种数据标注方法,包括:通过初始端获取不同初始用户输入的目标数据的初始标注信息;判断获取到的初始标注信息是否一致;若否,则将获取到的初始标注信息传输至第一审核端,通过第一审核端获取第一审核用户根据获取到的初始标注信息输入的目标数据的第一审核标注信息,并将第一审核标注信息确定为目标数据的最终标注信息并存储。由此当多个标注人员对于同一数据的标注结果存在差异时,由标注专家或者权威标注专家快速确定该数据的最佳标注结果,提高了数据标注的效率和准确率,有利于提高标注人员的业务水平和库存标注信息的准确率。相应地,本发明公开的一种数据标注装置、设备及计算机可读存储介质也同样具有上述技术效果。

    基于序列标注建模的多粒度分词方法及系统

    公开(公告)号:CN107729312B

    公开(公告)日:2021-04-20

    申请号:CN201710790736.7

    申请日:2017-09-05

    Applicant: 苏州大学

    Inventor: 张民 李正华 龚晨

    Abstract: 本发明涉及一种基于序列标注建模的多粒度分词方法与系统,提供了一种采用机器学习的方式获取多粒度标签序列的方法及系统,本发明所述的方法,包括:将至少一种单粒度标注数据集中的句子分别转化为遵守其他n‑1种分词规范的分词序列,将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,根据预定的编码方法以及多粒度分词层次结构,得到每一个句子的每一个字的多粒度标签,进而得到每一个句子的多粒度标签序列;基于所述的包含句子和对应多粒度标签序列的数据集,通过训练序列标注模型,得到多粒度序列标注模型。本发明首次提出了多粒度分词的概念,能够快速、自动的获取多粒度分词层次结构。

Patent Agency Ranking