一种改进训练语料的平行质量的方法及装置

    公开(公告)号:CN105955966B

    公开(公告)日:2019-04-26

    申请号:CN201610235521.4

    申请日:2016-04-15

    Applicant: 苏州大学

    Abstract: 本发明公开了一种改进训练语料的平行质量的方法及装置。该方法包括:在预先获得的训练语料库中确定待纠正的目标句对,目标句对包括原文句子和相对应的译文句子;从目标句对的所有组合划分点中,选择一个可用组合划分点;利用可用组合划分点划分目标句对,获得原文句子的两个子句和译文句子的两个子句;确定获得的子句构成的子句对是否平行及各子句间的非平行关系;根据预设的对应规则,使用与确定的非平行关系对应的纠正方式纠正目标句对。应用本发明实施例所提供的技术方案,改进了训练语料的平行质量,提升了统计机器翻译系统的翻译性能。

    基于词对和翻译判断句子是否对齐的方法、装置及设备

    公开(公告)号:CN109325242A

    公开(公告)日:2019-02-12

    申请号:CN201811094517.6

    申请日:2018-09-19

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于词典和翻译判断句子是否对齐的方法,在对源文本句进行分词得到源文本词之后,还确定了与源文本词对应的翻译文本词,并据此更新了源文本词序列,最后根据源文本句以及目标文本句对应的隐藏状态序列,判断源文本句与目标文本句是否对齐。可见,该方法不依赖于源文本句与目标文本句本身去判断二者是否对齐,而是结合源文本句中各个词的翻译,将该翻译的信息融入到了源文本句的抽象表示中,进而根据源文本句与目标文本句的抽象表示来判断二者是否对齐,极大的提高了判断的精准性。此外,本发明还提供了一种基于词典和翻译判断句子是否对齐的装置、设备及计算机可读存储介质,其作用与上述方法相对应。

    一种调序模型建立方法、装置及翻译方法

    公开(公告)号:CN104572636A

    公开(公告)日:2015-04-29

    申请号:CN201510057964.4

    申请日:2015-02-04

    Applicant: 苏州大学

    Inventor: 熊德意 王星 张民

    Abstract: 本申请公开了一种调序模型建立方法、装置及翻译方法,其中调序模型建立过程为:对训练语料按照文档标记进行切分,并以文档为单位组织成若干份文档,对每份文档进行文档主题估计,确定对应的主题信息,从训练语料中抽取含主题信息的语块,作为调序实例,并参考预置规则模板,从调序实例中抽取至少包含文档主题信息的调序特征,利用最大熵训练工具来训练调序特征,得到调序模型。本申请所获取的调序模型融合了文档主题信息,在对译文进行调序时,能够很好的适应不同文档主题对译文顺序的影响,提高了翻译译文的质量。

    基于词对和翻译判断句子是否对齐的方法、装置及设备

    公开(公告)号:CN109325242B

    公开(公告)日:2023-06-13

    申请号:CN201811094517.6

    申请日:2018-09-19

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于词典和翻译判断句子是否对齐的方法,在对源文本句进行分词得到源文本词之后,还确定了与源文本词对应的翻译文本词,并据此更新了源文本词序列,最后根据源文本句以及目标文本句对应的隐藏状态序列,判断源文本句与目标文本句是否对齐。可见,该方法不依赖于源文本句与目标文本句本身去判断二者是否对齐,而是结合源文本句中各个词的翻译,将该翻译的信息融入到了源文本句的抽象表示中,进而根据源文本句与目标文本句的抽象表示来判断二者是否对齐,极大的提高了判断的精准性。此外,本发明还提供了一种基于词典和翻译判断句子是否对齐的装置、设备及计算机可读存储介质,其作用与上述方法相对应。

    一种融合上下文信息的行人重识别方法及系统

    公开(公告)号:CN113283394B

    公开(公告)日:2023-04-25

    申请号:CN202110722073.1

    申请日:2021-06-28

    Applicant: 苏州大学

    Inventor: 曹敏 丁聪 张民

    Abstract: 本发明公开了一种融合上下文信息的行人重识别方法及系统,包括以下步骤:选取行人重识别数据集,提取数据集中所有行人特征;选取每个行人的上下文信息,构造图结构;对构造好的图结构进行结点信息更新;将更新后的图结构经过带权重的池化操作后得到结合上下文信息的行人特征;将池化后的行人特征与相应的原始行人特征进行拼接,构建行人重识别模型;将待识别的行人图片输入行人重识别模型,并与所有最终行人分类特征进行相似度比较,得到行人重识别的匹配结果。本发明解决现有特征学习方法在信息上的不足和获取辅助信息的成本过大问题,使得行人重识别模型在不增加额外信息情况下提高模型的准确率。

    融入依存关系的神经机器翻译方法

    公开(公告)号:CN109062907B

    公开(公告)日:2022-07-12

    申请号:CN201810785646.3

    申请日:2018-07-17

    Applicant: 苏州大学

    Inventor: 段湘煜 王坤 张民

    Abstract: 本发明涉及一种融入依存关系的神经机器翻译方法,为了得到更加精准的神经翻译模型而设计。本发明融入依存关系的神经机器翻译方法,解析出源端句子的依存树,确定源端句子词与词之间的关联性信息;基于所述依存关系信息,确定依存关联性损失Δdep,进而指导得到句对网络整体损失。本发明在源端添加自注意力机制,并将自注意力机制融入依存指导。

    一种融合上下文信息的行人重识别方法及系统

    公开(公告)号:CN113283394A

    公开(公告)日:2021-08-20

    申请号:CN202110722073.1

    申请日:2021-06-28

    Applicant: 苏州大学

    Inventor: 曹敏 丁聪 张民

    Abstract: 本发明公开了一种融合上下文信息的行人重识别方法及系统,包括以下步骤:选取行人重识别数据集,提取数据集中所有行人特征;选取每个行人的上下文信息,构造图结构;对构造好的图结构进行结点信息更新;将更新后的图结构经过带权重的池化操作后得到结合上下文信息的行人特征;将池化后的行人特征与相应的原始行人特征进行拼接,构建行人重识别模型;将待识别的行人图片输入行人重识别模型,并与所有最终行人分类特征进行相似度比较,得到行人重识别的匹配结果。本发明解决现有特征学习方法在信息上的不足和获取辅助信息的成本过大问题,使得行人重识别模型在不增加额外信息情况下提高模型的准确率。

    一种信息判别方法和系统
    18.
    发明授权

    公开(公告)号:CN105808722B

    公开(公告)日:2020-07-24

    申请号:CN201610128564.2

    申请日:2016-03-08

    Applicant: 苏州大学

    Abstract: 本发明提供了一种信息判别方法及系统,基于网络爬虫技术,检索并收集传统媒体和社交媒体的热点信息对应的网页信息,并对收集到的网页信息进行处理,得到类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;基于训练集数据进行主题建模获取主题与关键词文档,并建立对应传统媒体数据的主题特征集合和对应社交媒体数据的关键词特征集合;利用主题特征集合和关键词特征集合训练分类器,通过得到的传统媒体分类器和社交媒体分类器对测试集数据进行分类判别,得到能够引发社交媒体报道的传统媒体数据,和/或能够引发传统媒体报道的社交媒体数据。由此采用对多个媒体的监测,能够更全面,更快的分析和预测舆情发展的趋势。

    一种基于异构标注数据的快速序列标注方法及装置

    公开(公告)号:CN106202030B

    公开(公告)日:2020-05-22

    申请号:CN201610463435.9

    申请日:2016-06-23

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于异构标注数据的快速序列标注方法及装置。该方法包括以下步骤:获取两个归属于不同标注数据库的初始标记集;根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;针对包含耦合标记集的训练数据,训练基于条件随机场的标注模型;利用标注模型对待标注的样本数据进行标注。应用本发明实施例所提供的技术方案,达到了将不同标注数据库结合起来应用的目的,扩大了训练数据规模,提升了标注模型的性能。

    一种关系抽取方法、系统及相关组件

    公开(公告)号:CN110334355A

    公开(公告)日:2019-10-15

    申请号:CN201910635878.5

    申请日:2019-07-15

    Applicant: 苏州大学

    Abstract: 本申请公开了一种关系抽取方法,所述关系抽取方法包括确定目标句子包中每一句子的句子分布式向量和查询关系的关系分布式向量;其中,目标句子包中每一句子均包括第一实体和第二实体;根据所述句子分布式向量和所述关系分布式向量确定策略函数,并利用所述策略函数将所述目标句子包中的所有句子划分为正例和未标注实例;利用所述正例和未标注实例训练关系抽取模型,得到所述第一实体与所述第二实体的实体关系。本申请能够降低噪声数据的影响,提高实体关系抽取结果的准确率。本申请还公开了一种关系抽取系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。

Patent Agency Ranking