一种用于人物关系抽取的方法和装置

    公开(公告)号:CN104657750B

    公开(公告)日:2018-04-27

    申请号:CN201510127450.1

    申请日:2015-03-23

    Abstract: 本发明公开了一种用于人物关系抽取的方法和装置。该方法在获取属于人物实体的页面后,对页面中的人物实体构建人物实体列表。进而,在对文本中的人物实体进行标注时,采用人物实例列表与文本中的人物实体名称进行匹配,完成对人物实体的标注。同时,将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中,实现对文本中的人物实体之间的人物关系的标注,得到训练语料,并利用训练语料建立分类模型,抽取文中的新的人物实体关系。与现有技术相比,本发明无需人工对人物实体和人物实体之间的人物关系标注时,省时省力,提高了工作效率。

    一种用于人物关系抽取的方法和装置

    公开(公告)号:CN104657750A

    公开(公告)日:2015-05-27

    申请号:CN201510127450.1

    申请日:2015-03-23

    CPC classification number: G06K9/6217 G06F17/2705 G06F17/2785

    Abstract: 本发明公开了一种用于人物关系抽取的方法和装置。该方法在获取属于人物实体的页面后,对页面中的人物实体构建人物实体列表。进而,在对文本中的人物实体进行标注时,采用人物实例列表与文本中的人物实体名称进行匹配,完成对人物实体的标注。同时,将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中,实现对文本中的人物实体之间的人物关系的标注,得到训练语料,并利用训练语料建立分类模型,抽取文中的新的人物实体关系。与现有技术相比,本发明无需人工对人物实体和人物实体之间的人物关系标注时,省时省力,提高了工作效率。

    一种基于修辞结构理论的篇章机器翻译方法及系统

    公开(公告)号:CN116306698A

    公开(公告)日:2023-06-23

    申请号:CN202310206779.1

    申请日:2023-03-07

    Applicant: 苏州大学

    Abstract: 本发明提供一种基于修辞结构理论的篇章机器翻译方法及系统,该方法包括采集篇章原文的原文信息;将篇章原文的原文信息切分为若干个句子或者子句,每个句子或者子句作为一个EDU;对得到的EDU进行解析,得到RST篇章结构树;将RST篇章结构树的修辞关系信息输入到设定的修辞关系匹配规则中得到篇章原文的修辞关系序列;将修辞关系序列输入到篇章翻译模型中,对修辞关系序列进行建模得到关系类型嵌入,并把修辞关系序列融合到篇章翻译模型中得到新的词嵌入;将得到的新的词嵌入输入编码器进行训练,得到篇章译文。本发明解决了现有技术中没有利用文本结构或关系之类的高级话语知识,导致篇章翻译的连贯性不佳的问题。

    一种中文处理中基于语义角色信息的指代消解方法

    公开(公告)号:CN101446943A

    公开(公告)日:2009-06-03

    申请号:CN200810243606.2

    申请日:2008-12-10

    Applicant: 苏州大学

    Abstract: 本发明公开了一种中文处理中基于语义角色信息的指代消解方法,包括下列步骤:(1)对文本进行预处理,所述预处理包括:段落、语句识别;命名实体识别;词性标注;组块识别;句法分析;语义角色标注;(2)根据组对规则生成正负例,在生成过程中针对数、性、语义类别进行简单的正负例的过滤;按分类器的算法要求,根据特征模板生成训练文件;采用训练文件对分类器进行训练,生成分类器模型;(3)对待处理的文本采用步骤(1)的方式进行预处理;按特征模板生成特征向量;将特征向量依次提交给已经训练生成的分类器模型进行分类,所得结果大于阈值,判断为正例,即具有指代关系,否则为负例,即无指代关系。本发明极大地提升了指代消解的性能,且其提升是稳定的。

    基于交叉层级注意机制的篇章神经机器翻译方法及系统

    公开(公告)号:CN113705168B

    公开(公告)日:2023-04-07

    申请号:CN202111016267.6

    申请日:2021-08-31

    Applicant: 苏州大学

    Abstract: 本发明公开一种基于交叉层级注意机制的篇章神经机器翻译方法,包括:将未处理的语料生成包含文档结构信息的训练语料;使用训练语料训练基础结构的篇章神经机器翻译模型;利用翻译模型获取具有句子边界信息的源端文档句向量集合;将句向量集合作为基于交叉层级注意力的上下文捕获器的输入,利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文;将全局上下文与翻译模型结合,得到基于交叉注意机制的篇章神经机器翻译模型;对其进行神经网络训练。本发明在训练中引入篇章的全局上下文信息,将待翻译的篇章视为整体进行翻译,保持篇章结构信息的同时,可避免上下文信息被忽略,导致错翻或者漏翻。

    基于交叉层级注意机制的篇章神经机器翻译方法及系统

    公开(公告)号:CN113705168A

    公开(公告)日:2021-11-26

    申请号:CN202111016267.6

    申请日:2021-08-31

    Applicant: 苏州大学

    Abstract: 本发明公开一种基于交叉层级注意机制的篇章神经机器翻译方法,包括:将未处理的语料生成包含文档结构信息的训练语料;使用训练语料训练基础结构的篇章神经机器翻译模型;利用翻译模型获取具有句子边界信息的源端文档句向量集合;将句向量集合作为基于交叉层级注意力的上下文捕获器的输入,利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文;将全局上下文与翻译模型结合,得到基于交叉注意机制的篇章神经机器翻译模型;对其进行神经网络训练。本发明在训练中引入篇章的全局上下文信息,将待翻译的篇章视为整体进行翻译,保持篇章结构信息的同时,可避免上下文信息被忽略,导致错翻或者漏翻。

    基于统计机器翻译的语言生成方法

    公开(公告)号:CN107526727B

    公开(公告)日:2021-01-19

    申请号:CN201710637423.8

    申请日:2017-07-31

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于统计机器翻译的语言生成方法,将源端树形结构语义表达式转化为自然语言;将预处理后的语料作为基于层次短语的统计机器翻译的源端语言;利用基于层次短语的统计机器翻译解码器生成n‑best翻译结果;再对上一步生成的n‑best翻译结果进行过滤,得到与源端输入句子答案类型相同的翻译结果;在评测阶段,将中文和英文的参照语句从原来一个增加到了三个,使评测值更能反映真实地翻译效果,具有良好的应用前景。

    一种句子级文本情绪分类方法和装置

    公开(公告)号:CN106202243A

    公开(公告)日:2016-12-07

    申请号:CN201610496564.8

    申请日:2016-06-29

    Applicant: 苏州大学

    Abstract: 本发明公开了一种句子级文本情绪分类方法和装置。该方法获取已进行情绪标注的句子级分类作为训练样本,并获取未标注的句子级文本作为测试样本。进而,基于训练样本中相邻句子级文本作为训练特征对分类器进行训练,并利用训练后的分类器对测试样本进行分类,得到分类结果。由于句子级文本中,前后句的情绪有着明显的联系,因而在本发明中采用相邻句子级文本对分类器进行训练,与现有技术相比可基于分类器实现对测试样本的情绪分类,提高了句子级文本的情绪分类效率。

    一种化学物与蛋白质作用关系的抽取方法、装置和介质

    公开(公告)号:CN115269876A

    公开(公告)日:2022-11-01

    申请号:CN202210931975.0

    申请日:2022-08-04

    Applicant: 苏州大学

    Abstract: 本申请涉及自然语言处理技术领域,公开了一种化学物与蛋白质作用关系的抽取方法,包括:获取文本中的化学物实体集合、蛋白质实体集合、以及若干个问题模板;从化学物实体集合中选取一个化学物实体作为目标化学物实体,将目标化学物实体输入每个问题模板中;利用包含目标化学物实体的问题模板对文本进行询问,抽取文本中与目标化学物实体存在作用关系的目标蛋白质实体以得到关系组。当一段文本中的化学物实体和蛋白质实体数量较多时,本申请通过问答的形式从文本中抽取化学物‑蛋白质作用关系,可以克服化学物实体和蛋白质实体两两配对所带来的实体对数量众多的缺点,有效提高化学物‑蛋白质作用关系的抽取效率。

    基于词对和翻译判断句子是否对齐的方法、装置及设备

    公开(公告)号:CN109325242A

    公开(公告)日:2019-02-12

    申请号:CN201811094517.6

    申请日:2018-09-19

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于词典和翻译判断句子是否对齐的方法,在对源文本句进行分词得到源文本词之后,还确定了与源文本词对应的翻译文本词,并据此更新了源文本词序列,最后根据源文本句以及目标文本句对应的隐藏状态序列,判断源文本句与目标文本句是否对齐。可见,该方法不依赖于源文本句与目标文本句本身去判断二者是否对齐,而是结合源文本句中各个词的翻译,将该翻译的信息融入到了源文本句的抽象表示中,进而根据源文本句与目标文本句的抽象表示来判断二者是否对齐,极大的提高了判断的精准性。此外,本发明还提供了一种基于词典和翻译判断句子是否对齐的装置、设备及计算机可读存储介质,其作用与上述方法相对应。

Patent Agency Ranking