一种用于人物关系抽取的方法和装置

    公开(公告)号:CN104657750B

    公开(公告)日:2018-04-27

    申请号:CN201510127450.1

    申请日:2015-03-23

    Abstract: 本发明公开了一种用于人物关系抽取的方法和装置。该方法在获取属于人物实体的页面后,对页面中的人物实体构建人物实体列表。进而,在对文本中的人物实体进行标注时,采用人物实例列表与文本中的人物实体名称进行匹配,完成对人物实体的标注。同时,将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中,实现对文本中的人物实体之间的人物关系的标注,得到训练语料,并利用训练语料建立分类模型,抽取文中的新的人物实体关系。与现有技术相比,本发明无需人工对人物实体和人物实体之间的人物关系标注时,省时省力,提高了工作效率。

    一种用于人物关系抽取的方法和装置

    公开(公告)号:CN104657750A

    公开(公告)日:2015-05-27

    申请号:CN201510127450.1

    申请日:2015-03-23

    CPC classification number: G06K9/6217 G06F17/2705 G06F17/2785

    Abstract: 本发明公开了一种用于人物关系抽取的方法和装置。该方法在获取属于人物实体的页面后,对页面中的人物实体构建人物实体列表。进而,在对文本中的人物实体进行标注时,采用人物实例列表与文本中的人物实体名称进行匹配,完成对人物实体的标注。同时,将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中,实现对文本中的人物实体之间的人物关系的标注,得到训练语料,并利用训练语料建立分类模型,抽取文中的新的人物实体关系。与现有技术相比,本发明无需人工对人物实体和人物实体之间的人物关系标注时,省时省力,提高了工作效率。

    一种抽取蛋白质相互作用关系的方法

    公开(公告)号:CN102339362A

    公开(公告)日:2012-02-01

    申请号:CN201110350614.9

    申请日:2011-11-08

    Applicant: 苏州大学

    Abstract: 本发明公开了一种抽取蛋白质相互作用关系的方法,包括:对自然语句进行句法分析,确定该自然语句的完全句法树,在该完全句法树中提取两个蛋白质名称之间的最短成分路径;对自然语句进行依存关系分析,确定该自然语句的依存关系树,在该依存关系树中提取两个蛋白质名称之间的最短依存路径;根据最短依存路径扩展最短成分路径,确定扩展后的成分路径为该自然语句的关系树;利用预存的分类模型对该关系树进行二元分类。本发明公开的抽取方法,关系树中包含了丰富的结构化信息,具有较好的通用性,其精度和召回率得到了提高,总体性能较好,同时减小了系统开销。

    命名实体识别语料库的构建方法、系统、设备及存储介质

    公开(公告)号:CN108520065B

    公开(公告)日:2022-04-12

    申请号:CN201810325492.X

    申请日:2018-04-12

    Applicant: 苏州大学

    Abstract: 本发明公开了一种中文命名实体识别语料库的构建方法,基于计算机,采用中文维基百科作为语料,通过提取中文维基百科条目的特征,能够对中文维基百科条目进行分类,确定出中文维基实体条目,并预测中文维基实体条目对应的命名实体的类型,最终,基于类型和重定向信息构建出包含命名实体的中文维基实体列表,可以由中文维基实体列表中的所有命名实体构成中文命名实体识别语料库。具有内容丰富及领域覆盖度广的优点。而且,应用本构建方法,能够基于计算机自动构建中文命名实体识别语料库,节省人力物力。此外,本发明还公开了一种中文命名实体识别语料库的构建系统、设备及一种计算机可读存储介质,效果如上。

    命名实体识别语料库的构建方法、系统、设备及存储介质

    公开(公告)号:CN108520065A

    公开(公告)日:2018-09-11

    申请号:CN201810325492.X

    申请日:2018-04-12

    Applicant: 苏州大学

    Abstract: 本发明公开了一种中文命名实体识别语料库的构建方法,基于计算机,采用中文维基百科作为语料,通过提取中文维基百科条目的特征,能够对中文维基百科条目进行分类,确定出中文维基实体条目,并预测中文维基实体条目对应的命名实体的类型,最终,基于类型和重定向信息构建出包含命名实体的中文维基实体列表,可以由中文维基实体列表中的所有命名实体构成中文命名实体识别语料库。具有内容丰富及领域覆盖度广的优点。而且,应用本构建方法,能够基于计算机自动构建中文命名实体识别语料库,节省人力物力。此外,本发明还公开了一种中文命名实体识别语料库的构建系统、设备及一种计算机可读存储介质,效果如上。

    一种中文实体间语义关系抽取方法

    公开(公告)号:CN102799577A

    公开(公告)日:2012-11-28

    申请号:CN201210294437.1

    申请日:2012-08-17

    Applicant: 苏州大学

    Abstract: 本发明公开了一种中文实体间语义关系抽取方法,包括:对自然语句进行句法分析,确定自然语句的完全句法树;在完全句法树中提取两个中文实体之间的最短路径包含树;在最短路径包含树中提取距离第二中文实体最近的路径动词;分别获取两个中文实体和路径动词的语义信息;按照预设规则将获取的三个语义信息加入最短路径包含树的根节点下,确定扩展后的最短路径包含树为自然语句的关系树;利用预存的分类模型对关系树进行关系分类。本发明公开的中文实体间语义关系抽取方法,关系树包含了丰富的结构化信息和词汇语义信息、具有较好的通用性,语义关系抽取的总体性能较好,并且减轻了对大规模语料库的依赖程度,同时系统的计算量较低。

    基于极性转移规则的情感分类方法

    公开(公告)号:CN102323944A

    公开(公告)日:2012-01-18

    申请号:CN201110258712.X

    申请日:2011-09-02

    Applicant: 苏州大学

    Abstract: 本发明实施例公开了一种基于极性转移规则的情感分类方法,其步骤包括:在待分类文本中找出情感词,并获取与所述情感词相对应的情感词极性;使用两个或两个以上的极性转移规则判断所述情感词是否发生极性转移;所述极性转移规则包括:基于否定结构的极性转移规则,或基于转折结构的极性转移规则,或基于语态结构的极性转移规则,或基于隐含结构的极性转移规则;根据获取的所述情感词极性及极性转移判断结果,计算出待分类文本的情感极性;根据待分类文本的情感极性对待分类文本进行分类。本发明方法避免了发生极性转移的情感词对文本分类结果带来的不利影响,有利于提高文本的分类效果。

    一种中文处理中基于语义角色信息的指代消解方法

    公开(公告)号:CN101446943A

    公开(公告)日:2009-06-03

    申请号:CN200810243606.2

    申请日:2008-12-10

    Applicant: 苏州大学

    Abstract: 本发明公开了一种中文处理中基于语义角色信息的指代消解方法,包括下列步骤:(1)对文本进行预处理,所述预处理包括:段落、语句识别;命名实体识别;词性标注;组块识别;句法分析;语义角色标注;(2)根据组对规则生成正负例,在生成过程中针对数、性、语义类别进行简单的正负例的过滤;按分类器的算法要求,根据特征模板生成训练文件;采用训练文件对分类器进行训练,生成分类器模型;(3)对待处理的文本采用步骤(1)的方式进行预处理;按特征模板生成特征向量;将特征向量依次提交给已经训练生成的分类器模型进行分类,所得结果大于阈值,判断为正例,即具有指代关系,否则为负例,即无指代关系。本发明极大地提升了指代消解的性能,且其提升是稳定的。

    一种中文实体间语义关系抽取方法

    公开(公告)号:CN102799577B

    公开(公告)日:2016-08-03

    申请号:CN201210294437.1

    申请日:2012-08-17

    Applicant: 苏州大学

    Abstract: 本发明公开了一种中文实体间语义关系抽取方法,包括:对自然语句进行句法分析,确定自然语句的完全句法树;在完全句法树中提取两个中文实体之间的最短路径包含树;在最短路径包含树中提取距离第二中文实体最近的路径动词;分别获取两个中文实体和路径动词的语义信息;按照预设规则将获取的三个语义信息加入最短路径包含树的根节点下,确定扩展后的最短路径包含树为自然语句的关系树;利用预存的分类模型对关系树进行关系分类。本发明公开的中文实体间语义关系抽取方法,关系树包含了丰富的结构化信息和词汇语义信息、具有较好的通用性,语义关系抽取的总体性能较好,并且减轻了对大规模语料库的依赖程度,同时系统的计算量较低。

    一种抽取蛋白质相互作用关系的方法

    公开(公告)号:CN102339362B

    公开(公告)日:2015-03-04

    申请号:CN201110350614.9

    申请日:2011-11-08

    Applicant: 苏州大学

    Abstract: 本发明公开了一种抽取蛋白质相互作用关系的方法,包括:对自然语句进行句法分析,确定该自然语句的完全句法树,在该完全句法树中提取两个蛋白质名称之间的最短成分路径;对自然语句进行依存关系分析,确定该自然语句的依存关系树,在该依存关系树中提取两个蛋白质名称之间的最短依存路径;根据最短依存路径扩展最短成分路径,确定扩展后的成分路径为该自然语句的关系树;利用预存的分类模型对该关系树进行二元分类。本发明公开的抽取方法,关系树中包含了丰富的结构化信息,具有较好的通用性,其精度和召回率得到了提高,总体性能较好,同时减小了系统开销。

Patent Agency Ranking