-
公开(公告)号:CN104657750B
公开(公告)日:2018-04-27
申请号:CN201510127450.1
申请日:2015-03-23
Applicant: 苏州大学张家港工业技术研究院 , 苏州大学
IPC: G06K9/62
Abstract: 本发明公开了一种用于人物关系抽取的方法和装置。该方法在获取属于人物实体的页面后,对页面中的人物实体构建人物实体列表。进而,在对文本中的人物实体进行标注时,采用人物实例列表与文本中的人物实体名称进行匹配,完成对人物实体的标注。同时,将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中,实现对文本中的人物实体之间的人物关系的标注,得到训练语料,并利用训练语料建立分类模型,抽取文中的新的人物实体关系。与现有技术相比,本发明无需人工对人物实体和人物实体之间的人物关系标注时,省时省力,提高了工作效率。
-
公开(公告)号:CN104657750A
公开(公告)日:2015-05-27
申请号:CN201510127450.1
申请日:2015-03-23
Applicant: 苏州大学张家港工业技术研究院
IPC: G06K9/62
CPC classification number: G06K9/6217 , G06F17/2705 , G06F17/2785
Abstract: 本发明公开了一种用于人物关系抽取的方法和装置。该方法在获取属于人物实体的页面后,对页面中的人物实体构建人物实体列表。进而,在对文本中的人物实体进行标注时,采用人物实例列表与文本中的人物实体名称进行匹配,完成对人物实体的标注。同时,将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中,实现对文本中的人物实体之间的人物关系的标注,得到训练语料,并利用训练语料建立分类模型,抽取文中的新的人物实体关系。与现有技术相比,本发明无需人工对人物实体和人物实体之间的人物关系标注时,省时省力,提高了工作效率。
-
公开(公告)号:CN102339362A
公开(公告)日:2012-02-01
申请号:CN201110350614.9
申请日:2011-11-08
Applicant: 苏州大学
IPC: G06F19/18
Abstract: 本发明公开了一种抽取蛋白质相互作用关系的方法,包括:对自然语句进行句法分析,确定该自然语句的完全句法树,在该完全句法树中提取两个蛋白质名称之间的最短成分路径;对自然语句进行依存关系分析,确定该自然语句的依存关系树,在该依存关系树中提取两个蛋白质名称之间的最短依存路径;根据最短依存路径扩展最短成分路径,确定扩展后的成分路径为该自然语句的关系树;利用预存的分类模型对该关系树进行二元分类。本发明公开的抽取方法,关系树中包含了丰富的结构化信息,具有较好的通用性,其精度和召回率得到了提高,总体性能较好,同时减小了系统开销。
-
公开(公告)号:CN102799577B
公开(公告)日:2016-08-03
申请号:CN201210294437.1
申请日:2012-08-17
Applicant: 苏州大学
Abstract: 本发明公开了一种中文实体间语义关系抽取方法,包括:对自然语句进行句法分析,确定自然语句的完全句法树;在完全句法树中提取两个中文实体之间的最短路径包含树;在最短路径包含树中提取距离第二中文实体最近的路径动词;分别获取两个中文实体和路径动词的语义信息;按照预设规则将获取的三个语义信息加入最短路径包含树的根节点下,确定扩展后的最短路径包含树为自然语句的关系树;利用预存的分类模型对关系树进行关系分类。本发明公开的中文实体间语义关系抽取方法,关系树包含了丰富的结构化信息和词汇语义信息、具有较好的通用性,语义关系抽取的总体性能较好,并且减轻了对大规模语料库的依赖程度,同时系统的计算量较低。
-
公开(公告)号:CN102339362B
公开(公告)日:2015-03-04
申请号:CN201110350614.9
申请日:2011-11-08
Applicant: 苏州大学
IPC: G06F19/18
Abstract: 本发明公开了一种抽取蛋白质相互作用关系的方法,包括:对自然语句进行句法分析,确定该自然语句的完全句法树,在该完全句法树中提取两个蛋白质名称之间的最短成分路径;对自然语句进行依存关系分析,确定该自然语句的依存关系树,在该依存关系树中提取两个蛋白质名称之间的最短依存路径;根据最短依存路径扩展最短成分路径,确定扩展后的成分路径为该自然语句的关系树;利用预存的分类模型对该关系树进行二元分类。本发明公开的抽取方法,关系树中包含了丰富的结构化信息,具有较好的通用性,其精度和召回率得到了提高,总体性能较好,同时减小了系统开销。
-
公开(公告)号:CN103559181A
公开(公告)日:2014-02-05
申请号:CN201310572760.5
申请日:2013-11-14
Applicant: 苏州大学
IPC: G06F17/28
Abstract: 本发明公开一种双语语义关系分类模型的建立方法及系统。所述方法包括:通过第一语言分类器对未标注语义关系的对应于第一语言的第一未标注语料进行语义关系分类,得到语义关系分类结果;将所述第一未标注语料翻译为对应于第二语言的第二未标注语料;保存所述第一未标注语料与所述语义关系分类结果的对应关系至所述第一语言分类器的第一训练集;保存所述第二未标注语料与所述语义关系分类结果的对应关系至第二语言分类器的第二训练集。采用本发明的方法或系统,可以减少对大规模训练语料的需求,提高双语语义关系分类模型的建立效率。
-
-
公开(公告)号:CN102298642A
公开(公告)日:2011-12-28
申请号:CN201110273322.X
申请日:2011-09-15
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明实施例公开了一种文本信息抽取方法,实现从文本中抽取某种现象或某个事件产生的原因信息;其方法根据原因种子对对从互联网中采集的语句进行分析,生成原因句抽取模式,并利用依存关系和依存路径表示原因句的抽取模式,再基于该抽取模式来抽取原因信息,抽取过程大大减少了人工成本;且以抽取的原因句和非原因句作为训练样本,训练一个支持向量机分类器在未分类的语句中进一步识别原因句,从而提高了性能;本发明还公开了一种文本信息抽取系统,用于抽取文本中某种现象或某个事件产生的原因的信息。
-
公开(公告)号:CN108520065B
公开(公告)日:2022-04-12
申请号:CN201810325492.X
申请日:2018-04-12
Applicant: 苏州大学
IPC: G06F16/36 , G06F40/295
Abstract: 本发明公开了一种中文命名实体识别语料库的构建方法,基于计算机,采用中文维基百科作为语料,通过提取中文维基百科条目的特征,能够对中文维基百科条目进行分类,确定出中文维基实体条目,并预测中文维基实体条目对应的命名实体的类型,最终,基于类型和重定向信息构建出包含命名实体的中文维基实体列表,可以由中文维基实体列表中的所有命名实体构成中文命名实体识别语料库。具有内容丰富及领域覆盖度广的优点。而且,应用本构建方法,能够基于计算机自动构建中文命名实体识别语料库,节省人力物力。此外,本发明还公开了一种中文命名实体识别语料库的构建系统、设备及一种计算机可读存储介质,效果如上。
-
公开(公告)号:CN108520065A
公开(公告)日:2018-09-11
申请号:CN201810325492.X
申请日:2018-04-12
Applicant: 苏州大学
Abstract: 本发明公开了一种中文命名实体识别语料库的构建方法,基于计算机,采用中文维基百科作为语料,通过提取中文维基百科条目的特征,能够对中文维基百科条目进行分类,确定出中文维基实体条目,并预测中文维基实体条目对应的命名实体的类型,最终,基于类型和重定向信息构建出包含命名实体的中文维基实体列表,可以由中文维基实体列表中的所有命名实体构成中文命名实体识别语料库。具有内容丰富及领域覆盖度广的优点。而且,应用本构建方法,能够基于计算机自动构建中文命名实体识别语料库,节省人力物力。此外,本发明还公开了一种中文命名实体识别语料库的构建系统、设备及一种计算机可读存储介质,效果如上。
-
-
-
-
-
-
-
-
-