-
公开(公告)号:CN104134017A
公开(公告)日:2014-11-05
申请号:CN201410344712.5
申请日:2014-07-18
Applicant: 华南理工大学
IPC: G06F19/18
Abstract: 本发明公开了一种基于紧凑特征表示的蛋白质作用关系对抽取方法,包括以下步骤:1)选取所需的语料,语料是以句子为单位,已经有了蛋白质实体的标注及实体关系的标注;2)舍弃步骤1)中不包含蛋白质实体或只包含一个蛋白质实体的句子,得到句子集合sen_set;3)用占位符替换句子中相应的蛋白质实体并进行占位符融合,再进行词性标注和句法分析;4)以每个实体对为单位,获取词、词性、句法和模板的特征;5)对步骤4)中获得的特征进行紧凑化表达的操作;6)利用支持向量机对从步骤4)得到的特征进行训练或者利用已训练的模型进行预测。与传统的基于特征实体关系对抽取方法相比,本发明尽最大努力利用句子中可利用的信息,极大地丰富了特征向量的信息量。
-
公开(公告)号:CN104134017B
公开(公告)日:2017-01-25
申请号:CN201410344712.5
申请日:2014-07-18
Applicant: 华南理工大学
IPC: G06F19/18
Abstract: 本发明公开了一种基于紧凑特征表示的蛋白质作用关系对抽取方法,包括以下步骤:1)选取所需的语料,语料是以句子为单位,已经有了蛋白质实体的标注及实体关系的标注;2)舍弃步骤1)中不包含蛋白质实体或只包含一个蛋白质实体的句子,得到句子集合sen_set;3)用占位符替换句子中相应的蛋白质实体并进行占位符融合,再进行词性标注和句法分析;4)以每个实体对为单位,获取词、词性、句法和模板的特征;5)对步骤4)中获得的特征进行紧凑化表达的操作;6)利用支持向量机对从步骤4)得到的特征进行训练或者利用已训练的模型进行预测。与传统的基于特征实体关系对抽取方法相比,本发明尽最大努力利用句子中可利用的信息,极大地丰富了特征向量的信息量。
-