基于句义结构模型的开放式实体关系抽取方法

    公开(公告)号:CN108363816A

    公开(公告)日:2018-08-03

    申请号:CN201810234056.1

    申请日:2018-03-21

    CPC classification number: G06F16/3344 G06F16/367 G06F17/271 G06F17/277

    Abstract: 本发明涉及基于句义结构模型的开放式实体关系抽取方法,属于计算机与信息科学技术领域。本发明首先提取微博数据的正文,进行分句、分词、去停用词和词性标注,再利用依存分析工具,得到依存句法解析树;其次通过基本名词识别规则确定候选论元,结合关系词抽取规则和论元抽取规则得到实体关系三元组,利用置信度计算规则筛选实体关系三元组,得到候选实体关系对;然后基于CSM计算句子相似度得到Sim1,基于PV计算句子相似度得到Sim2,并进行相似度加权融合得到句子相似度,从而得到句子相似度矩阵;最后通过生成的句子相似度矩阵,根据相似度阈值,划分相似句子组,并结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对。本发明在NLP&&CC微博评测语料上进行实验,结果表明通过计算实体关系对置信度和划分相似句子组,合并组内实体关系对,提高了准确率和召回率,达到了去冗余的效果。

Patent Agency Ranking