-
公开(公告)号:CN111027323A
公开(公告)日:2020-04-17
申请号:CN201911235554.9
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/295 , G06F40/30 , G06F40/211 , G06F16/35 , G06K9/62
Abstract: 本发明公开了一种基于主题模型和语义分析的实体指称项识别方法,包括如下步骤,步骤一、对输入语料进行句子分割、分词、词性标注和依存关系解析;步骤二、基于句法分析,获取边界完整的名词词组作为实体指称项的候选集,然后综合利用LDA主题模型和TF-IDF统计算法,从候选集中过滤非实体指称项;步骤三、度量实体指称项和种子实体的语义相似度,选择相似度高的种子类别作为实体类别,然后利用浅层的句法知识设置规则,将每种实体类别的实体指称项分类到相应的指称项类别。本发明能够提高实体边界检测和分类方法的有效性。
-
公开(公告)号:CN111027324A
公开(公告)日:2020-04-17
申请号:CN201911235614.7
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/295 , G06F40/30 , G06N20/00
Abstract: 本发明属于关系抽取的技术领域,具体涉及一种基于句法模式和机器学习的开放式关系的抽取方法,包括如下步骤,步骤一、对输入文本进行预处理,然后从所述输入文本中抽取实体和关系指示词,并组合为关系三元组格式,获取实体关系三元组候选集;步骤二、基于正负例判别算法,采用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料;步骤三、融入浅层和深层的文本特征,训练一个SVM分类器,对实体关系三元组进行区分和辨别。本发明能够对关系元组进行正负例判别,降低错误的句法分析对抽取关系元组带来的影响,有助于提高关系抽取的准确性。
-
公开(公告)号:CN111027324B
公开(公告)日:2023-11-21
申请号:CN201911235614.7
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/295 , G06F40/30 , G06N20/00
-
公开(公告)号:CN111027309B
公开(公告)日:2023-05-23
申请号:CN201911235497.4
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/211 , G06F40/284 , G06F40/295 , G06N3/0442 , G06N3/08
Abstract: 本发明属于网络文本数据处理的技术领域,具体涉及一种基于双向长短期记忆网络的实体属性值的抽取方法,包括如下步骤,步骤一、对文档集进行预处理;步骤二、采用类别映射,从包含实体的语句中识别属性值;步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。本发明采用双向长短期记忆网络,能够精准判别实体、属性名和属性值之间关系。
-
公开(公告)号:CN110888946A
公开(公告)日:2020-03-17
申请号:CN201911236844.5
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F16/28 , G06F40/295 , G06F40/284
Abstract: 本发明属于实体链接的技术领域,具体涉及一种基于知识驱动的查询的实体链接方法,包括如下步骤,步骤一、基于句法分析,识别用户查询语句中的命名性实体指称项;步骤二、基于增量证据挖掘,通过外部知识源,对所述实体指称项和本地知识库进行信息扩展;步骤三、采用推理链接算法,对所述实体指称项进行链接处理。本发明能够解决用户查询语句的语境缺乏和描述不规范等问题,并降低对本地知识库的依赖性,还准确实现候选实体的产生和判别,从而提高实体链接的性能。
-
公开(公告)号:CN111027309A
公开(公告)日:2020-04-17
申请号:CN201911235497.4
申请日:2019-12-05
Applicant: 电子科技大学广东电子信息工程研究院
IPC: G06F40/211 , G06F40/284 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明属于网络文本数据处理的技术领域,具体涉及一种基于双向长短期记忆网络的实体属性值的抽取方法,包括如下步骤,步骤一、对文档集进行预处理;步骤二、采用类别映射,从包含实体的语句中识别属性值;步骤三、对实体和属性值的语句执行深层句法分析,抽取与相关的句子成分,作为训练语料;步骤四、采用词向量模型对所述训练语料进行向量转化,结合句法特征,训练BLSTM模型参数,将所述实体和所述属性值分类到给定的属性名类别中。本发明采用双向长短期记忆网络,能够精准判别实体、属性名和属性值之间关系。
-
-
-
-
-