-
公开(公告)号:CN110502742B
公开(公告)日:2021-11-05
申请号:CN201910625736.0
申请日:2019-07-11
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种复杂实体抽取方法,用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,该方法包括:语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;字级别向量生成步骤,用于对该语料进行预训练,生成字向量,并将该字向量输入该字级别迭层膨胀卷积神经网络层,得到字级别向量;自定义特征提取步骤,用于从自由文本中提取所述自定义格式标注的特征;实体抽取步骤,将所述字级别向量进行拼接后,与所述词级别特征输入该词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的抽取。该方法提高了实体抽取的精度和效率。
-
公开(公告)号:CN110502742A
公开(公告)日:2019-11-26
申请号:CN201910625736.0
申请日:2019-07-11
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种复杂实体抽取方法,用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,该方法包括:语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;字级别向量生成步骤,用于对该语料进行预训练,生成字向量,并将该字向量输入该字级别迭层膨胀卷积神经网络层,得到字级别向量;自定义特征提取步骤,用于从自由文本中提取所述自定义格式标注的特征;实体抽取步骤,将所述字级别向量进行拼接后,与所述词级别特征输入该词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的抽取。该方法提高了实体抽取的精度和效率。
-