-
公开(公告)号:CN114817576A
公开(公告)日:2022-07-29
申请号:CN202210738354.0
申请日:2022-06-28
Applicant: 北京邮电大学
Abstract: 本发明提供一种模型训练及专利知识图谱补全方法、装置及存储介质,该方法包括:获取包含目标补全类型实体的训练专利文本集合;识别并抽取每个训练专利文本中的所有实体,筛选出词频超过阈值的识别并抽取到的实体构成候选实体集合;将所述训练专利文本集合作为实体训练数据集,将所述候选实体集合中的每个实体作为一个分类标签;若专利文本与实体为一一对应关系,则使用Sigmoid函数来归一化分类标签,使用二元交叉熵作为损失函数,进行多分类任务训练以获得专利知识图谱补全模型;若非一一对应关系,则使用Softmax函数来归一化分类标签,交叉熵作为损失函数,进行多标签分类任务训练以获得专利知识图谱补全模型。本发明能够准确、高效的专利知识图谱补全。
-
公开(公告)号:CN113254656B
公开(公告)日:2021-10-22
申请号:CN202110763595.6
申请日:2021-07-06
Applicant: 北京邮电大学
Abstract: 本发明提供了一种专利文本分类方法、电子设备及计算机存储介质,其中,该方法包括:获取专利文本的字向量表示;利用卷积神经网络提取字向量表示中的短语特征;利用长短时记忆网络提取字向量表示中的上下文特征;利用注意力层为长短时记忆网络输出的隐层特征向量添加不同权重,以突出区分度较大部分并降低文本结构和重复度较高结构权重,得到第一注意力层的输出;利用全连接层将第一注意力层的输出压缩为与短语特征的维度匹配的特征向量;将专利文本的短语特征和上下文特征连接得到输入向量,利用第二注意力层为输入向量添加注意力权重,以减少融合过程信息损失,得到融合特征向量,用于对专利文本分类。通过上述方案能够提高专利文本分类准确性。
-
公开(公告)号:CN113254656A
公开(公告)日:2021-08-13
申请号:CN202110763595.6
申请日:2021-07-06
Applicant: 北京邮电大学
Abstract: 本发明提供了一种专利文本分类方法、电子设备及计算机存储介质,其中,该方法包括:获取专利文本的字向量表示;利用卷积神经网络提取字向量表示中的短语特征;利用长短时记忆网络提取字向量表示中的上下文特征;利用注意力层为长短时记忆网络输出的隐层特征向量添加不同权重,以突出区分度较大部分并降低文本结构和重复度较高结构权重,得到第一注意力层的输出;利用全连接层将第一注意力层的输出压缩为与短语特征的维度匹配的特征向量;将专利文本的短语特征和上下文特征连接得到输入向量,利用第二注意力层为输入向量添加注意力权重,以减少融合过程信息损失,得到融合特征向量,用于对专利文本分类。通过上述方案能够提高专利文本分类准确性。
-
公开(公告)号:CN114817576B
公开(公告)日:2022-11-18
申请号:CN202210738354.0
申请日:2022-06-28
Applicant: 北京邮电大学
Abstract: 本发明提供一种模型训练及专利知识图谱补全方法、装置及存储介质,该方法包括:获取包含目标补全类型实体的训练专利文本集合;识别并抽取每个训练专利文本中的所有实体,筛选出词频超过阈值的识别并抽取到的实体构成候选实体集合;将所述训练专利文本集合作为实体训练数据集,将所述候选实体集合中的每个实体作为一个分类标签;若专利文本与实体为一一对应关系,则使用Sigmoid函数来归一化分类标签,使用二元交叉熵作为损失函数,进行多分类任务训练以获得专利知识图谱补全模型;若非一一对应关系,则使用Softmax函数来归一化分类标签,交叉熵作为损失函数,进行多标签分类任务训练以获得专利知识图谱补全模型。本发明能够准确、高效的专利知识图谱补全。
-
-
-