-
公开(公告)号:CN117521659A
公开(公告)日:2024-02-06
申请号:CN202410010206.6
申请日:2024-01-04
Applicant: 西安电子科技大学
IPC: G06F40/295 , G06F40/216 , G06N3/0455 , G06N3/0475 , G06N3/048 , G06N3/0499 , G06N3/08 , G06F16/33 , G06F16/35
Abstract: 本发明公开了一种基于语义增强预训练孪生网络的中文实体链接方法和系统。通过将短文本的实体指代在知识库中匹配出候选实体集合及各候选实体的实体描述信息,将短文本、候选实体前后分别用第一标记分界后,与候选实体描述信息输入BERT,以分别提取整体特征、实体指代特征、候选实体及其实体描述特征,分别对实体指代特征和候选实体及其实体描述特征进行最大池化,再借助多层感知机分别提取第一向量和第二向量,用多层感知机从整体特征获取第三向量,拼接各向量及其之间的运算向量,进行维度固定后以此进行激活、全连接,得到预测值;链接预测值为1的候选实体到短文本。本发明模型结构简单,链接准确率高。
-
公开(公告)号:CN117933258A
公开(公告)日:2024-04-26
申请号:CN202410224656.5
申请日:2024-02-29
Applicant: 西安电子科技大学
IPC: G06F40/295 , G06F40/216 , G06N3/0442 , G06N3/0455 , G06N3/047 , G06N3/0475 , G06N3/094 , G06N3/084
Abstract: 本发明公开了一种命名实体识别方法和系统,涉及自然语言处理技术领域,用以提高命名实体识别的鲁棒性和精度。本发明先对输入文本进行清洗、分词、标注等预处理,利用BERT模型进行文本序列嵌入,使用PGD方法生成对抗样本,使用BiLSTM提取序列特征,并使用融合式注意力机制对BERT的自注意力和BiLSTM的序列注意力进行融合,最后借助CRF模型完成对序列的标注。本发明提高了模型面对真实世界、噪声数据的鲁棒性,改善了命名实体识别的精确度。
-
公开(公告)号:CN118228729A
公开(公告)日:2024-06-21
申请号:CN202410224707.4
申请日:2024-02-29
Applicant: 西安电子科技大学
IPC: G06F40/295 , G06F16/33 , G06F40/166 , G06F40/151 , G06F16/35 , G06N3/094 , G06N3/0475 , G06N3/0442 , G06N3/045
Abstract: 本发明公开了一种基于对抗学习与特征增强的领域命名实体识别方法和系统,涉及自然语言处理领域,用以提高在特定领域命名实体识别的泛化能力,更好地解决嵌套实体识别问题。本发明使用检索增强方法从外部知识库引入外部文本与原始文本进行组合,再送入ERNIE‑health预训练语言模型进行词嵌入,并使用FGM方法生成对抗样本来提高模型鲁棒性。下游使用BiLSTM模型进行特征提取,并使用挤压和激励机制对特征进行重校准,最后送入CRF模型中进行序列标签标注。本发明能够更好地理解特定领域的语言特征,提高了模型对真实场景下噪声数据的处理能力,增强了识别模型的泛化能力,提高了标签识别的效率和精确度。
-
公开(公告)号:CN117521659B
公开(公告)日:2024-03-26
申请号:CN202410010206.6
申请日:2024-01-04
Applicant: 西安电子科技大学
IPC: G06F40/295 , G06F40/216 , G06N3/0455 , G06N3/0475 , G06N3/048 , G06N3/0499 , G06N3/08 , G06F16/33 , G06F16/35
Abstract: 本发明公开了一种基于语义增强预训练孪生网络的中文实体链接方法和系统。通过将短文本的实体指代在知识库中匹配出候选实体集合及各候选实体的实体描述信息,将短文本、候选实体前后分别用第一标记分界后,与候选实体描述信息输入BERT,以分别提取整体特征、实体指代特征、候选实体及其实体描述特征,分别对实体指代特征和候选实体及其实体描述特征进行最大池化,再借助多层感知机分别提取第一向量和第二向量,用多层感知机从整体特征获取第三向量,拼接各向量及其之间的运算向量,进行维度固定后以此进行激活、全连接,得到预测值;链接预测值为1的候选实体到短文本。本发明模型结构简单,链接准确率高。
-
-
-