-
公开(公告)号:CN119739795A
公开(公告)日:2025-04-01
申请号:CN202411799665.3
申请日:2024-12-09
Applicant: 中国科学院计算技术研究所
IPC: G06F16/28 , G06F16/22 , G06F40/284 , G06F40/30 , G06N3/045 , G06N3/0442 , G06F18/214 , G06F18/2431 , G06F18/2415
Abstract: 本发明提出一种基于BERT和TCSMN的表格分类方法和装置,包括:获取以序列表示的待分类表格;构建包括特征提取层、注意力层和归一化层的表格分类模型,其中该特征提取层结构为串联的BERT网络模型、TCSMN网络模型和MLP网络模型;利用该特征提取层,提取该待分类表格中单元格间的时序依赖,根据该时序依赖,利用该MLP网络模型,将所述待分类表格转换为该中间表格;利用该注意力层,分别获取该中间表格中每行和每列数据的语义结构信息;根据该语义结构信息和预设的多个表格类别,对该待分类表格进行分类,得到该待分类表格的表格类别。
-
公开(公告)号:CN119691090A
公开(公告)日:2025-03-25
申请号:CN202411849332.7
申请日:2024-12-16
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种实体关系抽取方法、装置、设备、介质及程序产品,该方法包括如下步骤:依据给定实体对或者给定关系通过大语言模型生成非结构化文本;将所述非结构化文本添加至实体关系联合抽取模型的初始训练集,得到目标训练集;利用所述目标训练集对所述实体关系联合抽取模型进行训练;对获取的目标文本进行编码处理,得到所述目标文本的特征向量;基于训练好的所述实体关系联合抽取模型,结合所述特征向量对所述目标文本进行实体关系抽取,得到所述目标文本的三元组。该方法提高了实体关系联合抽取模型的可泛化能力和鲁棒性,提高了文本的实体关系抽取的有效性。
-