-
公开(公告)号:CN116384357A
公开(公告)日:2023-07-04
申请号:CN202310206235.5
申请日:2023-03-06
Applicant: 厦门大学
IPC: G06F40/183 , G06F40/289
Abstract: 本申请提出了一种基于序列到集合生成的表格生成方法及装置,该方法包括获取文本,并对文本进行分词处理;将分词处理后的文本输入到文本编码器进行编码,以得到编码后的文本特征向量表示;将文本特征向量表示输入到表头生成器进行解码,以得到表头和表头特征向量表示;将文本特征向量表示和表头特征向量表示输入到表体生成器进行解码,以并行的生成表体行;构建表格生成模型,并根据文本、表头和表体行进行训练,其中,训练过程中对预生成的表体行首列和训练目标首列进行一对一匹配;通过训练好的表格生成模型对预测文本进行预测,以生成对应的完整表格;由此,无需考虑行之间的顺序依赖关系,从而有效提高生成的效率和准确度。
-
公开(公告)号:CN119514539A
公开(公告)日:2025-02-25
申请号:CN202411342995.X
申请日:2024-09-25
Applicant: 厦门大学
IPC: G06F40/289 , G06F16/334 , G06N7/01 , G06N20/00 , G06F17/16
Abstract: 本申请的实施例提供了一种关键短语生成模型的训练方法、关键短语生成方法及装置。该训练方法包括:获取训练文档及其对应的若干关键短语真值;基于最优传输理论,将若干关键短语真值分配给若干控制码;将训练文档输入至生成器中,以使生成器输出若干候选关键短语;将若干候选关键短语输入至选择器中,以使选择器输出决策标签,决策标签用以指示保留或丢弃对应的候选关键短语;构建生成器对应的第一损失函数,以及选择器对应的第二损失函数,并分别根据第一损失函数和第二损失函数对生成器和选择器进行调优,以得到目标关键短语生成模型。本申请实施例的技术方案可以兼顾关键短语生成的精确度和召回率,保证关键短语生成质量。
-