-
公开(公告)号:CN119761349A
公开(公告)日:2025-04-04
申请号:CN202411824578.9
申请日:2024-12-12
Applicant: 重庆邮电大学
IPC: G06F40/232 , G06F16/31 , G06F16/334 , G06N3/042 , G06N3/0455 , G06N3/084 , G06N3/0895
Abstract: 本发明公开了一种基于外部知识编码网络的文本纠错方法,包括:获取特定领域的待纠错文本数据,将其输入到文本纠错网络中的Bert层,得到待纠错文本的句向量表征CLS;通过外部知识编码网络得到外部知识向量表征,将其存储于向量数据库D中;计算待纠错文本的句向量表征CLS与向量数据库D中所有外部知识向量表征的相似度,得到该句向量表征CLS相对于所有外部知识向量表征的相似度得分;选取相似度得分最高的外部知识向量表征并用其替换该待纠错文本的句向量表征CLS,得到新句向量表征CLS’;将新句向量表征CLS’输入到文本纠错网络中的其他模块,该文本纠错网络输出纠错后的文本数据。本发明可以解决文本纠错模型无法利用外部知识进行事实性纠错的问题,提高文本纠错模型的性能。
-
公开(公告)号:CN119621984A
公开(公告)日:2025-03-14
申请号:CN202411739848.6
申请日:2024-11-29
Applicant: 重庆邮电大学
IPC: G06F16/353 , G06F16/334 , G06F40/30 , G06N3/0455 , G06N3/094 , G06N5/04
Abstract: 本发明涉及对比学习领域,特别涉及一种文本数据处理方法及装置、文本数据检测方法及装置,所述方法包括将多个领域的人造文本输入大模型工具按照启发式规则分别得到对应的AIGC文本,组成检测增强文本对,并通过多层级的编码器网络和对应多层级的辅助编码网络分别对检测增强文本对中的文本进行编码,并使用多层级知识保护对比学习损失函数优化编码器模型。本发明使编码器模型能够同时对多个领域的文本数据进行无领域语义混淆的高精度文本AIGC检测并能在保持原始知识分布细微变化的情况下拉开人造文本与AIGC文本之间的语义分布,实现插件式的检测领域拓展与检测精度增强。
-