-
公开(公告)号:CN116911298A
公开(公告)日:2023-10-20
申请号:CN202310176881.1
申请日:2023-02-28
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06F40/295 , G06F40/284 , G06F16/35 , G06F40/242
Abstract: 一种文本数据的增强方法及装置,该方法包括:获取针对目标任务的文本语料,所述文本语料包括标注语料;根据所述目标任务,确定第一标注语料中的待替换文本;利用第一语义特征模型选择所述待替换文本相近似的多个候选文本,利用第二语义特征模型从所述多个候选文本中选择与所述待替换文本最近似的目标文本,将所述第一标注语料中的待替换文本替换为所述目标文本,获得中间语料;对所述中间语料进行回译操作,得到第二标注语料,其中,所述第二标注语料的标签信息与所述第一标注语料的标签信息相同。本申请能够提高新增标注语料的质量,为基于标注语料训练后续的自然语言处理任务模型提供支持,改善训练得到的模型质量,提高模型的推理效果。
-
公开(公告)号:CN116414974A
公开(公告)日:2023-07-11
申请号:CN202111623468.2
申请日:2021-12-28
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06F16/35 , G06F18/241 , G06F18/25 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/08
Abstract: 本发明提供了一种短文本分类方法及装置,属于人工智能领域。短文本分类方法,包括:根据所处的业务阶段和训练数据集的样本数量确定模型组合,所述模型组合包括至少一个神经网络模型;对所述模型组合中的模型进行训练;将待处理文本输入训练后的所述模型组合,输出分类结果。本发明的技术方案能够对短文本准确进行分类。
-
公开(公告)号:CN118797055A
公开(公告)日:2024-10-18
申请号:CN202410018719.1
申请日:2024-01-04
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06F16/35 , G06F16/33 , G06F16/332 , G06N5/04
Abstract: 本申请公开了一种文本问答数据对的标注方法、装置、设备及存储介质。该方法包括:获取待标注的文本问答数据对,文本问答数据对包括:表征原始问题的第一文本数据和表征原始答案的第二文本数据;基于预训练的文本生成模型对第二文本数据进行处理,得到多个第三文本数据,各第三文本数据用于表征与原始问题对应的伪问题;基于预训练的第一句向量模型,将多个第三文本数据转换为第一向量,并将第一文本数据转换为第二向量;基于第一向量与第二向量之间的相似度,生成文本问答数据对的第一标注数据。可以减少长文本的回答数据受限于第一句向量模型的处理长度导致的匹配性能受损的缺陷,利于满足长文本的问答数据对的自动标注需求。
-
-