-
公开(公告)号:CN115827876B
公开(公告)日:2023-06-02
申请号:CN202310032603.9
申请日:2023-01-10
Applicant: 中国科学院自动化研究所
IPC: G06F16/35 , G06F40/205
Abstract: 本申请提供一种未标注文本的确定方法、装置和电子设备,涉及数据处理技术领域。该方法包括:获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签;分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中,根据得到的多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量,从多个未标注文本中确定多个候选未标注文本;根据多个候选未标注文本各自对应的类别标签分布熵值,从多个候选未标注文本中确定目标未标注文本,目标未标注文本用于训练文本类别分析模型,可以准确地选择未标注文本,从而提高了训练得到的文本类别分析模型的泛化能力。
-
公开(公告)号:CN115827876A
公开(公告)日:2023-03-21
申请号:CN202310032603.9
申请日:2023-01-10
Applicant: 中国科学院自动化研究所
IPC: G06F16/35 , G06F40/205
Abstract: 本申请提供一种未标注文本的确定方法、装置和电子设备,涉及数据处理技术领域。该方法包括:获取多个未标注文本、多个已标注文本以及多个已标注文本各自的类别标签;分别将多个未标注文本和多个已标注文本输入至文本类别分析模型的特征提取网络中,根据得到的多个未标注文本各自对应的特征向量和多个已标注文本各自对应的特征向量,从多个未标注文本中确定多个候选未标注文本;根据多个候选未标注文本各自对应的类别标签分布熵值,从多个候选未标注文本中确定目标未标注文本,目标未标注文本用于训练文本类别分析模型,可以准确地选择未标注文本,从而提高了训练得到的文本类别分析模型的泛化能力。
-
公开(公告)号:CN115238068A
公开(公告)日:2022-10-25
申请号:CN202210709135.X
申请日:2022-06-21
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音转录文本聚类方法、装置、电子设备和存储介质,所述方法包括:提取各语音转录文本的向量表示;将各语音转录文本的向量表示输入至文本聚类模型,得到文本聚类模型输出的各语音转录文本的聚类结果;本发明以最小化相同样本语音转录文本的向量表示之间的距离,最大化不同样本语音转录文本的向量表示之间的距离,最小化样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及最大化样本语音转录文本的向量表示与其它类别的语义向量之间的距离为目标迭代更新训练得到文本聚类模型,最终使得文本聚类模型能够从文本层面和类别层面对各语音转录文本进行聚类,进而准确得到聚类结果。
-
-