-
公开(公告)号:CN114491024B
公开(公告)日:2024-04-26
申请号:CN202111680038.4
申请日:2021-12-31
Applicant: 长城信息股份有限公司
IPC: G06F16/35 , G06F40/30 , G06F16/2458 , G06F18/22 , G06F18/2431 , G06F18/2415
Abstract: 本发明公开了一种基于小样本的特定领域多标签文本分类方法,通过对原始语料中带有原始标签的语料进行标签进行分类,然后改变原始标签进行语料扩充,并基于扩充后的语料,通过mask language model对预训练语言模型进行了多任务的训练来更新模型参数,使模型充分学习到领域的语义知识,在预测的阶段则使用知识库检索的方式,使用knn减少随机性,提升分类结果的准确性。在得到预测的结果后,继续将预测的结果当作人工标签重复上述步骤,使模型能够继续学习本领域的知识,并且检索知识库也越来越大,分类的结果也得到相应的提升。
-
公开(公告)号:CN116089578A
公开(公告)日:2023-05-09
申请号:CN202211640035.2
申请日:2022-12-20
Applicant: 长城信息股份有限公司
IPC: G06F16/332 , G06F16/35
Abstract: 本发明公开了一种智能问答数据自动标注方法、系统及存储介质,根据用户提问问题,从知识库中召回与之最接近的若干标准问题供用户选择,若用户选择了其中的一条标准问题,则判断用户提问问题与选择的标准问题的相似度是否超过阈值,若是,则将用户提问问题标注为选择的标准问题的相似问题;若用户没有选择任何一条标准问题,则将用户提问问题与知识库中所有标准问题进行聚类,若用户提问问题单独为一类,则将其标注为新增标准问题,否则,将其标注为所在类的聚类中心对应的标准问题的相似问题。本发明实现了智能问答中用户提问问题的自动标注,使智能问答机器人能够在使用过程中持续优化问答能力,同时减少了大量人工工作量,提升了标注效率。
-
公开(公告)号:CN115965721A
公开(公告)日:2023-04-14
申请号:CN202210905623.8
申请日:2022-07-29
Applicant: 长城信息股份有限公司
IPC: G06T13/40 , G06V10/764 , G10L21/06
Abstract: 本发明公开了一种基于随机游走的三维伴言手势实时生成方法、设备及介质。首先收集一定数量的人类短时间说话的人体关键点三维坐标样本。根据样本来源和最大标准差将其分为数个伴言手势群。再在每个群中,通过计算不同样本首尾帧之间的向量距离,生成样本之间的一对多有向连接图。而后搜索输入音频的连续低幅值区域(说话停顿处),计算每一段语音的时长;根据每一段语音的时长,利用随机数在有向连接图中选择节点(样本)及其邻接节点,通过插入过渡帧,最终拼接为与输入音频等时长的人体关键点三维坐标序列。本发明的优势在于,实现成本相较现有技术更低;相对于重复播放录制视频,本发明生成的伴言手势也几乎不存在重复的情况,效果更好。
-
-