-
公开(公告)号:CN118656778A
公开(公告)日:2024-09-17
申请号:CN202410669554.4
申请日:2024-05-28
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
IPC: G06F18/25 , G10L25/51 , G10L25/30 , G06F18/214 , G06F18/241 , G06F18/213 , G06N3/04 , G06N3/08
Abstract: 本发明涉及人工智能领域,提供一种声音事件检测和定位方法、装置、设备、介质及程序产品,该方法包括:获取待处理数据,其中,待处理数据中包括视频数据和音频数据;基于视频数据提取视觉特征,以及基于音频数据提取音频特征;对视觉特征和音频特征进行融合处理,得到目标特征;将目标特征输入到声音事件检测和定位模型中进行处理,得到声音事件检测结果和声音事件定位结果;其中,声音事件检测和定位模型基于Mixup数据增强方法训练而成。本发明将音频特征和视觉特征进行融合,使得得到的目标特征学习不同模态的特征对声音事件检测和定位的贡献,同时,基于Mixup数据增强方法训练而成声音事件检测和定位模型的准确率更高。
-
公开(公告)号:CN116955525A
公开(公告)日:2023-10-27
申请号:CN202210384654.3
申请日:2022-04-13
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35
Abstract: 本申请实施例公开了一种多轮对话意图识别方法、装置、设备、介质及程序产品。其中,方法包括:获取第一转文本数据,第一转文本数据为对用户当前语音进行文本转换得到的数据;通过预设的文本识别模型对第一转文本数据进行标志位检测;在检测到第一转文本数据中包括目标标志位的情况下,按照目标标志位对应的改写策略对第一转文本数据进行语句改写,得到第一文本数据,其中,目标标志位包括回复标志位、未完成标志位;对第一文本数据进行意图识别,得到意图识别结果。本申请实施例能够提高用户意图的识别准确度。
-
公开(公告)号:CN111291180A
公开(公告)日:2020-06-16
申请号:CN201811497404.0
申请日:2018-12-07
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
IPC: G06F16/35 , G06F40/117 , G06F40/289
Abstract: 本发明公开了一种工单数据分类方法,该方法包括:获取工单数据;分析工单数据中至少两个关键词之间的逻辑关系,从多个预设规则中确定与逻辑关系匹配的特定规则,得到匹配结果;基于匹配结果,确定工单数据的第一目标标签;其中,第一目标标签用于表征工单数据的类型。本发明的实施例同时还公开了一种终端及存储介质。
-
公开(公告)号:CN119207417A
公开(公告)日:2024-12-27
申请号:CN202411297769.4
申请日:2024-09-18
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司 , 中国移动通信有限公司销售分公司
Abstract: 本发明提供一种语音转文字方法、装置、设备及存储介质,涉及语音识别技术领域,所述方法包括:获取语音数据以及热词列表信息;根据语音数据,获取声学特征信息;根据语音数据以及热词列表信息,基于注意力机制处理,获取热词索引信息以及注意力特征信息;根据热词索引信息,获取热词特征信息;根据声学特征信息、注意力特征信息以及热词特征信息,生成文本转换结果信息。结合热词列表信息以及注意力机制,利用热词列表信息弥补低资源语言或专业术语场景下的词汇基础,利用注意力对热词的优先级进行调整,使语音识别过程中更加准确地识别转写关键词汇,令文本转换结果信息在低资源语言或专业术语场景下更加准确,提高语音转文字的准确率和可靠性。
-
公开(公告)号:CN118800241A
公开(公告)日:2024-10-18
申请号:CN202311369389.2
申请日:2023-10-20
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
Abstract: 本申请涉及人工智能领域,提供一种声纹更新方法、装置、设备和存储介质。所述方法包括:对客户近一个周期的若干个音频进行切分,得到多个人声片段;以原注册音所在簇的人声片段时长和达到阈值为终止条件,对人声片段和原注册音进行聚类;对原注册音所在簇的人声片段进行拼接后进行特征提取,得到拼接声纹特征;基于拼接声纹特征与原注册音的比对结果更新原注册音。本申请提供的声纹更新方法根据近期通话录音数据,拼接细粒度的聚类片段作为更新的注册音,持续优化声纹模型,提高声纹认证的准确性和稳定性;聚集注册音相近的人声片段,结合时长阈值作为聚类终止条件,保证说话人特征有效性的同时确保注册音时长,提升了注册音鲁棒性。
-
公开(公告)号:CN118800212A
公开(公告)日:2024-10-18
申请号:CN202311589429.4
申请日:2023-11-27
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
Abstract: 本申请涉及计算机技术领域,提供一种语音合成前端处理方法、装置、设备和存储介质。该方法包括:对待处理文本进行切分,得到至少一个文字,基于预设字典确定每个文字对应的序号;将携带序号的待处理文本输入至韵律预测模型,得到韵律预测模型输出的韵律标签和拼音标签;其中,韵律预测模型是基于携带韵律标签和拼音标签的文本数据集,以及预设字典对应的编码向量训练得到的。本申请通过预训练编码,从预设字典中提取有关发音和韵律的编码信息,并引入模型中,从而提高模型对多音字消歧任务的预测准确率;同时,通过韵律预测模型预测韵律标签和拼音标签,降低了推理复杂度,并提高了前端任务的准确率。
-
公开(公告)号:CN118430577A
公开(公告)日:2024-08-02
申请号:CN202410490203.7
申请日:2024-04-23
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
IPC: G10L25/30 , G10L25/51 , G06F18/241 , G06N3/0455 , G06N3/0464 , G06N3/0499
Abstract: 本发明提供一种音频事件检测方法、装置、电子设备、存储介质及产品,包括:获取音频信号的声谱图;将声谱图输入预先训练好的音频事件检测模型进行处理;音频事件检测模型包括卷积核大小不同的特征提取网络以及与各个特征提取网络对应连接的分类器;通过卷积核大小不同的特征提取网络提取声谱图中不同颗粒度的时频特征,通过分类器对单个颗粒度的时频特征进行分类;根据各个分类器的输出结果,确定音频信号中包含的音频事件。本发明通过采用卷积核大小不同的特征提取网络,对不同粗细颗粒度的频域及时域特征信息进行提取,可以提升提取出的特征信息的复杂度,避免信息同质化严重的问题,有利于提高音频事件检测的准确率。
-
公开(公告)号:CN119441492A
公开(公告)日:2025-02-14
申请号:CN202411536874.9
申请日:2024-10-31
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
IPC: G06F16/353 , G06F16/3329 , G06F18/241 , G06F18/22 , G06N5/022
Abstract: 本申请涉及计算机技术领域,提供一种意图识别方法、装置、电子设备、存储介质及计算机程序产品,方法包括:基于输入信息与输入信息对应用户的历史信息,确定待识别信息;将待识别信息输入至预设小模型,得到预设小模型输出的第一意图识别结果;若第一意图识别结果中各业务知识的最大得分小于相应业务知识的预设阈值,则将待识别信息与各业务知识输入至预设大模型中,得到预设大模型输出的第二意图识别结果;预设大模型的模型参数量级大于预设小模型的模型参数量级;业务知识的预设阈值根据相应业务知识的信息长度确定;第二意图识别结果包括业务知识的匹配结果与意图类型;基于第二意图识别结果确定输出信息。本申请可以提高意图识别效率。
-
公开(公告)号:CN119007709A
公开(公告)日:2024-11-22
申请号:CN202411323079.1
申请日:2024-09-23
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
Abstract: 本发明提供一种单通道语音识别方法、设备及存储介质,涉及语音识别技术领域,所述方法包括:获取语音数据;对语音数据进行分割处理,获取多个语音片段数据;对多个语音片段数据进行特征提取处理,获取声学稳健特征信息;将声学稳健特征信息输入至预设的处理模型进行处理,获取人声片段嵌入向量;根据各个人声片段嵌入向量,获取身份标识信息以及对应的语音起止时间信息;根据身份标识信息、语音起止时间信息以及语音片段数据,获取语音识别结果信息。分割处理获取语音片段数据,便于并行处理提高处理效率,处理模型由模型加速处理后获得,简化处理过程提高处理速度并且维持模型性能水平,降低对硬件性能的要求,满足语音识别的准确率和效率要求。
-
公开(公告)号:CN116975383A
公开(公告)日:2023-10-31
申请号:CN202211117500.4
申请日:2022-09-14
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
IPC: G06F16/9032 , G06Q30/016
Abstract: 本申请提出一种多轮对话意图追踪方法、设备、装置及计算机存储介质。该方法包括:在接收到第N轮用户对话的情况下,识别所述第N轮用户对话的第N轮问题意图;获取第N‑1轮系统回复状态和第N‑1轮系统状态;并根据第N轮问题意图、第N‑1轮系统回复状态以及第N‑1轮系统状态,确定第N轮用户对话的第N轮系统状态。使得多轮次对话意图判断可以根据上一轮的系统回复、上一轮系统状态进行综合判断,避免了多轮交互中因某一轮意图理解出现错误导致的多轮对话管理模块不能顺利执行的问题。
-
-
-
-
-
-
-
-
-