一种语音交互方法、设备及存储介质

    公开(公告)号:CN119517020A

    公开(公告)日:2025-02-25

    申请号:CN202311065233.5

    申请日:2023-08-22

    Abstract: 本文涉及语音交互技术领域,应用于智能汽车、车联网、移动终端等领域,公开了一种语音交互方法、设备及存储介质。其中,语音交互方法包括:在检测到第一用户的第一语音指令时,会首先确定第一用户对应的屏幕,例如为第一屏幕,然后可以确定第一屏幕为主语音屏,并采用该第一屏幕显示第一语音交互界面。在车载设备接收第一语音指令的过程中,若检测到第二用户发起的第二语音指令,且确定第二用户对应的屏幕为其他屏幕,例如为第二屏幕,确定第二屏幕为副语音屏,并采用该第二屏幕显示第二语音交互界面,同时采用第一屏幕显示表征存在其他用户交互的交互标识。基于上述方案,能够充分发挥多屏优势,实现多屏人机交互,有效提升用户使用体验。

    音色推荐方法、电子设备和计算机存储介质

    公开(公告)号:CN117972134A

    公开(公告)日:2024-05-03

    申请号:CN202211303152.X

    申请日:2022-10-24

    Abstract: 本申请提供一种音色推荐方法、电子设备和计算机存储介质,该方法包括:显示第一界面,第一界面用于播放第一多媒体数据;响应于针对第一界面的音频推荐控件的第一操作,获取第一音色,第一音色为所述第一多媒体数据中人声的音色,或者多个音色中和第一多媒体数据中人声的音色的相似度最大的音色;显示第一信息,第一信息指示第一音色。本申请能够将符合用户需求的音色主动推荐给用户,大大减少了用户操作,提升用户体验。

    一种通话内容录音方法及设备
    3.
    发明公开

    公开(公告)号:CN117675989A

    公开(公告)日:2024-03-08

    申请号:CN202211091743.5

    申请日:2022-09-07

    Abstract: 本申请公开了一种通话内容录音方法及设备,涉及终端技术领域,可以支持用户对重要通话内容对应的音频片断的准确定位。本申请中,终端设备可以在用户通话的过程中进行通话录音并进行通话双方的语音识别。在进行通话录音的过程中,用户可以在谈及对用户来说比较重要的通话内容时,通过对终端设备执行预设动作以触发对重要通话内容所在的录音位置的标记。终端设备在检测到终端设备与用户耳朵之间的距离变化或位姿变化符合对应的预设条件时,进行录音位置标记,以实现对重要通话内容对应的音频的实时标记,支持后续通话内容查看时,用户对重要通话内容对应的音频片断的准确定位。

    一种语音识别的方法、装置、终端以及存储介质

    公开(公告)号:CN111261144B

    公开(公告)日:2023-03-03

    申请号:CN201911409041.5

    申请日:2019-12-31

    Inventor: 耿杰

    Abstract: 本申请适用于数据处理技术领域,提供了一种基于人工智能(Artificial Intelligence,AI)语音识别的方法、装置、终端以及存储介质,该方法包括:获取待识别的目标语音信号;确定所述目标语音信号的目标语言类型;通过所述目标语言类型对应的实时语音识别模型,输出所述目标语音信号的文本信息;所述实时语音识别模型是通过包含原始语音信号以及扩展语音信号的训练集训练得到的;所述扩展语音信号是基于基础语言类型的已有文本转换得到的。本申请提供的技术方案能够增加训练非基础语言的实时语音识别模型训练所需的样本个数,从而提高了语音识别的准确性以及适用性。

    语音识别方法及设备、计算机可读存储介质

    公开(公告)号:CN115206324A

    公开(公告)日:2022-10-18

    申请号:CN202110313911.X

    申请日:2021-03-24

    Abstract: 公开了一种语音识别方法及设备、计算机可读存储介质。本申请一实施例中,语音识别方法可包括:获取待识别语音;切分所述待识别语音以获得多条语音段,所述多条语音段的相邻语音段中在前语音段的尾部与在后语音段的头部重叠;利用基于注意力机制的语音识别模型,获得所述多条语音段中各条语音段的注意力数据和初始文本段;从各条语音段的注意力数据中提取其人声数据;根据各条语音段的初始文本段、人声数据和重叠时长,获得所述各条语音段的修正后文本段;拼接所述多条语音段中各条语音段的修正后文本段,得到所述待识别语音的识别文本。本申请无需VAD等高复杂度模型即可实现较高准确率的长语音连续识别。

    数据对齐方法及装置
    6.
    发明公开

    公开(公告)号:CN107766376A

    公开(公告)日:2018-03-06

    申请号:CN201610698012.5

    申请日:2016-08-19

    Inventor: 耿杰 张旭

    CPC classification number: G06F17/30312 G06F17/30289

    Abstract: 本发明公开了一种数据对齐方法及装置,属于计算机技术领域。该方法包括:获取业务数据库包括的第一数据表集合以及基线数据库包括的第二数据表集合;确定业务数据库和基线数据库的表相似度和字段相似度;对业务数据库和基线数据库的表相似度和字段相似度进行融合运算,得到融合字段相似度;基于融合字段相似度,建立第一数据表集合中的每一个数据表的每一个字段与基线数据库中相应的字段的映射关系;显示该映射关系。本发明通过将业务数据映射到基线数据库,从而将业务数据的数据格式和存储方式进行统一,降低了人力,还提高了开发出的应用的可复制能力。

    语音处理方法、装置、系统、存储介质和程序产品

    公开(公告)号:CN119207363A

    公开(公告)日:2024-12-27

    申请号:CN202411097752.4

    申请日:2024-08-09

    Abstract: 本申请实施例提出了一种语音处理方法、装置、系统、存储介质和程序产品,涉及终端技术领域。该语音处理方法能够在面对面交流场景以及通话场景中,对语障用户的语障语音进行修复,得到修复后的语音,修复后的语音相较于语障语音的可懂度更高,这样,可以使得语障用户通过输入语音也能够进行交流,由此,能够解决语障用户进行交流的便利性不足的技术问题,从而实现了提高语障用户进行交流的便利性的技术效果。

    语音识别方法、装置及电子设备

    公开(公告)号:CN112185352B

    公开(公告)日:2024-05-17

    申请号:CN202010898592.9

    申请日:2020-08-31

    Inventor: 耿杰

    Abstract: 本申请提供了语音识别方法、装置及电子设备,适用于人工智能中的语音识别技术领域,可实现端侧语音识别,该方法包括:获取第一语音数据,并利用语音识别模型对第一语音数据进行处理,得到第一语音识别结果。其中语音识别模型是基于变换器架构的模型,且语音识别模型中包含编码器网络、预测网络和联合网络。编码器网络和预测网络中均包含卷积网络。在本申请实施例中,语音识别模型的编码器网络和预测网络均由包含卷积神经网络。因此,本申请实施例中的语音识别模型训练耗时较短。

    一种语音识别方法及装置
    9.
    发明公开

    公开(公告)号:CN115497476A

    公开(公告)日:2022-12-20

    申请号:CN202110679409.0

    申请日:2021-06-18

    Inventor: 耿杰

    Abstract: 本申请提供了一种语音识别方法及装置,应用于人工智能领域中的语音识别技术领域。该方案包括:获取待识别的语音信号;语音识别模型基于语音信号确定第一候选文字,并基于第一候选文字的音素确定语音信号的候选音素;基于第一候选文字和候选音素,确定语音信号的识别结果。本申请通过语音识别模型同时输出语音信号的候选文字和候选音素,由此获得的语音信号的识别结果更加准确,解决了现有技术的方案容易出现的OOV问题,提升了用户体验。

    一种人声分离的方法、电子设备和可读存储介质

    公开(公告)号:CN115132221A

    公开(公告)日:2022-09-30

    申请号:CN202110327998.6

    申请日:2021-03-26

    Abstract: 本申请提出一种人声分离的方法,应用于执行设备,该方法包括:接收在指定空间中的用户的语音;指定空间为具有多个成员的有限空间;根据多个成员的已注册声纹,利用用户的语音确定主说话人;确定除主说话人以外的多个成员均为噪声说话人;获取指定空间中的混合音频对应的混合频谱,混合音频为主说话人的音频和至少一个噪声说话人的音频混叠的语音信息;通过声纹过滤网络对混合频谱和多个成员的已注册声纹进行处理,得到混合音频中主说话人的频谱;其中,声纹过滤网络用于将已注册声纹中主说话人的声纹作为正向激励,将已注册声纹中多个噪声说话人的声纹作为负向激励,从混合频谱中分离出主说话人的频谱;根据主说话人的频谱得到主说话人的音频。

Patent Agency Ranking