语音识别方法、模型的训练方法、装置、电子设备和车辆

    公开(公告)号:CN119889300A

    公开(公告)日:2025-04-25

    申请号:CN202510095203.1

    申请日:2025-01-21

    Abstract: 本发明涉及一种语音识别方法、模型的训练方法、装置、电子设备和车辆,包括对混合音频流进行特征提取,得到目标对象的第一音频特征和所述目标对象之外的其他对象的第二音频特征,混合音频流中包括至少两个对象的语音,目标对象为从至少两个对象中区分的一个对象;根据第一音频特征,获得目标对象发出的语音的第一特征向量;根据第二音频特征,预测得到与目标对象可能发出的语音关联的第二特征向量;根据第一特征向量和第二特征向量,识别得到混合音频流中目标对象发出的语音对应的目标文本。本发明实施例通过双路径提取的特征来识别混合音频流中目标对象的语音,可以提高对混合音频流的识别准确度。

    一种行泊一体交互方法及装置
    2.
    发明公开

    公开(公告)号:CN116901934A

    公开(公告)日:2023-10-20

    申请号:CN202310875610.5

    申请日:2023-07-17

    Abstract: 本发明涉及一种行泊一体交互方法及装置,包括:在车载终端加载3D车控界面;判断车辆的运行模式;当车辆的运行模式为行车模式时,使用所述3D车控界面中的虚拟摄像头,显示车辆行驶区域的3D路况地图;对所述3D路况地图的车辆进行泊车功能分析,获取泊车结果;根据所述泊车结果调整所述虚拟摄像头的视角;在所述车载终端显示调整视角后的车辆的3D路况地图及车辆的目标停车位;根据所述目标停车位进行泊车,以解决现有技术中的汽车行驶场景和停车场景无法交互的问题。

    一种车辆的环境数据推送方法及装置、设备、存储介质

    公开(公告)号:CN117741832A

    公开(公告)日:2024-03-22

    申请号:CN202311771354.1

    申请日:2023-12-20

    Abstract: 本发明涉及一种车辆的环境数据推送方法及装置、设备、存储介质,方法包括:利用预设环境数据集中的第一环境数据集构建预设环境预测模型;预设环境数据集由目标车辆在第一时间段内采集的历史传感器环境数据、以及目标环境监测点在第一时间段内生成的历史环境预报数据生成;将第二环境数据集输入预设环境预测模型中,得到筛选后的一组环境数据;第二环境数据集为预设环境数据集中除第一环境数据集外的数据集;第二环境数据集中包括目标环境监测点在第一时间段内针对第二时间段预报的环境预报数据;基于一组环境数据确定第二时间段内的实时环境数据;将实时环境数据推送至目标车辆。本发明能够提高环境数据预测的准确性,从而提升用户的出行体验。

    数字角色模型的创建方法、装置、电子设备及存储介质

    公开(公告)号:CN116303950A

    公开(公告)日:2023-06-23

    申请号:CN202310187922.7

    申请日:2023-03-01

    Abstract: 本申请涉及一种数字角色模型的创建方法、装置、电子设备及存储介质,包括:获取待创建数字角色模型的多维度信息、数字形象信息、初始角色等级和话题书架;确定待创建数字角色模型的应答策略和回绝策略,根据应答策略、回绝策略、初始角色等级和话题书架配置待创建数字角色模型,得到初始数字角色模型;对初始数字角色模型进行训练,直至训练后的初始数字角色模型满足预设训练条件,得到最终数字角色模型,以通过最终数字角色模型与用户进行对话交互。由此,解决了相关技术中的智能数字人感知能力较弱,应答策略单一,个性不足并且训练周期长、无法校验等问题,提升用户与智能座舱之间交互过程的知心度和舒适感,实现千人千面的交互体验的目的。

    基于车联网的驾驶提示方法、装置、设备及介质

    公开(公告)号:CN117734721A

    公开(公告)日:2024-03-22

    申请号:CN202410006962.1

    申请日:2024-01-02

    Abstract: 本发明涉及车辆控制技术领域,公开了基于车联网的驾驶提示方法、装置、设备及介质,该方法包括:获取自车的第一驾驶特征以及周边车辆的第二驾驶特征;第一驾驶特征和第二驾驶特征均包括车辆的位置信息、目的地和驾驶员情绪状态;基于第一驾驶特征以及第二驾驶特征中的位置信息和目的地,确定与自车经过共同路段的目标周边车辆;基于自车的驾驶员情绪状态,以及目标周边车辆的驾驶员情绪状态,对自车进行驾驶提示。从而在周边车辆的驾驶员可能存在疲劳驾驶、路怒症或者情绪焦虑的时候,提醒提示自车驾驶员注意周边车辆的驾驶状态,并及时调整自车的驾驶状态,防止突发的意外情况威胁到人身安全,提高用户体验。

    人声提取方法、装置、产品、无麦车载KTV系统及方法

    公开(公告)号:CN117198318A

    公开(公告)日:2023-12-08

    申请号:CN202311213608.8

    申请日:2023-09-19

    Abstract: 本发明实施例提供一种人声提取方法、装置、产品、无麦车载KTV系统及方法。方法包括:对多个融合特征进行多头注意力加权和处理,获得第一中间人声特征;对所述第一中间人声特征进行人声增强处理,获得第二中间人声特征;通过对音频数据进行人声特征提取,获得对应的目标音频特征;将目标音频特征中的第一目标音频特征与所述第二中间人声特征进行相乘处理,获得第一目标人声特征,以及,将加权中间人声特征与目标音频特征中的第二目标音频特征进行相乘处理,获得第二目标人声特征;通过对所述第一目标人声特征和所述第二目标人声特征进行特征转换,获得对应的人声数据。旨在有效提升封闭场景下的人声提取准确度。

    基于视觉追踪的全息投影交互方法、装置、车辆及介质

    公开(公告)号:CN116643649A

    公开(公告)日:2023-08-25

    申请号:CN202310421578.3

    申请日:2023-04-19

    Abstract: 本申请涉及人机交互技术领域,特别涉及一种基于视觉追踪的全息投影交互方法、装置、车辆及介质,包括:检测当前车辆的驾驶状态;根据驾驶状态确定多个转体摄像头和/或多个眼球追踪摄像头的工作状态和全息投影的位置,并在多个转体摄像头处于启用状态时,利用多个转体摄像头采集用户的面部旋转角度;根据面部旋转角度和多个眼球追踪摄像头的工作状态确定至少一个目标眼球追踪摄像头,并获取至少一个目标眼球追踪摄像头采集到的摄像头数据,并基于全息投影的位置和摄像头数据进行全息投影。由此,解决了相关技术中的眼球追踪技术无法适应用户的多角度转动,并且车机交互趣味性低等问题,为车机交互增加趣味性、改善视觉交互体验,提高用户舒适度。

    一种多模态娱乐交互方法、装置、设备及介质

    公开(公告)号:CN116610212A

    公开(公告)日:2023-08-18

    申请号:CN202310481822.5

    申请日:2023-04-28

    Abstract: 本申请涉及座舱控制技术领域,提供了一种多模态娱乐交互方法、装置、设备及介质,方法包括:获取用户的手势信息、体态信息、视线方向信息、声源定位信息;根据声源定位信息确定用户位置,并根据视线方向信息确定用户位置处的娱乐信息目标显示区域;将手势信息与预先构建的手势库中的候选手势进行匹配,得到目标手势;调用与目标手势对应的目标手势控制参数,并根据目标手势控制参数调整所述娱乐信息的输出效果;将手势信息、体态信息、视线方向信息和声源定位信息传输至预先构建的环境灯光控制参数生成模型,得到环境灯光控制参数,并根据环境灯光控制参数调整预先配置的环境灯光控制单元的输出,完成多模态娱乐交互。

    车载娱乐交互方法、装置、车辆及存储介质

    公开(公告)号:CN116400805A

    公开(公告)日:2023-07-07

    申请号:CN202310324935.4

    申请日:2023-03-29

    Abstract: 本申请涉及车载娱乐技术领域,特别涉及一种车载娱乐交互方法、装置、车辆及存储介质,其中,方法包括:检测车辆是否进入多模态娱乐交互模式;在车辆进入多模态娱乐交互模式时,识别车内人员的体态信息、手势信息、视觉感知信息和音频信息中的一种或多种;根据体态信息、手势信息、视觉感知信息和音频信息中的一种或多种确定车辆的一个或多个交互组件的交互参数,利用交互参数控制一个或多个交互组件执行交互动作。由此,解决了相关技术中车载娱乐系统基于中控屏幕显示和语音控制交互的局限性,人机交互的互动维度、趣味性和氛围感不足,科技化和智能化体验不高等问题。

    语义解析方法、装置、电子设备及存储介质

    公开(公告)号:CN116384406A

    公开(公告)日:2023-07-04

    申请号:CN202310187934.X

    申请日:2023-03-01

    Abstract: 本申请涉及自然语言理解模型领域,特别涉及一种语义解析方法、装置、电子设备及存储介质,其中,方法包括:获取目标语料库,其中,目标语料库包括多个目标区域的用户语义信息,基于每个目标区域的语义特征,对目标语料库中的用户语义信息进行分发,得到每个目标区域的域库,并基于每个目标区域的域库构建每个目标区域的区域语义模型,对每个目标区域的区域语义模型和/或预设的通用语义模型进行模型自适应调整,得到基于城市区域的语义理解模型,以通过基于城市区域的语义理解模型分析接收到的用户语句,完成区域语义解析。由此,通过区域语义的模型迭代和部署方案,解决了区域语义问题,从而提升地区内用户的语义理解功能的使用体验。

Patent Agency Ranking