多媒体流的处理方法、装置及相关设备

    公开(公告)号:CN119814948A

    公开(公告)日:2025-04-11

    申请号:CN202311412575.X

    申请日:2023-10-27

    Abstract: 本申请提供一种多媒体流的处理方法,包括:输出配置界面,并响应于用户在该配置界面上的操作,获取第一配置信息,该第一配置信息用于配置录制任务、检测算法、录制要求;获取该录制任务下的多媒体流,该多媒体流为对被采集对象进行视频录制得到的视频流,或者是进行语音录制得到的音频流;根据用户配置的检测算法,对多媒体流进行检测,得到检测结果,并当该检测结果不满足用户配置的录制要求时,输出针对被采集对象的录制建议。如此,通过反馈建议,能够有效提高生成符合用户预期的录制视频/音频的效率,而且,能够满足不同用户对于不同录制任务、不同检测算法、不同录制要求的差异化需求。此外,本申请还提供了对应的处理装置及相关设备。

    2d数字人动作视频的生成方法、装置、集群和存储介质

    公开(公告)号:CN119091014A

    公开(公告)日:2024-12-06

    申请号:CN202311099873.8

    申请日:2023-08-29

    Abstract: 本公开提供了一种2d数字人动作视频的生成方法、装置、集群和存储介质,属于2d数字人技术领域。该方法包括:获取驱动语音和图像文件,其中,图像文件包括第一形象的2d真人照片或者第一形象的2d真人动作视频,基于该驱动语音和该图像文件,生成与该驱动语音匹配的2d数字人动作视频。获取该2d数字人动作视频的待编辑动作片段,使用第一形象的参考动作库,对该2d数字人动作视频中待编辑动作片段进行编辑,获得编辑后的2d数字人动作视频。采用本公开的方法,能够提升2d数字人动作视频的生成效率。

    数字人多媒体资源的生成方法、装置、设备及存储介质

    公开(公告)号:CN118860233A

    公开(公告)日:2024-10-29

    申请号:CN202310389438.2

    申请日:2023-04-12

    Abstract: 本申请公开了一种数字人多媒体资源的生成方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:响应于针对数字人的多媒体资源生成请求,根据对象的音频描述信息来确定与之匹配的音频,并基于音频调整数字人的形象,使得调整后的数字人的形象与该音频的内容匹配,进而驱动数字人动起来,得到数字人的多媒体资源。在这一过程中,无需手动调整数字人的形象,以使数字人的形象与音频的内容匹配,从而简化了人机交互操作,提高了数字人多媒体资源的生成效率,提升了用户体验感。

    工单查重方法、装置及相关设备
    5.
    发明公开

    公开(公告)号:CN117195855A

    公开(公告)日:2023-12-08

    申请号:CN202210582273.6

    申请日:2022-05-26

    Abstract: 本申请提供了一种工单查重方法,具体的,工单查重装置获取待查重工单,并获取用户指定的查重要素,然后,工单查重装置利用模型库中的要素挖掘模型,挖掘出待查重工单中属于该查重要素的要素内容,并从数据库存储的多个工单中查找出目标工单,所查找出的目标工单中属于查重要素的要素内容的语义与待查重工单中属于查重要素的要素内容的语义相匹配,从而工单查重装置提供用于呈现给用户的目标工单。如此,即使两个工单中表达语义的关键词不同,工单查重装置也能将这两个工单识别为重复工单,从而可以有效提高工单查重的准确率、提高工单查重效果。此外,本申请还提供了对应的装置及相关设备。

    样本标注的校对方法、装置、计算设备集群和存储介质

    公开(公告)号:CN117172250A

    公开(公告)日:2023-12-05

    申请号:CN202210986086.4

    申请日:2022-08-16

    Abstract: 本申请提供了一种样本标注的校对方法、装置、计算设备集群和存储介质,属于神经网络技术领域。该方法包括:获取目标样本,目标样本为待校对的标注样本,对目标样本进行结构解析,获得目标样本的第一结构解析结果,将第一结构解析结果与多个已校对的标注样本的结构解析结果进行匹配,若多个已校对的标注样本的结构解析结果中不存在与第一结构解析结果匹配的目标结构解析结果,则输出提示消息,该提示消息用于提示用户检查目标样本的标注结果。采用本申请的方案,能够为用户提示可能标注错误的样本,提升样本标注的准确率。

    一种虚拟对象的动作图像数据生成方法、装置及相关设备

    公开(公告)号:CN116681807A

    公开(公告)日:2023-09-01

    申请号:CN202310489294.8

    申请日:2023-04-28

    Abstract: 本申请公开了应用于计算机技术领域的一种虚拟对象的动作图像数据生成方法、装置及相关设备。在该方法中,获取目标音乐、形象参考图像以及乐器类型,将目标音乐、形象参考图像以及乐器类型作为手势驱动模型的输入数据,得到手势驱动模型输出的虚拟对象的乐器演奏动作图像数据。手势驱动模型能够支持多种乐器类型。目标乐器类型是手势驱动模型支持的多种乐器类型中的一种。利用手势驱动模型能够生成多种乐器类型中,指定的目标乐器类型对应的虚拟对象的乐器演奏动作图像数据。如此无需训练多个驱动模型,降低成本。

    生成视频语料的方法、装置及相关设备

    公开(公告)号:CN115269884A

    公开(公告)日:2022-11-01

    申请号:CN202110905684.X

    申请日:2021-08-06

    Abstract: 本申请提供了一种生成视频语料的方法,具体为获取待处理视频,该待处理视频对应语音内容,并且待处理视频的部分视频图像包括语音内容对应的字幕。然后,根据该语音内容,从待处理视频中获取目标视频片段,并将该目标视频片段中的视频图像包括的字幕作为该目标视频片段的标注文本,得到视频语料。如此,可以实现自动生成视频语料,从而不仅可以避免人工标注过程中因为主观认知误差而导致对于切分精度的影响,而且生成视频语料的效率通常也较高。并且,可以避免生成的视频语料中出现语音内容播放不完整的问题,同时,视频语料的标注文本的准确性更高。此外,本申请还提供了一种视频语料生成装置及相关设备。

Patent Agency Ranking