-
公开(公告)号:CN114463689A
公开(公告)日:2022-05-10
申请号:CN202210384507.6
申请日:2022-04-13
Applicant: 北京达佳互联信息技术有限公司
IPC: G06V20/40 , G06K9/62 , G06N3/04 , G06V10/82 , G06V10/774 , G06V10/764
Abstract: 本公开关于一种目标识别网络的训练方法、装置、电子设备及存储介质,属于视频处理技术领域。方法包括:从识别超网络的多个候选识别子网络中,确定教师子网络和学生子网络;以样本视频中每个视频帧的标签为监督,基于教师子网络对样本视频的识别结果,调整教师子网络的模型参数;以样本视频中每个视频帧的标签、教师子网络对样本视频的识别结果为监督,基于学生子网络对样本视频的识别结果,调整学生子网络的模型参数;从调整后的教师子网络和调整后的学生子网络中,确定用于识别边界视频帧的目标识别网络。该方法中,学生子网络的准确率能够得到较大的提高,进而保证了从教师子网络和学生子网络中确定出的目标识别网络的准确率较高。
-
公开(公告)号:CN119919512A
公开(公告)日:2025-05-02
申请号:CN202411732055.1
申请日:2024-11-28
Applicant: 北京达佳互联信息技术有限公司
IPC: G06T11/00 , G06T5/60 , G06T5/70 , G06T5/50 , G06N3/08 , G06N3/0464 , G06N3/0455
Abstract: 本公开关于一种图像生成模型训练方法、图像生成方法、装置、电子设备、存储介质和计算机程序产品。所述方法包括:获取第一分辨率的第一样本图像,以及第一样本图像对应的第一文本描述信息和第一样本加噪图像;根据第一样本加噪图像和第一文本描述信息,对待训练的图像生成模型进行迭代训练,得到初始图像生成模型;获取第二分辨率的第二样本图像,以及第二样本图像对应的第二文本描述信息和第二样本加噪图像;第二分辨率高于第一分辨率;第二图像加噪模型的总加噪步数大于第一图像加噪模型的总加噪步数;根据第二样本加噪图像和第二文本描述信息,对初始图像生成模型进行迭代训练,得到目标图像生成模型。采用本方法,能够提高图像生成准确率。
-
公开(公告)号:CN117041683A
公开(公告)日:2023-11-10
申请号:CN202310848350.2
申请日:2023-07-11
Applicant: 北京达佳互联信息技术有限公司
IPC: H04N21/485 , G10L15/00 , G10L15/18 , G10L15/26 , G10L25/06 , G06F40/55 , H04N21/488
Abstract: 本公开关于一种字幕生成方法、装置、电子设备及存储介质,所述方法包括:对多媒体资源中的第一文本进行切分处理,得到第一文本对应的多个第一子文本,确定在多媒体资源中多个第一子文本各自对应的显示时间区间;对多个第一子文本对应的拼接文本进行翻译,得到第二文本,对第二文本进行切分,得到第二文本对应的多个第二子文本;根据多个第一子文本各自对应的显示时间区间,以及多个第一子文本与多个第二子文本之间的对应关系,确定在多媒体资源中多个第二子文本各自对应的显示时间区间;基于多个第二子文本各自对应的显示时间区间,在多媒体资源中嵌入多个第二子文本,生成多媒体资源的翻译字幕。本公开实现了高效地为多媒体资源添加翻译字幕。
-
公开(公告)号:CN114463689B
公开(公告)日:2022-07-26
申请号:CN202210384507.6
申请日:2022-04-13
Applicant: 北京达佳互联信息技术有限公司
IPC: G06V20/40 , G06K9/62 , G06N3/04 , G06V10/82 , G06V10/774 , G06V10/764
Abstract: 本公开关于一种目标识别网络的训练方法、装置、电子设备及存储介质,属于视频处理技术领域。方法包括:从识别超网络的多个候选识别子网络中,确定教师子网络和学生子网络;以样本视频中每个视频帧的标签为监督,基于教师子网络对样本视频的识别结果,调整教师子网络的模型参数;以样本视频中每个视频帧的标签、教师子网络对样本视频的识别结果为监督,基于学生子网络对样本视频的识别结果,调整学生子网络的模型参数;从调整后的教师子网络和调整后的学生子网络中,确定用于识别边界视频帧的目标识别网络。该方法中,学生子网络的准确率能够得到较大的提高,进而保证了从教师子网络和学生子网络中确定出的目标识别网络的准确率较高。
-
公开(公告)号:CN114299415B
公开(公告)日:2024-10-25
申请号:CN202111467723.9
申请日:2021-12-02
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种视频切分方法、装置、电子设备以及存储介质,涉及视频处理技术领域。本公开实施例至少解决相关技术中,切分后的视频片段中的语音完整性被破坏的问题。该方法包括:获取目标视频中每个音频片段的语音边界时间点;获取目标视频中的镜头边界时间点,镜头边界时间点为目标视频的视频镜头的切分时间点;根据语音边界时间点中任一边界点,与镜头边界时间点之间的时间差值,对语音边界时间点中任一边界点进行调整,获取调整后的语音边界时间点;基于调整后的语音边界时间点与镜头边界时间点,对目标视频进行切分,获取至少一个目标子视频。
-
公开(公告)号:CN117953090A
公开(公告)日:2024-04-30
申请号:CN202410009434.1
申请日:2024-01-03
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种图像处理方法、装置、电子设备及存储介质,该方法包括:将文本输入文生图模型,得到待修复图像;对所述待修复图像进行裁剪,得到所述人脸区域图像;基于所述人脸区域图像和所述文本,在人脸图像库中检索得到参考图像;将所述参考图像、所述文本和所述人脸区域图像输入所述文生图模型,得到目标人脸图像;以所述目标人脸图像覆盖所述待修复图像中的所述人脸区域图像,得到修复后图像。本公开通过检索参考图像,然后基于参考图像、人脸区域图像和文本等多个不同模态的信息,进行人脸修复,修复后图像在人脸质量提升的同时,还保留了人脸的主要属性。
-
公开(公告)号:CN113901330B
公开(公告)日:2022-10-11
申请号:CN202111500170.2
申请日:2021-12-09
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/9535 , G06F16/783 , G06N3/04 , G06N3/08
Abstract: 本公开关于一种视频搜索方法、装置、电子设备以及存储介质,涉及智能搜索技术领域,其中,该方法包括:接收客户端发送的搜索请求;获取搜索请求中搜索文本对应的多种第一文本特征,并获取各候选视频对应的多种第一视频特征;根据各候选视频对应的多种第一视频特征和多种第一文本特征,确定各候选视频与搜索文本之间的相似度;根据各候选视频的相似度,从各候选视频中确定与搜索文本匹配的目标视频;向客户端发送搜索响应,其中,搜索响应中包括目标视频的视频信息。由此,基于文本对应的多种文本特征和各视频对应的多种视频特征,来确定与文本匹配的目标视频,可以提升确定结果的可靠性,从而使得视频搜索结果能够满足用户的实际需求。
-
公开(公告)号:CN114299415A
公开(公告)日:2022-04-08
申请号:CN202111467723.9
申请日:2021-12-02
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种视频切分方法、装置、电子设备以及存储介质,涉及视频处理技术领域。本公开实施例至少解决相关技术中,切分后的视频片段中的语音完整性被破坏的问题。该方法包括:获取目标视频中每个音频片段的语音边界时间点;获取目标视频中的镜头边界时间点,镜头边界时间点为目标视频的视频镜头的切分时间点;根据语音边界时间点中任一边界点,与镜头边界时间点之间的时间差值,对语音边界时间点中任一边界点进行调整,获取调整后的语音边界时间点;基于调整后的语音边界时间点与镜头边界时间点,对目标视频进行切分,获取至少一个目标子视频。
-
公开(公告)号:CN113901330A
公开(公告)日:2022-01-07
申请号:CN202111500170.2
申请日:2021-12-09
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/9535 , G06F16/783 , G06N3/04 , G06N3/08
Abstract: 本公开关于一种视频搜索方法、装置、电子设备以及存储介质,涉及智能搜索技术领域,其中,该方法包括:接收客户端发送的搜索请求;获取搜索请求中搜索文本对应的多种第一文本特征,并获取各候选视频对应的多种第一视频特征;根据各候选视频对应的多种第一视频特征和多种第一文本特征,确定各候选视频与搜索文本之间的相似度;根据各候选视频的相似度,从各候选视频中确定与搜索文本匹配的目标视频;向客户端发送搜索响应,其中,搜索响应中包括目标视频的视频信息。由此,基于文本对应的多种文本特征和各视频对应的多种视频特征,来确定与文本匹配的目标视频,可以提升确定结果的可靠性,从而使得视频搜索结果能够满足用户的实际需求。
-
-
-
-
-
-
-
-