-
公开(公告)号:CN115759238B
公开(公告)日:2023-08-11
申请号:CN202310005904.2
申请日:2023-01-04
Applicant: 北京科技大学
IPC: G06N3/082 , G06N3/04 , G06V10/764 , G06V10/82
Abstract: 本公开涉及一种量化模型的生成方法及装置、电子设备及存储介质,所述方法包括:对于预先训练的目标检测模型进行量化;根据所述目标检测模型每一网络层的量化前与量化后输出值的差值,确定每一网络层对目标检测模型的贡献度;对于贡献度小于预设阈值的所有网络层进行分组,确定每一组的网络层;对每一组的网络层和贡献度大于或等于预设阈值的每一网络层,进行并行量化,得到与所述目标检测模型对应的量化模型,将每一组的多个贡献度小于预设阈值的网络层与单个贡献度大于或等于预设阈值的网络层进行并行量化,能够通过对贡献度较大的网络层进行单独量化,确保量化过程精度,并通过并行量化的方式提高量化过程的速度。
-
公开(公告)号:CN116543749A
公开(公告)日:2023-08-04
申请号:CN202310814315.9
申请日:2023-07-05
Applicant: 北京科技大学
Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。
-
公开(公告)号:CN115759238A
公开(公告)日:2023-03-07
申请号:CN202310005904.2
申请日:2023-01-04
Applicant: 北京科技大学
IPC: G06N3/082 , G06N3/04 , G06V10/764 , G06V10/82
Abstract: 本公开涉及一种量化模型的生成方法及装置、电子设备及存储介质,所述方法包括:对于预先训练的目标检测模型进行量化;根据所述目标检测模型每一网络层的量化前与量化后输出值的差值,确定每一网络层对目标检测模型的贡献度;对于贡献度小于预设阈值的所有网络层进行分组,确定每一组的网络层;对每一组的网络层和贡献度大于或等于预设阈值的每一网络层,进行并行量化,得到与所述目标检测模型对应的量化模型,将每一组的多个贡献度小于预设阈值的网络层与单个贡献度大于或等于预设阈值的网络层进行并行量化,能够通过对贡献度较大的网络层进行单独量化,确保量化过程精度,并通过并行量化的方式提高量化过程的速度。
-
公开(公告)号:CN119810729A
公开(公告)日:2025-04-11
申请号:CN202411756643.9
申请日:2024-12-02
Applicant: 北京科技大学
Abstract: 本公开涉及安全检测领域,更具体地,本公开涉及一种人字梯使用安全的检测方法、电子设备及存储介质。方法包括:通过第一目标检测模型检测目标图像中是否包括人字梯;在所述目标图像中包括所述人字梯的情况下,基于所述第二目标检测模型确定所述目标图像中是否包括安全绳;在所述目标图像中包括所述安全绳的情况下,基于所述安全绳与所述人字梯的相对位置关系确定所述人字梯是否配备了安全绳。
-
公开(公告)号:CN119558597A
公开(公告)日:2025-03-04
申请号:CN202411665536.5
申请日:2024-11-20
Applicant: 北京科技大学
IPC: G06Q10/0631 , G06Q50/04
Abstract: 本发明提供一种面向钢铁工业的基于大模型的智能统筹分配方法,涉及人工智能技术领域。所述一种面向钢铁工业的基于大模型的智能统筹分配方法由用户端、任务需求输入模块、大模型语义理解模块、子模型调度模块、执行与结果分析模块实现,该方法包括:用户端输入钢铁工业生产的任务需求;任务需求输入模块通过对任务需求进行标准化处理,获得标准化的文本数据;大模型语义理解模块对文本数据进行处理,获得任务目标、任务模型需求以及任务模型的参数;通过子模型调度模块进行动态调度,确定子模型;子模型执行任务,获得子模型的执行结果;执行与结果分析模块对执行结果进行处理,输出符合任务需求的综合分析结果。采用本发明可提升任务处理效率。
-
公开(公告)号:CN117133059B
公开(公告)日:2024-03-01
申请号:CN202311045752.5
申请日:2023-08-18
Applicant: 北京科技大学
Abstract: 本发明提供一种基于局部注意力机制的人脸活体检测方法和装置,方法包括:S1、将人脸活体检测数据集中的视频进行预处理,得到预处理后的图片数据;S2、在图像分类数据集ImageNet上预训练的视觉Transformer模型Vi T中,插入局部注意力Patch Attent i on模块和新的MLP分类头,再使用所述预处理后的图片数据对新的视觉Transformer模型进行微调,得到训练完成的Vi T*模型;S3、使用所述Vi T*模型作为教师网络,指导插入局部注意力Patch Attent i on模块的轻量级Vi T‑T i ny模型学习,训练得到最终的Vi T‑T i ny*模型;S4、使用最终的Vi T‑
-
公开(公告)号:CN119902496A
公开(公告)日:2025-04-29
申请号:CN202411907962.5
申请日:2024-12-23
Applicant: 北京科技大学
IPC: G05B19/418
Abstract: 本公开涉及智能调度领域,更具体地,本公开涉及一种家装场景的智能调度系统、方法、电子设备及存储介质。系统包括:解析模块,所述解析模块基于大语言模型解析用户输入的信息,获得输入特征;模型选择模块,所述模型选择模块基于所述解析模块获得的所述输入特征,从预存储的多个模型中确定与所述用户输入的信息相关的目标模型;处理模块,所述处理模块通过所述目标模型对所述用户输入的信息进行处理,获得对应的处理结果。
-
公开(公告)号:CN119810806A
公开(公告)日:2025-04-11
申请号:CN202411756387.3
申请日:2024-12-02
Applicant: 北京科技大学
Abstract: 本公开涉及壁纸检测领域,更具体地,本公开涉及一种保护壁纸类型的识别方法、装置、电子设备及存储介质。方法包括:通过预训练的目标检测模型检测识别目标图像,获得第一检测框、第二检测框和第三检测框,其中,第一检测框用于标记门在目标图像中对应的区域,第二检测框用于标记窗户在目标图像中对应的区域,第三检测框用于标记保护壁纸在目标图像中的对应的区域;基于第一检测框、第二检测框和第三检测框的相对位置关系,确定每个第三检测框对应的保护壁纸的类型,保护壁纸的类型包括门的保护壁纸、窗户的标准壁纸或其他类型的保护壁纸。
-
公开(公告)号:CN117133059A
公开(公告)日:2023-11-28
申请号:CN202311045752.5
申请日:2023-08-18
Applicant: 北京科技大学
Abstract: 本发明提供一种基于局部注意力机制的人脸活体检测方法和装置,方法包括:S1、将人脸活体检测数据集中的视频进行预处理,得到预处理后的图片数据;S2、在图像分类数据集ImageNet上预训练的视觉Transformer模型Vi T中,插入局部注意力Patch Attent i on模块和新的MLP分类头,再使用所述预处理后的图片数据对新的视觉Transformer模型进行微调,得到训练完成的Vi T*模型;S3、使用所述Vi T*模型作为教师网络,指导插入局部注意力Patch Attent i on模块的轻量级Vi T‑T i ny模型学习,训练得到最终的Vi T‑T i ny*模型;S4、使用最终的Vi T‑T i ny*模型进行推理,判断待检测图片是否为真实人脸。本发明对演示攻击具有良好的分辨能力,从而提升模型检测精度。
-
公开(公告)号:CN116543749B
公开(公告)日:2023-09-15
申请号:CN202310814315.9
申请日:2023-07-05
Applicant: 北京科技大学
Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。
-
-
-
-
-
-
-
-
-