一种面向无障碍电影制作的基于特性挖掘的字幕提取方法和装置

    公开(公告)号:CN119723551A

    公开(公告)日:2025-03-28

    申请号:CN202411808251.2

    申请日:2024-12-10

    Applicant: 浙江大学

    Abstract: 一种面向无障碍电影制作的基于特性挖掘的字幕提取方法和装置,其方法包括:首先选取待处理的电影,抽取其中的一系列视频帧,作为挖掘字幕特性的样本。随后,用通用文字识别模型识别样本中的文字,根据识别结果挖掘字幕的位置特性和字幕颜色特性。在此基础上,利用挖掘出的字幕位置特性,精准截取电影图像,得到仅包含字幕的图像。再运用通用文字识别模型对字幕图像进行文字识别,得出字幕识别结果。此后,对所得的字幕识别结果进行处理,剔除颜色不符合预设要求的识别结果以及重复的识别结果。最后,将经过处理的字幕识别结果与时间戳相结合,准确写入字幕文件。本发明能够显著提高字幕识别的精度,为后续无障碍电影制作过程中基于电影字幕编写无障碍旁白提供了基础。

    一种基于目标检测和OCR技术的地铁标识识别方法

    公开(公告)号:CN114821565A

    公开(公告)日:2022-07-29

    申请号:CN202210519524.6

    申请日:2022-05-12

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于目标检测和OCR技术的地铁标识识别方法,通过计算机视觉技术与目标检测技术,定位地铁场景图中的地铁导引标识的坐标;利用各标识的坐标,使用目标检测与分类技术,提取地铁标识中的图像信息;使用文本检测和文本识别技术,提取地铁标识中的文本信息;计算两种信息的联合置信度,筛选有效信息并输出。本发明为地铁标识识别领域提供了相关技术,可用于为视障人群提供导航信息,帮助其安全、高效地完成地铁行程,同时也为设计地铁导航系统的人员提供更科学的设计建议。

    一种基于深度学习映射的智能量体测量方法和装置

    公开(公告)号:CN119810175A

    公开(公告)日:2025-04-11

    申请号:CN202510013889.5

    申请日:2025-01-06

    Applicant: 浙江大学

    Abstract: 本发明涉及一种基于深度学习映射的智能体型测量方法和装置,其方法包括:(1)视频数据集制作;采集包含目标人体及参考物瓶子的影像数据;(2)参照物检测:应用深度学习模型对每一帧视频中的参照物进行识别,计算映射比例;(3)关键点检测:通过关键点检测算法检测视频中的人体及骨骼关键点,进而计算相关身体参数;(4)神经网络优化:设计神经网络对测量结果进行优化调校,提升测量精度;(5)将完成的算法模型应用于实际测量场景。本发明具有鲁棒性强、适用性广泛的特点,适用于智能体型量测、虚拟试衣、健康管理等多个领域,且具有显著的商业应用前景。

    一种可解释性的增强视频目标分割精度方法和装置

    公开(公告)号:CN118628962A

    公开(公告)日:2024-09-10

    申请号:CN202410900891.X

    申请日:2024-07-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种可解释性的增强视频目标分割精度方法和装置,该方法基于可解释性梯度激活图对含卷积层簇的深度学习网络面向视频目标分割任务时,实现该深度学习网络分割精度的提升。包括(1)卷积簇深度学习网络训练原始视频数据集;(2)根据本发明所设计3D可解释性激活张量筛选视频帧弱特征像素;(3)根据3D可解释性激活张量计算出目标在单个视频中的运动范围制作新视频集;(4)卷积簇深度学习网络重新训练新视频集,增强目标在运动范围中的弱视频帧像素特征。(5)训练收敛后,进行实地应用。本发明具有高分割精度,计算量少特点。其中弱视频帧像素可提供面向视频目标分割任务的深度学习网络的改进方向,并得出该深度学习网络的可解释性的可提升空间。

Patent Agency Ranking