-
公开(公告)号:CN114707467B
公开(公告)日:2024-06-14
申请号:CN202210269579.6
申请日:2022-03-18
Applicant: 浙江大学
IPC: G06F40/126 , G06F40/242 , G06F40/284
Abstract: 一种基于自注意力机制的自动化拼音转汉字方法,包括:预处理拼音序列;利用嵌入层获得输入拼音序列的嵌入表示矩阵;在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;利用全连接层将自注意力输出矩阵变换为输出矩阵;解析输出矩阵,获得汉字序列结果。该发明可在无人工干预的前提下,自动化的将拼音序列转成汉字序列。
-
公开(公告)号:CN108874883A
公开(公告)日:2018-11-23
申请号:CN201810425398.1
申请日:2018-05-07
Applicant: 浙江大学
Abstract: 一种基于用户经验偏序关系的网页信息无障碍检测方法,获取步骤如下:第一步,获得检测点通过率矩阵P与用户经验偏序关系矩阵L;第二步,运用机器学习的方式,根据Pn*m与L获取每种检测点的权值w;第三步,根据用户经验偏序关系矩阵P和权值w获取不同网站的无障碍检测得分q。
-
公开(公告)号:CN119723551A
公开(公告)日:2025-03-28
申请号:CN202411808251.2
申请日:2024-12-10
Applicant: 浙江大学
IPC: G06V20/62 , G06V20/40 , G06V30/148 , G06V30/146 , G06V10/762 , G06V10/56
Abstract: 一种面向无障碍电影制作的基于特性挖掘的字幕提取方法和装置,其方法包括:首先选取待处理的电影,抽取其中的一系列视频帧,作为挖掘字幕特性的样本。随后,用通用文字识别模型识别样本中的文字,根据识别结果挖掘字幕的位置特性和字幕颜色特性。在此基础上,利用挖掘出的字幕位置特性,精准截取电影图像,得到仅包含字幕的图像。再运用通用文字识别模型对字幕图像进行文字识别,得出字幕识别结果。此后,对所得的字幕识别结果进行处理,剔除颜色不符合预设要求的识别结果以及重复的识别结果。最后,将经过处理的字幕识别结果与时间戳相结合,准确写入字幕文件。本发明能够显著提高字幕识别的精度,为后续无障碍电影制作过程中基于电影字幕编写无障碍旁白提供了基础。
-
公开(公告)号:CN114925868A
公开(公告)日:2022-08-19
申请号:CN202210519531.6
申请日:2022-05-12
Applicant: 浙江大学
IPC: G06Q10/02 , G06Q50/30 , G06T7/10 , G06T7/246 , G06T7/277 , G06T7/62 , G06T7/50 , G06T7/80 , G06V10/82 , G06V20/62 , H04L51/046 , H04L67/02 , H04L67/12 , H04L69/16
Abstract: 本发明公开了一种基于计算机视觉技术的助盲打车方法,通过websocket协议和微信小程序获取当前用户路况;利用计算机视觉技术得到车辆坐标进行车辆跟踪并为每辆车标定唯一ID;利用计算机视觉技术获取一定帧数车牌坐标计算车辆高度;通过车辆跟踪框和单目相机相似三角形原理得出人与车辆的距离、车辆的行驶速度;根据车辆的行驶速度筛选出需要进行车牌检测、车牌识别的车辆跟踪框;通过OCR技术得到车牌的坐标以及车牌号找到目标车辆;通过websocket协议将目标车辆ID对应的车辆信息反馈给用户。本发明解决了现有技术实时性不足、车牌会被遮挡、新能源车牌识别不准以及助盲打车软件空缺的问题。
-
公开(公告)号:CN114821565A
公开(公告)日:2022-07-29
申请号:CN202210519524.6
申请日:2022-05-12
Applicant: 浙江大学
Abstract: 本发明公开了一种基于目标检测和OCR技术的地铁标识识别方法,通过计算机视觉技术与目标检测技术,定位地铁场景图中的地铁导引标识的坐标;利用各标识的坐标,使用目标检测与分类技术,提取地铁标识中的图像信息;使用文本检测和文本识别技术,提取地铁标识中的文本信息;计算两种信息的联合置信度,筛选有效信息并输出。本发明为地铁标识识别领域提供了相关技术,可用于为视障人群提供导航信息,帮助其安全、高效地完成地铁行程,同时也为设计地铁导航系统的人员提供更科学的设计建议。
-
公开(公告)号:CN119810175A
公开(公告)日:2025-04-11
申请号:CN202510013889.5
申请日:2025-01-06
Applicant: 浙江大学
Abstract: 本发明涉及一种基于深度学习映射的智能体型测量方法和装置,其方法包括:(1)视频数据集制作;采集包含目标人体及参考物瓶子的影像数据;(2)参照物检测:应用深度学习模型对每一帧视频中的参照物进行识别,计算映射比例;(3)关键点检测:通过关键点检测算法检测视频中的人体及骨骼关键点,进而计算相关身体参数;(4)神经网络优化:设计神经网络对测量结果进行优化调校,提升测量精度;(5)将完成的算法模型应用于实际测量场景。本发明具有鲁棒性强、适用性广泛的特点,适用于智能体型量测、虚拟试衣、健康管理等多个领域,且具有显著的商业应用前景。
-
公开(公告)号:CN119763090A
公开(公告)日:2025-04-04
申请号:CN202411815294.3
申请日:2024-12-11
Applicant: 浙江大学
IPC: G06V20/62 , G06V30/18 , G06V30/19 , G06V30/14 , G06V30/148
Abstract: 本发明公开一种基于OCR和颜色预处理的背景复杂变化场景下电影字幕提取方法和装置,所述方法通过事先截取定位电影字幕位置,提取电影字幕颜色信息特征,根据字幕颜色预处理提取字幕文本,改进优化了传统的电影字幕提取方法由于背景元素混淆、色彩变化等原因,而导致的字幕提取效果不佳。本发明有助于提高提高OCR在电影场景中的识别精度,并在保证效率的同时,克服了背景复杂性带来的挑战。
-
公开(公告)号:CN118628962A
公开(公告)日:2024-09-10
申请号:CN202410900891.X
申请日:2024-07-05
Applicant: 浙江大学
IPC: G06V20/40 , G06V10/26 , G06V10/774 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种可解释性的增强视频目标分割精度方法和装置,该方法基于可解释性梯度激活图对含卷积层簇的深度学习网络面向视频目标分割任务时,实现该深度学习网络分割精度的提升。包括(1)卷积簇深度学习网络训练原始视频数据集;(2)根据本发明所设计3D可解释性激活张量筛选视频帧弱特征像素;(3)根据3D可解释性激活张量计算出目标在单个视频中的运动范围制作新视频集;(4)卷积簇深度学习网络重新训练新视频集,增强目标在运动范围中的弱视频帧像素特征。(5)训练收敛后,进行实地应用。本发明具有高分割精度,计算量少特点。其中弱视频帧像素可提供面向视频目标分割任务的深度学习网络的改进方向,并得出该深度学习网络的可解释性的可提升空间。
-
公开(公告)号:CN117853879A
公开(公告)日:2024-04-09
申请号:CN202410025476.4
申请日:2024-01-08
Applicant: 浙江大学
IPC: G06V10/94 , G06V10/44 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08 , G06F3/0481 , G06F3/0484
Abstract: 一种基于计算机视觉的移动应用浮窗无障碍可操作性检测方法,首先接收用户输入的移动应用页面根节点信息,并遍历目标应用页面以获取截图。随后,对页面图片进行二值化处理,并使用YOLOv5网络训练目标检测模型以进行浮窗轮廓定位,将结果返回给自动化测试工具APPIUM检测关闭按钮,并采用视觉方法纠错。最终,判断浮窗可操作性是否合规。通过该方法的实施,可以有效判断移动应用中浮窗的可操作性。本发明的应用领域主要包括信息无障碍技术领域,尤其适用于移动应用的界面交互优化,符合无障碍标准。
-
公开(公告)号:CN117853849A
公开(公告)日:2024-04-09
申请号:CN202410027915.5
申请日:2024-01-09
Applicant: 浙江大学
IPC: G06V10/776 , G06V10/774 , G06V10/25 , G06V10/30 , G06V10/44 , G06V10/82 , G06T5/92 , G06N3/0464 , G06N3/08
Abstract: 本发明公开一种基于Yolov5的毛笔笔尖检测方法,包括(1)收集不同类型毛笔的图像数据及对这些数据进行预处理;(2)对需要标注的数据集进行标注,生成训练需要的数据集;(3)使用标注好的数据集对Yolov5模型进行训练;(4)对训练好的模型进行优化和验证;(5)将优化好的模型部署到实际情况中进行应用。本发明具有快速检测、高精度、适应不同书写状态和光照条件的优势,可用于书法教学软件、智能书写辅助装置等产品,有望提升学习者的书写技艺和规律把握,具备良好的商业化前景。
-
-
-
-
-
-
-
-
-