一种视频中滚动字幕的自动检测和识别方法

    公开(公告)号:CN104244073B

    公开(公告)日:2017-05-17

    申请号:CN201410503515.3

    申请日:2014-09-26

    Applicant: 北京大学

    Inventor: 汪阳 张健 彭宇新

    Abstract: 本发明提供了一种视频中滚动字幕的检测和识别方法,属于视频检索领域。该方法包括以下步骤:(1)滚动字幕区域的检测;(2)采用自适应检测窗口的方法,对检测到的垂直滚动字幕区域进行过滤,以降低字幕识别的重复率;(3)将包含水平字幕的多帧图像拼接为一帧包含完整滚动字幕的图像,经过二值化操作后,作为OCR识别软件的输入进行字幕识别。本发明充分考虑了视频中滚动字幕的运动特性,能够区分出视频中的固定字幕和滚动字幕,对水平滚动字幕进行拼接,对垂直滚动字幕采用字幕选择区域算法进行过滤,因此可以取得更好的识别性能,包括更高的查全率、查准率以及更低的重复率,从而能够充分发挥视频滚动字幕信息在视频检索中的作用。

    一种多索引磁盘哈希结构的图像检索方法

    公开(公告)号:CN105574212A

    公开(公告)日:2016-05-11

    申请号:CN201610101397.2

    申请日:2016-02-24

    Applicant: 北京大学

    CPC classification number: G06F17/3028 G06F17/30247 G06F17/30327

    Abstract: 本发明涉及一种多索引磁盘哈希结构的图像检索方法,包括以下步骤:离线索引阶段,对多媒体数据提取高维特征;使用哈希映射方法将高维特征映射为哈希编码;将哈希编码平均分割为编码子串;将编码子串分别插入对应的基于磁盘的B+树索引结构中;重复上述步骤m次,形成多索引磁盘结构。在线查询阶段,对于查询的多媒体数据,经过提取特征、哈希编码、编码分割后得到编码子串,搜索该编码在磁盘索引的r近邻结果,合并r近邻结果直至找到k近邻结果后返回。本发明结合多索引哈希方法与B+树存储结构的优势,在提高索引结构检索准确率和检索速度的同时,增大了支持的数据量。

    一种基于数字补偿系统的频率传递系统及其传递方法

    公开(公告)号:CN104506297A

    公开(公告)日:2015-04-08

    申请号:CN201410779831.3

    申请日:2014-12-16

    Applicant: 北京大学

    CPC classification number: H04L7/0075 H04B10/6164 H04J14/02

    Abstract: 本发明公开了一种基于数字补偿系统的频率传递系统及其传递方法。本发明采用密集型波分复用传递装置、光学频率锁定装置及数字补偿系统相结合,在远端利用光学频率锁定装置将锁模激光接收装置锁定在本地端传递的频率基准信号上,恢复出承载光纤链路实际的噪声信息的频率基准信号,并利用密集型波分复用传递装置传递回本地端,本地端数字补偿系统将得到的噪声信息再通过密集型波分复用传递装置传递到远端,远端数字补偿系统根据接收到的噪声信息对远端的频率基准信号进行补偿,从而得到稳定的、与量子频率源锁定的频率基准信号。本发明的方法可以在长距离高精度光纤频率传递过程中达到更高的频率传递稳定度。

    一种视频中滚动字幕的自动检测和识别方法

    公开(公告)号:CN104244073A

    公开(公告)日:2014-12-24

    申请号:CN201410503515.3

    申请日:2014-09-26

    Applicant: 北京大学

    Inventor: 汪阳 张健

    Abstract: 本发明提供了一种视频中滚动字幕的检测和识别方法,属于视频检索领域。该方法包括以下步骤:(1)滚动字幕区域的检测;(2)采用自适应检测窗口的方法,对检测到的垂直滚动字幕区域进行过滤,以降低字幕识别的重复率;(3)将包含水平字幕的多帧图像拼接为一帧包含完整滚动字幕的图像,经过二值化操作后,作为OCR识别软件的输入进行字幕识别。本发明充分考虑了视频中滚动字幕的运动特性,能够区分出视频中的固定字幕和滚动字幕,对水平滚动字幕进行拼接,对垂直滚动字幕采用字幕选择区域算法进行过滤,因此可以取得更好的识别性能,包括更高的查全率、查准率以及更低的重复率,从而能够充分发挥视频滚动字幕信息在视频检索中的作用。

    一种纳米线场效应晶体管

    公开(公告)号:CN101740619B

    公开(公告)日:2011-07-20

    申请号:CN200810226509.2

    申请日:2008-11-13

    Applicant: 北京大学

    Abstract: 本发明公开一种纳米线场效应晶体管。该晶体管是由栅电极、源区、漏区、中心区和栅介质层组成;其中,中心区为芯-壳结构,该芯-壳结构同轴;栅介质层全包围中心区,栅电极全包围栅介质层;源区和漏区分别位于中心区的两侧。其中,中心区的芯结构为绝缘体材料,壳结构为半导体材料;该壳结构材料的掺杂类型及掺杂浓度可调。该芯-壳结构的长度、壳半径以及芯半径可调;另外,该晶体管中,栅介质层、栅电极层、源区和漏区的材料均可调,栅介质层的厚度、源区和漏区材料的掺杂类型及掺杂浓度均可调。绝缘体芯结构的引入能有效降低传统纳米线晶体管的关态电流,提高器件的电流开关比,同时该晶体管受短沟道效应引起的阈值电压漂移以及漏致势垒降低效应的影响更小,尺寸缩小的性能更加优良。

    图像编辑方法、装置、电子设备及可读存储介质

    公开(公告)号:CN117726720B

    公开(公告)日:2025-04-29

    申请号:CN202311787479.3

    申请日:2023-12-22

    Inventor: 张健 牟冲

    Abstract: 本申请公开了图像编辑方法、装置、电子设备及可读存储介质,所述图像编辑方法包括:获取待编辑图像和对应的图像扩散模型;通过所述图像扩散模型对所述待编辑图像进行特征提取,得到所述待编辑图像的隐空间图像特征;根据所述隐空间图像特征,对所述待编辑图像进行迭代扩散,得到隐空间特征图像;通过所述图像扩散模型对所述隐空间特征图像进行图像编辑,得到目标图像。本申请解决了进行图像编辑的编辑泛化性差的技术问题。

    全景视频生成方法、装置、设备及存储介质

    公开(公告)号:CN118233714A

    公开(公告)日:2024-06-21

    申请号:CN202410645049.6

    申请日:2024-05-23

    Inventor: 张健 王茜

    Abstract: 本申请公开了一种全景视频生成方法、装置、设备及存储介质,涉及图像处理技术领域,方法包括:将基于视频运动信息和预设全景适配器生成全景视频的全景中间特征;基于视频描述文本和预设视频扩散模型生成视频,并在视频生成的过程中,将所述全景中间特征与所述预设视频扩散模型的原生中间特征结合,以使所述预设视频扩散模型生成全景视频。本申请全景视频生成方法填补了全景视频生成方法的空白,满足了用户对于高运动性全景视频的生成需求。

    联合篡改定位和版权保护的多功能取证方法、设备及介质

    公开(公告)号:CN117892263A

    公开(公告)日:2024-04-16

    申请号:CN202311810086.X

    申请日:2023-12-26

    Inventor: 张健 张轩宇

    Abstract: 本申请公开了联合篡改定位和版权保护的多功能取证方法、设备及介质,所述联合篡改定位和版权保护的多功能取证方法包括:通过双重水印编码器对输入对象进行编码,得到编码对象,所述编码对象包括第一版权标识和第一篡改定位标识;获取所述编码对象在网络传输中对应的待检测对象;对所述待检测对象进行解码,得到第二版权标识和第二篡改定位标识;根据所述第一版权标识和所述第二版权标识和所述第一篡改定位标识和所述第二篡改定位标识,对所述待检测对象进行联合篡改定位和版权保护的多功能取证,得到联合篡改定位和版权保护的多功能取证结果。本申请解决了联合篡改定位和版权保护的多功能取证方法的检测泛化能力差且检测局限性高的技术问题。

    模型搜索方法及相关装置
    60.
    发明公开

    公开(公告)号:CN117077762A

    公开(公告)日:2023-11-17

    申请号:CN202210490358.1

    申请日:2022-05-07

    Abstract: 本申请涉及人工智能领域,公开了一种自动化的模型搜索方法及相关装置。其中,模型搜索方法包括:S1:根据至少两个策略网络获取多个数据对;S2:根据多个数据对更新估值网络Vt的参数,以得到估值网络Vt+1;S3:根据估值网络Vt+1确定至少两个策略网络的奖励值;S4:根据至少两个策略网络的奖励值更新对应的策略网络;令t=t+1并重复执行S1‑S4,直至获取的数据对的数量达到第一预设数量或者训练时间达到预设时间;S5:根据获取的数据对确定目标模型。采用本申请实施例实现了同时搜索数据增强策略、网络结构、超参和模型量化策略中的至少两个,可以得到性能好的深度学习模型,提升搜索效率。

Patent Agency Ranking