-
公开(公告)号:CN111091157A
公开(公告)日:2020-05-01
申请号:CN201911348018.X
申请日:2019-12-24
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于完形填空任务的视频自监督学习方法,属于数字化视频自监督领域,通过切分视频段,对选取视频段进行空间或/和时间的变换操作,再放回原视频中提取特征,进行变换操作的分类识别,由此实现自监督学习,通过这种完形填空的方式,在不需要人工标注数据的同时,引导网络学习丰富的视频特征,同时基于完形填空的特性,可以针对不同的特征融合多个自监督任务,增加了泛化性。
-
公开(公告)号:CN104468262B
公开(公告)日:2017-12-15
申请号:CN201410652834.0
申请日:2014-11-17
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于语义敏感的网络协议识别方法及系统。在建模阶段,以特定应用协议的网络数据报文集合作为输入,利用Latent Dirichlet Allocation方法构建所分析协议的关键字模型;在训练阶段,依照协议关键字模型提取数据报文的分类特征信息,以获得的关键字特征向量作为输入,利用有监督机器学习方法对离线训练数据集学习训练,获得所分析协议的分类模型;在分类阶段,依照协议关键字模型提取数据报文的分类特征信息,利用协议分类模型对待测网络数据报文的协议属性做出判别,判断其是否属于目标协议的网络数据报文。本发明能够充分挖掘网络消息报文中潜在的协议语义信息,对多种网络协议进行有效的协议识别。
-
公开(公告)号:CN103942797B
公开(公告)日:2017-01-25
申请号:CN201410168244.0
申请日:2014-04-24
Applicant: 中国科学院信息工程研究所
IPC: G06T7/00
Abstract: 本发明涉及基于直方图和超像素的场景图像文字检测方法,包括:步骤1:对目标图片中可能存在的文字的笔画宽度值进行估计,基于笔画宽度值生成一个笔画直方图;步骤2:对目标图片进行边缘检测,进行比对和修正,得到边缘检测质量最高的连通域;步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素估算高精度笔画宽度;步骤4:根据高精度笔画宽度过滤字符与非字符;步骤5:通过连通域的空间分布利用几何约束进一步过滤字符与非字符,过滤文本行和非文本行;步骤6:完成对目标图片中对字符和文本行的检测。本发明提出一种高速和高精度的笔画宽度计算方法,以提高文字与非文字连通域过滤的精度和效率。
-
公开(公告)号:CN114155524B
公开(公告)日:2024-11-08
申请号:CN202111271651.0
申请日:2021-10-29
Applicant: 中国科学院信息工程研究所
IPC: G06V20/64 , G06V20/58 , G06V10/25 , G06V10/762 , G06V10/766 , G06V10/80 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种单阶段3D点云目标检测方法及装置、计算机设备、介质。本方法为:根据3D点云中目标与获取3D点云的采样传感器距离不同,设置不同的聚类半径参数对3D点云进行聚类操作,用立体包围框将同类的点云包含起来得到最小立体包围框,并对每一所述最小立体包围框内的点集合进行下采样,得到数据增广后的点云数据;对数据增广后的点云数据进行基于球内最远距离采样,并对采样得到的点进行特征提取,得到语义特征和空间特征;根据空间特征和语义特征预测每个点的预测分数,然后按照预测分数从高到低完成点采样;对采样点的特征进行融合得到融合特征图;回归预测网络根据该融合特征图进行预测,得到点云当中目标的位置和类别。
-
公开(公告)号:CN118262346A
公开(公告)日:2024-06-28
申请号:CN202410434598.9
申请日:2024-04-11
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V10/774 , G06V10/82 , G06N3/094
Abstract: 本发明公开了一种基于对抗训练的场景文字识别方法及装置,属于场景文字识别领域,本发明使用训练数据集对场景文字识别模型进行迭代训练,每次迭代中基于原始样本采用PGD攻击生成对抗样本利用小批量原始样本数据和对应的小批量对抗样本数据对模型进行标准训练和对抗训练,最后通过正则化系数进行损失融合,采用梯度下降更新模型参数。本发明利用对抗训练能够提高场景文字识别模型的准确性和鲁棒性。
-
公开(公告)号:CN117765520A
公开(公告)日:2024-03-26
申请号:CN202311573331.X
申请日:2023-11-23
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V20/70 , G06V10/82 , G06V10/764 , G06V10/766 , G06V10/74 , G06N3/0464 , G06N3/044 , G06N3/0442 , G06N3/0499 , G06N3/0895
Abstract: 本发明公开一种高效准确的歧义场景文字检测方法及系统,属于图像文字识别领域,使用基于Mask R‑CNN结构的文本检测分支检测场景图像中的文本,生成文本候选框;使用歧义感知模块检测场景图像的文本块,将文本块与文本候选框进行匹配及关联,分析文本块中所有文本候选框之间的连接情况,找出有歧义的文本块;构建由图像编码器、文本编码器和跨模态编码器组成的语义感知模块,通过对比学习、匹配预测和掩码预测来训练该语义感知模块;使用训练好的语义感知模块对有歧义的文本块进行场景文字检测。本发明能够高效准确地检测歧义文字,并提高识别的准确率。
-
公开(公告)号:CN112070114B
公开(公告)日:2023-05-16
申请号:CN202010767079.6
申请日:2020-08-03
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06F40/30 , G06V30/19 , G06V10/82 , G06V30/18 , G06N3/0464 , G06N3/0442
Abstract: 本发明提出一种基于高斯约束注意力机制网络的场景文字识别方法及系统,涉及图像信息识别领域,通过提取待识别图片的视觉特征,得到二维特征图;将二维特征图转化为一维特征序列,根据该一维特征序列提取全局语义信息;将全局语义信息输入至第一个时间步中初始化解码隐状态,并在每个时间步中根据隐状态和二维特征图计算原始的注意力权重,利用该权重加权求和得到原始加权特征向量;根据隐状态和原始加权特征向量构造二维高斯分布掩膜,将该掩膜与原始的注意力权重相乘,得到矫正的注意力权重,根据该权重得到矫正后加权特征向量;将原始加权特征向量和矫正后加权特征向量融合一起来预测待识别图片的字符,从而能够解决注意力弥散的情况。
-
公开(公告)号:CN115713665A
公开(公告)日:2023-02-24
申请号:CN202211237958.3
申请日:2022-10-10
Applicant: 中国科学院信息工程研究所
IPC: G06V10/774 , G06V20/40 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/0895
Abstract: 本发明公开了一种基于宏观到微观语义关联对比的视频自监督表征学习方法。本发明首先创建一视频自监督时空表示模型,其包括时域模块MaMiCo与空域模块MaMiCo;所述时域模块MaMiCo包括第一编码器、平均全局映射头,所述空域模块MaMiCo包括第二编码器、密集映射头,所述第一编码器与第二编码器共享参数;然后在视频数据中以金字塔的形式采样全局片段、局部片段以及静止片段用于训练视频自监督时空表示模型,其中时域MaMiCo关注在学习全局片段与局部片段的时域语义关联,空域MaMiCo旨在学习局部片段与静止片段的空域语义关联;然后将待处理视频输入训练后的第一编码器或第二编码器,得到该待处理视频的特征图。
-
公开(公告)号:CN114155524A
公开(公告)日:2022-03-08
申请号:CN202111271651.0
申请日:2021-10-29
Applicant: 中国科学院信息工程研究所
IPC: G06V20/64 , G06V20/58 , G06V10/762 , G06V10/766 , G06V10/80 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种单阶段3D点云目标检测方法及装置、计算机设备、介质。本方法为:根据3D点云中目标与获取3D点云的采样传感器距离不同,设置不同的聚类半径参数对3D点云进行聚类操作,用立体包围框将同类的点云包含起来得到最小立体包围框,并对每一所述最小立体包围框内的点集合进行下采样,得到数据增广后的点云数据;对数据增广后的点云数据进行基于球内最远距离采样,并对采样得到的点进行特征提取,得到语义特征和空间特征;根据空间特征和语义特征预测每个点的预测分数,然后按照预测分数从高到低完成点采样;对采样点的特征进行融合得到融合特征图;回归预测网络根据该融合特征图进行预测,得到点云当中目标的位置和类别。
-
公开(公告)号:CN113887282A
公开(公告)日:2022-01-04
申请号:CN202111004566.8
申请日:2021-08-30
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开一种面向场景图像中任意形状邻近文本的检测系统及方法,属于图像文本检测领域,通过生成区域建议使得网络更加关注文本特征,同时提出一种一对多的训练策略,为每一个候选框匹配多个目标文本,用以缓解邻近文本时在选取回归目标混淆的问题,最终提升基于回归的两阶段模型检测场景图像中任意形状邻近文本的能力。
-
-
-
-
-
-
-
-
-