-
公开(公告)号:CN117911755A
公开(公告)日:2024-04-19
申请号:CN202311836043.9
申请日:2023-12-28
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/42 , G06V10/44 , G06V10/77 , G06V10/80
Abstract: 本申请涉及深度学习及计算机视觉识别技术领域,尤其涉及基于跨层特征挖掘的图像识别方法、装置及电子设备。所述方法包括:获取待识别图像,并提取所述待识别图像的全局特征图;对所述待识别图像的全局特征图进行降维映射,得到所述待识别图像不同层次的特征向量;根据所述待识别图像的不同层次特征图构建特征矩阵;基于所述特征矩阵和所述不同层次的特征向量进行多头注意力机制的加权融合操作,以得到跨层特征挖掘后的特征向量;基于所述跨层特征挖掘后的特征向量识别所述待识别图像。本申请通过跨层特征的挖掘实现了图像特征的增强,通过对多粒度的理解,使图像识别取得全面且足够精细的识别效果。
-
公开(公告)号:CN117609536A
公开(公告)日:2024-02-27
申请号:CN202311632626.X
申请日:2023-12-01
Applicant: 北京邮电大学
IPC: G06F16/58 , G06F16/583 , G06V10/44 , G06V10/764 , G06V10/82 , G06F16/55 , G06F16/33 , G06N3/0455 , G06N3/048 , G06N3/08 , G06N5/04
Abstract: 本发明提供一种基于语言引导的指称表达理解推理网络系统及推理方法,包括:文本特征提取器、图像特征提取器、文本特征扩展器(TFE)、跨模态对齐模块(TCA)和跨模态融合模块(TCF);通过语言引导推理网络模型(LGR‑NET),以充分利用指称表达式的指导;设置预测标记来捕捉跨模态特征,为了充分利用文本特征,通过文本特征扩展模块(TFE)从三个方面对其进行了扩展,文本生成的坐标嵌入有助于预测词元捕获关键的视觉特征;文本特征用于交替的跨模态推理;新颖的跨模态损失增强了跨模态对齐;如此文本特征从多个角度充分的引导了模型整体的跨模态推理流程,充分利用了文本中的线索,大大提高了模型性能。
-
公开(公告)号:CN117010366A
公开(公告)日:2023-11-07
申请号:CN202310820600.1
申请日:2023-07-06
Applicant: 北京邮电大学 , 北京东方通网信科技有限公司 , 北京东方通科技股份有限公司
IPC: G06F40/211 , G06F40/289 , G06F18/214
Abstract: 本发明公开了一种面向文本特定句子的内容识别和纠错方法,属于自然语言处理领域。该方法结合多项技术,包括正则匹配、hfl/rbt3模型上下句预测、位置敏感哈希技术以及Jaccard相似度计算等方法,针对领导重要讲话等特定句子识别和纠错这种特定语境,综合各种不同的方法,可以较为准确地识别新闻文章中领导重要讲话等金句部分;通过改进minhash算法,使其在处理特定文本上更有效,并且针对其中的短文本利用Jaccard相似度计算匹配,使得其在错误识别部分上也有较高的准确度。该方法能够有效地提取和校验领导重要讲话内容等特定句子,对于新闻发布等起到提高效率和准确性的重要作用。
-
公开(公告)号:CN116824151A
公开(公告)日:2023-09-29
申请号:CN202310513085.2
申请日:2023-05-08
Applicant: 北京邮电大学
IPC: G06V10/40 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0455
Abstract: 本申请公开了一种图像特征的识别方法、装置、电子设备及介质。通过应用本申请的技术方案,可以将对图像进行首次解耦得到的初始解耦特征进行洗牌后重组拼接为新的合成特征,进而在该合成特征的基础上再次进行解耦处理,以得到一种能够移去原图像中存在的,属性和物体间可能存在的虚假相关性的重组解耦特征。从而实现根据该重组解耦特征得到图像相关识别结果的目的。避免了相关技术中出现的,模型只偏向于能够识别在训练期间可见的物体属性组合,而无法准确识别训练期间不可见的物体属性组合的问题。
-
公开(公告)号:CN116485713A
公开(公告)日:2023-07-25
申请号:CN202310186536.6
申请日:2023-03-01
Applicant: 北京邮电大学
IPC: G06T7/00 , G06T3/40 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种针对图像的计数方法、装置、电子设备及介质。具体可以获取第一待处理图像,并将第一待处理图像输入到预先训练完毕的包括计数网络模型的图像检测网络模型中;利用图像检测网络模型,将第一待处理图像的图像特征进行还原,得到第二待处理图像;利用计数网络模型,对第二待处理图像中的目标对象进行计数统计,得到计数结果。通过应用本申请的技术方案,可以由图像检测网络模型将接收到的低分辨率的待处理图像进行特征重构建以达到提高其图像精度的目的,进而在对提高图像精度后的图像进行计数统计。进而避免出现相关技术中存在的,在低分辨率图像场景下计数性能不佳的问题。
-
公开(公告)号:CN116363421A
公开(公告)日:2023-06-30
申请号:CN202310269093.7
申请日:2023-03-15
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/30 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种图像的特征分类方法、装置、电子设备及介质。通过应用本申请的技术方案,可以预先利用噪音添加以及噪音去除的方式来衡量不同域图像之间的域间差异值,并以该域间差异值对特征提取器进行域泛化训练从而得到一个具有更强鲁棒性的特征提取器的图像分类模型。进而避免出现相关技术中存在的,传统的图像分类模型在遇到域偏移场景时存在的分类性能大幅下降的问题。
-
公开(公告)号:CN115222940B
公开(公告)日:2023-06-09
申请号:CN202210795660.8
申请日:2022-07-07
Applicant: 北京邮电大学
IPC: G06V10/26 , G06V10/82 , G06V10/764 , G06N3/0475 , G06N3/094 , G06N3/0464
Abstract: 本申请实施例公开了一种语义分割方法和系统,所述方法包括:将源域图片转化为拟真域图片;将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果;将所述源域图片及其真实标注、所述目标域图片输入第二中间级熵对齐网络,输出目标域预测结果;利用所述拟真域预测结果和源域图片的真实标注训练输出级预测修正网络;将所述目标域预测结果输入所述输出级预测修正网络进行掩码修正,得到修正后的掩码结果。降低源域和目标域间的域隙,达到更好的域迁移目的。
-
公开(公告)号:CN115439846B
公开(公告)日:2023-04-25
申请号:CN202210952173.8
申请日:2022-08-09
Applicant: 北京邮电大学
IPC: G06V20/70 , G06V10/26 , G06V10/764 , G06V10/82 , G06V10/762 , G06V10/54 , G06V10/56
Abstract: 本申请公开了一种图像的分割方法、装置、电子设备及介质。通过应用本申请的技术方案,可以利用原始图像的类激活图像来确定其每个特征区域图像的所属类别,并将其中特定类别的特征区域图像映射到原始图像中从而得到保留有分割对象的完整边界的分割图像。进而实现一种利用超像素技术保留目标区域的边界,并同时结合采用计算目标区域原型的方法尽可能获得图像完整的伪像素级标签。从而避免了相关技术中存在的,由于类激活图存在产生的伪像素级标签目标区域不完成或边界不明显所导致的,分割后的图像不够精确的问题。
-
公开(公告)号:CN115952255A
公开(公告)日:2023-04-11
申请号:CN202211457156.3
申请日:2022-11-21
Applicant: 北京邮电大学
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F16/683 , G06F16/783 , G06F18/22 , G06F18/241 , G06F18/2415 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 本申请公开了一种多模态信号内容分析方法、装置、电子设备及存储介质。该多模态信号内容分析方法包括:获取音频‑视频信号对应的字幕词嵌入特征;利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征;基于所述字幕代理特征生成字幕。本申请实施例提供的多模态信号内容分析方法,利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征,基于字幕代理特征生成字幕,避免了由于字幕语义差异性对训练的影响,生成的字幕能够更好地描述音频‑视频信号的内容,克服了相关技术中没有考虑字幕差异性对音频‑视频字幕任务的影响所导致的不良影响。
-
公开(公告)号:CN112990058B
公开(公告)日:2023-04-07
申请号:CN202110337734.9
申请日:2021-03-30
Applicant: 北京邮电大学
IPC: G06V20/52 , G06V10/75 , G06V10/774
Abstract: 一种基于轨迹分析的多目标行人徘徊检测方法,涉及智慧城市建设中的城市监控视频分析领域,解决现有行人徘徊检测方法只能对单个行人目标进行分析,无法对出现监控场景中的多目标进行分析,同时存在丢失跟踪目标,以及存在连续几帧目标中心点位置不准确等问题,本发明方法包括步骤一、采用深度学习算法,对检测数据集进行训练和调参,获得行人检测模型;步骤二、实时获取监控场景的视频;步骤三、多目标跟踪;本发明基于运动轨迹方向角的变化范围来进行的徘徊检测,能保证连续多帧未检测到对应目标,仍然能确信跟踪的是相同目标;能够规避目标中心点位置不准确的微小扰动带来的轨迹分析误差,适用于任何轨迹形状;可以自定义折返次数。
-
-
-
-
-
-
-
-
-