-
公开(公告)号:CN116028662B
公开(公告)日:2023-06-13
申请号:CN202310114265.3
申请日:2023-02-15
Applicant: 武汉理工大学三亚科教创新园
IPC: G06F16/583 , G06F16/683 , G06V10/30 , G06V10/52 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0499 , G06N3/084 , G06N3/088
Abstract: 本发明公开了一种基于无监督交互式对齐的海洋遥感图像音频检索方法,包括步骤:收集海洋遥感图像和遥感相关音频,构建海洋遥感图像音频检索数据集;提取遥感相关音频的音频特征FA和海洋遥感图像的图像特征FI;将其对齐得到音频检索特征向量FA’和图像检索特征向量FI’;计算整个模型的损失函数值,进行反向传播,训练多轮后得到海洋遥感图像音频检索模型;输入待检索的音频或图像,输出与其相关的海洋遥感图像或者音频数据。本发明利用大量未标记的样本学习显著语义信息和海洋遥感图像和音频间的相似性;抑制图像噪声,捕获图像的显著信息;引入交互式对齐模块探索遥感图像和音频间的精细对应关系,最终提高了海洋遥感图像音频检索的效率和准确率。
-
公开(公告)号:CN116028662A
公开(公告)日:2023-04-28
申请号:CN202310114265.3
申请日:2023-02-15
Applicant: 武汉理工大学三亚科教创新园
IPC: G06F16/583 , G06F16/683 , G06V10/30 , G06V10/52 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0499 , G06N3/084 , G06N3/088
Abstract: 本发明公开了一种基于无监督交互式对齐的海洋遥感图像音频检索方法,包括步骤:收集海洋遥感图像和遥感相关音频,构建海洋遥感图像音频检索数据集;提取遥感相关音频的音频特征FA和海洋遥感图像的图像特征FI;将其对齐得到音频检索特征向量FA’和图像检索特征向量FI’;计算整个模型的损失函数值,进行反向传播,训练多轮后得到海洋遥感图像音频检索模型;输入待检索的音频或图像,输出与其相关的海洋遥感图像或者音频数据。本发明利用大量未标记的样本学习显著语义信息和海洋遥感图像和音频间的相似性;抑制图像噪声,捕获图像的显著信息;引入交互式对齐模块探索遥感图像和音频间的精细对应关系,最终提高了海洋遥感图像音频检索的效率和准确率。
-
公开(公告)号:CN115830688A
公开(公告)日:2023-03-21
申请号:CN202211641793.6
申请日:2022-12-20
Applicant: 武汉理工大学三亚科教创新园
IPC: G06V40/16 , G06V20/40 , G06V10/82 , G06N3/08 , G06N3/0464
Abstract: 本发明提出了一种基于多尺度时空卷积的唇语识别方法及系统,首选构建唇语识别数据集并对其进行预处理得到连续灰度唇语图像序列,通过构建的基于多尺度时空卷积的音素序列提取网络模型,针对连续灰度唇语图像序列提取时空运动信息、提取细粒度特征、聚合多尺度唇部特征和预测音素类别,生成相应的发音音素序列,从而通过对发音音素序列的转换,得到目标自然语句。本发明利用不同尺度的时空卷积去提取句子间的深层关联特征,聚合不同时间尺度和空间尺度的信息,在特征编码时同时结合长短期信息,考虑整体结构和相邻的词组的相关性,从而更好地依据上下文信息,降低唇语识别在视觉表征上的模糊性,提高唇语识别的效率和准确率。
-
公开(公告)号:CN115878832A
公开(公告)日:2023-03-31
申请号:CN202310116406.5
申请日:2023-02-15
Applicant: 武汉理工大学三亚科教创新园
IPC: G06F16/583 , G06F16/51 , G06F16/683 , G06F16/61 , G06V10/44 , G06V10/80 , G06F18/22 , G06N3/048 , G06N3/084 , G06N3/0464
Abstract: 本发明公开了一种基于精细对齐判别哈希的海洋遥感图像音频检索方法,包括步骤:收集海洋遥感图像和遥感相关音频数据,构建海洋遥感图像音频检索数据集;构建基于精细对齐判别哈希的海洋遥感图像音频检索模型;训练模型,计算模型损失函数,进行反向传播和模型优化,训练多轮后得到最终海洋遥感图像音频检索模型;基于训练好的海洋遥感图像音频检索模型,输入待检索的音频或者图像,输出与其相关的海洋遥感图像或者音频数据。本发明学习哈希码以捕获海洋遥感图像的判别信息,学习遥感图像和音频间对应细节信息,通过相似性保留损失函数保持哈希码相似性,保留图像和音频特征的语义信息,消除跨模态差异,提高海洋遥感图像音频检索的效率和准确率。
-
公开(公告)号:CN117523601A
公开(公告)日:2024-02-06
申请号:CN202311167226.6
申请日:2023-09-12
Applicant: 武汉理工大学三亚科教创新园
IPC: G06V40/10 , G06N3/0464 , G06N3/096 , G06V10/20 , G06V10/40 , G06V10/764 , G06V10/774 , G06V10/82 , G06V40/20
Abstract: 本发明涉及牲畜行为识别技术领域,具体涉及基于全局和局部信息共增强的牲畜行为识别方法及装置,所述方法包括:将各上下文感知注意力模块一一插入至残差网络的各残差层后面;所述残差层从牲畜行为的待检测图像中提取特征图输入至对应上下文感知注意力模块;所述上下文感知注意力模块对特征图进行强化特征表示,得到增强后的特征图;分类模块根据增强后的特征图,识别对应待检测图像。本发明能够解决图像中的牲畜分布范围不定、被杂乱的背景干扰的问题,从而提高牲畜行为识别的效率和准确率。
-
公开(公告)号:CN117152796A
公开(公告)日:2023-12-01
申请号:CN202311167221.3
申请日:2023-09-12
Applicant: 武汉理工大学三亚科教创新园
IPC: G06V40/10 , G06N3/0464 , G06N3/084 , G06V10/20 , G06V10/764 , G06V10/82 , G06V20/40 , G06V40/20
Abstract: 本发明公开了一种基于全局分组注意力机制的牲畜行为识别方法和系统,包括:构建基于全局分组注意力机制的神经网络模型;根据收集的多个牲畜行为的视频数据集对所述神经网络模型进行训练,得到训练完成的牲畜行为识别模型,所述牲畜行为识别模型用于根据输入的牲畜行为图像输出图像中牲畜的行为类型;将待识别的牲畜行为图像输入到训练完成的牲畜行为识别模型中,得到图像中的牲畜的行为类型。本发明通过提出一个全局分组注意力模块和焦点注意力损失函数来引导模型提取更判别性的特征,最终提高牲畜行为识别的效率和准确率。
-
公开(公告)号:CN115878832B
公开(公告)日:2023-05-16
申请号:CN202310116406.5
申请日:2023-02-15
Applicant: 武汉理工大学三亚科教创新园
IPC: G06F16/583 , G06F16/51 , G06F16/683 , G06F16/61 , G06V10/44 , G06V10/80 , G06F18/22 , G06N3/048 , G06N3/084 , G06N3/0464
Abstract: 本发明公开了一种基于精细对齐判别哈希的海洋遥感图像音频检索方法,包括步骤:收集海洋遥感图像和遥感相关音频数据,构建海洋遥感图像音频检索数据集;构建基于精细对齐判别哈希的海洋遥感图像音频检索模型;训练模型,计算模型损失函数,进行反向传播和模型优化,训练多轮后得到最终海洋遥感图像音频检索模型;基于训练好的海洋遥感图像音频检索模型,输入待检索的音频或者图像,输出与其相关的海洋遥感图像或者音频数据。本发明学习哈希码以捕获海洋遥感图像的判别信息,学习遥感图像和音频间对应细节信息,通过相似性保留损失函数保持哈希码相似性,保留图像和音频特征的语义信息,消除跨模态差异,提高海洋遥感图像音频检索的效率和准确率。
-
-
-
-
-
-