一种基于自适应特征融合的图像场景文本检测方法

    公开(公告)号:CN118887648A

    公开(公告)日:2024-11-01

    申请号:CN202410899366.0

    申请日:2024-07-05

    Abstract: 本发明提供了一种基于自适应特征融合的图像场景文本检测方法。该方法包括:使用ResNet主干网络对待处理的场景文本图像进行多尺度特征(x2,x3,x4,x5)提取,使用特征金字塔网络对多尺度特征(x2,x3,x4,x5)进行初步的多尺度特征融合,输出经过融合的多尺度特征(o2,o3,o4,o5),并输入到特征混迭模块得到多尺度特征(p2,p3,p4,p5);将多尺度特征(p2,p3,p4,p5)进行拼接得到多尺度特征矩阵P;使用通道注意力模块对多尺度特征矩阵P进行自适应特征融合,得到经过融合的多尺度特征Q;对Q进行可微二值化后处理得到概率图和阈值图,根据概率图和阈值图得到待处理的场景文本图像中场景文本检测结果。本发明对多尺度特征从通道维度到空间维度进行特征混迭,有效提高了不同尺度特征的表达能力,提高了文本检测算法的性能。

    一种基于关键点回归的人脸检测方法

    公开(公告)号:CN115223220B

    公开(公告)日:2023-06-09

    申请号:CN202210719383.2

    申请日:2022-06-23

    Abstract: 本发明提供了一种基于关键点回归的人脸检测方法。该方法包括:通过多任务头网络提取待识别图像的特征图,输出训练图像的预测框;利用关键点回归对预测框和真实框进行训练样本匹配,获取预测框与真实框的匹配关系,选取传输损耗最小的候选框;利用多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差,根据学习误差反向传播,得到更新后的多任务特征提取网络;将待识别图像输入到训练好的多任务特征提取网络,多任务特征提取网络输出待识别图像的人脸识别结果。本发明设计了多任务最优传输匹配算法,改进了训练样本匹配的评价指标,匹配对检测和关键点任务学习整体最好的样本参与损失计算与梯度反传。

    一种结合文本纠错的流式语音识别方法

    公开(公告)号:CN118841003A

    公开(公告)日:2024-10-25

    申请号:CN202410973987.9

    申请日:2024-07-19

    Abstract: 本发明提供了一种结合文本纠错的流式语音识别方法。该方法包括:将待识别的音频数据进行分块处理后,将各个块的音频数据输入到流式语音识别系统,流式语音识别系统输出各个块的识别文本;将各个块的识别文本划分为等长文本块,再输入到纠错模型;纠错模型通过编码模块输出各个块的编码表示,再通过解码模块将各个块的编码表示逐块进行解码,利用记忆库计算当前帧与历史帧的相关性,输出纠错处理后的各个块;将纠错处理后的各个块发送至边缘补偿模块,边缘补偿模块利用历史块共同解码结果对各个块的右边缘进行修正补偿,得到各个块的音频数据的最终的识别文本。本发明方法实现了纠错模型的流式输出,使用边缘补偿机制解决了边缘错误纠正的问题。

    一种端到端长时语音识别方法

    公开(公告)号:CN113516968B

    公开(公告)日:2022-05-20

    申请号:CN202110631808.X

    申请日:2021-06-07

    Abstract: 本发明提供了一种端到端长时语音识别方法。该方法包括:选取语料库为训练数据集,对训练数据集中的语音数据进行数据预处理和特征提取,生成语音特征;构造融合外部语言模型和长时语音识别算法的改进的RNN‑T模型,将语音特征输入进的RNN‑T模型进行训练,得到训练好的改进的RNN‑T模型;将训练好的改进的RNN‑T模型作为互学习知识蒸馏算法中的教师模型,利用互学习知识蒸馏算法训练互学习知识蒸馏算法中的学生模型,利用训练和验证好的学生模型对待识别的长时语音数据进行识别,输出语音识别结果。本发明通过对外部语言模型、长时语音识别算法模块和RNN‑T模型三部分进行融合,提升了模型长时语音识别的鲁棒性和泛化能力的同时,优化了算法的时间和空间复杂度。

    一种端到端长时语音识别方法

    公开(公告)号:CN113516968A

    公开(公告)日:2021-10-19

    申请号:CN202110631808.X

    申请日:2021-06-07

    Abstract: 本发明提供了一种端到端长时语音识别方法。该方法包括:选取语料库为训练数据集,对训练数据集中的语音数据进行数据预处理和特征提取,生成语音特征;构造融合外部语言模型和长时语音识别算法的改进的RNN‑T模型,将语音特征输入进的RNN‑T模型进行训练,得到训练好的改进的RNN‑T模型;将训练好的改进的RNN‑T模型作为互学习知识蒸馏算法中的教师模型,利用互学习知识蒸馏算法训练互学习知识蒸馏算法中的学生模型,利用训练和验证好的学生模型对待识别的长时语音数据进行识别,输出语音识别结果。本发明通过对外部语言模型、长时语音识别算法模块和RNN‑T模型三部分进行融合,提升了模型长时语音识别的鲁棒性和泛化能力的同时,优化了算法的时间和空间复杂度。

    一种基于关键帧选择的多路径网络的人体行为识别方法

    公开(公告)号:CN118968609A

    公开(公告)日:2024-11-15

    申请号:CN202410818306.1

    申请日:2024-06-24

    Abstract: 本发明提供了一种基于关键帧选择的多路径网络的人体行为识别方法。该方法包括:对待识别的视频数据进行采样,得到多个视频分段;对各个视频分段进行特征采集,使用多层感知器和归一化函数生成概率分布,根据概率分布筛选出人体动作所在的视频分段;将所述人体动作所在的视频分段输入到多路径视频‑文本编码器分类网络中,通过时间编码器和空间编码器从视频分段学习时空特征,通过文本编码器学习视频分段中的文本特征,通过计算时空特征和文本特征的相似度,获得所述待识别视频的人体行为的识别结果。本发明所提出的方法能够有效地筛选出与人体动作相关的图像帧,减少无关行为的干扰,提升整体的识别效果。

    一种基于频域增强的压缩视频人体行为识别方法

    公开(公告)号:CN116959100A

    公开(公告)日:2023-10-27

    申请号:CN202310732026.4

    申请日:2023-06-20

    Abstract: 本发明提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括:构建频域增强FE模块,所述FE模块包括时间‑通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;将所述FE模块插入到骨干网络为ResNet‑50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题,与其他基于频域数据的方法相比,达到了更高的识别准确率,与其他基于压缩域数据的方法和基于RGB数据方法相比,也达到了具有竞争力的准确率,同时具有较高的效率。

    一种基于多尺度特征相关性增强的单目图像深度估计方法

    公开(公告)号:CN116823908A

    公开(公告)日:2023-09-29

    申请号:CN202310758435.1

    申请日:2023-06-26

    Abstract: 本发明提供了一种基于多尺度特征相关性增强的单目图像深度估计方法。该方法包括:利用多模态RGB‑Depth融合模块对输入的RGB图像进行数据增强的预处理操作;使用多尺度深度编码模块提取数据增强后的多尺度特征图;在解码阶段使用RFF模块获取细粒度特征图,使用MFCE模块增强多尺度特征中的不同尺度间特征的相关性,通过结合RFF模块和MFCE模块融合和优化特征图,并获得逐像素深度图;通过深度表征目标函数优化整个单目深度估计网络模型的训练,确保泛化能力。本发明方法增强全局特征与局部特征之间的相关性,学习有效的外观结构信息,解决了由纹理偏差导致对外观结构错误估计的问题,重建了清晰稠密的单目深度图。

    一种特征分离的图像人脸识别与年龄估计方法

    公开(公告)号:CN115100709B

    公开(公告)日:2023-05-23

    申请号:CN202210718470.6

    申请日:2022-06-23

    Abstract: 本发明提供了一种特征分离的图像人脸识别与年龄估计方法。该方法包括:将待识别的人脸图像输入到多任务框架中,将人脸图像转化为人脸特征,将人脸特征输入到所述特征分离网络中,通过特征分离网络分离所述人脸特征中的身份特征和年龄特征;将身份特征进行特征铺平生成描述当前图像身份的嵌入特征向量,通过度量所述嵌入特征向量与各个标准身份向量之间的距离值,确定所述待识别的人脸图像对应的身份信息;通过线性层将年龄特征映射为一组向量,将所述一组向量的取值加在一起,获取所述待识别的人脸图像对应的年龄信息。本发明方法通过注意力机制的特征分离方法,有效地分离出适合各个子任务的有效特征,提升了各个子任务的特征鲁棒性。

    一种特征分离的图像人脸识别与年龄估计方法

    公开(公告)号:CN115100709A

    公开(公告)日:2022-09-23

    申请号:CN202210718470.6

    申请日:2022-06-23

    Abstract: 本发明提供了一种特征分离的图像人脸识别与年龄估计方法。该方法包括:将待识别的人脸图像输入到多任务框架中,将人脸图像转化为人脸特征,将人脸特征输入到所述特征分离网络中,通过特征分离网络分离所述人脸特征中的身份特征和年龄特征;将身份特征进行特征铺平生成描述当前图像身份的嵌入特征向量,通过度量所述嵌入特征向量与各个标准身份向量之间的距离值,确定所述待识别的人脸图像对应的身份信息;通过线性层将年龄特征映射为一组向量,将所述一组向量的取值加在一起,获取所述待识别的人脸图像对应的年龄信息。本发明方法通过注意力机制的特征分离方法,有效地分离出适合各个子任务的有效特征,提升了各个子任务的特征鲁棒性。

Patent Agency Ranking