一种自适应多频段语音混合情感感知方法

    公开(公告)号:CN118800282A

    公开(公告)日:2024-10-18

    申请号:CN202411273679.1

    申请日:2024-09-12

    Abstract: 一种自适应多频段语音混合情感感知方法,输入语音信号经过预处理分帧,利用快速傅里叶变换获取频谱特征,信号通过梅尔尺度的三角滤波器组处理,模拟人类听觉系统的非线性频率特性,并通过离散余弦变换提取关键频率信息的梅尔频谱系数。根据语音共振峰F1、F2、F3进行频段划分,定制化特征提取策略。自适应深度残差块并行处理各频段特征,深度控制器动态调整网络深度以适应信号复杂度。ADRB中,多层蒸馏和残差通道实现多级特征提取,残差连接优化特征融合。混合区域注意力机制结合全局和局部注意力,强化频段间依赖关系。时间驱动模块加强时序连续性,最终特征融合用于情感分类和识别。该方法全面捕捉情感特征,显著提升情感状态识别的精度和效率。

    一种自适应多频段语音混合情感感知方法

    公开(公告)号:CN118800282B

    公开(公告)日:2024-11-29

    申请号:CN202411273679.1

    申请日:2024-09-12

    Abstract: 一种自适应多频段语音混合情感感知方法,输入语音信号经过预处理分帧,利用快速傅里叶变换获取频谱特征,信号通过梅尔尺度的三角滤波器组处理,模拟人类听觉系统的非线性频率特性,并通过离散余弦变换提取关键频率信息的梅尔频谱系数。根据语音共振峰F1、F2、F3进行频段划分,定制化特征提取策略。自适应深度残差块并行处理各频段特征,深度控制器动态调整网络深度以适应信号复杂度。ADRB中,多层蒸馏和残差通道实现多级特征提取,残差连接优化特征融合。混合区域注意力机制结合全局和局部注意力,强化频段间依赖关系。时间驱动模块加强时序连续性,最终特征融合用于情感分类和识别。该方法全面捕捉情感特征,显著提升情感状态识别的精度和效率。

    基于深度无关数据集的图像去雾方法、计算机设备、介质和电子设备

    公开(公告)号:CN117635481A

    公开(公告)日:2024-03-01

    申请号:CN202311399539.4

    申请日:2023-10-26

    Abstract: 基于深度无关数据集的图像去雾方法、计算机设备、介质和电子设备,属于图像处理技术领域,解决图像去雾处理能力低且无法同时保证去雾效果和计算速度问题。本发明的方法包括:在数据集方面,解耦雾的浓度和场景深度之间的关系,从而生成一个与深度无关的数据集,将雾的浓度和场景深度关系解耦,使图像中雾的浓度与场景完全无关,来引导模型学习雾的浓度来恢复图像;提出了一种全新的卷积跳跃连接,通过为相加的特征融合方法引入一个单独的卷积层,对编码器特征进行卷积,并将卷积后的结果于解码器的特征相加,来提高相加特征融合方法的特征表示能力,进而在几乎不增加计算复杂度的同时提高模型的去雾表现。本发明适用于图像去雾。

    一种学习实例内部语义增强的场景文字检测器和方法

    公开(公告)号:CN117576672A

    公开(公告)日:2024-02-20

    申请号:CN202311461019.1

    申请日:2023-11-06

    Abstract: 一种学习实例内部语义增强的场景文字检测器和方法,属于场景文本识别技术领域,解决未考虑语义关系以及未考虑边框和中心的一致性而导致检测不准确问题。本发明的检测器包括:文本领域注意力机制TAM和边界融合模块BAG;所述文本领域注意力机制使用连通域分析的方法得到独立的文本区域,使用RoIAlign操作提取RoI特征,然后通过线性层压缩并投影为Troi∈RN×C,其中N是RoI的数量,是C通道数;将Troi和类别令牌Tcls连接起来,添加位置嵌入以形成原始ViT编码器的输入标记;所述边界融合模块根据所述文本领域注意力机制输出的特征图生成高维嵌入的卷积层。本发明适用于自动驾驶、场景文本翻译和场景理解。

    基于时空神经网络的小目标识别方法及系统

    公开(公告)号:CN113160050A

    公开(公告)日:2021-07-23

    申请号:CN202110319609.5

    申请日:2021-03-25

    Abstract: 本发明公开了一种基于时空神经网络的小目标识别方法及系统,其中,该方法包括:运用超分辨率算法对原始模糊图像进行预处理,得到高画质图像序列;利用时空注意力机制对高画质图像序列的相邻帧间进行逻辑减操作,捕捉并高亮强调可疑区域;提取可疑区域中的深度特征,得到特征图时序序列;采用LSTM状态转移子网将特征图时序序列输入到置信输出的映射装置中,得到转移状态;利用分类器对转移状态进行分类,得到最终识别结果,其中,最终识别结果为目标种类和置信率。该方法随着帧序列的不断读入,模型进行自我修正,逐渐修正为正确的类别并不断提高置信率。

    图片中仪表角度校正变换函数获取方法及装置、角度校正方法及装置、读数方法及装置

    公开(公告)号:CN116092089A

    公开(公告)日:2023-05-09

    申请号:CN202211391022.6

    申请日:2022-11-07

    Abstract: 图片中仪表角度校正变换函数获取方法及装置、角度校正方法及装置、读数方法及装置,涉及计算机视觉领域。针对现有技术中存在的,在仪表内容识别阶段时,需要借助外部系统对仪表数字进行识别,造成效率的低下,另外一些方法设计了统一的流程对上述问题进行解决,在低质量图像上的识别率较低的问题,本发明提供的技术方案为:图片中仪表角度校正变换函数获取方法,方法包括:采集图片中仪表内轮廓标注;根据标注确认仪表内轮廓并将内轮廓所在的椭圆圆周上的四个顶点作为变换前基准点;拉长椭圆短轴,使椭圆变换,与椭圆的最小外接圆重合;根据变换过程得到变换矩阵;根据变换矩阵得到变换函数。适合应用于仪表读数识别工作。

    基于3D卷积和Transformer的短视频正能量评价方法、装置及设备

    公开(公告)号:CN115661596A

    公开(公告)日:2023-01-31

    申请号:CN202211334609.3

    申请日:2022-10-28

    Abstract: 本发明公开了一种基于3D卷积和Transformer的短视频正能量评价方法、装置及设备,涉及视频暴力行为分析技术领域,解决的技术问题为“如何对包含大量帧的视频更好地进行正能量评价”,方法包括:获取视频片段,所述视频片段帧数为预设帧数;基于预先训练好的3D卷积模型对所述视频片段进行特征提取,得到多个特征向量;对所述特征向量进行位置编码;将经过位置编码的多个所述特征向量输入至预先训练好的Transformer模型,得到一个输出向量;将所述输出向量输入至多层感知机模型,计算得到视频片段的正能量分数;该方法基于3D卷积模型和Transformer模型对短视频进行正能量评价,有较好的时序建模效果,且能够处理长时间包含大量视频帧的视频,本发明还应用于计算机视觉领域。

Patent Agency Ranking