-
公开(公告)号:CN113744758B
公开(公告)日:2023-12-01
申请号:CN202111089655.7
申请日:2021-09-16
Applicant: 江南大学
IPC: G10L25/24 , G10L25/30 , G10L25/48 , G10L25/51 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/048 , G06N3/08
Abstract: 本发明提供的基于2‑DenseGRUNet模型的声音事件检测方法,以2阶DenseNet网络模型为基础,加入了门控循环单元GRU网络,构建了声音事件检测模型;相对于传统卷积神经网络以及循环神经网络模型,本专利技术方案中的声音事件检测模型结合了2‑DenseNet和GRU的优点,既能更高效利用特征信息将其融合,获取更多有效的特征信息,同时可有效进行时间序列建模。基于本专利技术方案中的声音事件检测模型在检测城市声音事件中,具有更低的平均片段错误率,和更高的F‑Score分数,确保基于本发明方法进行的声音分类结果更加准确。
-
公开(公告)号:CN110110624B
公开(公告)日:2023-04-07
申请号:CN201910332644.3
申请日:2019-04-24
Applicant: 江南大学
Abstract: 本发明提供一种基于DenseNet网络与帧差法特征输入的人体行为识别方法,其可以在占用较少内存和更少训练时间的基础上,在进行人体行为识别的时候取得较高的准确率。其包括:S1:获得待识别动作视频数据;获取待识别动作视频数据的静态灰度图像序列,利用帧差法生成包含运动主体运动特征的运动帧差图;S2:以DenseNet模型为基础构建骨干网络模型,通过骨干网络模型分别搭建时间流网络和空间流网络;S3:分别训练时间流网络和空间流网络,获得训练好的时间流网络和空间流网络;S4:将静态灰度图像序列的序列作为训练好的空间流网络的输入;将运动帧差图的序列作为训练好的时间流网络的输入,获得行为识别最终结果,完成动作识别操作。
-
公开(公告)号:CN109272988B
公开(公告)日:2022-05-24
申请号:CN201811155813.2
申请日:2018-09-30
Applicant: 江南大学
Abstract: 本发明提供基于多路卷积神经网络的语音识别方法,其能够提取更充分的语音信息,且处理数据量较大的音频数据时,具有更好的拟合性。其包括:S1:输入原始语音并进行处理;S2:提取出反映语音信号特征的关键特征参数,形成特征矢量序列;S3:基于多路卷积神经网络模型为基础、CTC作为损失函数,构建声学模型;多路卷积神经网络的结构包括依次设置的子网络结构、连续的全连接层、CTC损失函数;S4:训练声学模型,得到训练好的声学模型;S5:将待识别的特征矢量序列输入到训练好的声学模型中得到识别结果;S6:以步骤S5中得到的识别结果为基础进行后续的运算,即得到能够以最大概率输出该语音信号的词串,词串即原始语音被识别后的语言文字。
-
公开(公告)号:CN109949824B
公开(公告)日:2021-08-03
申请号:CN201910066335.6
申请日:2019-01-24
Applicant: 江南大学
Abstract: 本发明提供一种基于N‑DenseNet和高维mfcc特征的城市声音事件分类方法,其在处理音频数据时能提供更丰富、更有效的特征信息,模型有更强的泛化能力,分类具有更高的准确率。其包括:S1:采集待处理音频数据,对原始音频信号进行预处理,输出音频帧序列;S2:对音频帧序列进行时域和频域分析,提取高维梅尔频率倒谱系数,输出特征向量序列;S3:构建声学模型,并对声学模型进行训练,得到训练好的声学模型;S4:将步骤S2中输出的特征向量序列经过处理后,输入到训练好的声学模型中进行分类识别,得到的识别结果即为声音事件的分类结果;其特征在于:声学模型是以DenseNet模型为基础,结合N阶马尔可夫模型的特点构建的网络模型,即为N阶DenseNet模型。
-
公开(公告)号:CN110390952A
公开(公告)日:2019-10-29
申请号:CN201910539745.8
申请日:2019-06-21
Applicant: 江南大学
Abstract: 本发明提供基于双特征2-DenseNet并联的城市声音事件分类方法,其具对特征信息具有更高效的融合能力,更高的分类准确率,且具有更强的泛化能力。其包括:S1采集、处理待处理音频数据,输出音频帧序列;S2对音频帧序列进行时域和频域分析,分别输出梅尔频率倒谱系数特征向量序列和伽马通倒谱系数特征向量序列;S3构建分类模型,分类模型中包括以DenseNet模型为基础、结合2阶马尔可夫模型构建的网络模型;分类模型以2阶DenseNet模型为基础构建基础网络,基础网络设置为并联的两路;对分类模型进行训练,得到训练好的分类模型;S4将步骤S2中输出的特征向量序列经过处理后,以双特征形式分为两路输入到训练好的分类模型中进行分类识别,得到声音事件的分类结果。
-
公开(公告)号:CN109272990A
公开(公告)日:2019-01-25
申请号:CN201811112506.6
申请日:2018-09-25
Applicant: 江南大学
Abstract: 本发明提供基于卷积神经网络的语音识别方法,其更加擅长提取高层特征,建模过程简单、容易训练、模型的泛化性能更佳,能够更广泛的应用到各种语音识别的场景中。其包括:S1:对输入的原始语音信号进行预处理;S2:提取出反映语音信号特征的关键特征参数,形成特征矢量序列;S3:基于DCNN网络模型为基础、以联结主义时间分类器CTC作为损失函数,构建端对端方式的声学模型;S4:训练声学模型,得到训练好的声学模型;S5:将步骤S2中得到的待识别的特征矢量序列输入到训练好的声学模型中得到识别结果;S6:以步骤S5中得到的识别结果为基础进行后续的运算,即得到能够以最大概率输出该语音信号的词串,词串即原始语音被识别后的语言文字。
-
公开(公告)号:CN110084292B
公开(公告)日:2023-06-06
申请号:CN201910314505.8
申请日:2019-04-18
Applicant: 江南大学
IPC: G06V10/80 , G06V10/774 , G06V10/82 , G06N3/0464
Abstract: 本发明提供基于DenseNet和多尺度特征融合的目标检测方法,其包括:S1构建特征提取网络模型;S2训练特征提取网络模型,通过多次迭代训练得到最优目标检测模型;S3将待检测图像数据输入到最优目标检测模型进行检测,在待检测图像上用矩形框标注每个物体的位置和类别;特征提取网络模型以DenseNet网络为基础网络,加深了网络层次,提高了特征质量,同时使用特征融合模块,引入上下文信息,得到六个用于最终预测的特征图,具有丰富的语义信息和较高的分辨率。本发明方法可在保证检测速度的基础上,降低模型规模,提升对小目标的检测精度。
-
公开(公告)号:CN109272990B
公开(公告)日:2021-11-05
申请号:CN201811112506.6
申请日:2018-09-25
Applicant: 江南大学
Abstract: 本发明提供基于卷积神经网络的语音识别方法,其更加擅长提取高层特征,建模过程简单、容易训练、模型的泛化性能更佳,能够更广泛的应用到各种语音识别的场景中。其包括:S1:对输入的原始语音信号进行预处理;S2:提取出反映语音信号特征的关键特征参数,形成特征矢量序列;S3:基于DCNN网络模型为基础、以联结主义时间分类器CTC作为损失函数,构建端对端方式的声学模型;S4:训练声学模型,得到训练好的声学模型;S5:将步骤S2中得到的待识别的特征矢量序列输入到训练好的声学模型中得到识别结果;S6:以步骤S5中得到的识别结果为基础进行后续的运算,即得到能够以最大概率输出该语音信号的词串,词串即原始语音被识别后的语言文字。
-
公开(公告)号:CN109949824A
公开(公告)日:2019-06-28
申请号:CN201910066335.6
申请日:2019-01-24
Applicant: 江南大学
Abstract: 本发明提供一种基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其在处理音频数据时能提供更丰富、更有效的特征信息,模型有更强的泛化能力,分类具有更高的准确率。其包括:S1:采集待处理音频数据,对原始音频信号进行预处理,输出音频帧序列;S2:对音频帧序列进行时域和频域分析,提取高维梅尔频率倒谱系数,输出特征向量序列;S3:构建声学模型,并对声学模型进行训练,得到训练好的声学模型;S4:将步骤S2中输出的特征向量序列经过处理后,输入到训练好的声学模型中进行分类识别,得到的识别结果即为声音事件的分类结果;其特征在于:声学模型是以DenseNet模型为基础,结合N阶马尔可夫模型的特点构建的网络模型,即为N阶DenseNet模型。
-
公开(公告)号:CN113744758A
公开(公告)日:2021-12-03
申请号:CN202111089655.7
申请日:2021-09-16
Applicant: 江南大学
Abstract: 本发明提供的基于2‑DenseGRUNet模型的声音事件检测方法,以2阶DenseNet网络模型为基础,加入了门控循环单元GRU网络,构建了声音事件检测模型;相对于传统卷积神经网络以及循环神经网络模型,本专利技术方案中的声音事件检测模型结合了2‑DenseNet和GRU的优点,既能更高效利用特征信息将其融合,获取更多有效的特征信息,同时可有效进行时间序列建模。基于本专利技术方案中的声音事件检测模型在检测城市声音事件中,具有更低的平均片段错误率,和更高的F‑Score分数,确保基于本发明方法进行的声音分类结果更加准确。
-
-
-
-
-
-
-
-
-