基于改进循环生成对抗网络的城市道路检测算法

    公开(公告)号:CN117422995A

    公开(公告)日:2024-01-19

    申请号:CN202311357298.7

    申请日:2023-10-19

    Applicant: 南通大学

    Abstract: 本发明涉及人工智能神经网络技术领域,尤其涉及基于改进循环生成对抗网络的城市道路检测算法。本发明包括以下步骤:S1、采集大量城市遥感图像,以及大量标注后的城市道路图像;该两类图像无需对应成对;S2、对两类图像进行预处理,构建训练集和测试集,训练集包括遥感图像、标注图像、以及进行高斯模糊处理后的两类图像;S3、将训练集输入改进的循环生成对抗网络,生成器模型对图像通过进行下采样对图像特征进行提取,并上采样成原大小;S4、将生成器的生成图像和高斯模糊图像一起输入到判别器中,进行判断处理;S5、训练并优化模型,测试集测试模型性能;S6、对城市遥感图像处理后,输入进训练好的模型,实现城市遥感图像的道路标注。

    一种基于改进YOLOv7的无人机航拍图像目标检测方法

    公开(公告)号:CN118097464A

    公开(公告)日:2024-05-28

    申请号:CN202410192856.7

    申请日:2024-02-21

    Applicant: 南通大学

    Abstract: 本发明属于深度学习技术领域,具体涉及一种基于改进YOLOv7的无人机航拍图像目标检测方法。本发明包括以下步骤:S1、对VisDrone2019数据集进行预处理,将VisDrone2019数据集格式转化为YOLO格式;S2、搭建YOLOv7网络模型,改进YOLOv7的网络框架和损失函数;S3、对改进的YOLOv7模型进行训练;S4、使用测试集对改进的模型进行测试。本发明添加小目标检测层,将原本三尺度检测升级为四尺度检测,设置更小的锚框以应对多尺度目标的变化,提高小目标的检测精度;在Backbone特征提取网络中嵌入Triplet Attenion模块,利用高效的注意力机制充分融合各种特征信息,提升在密集场景中小目标的准确度;采用WIoUv1损失函数替换CIoU损失函数,更好的平衡不同目标尺度的损失,强调对小目标的定位预测,提高小目标的检测精度。

    一种基于随机森林的线上考试监考方法

    公开(公告)号:CN115273180A

    公开(公告)日:2022-11-01

    申请号:CN202210773448.1

    申请日:2022-07-01

    Applicant: 南通大学

    Abstract: 本发明涉及机器学习视觉技术领域,尤其涉及一种基于随机森林的线上考试监考方法,包括以下步骤:S1:在获得视频帧的图片后,利用改进的MTCNN方法进行人脸检测,特征提取和人脸对齐;S2:基于面部特征点计算头部姿态;S3:基于随机森林,融合头部姿态和面部特征进行视线估计;S4:对作弊行为进行判断。本发明使用基于迁移学习的人脸检测方法可以在人脸存在较大角度偏转以及暗光条件下很好的检测到人脸,在佩戴眼镜的情况下也可以准确获取到特征点信息。本发明只需借助网络摄像头,从而降低对设备的需求,有助于推进线上考试的发展;能够实时检测考生作弊情况,减少作弊行为发生的概率。

    一种中英混合语音识别方法

    公开(公告)号:CN116386609A

    公开(公告)日:2023-07-04

    申请号:CN202310399570.1

    申请日:2023-04-14

    Applicant: 南通大学

    Abstract: 本发明涉及语音处理技术领域,尤其涉及一种中英混合语音识别方法,包括:步骤S1、对中英混合音频通过预处理得到声学特征,利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习,接着将编码学习后的特征混合输入到解码器部分;步骤S2、使用预训练生成模型的解码器部分作为GPT‑Decoder解码器,同时由GPT‑Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM‑RNNLM模型组成联合解码器;其中,联结时序分类CTC模块和长短时记忆循环神经网络LSTM‑RNNLM模型辅助GPT‑Decoder解码器进行解码。本发明中的编码器部分引入Conformer模型作为中英双编码器,替换传统的Transformer编码器。本发明中的解码器部分采用联合解码器形式代替原有单一的解码器结构,有效提高中英混合语音识别的准确率和效率。

    基于BiGRU和BiLSTM的抑郁症检测方法

    公开(公告)号:CN115171878A

    公开(公告)日:2022-10-11

    申请号:CN202210759072.9

    申请日:2022-06-29

    Applicant: 南通大学

    Abstract: 本发明涉及抑郁症检测技术领域,尤其涉及基于BiGRU和BiLSTM的抑郁症检测方法。包括以下步骤:步骤S1、构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频和对应的文本信息,按照9:1的比例划分训练集和测试集;步骤S2、采用vggish网络模型进行音频特征提取并训练,提取梅尔语谱图特征,获得具备情景感知的语音向量特征;步骤S3、进行文本特征提取并训练,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得文本特征;步骤S4、使用双向门循环单元BiGRU和双向长短期记忆网络BiLSTM模型,对所述语音向量特征和所述文本特征进行融合,从而进行抑郁症的分析判断;步骤S5、使用测试集对改进的模型进行测试,完成检测。

    一种基于随机森林的线上考试监考方法

    公开(公告)号:CN115273180B

    公开(公告)日:2023-08-15

    申请号:CN202210773448.1

    申请日:2022-07-01

    Applicant: 南通大学

    Abstract: 本发明涉及机器学习视觉技术领域,尤其涉及一种基于随机森林的线上考试监考方法,包括以下步骤:S1:在获得视频帧的图片后,利用改进的MTCNN方法进行人脸检测,特征提取和人脸对齐;S2:基于面部特征点计算头部姿态;S3:基于随机森林,融合头部姿态和面部特征进行视线估计;S4:对作弊行为进行判断。本发明使用基于迁移学习的人脸检测方法可以在人脸存在较大角度偏转以及暗光条件下很好的检测到人脸,在佩戴眼镜的情况下也可以准确获取到特征点信息。本发明只需借助网络摄像头,从而降低对设备的需求,有助于推进线上考试的发展;能够实时检测考生作弊情况,减少作弊行为发生的概率。

    一种基于深度残差收缩网络的眼病诊断方法

    公开(公告)号:CN115456981A

    公开(公告)日:2022-12-09

    申请号:CN202211073636.X

    申请日:2022-09-02

    Applicant: 南通大学

    Abstract: 本发明涉及人工智能神经网络技术领域,尤其涉及一种基于深度残差收缩网络的眼病诊断方法,包括:S1:采集病人结构化、脱敏眼科图像集据作为样本数据,并对眼部数据根据病情进行类别标注;S2:对采集的眼部图像进行预处理;S3:构建训练集和测试集,采用分层抽样算法对训练集中眼部样本数据进行采样,均衡样本数据;S4:将训练集输入深度残差收缩网络,对深层特征进行多尺度提取,去除噪声,输出分类结果;S5:训练并优化模型,测试集测试模型性能,实现眼部疾病诊断。本发明采用注意力机制,抽取出更加关键及重要的信息,使模型做出更加准确的判断;使用软阈值化,减少噪声影响;采用分层抽样和交叉熵损失函数优化算法,提高训练和预测的准确度。

    一种中英混合语音识别方法
    8.
    发明公开

    公开(公告)号:CN116486794A

    公开(公告)日:2023-07-25

    申请号:CN202310386820.8

    申请日:2023-04-12

    Applicant: 南通大学

    Abstract: 本发明涉及语音处理技术领域,具体涉及一种中英混合语音识别方法。本发明包括以下步骤:步骤S1、对中英混合音频通过预处理得到声学特征,利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习,接着将编码学习后的特征混合输入到解码器部分;步骤S2、使用预训练生成模型的解码器部分作为GPT‑Decoder解码器,同时由GPT‑Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM‑RNNLM模型组成联合解码器;其中,联结时序分类CTC模块和长短时记忆循环神经网络LSTM‑RNNLM模型辅助GPT‑Decoder解码器进行解码。本发明中的编码器部分引入Conformer模型作为中英双编码器,替换传统的Transformer编码器。本发明中的解码器部分采用联合解码器形式代替原有单一的解码器结构。

Patent Agency Ranking