-
公开(公告)号:CN116092512A
公开(公告)日:2023-05-09
申请号:CN202211740126.3
申请日:2022-12-30
Applicant: 重庆邮电大学
IPC: G10L21/0272 , G10L17/04 , G10L17/18
Abstract: 本发明涉及一种基于数据生成的小样本语音分离方法,属于语音分离领域,包括以下步骤:S1:采集并构建待分离语音数据集和目标说话人干净语音数据集;S2:对数据集进行预处理;S3:利用基于LSTM的语音匹配模型对预处理后的待分离语音数据集中的每段语音进行帧级别的目标说话人匹配,根据匹配结果,将语音段判断为:不含目标说话人、只包含一个目标说话人、包含多个目标说话人;S4:利用基于GAN的包含多个目标说话人的语音生成模型扩充待分离语音段;S5:构建并训练基于TCN的语音分离模型,将待分离的包含多个目标说话人的语音分离得到单一目标说话人的语音数据,最后拼接出单一说话人的完整语音。
-
公开(公告)号:CN116311379B
公开(公告)日:2025-04-29
申请号:CN202310351000.5
申请日:2023-04-04
Applicant: 重庆邮电大学
IPC: G06V40/10 , G06V10/80 , G06V10/774 , G06V10/764 , G06F17/16 , G06N3/04 , G06N3/08
Abstract: 本发明属于计算机视觉领域,涉及一种基于Transformer网络模型的行人重识别方法、装置及计算机设备;所述方法包括获取目标行人图像并预处理,生成标准行人图像;将标准行人图像采用滑动窗口划分为多个具有重叠部分的方形子图像;对各方形子图像经过水平线性投影和垂直线性投影,得到水平特征矩阵和垂直特征矩阵;将其输入到预先训练好的改进Transformer网络模型中,预测得到目标行人图像的识别结果。本发明利用滑动窗口将输入图像划分为多个有重叠部分的正方形小块,突出了遮挡物与行人交界边缘处行人的特征;利用改进的Transformer网络结构,加强了行人特征在各个方向上的关联,提高了行人重识别准确度。
-
公开(公告)号:CN116311379A
公开(公告)日:2023-06-23
申请号:CN202310351000.5
申请日:2023-04-04
Applicant: 重庆邮电大学
IPC: G06V40/10 , G06V10/80 , G06V10/774 , G06V10/764 , G06F17/16 , G06N3/04 , G06N3/08
Abstract: 本发明属于计算机视觉领域,涉及一种基于Transformer网络模型的行人重识别方法、装置及计算机设备;所述方法包括获取目标行人图像并预处理,生成标准行人图像;将标准行人图像采用滑动窗口划分为多个具有重叠部分的方形子图像;对各方形子图像经过水平线性投影和垂直线性投影,得到水平特征矩阵和垂直特征矩阵;将其输入到预先训练好的改进Transformer网络模型中,预测得到目标行人图像的识别结果。本发明利用滑动窗口将输入图像划分为多个有重叠部分的正方形小块,突出了遮挡物与行人交界边缘处行人的特征;利用改进的Transformer网络结构,加强了行人特征在各个方向上的关联,提高了行人重识别准确度。
-
公开(公告)号:CN116313144A
公开(公告)日:2023-06-23
申请号:CN202310319272.7
申请日:2023-03-29
Applicant: 重庆邮电大学
Abstract: 本发明涉及一种非等间隔时间的体检数据患病风险预测系统,属于计算机技术领域,包括服务器及客户端,所述服务器包括:医疗数据预处理模块、药物功效信息库、文本特征提取模块、非等间隔病历特征序列构建模块、疾病信息序列构建模块、体检信息序列标签库、语义特征提取网络、异构图构建模块、异构图卷积网络、体检指标库及患病风险预测模型,其中患病风险预测模型用于根据体检指标序列和疾病的属性特征,预测患各种疾病的风险,并根据疾病和药物间的相关性信息推荐相关药物,输出到客户端。本系统能够得到更全面预测结果及推荐药物。
-
-
-