-
公开(公告)号:CN115393692A
公开(公告)日:2022-11-25
申请号:CN202211095848.8
申请日:2022-09-08
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于生成式预训练语言模型的联想文本到图像生成方法,包括:基于数据集对生成式预训练模型进行微调,让预训练模型获得语义保留度好已有文本信息,得到微调后的预训练模型;将原始数据集中每张图像对应的十个句子作为微调后的预训练模型的输入,得到模型输出的生成数据集;对生成数据集进行约束处理和语义保留度评估选择,得到联想文本数据集;基于所述联想文本数据集,利用基于DF‑GAN的对抗生成网络模型,生成在文本图像跨模态语义特征上一致的图像。本发明综合利用生成式预训练模型的联想能力和丰富的语义信息,一定程度上平衡了了对抗生成网络在文本到图像跨模态生成任务上文本信息和图像信息不均衡的问题。
-
公开(公告)号:CN111968674B
公开(公告)日:2021-08-10
申请号:CN202010643281.8
申请日:2020-07-06
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于音频信号转录的线上乐器对战平台和排行榜系统,包括智能终端和服务器端,智能终端通过无线通信网络与服务器端通信;智能终端包括中央处理器、存储器、音频信号收集与转录单元以及演奏评分单元;服务器端包括对战单元和排行榜单元;所述音频信号收集与转录单元接收由录音装置采集得到的声音信号,并将其转录成为MIDI数字音频信号传输至智能终端的中央处理器,所述中央处理器将MIDI音频数字信号转换成用户的演奏数据;所述演奏评分单元获得用户本次演奏得分;用户可以自行在线上选择对手,也可以由系统随机匹配对手。本发明能够通过远程对战与排行榜的游戏形式增强练琴过程的趣味性,激发学琴者的学琴动力和兴趣。
-
公开(公告)号:CN111666385A
公开(公告)日:2020-09-15
申请号:CN201910170588.8
申请日:2019-03-07
Applicant: 南京邮电大学
IPC: G06F16/332 , G06F16/33 , G06Q30/02
Abstract: 本发明公开了一种基于深度学习的客服问答系统及实现方法,包括用于采集客服对话数据,构建基于Python爬虫的数据获取模块;用于进行中间语义分析的数据处理模块;用于通过问答模型生成回答并返回给客户的系统实现模块,本发明把深度学习技术应用到客服问答系统中,可以有效地实现自动生成问答的功能,使得客户在与客服对话过程中感到真实感,以及强于人工客服的高效率。采用Seq2Seq(Encoder-Decoder)框架和Attention机制训练出来的问答系统,能够更加准确地理解用户的语义,不仅包含了过去对话的上下文信息,而且将历史对话信息融入到当前对话中,从而能够做到精准回答客户的问题。同时,使用Bi-RNN训练单元,可以对未来对话信息进行预测,进一步提高了客户对系统的满意度。
-
公开(公告)号:CN111221961A
公开(公告)日:2020-06-02
申请号:CN201911055765.4
申请日:2019-10-31
Applicant: 南京南邮信息产业技术研究院有限公司 , 南京邮电大学
Abstract: 本发明提出了一种基于S-LSTM模型与槽值门的说话人意图识别系统及方法,系统包括词语嵌入模块:用于对用户提供的文本信息进行嵌入,将其转化为对应的词汇向量;特征提取模块:将得到的词汇嵌入进行处理,提取出其中蕴含的语义信息,以及一个句子整体的语义信息;意图判别模块:根据提取出的语义信息,对用户意图做出识别,并完成槽填充,为之后的行为提供保障。基于上述系统的说话人意图识别方法通过步骤S1-S4更好的挖掘了意图与其所对应槽值之间的关系,从而得到更好的准确率效果。
-
公开(公告)号:CN120048241A
公开(公告)日:2025-05-27
申请号:CN202510192231.5
申请日:2025-02-21
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
IPC: G10L13/02 , G10L13/033 , G10L25/18 , G10L25/30 , G10L25/90
Abstract: 本发明涉及语言转换技术领域,具体涉及一种基于图卷积网络的匿名说话人攻击方法;包括如下步骤:将F0特征与原始F0特征进行拼接融合作为新F0特征;提取音频的特征并进行矢量量化;将处理后的F0特征和特征进行拼接,生成匿名化语音;计算来自试验话语和注册话语的说话者嵌入;输出匿名化试验话语嵌入和匿名化注册话语嵌入的相似性分数,根据分数判断是否属于同一说话人;通过多个试验和注册话语对,计算等错误率作为性能指标,评估攻击者系统对匿名化系统的攻击能力;通过考虑F0特征不同帧之间的时间相关性,利用图卷积网络和F0特征协同匿名说话人身份信息,来提升攻击者系统性能。
-
公开(公告)号:CN119993175A
公开(公告)日:2025-05-13
申请号:CN202510157170.9
申请日:2025-02-13
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
IPC: G10L21/02 , G10L21/0208 , G10L21/0224 , G10L21/0232 , G10L25/30 , G06N3/0464
Abstract: 本发明涉及语音增强技术领域,具体涉及一种基于改进卷积循环网络的轻量化单通道语音增强方法:充分利用改进卷积循环网络在提取特征时的出色能力,使用聚合分组双路径循环网络和卷积混合分组双路径循环网络来提升多通道的深度时频特征以及对各通道之间的特征进行融合,使得深度特征所包含的语音信息更加的丰富,再利用深度特征来训练分离模型,进一步增强语音的性能,并且提出了聚合分组双路径循环网络和卷积混合分组双路径循环网络,改进了分组双路径循环网络架构,不仅使得卷积循环网络的语音增强性能得到了提升,而且保持了模型的轻量化,从而提高了增强模型的有效性,使得增强语音的清晰度和可懂度提高。
-
公开(公告)号:CN119207440A
公开(公告)日:2024-12-27
申请号:CN202411285296.6
申请日:2024-09-13
Applicant: 南京邮电大学
IPC: G10L21/007 , G10L25/30 , G10L25/63
Abstract: 本发明公开了一种基于情感迁移和特征插值的说话人匿名化方法,包括特征提取、特征插值和语音合成阶段,首先采用了WavLM模型从原始语音信号中提取语音特征。这些特征表示捕捉了输入数据中的多种属性,如语音信号中的语音和文本等特征;然后在情感特征提取阶段,采用wav2vec2‑large‑robust‑12‑ft‑emotion‑msp‑dim模型来提取情绪特征。在特征插值阶段,对表征说话人信息的特征进行重组。最后在语音合成阶段,利用修改后的HIFI‑GAN模型来合成保持情感信息的匿名化语音。本方法利用自监督特征提升了对情绪信息的捕获能力,从而在匿名化的过程中能够在不破坏语音内容的同时更好地维持情绪特征,实现了高质量的说话人匿名化过程。
-
公开(公告)号:CN113327632B
公开(公告)日:2023-07-28
申请号:CN202110523125.2
申请日:2021-05-13
Applicant: 南京邮电大学
IPC: G10L25/78 , G10L25/51 , G06N3/0464 , G06N3/088
Abstract: 本发明公开了一种基于字典学习的无监督异常声检测方法和装置,包括:生成训练集和测试集,训练集中只有正常运行状态下的机械声音频样本;对训练集中的样本数据进行预处理,分隔得到若干个音频帧;对音频帧进行特征提取,采用K‑SVD算法和OMP算法求解得到音频的本质特征和训练集稀疏系数;将求解得到的音频的本质特征和稀疏系数导入分类模型,对模型进行训练;该分类模型用于对导入的测试集稀疏系数进行处理,输出该测试集稀疏系数对应的音频样本的类别。本发明能够采用传统特征参数进行字典学习和稀疏表示进行样本更加精确的分类从而提高机械检测灵敏度和准确度。
-
公开(公告)号:CN116150418B
公开(公告)日:2023-07-07
申请号:CN202310424288.4
申请日:2023-04-20
Applicant: 南京邮电大学
IPC: G06F16/532 , G06F16/583 , G06F16/332 , G06F16/33 , G06F16/383 , G06F18/25 , G06F18/22 , G06V10/46 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0442 , G06N3/047 , G06N3/048
Abstract: 本发明公开了一种基于混合聚焦注意力机制的图文匹配方法及系统,方法包括以下步骤:步骤S1.提取图像中显著区域的特征以及自然语言描述中各个单词的特征;步骤S2.利用聚焦的跨模态注意力机制自适应地调整注意力机制对不同图片的温度系数,从而区分有效和无效的区域特征;步骤S3.利用门控的自注意力机制实现对区域特征和单词特征的模态内融合,通过门控信号控制自注意力矩阵自适应地选择有效的区域特征和单词特征;步骤S4.利用跨模态和自模态的区域特征和单词特征计算整个图像和句子的匹配分数。本发明可以实现图文间互相检索。
-
公开(公告)号:CN115204367A
公开(公告)日:2022-10-18
申请号:CN202210809911.3
申请日:2022-07-11
Applicant: 南京邮电大学
Abstract: 一种用于分类的互编码器模型,对于嘈杂混乱的音视频环境,加入注意力模型以提高对嘈杂音视频的特征提取能力。依赖互编码器模型来实现多模态之前的信息交互以及融合,并且相对与使用多个单独模态的自编码器。本模型优化改进了自编码器,提出了互编码器的概念;通过互编码器和注意力机制的运用提升了分类的准确度;提升了多个模态间的关联性。
-
-
-
-
-
-
-
-
-