-
公开(公告)号:CN118193755A
公开(公告)日:2024-06-14
申请号:CN202410515360.9
申请日:2024-04-26
Applicant: 东南大学
IPC: G06F16/36 , G06N5/02 , G06N3/0455 , G06F18/214 , G06F18/24 , G06N3/084
Abstract: 本发明公开了一种基于注意力机制的开放域实体表示学习方法,具体包括以下步骤:1、知识图谱数据预处理,从知识图谱中采样开放域知识图谱数据集;2、对知识图谱训练集中的实体和关系进行初始化向量表示,并初始化编码器参数;3、通过解码器和损失函数进行训练,更新训练集中实体和关系的向量表示并更新编码器的参数4、利用知识图谱验证集进行验证,将编码器参数调整到最优5、在开放域知识图谱测试集上执行包含开放域实体的链接预测实验,并统计结果。本发明通过改进的注意力机制,能够获取高质量的开放域实体特征表示。
-
公开(公告)号:CN113823308B
公开(公告)日:2023-11-28
申请号:CN202111100709.5
申请日:2021-09-18
Applicant: 东南大学
IPC: G10L21/0208 , G10L21/0232 , G10L21/0264 , G10L25/30 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/048 , G06N3/08
Abstract: 评估、短时客观可懂度等多个评估指标上均取得本发明提供了一种仅使用单个带噪语音样 了更好的结果。本进行语音去噪的方法。该方法包括以下步骤:真实世界的不同噪声类型生成带噪语音样本;(2)对于单个带噪语音样本,使用一个语音下采样器生成一对语音训练样本;(3)将训练的输入语音转化为频谱图,然后输入去噪网络进行训练,该去噪网络在十层深度复数Unet的编码器和解码器之间叠加了复数两级Transformer模块;(4)训练使用的损失函数由基础损失和正则化损失组成,基础损失由网络特点决定,正则化损失(1)对于干净的语音信号,分别叠加合成噪声和
-
公开(公告)号:CN116208801A
公开(公告)日:2023-06-02
申请号:CN202310242449.8
申请日:2023-03-14
Applicant: 东南大学
IPC: H04N21/439 , H04N21/44 , G10L13/08 , G10L13/02 , H04N21/2187 , H04N21/478
Abstract: 本发明公开了一种军事新闻视频中自动裁剪的语音合成数据集制作方法,该方法采用FFmpeg对视频的原始语音模态、视频模态进行提取,基于语音的pcm文件判断是否存在静默段,对静默段语音进行删除,基于科大讯飞的语音转文字功能,对每个语音文件进行文字转换,为了适应语音合成模型,还需要每段文字对应的拼音以及对齐的音素,基于python的pypinyin库,完成文字到拼音的转换,基于MFA模型、普通话模型、普通话词典完成音素对齐任务,实现军事新闻视频中自动裁剪出语音合成数据集的工作。通过设计的合理的流程和使用高效的算法,提高了构建高质量用于军事语音合成任务的数据集的效率,并能够方便地推广到其他任意场景下的语音合成数据集制作中。
-
公开(公告)号:CN110909207B
公开(公告)日:2023-06-02
申请号:CN201910845200.X
申请日:2019-09-08
Applicant: 东南大学
IPC: G06F16/74 , G06F16/783 , G06T5/40 , G06T7/90
Abstract: 本发明公开了一种包含手语的新闻类视频描述数据集构建方法,该方法把新闻类视频构建成包含音频、视频、手语、语言描述的数据集;该方法利用色差直方图算法进行视频的自动分割,并使用ffmpeg完成视频信息的自动提取,最后构建图形用户界面并根据用户输入信息自动生成视频描述与视频信息json文件。本发明通过利用新闻视频数据与手语信息构建数据集,为视频描述网络的研究以及视频描述技术在残疾人士服务中的应用提供了支持。
-
公开(公告)号:CN115205920A
公开(公告)日:2022-10-18
申请号:CN202210228919.0
申请日:2022-03-08
Applicant: 东南大学
IPC: G06V40/16 , G06V20/40 , G06V10/74 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G10L21/0272
Abstract: 本发明公开了一种利用新闻发布会视频制作包含戴口罩人脸的语音分离数据集的方法,该方法:把新闻发布会视频裁剪为图像、视频以及语音三个模态的数据集合,基于戴口罩检测预训练模型,获取到每一帧都戴口罩的画面,从而组成戴口罩的视频,以此为数据源,再基于感知哈希算法把视频关键帧与自定义人脸特征库进行比对,实现视频裁剪与分类的过程全自动。本发明通过利用自定义的人脸库裁剪新闻发布会视频中的多模态数据,提高构建包含戴口罩人脸的语音分离数据集的效率。
-
公开(公告)号:CN114973375A
公开(公告)日:2022-08-30
申请号:CN202210612348.0
申请日:2022-05-31
Applicant: 东南大学
Abstract: 本发明公开了一种基于面部微表情的可控人脸生成方法,包含以下步骤:(1)人脸图像的预处理;(2)构造面部微表情驱动的卷积神经网络;(3)基于面部微表情参数进行可控人脸生成。本发明通过构造卷积神经网络,能够利用面部微表情提取人物脸部的内在运动细节,使得构造的网络可以人为控制生成结果,同时保持了优异的图像质量。
-
公开(公告)号:CN110706214B
公开(公告)日:2022-06-17
申请号:CN201910899952.4
申请日:2019-09-23
Applicant: 东南大学
Abstract: 本发明提供了融合条件随机与残差的三维U‑Net大脑肿瘤分割方法,包括:对训练集进行三层级联网络架构训练,获得卷积神经网络的模型;通过卷积神经网络模型,对测试集进行测试,获得对应大脑肿瘤每一个分类的概率矩阵;对概率矩阵进行后处理,更新概率,获得最终的大脑肿瘤分割结果。本发明分步简化问题并且获得更好的效果,相较传统方法更有优势,其采用的网络具有更好的学习能力,并且引入残差块来减小网络层数加深带来的梯度爆炸、梯度消失和网络性能退化的影响;在最大程度上使用了三维空间的信息。
-
-
公开(公告)号:CN110633663A
公开(公告)日:2019-12-31
申请号:CN201910835953.2
申请日:2019-09-05
Applicant: 东南大学
Abstract: 本发明公开了一种手语视频中自动裁剪多模态数据的方法,该方法:把手语视频裁剪为图像、视频、语音以及手语四个模态的数据集合,基于感知哈希算法把视频关键帧与自定义人脸特征库进行比对,实现视频裁剪过程全自动。本发明通过利用自定义的人脸库裁剪视频中的多模态数据,提高构建多模态数据集的效率。
-
公开(公告)号:CN107248144B
公开(公告)日:2019-12-10
申请号:CN201710286383.7
申请日:2017-04-27
Applicant: 东南大学
IPC: G06T5/00
Abstract: 本发明公开了一种基于压缩型卷积神经网络的图像去噪方法,包括:构造训练数据集;构造压缩型去噪卷积神经网络模型;利用训练数据集对网络模型进行训练;将有噪声的图像输入到训练好的网络中,并用所述有噪声的图像减去网络的输出图像得到清晰的去噪图像。本发明中的去噪卷积神经网络主要特征在于将原始的去噪卷积神经网络的卷积层替换成了经由低秩矩阵分解压缩后的卷积层。本发明通过改进一种已有的去噪卷积神经网络DnCNN,将其网络参数减少了至少75%,精简了网络,同时保持了优异的去噪效果。
-
-
-
-
-
-
-
-
-