一种粤语新闻视频中自动裁剪含主播的视听数据集的方法

    公开(公告)号:CN115460462B

    公开(公告)日:2024-10-01

    申请号:CN202211132338.3

    申请日:2022-09-17

    Applicant: 东南大学

    Abstract: 本发明公开了一种粤语新闻视频中自动裁剪含主播的视听数据集的方法,该方法把粤语新闻视频裁剪为视频、语音两个模态的数据集合,其中每一段数据都只包含主持人进行新闻播报的场景。该方法基于HSV图像信息检测算法进行整个新闻场景的分割,基于FaceRecognition人脸检测库和人脸特征提取工具进行包含目标主播人脸的视频识别,基于语音活动检测算法对音频进行切分,再根据切分停顿点对视频进行切分,实现自动完成粤语新闻中裁剪含主播的视听数据集的制作。通过设计的合理的流程和使用高效的算法,提高了构建粤语高质量视听数据集的效率,并能够方便地推广到其他语言的视听数据集制作中,最终能应用于如粤语场景下语音去噪、音视频驱动的人脸生成模型的训练中。

    一种基于注意力机制的开放域实体表示学习方法

    公开(公告)号:CN118193755A

    公开(公告)日:2024-06-14

    申请号:CN202410515360.9

    申请日:2024-04-26

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于注意力机制的开放域实体表示学习方法,具体包括以下步骤:1、知识图谱数据预处理,从知识图谱中采样开放域知识图谱数据集;2、对知识图谱训练集中的实体和关系进行初始化向量表示,并初始化编码器参数;3、通过解码器和损失函数进行训练,更新训练集中实体和关系的向量表示并更新编码器的参数4、利用知识图谱验证集进行验证,将编码器参数调整到最优5、在开放域知识图谱测试集上执行包含开放域实体的链接预测实验,并统计结果。本发明通过改进的注意力机制,能够获取高质量的开放域实体特征表示。

    一种军事新闻视频中自动裁剪的语音合成数据集制作方法

    公开(公告)号:CN116208801A

    公开(公告)日:2023-06-02

    申请号:CN202310242449.8

    申请日:2023-03-14

    Applicant: 东南大学

    Abstract: 本发明公开了一种军事新闻视频中自动裁剪的语音合成数据集制作方法,该方法采用FFmpeg对视频的原始语音模态、视频模态进行提取,基于语音的pcm文件判断是否存在静默段,对静默段语音进行删除,基于科大讯飞的语音转文字功能,对每个语音文件进行文字转换,为了适应语音合成模型,还需要每段文字对应的拼音以及对齐的音素,基于python的pypinyin库,完成文字到拼音的转换,基于MFA模型、普通话模型、普通话词典完成音素对齐任务,实现军事新闻视频中自动裁剪出语音合成数据集的工作。通过设计的合理的流程和使用高效的算法,提高了构建高质量用于军事语音合成任务的数据集的效率,并能够方便地推广到其他任意场景下的语音合成数据集制作中。

    融合条件随机与残差的三维U-Net大脑肿瘤分割方法

    公开(公告)号:CN110706214B

    公开(公告)日:2022-06-17

    申请号:CN201910899952.4

    申请日:2019-09-23

    Applicant: 东南大学

    Abstract: 本发明提供了融合条件随机与残差的三维U‑Net大脑肿瘤分割方法,包括:对训练集进行三层级联网络架构训练,获得卷积神经网络的模型;通过卷积神经网络模型,对测试集进行测试,获得对应大脑肿瘤每一个分类的概率矩阵;对概率矩阵进行后处理,更新概率,获得最终的大脑肿瘤分割结果。本发明分步简化问题并且获得更好的效果,相较传统方法更有优势,其采用的网络具有更好的学习能力,并且引入残差块来减小网络层数加深带来的梯度爆炸、梯度消失和网络性能退化的影响;在最大程度上使用了三维空间的信息。

    基于卷积神经网络和迭代方法相结合的稀疏MRI重建的方法

    公开(公告)号:CN108717717B

    公开(公告)日:2022-03-08

    申请号:CN201810366656.3

    申请日:2018-04-23

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于卷积神经网络和迭代方法相结合的稀疏MRI重建的方法,该方法首先准备一个数据集,包括训练数据和测试数据,训练数据用于训练网络,测试数据用于测试训练好的网络,每组数据都包含一组样本和标签,样本为将高度降采样的k空间数据分为低频数据和高频数据,分别进行填零重建得到的具有噪声和伪影的低质量的高频图像和低频图像,标签为该低质量图像对应的没有噪声与伪影的高质量MR图像。分别利用低频数据和高频数据训练出两个结构相同的网络,一个用于重建高频k空间数据,一个用于重建低频k空间数据,两个重建结果相加就是最终需要的重建结果。本发明利用更少的k空间数据,重建速度更快,图像质量更高。

    一种基于残差密集U形网络模型的丘脑分割方法

    公开(公告)号:CN111080575A

    公开(公告)日:2020-04-28

    申请号:CN201911154760.7

    申请日:2019-11-22

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于残差密集U形网络模型的丘脑分割方法,包括如下步骤:S1:对训练样本图像数据进行预处理;S2:构建待训练的语义分割网络模型;S3:将预处理后的训练样本图像,作为待训练的语义分割网络模型的输入,对待训练的语义分割网络模型进行训练,获取训练好的丘脑分割模型;S4:将待分割原始图像进行轴向面切片,并作为训练好的丘脑分割模型的输入,获取待分割原始图像的初步分割图像;S5:将待分割原始图像的初步分割图像进行拼接,获得三维丘脑分割结果图像。本发明的丘脑分割方法通过运用残差学习,增加了网络深度使得网络整体特征提取能力,解决了增加深度带来的副作用,即梯度弥散问题,从而使得丘脑组织更易提取。

Patent Agency Ranking