一种个性化的音乐动态情感识别方法及其装置

    公开(公告)号:CN119128692B

    公开(公告)日:2025-04-18

    申请号:CN202411600353.5

    申请日:2024-11-11

    Applicant: 浙江大学

    Abstract: 本发明公开了一种个性化的动态音乐情感识别方法及其装置,本发明通过元任务集训练得到的音乐情感识别元模型能够基于用户的情感需要构建出与用户个性化情感匹配的个性化情感识别模型,通过个性化情感识别模型对音乐音频进行情感识别得到符合用户情感倾向的预测情感识别序列。本发明通过将音乐音频进行切割分段,使得音乐情感识别元模型能够识别出音乐音频各片段的Valence值和Arousal值,从而得到音乐音频对应的Valence曲线和Arousal曲线,基于Valence曲线和Arousal曲线实现情感的准确识别。

    一种个性化的音乐动态情感识别方法及其装置

    公开(公告)号:CN119128692A

    公开(公告)日:2024-12-13

    申请号:CN202411600353.5

    申请日:2024-11-11

    Applicant: 浙江大学

    Abstract: 本发明公开了一种个性化的动态音乐情感识别方法及其装置,本发明通过元任务集训练得到的音乐情感识别元模型能够基于用户的情感需要构建出与用户个性化情感匹配的个性化情感识别模型,通过个性化情感识别模型对音乐音频进行情感识别得到符合用户情感倾向的预测情感识别序列。本发明通过将音乐音频进行切割分段,使得音乐情感识别元模型能够识别出音乐音频各片段的Valence值和Arousal值,从而得到音乐音频对应的Valence曲线和Arousal曲线,基于Valence曲线和Arousal曲线实现情感的准确识别。

    一种家庭同胞互动过程中的协作状态分析方法及其系统

    公开(公告)号:CN117636219B

    公开(公告)日:2024-06-14

    申请号:CN202311646320.X

    申请日:2023-12-04

    Applicant: 浙江大学

    Abstract: 本发明公开了一种家庭同胞互动过程中的协作状态分析方法,本发明通过基于关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息将视频片段的每个帧的关键点特征进行降维结合得到关键点特征在视频片段内的位置变化,位置变化的速度和加速度信息,从而能够实时识别两个孩子的互动协作状态。基于识别的两个孩子的互动协作状态通过训练好的XGBoost分类模型得到多维度视频片段类别编码序列,然后通过大语言模型得到家庭同胞互动过程中的协作状态分析报告。本发明还公开了一种家庭同胞互动过程中的协作状态分析系统。

    一种家庭同胞互动过程中的协作状态分析方法及其系统

    公开(公告)号:CN117636219A

    公开(公告)日:2024-03-01

    申请号:CN202311646320.X

    申请日:2023-12-04

    Applicant: 浙江大学

    Abstract: 本发明公开了一种家庭同胞互动过程中的协作状态分析方法,本发明通过基于关键点特征的位置变化信息、位置变化速度信息和位置变化加速度信息将视频片段的每个帧的关键点特征进行降维结合得到关键点特征在视频片段内的位置变化,位置变化的速度和加速度信息,从而能够实时识别两个孩子的互动协作状态。基于识别的两个孩子的互动协作状态通过训练好的XGBoost分类模型得到多维度视频片段类别编码序列,然后通过大语言模型得到家庭同胞互动过程中的协作状态分析报告。本发明还公开了一种家庭同胞互动过程中的协作状态分析系统。

    一种基于时序网格流叠加的实时视频稳像方法

    公开(公告)号:CN108805908B

    公开(公告)日:2020-11-03

    申请号:CN201810587766.2

    申请日:2018-06-08

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于时序网格流叠加的实时视频稳像方法,包括:(1)将获得的每个视频帧下采样到固定尺寸;(2)以第一帧作为初始参考帧,获取参考帧特征点;(3)提取并匹配视频帧特征点与参考帧特征点,获得视频帧特征点的最佳匹配特征点,构建全局单应性矩阵;(4)利用全局单应性矩阵剔除一部分视频帧特征点;(5)对视频帧分布网格,根据视频帧特征点获得网格顶点的运动矢量;(6)以周期为单位更换参考帧,采用时域叠加的方法根据每个周期的参考帧获得每个周期内的网格顶点的运动矢量;(7)根据网格顶点的运动矢量计算像素的运动矢量,根据像素的运动矢量对该像素进行调整。该方法保持镜头在整个视频序列中完全静止。

    基于单色色盘的Lab空间映射的重着色方法

    公开(公告)号:CN107464213B

    公开(公告)日:2019-11-08

    申请号:CN201710655784.5

    申请日:2017-08-03

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于单色色盘的Lab空间映射的重着色方法,通过建立源图像与目标图像之间的色彩转换映射,使得重着色后的目标图像与单色盘的色彩风格相近。该方法包括:对输入的源图像和单色盘进行数据处理,包括提取源图像的主色调,获取源图像的a*b*通道色彩平面分布、主色调和色盘的色彩特征参数;根据所得数据,在a*b*通道平面内进行直线拟合、提取特征点、建立目标直线;构建a*b*空间的色彩转换矩阵;利用转换矩阵对源图像进行色彩转换的重着色。该方法能够实现任意给定色彩的风格着色,只需用户提供源图像和单色色盘,不需提供额外的参考图像,转换过程为矩阵运算简单高效,达到很好的重着色效果。

    一种基于时序网格流叠加的实时视频稳像方法

    公开(公告)号:CN108805908A

    公开(公告)日:2018-11-13

    申请号:CN201810587766.2

    申请日:2018-06-08

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于时序网格流叠加的实时视频稳像方法,包括:(1)将获得的每个视频帧下采样到固定尺寸;(2)以第一帧作为初始参考帧,获取参考帧特征点;(3)提取并匹配视频帧特征点与参考帧特征点,获得视频帧特征点的最佳匹配特征点,构建全局单应性矩阵;(4)利用全局单应性矩阵剔除一部分视频帧特征点;(5)对视频帧分布网格,根据视频帧特征点获得网格顶点的运动矢量;(6)以周期为单位更换参考帧,采用时域叠加的方法根据每个周期的参考帧获得每个周期内的网格顶点的运动矢量;(7)根据网格顶点的运动矢量计算像素的运动矢量,根据像素的运动矢量对该像素进行调整。该方法保持镜头在整个视频序列中完全静止。

    一种获取图像的视觉重心的方法及装置

    公开(公告)号:CN106846399A

    公开(公告)日:2017-06-13

    申请号:CN201710029331.1

    申请日:2017-01-16

    Applicant: 浙江大学

    Abstract: 本发明涉及一种获取图像的视觉重心的方法及装置,属于图像处理技术领域。本发明获取图像的视觉重心的方法包括:识别出图像中包含人像的元素,获取包含人像的元素中的人脸区域与视线,及计算已对人脸区域赋予大于1的第一权重扩大因子及对与视线有交点的元素赋予大于1的第二权重扩大因子后图像的整体视觉重心。由于该方法考虑了不同元素对图像视觉重心确定影响的差异中比较重要的元素,即人脸区域及与视线有交点的元素,可有效地提高获取图像视觉重心的准确性,其可广泛应用于广告制作等。

    一种基于语义细胞混合模型的说话人识别方法

    公开(公告)号:CN104538036A

    公开(公告)日:2015-04-22

    申请号:CN201510026239.0

    申请日:2015-01-20

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于语义细胞混合模型的说话人识别方法,包括以下步骤:(1)构建语音库,语音库中包括多个说话人的多条语音信号;(2)将语音库中每条语音信号进行预处理,提取语音特征,得到每个人的各个特征向量;(3)基于语义细胞的特征选择法,特征向量进行降维得到降维特征向量,并训练语义细胞混合模型;(4)使用基于语义细胞混合模型的核函数构造各说话人的SVM分类器,并训练SVM分类器的识别模型;(5)利用识别模型识别未知说话人。本发明能解决现有SVM模型的核函数对特定说话人无针对性优化的问题,在选取用于训练分类器的语音特征时,较目前常见方法更有针对性,且能因此减小模型存储所需空间。

Patent Agency Ranking