-
公开(公告)号:CN119251898B
公开(公告)日:2025-03-21
申请号:CN202411783466.3
申请日:2024-12-06
Applicant: 中国科学技术大学
IPC: G06V40/16 , G06V20/40 , G06V10/764 , G06V10/82 , G06V10/42 , G06V10/44 , G06V10/80 , G06N3/0464 , G06N3/0455
Abstract: 本发明公开了一种基于AU引导的微表情识别方法及装置,所述微表情识别方法包括:对微表情样本视频预处理,得到微表情序列;通过公开数据集的AU编码标签以及面部动作编码系统,为每个微表情样本生成面部肌肉运动文本描述;将处理好的微表情序列送入视觉编码器,得到编码好的视觉运动特征;将运动文本描述送入文本编码器,得到文本运动特征;通过生成AU引导的细粒度的微表情面部肌肉运动文本描述,并利用CLIP对比损失进行跨模态的语义对齐,可提升模型对微弱局部的微表情运动的感知与捕捉,学习到显著的时空微表情运动特征,将运动特征有效转化为情绪特征,并使用Focal Loss分类损失来解决微表情数据类不平衡的问题,大幅提升了模型的识别性能。
-
公开(公告)号:CN119028381A
公开(公告)日:2024-11-26
申请号:CN202411505238.X
申请日:2024-10-28
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种基于音素感知的语音情感识别方法及装置,所述方法包括:获取原始语音,对所述原始语音预处理得到音频序列和音素序列;通过所述初始模型的全连接层和softmax函数,得到音素标签的预测概率,通过第一交叉熵损失函数计算音素预测损失;将所述编码特征和所述解码特征通过挤压激励模块融合,得到增强特征;将增强特征在时间维度进行池化,并在特征维度上进行拼接,形成聚合特征。本发明提供的语音情感识别方法,减少了预训练表示中的身份信息,从而为语音情感识别任务提供更强大和更具区分性的特征。为了进一步利用预训练表示,引入了一个挤压激励模块,以建模特征通道之间的依赖关系并突出情感相关信息,提升了语音情感识别任务的性能。
-
公开(公告)号:CN117557946B
公开(公告)日:2024-05-17
申请号:CN202410034631.9
申请日:2024-01-10
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种视频事件描述与归因生成方法、系统、设备及存储介质,它们是一一对应的方案,方案中:探究了更高语义层面上的视频中事件理解,并有效地对视频包含的无关信息进行了筛除,获得更有价值的多模态线索,进而生成更精确的事件文本描述;引入知识图谱来增强事件之间的逻辑相关性,结合事件感知注意力机制生成事件发生的原因,有效解决了视频中多个事件的关联难以捕捉的难点,生成了更精确的事件归因。
-
公开(公告)号:CN112287175B
公开(公告)日:2024-02-13
申请号:CN202011183864.3
申请日:2020-10-29
Applicant: 中国科学技术大学
IPC: G06F16/783 , G06V10/80 , G06V20/40 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种视频高亮片段预测方法和系统,方法包括:获取视频数据,将视频数据划分为固定长度的视频片段,并在训练数据上标记出高亮片段;使用神经网络从每个视频片段中分别提取出视觉特征和听觉情感特征;对视觉特征和听觉情感特征进行模态内与跨模态的融合,得到融合特征;基于融合特征对视频片段进行评分;使用成对的高亮‑非高亮片段组合,以及相应的损失函数训练模型;基于模型的训练结果选择合适的参数,对长视频中的所有片段进行评分,根据评分结果预测出视频高亮片段。本发明通过使用声音中蕴含的情感信息来强化视觉和听觉的联合建模过程,可以从难以进行人工标注的、缺少语义信息和细粒度标签的长视频数据中预测高亮片段。
-
公开(公告)号:CN116644755B
公开(公告)日:2023-11-17
申请号:CN202310928055.8
申请日:2023-07-27
Applicant: 中国科学技术大学
IPC: G06F40/295 , G06F40/30 , G06N3/045 , G06F16/35
Abstract: 本发明涉及自然语言处理领域,公开了一种基于多任务学习的少样本命名实体识别方法、装置及介质,该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块,利用源域数据对模型进行训练,再利用少量目标域数据微调模型参数,即实现少样本场景下的命名实体识别。本发明实现共同学习实体跨度检测和实体类型分类任务,从而精确识别出命名实体的边界及所属实体类型。
-
公开(公告)号:CN116524513B
公开(公告)日:2023-10-20
申请号:CN202310801730.0
申请日:2023-07-03
Applicant: 中国科学技术大学
IPC: G06V30/18 , G06F40/295 , G06V10/774 , G06V10/80
Abstract: 本发明公开了一种开放词表场景图生成方法、系统、设备及存储介质,它们是一一对应的方案,方案中:利用视觉特征抽取的方法抽取输入图像的表征,再作用于实体查询和关系查询,以生成包含有不同区域上下文信息的实体与关系视觉特征;基于单一提示以及基于自适应层级提示生成实体与关系文本表征;基于实体与关系视觉特征、实体与关系文本表征生成开放词表场景图。上述方案利用视觉表征和文本表征对齐的方式进行实体识别和关系识别,同时充分利用了图像所蕴含的丰富上下文信息识别长距离实体的关系,并利用关系类别的层级结构使易混淆的类别更容易被视觉表征区分,因此在开放词表场景图生成的精度上取得了不错的效果。
-
公开(公告)号:CN116663563A
公开(公告)日:2023-08-29
申请号:CN202310931885.6
申请日:2023-07-27
Applicant: 中国科学技术大学
IPC: G06F40/295 , G06F16/36 , G06F16/35 , G06F18/24 , G06N3/0455 , G06N3/084
Abstract: 发明公开了基于多任务负采样的跨领域实体链接方法、装置及介质,该跨领域实体链接方法分为辅助任务阶段、建立多任务学习模型阶段和训练多任务学习模型参数阶段,辅助任务阶段选择实体类型预测作为辅助任务,并生成多任务学习阶段辅助任务所需的标签;多任务学习模型的主体框架分为锚定点采样模块、底层全局共享模块和高层局部共享模块。本发明利用多任务学习和负采样方式,将在训练领域所获得的鉴别实体的能力迁移到不同的测试领域上,从而得到跨领域实体链接的最佳泛化性能。
-
公开(公告)号:CN116644755A
公开(公告)日:2023-08-25
申请号:CN202310928055.8
申请日:2023-07-27
Applicant: 中国科学技术大学
IPC: G06F40/295 , G06F40/30 , G06N3/045 , G06F16/35
Abstract: 本发明涉及自然语言处理领域,公开了一种基于多任务学习的少样本命名实体识别方法、装置及介质,该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块,利用源域数据对模型进行训练,再利用少量目标域数据微调模型参数,即实现少样本场景下的命名实体识别。本发明实现共同学习实体跨度检测和实体类型分类任务,从而精确识别出命名实体的边界及所属实体类型。
-
-
公开(公告)号:CN110083741B
公开(公告)日:2022-10-28
申请号:CN201910291983.1
申请日:2019-04-11
Applicant: 中国科学技术大学
IPC: G06F16/738 , G06F16/783 , G06V20/40 , G06V30/413 , G06V20/62 , G06F40/30 , H04N21/234 , H04N21/44 , H04N21/8549
Abstract: 本发明公开了一种文本与图像联合建模的面向人物的视频摘要提取方法,包括:对原始视频数据进行预处理,获得等间距的视频帧序列以及与原始视频数据相关的文本信息;利用人物检测的方法逐帧地、无差别地定位出所有的人物区域,并通过一定范围的时间窗口筛选出相关的文本信息;根据选出的人物区域与相关的文本信息,利用重识别的方法将每一人物与目标人物进行匹配,将匹配成功的人物区域及对应文本信息所属的视频帧作为关键帧;根据时间相关性聚合所有关键帧,并补充一些过渡帧以形成流畅的视频片段,从而得到面向人物的视频摘要。该方法可以结合视觉信息以及多源的文本信息,产生更加细粒度的面向视频人物的摘要。
-
-
-
-
-
-
-
-
-