-
公开(公告)号:CN115966002A
公开(公告)日:2023-04-14
申请号:CN202210892882.1
申请日:2022-07-27
Applicant: 中国科学技术大学
IPC: G06V40/16 , G06V20/40 , G06V10/764 , G06V10/82 , G06F16/783 , G06Q50/00
Abstract: 本申请公开了一种人物社交关系演化捕捉的方法、装置及相关产品。该方法包括:首先将目标视频处理成视频剪辑帧序列,并根据预设算法,提取视频剪辑帧序列中每个视频剪辑帧的多视角视觉特征,生成剪辑级图。然后基于第一预设注意力机制处理剪辑级图,确定场景级人物特征和人物对特征。利用上述特征确定人物角色的场景级社交关系图。如此,通过视频剪辑帧序列、预设算法和第一预设注意力机制处理,使得获取的场景级人物特征和人物对特征包含多视角和多模态信息,且所述特征包含了时间维度的变化。由此,克服了现有技术只考虑短视频中的人物关系识别而忽略时序演化因素带来的技术问题,提高了社交关系演化捕捉的准确度。
-
公开(公告)号:CN115953779A
公开(公告)日:2023-04-11
申请号:CN202310198396.4
申请日:2023-03-03
Applicant: 中国科学技术大学
IPC: G06V20/70 , G06V10/40 , G06V10/774 , G06V10/764 , G06V10/82 , G06N3/048 , G06N3/0455 , G06N3/0475 , G06N3/094 , G06N3/092 , G06N3/088 , G06F18/10 , G06F18/214 , G06F16/583 , G06F16/55
Abstract: 本发明公开了一种基于文本对抗生成网络的无监督图像描述生成方法,其步骤包括:1、对图像数据库进行图像特征提取,对辅助文本库进行文本数据清洗;2、构建基于语言‑图像对比学习预训练模型的文本对抗生成网络;3、构造图像特征‑图像描述伪标签,并利用伪标签训练生成器进行预热;4、使用自批判的强化学习驱动的对抗学习方式训练构建的网络模型;5、使用训练好的生成网络进行推断,实现无监督的图像描述生成。本发明能充分利用语言‑图像对比学习预训练模型CLIP的能力实现图像信息的提取,并能在没有人工成对标注的情况下进行自主训练,从而能显著提升无监督图像描述生成质量。
-
公开(公告)号:CN115186110B
公开(公告)日:2022-12-30
申请号:CN202211093805.6
申请日:2022-09-08
Applicant: 中国科学技术大学
IPC: G06F16/36 , G06F40/30 , G06K9/62 , G06V10/74 , G06V10/82 , G06N3/04 , G06N3/08 , G06N5/02 , G06N5/04
Abstract: 本发明公开了一种基于关系增强负采样的多模态知识图谱补全方法与系统,提出了一种新的知识指导跨模态注意力机制,该机制集成了同一实体的多个关系来估计多模态语义特征的双向注意力权重,并通过相互力注意对关系无关特征进行总结,进而通过嵌入关系指导特征对多模态注意进行双向推理,同时,引入对比损失来训练对比语义采样器,从而得到更合适的采样分布。并且,将masked操作与gumbel‑softmax相结合,以确保有效的梯度反向传播。通过本发明公开的方案,可以采样出多模态知识图谱补全任务所需的高质量负样本,从而有效保障多模态知识图谱的应用质量。
-
公开(公告)号:CN113223677A
公开(公告)日:2021-08-06
申请号:CN202010072681.8
申请日:2020-01-21
IPC: G16H40/20
Abstract: 本申请公开了针对患者的医生匹配方法及装置,属于通信技术领域。该方法包括:获取患者的症状数据集合和特征数据集合,症状数据集合用于反映患者的身体因疾病而表现出来的异常状态,特征数据集合用于标识患者,特征数据集合包括性别数据和年龄数据。根据症状数据集合和特征数据集合,确定患者与多个候选医生中每个候选医生的医患匹配系数,医患匹配系数用于反映患者与候选医生的匹配程度。根据患者与每个候选医生的医患匹配系数,在多个候选医生中,确定为患者看诊的目标医生。输出用于指示目标医生为患者看诊的指示信息。本申请提高了确定为患者看诊医生的准确性。
-
-
公开(公告)号:CN112287175A
公开(公告)日:2021-01-29
申请号:CN202011183864.3
申请日:2020-10-29
Applicant: 中国科学技术大学
IPC: G06F16/783 , G06K9/00 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种视频高亮片段预测方法和系统,方法包括:获取视频数据,将视频数据划分为固定长度的视频片段,并在训练数据上标记出高亮片段;使用神经网络从每个视频片段中分别提取出视觉特征和听觉情感特征;对视觉特征和听觉情感特征进行模态内与跨模态的融合,得到融合特征;基于融合特征对视频片段进行评分;使用成对的高亮‑非高亮片段组合,以及相应的损失函数训练模型;基于模型的训练结果选择合适的参数,对长视频中的所有片段进行评分,根据评分结果预测出视频高亮片段。本发明通过使用声音中蕴含的情感信息来强化视觉和听觉的联合建模过程,可以从难以进行人工标注的、缺少语义信息和细粒度标签的长视频数据中预测高亮片段。
-
-
公开(公告)号:CN107085800A
公开(公告)日:2017-08-22
申请号:CN201710271042.2
申请日:2017-04-24
Applicant: 中国科学技术大学
IPC: G06Q30/02
CPC classification number: G06Q30/0202 , G06Q30/0279
Abstract: 本发明公开了一种基于众筹平台的多产品供应数量优化方法,该方法基于已发布项目的相关信息进行多任务学习,考虑了不同产品甚至不同项目之间的关联,从而对于预测结果的精度上有一定的提高,可以准确的预估每一产品的供应数量。
-
公开(公告)号:CN119863830A
公开(公告)日:2025-04-22
申请号:CN202510336419.2
申请日:2025-03-21
Applicant: 中国科学技术大学
IPC: G06V40/16 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/09
Abstract: 本发明公开了一种基于多感受野视觉特征提取的微表情识别方法及系统,所述方法包括:对微表情数据集的原始图像帧进行预处理,包括人脸检测、对齐和裁剪,并基于起始帧和峰值帧计算TV‑L1光流特征,得到输入特征;将输入特征转换为重叠补丁形式输入至多感受野视觉特征提取网络;多感受野视觉特征提取网络包括:多个连续的局部‑全局特征整合阶段,每个阶段包含若干局部提取器与多层感知机的组合层,后接全局自注意力与多层感知机的组合层。通过将局部特征提取器与全局自注意力机制相结合,能够有效地捕捉微表情细微的面部特征和空间长程依赖关系。同时,非对称多重扫描策略减少冗余的同时增强了模型的空间感知能力,提升了微表情识别性能。
-
公开(公告)号:CN119028381B
公开(公告)日:2025-01-21
申请号:CN202411505238.X
申请日:2024-10-28
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种基于音素感知的语音情感识别方法及装置,所述方法包括:获取原始语音,对所述原始语音预处理得到音频序列和音素序列;通过所述初始模型的全连接层和softmax函数,得到音素标签的预测概率,通过第一交叉熵损失函数计算音素预测损失;将所述编码特征和所述解码特征通过挤压激励模块融合,得到增强特征;将增强特征在时间维度进行池化,并在特征维度上进行拼接,形成聚合特征。本发明提供的语音情感识别方法,减少了预训练表示中的身份信息,从而为语音情感识别任务提供更强大和更具区分性的特征。为了进一步利用预训练表示,引入了一个挤压激励模块,以建模特征通道之间的依赖关系并突出情感相关信息,提升了语音情感识别任务的性能。
-
-
-
-
-
-
-
-
-